人工智能将彻底改变,而不是取代机器视觉

人工智能(AI)已经发展成为我们日常生活中不可或缺的一部分,这项技术将增强和改善机器视觉。

通过丹·麦卡锡 10月3日

在10年里,人工智能(AI)已经从实验室里的好奇心发展成为我们日常生活中越来越普遍(如果不是总是可见的话)的一部分。虽然我们中的许多人可能不认识为我们与智能手机、语音助手、电子商务网站或流媒体服务的日常互动提供动力的人工智能系统,但这些系统肯定能识别我们,而且它们可以越来越准确地预测我们的偏好。

尽管这看起来很怪异,但许多人工智能系统只是将我们的选择与类似选项的结构化数据库进行比较。例如,Netflix的人工智能可以通过交叉引用类似标签的电影来得出我们对黑色电影的偏好。但如果没有这些标签,就需要深度学习算法和相关图像库来区分黑色电影场景和埃丝特·威廉姆斯(Esther Williams)的游泳片段。

深度学习通常被定义为机器学习的一个子集(本身是人工智能的一个子集),它采用神经网络和算法,使机器能够在没有明确编程执行特定任务的情况下进行学习。除了图像之外,这些数据还可能包括音频文件、业务文档或天气模型。

在消费领域,深度学习图像的大多数应用都与识别和分类有关,从无聊的智能手机应用程序(例如,Not Hotdog)到强大的系统,使Facebook能够自动识别沙发上一坨皮毛的图像为猫,以便稍后搜索、参考,并可能有针对性地投放广告。

深度学习还为谷歌的视觉AI API提供了支持,该API利用了该公司约10,000个视觉可识别对象的原生目录,执行相当于在万维网上进行反向图像搜索的操作。谷歌的深度学习平台除了列出用于给定图像的现有标题之外,还可以生成新的图像标签,例如,当每日新闻中发生随机事件时。

人工智能革命开始

虽然大多数消费者对深度学习的黑匣子里有什么不感兴趣,但只要它能工作,谷歌的视觉AI API所展示的功能对机器视觉行业有明确的影响,几十年来,机器视觉行业一直依赖于固定的基于规则的方法和对图像数据的通过/失败解释。

基于规则的编程擅长测量和对齐,深度学习工具可以对图像数据进行分类,以执行复杂的化妆品检查,区分不同的材料,验证组装,并且通常适用于非结构化图像数据。这并不是说深度学习有一天会取代传统的机器视觉,而是扩展它的能力。

MVTec Software GmbH的HALCON Library产品负责人Thomas Hünerfauth表示:“深度学习是一种简单而强大的应用解决方案,人类肉眼很容易检测到,但使用基于规则的方法很难。”

例如,深度学习解决方案可以帮助视觉系统在图像中区分杂草和作物,以帮助农民识别并适当扩展对策。事实上,Hünerfauth指出,几乎任何涉及天然材料检测的食品工业应用都可以从深度学习工具中受益。他说:“设计用于测量或斑点分析的基于规则的方法发现这相当困难,但这种挑战可以通过深度学习很容易地解决。”

作为机器学习的一个子集,深度学习技术不仅仅是解释图像数据,它还有助于扩展图像数据,使图像处理系统变得更加精确。与传统的机器视觉解决方案依赖于开发人员定义和验证目标特征不同,深度学习软件利用神经网络,就像人类智能一样,可以通过训练来区分图像中的特征,同时容忍变化。当系统捕获新图像时,软件识别对象和异常,并将新图像数据分配给适当的类。

Teledyne Dalsa的软件总监布鲁诺·梅纳德(Bruno Menard)说:“如果你想训练一个神经网络,你只有100张图像,但你需要1000张图像,你可以人工生成这些图像。”“这是数据增强的一种形式。”

掀开盖子

深度学习并非没有挑战。编译图像库和训练神经网络可能与为目标检测或分割等应用程序编程机器视觉系统一样费力。作为回应,视觉提供商正在开发更简单的接口和预训练的阅读工具,以帮助简化部署深度学习工具所需的图像库。

另一个挑战是,与消费者相比,机器视觉工程师和最终用户往往不愿意忽视黑盒子里的东西。Hünerfauth表示:“如果你训练了系统,并得到了好的结果,那就没事了,一切都很好。”“但如果它的结果是错误的,就很难解释为什么,这在某些行业是非常难以接受的。所以,我们必须把黑盒子变成灰盒子,给这些客户更好的反馈,并试图解释里面发生了什么。”

在这方面,谷歌的研究也可能提供一些见解。该公司最近与OpenAI合作,探索当人工智能通过机器视觉系统观察世界时,它看到了什么。利用他们所谓的“激活地图集”,合作者正在绘制各个算法如何一起激活,将抽象的形状、颜色和图案转换为可识别的图像。通过有效地揭开视觉数据算法得出结论的黑匣子的盖子,该研究旨在支持更健壮的算法的开发。这种见解可能会在深度学习的机器视觉应用中被证明是有益的,因为深度学习对验证图像的要求要高得多。

补充技术

就其强大的能力和适应性而言,深度学习将彻底改变机器视觉,而不是取代它。它们是互补的技术。机器视觉在图像数据中识别几何图案和边缘的能力仍然是实现高精度测量的亚像素精度的最佳方法。深度学习有望通过引入类似人类的能力来判断和学习图像数据,从而扩展该学科的能力。但深度学习仍然受益于人类训练师——尤其是熟悉传统机器视觉技术的训练师。经验丰富的工程师可能经常会发现,他们的应用专业知识在优化深度学习的学习能力方面很有价值。

丹·麦卡锡是AIA的特约编辑。本文最初发表于视觉在线.AIA是先进自动化协会(A3)的一部分,是CFE媒体的内容合作伙伴。由CFE媒体制作编辑克里斯·瓦夫拉编辑,cvavra@cfemedia.com

原始内容可以在www.visiononline.org


作者简介:丹·麦卡锡,AIA特约编辑