深度学习引发第二次机器视觉革命

深度学习机器视觉软件本质上允许机器从数据表示中学习，而不是特定于任务的算法，这可以增强工厂车间的能力，远远超出目前的可能。

通过温·哈丁，AIA 2018年6月21日

业内人士表示，深度学习正在带来第二次机器视觉革命，使设计师能够创建零件规格，从而开发出成功的机器视觉解决方案，这在以前是不可实现的。

自动化集成商Cyth Systems的首席执行官Andy Long表示:“过去五年来，我们一直在认真投资这项技术，但直到最近两到三年，它才变得可行。”“但在过去18个月里，深度学习需求的加速增长令人震惊。”

与许多重要的机器视觉技术(如智能相机和3d传感器)不同的是，采用这些技术是由对技术感兴趣的工程师推动的，而深度学习的领军人物通常位于c级套件中，他们对能力的兴趣与技术的兴趣一样大。朗说:“高管们说，我们需要投资这项技术，看看它能做什么。”

一种机器视觉的新方法

深度学习机器视觉软件本质上允许机器从数据表示中学习——在这种情况下，图像已经被人类检查员标记——而不是特定于任务的算法。通过使用基于软件的神经网络，深度学习程序就像孩子一样学习——最终学会在看到成千上万张标记为好或坏的图像的基础上，从“坏”中识别“好”。

“这让我想起了30年前的机器视觉市场，”康耐视公司(Cognex Corporation)视觉软件营销总监约翰·彼得里(John Petry)说。“今天，我们所有的客户都在某种程度上熟悉传统的机器视觉。他们可以拿起机器视觉工具，快速了解对齐工具的工作原理，并解决应用程序。但对于深度学习，我们正在与全自动化团队进行技术讨论，讨论在哪里使用它，如何训练系统，如何评估样本和缺陷，深度学习系统可以运行多快，以及管理层是否可以信任结果。这是我们30年前经常进行的对话。”

尽管像康耐视和MVTec software GmbH这样的深度学习软件提供商在这方面取得了惊人的进展，但他们很快指出，这项技术并不适用于所有的机器视觉应用。例如，MVTec在2016年11月发布的初始深度学习算法，专注于光学字符识别应用。深度学习算法学习新字体的能力，解释倾斜的文本和3d视角的变化，以及更多使OCR成为主要目标——以至于两家公司现在都提供预训练的OCR神经网络。

训练、测试和深度学习

如前所述，机器视觉中的深度学习是基于软件分析“监督”数据集，以了解什么是好的或坏的部件、分组或组装。传统的机器视觉软件分析两张图像——一张是划痕，另一张是划线——无法知道哪张图像包含缺陷，而哪张图像包含设计。深度学习软件通过查看数千张图像并读取图像的元数据标题来学习区分划痕和设计。虽然机器视觉集成商已经积累了巨大的图像库，但其中许多图像是客户的财产，不能用于作为深度学习解决方案的一部分来训练新的神经网络。

Hiltner说:“目前通过Caffe和TensorFlow以及其他开源深度学习程序可以公开获取数据集，但大多数数据集都无法用于商业项目。”“作为我们产品的一部分，我们正在提供预先训练的网络，这些网络针对许多常见的工业机器视觉应用进行了优化。通过使用我们预先训练好的网络，客户可以使用相对较小的一组标记图像而不是数万或数十万张图像来优化他们的应用程序。”

除了OCR工具，康耐视没有提供大型训练过的神经网络库。Petry解释说，相反，它的软件把这个过程分解成更小的部分，每个部分只需要20到50个图像集。“这让我们可以在商用cpu和gpu上运行，你可以在5分钟内训练系统，而不是几个小时。深度学习最大的好处之一是，工程师可以在几分钟内确定一个应用程序是否可以解决，而不是花几周时间试图解决一个问题，但最后却发现，以今天的技术，这是不可能的。”

经验丰富的机器视觉集成商正在开发流程，以帮助客户评估深度学习，并为其应用生成可行的数据集。ATS自动化成像总监Steve Wardell表示:“当我们对零件没有足够的控制，或者不能围绕规格设置足够的边界时，我们就会考虑使用深度学习。”

为了开发一个代表生产线的数据集，而不会过多地干扰现有生产，ATS建议对候选应用程序采用混合方法。ATS在检验员和产品之间插入了摄像头和监视器，而不是人工检验员对实际产品进行评估。检验员检查产品并适当地贴上标签。标记后的图像可以被输入到深度学习程序中，以检查所提出的解决方案的有效性。

沃德尔说:“很多项目都来自我们的生命科学和制药客户。“这些行业有很多监管和验证要求。我们认为这种混合方法是真正实现这些行业所需的工艺验证水平的一种方法。即使深度学习软件不成功，我们也能够为客户提供对他们来说非常宝贵的生产数据，从而改进流程。”

Cyth Systems使用其深度学习平台从生产环境中捕获图像，并将这些标记的数据集发送到云端进行离线处理。朗说:“我们认为，今天的检查员应该是训练下一代机器视觉系统的人。”“我们在这里真正谈论的是机器视觉的民主化。我们设计了神经视觉，所以用户永远不需要知道异构计算平台。他们只需要知道:那是我的部分。我需要它朝这个方向看，而不是朝那个方向看，并且转移它。”

根据Long的说法，我们的目标是:“我们正在消除过去限制机器视觉发展的金手铐。现在，编程一个机器视觉系统需要太多的技能。我们正在努力使你完全不需要这些技能。你不需要理解机器视觉术语。对我来说，技术是驱动者，而且技术的发展速度比以往任何时候都要快。这是一个非常激动人心的时刻。”

韦恩哈丁是AIA的特约编辑。本文最初发表于在线视觉。AIA是先进自动化协会(A3)的一部分，是CFE媒体的内容合作伙伴。由CFE媒体制作编辑克里斯·瓦夫拉编辑，cvavra@cfemedia.com．

在线额外

看到更多来自AIA的报道，链接如下。

原始内容可以在www.visiononline.org．

您是否具有本内容中提到的主题的经验和专业知识?你应该考虑为我们的CFE媒体编辑团队做出贡献，并获得你和你的公司应得的认可。点击在这里开始这个过程。

搜索产品，发现你所在行业的创新