机器周边视觉的好处

麻省理工学院的研究人员发现,一些计算机视觉系统处理图像的方式与人类用眼角看东西的方式有相似之处。

通过亚当Zewe 2022年3月3日
提供:麻省理工学院的Jose-Luis Olivares

也许计算机视觉和人类视觉有更多的共同之处?

麻省理工学院的研究表明,某种类型的稳健计算机视觉模型感知视觉表征的方式与人类使用周边视觉的方式相似。这些模型被称为对抗鲁棒模型,旨在克服添加到图像数据中的细微噪声。

研究人员发现,这些模型学习转换图像的方式与人类周边处理中涉及的一些元素类似。但是,由于机器没有视觉外围,计算机视觉模型的研究很少集中在外围处理上,大脑、思想和机器中心的博士后、资深作者Arturo Deza说。

“这似乎是周边视觉,以及那里发生的纹理表征,已被证明对人类视觉非常有用。所以,我们的想法是,好吧,也许在机器上也有一些用途,”首席作者安妮·哈林顿说,她是电气工程和计算机科学系的研究生。

结果表明,设计一个包含某种形式的外围处理的机器学习模型,可以使模型自动学习对图像数据中的一些微妙操作具有鲁棒性的视觉表示。Deza补充说,这项工作也有助于阐明人类外围处理的目标,这一点仍然没有得到很好的理解。

复视

人类和计算机视觉系统都有所谓的中央凹视觉,用于仔细检查高度详细的物体。人类还拥有周边视觉,用于组织广阔的空间场景。典型的计算机视觉方法试图模拟中央凹视觉——这是机器识别物体的方式——而往往忽略了周边视觉,Deza说。

然而,中央凹计算机视觉系统容易受到攻击者添加到图像数据的对抗性噪声的影响。在对抗性攻击中,恶意代理会巧妙地修改图像,使每个像素都发生非常轻微的变化——人类不会注意到这种差异,但噪音足以欺骗机器。例如,一张图像对人类来说可能看起来像一辆汽车,但如果它受到对抗性噪声的影响,计算机视觉模型可能会错误地将其归类为蛋糕,这可能会对自动驾驶汽车产生严重影响。

为了克服这一漏洞,研究人员进行了所谓的对抗性训练,他们创建了经过对抗性噪声处理的图像,将其馈送给神经网络,然后通过重新标记数据来纠正其错误,然后重新训练模型。

Deza说:“仅仅是做额外的重新标记和训练过程,似乎就能与人类处理过程产生很多感知上的一致。”

他和哈林顿想知道,这些经过对抗性训练的网络是否强大,因为它们编码的物体表示类似于人类的周边视觉。因此,他们设计了一系列的人体心理物理实验来验证他们的假设。

麻省理工学院的一项新研究表明,某种类型的计算机视觉模型被训练为对添加到图像数据中的不可察觉的噪声具有鲁棒性,它对视觉表征进行编码,与人类使用周边视觉的方式类似。提供:麻省理工学院的Jose-Luis Olivares

麻省理工学院的一项新研究表明,某种类型的计算机视觉模型被训练为对添加到图像数据中的不可察觉的噪声具有鲁棒性,它对视觉表征进行编码,与人类使用周边视觉的方式类似。提供:麻省理工学院的Jose-Luis Olivares

屏幕时间

他们从一组图像开始,使用三种不同的计算机视觉模型从噪声中合成这些图像的表示:一个是“正常的”机器学习模型,一个是经过训练的对抗鲁棒性模型,另一个是专门设计用于解释人类外围处理的某些方面的模型,称为Texforms。

该团队在一系列实验中使用了这些生成的图像,参与者被要求区分原始图像和每个模型合成的图像。一些实验还让人们区分来自同一模型的随机合成的不同图像对。

参与者的眼睛集中在屏幕的中央,而屏幕的另一边,在他们周围的不同位置,有图像在闪烁。在一项实验中,参与者必须从一系列每次只闪现几毫秒的图像中识别出奇怪的图像,而在另一项实验中,他们必须匹配中央凹处出现的图像,并在周围放置两张候选模板图像。

当合成图像显示在较远的外围时,参与者在很大程度上无法区分对抗鲁棒模型和Texform模型的原始图像之间的区别。这不是标准机器学习模型的情况。

然而,也许最引人注目的结果是,在所有使用Texform模型和对抗鲁棒模型衍生的刺激的实验条件下,人类所犯错误的模式(作为刺激落在外围的函数)是高度一致的。Deza说,这些结果表明,对抗鲁棒模型确实捕捉到了人类外围处理的某些方面。

研究人员从一组图像开始,使用三种不同的计算机视觉模型从噪声中合成这些图像的表示形式:一个“正常”的机器学习模型,一个经过了对抗鲁棒性训练的模型,另一个专门设计用于解释人类外围处理的某些方面,称为Textorms。提供:麻省理工学院

研究人员从一组图像开始,使用三种不同的计算机视觉模型从噪声中合成这些图像的表示形式:一个“正常”的机器学习模型,一个经过了对抗鲁棒性训练的模型,另一个专门设计用于解释人类外围处理的某些方面,称为Textorms。提供:麻省理工学院

研究人员还计算了特定的机器学习实验和图像质量评估指标,以研究每个模型合成的图像之间的相似性。他们发现,由对抗鲁棒模型和Texforms模型生成的图像是最相似的,这表明这些模型计算了相似的图像转换。

Deza说:“我们正在阐明人类和机器是如何犯同样的错误的,以及为什么会犯同样的错误。”“为什么会出现对抗性健壮性?我们还没有在大脑中发现的机器对抗性健壮性是否存在生物学上的对等物?”

Deza希望这些结果能激发这一领域的更多工作,并鼓励计算机视觉研究人员考虑建立更多受生物学启发的模型。

这些结果可用于设计具有某种仿真视觉外围的计算机视觉系统,使其自动对对抗性噪声具有鲁棒性。这项工作还可以为开发能够通过使用人类周边处理的某些方面来创建更准确的视觉表示的机器提供信息。

研究人员设计了一系列的人体心理物理实验,参与者被要求区分原始图像和每个模型合成的图像。这张照片展示了实验的一个例子。提供:麻省理工学院

研究人员设计了一系列的人体心理物理实验,参与者被要求区分原始图像和每个模型合成的图像。这张照片展示了实验的一个例子。提供:麻省理工学院

哈林顿说:“我们甚至可以通过尝试从人工神经网络中获得某些特性来了解人类的视觉。”

之前的工作已经展示了如何分离图像的“稳健”部分,在这些图像上训练模型使它们不太容易受到对抗性失败的影响。达姆施塔特技术大学心理学研究所和认知科学中心的知觉学教授托马斯·沃利斯解释说,这些生动的图像看起来就像真实图像的打乱版本。

“为什么这些生动的图像看起来是这样的?”“哈林顿和德扎使用了仔细的人类行为实验来证明,人们看到这些图像和原始照片之间差异的能力,在本质上与人类从生物学启发的边缘信息处理模型生成的图像相似,”沃利斯说,他没有参与这项研究。哈林顿和德扎提出,学习忽略外围一些视觉输入变化的相同机制可能是为什么健壮图像看起来是这样的,以及为什么对健壮图像进行训练会降低对抗敏感性。这个有趣的假设值得进一步研究,它可以代表生物智能和机器智能研究之间协同作用的另一个例子。”

-由Chris Vavra编辑,网页内容经理,控制工程, CFE媒体与技术,cvavra@cfemedia.com


作者简介:Adam Zewe,麻省理工学院新闻办公室