计算机系统可以预测物体对外力的反应

麻省理工学院的研究人员相信,他们可以通过构建接近这些能力的计算机系统,帮助回答有关人类在发展的哪个阶段使用了哪些信息处理资源的问题,这可能会对机器人视觉系统产生一些有用的见解。

通过拉里·哈德斯蒂,麻省理工学院新闻处 2018年1月12日

麻省理工学院的研究人员相信,他们可以通过构建接近这些能力的计算机系统,帮助回答有关人类在发展的哪个阶段使用了哪些信息处理资源的问题。在此过程中,研究人员可能还会产生一些对机器人视觉系统有用的见解。他们正在研究智能体在世界上导航所需的基本认知能力:辨别不同的物体,并推断它们对物理力量的反应。

麻省理工学院(MIT)脑与认知科学教授乔希·特南鲍姆(Josh Tenenbaum)说:“这里的共同主题实际上是学习感知物理。”“首先要看到物体的完整3d形状,以及场景中的多个物体,以及它们的物理特性,如质量和摩擦,然后推理这些物体将如何随着时间的推移而移动。嘉君的四篇论文论述了整个空间。综上所述,我们开始能够制造出越来越多的机器,来捕捉人们对物理世界的基本理解。”

他和他的学生吴家军共同撰写了四篇研究这一主题的论文。其中三篇论文涉及从视觉和听觉数据推断物体物理结构的信息。第四个是基于这些数据预测物体的行为。

双向的

这四篇论文的另一个共同点是他们对机器学习的不同寻常的方法。机器学习是一种计算机通过分析大量训练数据来学习执行计算任务的技术。在典型的机器学习系统中,训练数据被标记为:例如,人类分析师将识别视觉场景中的物体或转录口语句子中的单词。系统试图了解数据的哪些特征与哪些标签相关,并根据它标记以前未见过的数据的好坏来判断。

在吴和特南鲍姆的新论文中,该系统被训练来推断世界的物理模型——例如,大多数隐藏在视线之外的物体的3-D形状。但随后它会反向工作,使用该模型对输入数据进行重新合成,并根据重建数据与原始数据的匹配程度来判断其性能。

例如,使用视觉图像来构建场景中物体的三维模型需要剥离任何遮挡物体;过滤掉混淆的视觉纹理、反射和阴影;并推断出看不见的表面的形状。然而,一旦Wu和Tenenbaum的系统建立了这样一个模型,它就会在空间中旋转它并添加视觉纹理,直到它可以近似输入数据。

事实上,研究人员的四篇论文中有两篇解决了从视觉数据推断三维模型的复杂问题。在这些论文中,麻省理工学院的其他四位研究人员也加入了他们的研究,包括帕金斯电气工程和计算机科学教授威廉·弗里曼(William Freeman),以及DeepMind、上海科技大学和上海交通大学的同事。

分而治之

研究人员的系统是基于麻省理工学院神经科学家大卫·马尔(David Marr)颇具影响力的理论,他于1980年不幸去世,年仅35岁。Marr假设,在解释一个视觉场景时,大脑首先创造出他所谓的物体的2.5维草图,即物体面向观众的那些表面的表现。然后,在2.5维草图的基础上——不是关于场景的原始视觉信息——大脑推断出物体的完整的三维形状。

“这两个问题都很难,但有一个很好的方法来解开它们,”吴说。“你可以一次只做一件事,这样你就不必同时处理两件事,那样就更难了。”

吴和他的同事们的系统需要在包括视觉图像和图像所描绘的物体的三维模型的数据上进行训练。为真实照片中描绘的物体构建精确的三维模型将非常耗时,因此,研究人员最初使用合成数据来训练他们的系统,其中视觉图像是从三维模型生成的,而不是相反。制作数据的过程就像制作一部电脑动画电影。

然而,一旦系统接受了合成数据的训练,它就可以使用真实数据进行微调。这是因为它的最终性能标准是重建输入数据的准确性。它仍在构建3d模型,但它们不需要与人类构建的模型进行性能评估。

在评估他们的系统时,研究人员使用了一种称为交集比并的方法,这在该领域很常见。在这方面,他们的系统优于其前辈。但是一个给定的相交-超并分数给三维模型的平滑度和形状的局部变化留下了很大的空间。因此,Wu和他的同事也对模型对源图像的保真度进行了定性研究。在这项研究的参与者中,74%的人更喜欢新系统的重建,而不是以前的系统。

所有的秋天

在吴和特南鲍姆的另一篇论文中,弗里曼以及麻省理工学院、剑桥大学和上海科技大学的研究人员再次加入了他们的研究,他们训练了一个系统来分析物体掉落的音频记录,以推断物体的形状、组成和下落高度等属性。再一次,系统被训练来产生物体的抽象表征,反过来,它用来合成物体从特定高度落下时发出的声音。系统的性能是根据合成声音和源声音的相似度来判断的。

最后,在他们的第四篇论文中,Wu、Tenenbaum、Freeman和DeepMind和牛津大学的同事们描述了一个系统,该系统开始模拟人类对作用在世界上物体上的物理力的直觉理解。这篇论文继承了之前论文的缺漏:它假设系统已经推导出了物体的三维形状。

这些形状很简单:球状和立方体。研究人员训练他们的系统执行两项任务。第一个是估计台球桌上球的运动速度,并在此基础上预测它们在碰撞后的表现。第二种方法是分析堆叠立方体的静态图像,并确定它们是否会掉落,如果会,它们会落在哪里。

Wu开发了一种表征语言,他称之为场景XML,可以定量地描述视觉场景中物体的相对位置。系统首先学会用该语言描述输入数据。然后,它将该描述提供给一个叫做物理引擎的东西,该引擎对作用于所表示对象的物理力进行建模。物理引擎是计算机动画和科学计算的主要组成部分,它们可以生成服装、下落物体等的运动,也可以用于大规模的物理模拟。

在物理引擎预测了球和盒子的运动之后,这些信息被输入到图形引擎,图形引擎的输出再次与源图像进行比较。与视觉识别的研究一样,研究人员在用真实数据对系统进行改进之前,先用合成数据对系统进行训练。

在测试中,研究人员的系统再次优于其前身。在一些涉及台球的测试中,它的表现也经常超过人类观察者。

麻省理工学院(MIT)

www.mit.edu

- Chris Vavra编辑,制作编辑,控制工程, CFE传媒,cvavra@cfemedia.com.查看更多控制工程机器人的故事