人工智能的发展是为了理解对象关系

麻省理工学院研究人员开发的一种机器学习模型可以使机器人像人类与人工智能一样理解世界上的相互作用。

通过亚当Zewe 2021年12月7日
麻省理工学院(MIT)

当人们看一个场景时,他们看到的是物体和它们之间的关系。在你的桌子上,可能有一台笔记本电脑放在手机的左边,手机在电脑显示器前面。

许多深度学习模型很难以这种方式看待世界,因为它们不理解单个对象之间的纠缠关系。如果不了解这些关系,一个设计用来帮助厨房里的人的机器人将很难执行像“拿起炉子左边的抹刀,把它放在砧板上”这样的命令。

为了解决这个问题,麻省理工学院的研究人员开发了一个模型,可以使用人工智能(AI)理解场景中物体之间的潜在关系。他们的模型每次代表一个个体关系,然后结合这些表示来描述整个场景。这使得模型能够从文本描述中生成更准确的图像,即使场景中包含几个以不同关系排列的对象。

这项工作可以应用于工业机器人必须执行复杂的多步骤操作任务的情况,比如在仓库中堆叠物品或组装电器。它还使该领域更接近于使机器能够像人类一样从环境中学习并与环境互动。

“当我看到一张表时,我不能说在XYZ位置有一个对象。我们的大脑不是那样工作的。在我们的脑海中,当我们理解一个场景时,我们真正理解它是基于物体之间的关系。我们认为,通过建立一个能够理解物体之间关系的系统,我们可以使用该系统更有效地操纵和改变我们的环境,”计算机科学与人工智能实验室(CSAIL)的博士生、该论文的共同主要作者杜一伦说。

杜与CSAIL博士生李爽和伊利诺伊大学厄巴纳-香槟分校研究生刘楠共同撰写了这篇论文;以及脑与认知科学系认知科学与计算的Paul E. Newton职业发展教授,CSAIL成员Joshua B. Tenenbaum;资深作者Antonio Torralba, Delta电子电气工程和计算机科学教授,CSAIL成员。这项研究将在12月的神经信息处理系统会议上发表。

构建人工智能,一次建立一种关系

研究人员开发的框架可以根据物体及其关系的文本描述生成场景图像,比如“蓝色凳子左边有一张木桌”。一张红沙发在蓝凳子的右边。”

他们的系统会将这些句子分解成描述每个单独关系的两个较小的部分(“蓝色凳子左边的木桌”和“蓝色凳子右边的红沙发”),然后分别对每个部分进行建模。然后通过优化过程将这些片段组合在一起,生成场景图像。

研究人员使用了一种称为基于能量的模型的机器学习技术来表示场景描述中的单个对象关系。这种技术使他们能够使用一个基于能量的模型对每个关系描述进行编码,然后以一种推断所有对象和关系的方式将它们组合在一起。

通过将句子分解成每个关系的更短的片段,系统可以以各种方式重新组合它们,因此它能够更好地适应它以前从未见过的场景描述,李说。

“其他系统会从整体上考虑所有关系,并从描述中一次性生成图像。然而,当我们有分布外的描述时,比如有更多关系的描述,这些方法就失败了,因为这些模型不能真正地适应一个镜头来生成包含更多关系的图像。然而,当我们将这些独立的、较小的模型组合在一起时,我们可以模拟更多的关系,并适应新的组合。”杜说。

该系统也可以反向工作——给定一张图像,它可以找到与场景中物体之间关系匹配的文本描述。此外,他们的模型可以通过重新排列场景中的物体来编辑图像,使它们与新的描述相匹配。

研究人员开发的框架可以根据物体及其关系的文本描述生成场景图像,在此图中,研究人员的最终图像位于右侧,正确地遵循文本描述。麻省理工学院(MIT)

研究人员开发的框架可以根据物体及其关系的文本描述生成场景图像,在此图中,研究人员的最终图像位于右侧,正确地遵循文本描述。麻省理工学院(MIT)

用人工智能、深度学习理解复杂场景

研究人员将他们的模型与其他深度学习方法进行了比较,这些方法被赋予文本描述,并负责生成显示相应对象及其关系的图像。在每个实例中,他们的模型都优于基线。

他们还要求人们评估生成的图像是否与原始场景描述相符。在最复杂的例子中,描述包含三个关系,91%的参与者得出结论,新模型表现得更好。

“我们发现一个有趣的事情是,对于我们的模型,我们可以将我们的句子从一个关系描述增加到两个,三个,甚至四个描述,我们的方法仍然能够生成由这些描述正确描述的图像,而其他方法则失败,”杜说。

研究人员还向它展示了以前从未见过的场景的模型图像,以及每个图像的几种不同的文本描述,它能够成功地识别出与图像中物体关系最匹配的描述。

当研究人员给系统两种描述相同图像但方式不同的相关场景描述时,模型能够理解这两种描述是等价的。

研究人员对他们的模型的稳健性印象深刻,特别是在处理以前没有遇到过的描述时。

“这是非常有希望的,因为它更接近人类的工作方式。人类可能只看到几个例子,但我们可以从这几个例子中提取有用的信息,并将它们组合在一起,创造出无限的组合。我们的模型有这样一种特性,它可以从更少的数据中学习,但可以推广到更复杂的场景或图像。”

虽然这些早期的结果令人鼓舞,但研究人员希望看到他们的模型在现实世界中更复杂的图像上的表现,这些图像有嘈杂的背景和相互阻挡的物体。

他们也有兴趣最终将他们的模型整合到机器人系统中,使机器人能够从视频中推断物体关系,然后应用这些知识来操纵世界上的物体。

-编辑克里斯Vavra,网络内容经理,控制工程、CFE媒体与技术、cvavra@cfemedia.com


作者简介:Adam Zewe,麻省理工学院新闻办公室