机器像孩子一样学习语言

麻省理工学院的研究人员开发了一种语义解析器，它可以通过观察来学习，更接近地模仿儿童的语言习得过程，这可以极大地扩展计算的能力。

通过罗伯·马西森 11月14日

孩子们通过观察周围的环境，倾听周围的人，并将他们的所见所闻联系起来来学习语言。除此之外，这有助于孩子们建立语言的词序，比如主语和动词在句子中的位置。

在计算中，学习语言是语法和语义分析器的任务。这些系统是通过人类注释的句子来训练的，这些句子描述了单词背后的结构和含义。解析器在网络搜索、自然语言数据库查询和语音识别系统(如Alexa和Siri)中变得越来越重要。不久，它们也可能用于家庭机器人。

但是，对于不太常见的语言，收集注释数据既耗时又困难。此外，人们并不总是对注释意见一致，而且注释本身可能不能准确地反映人们的自然说话方式。

麻省理工学院的研究人员描述了一种通过观察来学习的解析器，它可以更接近地模仿儿童的语言习得过程，这可以极大地扩展解析器的功能。为了学习语言结构，解析器观察带有字幕的视频，在没有其他信息的情况下，将单词与记录的对象和动作联系起来。给定一个新句子，解析器可以使用它所学到的语言结构来准确预测句子的意思，而不需要视频。

这种“弱监督”的方法——意味着它需要有限的训练数据——模仿儿童如何观察周围的世界和学习语言，而不需要任何人提供直接的背景。研究人员表示，这种方法可以扩展数据类型，减少训练解析器所需的工作量。例如，一些直接注释的句子可以与许多更容易获得的字幕视频相结合，以提高性能。

在未来，解析器可以用来改善人类和个人机器人之间的自然交互。例如，配备了解析器的机器人可以不断观察其环境，以加强对口头命令的理解，包括当口头句子不完全符合语法或不清晰时。“人们用不完整的句子、断断续续的想法和混乱的语言交谈。你希望家里有一个机器人，它能适应它们特定的说话方式……并且仍然能理解它们的意思，”合著者安德烈·巴尔布说，他是麻省理工学院麦戈文研究所计算机科学与人工智能实验室(CSAIL)和大脑、思想和机器中心(CBMM)的研究员。

解析器还可以帮助研究人员更好地了解幼儿是如何学习语言的。“孩子可以从不同的方式获得冗余的、互补的信息，包括听父母和兄弟姐妹谈论世界，以及触觉信息和视觉信息，(这有助于他或她)理解世界，”合著者鲍里斯·卡茨说，他是CSAIL InfoLab小组的首席研究科学家和负责人。“这是一个惊人的难题，要处理所有这些同时的感官输入。这项工作是了解这种学习如何在世界上发生的更大部分的一部分。”

视觉学习者

在他们的工作中，研究人员将语义解析器与计算机视觉组件结合起来，这些组件在视频中接受过物体、人类和活动识别方面的训练。语义解析器通常是在用代码标注的句子上进行训练的，这些代码将每个单词的含义和单词之间的关系赋予它们。有些人接受过静态图像或计算机模拟训练。

电子工程和计算机科学系的研究生坎迪斯·罗斯(Candace Ross)说，新的解析器是第一个使用视频进行训练的解析器。在某种程度上，视频在减少歧义方面更有用。如果解析器对句子中的动作或对象不确定，它可以参考视频来澄清问题。罗斯说:“有时间组件——对象之间和人之间的交互，以及你在静止图像或语言中看不到的高级属性。”

研究人员编制了一个由大约400个视频组成的数据集，这些视频描绘了人们进行的一系列动作，包括拿起或放下一个物体，以及走向一个物体。众包平台Mechanical Turk的参与者随后为这些视频提供了1200个字幕。他们留出了840个视频标题示例用于训练和调整，并使用360个视频标题示例进行测试。使用基于视觉的解析的一个优点是“你不需要那么多的数据——尽管如果你有了数据，你可以扩展到庞大的数据集，”Barbu说。

在训练中，研究人员让解析器确定一个句子是否准确地描述了给定的视频。他们向解析器提供一段视频和相应的标题。解析器将标题的可能含义提取为逻辑数学表达式。例如，这个句子，“这个女人正在捡一个苹果”，可以表达为:λxy。女人x，拿起x y，苹果y。

这些表情和视频被输入到计算机视觉算法中，该算法被称为“句子追踪器”，由Barbu和其他研究人员开发。该算法会查看每个视频帧，跟踪物体和人是如何随时间变化的，以确定动作是否如描述的那样进行。通过这种方式，它可以确定视频的含义是否可能是真实的。

串连点点滴滴

对象、人和动作的表示最接近匹配的表达式成为标题最有可能的含义。最初，表达式可能指的是视频中许多不同的对象和动作，但可能的含义集可以作为训练信号，帮助解析器不断筛选可能性。巴尔布说:“假设所有的句子都必须遵循同样的规则，它们都来自同一种语言，再看很多配有字幕的视频，你就可以进一步缩小意思的范围。”

简而言之，解析器通过被动观察来学习:为了确定视频的标题是否正确，解析器必须识别标题的最高概率含义。“判断视频中的句子是否正确的唯一方法是经过中间步骤，‘这句话是什么意思?否则，你不知道如何将两者联系起来，”巴尔布解释说。“我们不给系统提供句子的意思。我们说，‘有一个句子和一个视频。视频里的句子必须是真的。找出一些中间的表示，使它对视频成立。’”

这种训练为它所学的单词生成了句法和语义语法。给定一个新句子，解析器不再需要视频，而是利用其语法和词汇来确定句子的结构和含义。

巴布说，最终，这个过程就是“像孩子一样”学习。“你看到周围的世界，听到人们说话来学习意义。有一天，我可以给你一个句子，问你它是什么意思，即使没有视觉效果，你也知道它的意思。”

在未来的工作中，研究人员对相互作用的建模感兴趣，而不仅仅是被动的观察。“孩子们在学习的过程中与环境互动。我们的想法是建立一个模型，它也可以使用感知来学习，”罗斯说。

您是否具有本内容中提到的主题的经验和专业知识?您应该考虑为我们的CFE媒体编辑团队做出贡献，并获得您和您的公司应得的认可。点击在这里开始这个过程。

罗伯·马西森

作者简介:作者，麻省理工学院新闻办公室

搜索产品并发现您所在行业的新创新