机器像孩子一样学习语言

麻省理工学院的研究人员开发了一种语义解析器,它可以通过观察来学习,更接近地模仿儿童的语言习得过程,这可以极大地扩展计算的能力。

通过罗伯·马西森 11月14日

孩子们通过观察周围的环境,倾听周围的人,并将他们的所见所闻联系起来来学习语言。除此之外,这有助于孩子们建立语言的词序,比如主语和动词在句子中的位置。

在计算中,学习语言是语法和语义分析器的任务。这些系统是通过人类注释的句子来训练的,这些句子描述了单词背后的结构和含义。解析器在网络搜索、自然语言数据库查询和语音识别系统(如Alexa和Siri)中变得越来越重要。不久,它们也可能用于家庭机器人。

但是,对于不太常见的语言,收集注释数据既耗时又困难。此外,人们并不总是对注释意见一致,而且注释本身可能不能准确地反映人们的自然说话方式。

麻省理工学院的研究人员描述了一种通过观察来学习的解析器,它可以更接近地模仿儿童的语言习得过程,这可以极大地扩展解析器的功能。为了学习语言结构,解析器观察带有字幕的视频,在没有其他信息的情况下,将单词与记录的对象和动作联系起来。给定一个新句子,解析器可以使用它所学到的语言结构来准确预测句子的意思,而不需要视频。

这种“弱监督”的方法——意味着它需要有限的训练数据——模仿儿童如何观察周围的世界和学习语言,而不需要任何人提供直接的背景。研究人员表示,这种方法可以扩展数据类型,减少训练解析器所需的工作量。例如,一些直接注释的句子可以与许多更容易获得的字幕视频相结合,以提高性能。

在未来,解析器可以用来改善人类和个人机器人之间的自然交互。例如,配备了解析器的机器人可以不断观察其环境,以加强对口头命令的理解,包括当口头句子不完全符合语法或不清晰时。“人们用不完整的句子、断断续续的想法和混乱的语言交谈。你希望家里有一个机器人,它能适应它们特定的说话方式……并且仍然能理解它们的意思,”合著者安德烈·巴尔布说,他是麻省理工学院麦戈文研究所计算机科学与人工智能实验室(CSAIL)和大脑、思想和机器中心(CBMM)的研究员。

解析器还可以帮助研究人员更好地了解幼儿是如何学习语言的。“孩子可以从不同的方式获得冗余的、互补的信息,包括听父母和兄弟姐妹谈论世界,以及触觉信息和视觉信息,(这有助于他或她)理解世界,”合著者鲍里斯·卡茨说,他是CSAIL InfoLab小组的首席研究科学家和负责人。“这是一个惊人的难题,要处理所有这些同时的感官输入。这项工作是了解这种学习如何在世界上发生的更大部分的一部分。”

视觉学习者

在他们的工作中,研究人员将语义解析器与计算机视觉组件结合起来,这些组件在视频中接受过物体、人类和活动识别方面的训练。语义解析器通常是在用代码标注的句子上进行训练的,这些代码将每个单词的含义和单词之间的关系赋予它们。有些人接受过静态图像或计算机模拟训练。

电子工程和计算机科学系的研究生坎迪斯·罗斯(Candace Ross)说,新的解析器是第一个使用视频进行训练的解析器。在某种程度上,视频在减少歧义方面更有用。如果解析器对句子中的动作或对象不确定,它可以参考视频来澄清问题。罗斯说:“有时间组件——对象之间和人之间的交互,以及你在静止图像或语言中看不到的高级属性。”

研究人员编制了一个由大约400个视频组成的数据集,这些视频描绘了人们进行的一系列动作,包括拿起或放下一个物体,以及走向一个物体。众包平台Mechanical Turk的参与者随后为这些视频提供了1200个字幕。他们留出了840个视频标题示例用于训练和调整,并使用360个视频标题示例进行测试。使用基于视觉的解析的一个优点是“你不需要那么多的数据——尽管如果你有了数据,你可以扩展到庞大的数据集,”Barbu说。

在训练中,研究人员让解析器确定一个句子是否准确地描述了给定的视频。他们向解析器提供一段视频和相应的标题。解析器将标题的可能含义提取为逻辑数学表达式。例如,这个句子,“这个女人正在捡一个苹果”,可以表达为:λxy。女人x,拿起x y,苹果y。

这些表情和视频被输入到计算机视觉算法中,该算法被称为“句子追踪器”,由Barbu和其他研究人员开发。该算法会查看每个视频帧,跟踪物体和人是如何随时间变化的,以确定动作是否如描述的那样进行。通过这种方式,它可以确定视频的含义是否可能是真实的。

串连点点滴滴

对象、人和动作的表示最接近匹配的表达式成为标题最有可能的含义。最初,表达式可能指的是视频中许多不同的对象和动作,但可能的含义集可以作为训练信号,帮助解析器不断筛选可能性。巴尔布说:“假设所有的句子都必须遵循同样的规则,它们都来自同一种语言,再看很多配有字幕的视频,你就可以进一步缩小意思的范围。”

简而言之,解析器通过被动观察来学习:为了确定视频的标题是否正确,解析器必须识别标题的最高概率含义。“判断视频中的句子是否正确的唯一方法是经过中间步骤,‘这句话是什么意思?否则,你不知道如何将两者联系起来,”巴尔布解释说。“我们不给系统提供句子的意思。我们说,‘有一个句子和一个视频。视频里的句子必须是真的。找出一些中间的表示,使它对视频成立。’”

这种训练为它所学的单词生成了句法和语义语法。给定一个新句子,解析器不再需要视频,而是利用其语法和词汇来确定句子的结构和含义。

巴布说,最终,这个过程就是“像孩子一样”学习。“你看到周围的世界,听到人们说话来学习意义。有一天,我可以给你一个句子,问你它是什么意思,即使没有视觉效果,你也知道它的意思。”

在未来的工作中,研究人员对相互作用的建模感兴趣,而不仅仅是被动的观察。“孩子们在学习的过程中与环境互动。我们的想法是建立一个模型,它也可以使用感知来学习,”罗斯说。


作者简介:作者,麻省理工学院新闻办公室