处理神经网络的思维和处理语言的能力

麻省理工学院的研究人员开发了一种技术，可以阐明处理语言的人工智能系统的内部工作原理，从而提高机器的整体效率。

通过Larry Hardesty，麻省理工学院新闻办公室 2018年1月7日

神经网络通过分析庞大的训练数据集来学习执行计算任务，它是人工智能领域最近最令人印象深刻的进展，包括语音识别和自动翻译系统。然而，在训练过程中，神经网络会不断调整其内部设置，其方式甚至连它的创造者都无法解释。计算机科学最近的许多工作都集中在确定神经网络如何做它们所做的事情的聪明技术上。

在最近的几篇论文中，来自麻省理工学院计算机科学与人工智能实验室(CSAIL)和卡塔尔计算研究所的研究人员使用了一种最近开发的解释技术，该技术已应用于其他领域，用于分析训练用于进行机器翻译和语音识别的神经网络。

他们发现了一些关于网络可能如何工作的常见直觉的经验支持。例如，系统似乎专注于较低层次的任务，如声音识别或词性识别，然后再转向更高层次的任务，如转录或语义解释。

但研究人员还发现，翻译网络考虑的数据类型有一个令人惊讶的遗漏，他们表明，纠正这种遗漏可以提高网络的性能。这种改进是适度的，但它指向了一种可能性，即对神经网络的分析可以帮助提高人工智能系统的准确性。

CSAIL高级研究科学家吉姆·格拉斯(Jim Glass)说:“从历史上看，机器翻译是有不同层次的金字塔。”他与麻省理工学院电气工程和计算机科学研究生约纳坦·别林科夫(Yonatan Belinkov)一起参与了这个项目。“金字塔的最底层是单词，表面形式，金字塔的顶端是某种语言间的表示，你有不同的层，你在做语法，语义。这是一个非常抽象的概念，但意思是你在金字塔中走得越高，就越容易把它翻译成一种新的语言，然后再往下走。因此Yonatan正在做的部分工作是试图弄清楚这个概念的哪些方面被编码在网络中。”

关于机器翻译的研究最近在自然语言处理国际联合会议上发表了两篇论文。一方面，别林科夫是第一作者，格拉斯是资深作者，另一方面，别林科夫是合著者。在这两个平台上，他们都有来自卡塔尔计算研究所(QCRI)的研究人员加入，包括Lluís Màrquez、Hassan Sajjad、Nadir Durrani、Fahim Dalvi和Stephan Vogel。别林科夫和格拉斯是这篇分析语音识别系统的论文的唯一作者，别林科夫在上周的神经信息处理研讨会上发表了这篇论文。

水准下降

神经网络之所以如此命名，是因为它们大致近似于人类大脑的结构。通常，它们被安排在层中，每一层由许多简单的处理单元(节点)组成，每个处理单元都连接到上下层中的几个节点。数据被送入最底层，其节点对其进行处理并传递给下一层。层之间的连接具有不同的“权重”，这决定了任何一个节点的输出在下一个节点执行的计算中所占的比例。

在训练过程中，节点之间的权重不断调整。在训练网络之后，它的创建者可以确定所有连接的权重，但对于数千甚至数百万个节点，以及它们之间的更多连接，推导出这些权重编码的算法几乎是不可能的。

麻省理工学院和QCRI研究人员的技术包括获取一个经过训练的网络，并使用其每一层的输出，以响应单独的训练示例，来训练另一个神经网络执行特定的任务。这使他们能够确定每层优化的任务是什么。

在语音识别网络的例子中，别林科夫和格拉斯使用各个层的输出来训练系统识别“电话”，这是一种口语特有的不同语音单位。例如，单词“tea”、“tree”和“but”中的“t”音可能被分类为不同的电话，但语音识别系统必须使用字母“t”来转录所有这些电话。事实上，Belinkov和Glass发现较低层次的神经网络比较高层次的神经网络更善于识别手机，而在较高层次上，这种区别可能不那么重要。

使意义

在这篇论文中，他们表明，网络的更高层次在一种叫做语义标记的东西上表现得更好。正如别林科夫解释的那样，一个词性标注者会识别出“她”是一个代词，但是这个代词的意思——它的语义——在“她自己买了这本书”和“她自己买了这本书”这两个句子中是非常不同的。语义标记器将为“她自己”的两个实例分配不同的标记，就像机器翻译系统可能在给定的目标语言中为它们找到不同的翻译一样。

表现最好的机器翻译网络使用所谓的编码-解码模型，因此麻省理工学院和QCRI研究人员的网络也使用这种模型。在这样的系统中，源语言的输入通过网络的几层(称为编码器)来产生一个向量，这是一串数字，以某种方式表示输入的语义内容。这个向量要经过网络的几层——解码器——以产生目标语言的翻译。

尽管编码器和解码器是一起训练的，但它们可以被认为是独立的网络。研究人员发现，令人好奇的是，编码器的较低层善于区分形态，而解码器的较高层则不行。因此，别林科夫和QCRI的研究人员重新训练了该网络，不仅根据翻译的准确性，还根据目标语言的形态学分析对其性能进行评分。本质上，它们迫使解码器更好地区分形态。

使用这种技术，他们重新训练网络将英语翻译成德语，并发现其准确性提高了3%。这并不是一个压倒性的进步，但它表明，深入研究神经网络可能不仅仅是一种学术活动。

麻省理工学院

www.mit.edu

-由克里斯·瓦夫拉编辑，制作编辑，控制工程， CFE传媒，cvavra@cfemedia.com。查看更多控制工程行业网络故事。

您是否具有本内容中提到的主题的经验和专业知识?你应该考虑为我们的CFE媒体编辑团队做出贡献，并获得你和你的公司应得的认可。点击在这里开始这个过程。