神经网络学习识别声音

麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员开发出了提高计算机声音识别能力的技术,这可以增强机器学习。

通过Larry Hardesty,麻省理工学院新闻办公室 2016年12月17日

近年来,计算机在识别语音和图像方面已经变得非常出色:想想大多数手机上的听写软件,或者在Facebook上发布的照片中自动识别人物的算法。

对人群欢呼或海浪拍打等自然声音的识别却落后了。这是因为大多数自动识别系统,无论是处理音频还是视觉信息,都是机器学习的结果,计算机在大量训练数据中搜索模式。通常,训练数据必须首先手工注释,这对于除了需求最高的应用程序之外的所有应用程序来说都非常昂贵。

不过,多亏了麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员,声音识别技术可能正在迎头赶上。在下周的神经信息处理系统会议上,他们将展示一种声音识别系统,该系统优于之前的系统,但在训练过程中不需要手动注释数据。

相反,研究人员通过视频训练系统。首先,现有的识别场景和物体的计算机视觉系统对视频中的图像进行了分类。然后,新系统发现了这些视觉类别和自然声音之间的相关性。

“计算机视觉已经变得如此之好,我们可以将其转移到其他领域,”麻省理工学院电气工程和计算机科学研究生卡尔·冯德里克(Carl Vondrick)说,他是这篇论文的两位第一作者之一。“我们正在利用视觉和声音之间的自然同步。我们通过大量未标注的视频来学习理解声音。”

研究人员在两个标准的带注释的录音数据库上测试了他们的系统,结果比之前表现最好的系统准确率提高了13%到15%。在包含10个不同声音类别的数据集上,它可以以92%的准确率对声音进行分类,在包含50个类别的数据集上,它的准确率为74%。在同样的数据集上,人类的准确率分别为96%和81%。

“即使是人类也是模棱两可的,”该论文的另一位第一作者、麻省理工学院电气工程和计算机科学教授安东尼奥·托拉尔巴实验室的博士后尤瑟夫·艾塔尔说。Torralba是这篇论文的最终合著者。

“我们用卡尔做了一个实验,”艾塔尔说。“卡尔在看电脑显示器,而我看不见。他会放一段录音,我会试着猜是什么。事实证明这真的很难。我可以从基本的猜测中分辨出室内和室外,但当涉及到细节时:‘这是一家餐厅吗?这些细节都被遗漏了。即使是出于注释的目的,这项任务也非常困难。”

互补的形式

由于收集和处理音频数据比收集和处理视觉数据所需的能量要少得多,研究人员设想可以使用声音识别系统来提高移动设备的上下文敏感性。

例如,当与GPS数据相结合时,声音识别系统可以确定手机用户正在电影院,电影已经开始了,手机可以自动将呼叫路由到预先录制好的传出信息。同样,声音识别可以提高自主机器人的态势感知能力。

“比如,想想自动驾驶汽车,”Aytar说。“有一辆救护车过来了,但那辆车没有看到。如果它听到了声音,它就能对未来的救护车做出预测——它会走哪条路——仅仅是基于声音。”

视觉语言

研究人员的机器学习系统是一个神经网络,之所以这么叫,是因为它的结构松散地类似于人脑。神经网络由处理节点组成,这些节点像单个神经元一样,只能执行基本的计算,但它们紧密相连。数字图像的像素值等信息被馈送到底层节点,底层节点对其进行处理并将其馈送到下一层,下一层对其进行处理并将其馈送到下一层,以此类推。训练过程不断修改各个节点的设置,直到最后一层的输出可靠地执行一些数据分类。

Vondrick、Aytar和Torralba首先在两个大的带注释的图像集上训练神经网络:一个是ImageNet数据集,包含1000个不同物体的标记图像示例;另一个是托拉尔巴团队创建的地点数据集,包含401种不同场景类型的标记图像,如游乐场、卧室或会议室。

一旦训练完毕,研究人员就从照片分享网站Flickr下载了26tb的视频数据,并将这些数据输入网络。“大约有200万个独立视频,”Vondrick说。“如果你要背靠背地看所有这些电影,大约需要两年的时间。”然后他们用同一视频中的音频训练第二个神经网络。第二个网络的目标是正确预测第一个网络产生的物体和场景标签。

结果是一个可以根据图像类别解释自然声音的网络。例如,它可以确定鸟鸣声往往与森林场景和树木、鸟类、鸟舍和鸟类喂食者的图片有关。

基准测试

然而,为了将声音识别网络的性能与之前的网络进行比较,研究人员需要一种方法将其图像语言翻译成我们熟悉的声音名称语言。因此,他们训练了一个简单的机器学习系统,将声音识别网络的输出与一组标准声音标签相关联。

为此,研究人员确实使用了一个带有注释的音频数据库,其中包含50种声音类别和约2000个示例。这些注释是由人类提供的。但是标记2000个例子比标记200万个例子容易得多。麻省理工学院研究人员的网络首先在未标记的视频上训练,其表现明显优于之前所有仅在2000个标记示例上训练的网络。

麻省理工学院

www.mit.edu

-由克里斯·瓦夫拉编辑,制作编辑,控制工程, CFE传媒,cvavra@cfemedia.com.查看更多控制工程机器视觉故事