灵活的机器学习图像分类

麻省理工学院的研究人员已经开发出一种机器学习方法,可以使语义相关的概念相互加强,并在训练过程中通过在系统只获得部分语义序列正确时给予部分信任来改进图像分类。

拉里·哈德斯蒂,麻省理工学院新闻办公室 2015年10月18日

机器学习是大多数商业人工智能系统的基础,本质上是概率性的。例如,一个物体识别算法被要求对一张特定的图像进行分类,可能会得出这样的结论:它有60%的机会描绘一只狗,但有30%的机会描绘一只猫。

在12月举行的神经信息处理系统年会上,麻省理工学院的研究人员将展示一种新的机器学习方法,使语义相关的概念能够相互加强。因此,例如,物体识别算法将学会权衡“狗”和“吉娃娃”这两个分类的共现性,而不是“狗”和“猫”的共现性。

在实验中,研究人员发现,与使用传统训练策略相比,使用他们的训练策略的机器学习算法在预测人类用户对Flickr网站上的图像应用的标签方面做得更好。

“当你有很多可能的类别时,传统的处理方法是,当你想为每一个类别学习一个模型时,你只使用与该类别相关的数据,”麻省理工学院电子工程和计算机科学研究生张chiyuan说,他是这篇新论文的主要作者之一。“它对所有其他类别都同样不利。因为这些类别之间实际上存在语义相似性,所以我们开发了一种利用这种语义相似性从相近类别中借用数据来训练模型的方法。”

张和他的论文导师Tomaso Poggio(尤金·麦克德莫特脑科学和人类行为教授)以及他的第一作者Charlie Frogner(也是Poggio小组的研究生)一起撰写了这篇论文。侯赛因·莫巴希是计算机科学与人工智能实验室的博士后,毛里西奥·阿拉亚-波罗是壳牌石油公司的研究员,他们是这篇论文的合著者。

关闭数

为了量化语义相似性的概念,研究人员编写了一种算法,通过梳理Flickr图像来识别倾向于同时出现的标签——例如,“阳光”、“水”和“反射”。两个词的语义相似度是它们同时出现的频率的函数。

通常,机器学习算法被训练来预测Flickr标签,它会尝试识别与特定标签一致的视觉特征。在训练过程中,它会因为每一个正确的标签而受到表扬,但如果预测失败则会受到惩罚。

麻省理工学院的研究人员的系统基本上给了算法部分的功劳,因为错误的标签在语义上与正确的标签相关。比如说,一个水景被标记为“水”、“船”和“阳光”。在传统的机器学习中,一个将图像标记为“水”、“船”、“夏天”的系统不会比标记为“水”、“船”、“犀牛”的系统得到更多的信任。在研究人员的系统中,它会,并且信用将是标签“夏天”和“阳光”在Flickr数据库中同时出现的可能性的函数。

问题在于,与简单地将预测分为正确或错误相比,分配部分信用涉及的计算要复杂得多。例如,一个系统对“湖”、“帆”和“夏天”这些标签都不完全正确,而一个系统只对“水”、“船”和“犀牛”这些标签产生严重错误,那么这个系统是如何做到的呢?

为了进行这种复杂的评估,研究人员使用了一种称为沃瑟斯坦距离的度量,这是一种比较概率分布的方法。即使在两年前,这也是非常耗时的,但是在2014年,京都大学的Marco Cuturi和牛津大学的Arnaud Doucet提出了一种新的算法,可以更有效地计算Wasserstein距离。麻省理工学院的研究人员认为,他们的论文是第一个使用沃瑟斯坦距离作为监督机器学习的误差度量标准的论文,在监督机器学习中,系统的性能是根据人类注释来衡量的。

人为错误

在实验中,即使成功的标准仅仅是预测Flickr用户对给定图像应用的标签,研究人员的系统也比传统的机器学习系统表现得更好。但是,当成功的标准是预测与Flickr用户应用的标签在语义上相似的标签时,差异就更加明显了。

这可能听起来很循环:一个将语义相似度考虑在内的系统在预测语义相似度方面做得更好。但是,当一个网络用户试图在网上查找图像时,一般的主题对应可能比精确的关键字相交更重要。

此外,用户分配给任何给定Flickr图像的标签可能是五花八门的。根据语义相似度自动生成的标签可能比人工生成的标签更有用。例如,在研究人员的测试集中,有一张图片描绘了一个穿着制服的山地自行车手,戴着安全帽,骑着自行车沿着丘陵小路行驶。实际的标签是“春天”、“比赛”和“训练”。但图片中的树光秃秃的,草是棕色的,“比赛”和“训练”的标签不可能都是对的。研究人员的系统给出了“公路”、“自行车”和“步道”;传统的机器学习算法产生了“狗”、“冲浪”和“自行车”。

最后,如果语义相似度的其他度量被证明比Flickr标签的共现性更能捕捉人类的直觉,那么麻省理工学院研究人员的系统可以简单地采用它。事实上,人工智能研究中一个长期且正在进行的项目是“本体论”的集合,它将分类术语分层地联系起来——狗是动物,牧羊犬是狗,莱西是牧羊犬。在未来的工作中,研究人员希望使用机器视觉研究中的本体标准来测试他们的系统。

麻省理工学院(MIT)

www.mit.edu

- Chris Vavra编辑,制作编辑,控制工程, CFE传媒,cvavra@cfemedia.com

在线额外

请参阅下面关于机器设计和机器学习的其他故事。