眼球追踪系统使用普通手机摄像头

麻省理工学院(MIT)和佐治亚大学(University of Georgia)的研究人员开发了一种软件,可以将任何智能手机变成眼球追踪设备,用于离散传感和视觉以及医疗应用。

拉里·哈德斯蒂,麻省理工学院新闻办公室 2016年6月30日

在过去的40年里,眼球追踪技术——可以确定人们在视觉场景中的视线方向——被广泛应用于心理学实验和市场研究,但它需要昂贵的硬件,这阻碍了它在消费者中的应用。然而,这种情况可能很快就会改变。

麻省理工学院计算机科学与人工智能实验室和佐治亚大学的研究人员开发了一种软件,可以将任何智能手机变成眼球追踪设备。他们在计算机视觉和模式识别会议上发表的一篇论文中描述了他们的新系统。

除了使眼球追踪技术的现有应用更容易获得外,该系统还可以启用新的计算机界面,或帮助检测早期神经系统疾病或精神疾病的迹象。

麻省理工学院电子工程和计算机科学研究生、该论文的第一作者之一阿迪亚·科斯拉(Aditya Khosla)说:“这个领域有点陷入了先有鸡还是先有蛋的循环。”“由于很少有人拥有外部设备,因此没有太大的动力为他们开发应用程序。由于没有应用程序,人们就没有动力购买这些设备。我们认为我们应该打破这个循环,尝试制作一款只用前置摄像头就能在单个移动设备上运行的眼动仪。”

科斯拉和他的同事——佐治亚大学的共同第一作者凯尔·克拉夫卡,麻省理工学院电子工程和计算机科学教授沃伊切赫·马图西克和安东尼奥·托拉尔巴,以及其他三位——使用机器学习技术制造了他们的眼动仪,这是一种计算机通过在大量训练样本中寻找模式来学习执行任务的技术。

人多力量大

与之前的研究相比,科斯拉和他的同事的优势在于他们必须处理的数据量。科斯拉说,目前,他们的训练集包括来自1500名移动设备用户的凝视模式示例。此前,用于训练实验性眼动追踪系统的最大数据集最多只有50个用户。

为了收集数据集,“大多数其他团队倾向于把人叫进实验室,”科斯拉说。“要扩大规模真的很难。给50个人打电话本身就是一个相当乏味的过程。但我们意识到我们可以通过众包来做到这一点。”

在论文中,研究人员报告了第一轮实验,使用了来自800名移动设备用户的训练数据。在此基础上,他们能够将系统的误差范围降低到1.5厘米,比以前的实验系统提高了两倍。

然而,自从论文提交以来,他们又获得了另外700人的数据,这些额外的训练数据将误差幅度缩小到大约一厘米。

为了了解更大的训练集如何提高性能,研究人员使用不同大小的数据子集来训练和再训练他们的系统。这些实验表明,大约1万个训练样本应该足以将误差范围降低到半厘米,科斯拉估计这足以使该系统具有商业可行性。

为了收集训练样本,研究人员为使用苹果iOS操作系统的设备开发了一个简单的应用程序。该应用程序会在设备屏幕的某个地方闪烁一个小点,吸引用户的注意力,然后用一个“R”或“L”简短地代替它,指示用户点击屏幕的右侧或左侧。正确执行点击确保用户实际上已经将他或她的目光转移到预期的位置。在此过程中,该设备的摄像头连续捕捉用户面部的图像。

研究人员通过亚马逊的土耳其机械众包网站招募应用程序用户,并为每一次成功执行的点击支付一小笔费用。该数据集平均为每个用户包含1,600张图像。

拉紧网

研究人员的机器学习系统是一个神经网络,它是一种软件抽象,但可以被认为是一个由非常简单的信息处理器组成的巨大网络,这些处理器被安排在离散的层中。训练修改了单个处理器的设置,以便将数据项(在本例中是移动设备用户的静态图像)馈送到底层,由后续层处理。顶层的输出将是一个计算问题的解决方案——在这种情况下,是对用户注视方向的估计。

然而,神经网络很大,所以麻省理工学院和佐治亚大学的研究人员使用了一种叫做“暗知识”的技术来缩小他们的神经网络。暗知识包括获取一个经过充分训练的网络的输出,这些输出通常是近似解,并使用这些输出和真实解来训练一个小得多的网络。这项技术将研究人员的网络规模缩小了大约80%,使其在智能手机上的运行效率大大提高。通过减少网络,眼动仪可以以每秒15帧(fps)的速度运行,这足以记录短暂的一瞥。

麻省理工学院(MIT)

www.mit.edu

- Chris Vavra编辑,制作编辑,控制工程, CFE传媒,
cvavra@cfemedia.com。查看更多控制工程CNC和运动控制的故事