为使计算机视觉自主而创建的算法

一种算法被发明出来解决计算机视觉中最难的任务之一:在没有人工监督的情况下为每个像素分配标签。

通过雷切尔·戈登 2022年4月28日
提供:麻省理工学院CSAIL

标记数据可能是一件苦差事。它是计算机视觉模型的主要来源;如果没有它,他们就很难识别物体、人物和其他重要的图像特征。然而,仅仅生产一个小时的标记和标记数据就需要花费800个小时的人力时间。随着机器能够更好地感知我们周围的环境并与之互动,我们对世界的高保真理解也在不断发展。但他们需要更多的帮助。

来自麻省理工学院计算机科学与人工智能实验室(CSAIL)、微软和康奈尔大学的科学家们已经尝试过了通过创建“STEGO”来解决这个困扰视觉模型的问题,一种算法,可以在没有任何人类标签的情况下,联合发现和分割对象,精确到像素。

STEGO学习了一种叫做“语义分割”的东西,这是为图像中的每个像素分配标签的过程。语义分割是当今计算机视觉系统的一项重要技能,因为图像可能与物体混淆。更有挑战性的是,这些对象并不总是适合文字框;算法倾向于更好地处理离散的“事物”,比如人和汽车,而不是像植物、天空和土豆泥这样的“东西”。以前的系统可能只是简单地将狗在公园玩耍的细微场景视为狗,但通过为图像的每个像素分配标签,STEGO可以将图像分解为主要成分:狗、天空、草和它的主人。

为世界上的每一个像素分配一个标签是雄心勃勃的——尤其是在没有任何来自人类的反馈的情况下。如今,大多数算法都是从成堆的标记数据中获取知识,这可能需要花费大量的人力时间来获取。想象一下,给10万张图片中的每一个像素标上标签是多么令人兴奋!为了在没有人类帮助的情况下发现这些对象,STEGO会在整个数据集中寻找类似的对象。然后,它将这些相似的物体联系在一起,在它所学习的所有图像中构建一个一致的世界观。

看世界

能够“看”的机器对于自动驾驶汽车和医疗诊断的预测建模等一系列新兴技术至关重要。由于STEGO可以在没有标签的情况下进行学习,它可以检测许多不同领域的物体,甚至是那些人类还不能完全理解的物体。

“如果你在看肿瘤扫描图、行星表面或高分辨率生物图像,在没有专业知识的情况下,很难知道要寻找什么物体。在新兴领域,有时甚至人类专家也不知道正确的对象应该是什么,”马克·汉密尔顿说,他是麻省理工学院电气工程和计算机科学博士生,麻省理工学院CSAIL的研究附属机构,微软的软件工程师,一项研究的主要作者关于STEGO的新论文.“在这种情况下,你想设计一种方法来在科学的边界上运行,你不能指望人类在机器之前找到答案。”

STEGO在一系列视觉域上进行了测试,这些视觉域包括普通图像、驾驶图像和高空航空照片。在每个领域,STEGO都能够识别和分割与人类判断密切相关的对象。STEGO最多样化的基准是COCO-Stuff数据集,该数据集由来自世界各地的不同图像组成,从室内场景到人们进行体育运动,再到树木和奶牛。在大多数情况下,之前最先进的系统可以捕捉到一个场景的低分辨率要点,但在精细细节上遇到了困难:一个人是一个斑点,一辆摩托车被捕捉成一个人,而且它无法识别任何鹅。在相同的场景中,STEGO将之前系统的性能提高了一倍,并发现了动物、建筑、人、家具等概念。

STEGO不仅在COCO-Stuff基准测试上将先前系统的性能提高了一倍,而且在其他视觉领域也取得了类似的飞跃。当应用于无人驾驶汽车数据集时,STEGO成功地分割出了道路、人员和街道标志,比以前的系统具有更高的分辨率和粒度。在来自太空的图像上,该系统将地球表面的每一平方英尺分解为道路、植被和建筑物。

通过STEGO算法,研究科学家试图解决困扰视觉模型的巨大标签问题。STEGO可以在没有任何人类标签的情况下共同发现和分割对象,精确到像素。提供:麻省理工学院CSAIL

通过STEGO算法,研究科学家试图解决困扰视觉模型的巨大标签问题。STEGO可以在没有任何人类标签的情况下共同发现和分割对象,精确到像素。提供:麻省理工学院CSAIL

连接像素

STEGO是“具有基于能量的图形优化的自监督变压器”的缩写,它建立在DINO算法的基础上,该算法通过来自ImageNet数据库的1400万张图像来了解世界。STEGO通过学习过程来改进DINO的主干,模仿我们自己将世界的碎片拼接在一起以产生意义的方式。

例如,您可以考虑两张狗在公园里散步的图像。尽管它们是不同的狗,有不同的主人,在不同的公园里,STEGO可以(在没有人类的情况下)分辨出每个场景的物体是如何相互关联的。作者甚至探究了STEGO的思想,看看图像中每一个棕色的毛茸茸的小东西是如何相似的,以及其他共同的物体,如草和人。通过跨图像连接对象,STEGO构建了单词的一致视图。

汉密尔顿说:“我们的想法是,这些类型的算法可以以一种基本自动化的方式找到一致的分组,所以我们不必自己去做。”“理解生物图像等复杂的视觉数据集可能需要数年时间,但如果我们可以避免花费1000个小时来梳理数据并对其进行标记,我们就可以发现我们可能错过的新信息。我们希望这能帮助我们以更有经验的方式理解视觉词。”

展望未来

尽管有了改进,STEGO仍然面临一定的挑战。一是标签可以是任意的。例如,COCO-Stuff数据集的标签区分了“食物”,如香蕉和鸡翅,以及“食物”,如粗面粉和意大利面。STEGO在这方面看不出太大的区别。在其他情况下,STEGO被奇怪的图像弄糊涂了,比如香蕉坐在电话听筒上,听筒上的标签是“食品”,而不是“原材料”。

在接下来的工作中,他们计划探索给予STEGO更多的灵活性,而不仅仅是将像素标记为固定数量的类,因为现实世界中的事物有时可以同时是多个事物(如“食物”、“植物”和“水果”)。作者希望这将为算法提供不确定性、权衡和更抽象思维的空间。

“在制作一个理解潜在复杂数据集的通用工具时,我们希望这种类型的算法可以自动化从图像中发现物体的科学过程。在很多不同的领域,人类的标签都非常昂贵,或者人类甚至不知道具体的结构,比如在某些生物和天体物理学领域。我们希望未来的工作能够应用于非常广泛的数据集。因为你不需要任何人类标签,我们现在可以开始更广泛地应用ML工具,”Hamilton说。

“STEGO简单、优雅,而且非常有效。我认为无监督分割是图像理解进展的基准,也是一个非常困难的问题。随着变压器架构的采用,研究团体在无监督图像理解方面取得了巨大进展,”计算机视觉和机器学习教授Andrea Vedaldi说视觉几何组他就职于牛津大学工程科学系。“这项研究可能为无监督分割的这一进展提供了最直接和有效的证明。”

-由Chris Vavra编辑,网页内容经理,控制工程, CFE媒体与技术,cvavra@cfemedia.com


作者简介:Rachel Gordon,麻省理工CSAIL