研究人员赋予机器人类似人类的物理环境感知能力

3D动态场景图赋予机器人空间能力,使它们能够与工厂车间或其他危险环境中的人一起工作。

通过詹妮弗·楚 2020年7月18日

难道我们不都希望在家里得到一点帮助吗,尤其是如果这种帮助来自一个聪明、适应性强、毫无怨言的机器人?当然,在家电领域也有一招一用的Roombas机器人,但麻省理工学院的工程师们正在设想机器人更像家庭助手,能够执行高级别的alexa式命令,比如“去厨房给我拿个咖啡杯来”。

研究人员认为,要执行如此高水平的任务,机器人必须能够像人类一样感知它们所处的物理环境。

麻省理工学院航空航天学助理教授卢卡·卡隆说:“为了在这个世界上做出任何决定,你需要对周围环境有一个心理模型。”“这对人类来说毫不费力。但对于机器人来说,这是一个非常困难的问题,因为这是关于将它们通过相机看到的像素值转化为对世界的理解。”

现在,Carlone和他的学生已经为机器人开发了一种空间感知的表示方式,这种方式是模仿人类感知和导航世界的方式。

他们称之为3D动态场景图(3D Dynamic Scene Graphs)的新模型使机器人能够快速生成其周围环境的3D地图,其中还包括物体及其语义标签(例如椅子和桌子),以及机器人可能在其环境中看到的人、房间、墙壁和其他结构。

该模型还允许机器人从3D地图中提取相关信息,查询物体和房间的位置,或路径上的人的运动。

Carlone说:“这种环境的压缩表示非常有用,因为它允许我们的机器人快速做出决定并规划路径。”“这与我们作为人类所做的并不遥远。如果你需要规划从你家到麻省理工学院的路径,你不需要规划每一个你需要采取的位置。你只需要考虑街道和地标,这有助于你更快地规划路线。”

卡隆说,除了家庭帮佣,采用这种新型环境思维模式的机器人也可能适合其他高级工作,比如在工厂车间与人并肩工作,或者在灾难现场寻找幸存者。

他和他的学生,包括第一作者和麻省理工学院的研究生安东尼·罗西诺,将在本周的机器人:科学与系统虚拟会议上展示他们的发现。

一个混合映射机器人视觉和导航

目前,机器人视觉和导航技术的发展主要有两条路线:一是3D地图,使机器人在实时探索时能够三维重建环境;语义分割,帮助机器人将环境中的特征分类为语义对象,比如汽车和自行车,到目前为止,这主要是在2D图像上完成的。

Carlone和Rosinol的新空间感知模型是第一个实时生成环境3D地图的模型,同时还在3D地图中标记物体、人(与物体相反,是动态的)和结构。

该团队新模型的关键组件是Kimera,这是一个开源库,该团队以前开发过,可以同时构建一个环境的3D几何模型,同时编码一个物体是椅子还是桌子的可能性。

Carlone说:“就像神话中的生物是不同动物的混合体一样,我们希望Kimera能在3D中混合映射和语义理解。”

Kimera的工作原理是通过从机器人的相机中获取图像流,以及从机载传感器中获取惯性测量数据,来估计机器人或相机的轨迹,并将场景重建为3D网格,所有这些都是实时的。

为了生成一个语义3D网格,Kimera使用一个现有的神经网络,在数百万张真实世界的图像上训练,预测每个像素的标签,然后使用一种称为射线投射的技术将这些标签投射到3D中,这种技术通常用于计算机图形学的实时渲染。

结果是机器人所处环境的地图,类似于一个密集的三维网格,其中每张脸都被颜色编码为环境中物体、结构和人的一部分。

使用算法和场景图的分层场景

如果一个机器人仅仅依靠这个网格来在它的环境中导航,这将是一个计算成本高昂且耗时的任务。因此,研究人员以Kimera为基础,开发了基于Kimera初始的高密度3D语义网格构建3D动态“场景图”的算法。

场景图是一种流行的计算机图形模型,用于操作和渲染复杂的场景,通常用于视频游戏引擎来表示3D环境。

在3D动态场景图的情况下,相关的算法将Kimera详细的3D语义网格抽象或分解为不同的语义层,这样机器人就可以通过特定的层或镜头“看到”场景。从物体和人,到开放空间和结构,如墙壁和天花板,再到房间、走廊和大厅,最后是整个建筑。

Carlone表示,这种分层表示避免了机器人必须在原始3D网格中理解数十亿个点和人脸。

在物体和人的层内,研究人员还能够开发出实时跟踪环境中人类运动和形状的算法。

该团队在与麻省理工学院林肯实验室合作开发的照片逼真模拟器中测试了他们的新模型,该模拟器模拟了一个机器人在充满走动的人的动态办公环境中导航。

“我们本质上是让机器人拥有类似于人类使用的思维模式,”卡龙说。“这可能会影响许多应用,包括自动驾驶汽车、搜索和救援、协同制造和家用机器人。
另一个领域是虚拟现实和增强现实(AR)。想象一下,戴上运行我们算法的增强现实护目镜:护目镜将能够帮助你回答诸如“我把红杯子放在哪里了?”以及“最近的出口在哪里?”’你可以把它想象成一个Alexa,它能感知你周围的环境,理解物体、人以及他们之间的关系。”

Rosinol表示:“得益于深度学习的最新进展以及数十年的同步定位和测绘研究,我们的方法才得以实现。”“通过这项工作,我们正在向一个名为空间人工智能的机器人感知新时代迈出一大步,这只是处于起步阶段,但在机器人技术和大规模虚拟现实和增强现实方面具有巨大潜力。”

麻省理工学院

www.mit.edu

-副主编克里斯·瓦夫拉编辑,控制工程, CFE媒体与技术,cvavra@cfemedia.com


作者简介:麻省理工学院新闻办公室