仿真模型帮助机器人像人类一样导航

麻省理工学院的研究人员现在设计了一种方法，帮助机器人更像人类一样在环境中导航，让机器人通过探索环境、观察其他代理，以及利用它们之前在类似情况下所学到的知识来决定如何达到目标。

通过Rob Matheson，麻省理工学院新闻办公室 2018年10月20日

当人们在人群中移动以达到某个最终目标时，人们通常可以在不需要考虑太多的情况下安全地导航。他们可以从别人的行为中学习，并注意到任何需要避免的障碍。另一方面，机器人则在这种导航概念上苦苦挣扎。

麻省理工学院的研究人员发明了一种方法，可以帮助机器人像人类一样在环境中导航。他们的运动规划模型让机器人通过探索环境、观察其他智能体以及利用它们在类似情况下所学到的知识来决定如何达到目标。

流行的运动规划算法将创建一棵由可能的决策组成的树，它会不断分支，直到找到合适的导航路径。例如，一个机器人需要在房间里穿行才能到达一扇门，它将创建一个可能动作的分步搜索树，然后在考虑各种限制条件的情况下，执行通往门的最佳路径。然而，这些算法的一个缺点是很少学习:机器人无法利用关于它们或其他智能体以前在类似环境中如何行动的信息。

“就像下棋一样，这些决定会不断延伸，直到(机器人)找到一个好的导航方式。但与国际象棋选手不同，(机器人)探索未来的样子，而不需要了解他们的环境和其他智能体，”麻省理工学院计算机科学与人工智能实验室(CSAIL)和麻省理工学院麦戈文研究所大脑、思想和机器中心(CBMM)的研究员安德烈·巴布说。“他们第一千次穿过同样的人群，就像第一次一样复杂。他们总是在探索，很少观察，从不使用过去发生的事情。”

研究人员开发了一种模型，将规划算法与神经网络结合起来，学习识别可能导致最佳结果的路径，并使用这些知识指导机器人在环境中的运动。

研究人员在两种情况下展示了他们的模型的优势:在有陷阱和狭窄通道的具有挑战性的房间中导航，以及在导航区域时避免与其他agent碰撞。一个有前景的现实应用程序正在帮助自动驾驶汽车在十字路口导航，在那里，它们必须在融入交通之前快速评估其他车辆将会做什么。研究人员目前正在通过丰田- csail联合研究中心寻求这种应用。

CSAIL的博士郭燕玲说:“当人类与世界互动时，我们看到的是我们以前接触过的物体，或者是我们以前去过的某个地方，所以我们知道我们将如何行动。”“这项工作背后的想法是为搜索领域添加一个机器学习模型，该模型从过去的经验中了解如何使规划更有效。”

权衡勘探和开发

传统的运动规划者通过快速扩展决策树来探索环境，最终覆盖整个空间。然后机器人会观察这棵树，找到到达目标的方法，比如一扇门。然而，研究人员的模型提供了“探索世界和利用过去知识之间的权衡，”Kuo说。

学习过程从几个例子开始。使用该模型的机器人接受了几种导航类似环境的训练。神经网络通过解释机器人周围的环境来学习是什么让这些例子成功，比如墙壁的形状、其他智能体的动作以及目标的特征。简而言之，该模型“了解到，当你被困在一个环境中，当你看到一个门口时，穿过这扇门出去可能是个好主意，”Barbu说。

该模型将早期方法的勘探行为与这些学习到的信息结合起来。底层的计划被称为快速探索随机树(RRT)，是由麻省理工学院教授Sertac Karaman和Emilio Frazzoli开发的。规划者创建一个搜索树，神经网络镜像每一步，并对机器人下一步应该去哪里进行概率预测。当网络基于学习到的信息做出高度自信的预测时，它会引导机器人走上一条新的路径。如果网络没有很高的信心，它会让机器人探索环境，就像传统的规划师一样。

例如，研究人员在一个被称为“捕虫器”的模拟中演示了这个模型，在这个模拟中，一个二维机器人必须通过一个中央狭窄的通道从一个内室逃脱，到达周围更大房间的某个位置。海峡两侧盲目的盟友会让机器人卡住。在这个模拟中，机器人接受了一些如何逃离不同昆虫陷阱的例子的训练。当面对一个新的陷阱时，它会识别陷阱的特征，逃脱，并继续在更大的房间里寻找它的目标。神经网络帮助机器人找到陷阱的出口，识别死胡同，并让机器人对周围环境有感觉，以便快速找到目标。

结果基于一段时间后找到路径的机会、到达给定目标的路径的总长度以及路径的一致性。在两次模拟中，研究人员的模型绘制的路径都比传统的规划器短得多，而且一致。

使用多个代理

在另一个实验中，研究人员在有多个移动agent的导航环境中训练和测试了模型，这对自动驾驶汽车来说是一个有用的测试，尤其是在十字路口和环形交叉口导航。在模拟中，几个智能体正在绕过一个障碍。机器人代理必须成功绕过其他代理，避免碰撞，并到达目标位置，例如回旋处的出口。

巴布说:“像回旋这样的情况很难，因为他们需要推理别人会如何回应你的行为，你会如何回应他们的行为，他们下一步会做什么，等等。”“你最终会发现你的第一个行为是错误的，因为之后它可能会导致一场事故。你要对付的汽车越多，这个问题就会成倍地恶化。”

研究结果表明，研究人员的模型可以捕捉到足够多的关于其他智能体(汽车)未来行为的信息，从而在早期切断这一过程，同时仍然在导航中做出良好的决策。这使得计划更有效。此外，他们只需要在几个只有几辆车的环形交叉口的例子上训练模型。Barbu说:“机器人制定的计划会考虑其他汽车的行动，就像任何人都会做的那样。”

通过十字路口或环岛是自动驾驶汽车面临的最具挑战性的场景之一。据研究人员称，这项工作有一天可能会让汽车了解人类的行为，以及如何适应不同环境中的司机。

“不是每个人的行为方式都一样，但人们都很刻板。有些人很害羞，有些人很好斗。该模型可以快速识别，这就是为什么它可以有效地规划，”Barbu说。

研究人员一直在将这项工作应用于带有操纵器的机器人，这些机器人在不断变化的环境中抓取物体时面临着类似的艰巨挑战。

麻省理工学院

www.mit.edu

-由克里斯·瓦夫拉编辑，制作编辑，控制工程， CFE传媒，cvavra@cfemedia.com．查看更多控制工程机器人的故事．

您是否具有本内容中提到的主题的经验和专业知识?你应该考虑为我们的CFE媒体编辑团队做出贡献，并获得你和你的公司应得的认可。点击在这里开始这个过程。

搜索产品，发现你所在行业的创新