用神经网络改进动作捕捉

神经网络方法从视频中捕获物理系统动态运动的特征,而不考虑渲染配置或图像差异。

通过劳伦Hinkel 2022年5月9日
由麻省理工学院提供

从《星球大战》(Star Wars)到《快乐的大脚》(Happy Feet),许多受人喜爱的电影中都有通过动作捕捉技术(通过视频记录物体或人的运动)实现的场景。这种跟踪的进一步应用涉及物理,几何和感知之间的复杂相互作用,从好莱坞扩展到军事,体育训练,医疗领域,计算机视觉和机器人技术,使工程师能够理解和模拟现实世界环境中发生的动作。

由于这可能是一个复杂而昂贵的过程——通常需要在物体或人身上放置标记并记录动作序列——研究人员正在努力将负担转移到神经网络上,神经网络可以从一个简单的视频中获取这些数据,并在模型中复制它。在物理模拟和渲染方面的工作表明,它有望得到更广泛的应用,因为它可以从图像中描绘出逼真的、连续的、动态的运动,并在世界上的2D渲染和3D场景之间来回转换。然而,要做到这一点,目前的技术需要精确了解行动发生的环境条件,以及渲染器的选择,而这两者通常都是不可用的。

现在,来自麻省理工学院和IBM的一组研究人员开发了一种训练有素的神经网络管道,可以避免这个问题,能够推断环境的状态和正在发生的动作,物体或感兴趣的人(系统)的物理特征,以及它的控制参数。经过测试,该技术在模拟刚性和可变形体的四种物理系统方面优于其他方法,这些系统可以说明不同类型的动力学和相互作用,在各种环境条件下。此外,该方法允许模仿学习-预测和再现现实世界的轨迹,从视频飞行四旋翼。

电子工程与计算机科学系(EECS)博士后、计算机科学与人工智能实验室(CSAIL)成员、研究小组成员杜涛博士说:“本文涉及的高层次研究问题是如何从动态系统的视频中重建数字双胞胎。”

为了做到这一点,杜说:“我们需要忽略视频片段的渲染差异,并试图抓住动态系统或动态运动的核心信息。”

杜的共同作者包括主要作者马平川(EECS研究生,CSAIL成员);Josh Tenenbaum,脑与认知科学系认知科学与计算的Paul E. Newton职业发展教授,CSAIL成员;Wojciech Matusik,电子工程与计算机科学教授,CSAIL成员;以及麻省理工学院- ibm沃森人工智能实验室首席研究人员庄干。这项研究于本周在国际学习表征会议上发表。

虽然捕捉人物、机器人或动态系统的视频来推断动态运动使这些信息更容易获得,但它也带来了新的挑战。杜说:“图像或视频(以及它们的渲染方式)在很大程度上取决于照明条件、背景信息、纹理信息和环境的材料信息,而这些在现实世界中不一定是可以测量的。”

如果没有这种渲染配置信息或使用哪种渲染器的知识,目前很难收集动态信息并预测视频主体的行为。即使渲染器是已知的,当前的神经网络方法仍然需要大量的训练数据。然而,在他们的新方法下,这可能成为一个没有意义的问题。“如果你拍摄豹子在早上和晚上奔跑的视频,当然,你会得到视觉上不同的视频片段,因为照明条件完全不同。但你真正关心的是动态运动:豹子的关节角度,而不是它们看起来是亮还是暗。”杜说。

为了解决渲染域和图像差异的问题,该团队开发了一个包含神经网络的管道系统,称为“渲染不变状态预测(RISP)”网络。RISP将图像(像素)的差异转换为系统状态(即操作环境)的差异,使其方法具有通用性,并且与渲染配置无关。RISP使用随机渲染参数和状态进行训练,这些参数和状态被馈送到一个可微分渲染器中,这是一种渲染器,可以根据渲染配置(例如照明或材料颜色)测量像素的灵敏度。这将根据已知的真实参数生成一组不同的图像和视频,这将允许RISP逆转该过程,从输入视频中预测环境状态。该团队还最小化了RISP的渲染梯度,这样它的预测对渲染配置的变化就不那么敏感了,允许它学会忘记视觉外观,专注于学习动态状态。这是通过可微分渲染器实现的。

然后,该方法使用两个并行运行的类似管道。一种是源域,具有已知变量。在这里,系统参数和动作被输入到一个可微仿真中。生成的模拟状态与不同的渲染配置组合成一个可微分的渲染器来生成图像,这些图像被馈送到RISP中。然后,RISP输出关于环境状态的预测。同时,在未知变量下运行一个类似的目标域管道。该管道中的RISP被输入这些输出图像,生成预测状态。当源域和目标域的预测状态进行比较时,产生新的损失;这种差异用于调整和优化源域管道中的一些参数。这个过程可以重复进行,进一步减少管道之间的损失。

麻省理工学院的研究人员使用RISP方法从目标图像或视频中预测动作顺序、关节刚度或关节手的运动,比如这只手。由麻省理工学院提供

麻省理工学院的研究人员使用RISP方法从目标图像或视频中预测动作顺序、关节刚度或关节手的运动,比如这只手。由麻省理工学院提供

为了确定他们的方法是否成功,该团队在四个模拟系统中进行了测试:四旋翼飞行器(没有任何物理接触的飞行刚体),立方体(与环境相互作用的刚体,如骰子),关节手和杆(可以像蛇一样移动的可变形体)。任务包括从图像中估计系统状态,从视频中识别系统参数和动作控制信号,以及从目标图像中发现控制信号,将系统引导到所需状态。此外,他们创建了基线和一个oracle,将这些系统中的新RISP过程与类似的方法进行比较,例如,缺乏渲染梯度损失,不训练任何损失的神经网络,或者完全缺乏RISP神经网络。该团队还研究了梯度损失如何随着时间的推移影响状态预测模型的性能。最后,研究人员部署了他们的RISP系统,从视频中推断出现实世界中具有复杂动力学的四旋翼飞行器的运动。他们将性能与其他缺乏损失函数并使用像素差异的技术,或包括手动调整渲染器配置的技术进行了比较。

在几乎所有的实验中,RISP程序优于现有的类似或最先进的方法,模仿或再现所需的参数或运动,并证明是当前运动捕获方法的数据效率和可推广的竞争对手。

对于这项工作,研究人员做了两个重要的假设:关于相机的信息是已知的,比如它的位置和设置,以及控制被跟踪物体或人的几何和物理。未来的工作计划解决这个问题。

“我认为我们正在解决的最大问题是在没有非常昂贵的设备的情况下,将一个领域的信息重建到另一个领域,”马说。

Gan说,这种方法应该“对旨在在虚拟环境中重建物理世界的(如)元世界等应用程序很有用”。

“这基本上是一个日常可用的解决方案,它是整洁和简单的,跨域重建或逆动力学问题,”马说。

-编辑克里斯Vavra,网络内容经理,控制工程、CFE媒体与技术、cvavra@cfemedia.com


作者简介:Lauren Hinkel,麻省理工学院- ibm沃森人工智能实验室