将3D图像转换为360度模型

密苏里大学的一个工程团队设计了一种新方法,通过一种名为OmniFusion的系统将单个全景图像转换为3D模型。

通过密苏里大学 2022年5月15日
密苏里大学提供

密苏里大学的一个工程团队设计了一种方法将单个全景图像转换为3D模型.研究人员在一篇已被《计算机视觉与模式识别》(CVPR)接受的论文中概述了这项工作。计算机科学博士候选人、第一作者李宇燕(Yuyan Li)将于今年夏天在新奥尔良举行的IEEE计算机学会(IEEE’s computer Society)会议上做口头报告。

研究团队开发了一种管道,可以从普通相机的单视角(也称为单眼视角)估计照片中物体的深度。

该系统具有捕获几何信息的能力。这个名为OmniFusion的管道将一个360度的图像(通常是球形的)分离成一系列较小的图像。这些图像被用来训练机器来估计从相机到照片像素的距离。然后,系统将图像重新拼接在一起——这次是相关距离——允许创建一个具有更精确景深的3D环境。

段把这项工作比作闭着一只眼睛也能看得见东西。当你遮住一只眼睛时,物体的距离就会改变。然而,随着时间的推移,你的大脑学会了如何通过单眼观来感知世界。同样,段和他的学生正在训练机器根据单一视角来估计和理解深度。

这项工作有很多应用,包括开发更经济实惠的方式来装备自动驾驶汽车。目前,一些自动驾驶汽车依赖于光探测和测距,或激光雷达,它使用激光束来重建车辆周围环境的3D表示。然而,激光雷达价格昂贵。

OmniFusion流水线基于类似的原理,使用更实惠的相机。

Omnifusion使用一组切线图像(N)从单眼图像(左)生成高质量的密集深度图像(右)。中间一行显示了切线图像对应的相机姿态。密苏里大学提供

Omnifusion使用一组切线图像(N)从单眼图像(左)生成高质量的密集深度图像(右)。中间一行显示了切线图像对应的相机姿态。密苏里大学提供

“激光测量返回的时间。由于光速是恒定的,你可以测量返回的时间,并知道距离,”段说。“现在,我们正在使用单一图像和机器学习做类似的事情。我们通过提供图像和相应的深度信息来训练机器。通过学习大量的距离,机器可以开始预测距离,并将其转化为深度。”

实验表明,OmniFusion方法极大地缓解了失真,这是将深度学习方法应用于360图像时的一个众所周知的挑战。它还针对几个基准数据集实现了最先进的性能。

-由Chris Vavra编辑,网页内容经理,控制工程, CFE媒体与技术,cvavra@cfemedia.com