谷歌提出以无监督方式从单目视频中学习的结构化方法（附开源代码）

栏目: 数据库 · 发布时间: 7年前

内容简介：对自主机器人来说，感知场景的深度是一项重要的任务——准确估计目标离机器人有多远的能力对于避开障碍、安全规划以及导航来说至关重要。虽然可以从传感器数据（比如 LIDAR）中获得（学习到）深度值，但是也可以只依赖机器人的运动以及因此而产生的不同视角场景，以无监督的方式从单目相机中学到深度值。在这个过程中，也在学习「自我运动（Ego-motion）」（机器人/摄像机在两个帧之间的运动），它提供了机器人自身的位置。这种方法由来已久——来自 SfM（Structure-from-Motion，运动恢复结构）和多视图

对自主机器人来说，感知场景的深度是一项重要的任务——准确估计目标离机器人有多远的能力对于避开障碍、安全规划以及导航来说至关重要。虽然可以从传感器数据（比如 LIDAR）中获得（学习到）深度值，但是也可以只依赖机器人的运动以及因此而产生的不同视角场景，以无监督的方式从单目相机中学到深度值。在这个过程中，也在学习「自我运动（Ego-motion）」（机器人/摄像机在两个帧之间的运动），它提供了机器人自身的位置。这种方法由来已久——来自 SfM（Structure-from-Motion，运动恢复结构）和多视图地理范式——是基于技术的新学习，具体来说就是通过使用深度神经网络对深度和自我运动进行无监督学习，刷新了当前的最佳结果，包括 Zhou 等人的研究（《Unsupervised Learning of Depth and Ego-Motion from Video》）以及作者之前的研究（《Unsupervised Learning of Depth and Ego-Motion from Monocular Video Using 3D Geometric Constraints》，在训练期间对准场景的 3D 点云）。

尽管已经做出了这么多努力，学习预测场景深度和自我运动仍然是一个持续的挑战，特别是在处理高动态场景和估计移动目标的适当深度时。由于之前所做的无监督单目学习方面的研究没有对移动目标建模，因此可能对目标深度做出一致的错误估计，使目标深度映射到无限远。

在 AAAI 2019 的《Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos》一文中，作者提出了一种新方法，它可以对移动目标建模，还可以产生高质量的深度估计结果。与之前从单目视频中进行无监督学习的方法相比，该方法可以恢复移动目标的正确深度。作者在本文中还提出了一种无缝在线细化技术，它可以进一步提高质量，并适用于跨数据集的传输。此外，为了鼓励更先进的车载机器人学习方法。

作者在TensorFlow 中开源了代码：

https://github.com/tensorflow/models/tree/master/research/struct2depth