CVPR 2019 | 德国马普所提出端到端模型RingNet，基于单张图像进行3D人脸重建

栏目: 编程工具 · 发布时间: 6年前

内容简介：计算机视觉领域顶级会议 CVPR 于 6 月 16 日-20 日在美国加州长滩举行。CVPR 2019 共收到 5165 篇有效提交论文，相比去年增加了 56%；接收论文 1300 篇，接收率接近 25.2%。据机器之心了解，德国马克思·普朗克研究所共有 16 篇论文入选 CVPR 2019，本文简要介绍了其中一篇。该研究提出一个端到端神经网络RingNet，可基于单张图像进行三维人脸重建。在这项工作中，我们提出了端到端神经网络RingNet，用来学习基于单张照片的三维面部重建，这项任务必须同时对光照、头部

计算机视觉领域顶级会议 CVPR 于 6 月 16 日-20 日在美国加州长滩举行。CVPR 2019 共收到 5165 篇有效提交论文，相比去年增加了 56%；接收论文 1300 篇，接收率接近 25.2%。

据机器之心了解，德国马克思·普朗克研究所共有 16 篇论文入选 CVPR 2019，本文简要介绍了其中一篇。该研究提出一个端到端神经网络RingNet，可基于单张图像进行三维人脸重建。

在这项工作中，我们提出了端到端神经网络RingNet，用来学习基于单张照片的三维面部重建，这项任务必须同时对光照、头部姿势、表情、面部毛发、化妆和遮挡的变化具有鲁棒性。而实现这种鲁棒性需要大量的 in-the-wild 图片，然而这些图片往往缺乏用于监督的真实三维面部数据。

为了在没有任何 2D 到 3D 监督的情况下训练神经网络，我们提出了 RingNet，它学习基于单个图像计算 3D 面部形状。我们的关键发现是同一个人的三维面部形状总是恒定的，无论其不同图片中表情、姿势、光线等条件如何变化。所以 RingNet 利用了同一个人的多张图片并自动检测其 2D 脸部特征。它使用一种全新的形状一致性损失函数，对于同一个人鼓励三维面部形状相似，不同的人则反之。我们使用 FLAME 模型（参数化面部模型）来表征三维面部结构以实现对不同表情的解离。在推理阶段，我们的方法可以在输入单个图片后直接输出 FLAME 的参数，这些参数可直接用于动画生成。此外，我们还创建了一个全新的基准数据集「not quite in-the-wild」(NoW)，其中包含对于每个实验对象的三维头部扫描数据和在大量不同条件下的高清图片。在评估了公开可用的方法后，我们发现 RingNet 比其他使用三维数据监督的方法更加准确。数据集、模型和结果已经开放并可用于研究目的。

地址： https://ringnet.is.tue.mpg.de/

CVPR 2019 | 德国马普所提出端到端模型RingNet，基于单张图像进行3D人脸重建 RingNet 在训练过程中使用人物 A 的多张图像和人物 B 的一张图像作为输入，然后识别出相同人物图像之间的形状一致性和不同人物图像之间的形状不一致性。

研究贡献

这是第一个仅通过单张面部图像进行全脸、头部与颈部重建的工作；

提出了端到端的神经网络RingNet，可在不同视角、光线条件、分辨率和遮挡的情况下，在面部区域上实现形状一致性；

全新的形状一致性损失函数；

NoW，一个用于定性和定量评估 3D 面部重建方法的基准数据集；

数据集、模型和结果已经开放并可用于研究目的，以鼓励定量比较。

对于学界：

虽然在这个工作中我们仅将 RingNet 用于面部数据，但这个想法本身具有普适性，可以用于其他三维重建任务。鉴于目前这个领域缺乏统一的定量反馈，我们引入了三维面部重建基准挑战 NoW 以及标准化评估指标，并邀请该领域的其他研究人员一起参与我们的挑战，超越单纯的视觉比较。

对于工业界：

由于我们的模型可以基于单个图像重建包括颈部和整个头部的三维数据，因此它可被用于动画行业或大量 face app，大家可以访问我们的 GitHub 页面，并通过结合 RingNet 和 VOCA 项目来制作一些有趣的 app。例如，可以先用 RingNet 创建基于照片的三维面部模板，再用 VOCA 来生成基于音频的动画。

局限性

仅依赖 2D landmark 会在一定程度上限制三维重建的质量，采用密集关联性则会显著提高质量。

关于 Challenge NoW 的更多细节

该基准的目标是给 3D 面部重建领域引入标准评估度量，以测量其在视角、光照和常见遮挡变化下的准确性和鲁棒性。

为了应对挑战，我们引入了 NoW 数据集。该数据集目前包含 100 个被试的 2054 张照片，均使用 iPhone X 拍摄，并为每个被试单独进行了 3D 头部扫描。头部扫描将作为评估的真值数据。在选取被试时，我们考虑了年龄、BMI 及性别分布（55 名女性、45 名男性）。

图片

CVPR 2019 | 德国马普所提出端到端模型RingNet，基于单张图像进行3D人脸重建

我们将获取的数据分为四个类别：自然面容（620 图像）、表情面容（675 图像）、面部遮挡（528 图像）以及自拍（231 图像）。前三类包含所有对象在多视角情况下的自然表情和部分遮挡的面部照片，视角范围从正面视图到侧面视图。表情面容包含不同的表情，如快乐、悲伤、惊讶、厌恶和恐惧。面部遮挡则包含不同种类的遮挡，如眼镜、太阳镜、面部毛发、帽子或头巾。对于自拍类别，我们要求被试使用 iPhone 前置摄像头自拍，并不对其面部表情加以约束。室内和室外拍摄的照片可提供自然光和人造光的变化。我们在「Download」页面中提供面部区域的裁剪信息。

扫描

对于每个被试，我们使用主动式立体扫描系统（3dMD LLC，Atlanta）来获取自然面容条件下的三维头部数据。这套多相机系统包括六个灰度立体相机对、六个彩色相机、五个散斑图案投影仪和六个白色 LED 面板。重建后，每个被试的三维几何体包含大约 120K 顶点。在扫描期间被试会佩戴头发帽以避免头发在面部或颈部区域中的遮挡以及扫描噪声。

所有类别的挑战是在给定单个单眼图像的情况下重建自然面容条件下的三维面部结构。值得注意的是，由于面部表情存在于若干图片中，所以参加挑战的方法需要具有对表情解离的能力。关于挑战的全部内容，参见 https://ringnet.is.tue.mpg.de/challenge。

论文：Learning to Regress 3D Face Shape and Expression from an Image without 3D Supervision

作者：Soubhik Sanyal、Timo Bolkart、Haiwen Feng、Michael J. Black

论文链接： https://ps.is.tuebingen.mpg.de/uploads_file/attachment/attachment/509/paper_camera_ready.pdf

项目页面： https://ringnet.is.tue.mpg.de/

GitHub页面： https://github.com/soubhiksanyal/RingNet

以上所述就是小编给大家介绍的《CVPR 2019 | 德国马普所提出端到端模型RingNet，基于单张图像进行3D人脸重建》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

Convergence Culture

Henry Jenkins / NYU Press / 2006-08-01 / USD 30.00

"Convergence Culture" maps a new territory: where old and new media intersect, where grassroots and corporate media collide, where the power of the media producer, and the power of the consumer intera......一起来看看《Convergence Culture》这本书的介绍吧!

码农工具