逼真3D人脸动画等，德国马普所三篇CVPR 2019论文推荐

栏目: 编程工具 · 发布时间: 5年前

内容简介：据机器之心了解，德国马克思·普朗克研究所马普智能系统所共有 14 篇论文入选 CVPR 2019，本文简要介绍了其中三篇。摘要：音频驱动的 3D 人脸动画已经得到了广泛探索，但该领域仍未达到逼真、类似人类的效果。其原因在于缺乏可用的 3D 数据集、模型和标准评估度量指标。为此，我们创建了一个独特的 4D 人脸数据集 VOCASET，它包括以 60 fps 的帧速率捕捉到的 4D 扫描（共 29 分钟），以及来自 12 名说话者的同期声。然后我们在该数据集上训练一个神经网络，它可以将人物和人脸运动分离开来。学

据机器之心了解，德国马克思·普朗克研究所马普智能系统所共有 14 篇论文入选 CVPR 2019，本文简要介绍了其中三篇。

论文 1：Capture, Learning, and Synthesis of 3D Speaking Styles

作者：Daniel Cudeiro、Timo Bolkart、Cassidy Laidlaw、Anurag Ranjan、Michael J. Black
论文链接：https://ps.is.tuebingen.mpg.de/uploads_file/attachment/attachment/510/paper_final.pdf
项目页面：https://voca.is.tue.mpg.de/
GitHub 页面：https://github.com/TimoBolkart/voca

摘要：音频驱动的 3D 人脸动画已经得到了广泛探索，但该领域仍未达到逼真、类似人类的效果。其原因在于缺乏可用的 3D 数据集、模型和标准评估度量指标。为此，我们创建了一个独特的 4D 人脸数据集 VOCASET，它包括以 60 fps 的帧速率捕捉到的 4D 扫描（共 29 分钟），以及来自 12 名说话者的同期声。然后我们在该数据集上训练一个神经网络，它可以将人物和人脸运动分离开来。学到的模型 VOCA (Voice Operated Character Animation) 可使用任意语音信号作为输入（即使不是英语也可以），然后将大量成人面部转化为逼真的动图。

基于多个人物标签训练使得模型可以学习多种逼真的说话风格。在动图化的过程中，VOCA 还提供动图控制器来改变说话风格、依赖于人物的人脸形状和姿势（即头、下巴和眼球转动）。据我们所知，VOCA 是目前唯一无需重定位即可应用于未见人物的 3D 人脸动图模型。这使得 VOCA 适合比赛录像、VR 头像，或者任何无法提前知道说话者、语音和语言的场景。出于研究目的，我们公开了该数据集和模型，参见：http://voca.is.tue.mpg.de。(http://voca.is.tue.mpg.de./)

逼真3D人脸动画等，德国马普所三篇CVPR 2019论文推荐

VOCA 是一个简单通用的语音驱动人脸动画框架，适用于大量不同人物。给定任意语音信号和静态 3D 人脸网格输入（左），VOCA 模型输出逼真的 3D 人物动图（右）。

VOCA 模型架构

VOCA 用人物特定的模板 T 和原始音频信号作为输入，研究者利用 DeepSpeech [29] 从中提取特征。期望输出是目标 3D 网格。VOCA 是一个编码器-解码器网络，编码器学习将音频特征转换为低维嵌入，解码器将低维嵌入映射到 3D 顶点位移的高维空间。

逼真3D人脸动画等，德国马普所三篇CVPR 2019论文推荐

VOCA 网络架构。

逼真3D人脸动画等，德国马普所三篇CVPR 2019论文推荐

模型架构。

实验

逼真3D人脸动画等，德国马普所三篇CVPR 2019论文推荐

论文 2：Learning to Regress 3D Face Shape and Expression from an Image without 3D Supervision

作者：Soubhik Sanyal、Timo Bolkart、Haiwen Feng、Michael J. Black
论文链接：https://ps.is.tuebingen.mpg.de/uploads_file/attachment/attachment/509/paper_camera_ready.pdf
项目页面：https://ringnet.is.tue.mpg.de/
GitHub 页面：https://github.com/soubhiksanyal/RingNet

摘要：基于单个图像的 3D 人脸形状估计必须对光线、头部姿势、表情、胡须、妆容和遮挡等的变化具备稳健性。稳健性则需要大量野外图像作为训练数据，而它们缺少真值 3D 形状。为了在没有 2D-to-3D 监督的情况下训练网络，我们提出了 RingNet，它可以基于单个图像学习计算 3D 人脸形状。

我们的重要观察是，一个人在不同图像中不管表情、姿势、光线如何，人脸形状都是不变的。RingNet 利用一个人的多张图像自动检测 2D 人脸特征。它使用了一个新型损失函数，当图像中的人物相同时，人脸形状是类似的，当人物不同时，人脸形状是不同的。我们使用 FLAME 模型表示人脸，从而对表情保持不变性。

训练完成后，我们的方法可以基于单个图像输出 FLAME参数，然后进行动图化。此外，该研究者还创建了一个新的人脸数据库「not quite in-the-wild」(NoW)。我们评估了目前已有的公开方法，发现 RingNet 的准确率高于那些使用 3D 监督的方法。目前，该研究所用数据集、模型和结果均已开源：https://ringnet.is.tue.mpg.de/。

逼真3D人脸动画等，德国马普所三篇CVPR 2019论文推荐

在没有 3D 监督的情况下，RingNet 学习从单个图像像素到 FLAME 模型 3D 人脸参数的映射。第一行：来自 CelebA 数据集 [22] 的图像。第二行：估计到的形状、姿势和表情。

逼真3D人脸动画等，德国马普所三篇CVPR 2019论文推荐

NoW 数据集示例。

方法

该研究提出的 RingNet 架构如下图所示：

逼真3D人脸动画等，德国马普所三篇CVPR 2019论文推荐

RingNet 在训练过程中使用人物 A 的多张图像和人物 B 的一张图像作为输入，然后识别出相同人物图像之间的形状一致性和不同人物图像之间的形状不一致性。

如上图所示，RingNet 被分割成 R 个 ring 元素 e^i=R_i=1，其中 e_i 包括一个编码器和一个解码器，如下图所示：

逼真3D人脸动画等，德国马普所三篇CVPR 2019论文推荐

实验

研究者对 RingNet 进行了定量和定性评估，并与已有的公开方法（PRNet (ECCV 2018 [9])、Extreme3D (CVPR 2018 [35])、3DMM-CNN (CVPR 2017 [34])）进行了对比

逼真3D人脸动画等，德国马普所三篇CVPR 2019论文推荐

论文 3：Local Temporal Bilinear Pooling for Fine-grained Action Parsing

作者：Yan Zhang、Siyu Tang、Krikamol Muandet、Christian Jarvers、Heiko Neumann
论文链接：https://arxiv.org/abs/1812.01922
项目页面：https://ps.is.tuebingen.mpg.de/publications/bilinear2018

摘要：细粒度时序动作解析在很多应用中都很重要，比如日常活动理解、人类动作分析、手术机器人等需要在较长时间段内具备精密准确操作的应用。这篇论文提出了一种新型双线性池化操作，它被用作时序卷积编码器-解码器网络的中间层。与其他研究不同，该双线性池化操作是可学习的，因此它能够比传统的操作捕捉到更多复杂的局部统计数据。

此外，我们还引入了该双线性池化操作的确切低维表征，使得维度不会因为信息损失或过量计算而降低。我们执行了大量实验，对该模型进行了量化分析，结果表明该模型在多个数据集上展现出优于其他 SOTA池化方法的性能。

实验

逼真3D人脸动画等，德国马普所三篇CVPR 2019论文推荐

实验所用数据集示例。

逼真3D人脸动画等，德国马普所三篇CVPR 2019论文推荐

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

代码之美

Grey Wilson / 聂雪军 / 机械工业出版社 / 2008年09月 / 99.00元

《代码之美》介绍了人类在一个奋斗领域中的创造性和灵活性：计算机系统的开发领域。在每章中的漂亮代码都是来自独特解决方案的发现，而这种发现是来源于作者超越既定边界的远见卓识，并且识别出被多数人忽视的需求以及找出令人叹为观止的问题解决方案。《代码之美》33章，有38位作者，每位作者贡献一章。每位作者都将自己心目中对于“美丽的代码”的认识浓缩在一章当中，张力十足。38位大牛，每个人对代码之美都有自......一起来看看《代码之美》这本书的介绍吧!

码农工具