内容简介:据机器之心了解,德国马克思·普朗克研究所马普智能系统所共有 14 篇论文入选 CVPR 2019,本文简要介绍了其中三篇。摘要:音频驱动的 3D 人脸动画已经得到了广泛探索,但该领域仍未达到逼真、类似人类的效果。其原因在于缺乏可用的 3D 数据集、模型和标准评估度量指标。为此,我们创建了一个独特的 4D 人脸数据集 VOCASET,它包括以 60 fps 的帧速率捕捉到的 4D 扫描(共 29 分钟),以及来自 12 名说话者的同期声。然后我们在该数据集上训练一个神经网络,它可以将人物和人脸运动分离开来。学
据机器之心了解,德国马克思·普朗克研究所马普智能系统所共有 14 篇论文入选 CVPR 2019,本文简要介绍了其中三篇。
论文 1:Capture, Learning, and Synthesis of 3D Speaking Styles
-
作者:Daniel Cudeiro、Timo Bolkart、Cassidy Laidlaw、Anurag Ranjan、Michael J. Black
-
论文链接:https://ps.is.tuebingen.mpg.de/uploads_file/attachment/attachment/510/paper_final.pdf
-
项目页面:https://voca.is.tue.mpg.de/
-
GitHub 页面:https://github.com/TimoBolkart/voca
摘要:音频驱动的 3D 人脸动画已经得到了广泛探索,但该领域仍未达到逼真、类似人类的效果。其原因在于缺乏可用的 3D 数据集、模型和标准评估度量指标。为此,我们创建了一个独特的 4D 人脸数据集 VOCASET,它包括以 60 fps 的帧速率捕捉到的 4D 扫描(共 29 分钟),以及来自 12 名说话者的同期声。然后我们在该数据集上训练一个神经网络,它可以将人物和人脸运动分离开来。学到的模型 VOCA (Voice Operated Character Animation) 可使用任意语音信号作为输入(即使不是英语也可以),然后将大量成人面部转化为逼真的动图。
基于多个人物标签训练使得模型可以学习多种逼真的说话风格。在动图化的过程中,VOCA 还提供动图控制器来改变说话风格、依赖于人物的人脸形状和姿势(即头、下巴和眼球转动)。据我们所知,VOCA 是目前唯一无需重定位即可应用于未见人物的 3D 人脸动图模型。这使得 VOCA 适合比赛录像、VR 头像,或者任何无法提前知道说话者、语音和语言的场景。出于研究目的,我们公开了该数据集和模型,参见:http://voca.is.tue.mpg.de。(http://voca.is.tue.mpg.de./)
VOCA 是一个简单通用的语音驱动人脸动画框架,适用于大量不同人物。给定任意语音信号和静态 3D 人脸网格输入(左),VOCA 模型输出逼真的 3D 人物动图(右)。
VOCA 模型架构
VOCA 用人物特定的模板 T 和原始音频信号作为输入,研究者利用 DeepSpeech [29] 从中提取特征。期望输出是目标 3D 网格。VOCA 是一个编码器-解码器网络,编码器学习将音频特征转换为低维嵌入,解码器将低维嵌入映射到 3D 顶点位移的高维空间。
VOCA 网络架构。
模型架构。
实验
论文 2:Learning to Regress 3D Face Shape and Expression from an Image without 3D Supervision
-
作者:Soubhik Sanyal、Timo Bolkart、Haiwen Feng、Michael J. Black
-
论文链接:https://ps.is.tuebingen.mpg.de/uploads_file/attachment/attachment/509/paper_camera_ready.pdf
-
项目页面:https://ringnet.is.tue.mpg.de/
-
GitHub 页面:https://github.com/soubhiksanyal/RingNet
摘要:基于单个图像的 3D 人脸形状估计必须对光线、头部姿势、表情、胡须、妆容和遮挡等的变化具备稳健性。稳健性则需要大量野外图像作为训练数据,而它们缺少真值 3D 形状。为了在没有 2D-to-3D 监督的情况下训练网络,我们提出了 RingNet,它可以基于单个图像学习计算 3D 人脸形状。
我们的重要观察是,一个人在不同图像中不管表情、姿势、光线如何,人脸形状都是不变的。RingNet 利用一个人的多张图像自动检测 2D 人脸特征。它使用了一个新型 损失函数 ,当图像中的人物相同时,人脸形状是类似的,当人物不同时,人脸形状是不同的。我们使用 FLAME 模型表示人脸,从而对表情保持不变性。
训练完成后,我们的方法可以基于单个图像输出 FLAME参数,然后进行动图化。此外,该研究者还创建了一个新的人脸数据库「not quite in-the-wild」(NoW)。我们评估了目前已有的公开方法,发现 RingNet 的准确率高于那些使用 3D 监督的方法。目前,该研究所用数据集、模型和结果均已开源:https://ringnet.is.tue.mpg.de/。
在没有 3D 监督的情况下,RingNet 学习从单个图像像素到 FLAME 模型 3D 人脸参数的映射。第一行:来自 CelebA 数据集 [22] 的图像。第二行:估计到的形状、姿势和表情。
NoW 数据集示例。
方法
该研究提出的 RingNet 架构如下图所示:
RingNet 在训练过程中使用人物 A 的多张图像和人物 B 的一张图像作为输入,然后识别出相同人物图像之间的形状一致性和不同人物图像之间的形状不一致性。
如上图所示,RingNet 被分割成 R 个 ring 元素 e^i=R_i=1,其中 e_i 包括一个编码器和一个解码器,如下图所示:
实验
研究者对 RingNet 进行了定量和定性评估,并与已有的公开方法(PRNet (ECCV 2018 [9])、Extreme3D (CVPR 2018 [35])、3DMM-CNN (CVPR 2017 [34]))进行了对比
论文 3:Local Temporal Bilinear Pooling for Fine-grained Action Parsing
-
作者:Yan Zhang、Siyu Tang、Krikamol Muandet、Christian Jarvers、Heiko Neumann
-
论文链接:https://arxiv.org/abs/1812.01922
-
项目页面:https://ps.is.tuebingen.mpg.de/publications/bilinear2018
摘要:细粒度时序动作解析在很多应用中都很重要,比如日常活动理解、人类动作分析、手术机器人等需要在较长时间段内具备精密准确操作的应用。这篇论文提出了一种新型双线性池化操作,它被用作时序卷积编码器-解码器网络的中间层。与其他研究不同,该双线性池化操作是可学习的,因此它能够比传统的操作捕捉到更多复杂的局部统计数据。
此外,我们还引入了该双线性池化操作的确切低维表征,使得维度不会因为信息损失或过量计算而降低。我们执行了大量实验,对该模型进行了量化分析,结果表明该模型在多个数据集上展现出优于其他 SOTA池化方法的性能。
实验
实验所用数据集示例。
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- CVPR 2019 | 德国马普所提出语音驱动的逼真 3D 人脸动画框架,可用于不同个体
- 【Android 动画】动画详解之属性动画(三)
- 【Android 动画】动画详解之属性动画(五)
- Flutter 动画全解析(动画四要素、动画组件、隐式动画组件原理等)
- 【Android 动画】动画详解之补间动画(一)
- 人脸专集(三):人脸关键点检测(下)
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
ActionScript 3.0 Cookbook中文版
Joey Lott、Adobe Dev Library / 陈建勋 / 电子工业 / 2007-11-01 / 78.00元
本书讨论了在Flash Player里执行的ActionScript3.0语言,采用问题—解法—讨论的形式讲解开发过程中常见问题的实际解法,例如:检测用户的 Flash Player 版本或操作系统;格式化日期和货币类型;接受用户输入及操作文字字符串;在运行时绘制各种形状;访问音频和视频;使用 Flash Remoting 进行远程过程调用;加载、发送和检索 XML 数据等。 全书涵盖客户端......一起来看看 《ActionScript 3.0 Cookbook中文版》 这本书的介绍吧!