内容简介:计算机视觉领域顶级会议 CVPR 将于 6 月 16 日-20 日在美国加州长滩举行。CVPR 2019 共收到 5165 篇有效提交论文,相比去年增加了 56%;接收论文 1300 篇,接收率接近 25.2%。据机器之心了解,德国马克思·普朗克研究所智能系统所共有 14 篇论文入选 CVPR 2019,本文简要介绍了其中关于 3D 人脸动画的研究。该研究提出一种简单通用的语音驱动人脸动画框架 VOCA。本文介绍了 VOCA(Voice Operated Character Animation),这是一种简
计算机视觉领域顶级会议 CVPR 将于 6 月 16 日-20 日在美国加州长滩举行。CVPR 2019 共收到 5165 篇有效提交论文,相比去年增加了 56%;接收论文 1300 篇,接收率接近 25.2%。
据机器之心了解,德国马克思·普朗克研究所智能系统所共有 14 篇论文入选 CVPR 2019,本文简要介绍了其中关于 3D 人脸动画的研究。该研究提出一种简单通用的语音驱动人脸动画框架 VOCA。
本文介绍了 VOCA(Voice Operated Character Animation),这是一种简单且通用的语音驱动面部动画框架,可适用于不同个体。VOCA 可以将任何语音信号和静态三维头部网格作为输入,并输出逼真的面部动画。VOCA 利用了语音处理和 3D 人脸建模的最新成果以泛化到新的对象上。同时 VOCA 还为动画师提供了控制的可能,以在制作动画期间改变说话风格、依赖于个体身份的面部形状以及姿势(即头部、下颌和眼球转动)。VOCA 在多主题 4D 面部数据集(VOCASET)上进行训练。数据集、训练模型和代码均公开可用。
音频驱动的 3D 面部动画已被研究者广泛探索,但仍然难以实现逼真的、类人的表现。这是由于缺乏可用的 3D 数据集、模型和标准评估指标。为了解决这个问题,我们推出了一个独特的 4D 人脸数据集,其中包括以 60 fps 捕获的约 29 分钟 4D 扫描和 12 个说话者的同步音频。然后我们在这个数据集上训练神经网络,它可以将面部运动与个体(identity)分离开来。VOCA 作为学习模型,可以将任何语音信号作为输入,甚至是除英语之外语言的语音,并且可以逼真地动画化大量不同的成人面孔。在训练期间对主题标签进行调节允许模型学习各种逼真的说话风格。VOCA 还提供动画控制,从而在制作期间改变说话风格、依赖于个体身份的面部形状和姿势(即头部、下颌和眼球转动)。据我们所知,VOCA 是唯一一个可轻松应用于未见过对象而无需重新定位的逼真 3D 面部动画模型。这使得 VOCA 非常适用于游戏内视频、虚拟现实头像,或任何预先不知道讲者、语音或语言的情况。我们的数据集和模型开放并可用于研究目的。
VOCA 框架
VOCA 展示了如何组合不同的构建块,以获得简单通用的语音驱动面部动画框架。
VOCA 网络架构。
1)使用 DeepSpeech, 一个预训练的语音到文本模型。由于其庞大的训练语料库(数百小时的演讲),将它作为音频特征提取器可提供对于不同音频源的鲁棒性。
2)对说话者风格的调节使得能够跨受试者进行训练(即如果没有调节,跨对象的回归训练会获得非常平均化的面部运动),并在测试时间内合成说话人风格的组合。
3)从面部运动中分解个体身份使我们能够为各种各样的成人面孔制作动画。
4)使用样本网格拓扑作为公共可用的 FLAME 全头模型,允许我们从三维扫描或图像重建获取特定对象的 3D 头模板。FLAME 的网格拓扑使我们能够在动画期间进一步编辑依赖于个体身份的面形状和头部姿势。
VOCA 特点:
1)简单而通用的语音驱动的面部动画框架,适用于不同对象;
2)对各种语音源、语言和 3D 面部模板具有良好的泛化能力;
3)提供动画控制参数以在制作动画期间改变说话风格、依赖于个体身份的形状和头部姿势;
4)训练数据集、训练模型和代码可用于研究目的。
局限与未来方向
虽然 VOCA 可以用来逼真地演绎各种各样的成人面孔,但它仍然缺乏对话真实感所需的一些细节。上半张脸的运动(即眼睛和眉毛)与音频没有很强的相关性。这其中的因果要素是情绪,由于在受控环境中模拟带有情绪的语音非常困难,我们的数据中没有这一要素。因此,当 VOCA 从演讲中学习因果面部运动时,主要聚焦于下半张脸。
非语言性的交流线索,例如头部运动,与音频信号存在弱相关,因此不能通过音频驱动技术很好地建模。VOCA 为动画师和开发人员提供了包括头部运动的可能性,但并未从数据中推断出它。头部运动的语音独立模型可用于模拟实际结果。应用特定技术,例如动画助手和人之间的二元相互作用,需要考虑空间特征的注意机制,例如眼部追踪。
通过增加情绪来增加真实感,以及诸如头部运动和眼睛凝视之类的非语言性提示是未来的研究方向。
VOCA 旨在通过音频制作动画面孔。未来的研究方向是用富有表现力的肢体学习更丰富的对话模型,即不仅要考虑面部,还要考虑肢体语言的建模。
论文 :Capture, Learning, and Synthesis of 3D Speaking Styles
-
作者:Daniel Cudeiro、Timo Bolkart、Cassidy Laidlaw、Anurag Ranjan、Michael J. Black
-
论文链接: https://ps.is.tuebingen.mpg.de/uploads_file/attachment/attachment/510/paper_final.pdf
-
GitHub 页面: https://github.com/TimoBolkart/voca
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- 如何通过OpenFace实现人脸识别框架
- 人脸专集(三):人脸关键点检测(下)
- 应用层下的人脸识别(二):人脸库
- 应用层下的人脸识别(三):人脸比对
- 阿里人脸识别安全技术获专利 可防范3D人脸面具攻击
- 你能区分真实人脸和AI生成的虚假人脸吗?
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
移动互联网商规28条
王吉斌、彭盾、程成 / 机械工业出版社 / 2014-6 / 49.00
每一次信息技术革命都会颠覆很多行业现有的商业模式和市场规则,当前这场移动互联网变革的波及面之广和蔓延速度之快,完全超出我们的想象。行业的边界被打破并互相融合,在此之前,我们只面临来自同行业的竞争,但是今天,我们不知道竞争对手会来自哪里。也许今天我们还是行业的巨人,但是明天就会被踩在脚下,当我们的体温犹热时,新的巨人已经崛起。诺基亚等传统科技巨头的衰退告诉我们,企业在一个时代的优势,到了另外一个新时......一起来看看 《移动互联网商规28条》 这本书的介绍吧!