清华大数据论坛落幕快手AI技术副总裁郑文分享深度学习应用

栏目: 数据库 · 发布时间: 7年前

内容简介：4月27日，清华大学108周年校庆之际，清华大学大数据研究中心、清华-快手未来媒体数据联合研究院共同主办《清华大数据论坛——深度学习技术与应用》，清华大学师生、校友汇聚一堂，探讨分享深度学习技术与应用的最新进展。清华大学-快手未来媒体数据联合研究院于2018年4月正式成立。作为清华大学校级科研机构，研究院充分利用清华大学的领先技术和快手多年的行业积累，面向多个领域开展基础和应用研究、开发、集成和快速迭代，共同探讨一系列未来媒体课题，让技术更好赋能用户，实现人与人之间更精准的连接。

4月27日，清华大学108周年校庆之际，清华大学大数据研究中心、清华-快手未来媒体数据联合研究院共同主办《清华大数据论坛——深度学习技术与应用》，清华大学师生、校友汇聚一堂，探讨分享深度学习技术与应用的最新进展。

清华大学-快手未来媒体数据联合研究院于2018年4月正式成立。作为清华大学校级科研机构，研究院充分利用清华大学的领先技术和快手多年的行业积累，面向多个领域开展基础和应用研究、开发、集成和快速迭代，共同探讨一系列未来媒体课题，让技术更好赋能用户，实现人与人之间更精准的连接。

清华大数据论坛落幕快手AI技术副总裁郑文分享深度学习应用

软件学院2001级的校友、清华-快手未来媒体数据联合研究院副院长、快手AI技术副总裁郑文博士作了题为《深度学习在短视频领域的应用和展望》的分享。以下为演讲的核心内容。

作为一个日活超过1.6亿的短视频APP，快手的使命是“用科技提升每一个人独特的幸福感”。这里有两个关键词，一是“每一个人”，这说明快手的价值观是非常普世的，但我们同时也强调每个人的幸福感是“独特的”。光靠人工运营很难达到针对每个人的服务，需要通过人工智能技术，特别是近几年有所突破的深度学习技术来实现。

目前快手是通过记录来提升幸福感的，这可以从两个方面来体现。首先，用户希望能看到更广阔的世界。第二，用户也有分享自己，被更广阔的世界看到的需求。

但是这里面临一个挑战，现在快手累计拥有超过 80 亿条视频与数亿用户，在这两个海量的数字面前，如何有效分配注意力？过去，注意力一般会集中在所谓的“爆款视频”里，但在爆款视频之下，还有大量可能包含了非常丰富的信息、类别多样化的内容，这种“长尾视频”往往很难被别人注意到。如此，一些需求小众，或者兴趣比较细分的群体往往很难找到他们想要的内容。

这个挑战决定了我们必须要依赖于深度学习为主的AI技术解决该问题，代替人工实现内容匹配的分发。快手很早开始就在AI相关技术方面做了很多积累，从视频生产到分发每一个环节都有大量深度学习的应用。

内容生产

快手希望通过 AI 技术使得记录更加丰富有趣，基于这个目标，我们开发了大量多媒体和 AI 技术，比如背景分割、天空分割、头发分割，人体关键点、人脸关键点、手势关键点检测等等，并将它们应用在魔法表情中。

清华大数据论坛落幕快手AI技术副总裁郑文分享深度学习应用

快手用户跟中国互联网用户分布非常一致，中国互联网用户里面有很大一部分使用的手机都是中低端手机，算力有限。而先进的 AI 技术对设备的计算量的要求极高，为了让先进的技术被最多的用户体验到，快手对底层平台进行定制化开发，基于快手自研的 YCNN 深度学习推理引擎及媒体引擎，让上述技术在大多数机型上都能高效运行，并针对不同机型、不同硬件进行了适配和优化。

快手也希望将内容质量变得更高，研发并应用了很多图像增强技术。例如，用户在光线很暗的环境下拍摄，产出的视频往往会丢失信息和细节，通过暗光增强技术，可以将这些细节恢复。

接下来是快手近期在内容生产方面研发的一些具体的深度学习技术。三维人脸技术能够针对单张人脸图像恢复出人脸的三维信息，一方面可以实现对人脸的一些修改，比如打光、做一些表情、实现三维变脸特效；另一方面，通过三维人脸信息，我们可以提取出人的表情变化，然后把表情迁移到虚拟的卡通形象上，效果类似于 iPhoneX 推出的 Animoji 功能，但 iPhoneX 有结构光摄像头，且运行 Animoji 需要很强大的算力，我们通过技术研发，在普通摄像头、配置较低的手机上也能实现类似功能。

清华大数据论坛落幕快手AI技术副总裁郑文分享深度学习应用

刚才也提到了语义分割技术，人像分割技术能把人像和背景区分开，分别对人像和背景做特效，或者进行背景替换，还可以做人像虚化；头发分割，可以把头发区域分割出来，做染发效果。天空分割技术则可以让天空区域变得更加超现实、更加梦幻。

人体姿态估计则是预测人的关节点位置，利用这一技术，我们可以给人体肢体上加特效，或者修改人的体型，做美体瘦身功能。此外，我们还能重构出人体的三维信息，用于控制卡通形象。

手势检测是把各种特定的不同手形检测出来，实现「控雨」等玩法。另外还有 AR 相机姿态估计，背后是快手自研的 3D 引擎，并在其基础上添加编辑器模块、渲染模块、肢体模块、声音模块等，来实现模型精致而自然的光感、材质。

在音视频方面，我们应用了很多智能算法，比如需要视频尽可能清晰，但同时也要求传输流畅，这就需要针对视频复杂度做一些自适应优化。另外，我们也会对图像进行分析，比如视频里面人脸的区域往往对大家的观感影响最大，我们会把人脸的区域检测出来，将码率做得更高，使得整体观感获得很大的提升。

我们也会检测图像质量，比如视频生产过程中存在一些导致图像质量较低的因素，如拍摄没有对好焦，镜头长期没有擦拭，或者视频经过多次上传和压缩而产生块状瑕疵。我们会把这些问题通过 AI 算法检测出来，一方面提醒用户拍摄的时候注意这些问题，另一方面在做视频推荐时也会对高质量视频进行一些倾斜。

内容理解

内容生产环节完成后，视频会被上传到后端服务器，这里我们需要对视频内容进行更深层次的理解。视频的内容理解会用在很多方面，比如内容安全、原创保护、推荐、搜索、广告等等，这里大概分为两个阶段。

清华大数据论坛落幕快手AI技术副总裁郑文分享深度学习应用

首先是感知阶段，机器会从人脸、图像、音乐、语音四个维度对视频信息进行理解。

人脸是一个很重要的维度，因为人脸往往包含了人所关心的最主要的部分，我们会对人脸区域进行检测，识别年龄、性别、表情等。

另外一个维度是图像层面，我们会对图像进行分类，如图像的场景是什么；此外也会检测图像中有哪些物体，还会进行图像质量评估，以及利用 OCR 技术从图像中提取文字。

音乐是影响视频感染力很重要的一部分，我们可以从视频里识别出音乐类型，甚至可以对音乐进行结构化分析，分离伴奏和歌唱部分。

语音也是视频非常重要的维度，往往从图像中可能并不能很好地得到视频所传达的信息，这时候语音就非常重要，我们会把语音识别出来转化成文字，也会通过语音去识别人物的身份、年龄、性别等等。

第二个阶段是推理阶段，我们会把这些不同维度的信息进行多模态融合，推理出更高层次的语音信息，或者对视频进行情感识别。我们也用到知识图谱技术，把视频里的知识存储在知识图谱里表达出来。通过知识图谱的推理，能够得到一些更高层、更深入的信息。

在内容理解方面我们也做了一些比较具体的技术，如快手开发了一套视频标签系统，可以对视频里出现的大多数内容和场景进行分类。在快手语音识别功能模块，我们采用深度学习算法，结合上下文语境模块，使得识别精度得到很大提升。

清华大数据论坛落幕快手AI技术副总裁郑文分享深度学习应用

一方面，我们需要理解视频内容，另一方面，我们也需要对用户进行理解，包含用户公开的年龄、性别等信息以及用户在实时使用快手时产生一些行为数据。这些数据都会传送到后端的深度学习模型里，训练出对用户理解的向量。通过这些向量，我们可以预测用户的兴趣以及他与其他用户之间的关系。

清华大数据论坛落幕快手AI技术副总裁郑文分享深度学习应用

最后我们得到对用户的描述以及对视频的理解，用户和视频之间的匹配就会产生万亿级别特征的大数据，这个大数据会被用在实时在线的推荐系统里，预测用户会对什么样的视频感兴趣。另外我们也会对社区里的内容进行排序，比如前面提到如何分配注意力，我们希望注意力分配的差距不要太大，所以会根据基尼系数调整视频内容的分配情况。此外，还会考虑到内容的安全性、多样性以及原创保护等因素。

最后，我们也希望跟高校、学界的老师同学进一步加强深度合作，充分利用快手的海量数据和强大算力，共同推进深度学习技术，挖掘未来更多的可能性，提升大众幸福感，这也是成立清华大学-快手未来媒体数据联合研究院的愿景，谢谢大家。

本文由新智派发布在新智派，转载此文请保持文章完整性，并请附上文章来源（新智派）及本页链接。

原文链接：https://knewsmart.com/archives/8482

以上所述就是小编给大家介绍的《清华大数据论坛落幕快手AI技术副总裁郑文分享深度学习应用》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

算法：C语言实现

塞奇威克 / 霍红卫 / 机械工业出版社 / 2009-10 / 79.00元

《算法:C语言实现(第1-4部分)基础知识、数据结构、排序及搜索(原书第3版)》细腻讲解计算机算法的C语言实现。全书分为四部分，共16章。包括基本算法分析原理，基本数据结构、抽象数据结构、递归和树等数据结构知识，选择排序、插入排序、冒泡排序、希尔排序、快速排序方法、归并和归并排序方法、优先队列与堆排序方法、基数排序方法以及特殊用途的排序方法，并比较了各种排序方法的性能特征，在进一步讲解符号表、树等......一起来看看《算法：C语言实现》这本书的介绍吧!

码农工具

清华大数据论坛落幕快手AI技术副总裁郑文分享深度学习应用

内容生产

内容理解

算法：C语言实现

Base64 编码/解码

XML、JSON 在线转换

Markdown 在线编辑器

清华大数据论坛落幕 快手AI技术副总裁郑文分享深度学习应用

内容生产

内容理解

算法：C语言实现

Base64 编码/解码

XML、JSON 在线转换

Markdown 在线编辑器

清华大数据论坛落幕快手AI技术副总裁郑文分享深度学习应用