内容简介:英伟达家的新AI,可以把视频里的一只金毛,迅速变成猫鼬。只要给AI看
圆栗子 发自 凹非寺
量子位 报道 | 公众号 QbitAI
英伟达家的新AI,可以把视频里的一只金毛,迅速变成猫鼬。
只要给AI看 两张 猫鼬的静态图:
在看到这两张图之前,AI从来没有见过猫鼬这种动物,训练集里没有。
AI没见过的动物还有很多,只要给它一两张照片熟悉一下,就可以把金毛换成它们的脸。
比如,凶猛的大型猫科动物:
这样说来,金毛的亲戚如 哈士奇 等辈,更加不在话下:
虽说同是 图到图的翻译 ,同是 无监督 ,这只AI和 马变斑马 的前辈非常不同。前辈只能在自己见过的动物之间做翻译。训练的时候,看过许多马,也看过许多斑马;
而英伟达的新选手, 相当于训练中从没见过斑马 。训练集里没有的动物,只要测试的时候能看到一两张图,就够了。
小样本学习(Few-Shot Learning) 算法,对训练数据的要求大大大大大大降低了。
团队把算法开源了,还上线了一键换脸Demo。所以,今天先玩耍一下再讲原理。
错误与正确的打开方式
在下鸡冻地尝试了 Demo 。
第一题,把一只高冷的喵传了上去,用方框选中头部。
△ 鸣谢我司夏老司
于是,各种动物都获得了 半侧面的冷峻 :
第二题 ,把一只雷布斯传了上去,也是半侧面:
意想不到,生成了贵族气息的 半兽人 :
AI的 艺术天分 扑面而来,不过还是要郑重提醒各位:
Demo应用叫做 宠物换脸 (PetSwap) ,请选择正确的打开方式,下面是正确示范。
第三题,冲破次元壁。去吧,大侦探皮卡丘:
大家都戴上了福尔摩斯的帽子,不过只有右上角的 猎犬 ,解锁了性感的 腮红 。
真是一个优雅又充实的早晨。
玩够,该看原理了。
没见过的动物,只要看一眼
就像开头讲到的,这是一个小样本翻译器。它要把 内容图 (Content Image) 如金毛,换成类别图 (Class Image) ,如 哈士奇 或者 美洲狮 。
模型分为三个部分:
一是 内容编码器 (Content Encoder) ,粉色部分。它把输入的 内容图 (金毛) ,映射到一个内容潜码 (Content Latent Code) 上。
二是 类别编码器 (Class Encoder) ,绿色部分。先把每张 类别图 (哈士奇) 映射到一个潜码上。然后取个平均,就得到整个类别的潜码了。
三是 解码器 (Decoder) ,蓝色部分。先把类别潜码映射到adaIN参数上,然后把内容潜码做个解码,来生成翻译的结果图。
训练的时候,数据集里有金毛也有哈士奇。AI就在这些 见过的类别 之间,修炼换脸技能:
可是,训练集里没有 美洲狮 。测试的时候,要生成美洲狮怎么办呢?
秘密就在这里:当类别图和内容图 长得一样 的时候,就让模型生成一个 重构 (Reconstruction) 。
这样,只要在测试的过程中,临时看一张美洲狮 (或者几张) ,就能把没见过的瞬间变为见过的。AI把训练集里的狗,翻译美洲狮,也就不难了:
大功告成。
你也快去玩啊
这样 (优) 秀的AI,你一定也想调教一下。
代码、Demo、论文,都在这里了:
Demo传送门:
https://nvlabs.github.io/FUNIT/petswap.html
论文传送门:
https://arxiv.org/abs/1905.01723
代码传送门:
https://github.com/nvlabs/FUNIT/
主页传送门:
https://nvlabs.github.io/FUNIT/
— 完 —
小程序|get更多AI学习干货
加入社群
量子位AI社群开始招募啦,量子位社群分:AI讨论群、AI+行业群、AI技术群;
欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“微信群”,获取入群方式。(技术群与AI+行业群需经过审核,审核较严,敬请谅解)
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态
喜欢就点「在看」吧 !
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- 聆听中国开源最强音 | 国内大厂开源项目齐聚 OSCAR 开源先锋日
- 小米 9 开源内核代码,上市即开源
- 开源 | 陌陌风控系统正式开源
- 开源 |《Go 语言高级编程》开源图书
- 开源不只是“喊喊” 看红帽的开源之道
- 中国开源走向世界,深圳落成国际开源谷
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
Qt 5.9 C++开发指南
王维波、栗宝鹃、侯春望 / 人民邮电出版社 / 2018-5-1 / 89.00元
本书以Qt 5.9 LTS版本为开发平台,详细介绍了Qt C++开发应用程序的技术,包括Qt应用程序的基本架构、信号与槽工作机制、图形显示的Graphics/View架构、数据编辑和显示的Model/View架构、对话框和多窗口的设计与调用方法等,介绍了常用界面组件、文件读写、绘图、图表、数据可视化、数据库、多线程、网络和多媒体等模块的使用。每个编程主题都精心设计了完整的实例程序。 通过阅读......一起来看看 《Qt 5.9 C++开发指南》 这本书的介绍吧!