更自由的GAN图像联想：无监督跨类的图像转换模型FUNIT，英伟达&&康奈尔大学

栏目: 数据库 · 发布时间: 5年前

内容简介：想要释放模型的威力，可以尝试解放其输入的自由度，要知道，婴儿对外界各种形式信息从来都是来着不拒 — David 9如果你没看到过然而要让模型跨类转换图像，就没有那么容易，英伟达&&康奈尔大学使用的

想要释放模型的威力，可以尝试解放其输入的自由度，要知道，婴儿对外界各种形式信息从来都是来着不拒 — David 9

如果你没看到过 老虎坐着 的样子，但是你看到过其他 小动物坐着 的样子，你很自然地联想到老虎坐着应该是什么样子（如上封面图片所示）。

然而要让模型跨类转换图像，就没有那么容易，英伟达&&康奈尔大学使用的 FUNIT模型的图像生成任务如下：

随意抽取一张 原内容图片（Content image） , 同时给出你想要转换到的 目标类别（Target class） ，最后，需要由模型 把原图片转换成目标类别的独特属性。 如果你有一张小狗的图片，模型可以为你联想这只小狗“进化”成狮子会是什么样？

FUNIT训练框架如下：

模型分3大块： 内容编码器（Content Encoder） , 类别编码器（Class Encoder） 以及 总解码器（Decoder） 。当然，要通过这三个组件构造老套的 GAN训练平衡 ，总的Loss函数如下：

其中3项分别表示 GAN的loss , 图像本身构图的loss , 以及 特征匹配的loss 。

其中,

1. GAN的loss 保证生成器和判别器之间的博弈，即，生成器竭力生成与目标类别相似的图像让判别器无法判断；判别器要竭力区分不同类别图片之间的区别。

2. 图像本身构图的loss保证生成的图像要像原图片的构图，即，转换后的图像要在内容上像转换前的图像（虽然类别性质明显不同）。

3. 特征匹配的loss用来给整个训练加上正则，保证生成的图像用cnn编码的倒数几层的特征值，与目标类别图像cnn倒数几层的特征值相似，即，生成图像与目标类别中的图像也都是相似的。

整个模型的源代码还没有完全公开，大家可以关注： https://github.com/nvlabs/FUNIT/ ，有新进展可以联系David一起讨论成长。

参考文献：

本文采用署名 – 非商业性使用 – 禁止演绎 3.0 中国大陆许可协议进行许可。著作权属于“David 9的博客”原创，如需转载，请联系微信: david9ml，或邮箱：yanchao727@gmail.com

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

Adam L. Penenberg / Tantor Media / 2009-10-27 / USD 34.99

From Google to Facebook, a respected journalist delves into how a "viral loop" can make an online business a success.一起来看看《Viral Loop》这本书的介绍吧!