更自由的GAN图像联想:无监督跨类的图像转换模型FUNIT,英伟达&&康奈尔大学

栏目: 数据库 · 发布时间: 5年前

内容简介:想要释放模型的威力,可以尝试解放其输入的自由度,要知道,婴儿对外界各种形式信息从来都是来着不拒 — David 9如果你没看到过然而要让模型跨类转换图像,就没有那么容易,英伟达&&康奈尔大学使用的

想要释放模型的威力,可以尝试解放其输入的自由度,要知道,婴儿对外界各种形式信息从来都是来着不拒 — David 9

如果你没看到过 老虎坐着 的样子,但是你看到过其他 小动物坐着 的样子,你很自然地联想到老虎坐着应该是什么样子(如上封面图片所示)。

然而要让模型跨类转换图像,就没有那么容易,英伟达&&康奈尔大学使用的 FUNIT模型 的图像生成任务如下:

更自由的GAN图像联想:无监督跨类的图像转换模型FUNIT,英伟达&&康奈尔大学
来自:https://arxiv.org/pdf/1905.01723.pdf

随意抽取一张 原内容图片(Content image) , 同时给出你想要转换到的 目标类别(Target class) ,最后,需要由模型 把原图片转换成目标类别的独特属性。 如果你有一张小狗的图片,模型可以为你联想这只小狗“进化”成狮子会是什么样?

FUNIT训练框架如下:

更自由的GAN图像联想:无监督跨类的图像转换模型FUNIT,英伟达&&康奈尔大学
来自:https://www.youtube.com/watch?v=kgPAqsC8PLM

模型分3大块: 内容编码器(Content Encoder) , 类别编码器(Class Encoder) 以及 总解码器(Decoder) 。当然,要通过这三个组件构造老套的 GAN训练平衡 ,总的Loss函数如下:

更自由的GAN图像联想:无监督跨类的图像转换模型FUNIT,英伟达&&康奈尔大学
https://arxiv.org/pdf/1905.01723.pdf

其中3项分别表示 GAN的loss , 图像本身构图的loss , 以及 特征匹配的loss 。

其中,

1. GAN的loss 保证生成器和判别器之间的博弈,即,生成器竭力生成与目标类别相似的图像让判别器无法判断;判别器要竭力区分不同类别图片之间的区别。

2. 图像本身构图的loss保证生成的图像要像原图片的构图,即,转换后的图像要在内容上像转换前的图像(虽然类别性质明显不同)。

3. 特征匹配的loss用来给整个训练加上正则,保证生成的图像用cnn编码的倒数几层的特征值,与目标类别图像cnn倒数几层的特征值相似,即,生成图像与目标类别中的图像也都是相似的。

整个模型的源代码还没有完全公开,大家可以关注: https://github.com/nvlabs/FUNIT/ ,有新进展可以联系David一起讨论成长。

参考文献:

  1. https://nvlabs.github.io/FUNIT/
  2. https://arxiv.org/abs/1905.08233
  3. https://www.youtube.com/watch?v=kgPAqsC8PLM

本文采用 署名 – 非商业性使用 – 禁止演绎 3.0 中国大陆许可协议 进行许可。著作权属于“David 9的博客”原创,如需转载,请联系微信: david9ml,或邮箱:yanchao727@gmail.com

或直接扫二维码:

更自由的GAN图像联想:无监督跨类的图像转换模型FUNIT,英伟达&&康奈尔大学

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

大转换

大转换

尼古拉斯·卡尔 / 闫鲜宁、张付国 / 中信 / 2016-2 / 49

1、我们这个时代最清醒的思考者之一尼古拉斯·卡尔继《浅薄》《玻璃笼子》之后又一重磅力作。 2、在这部跨越历史、经济和技术领域的著作中,作者从廉价的电力运营方式对社会变革的深刻影响延伸到互联网对我们生活的这个世界的重构性影响。 3、《快公司》《金融时报》《华尔街日报》联袂推荐 简介 早在2003年,尼古拉斯·卡尔先生发表在《哈佛商业评论》上的一篇文章——IT Doesn't ......一起来看看 《大转换》 这本书的介绍吧!

Base64 编码/解码
Base64 编码/解码

Base64 编码/解码

XML 在线格式化
XML 在线格式化

在线 XML 格式化压缩工具

UNIX 时间戳转换
UNIX 时间戳转换

UNIX 时间戳转换