给GAN一句描述,它就能按要求画画,微软CVPR新研究 | 附PyTorch代码

栏目: Python · 发布时间: 6年前

内容简介:让AI认得图像,根据自己的理解给出一段叙述,已经不是什么新鲜事了。从图像到文字容易,把这个过程反过来却很难。让AI画图有了成熟的解决方案,GAN就是是一个好办法,但是它通畅并不能按要求随心所欲造出图像。而微软和京东AI研究院合作提出的

晓查 发自 凹非寺

量子位 报道 | 公众号 QbitAI

让AI认得图像,根据自己的理解给出一段叙述,已经不是什么新鲜事了。从图像到文字容易,把这个过程反过来却很难。

让AI画图有了成熟的解决方案,GAN就是是一个好办法,但是它通畅并不能按要求随心所欲造出图像。

而微软和京东AI研究院合作提出的 ObjGAN 就能做到这一点。ObjGAN可以理解一段说明文字,生成草图布局,并根据确切描述完善图像细节。

给GAN一句描述,它就能按要求画画,微软CVPR新研究 | 附PyTorch代码

他们的文章《Object-driven Text-to-Image Synthesis via Adversarial Training》已经被正在加州长滩举办的学术会议CVPR 2019收录。

应付多种场景

研究人员在文章中说,ObjGAN的生成器能够利用细节单词和对象级信息来逐步细化合成图像。这使得ObjGAN在生成图像细节时比之前的研究要强得多。

ObjGAN能生成多种场景下的小狗:一只棕色小狗躺在床上,或者是一只黑色小狗叼飞盘。

给GAN一句描述,它就能按要求画画,微软CVPR新研究 | 附PyTorch代码

左边是真实场景,中间两张由P-AttnGAN生成,右边两张由ObjGAN生成

如果说简单场景还看不出ObjGAN的厉害之处,那么下面两幅场景可以说是远远把对手甩在身后了。

给GAN一句描述,它就能按要求画画,微软CVPR新研究 | 附PyTorch代码

上一张是酒店房间,下一张是多种蔬菜水果,这两种场景下的对象非常多,P-AttnGAN已经翻车,除了画面混乱外,它还发生了理解错误的问题,把蓝色属性错误地放在床这个物体上。

为了证明Obj-GAN的泛化能力,研究人员不仅让它生成真实生活中的场景,甚至连不合常理的结果也可以“强行”生成。

比如让汽车火车停在水面上,让喵咪去叼飞盘或者下海游泳。

给GAN一句描述,它就能按要求画画,微软CVPR新研究 | 附PyTorch代码

在客观指标上,Obj-GAN在大规模COCO基准测试的各种指标上优于先前的水平,Inception分数提高到了27,大大高于P-AttnGAN只有20左右的得分,FID也降低到了25.85。

给GAN一句描述,它就能按要求画画,微软CVPR新研究 | 附PyTorch代码

ObjGAN原理

由文字描述生成图像的难点在于,如何让AI理解场景中多个对象之间的关系。ObjGAN通过关注文本描述中最相关的单词和预先生成的语义布局来合成对象。

以前的方法使用仅为单个对象提供粗粒度信号的图像-描述对,即使是性能最佳的模型也难以生成语义上有意义包含多个对象的图片。

给GAN一句描述,它就能按要求画画,微软CVPR新研究 | 附PyTorch代码

为了克服这些问题,研究人员提出了一种新的对象驱动的注意图像生成器,将图像生成分为构图和精细化图像两步。

此外,他们还提出了一种新的基于 Fast R-CNN 的逐对象鉴别器,提供关于合成对象是否与文本描述和预先生成布局匹配的识别信号。

最后,微软在这方面的研究不止ObjGAN一篇论文,他们还与腾讯AI研究院 StoryGAN ,也是从文本描述生成图像,同样被今年的CVPR收录。

传送门

论文地址:

https://arxiv.org/abs/1902.10740

PyTorch实现已开源:

https://github.com/jamesli1618/Obj-GAN

— 完 —

AI社群 | 与优秀的人交流

给GAN一句描述,它就能按要求画画,微软CVPR新研究 | 附PyTorch代码

精选直播 | 大牛的观点碰撞

给GAN一句描述,它就能按要求画画,微软CVPR新研究 | 附PyTorch代码

给GAN一句描述,它就能按要求画画,微软CVPR新研究 | 附PyTorch代码

量子位  QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧 !


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

如何不在网上虚度人生

如何不在网上虚度人生

[美] 肯尼思·戈德史密斯 / 刘畅 / 北京联合出版公司 / 2017-9 / 39.80元

我们平时上网多大程度上是浪费时间,多大程度是在学习、关心社会、激发创造力?我们真能彻底断网,逃离社交网络吗? 手机把都市人变成一群电子僵尸,是福是祸? 浏览记录就是我们将来的回忆录吗?文件归档属于一种现代民间艺术? 不自拍、P图、发朋友圈,我还是我吗? 美国知名概念艺术家戈德史密斯认为:上网绝不是浪费时间,而是一种创造性的活动。在本书中他以跨学科角度、散文式语言进行论证,涉及大众传播学、计算......一起来看看 《如何不在网上虚度人生》 这本书的介绍吧!

在线进制转换器
在线进制转换器

各进制数互转换器

UNIX 时间戳转换
UNIX 时间戳转换

UNIX 时间戳转换

RGB HSV 转换
RGB HSV 转换

RGB HSV 互转工具