CVPR 2019 | INIT:针对实例级的图像翻译

栏目: 编程工具 · 发布时间: 5年前

内容简介:近年来关于图像翻译的研究越来越多,其中比较经典的有监督模型包括 Pix2Pix,BicycleGAN等,无监督模型包括CycleGAN, MUNIT, StarGAN, DRIT 等。由于这些模型无论是针对多领域翻译还是单领域翻译都是将目标域图像的风格/属性整个迁移到源域图像上,因此虽然这些方法可以很好的解决风格统一或者内容相关的图像翻译问题,但对于有大量实例物体并且物体与背景之间的风格差异非常巨大的复杂结构图像翻译来说是很困难的。

CVPR 2019 | INIT:针对实例级的图像翻译

研究动机

近年来关于图像翻译的研究越来越多,其中比较经典的有监督模型包括 Pix2Pix,BicycleGAN等,无监督模型包括CycleGAN, MUNIT, StarGAN, DRIT 等。

由于这些模型无论是针对多领域翻译还是单领域翻译都是将目标域图像的风格/属性整个迁移到源域图像上,因此虽然这些方法可以很好的解决风格统一或者内容相关的图像翻译问题,但对于有大量实例物体并且物体与背景之间的风格差异非常巨大的复杂结构图像翻译来说是很困难的。

为了解决该问题, 作者基于 MUNIT 模型提出了基于端到端的训练模型 INIT ,其采用不同的风格编码来独立的翻译图像中的物体、背景以及全局区域。

CVPR 2019 | INIT:针对实例级的图像翻译   图1. 现有图像翻译模型的局限

模型架构

INIT 的网络架构非常类似于 MUNIT 模型,但不同于 MUNIT 模型,作者提出的模型不仅对全局图像进行内容和属性编码,而且还对实例物体以及背景也进行内容-属性编码。即首先给定一对未对齐的图像和实例物体的坐标位置,应用全局编码器 Eg 以及局部编码器 Eo 分别获取全局图像和实例物体图像内容 c 和属性向量 s,然后通过交换属性向量来获取跨域的目标实例对象图像,整个模型的架构如下图所示。

CVPR 2019 | INIT:针对实例级的图像翻译   图2. INIT模型网络结构

另外作者修改了原始的循环重建过程使其不仅包括跨域(X 域->Y 域)模式重建还包括了跨粒度级(实例物体->全局图像)模式重建。对于跨域来说是完全基于 MUNIT 模型所提出的循环重建,针对跨粒度级的重建过程如图 3 所示,作者通过交换图像和实例物体的编码-解码对后生成图像,再对生成图像继续重复上一操作使得再次生成出的图像和实例物体应和原始图像以及实例物体一致。

CVPR 2019 | INIT:针对实例级的图像翻译   图3. 循环一致性损失(仅针对跨粒度级)

对于交换粒度级内容-属性编码对需要注意的是,作者采用了从粗略(全局)属性向量去结合细粒度级内容向量的交换方式,而如果逆转这一过程即利用细粒度的属性向量去结合粗粒度级的内容向量则无法实现(如图 4 所示)。

CVPR 2019 | INIT:针对实例级的图像翻译   图4. 内容-属性对交换策略

综上所述,模型采用的损失包括重构损失以及对抗损失,重构损失包括了全局图像重构以及局部实例物体重构,这两类的重构中又包括了图像重建损失、内容重建损失以风格重建损失。对抗损失也包括了全局对抗损失以及局部实例对抗损失,整个模型的损失函数如下。

CVPR 2019 | INIT:针对实例级的图像翻译

实验结果

作者的实验主要采用了自己设计的 INIT 数据集以及 COCO 数据集,INIT 数据集是由作者设计并首次应用于图像翻译问题,其中包含 155529 张高清街景图像并且不仅设计了 sunny, night, cloud, rain 四种域标签而且还对详细实例对象边界框注释(车,人以及交通标志)。

作者使用 LPIPS 矩阵、Inception-Score 以及 Conditional Inception-Score 对 INIT 模型进行评估,并和CycleGAN, UNIT, MUNIT, DRIT 进行比对,其中 INIT w/Ds 表示全局图像和局部实例对象共享一个鉴别器,INIT w/o Ds 则表示两个鉴别器独立,以下是实验结果。

CVPR 2019 | INIT:针对实例级的图像翻译

CVPR 2019 | INIT:针对实例级的图像翻译

总结

作者基于 MUNIT 的架构提出了针对实例级图像翻译技术,通过对提取实例对象的风格/属性来直接影响和指导目标域该物体的生成,这使得在进行复杂结构图象翻译时能产生更细致的结果。

从实验的效果图来看也能发现翻译后的图像在具体实例对象上也能更符合现实场景。另外作者还设计了 INIT 街景数据集,该数据集包括了对具体实例对象的注释框,有助于今后的图像翻译问题研究。


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

最优化导论

最优化导论

Edwin K. P. Chong、Stanislaw H. Zak / 孙志强、白圣建、郑永斌、刘伟 / 电子工业出版社 / 2015-10 / 89.00

本书是一本关于最优化技术的入门教材,全书共分为四部分。第一部分是预备知识。第二部分主要介绍无约束的优化问题,并介绍线性方程的求解方法、神经网络方法和全局搜索方法。第三部分介绍线性优化问题,包括线性优化问题的模型、单纯形法、对偶理论以及一些非单纯形法,简单介绍了整数线性优化问题。第四部分介绍有约束非线性优化问题,包括纯等式约束下和不等式约束下的优化问题的最优性条件、凸优化问题、有约束非线性优化问题的......一起来看看 《最优化导论》 这本书的介绍吧!

JS 压缩/解压工具
JS 压缩/解压工具

在线压缩/解压 JS 代码

URL 编码/解码
URL 编码/解码

URL 编码/解码

XML 在线格式化
XML 在线格式化

在线 XML 格式化压缩工具