人脸合成效果媲美StyleGAN,而它是个自编码器

栏目: IT技术 · 发布时间: 4年前

内容简介:自编码器(AE)与生成对抗网络(GAN)是复杂分布上无监督学习最具前景的两类方法,它们也经常被拿来比较。人们通常认为自编码器在图像生成上的应用范围比 GAN 窄,那么自编码器到底能不能具备与 GAN 同等的生成能力呢?这篇研究提出的新型自编码器 ALAE 可以给你答案。目前,该论文已被 CVPR 2020 会议接收。自编码器是一种无监督方法,它通过同时学习编码器-生成器图将「生成性」和「表征性」结合起来。关于自编码器有两个疑问尚未得到解决:最近,来自美国西弗吉尼亚大学的研究者提出一种新型自编码器 Adver

自编码器(AE)与生成对抗网络(GAN)是复杂分布上无监督学习最具前景的两类方法,它们也经常被拿来比较。人们通常认为自编码器在图像生成上的应用范围比 GAN 窄,那么自编码器到底能不能具备与 GAN 同等的生成能力呢?这篇研究提出的新型自编码器 ALAE 可以给你答案。目前,该论文已被 CVPR 2020 会议接收。

  • 论文地址:https://arxiv.org/pdf/2004.04467.pdf
  • GitHub 地址:https://github.com/podgorskiy/ALAE

自编码器是一种无监督方法,它通过同时学习编码器-生成器图将「生成性」和「表征性」结合起来。关于自编码器有两个疑问尚未得到解决:

  • 自编码器是否具备和 GAN 同等的生成能力?
  • 自编码器能否学习解耦表征(disentangled representation)?

最近,来自美国西弗吉尼亚大学的研究者提出一种新型自编码器 Adversarial Latent Autoencoder (ALAE),试图解决以上问题。ALAE 是一个通用架构,它能够利用近期 GAN 在训练方面的改进。研究者表示 ALAE 具备与 GAN 相当的生成能力,且能够学习解耦表征。

利用 ALAE 通用架构,该研究设计了两个自编码器:一种基于 MLP 编码器,另一种基于 StyleGAN 生成器,即 StyleALAE。

研究者对这两个架构的解耦能力进行了验证,发现 StyleALAE 不仅能够生成与 StyleGAN 生成质量相当的 1024x1024 人脸图像,在同样分辨率条件下,它还可以基于真实图像生成人脸重建和操纵结果。

研究者认为,ALAE 是首个性能匹配甚至超过生成器架构的自编码器。

ALAE 到底效果如何呢?我们来看展示图:

人脸合成效果媲美StyleGAN,而它是个自编码器

人脸合成效果媲美StyleGAN,而它是个自编码器

人脸合成效果媲美StyleGAN,而它是个自编码器

StyleALAE 的风格混合效果。

感兴趣的读者可以自己运行 demo,不过你需要 CUDA capable GPU、v1.3.1 及以上版本的 PyTorch 和 cuda/cuDNN 驱动,详情参见 GitHub 地址。

新型通用自编码器 ALAE

研究者观察到每个 AE 方法都使用同样的假设:潜在空间的概率分布应与先验相关,自编码器应该与之匹配。而 StyleGAN 相关论文证明,中间潜在空间应当具备更好的解耦能力。

于是研究者通过修改原始 GAN 范式设计了一种新型 AE 架构:

允许基于数据学得的潜在分布解决耦合问题 (A),并使用对抗策略学习输出数据分布 (B),以保留 GAN 的生成能力;为了实现 (A) 和 (B),该研究提出将 AE reciprocity 置于潜在空间中 (C),以避免使用在数据空间中运行的基于简单 l_2 范数的重建损失(对于图像空间来说它们通常是次优选择)。

如下图 1 所示,研究者将生成器 G 和判别器 D 分别分解成两个网络:F、G 和 E、D。

人脸合成效果媲美StyleGAN,而它是个自编码器

图 1:ALAE 架构。

此外,研究者还展示了 ALAE 与其他自编码器的关联,详见下表:

人脸合成效果媲美StyleGAN,而它是个自编码器

StyleALAE

研究者使用 ALAE 构建了一个自编码器,该自编码器使用的是基于 StyleGAN 的生成器。具体架构如下图 2 所示:

人脸合成效果媲美StyleGAN,而它是个自编码器

图 2:StyleALAE 架构。StyleALAE 编码器中的实例归一化(IN)层用来提取多尺度风格信息,并通过可学习的多重线性映射(multilinear map)将它们组合成为一个潜在代码 w。

实现

ALAE 的算法训练过程参见下图:

人脸合成效果媲美StyleGAN,而它是个自编码器

ALAE 效果如何?

该研究在多个数据集上评估了 ALAE 的性能,实验代码和数据参见 GitHub 地址。

在 MNIST 上的性能

研究者使用 MNIST 数据集训练 ALAE,并使用特征表示来执行分类、重建和分析解耦能力的任务。

人脸合成效果媲美StyleGAN,而它是个自编码器

表 2:不同方法在 MNIST 分类任务上的性能。

人脸合成效果媲美StyleGAN,而它是个自编码器

图 3:MNIST 重建效果。

StyleALAE 学习风格表征的能力

研究者在 FFHQ、LSUN 和 CelebA-HQ 数据集上评估 StyleALAE 的性能。

人脸合成效果媲美StyleGAN,而它是个自编码器

表 3:不同方法在 FFHQ 和 LSUN 数据集上的 FID 分数。

人脸合成效果媲美StyleGAN,而它是个自编码器

表 4:不同方法的感知路径长度(PPL),表示表征解耦程度。

人脸合成效果媲美StyleGAN,而它是个自编码器

图 5:FFHQ 重建结果。StyleALAE 对未见过的图像的 1024×1024 重建结果。

人脸合成效果媲美StyleGAN,而它是个自编码器

图 6:StyleALAE 的 FFHQ 生成结果(1024 × 1024 分辨率)。

人脸合成效果媲美StyleGAN,而它是个自编码器

图 9:StyleALAE 的风格混合效果。「coarse styles」从 Source 图像中复制了高级特征,如姿势、大致发型和脸型,从 Destination 图像中复制了所有颜色(眸色、发色和光照);「middle styles」从 Source 图像中复制了较小型的面部特征例如发式、眼睛睁/闭,从 Destination 图像中复制了脸型;「fine styles」从 Source 图像中复制了颜色和微结构。

人脸合成效果媲美StyleGAN,而它是个自编码器

图 8:不同方法在 CelebA-HQ 数据集上的重建结果。第一行是真实图像;第二行:StyleALAE;第三行:Balanced PIONEER;第四行:PIONEER。

从图中可以看出,StyleALAE 的生成结果更加清晰,失真度也最低。


以上所述就是小编给大家介绍的《人脸合成效果媲美StyleGAN,而它是个自编码器》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

亚马逊跨境电商运营宝典

亚马逊跨境电商运营宝典

老魏 / 电子工业出版社 / 2018-6 / 69

《亚马逊跨境电商运营宝典》详细讲解亚马逊的平台知识和运营技巧,内容围绕亚马逊卖家的日常工作,系统讲解亚马逊账号注册、后台操作、选品、产品发布、Listing 优化、站内广告、FBA 发货、VAT 税务等内容,并且通过大量的案例分析,用生动翔实的案例为读者传递运营中必备的操作技巧和运营方法。 《亚马逊跨境电商运营宝典》内容针对性强,讲解的知识、技巧和方法都充分考虑到易学、易懂、易操作、易落地执......一起来看看 《亚马逊跨境电商运营宝典》 这本书的介绍吧!

JSON 在线解析
JSON 在线解析

在线 JSON 格式化工具

HTML 编码/解码
HTML 编码/解码

HTML 编码/解码

Base64 编码/解码
Base64 编码/解码

Base64 编码/解码