人脸合成效果媲美StyleGAN,而它是个自编码器

栏目: IT技术 · 发布时间: 4年前

内容简介:自编码器(AE)与生成对抗网络(GAN)是复杂分布上无监督学习最具前景的两类方法,它们也经常被拿来比较。人们通常认为自编码器在图像生成上的应用范围比 GAN 窄,那么自编码器到底能不能具备与 GAN 同等的生成能力呢?这篇研究提出的新型自编码器 ALAE 可以给你答案。目前,该论文已被 CVPR 2020 会议接收。自编码器是一种无监督方法,它通过同时学习编码器-生成器图将「生成性」和「表征性」结合起来。关于自编码器有两个疑问尚未得到解决:最近,来自美国西弗吉尼亚大学的研究者提出一种新型自编码器 Adver

自编码器(AE)与生成对抗网络(GAN)是复杂分布上无监督学习最具前景的两类方法,它们也经常被拿来比较。人们通常认为自编码器在图像生成上的应用范围比 GAN 窄,那么自编码器到底能不能具备与 GAN 同等的生成能力呢?这篇研究提出的新型自编码器 ALAE 可以给你答案。目前,该论文已被 CVPR 2020 会议接收。

  • 论文地址:https://arxiv.org/pdf/2004.04467.pdf
  • GitHub 地址:https://github.com/podgorskiy/ALAE

自编码器是一种无监督方法,它通过同时学习编码器-生成器图将「生成性」和「表征性」结合起来。关于自编码器有两个疑问尚未得到解决:

  • 自编码器是否具备和 GAN 同等的生成能力?
  • 自编码器能否学习解耦表征(disentangled representation)?

最近,来自美国西弗吉尼亚大学的研究者提出一种新型自编码器 Adversarial Latent Autoencoder (ALAE),试图解决以上问题。ALAE 是一个通用架构,它能够利用近期 GAN 在训练方面的改进。研究者表示 ALAE 具备与 GAN 相当的生成能力,且能够学习解耦表征。

利用 ALAE 通用架构,该研究设计了两个自编码器:一种基于 MLP 编码器,另一种基于 StyleGAN 生成器,即 StyleALAE。

研究者对这两个架构的解耦能力进行了验证,发现 StyleALAE 不仅能够生成与 StyleGAN 生成质量相当的 1024x1024 人脸图像,在同样分辨率条件下,它还可以基于真实图像生成人脸重建和操纵结果。

研究者认为,ALAE 是首个性能匹配甚至超过生成器架构的自编码器。

ALAE 到底效果如何呢?我们来看展示图:

人脸合成效果媲美StyleGAN,而它是个自编码器

人脸合成效果媲美StyleGAN,而它是个自编码器

人脸合成效果媲美StyleGAN,而它是个自编码器

StyleALAE 的风格混合效果。

感兴趣的读者可以自己运行 demo,不过你需要 CUDA capable GPU、v1.3.1 及以上版本的 PyTorch 和 cuda/cuDNN 驱动,详情参见 GitHub 地址。

新型通用自编码器 ALAE

研究者观察到每个 AE 方法都使用同样的假设:潜在空间的概率分布应与先验相关,自编码器应该与之匹配。而 StyleGAN 相关论文证明,中间潜在空间应当具备更好的解耦能力。

于是研究者通过修改原始 GAN 范式设计了一种新型 AE 架构:

允许基于数据学得的潜在分布解决耦合问题 (A),并使用对抗策略学习输出数据分布 (B),以保留 GAN 的生成能力;为了实现 (A) 和 (B),该研究提出将 AE reciprocity 置于潜在空间中 (C),以避免使用在数据空间中运行的基于简单 l_2 范数的重建损失(对于图像空间来说它们通常是次优选择)。

如下图 1 所示,研究者将生成器 G 和判别器 D 分别分解成两个网络:F、G 和 E、D。

人脸合成效果媲美StyleGAN,而它是个自编码器

图 1:ALAE 架构。

此外,研究者还展示了 ALAE 与其他自编码器的关联,详见下表:

人脸合成效果媲美StyleGAN,而它是个自编码器

StyleALAE

研究者使用 ALAE 构建了一个自编码器,该自编码器使用的是基于 StyleGAN 的生成器。具体架构如下图 2 所示:

人脸合成效果媲美StyleGAN,而它是个自编码器

图 2:StyleALAE 架构。StyleALAE 编码器中的实例归一化(IN)层用来提取多尺度风格信息,并通过可学习的多重线性映射(multilinear map)将它们组合成为一个潜在代码 w。

实现

ALAE 的算法训练过程参见下图:

人脸合成效果媲美StyleGAN,而它是个自编码器

ALAE 效果如何?

该研究在多个数据集上评估了 ALAE 的性能,实验代码和数据参见 GitHub 地址。

在 MNIST 上的性能

研究者使用 MNIST 数据集训练 ALAE,并使用特征表示来执行分类、重建和分析解耦能力的任务。

人脸合成效果媲美StyleGAN,而它是个自编码器

表 2:不同方法在 MNIST 分类任务上的性能。

人脸合成效果媲美StyleGAN,而它是个自编码器

图 3:MNIST 重建效果。

StyleALAE 学习风格表征的能力

研究者在 FFHQ、LSUN 和 CelebA-HQ 数据集上评估 StyleALAE 的性能。

人脸合成效果媲美StyleGAN,而它是个自编码器

表 3:不同方法在 FFHQ 和 LSUN 数据集上的 FID 分数。

人脸合成效果媲美StyleGAN,而它是个自编码器

表 4:不同方法的感知路径长度(PPL),表示表征解耦程度。

人脸合成效果媲美StyleGAN,而它是个自编码器

图 5:FFHQ 重建结果。StyleALAE 对未见过的图像的 1024×1024 重建结果。

人脸合成效果媲美StyleGAN,而它是个自编码器

图 6:StyleALAE 的 FFHQ 生成结果(1024 × 1024 分辨率)。

人脸合成效果媲美StyleGAN,而它是个自编码器

图 9:StyleALAE 的风格混合效果。「coarse styles」从 Source 图像中复制了高级特征,如姿势、大致发型和脸型,从 Destination 图像中复制了所有颜色(眸色、发色和光照);「middle styles」从 Source 图像中复制了较小型的面部特征例如发式、眼睛睁/闭,从 Destination 图像中复制了脸型;「fine styles」从 Source 图像中复制了颜色和微结构。

人脸合成效果媲美StyleGAN,而它是个自编码器

图 8:不同方法在 CelebA-HQ 数据集上的重建结果。第一行是真实图像;第二行:StyleALAE;第三行:Balanced PIONEER;第四行:PIONEER。

从图中可以看出,StyleALAE 的生成结果更加清晰,失真度也最低。


以上所述就是小编给大家介绍的《人脸合成效果媲美StyleGAN,而它是个自编码器》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Data Mining

Data Mining

Jiawei Han、Micheline Kamber、Jian Pei / Morgan Kaufmann / 2011-7-6 / USD 74.95

The increasing volume of data in modern business and science calls for more complex and sophisticated tools. Although advances in data mining technology have made extensive data collection much easier......一起来看看 《Data Mining》 这本书的介绍吧!

图片转BASE64编码
图片转BASE64编码

在线图片转Base64编码工具

HTML 编码/解码
HTML 编码/解码

HTML 编码/解码

Base64 编码/解码
Base64 编码/解码

Base64 编码/解码