节省时间,告别眼花,「一键」挑出高质量图片,科大&微软推出挑图神器

栏目: IT技术 · 发布时间: 4年前

内容简介:近些年来,深度生成模型取得了巨大的进展,诞生了很多有趣的应用,然而,并非所有生成的结果都很完美。如下图所示,图中四个角上的图片均为 StyleGAN 在一个猫数据集上的生成结果。在这些图片中,既有很多高质量的猫图片(右下),也有很多图质量很差(完全看不出来是猫,左下)。

节省时间,告别眼花,「一键」挑出高质量图片,科大&微软推出挑图神器

  • 论文地址:https://arxiv.org/pdf/2003.08932.pdf

  • 代码:https://github.com/cientgu/GIQA

近些年来,深度生成模型取得了巨大的进展,诞生了很多有趣的应用,然而,并非所有生成的结果都很完美。

如下图所示,图中四个角上的图片均为 StyleGAN 在一个猫数据集上的生成结果。在这些图片中,既有很多高质量的猫图片(右下),也有很多图质量很差(完全看不出来是猫,左下)。

节省时间,告别眼花,「一键」挑出高质量图片,科大&微软推出挑图神器

以往大家为了评估哪张图生成的好,往往都是要靠人来判断,这需要花费大量人力成本。在实际应用中,由于对生成图片的最差质量缺少把控,很多产品遭受到了各种质疑。

基于此,来自中科大和微软研究院的学者提出了生成图像质量评估(Generated Image Quality Assessment,GIQA)这一研究方向,并希望实现评价算法以自动地对生成图片的质量进行打分。

具体来说,为了实现这个目的,研究者提出了基于学习和基于数据的两种方法,通过这些方法,我们能够实现对生成图片的质量进行打分,同时实现很多有趣的应用。

上图即展示了研究者对一个模型的生成图片进行打分的分布结果,在右下、右上、左上、左下中他们分别展示了模型评价的从高质量到低质量的生成图片,可以观察到该算法评价的质量基本上和人的评价是一致的。

两种不同类型的 GIQA 方法

下面研究者将介绍他们如何实现用算法进行生成图片质量评价的。

基于学习的 GIQA

研究者发现,在训练 GAN 的时候,生成图片的质量会随着迭代次数的增加越来越好。一个简单的想法是用迭代次数当质量的”伪标签”,通过监督式的学习,生成一个打分器,对生成图片的质量进行打分。

然而,用迭代次数当质量并不精确,他们通过多个二分类器(Multiple binary classifiers)回归标签来平滑去噪,通过平均这些分类器的分数,可以极大的增强鲁棒性和泛化能力。研究者称之为 MBC-GIQA。

节省时间,告别眼花,「一键」挑出高质量图片,科大&微软推出挑图神器

数据驱动 GIQA

研究者重新思考质量评估这个问题,发现 “质量” 很难定义好。生成模型希望能生成服从已有的真实数据分布(real distribution)的图片。

因此,他们认为”质量”表征的是一张生成图片和真实数据分布的接近程度。通俗地说,就是一张生成图片有多大可能性来自于真实分布。这个概率越大,表示质量越高。

此外,另一个直观的想法是对真实分布直接建模。研究者根据建模是参数化模型还是非参数化模型分成两部分。

参数化模型:GMM-GIQA

研究者将用高斯混合模型(GMM)来拟合真实数据分布在特征层面的特征。

对于一张待测的图片 I,他们先提取特征 x,这个特征 x 在真实数据分布中出现的概率就表示了该图的质量。

节省时间,告别眼花,「一键」挑出高质量图片,科大&微软推出挑图神器

节省时间,告别眼花,「一键」挑出高质量图片,科大&微软推出挑图神器

非参数化模型:KNN-GIQA

此外,研究者还可以用 K 近邻(KNN)来对真实数据分布在特征层面建模。对于待测图片 I 及其提取的特征 x,若它与真实图片距离越近,表示其出现的概率高,也就表示其质量高。

节省时间,告别眼花,「一键」挑出高质量图片,科大&微软推出挑图神器

节省时间,告别眼花,「一键」挑出高质量图片,科大&微软推出挑图神器

GIQA 评估效果怎么样

在研究者收集的 LGIQA 质量评估数据集上,GMM-GIQA 能够取得最好的结果,远远超过传统的图像质量评估方法。同时也最推荐大家使用 GMM-GIQA 的方法。与其他方法的对比结果如下表 1 所示:

节省时间,告别眼花,「一键」挑出高质量图片,科大&微软推出挑图神器

下图 3 显示该方法筛选出的图片相比传统的方法更符合人类的认知。

节省时间,告别眼花,「一键」挑出高质量图片,科大&微软推出挑图神器

GIQA 方法衍生出的应用

该方法还有很多衍生应用,其中一个是模型质量评估。对于生成模型,我们可以独立地衡量生成图片的质量和多样性。一批生成图片质量的平均值可以用来衡量模型的生成图片质量,研究者称之为 Quality Score(QS)。

节省时间,告别眼花,「一键」挑出高质量图片,科大&微软推出挑图神器

相似的,研究者用一批真实图片在生成图片中的质量衡量的平均值当成模型多样性的衡量 Diversity Score(DS)。

节省时间,告别眼花,「一键」挑出高质量图片,科大&微软推出挑图神器

研究者用这些方法在 unconditional GAN 和 conditional GAN 上又验证了其有效性。

第二个有趣的应用是通过后处理丢弃一部分图片,让剩余图片有更好的生成质量,他们验证了其比传统的 truncation trick 能更好地兼顾质量和多样性,如下表 4 所示:

节省时间,告别眼花,「一键」挑出高质量图片,科大&微软推出挑图神器

第三个应用是结合 OHEM(Online Hard Example Mining),在 GAN 训练过程中,通过给低质量生成图片更高的惩罚权重,他们可以让 GAN 生成出更高质量的图片,如下表 5 所示:

节省时间,告别眼花,「一键」挑出高质量图片,科大&微软推出挑图神器

在研究者看来,GIQA 是一个新颖且对研究和产业都很有意义的一个研究方向。相信通过本文的抛砖引玉,能有更多的人研究 GIQA 这个领域并对其他任务提供更多的参考价值。


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

失业的程序员

失业的程序员

沈逸 / 2014-5-1 / 39.00元

这是一个程序员从失业到自行创业的奋斗历程,虽然囧事连连、过程曲折,却充满了趣味。本书以作者的真实创业经历为主线,文字幽默诙谐,情节生动真实,包括了招聘、团队管理和用户公关,以及技术架构设计、核心代码编写、商务谈判、项目运作等场景经验。 从初期的创业伙伴、领路人,到商业竞争对手,各种复杂的关系在各个关键时刻却都发生了意想不到的逆转。在历经千辛万苦,眼看快要成功时,主人公却几乎再次失业。 ......一起来看看 《失业的程序员》 这本书的介绍吧!

随机密码生成器
随机密码生成器

多种字符组合密码

Markdown 在线编辑器
Markdown 在线编辑器

Markdown 在线编辑器

UNIX 时间戳转换
UNIX 时间戳转换

UNIX 时间戳转换