节省时间,告别眼花,「一键」挑出高质量图片,科大&微软推出挑图神器

栏目: IT技术 · 发布时间: 4年前

内容简介:近些年来,深度生成模型取得了巨大的进展,诞生了很多有趣的应用,然而,并非所有生成的结果都很完美。如下图所示,图中四个角上的图片均为 StyleGAN 在一个猫数据集上的生成结果。在这些图片中,既有很多高质量的猫图片(右下),也有很多图质量很差(完全看不出来是猫,左下)。

节省时间,告别眼花,「一键」挑出高质量图片,科大&微软推出挑图神器

  • 论文地址:https://arxiv.org/pdf/2003.08932.pdf

  • 代码:https://github.com/cientgu/GIQA

近些年来,深度生成模型取得了巨大的进展,诞生了很多有趣的应用,然而,并非所有生成的结果都很完美。

如下图所示,图中四个角上的图片均为 StyleGAN 在一个猫数据集上的生成结果。在这些图片中,既有很多高质量的猫图片(右下),也有很多图质量很差(完全看不出来是猫,左下)。

节省时间,告别眼花,「一键」挑出高质量图片,科大&微软推出挑图神器

以往大家为了评估哪张图生成的好,往往都是要靠人来判断,这需要花费大量人力成本。在实际应用中,由于对生成图片的最差质量缺少把控,很多产品遭受到了各种质疑。

基于此,来自中科大和微软研究院的学者提出了生成图像质量评估(Generated Image Quality Assessment,GIQA)这一研究方向,并希望实现评价算法以自动地对生成图片的质量进行打分。

具体来说,为了实现这个目的,研究者提出了基于学习和基于数据的两种方法,通过这些方法,我们能够实现对生成图片的质量进行打分,同时实现很多有趣的应用。

上图即展示了研究者对一个模型的生成图片进行打分的分布结果,在右下、右上、左上、左下中他们分别展示了模型评价的从高质量到低质量的生成图片,可以观察到该算法评价的质量基本上和人的评价是一致的。

两种不同类型的 GIQA 方法

下面研究者将介绍他们如何实现用算法进行生成图片质量评价的。

基于学习的 GIQA

研究者发现,在训练 GAN 的时候,生成图片的质量会随着迭代次数的增加越来越好。一个简单的想法是用迭代次数当质量的”伪标签”,通过监督式的学习,生成一个打分器,对生成图片的质量进行打分。

然而,用迭代次数当质量并不精确,他们通过多个二分类器(Multiple binary classifiers)回归标签来平滑去噪,通过平均这些分类器的分数,可以极大的增强鲁棒性和泛化能力。研究者称之为 MBC-GIQA。

节省时间,告别眼花,「一键」挑出高质量图片,科大&微软推出挑图神器

数据驱动 GIQA

研究者重新思考质量评估这个问题,发现 “质量” 很难定义好。生成模型希望能生成服从已有的真实数据分布(real distribution)的图片。

因此,他们认为”质量”表征的是一张生成图片和真实数据分布的接近程度。通俗地说,就是一张生成图片有多大可能性来自于真实分布。这个概率越大,表示质量越高。

此外,另一个直观的想法是对真实分布直接建模。研究者根据建模是参数化模型还是非参数化模型分成两部分。

参数化模型:GMM-GIQA

研究者将用高斯混合模型(GMM)来拟合真实数据分布在特征层面的特征。

对于一张待测的图片 I,他们先提取特征 x,这个特征 x 在真实数据分布中出现的概率就表示了该图的质量。

节省时间,告别眼花,「一键」挑出高质量图片,科大&微软推出挑图神器

节省时间,告别眼花,「一键」挑出高质量图片,科大&微软推出挑图神器

非参数化模型:KNN-GIQA

此外,研究者还可以用 K 近邻(KNN)来对真实数据分布在特征层面建模。对于待测图片 I 及其提取的特征 x,若它与真实图片距离越近,表示其出现的概率高,也就表示其质量高。

节省时间,告别眼花,「一键」挑出高质量图片,科大&微软推出挑图神器

节省时间,告别眼花,「一键」挑出高质量图片,科大&微软推出挑图神器

GIQA 评估效果怎么样

在研究者收集的 LGIQA 质量评估数据集上,GMM-GIQA 能够取得最好的结果,远远超过传统的图像质量评估方法。同时也最推荐大家使用 GMM-GIQA 的方法。与其他方法的对比结果如下表 1 所示:

节省时间,告别眼花,「一键」挑出高质量图片,科大&微软推出挑图神器

下图 3 显示该方法筛选出的图片相比传统的方法更符合人类的认知。

节省时间,告别眼花,「一键」挑出高质量图片,科大&微软推出挑图神器

GIQA 方法衍生出的应用

该方法还有很多衍生应用,其中一个是模型质量评估。对于生成模型,我们可以独立地衡量生成图片的质量和多样性。一批生成图片质量的平均值可以用来衡量模型的生成图片质量,研究者称之为 Quality Score(QS)。

节省时间,告别眼花,「一键」挑出高质量图片,科大&微软推出挑图神器

相似的,研究者用一批真实图片在生成图片中的质量衡量的平均值当成模型多样性的衡量 Diversity Score(DS)。

节省时间,告别眼花,「一键」挑出高质量图片,科大&微软推出挑图神器

研究者用这些方法在 unconditional GAN 和 conditional GAN 上又验证了其有效性。

第二个有趣的应用是通过后处理丢弃一部分图片,让剩余图片有更好的生成质量,他们验证了其比传统的 truncation trick 能更好地兼顾质量和多样性,如下表 4 所示:

节省时间,告别眼花,「一键」挑出高质量图片,科大&微软推出挑图神器

第三个应用是结合 OHEM(Online Hard Example Mining),在 GAN 训练过程中,通过给低质量生成图片更高的惩罚权重,他们可以让 GAN 生成出更高质量的图片,如下表 5 所示:

节省时间,告别眼花,「一键」挑出高质量图片,科大&微软推出挑图神器

在研究者看来,GIQA 是一个新颖且对研究和产业都很有意义的一个研究方向。相信通过本文的抛砖引玉,能有更多的人研究 GIQA 这个领域并对其他任务提供更多的参考价值。


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

风口上的汽车新商业

风口上的汽车新商业

郭桂山 / 人民邮电出版社 / 59

本书从互联网+汽车趋势解析、汽车电商困局突围策略、汽车后市场溃败求解等三个篇章详细阐述了作者的观察与思考,当然更多的还是作者在汽车电商行业的实践中得出的解决诸多问题的战略策略,作者站在行业之巅既有战略策略的解决方案,同时也有战术上的实施细则,更有实操案例解析与行业大咖访谈等不可多得的干货。当然,作者一向追崇的宗旨是,书中观点的对错不是最重要的,重在与行业同仁探讨,以书会友,希望作者的这块破砖头,能......一起来看看 《风口上的汽车新商业》 这本书的介绍吧!

JS 压缩/解压工具
JS 压缩/解压工具

在线压缩/解压 JS 代码

UNIX 时间戳转换
UNIX 时间戳转换

UNIX 时间戳转换

正则表达式在线测试
正则表达式在线测试

正则表达式在线测试