《The Devil of Face Recognition is in the Noise》

栏目: 编程工具 · 发布时间: 7年前

内容简介：本周论文分享一篇ECCV2018关于人脸识别数据集的研究。近几年一些大规模的人脸数据和各种新的结构、损失函数的提出推动了人脸识别技术的快速发展，但是对于数据集中存在的噪声问题却没有更深入的理解。本文的关注点就是数据集中的噪声问题，针对这个问题，作者提出了一个新的更干净的数据集(IMDb-Face)，系统分析了Megaface和MS-Celeb1M的噪声问题和不同噪声类型对于人脸识别准确率的影响，以及如何改进数据处理流程以减少噪声。数据集在人脸识别发展过程中扮演者重要的角色。从最早的FERET到LFW，再到

论文分享

本周论文分享一篇ECCV2018关于人脸识别数据集的研究。近几年一些大规模的人脸数据和各种新的结构、损失函数的提出推动了人脸识别技术的快速发展，但是对于数据集中存在的噪声问题却没有更深入的理解。本文的关注点就是数据集中的噪声问题，针对这个问题，作者提出了一个新的更干净的数据集(IMDb-Face)，系统分析了Megaface和MS-Celeb1M的噪声问题和不同噪声类型对于人脸识别准确率的影响，以及如何改进数据处理流程以减少噪声。

Introduction

数据集在人脸识别发展过程中扮演者重要的角色。从最早的FERET到LFW，再到后面的MegaFace，MS-Celeb-1M，数据的规模从万到百万量级，包含的个体数量从几千到10万。大规模的数据集加上深度学习使得人脸识别技术在近几年快速发展。

但是，随着规模的扩大，噪声问题就不可避免，因为要完美的标注这么大规模的数据集需要极大的代价。一种常见的方法是从搜索引擎上搜索某个名人，得到一些参差不齐的图片，随后使用自动或者半自动的方法对数据进行清洗，这种方法可以很容易的得到大规模的数据，但是也更容易带来噪声，影响模型的训练和性能。如图1所示，MegaFace和MS-Celeb-1M都含有不同数量的错误标签，某些标签很容易纠正，某些纠正的难度则更大。

《The Devil of Face Recognition is in the Noise》

How Noisy is Existing Data?

本文要解决的第一个问题是噪声的来源和噪声对CNN人脸识别模型的影响。我们需要回答以下问题：

1、需要多少包含噪声的样本集才能达到干净数据集的性能？

2、噪声和模型性能之间有什么关系？

3、最好的数据标注策略是什么？

作者发现使用32%的MegaFace干净数据集和20%的MSCeleb-1M就能达到使用全部数据进行训练的效果，也就是说使用噪声数据集需要更多的数据样本来训练。

Face Recognition Datasets

首先来看下目前常见的人脸数据集的大体情况(Table 1).

《The Devil of Face Recognition is in the Noise》

An Approximation of Signal-to-Noise Ratio

为了估计数据集中的噪声分布，作者提出了一种近似的办法：对数据集进行采样，然后将采样的子集划分为三组：correct identity assigned, doubtful, 和wrong identity assigned.对于Megaface采样了270万的数据，对于MS-Celeb-1M采样了370万数据，对于CASIA WebFace 和 Celeb Faces，采样了30个人的数据去估计它们的噪声分布。因为不太可能估计准确的噪声分布，这儿计算了一个大概的噪声分布的上界和下界，即将doubtful assigned的部分进行不同的考虑。由此得到的各个数据集噪声分布如图2a.

另外对于MegaFace和MS-Celeb-1M进行进一步统计，首先按照个体图像的数量对个体进行分类，然后得到他们的直方图分布，可以看出这两个数据集都是长尾分布（Fig 2b,c）.并且作者发现在MegaFace的干净数据集中存在很多重复的图片。

《The Devil of Face Recognition is in the Noise》

Building a Noise-Controlled Face Dataset

虽然搜索引擎提供了大量的候选图片，但是搜索引擎提供的数据是有偏的，如下图，搜索引擎返回的结果都是一些背景简单，光照充足，姿态变化不大的图片，这些图片与实际的图片还存在较大的差异。另外一个弊端是搜索引擎的召回率很低，前200张图片中只有40%可用。

《The Devil of Face Recognition is in the Noise》

基于此，作者选择IMDb网站作为数据来源。IMDB包括明星的各种照片，包括官方照，自拍，电影快照等。这些照片足够丰富，并且召回率很高，大约90%。通过爬虫最后得到了包括5.9万个明星的170万数据。来看下IMDB-Face的数据统计情况，可以看出ImDb-Face包含更大的姿态变化，并且在年龄，性别和种族更多样。

《The Devil of Face Recognition is in the Noise》

Experiments

实验的使用的网络结构是Attention-56，使用的损失函数有3种：softmax，center Loss，A-Softmax。

Investigating the Eﬀect of Noise on IMDb-Face

大规模数据集中存在2种噪声：

label flips：某样本属于某个个体但给了另外一个个体的标签；

outliers：某样本不属于数据集中任何一个个体，但是给了某个个体的标签；

这里进行了两类实验，一是在IMDB-Face数据集上逐渐增加不同类别的噪声数据，增加的比例分别是10%, 20% 和50%。二是固定干净数据的大小然后逐渐加倍label flips的数据。实验结果如下图所示，可以看出label flips造成的性能下降大于outliers；A-softmax在更多的噪声数据时表现更差；outliers对于模型性能的影响相对较小。

《The Devil of Face Recognition is in the Noise》

The Eﬀect of Noise on MegaFace and MS-Celeb-1M

下面来看噪声对MegaFace和MS-Celeb-1M数据集的影响：

《The Devil of Face Recognition is in the Noise》

Comparing IMDb-Face with other Face Datasets

来看下IMDB-face 数据集和其他数据集的对比：

《The Devil of Face Recognition is in the Noise》

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

《The Devil of Face Recognition is in the Noise》

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

The Little Schemer

[美] Daniel P. Friedman、[美] Matthias Felleisen / 卢俊祥 / 电子工业出版社 / 2017-7 / 65.00

《The Little Schemer：递归与函数式的奥妙》是一本久负盛名的经典之作，两位作者Daniel P. Friedman、Matthias Felleisen在程序语言界名声显赫。《The Little Schemer：递归与函数式的奥妙》介绍了Scheme的基本结构及其应用、Scheme的五法十诫、Continuation-Passing-Style、Partial Function、......一起来看看《The Little Schemer》这本书的介绍吧!

码农工具

《The Devil of Face Recognition is in the Noise》

论文分享

Introduction

How Noisy is Existing Data?

Face Recognition Datasets

An Approximation of Signal-to-Noise Ratio

Building a Noise-Controlled Face Dataset

Experiments

label flips：某样本属于某个个体但给了另外一个个体的标签；

outliers：某样本不属于数据集中任何一个个体，但是给了某个个体的标签；

The Little Schemer

JS 压缩/解压工具

随机密码生成器

正则表达式在线测试

《The Devil of Face Recognition is in the Noise》

论文分享

Introduction

How Noisy is Existing Data?

Face Recognition Datasets

An Approximation of Signal-to-Noise Ratio

Building a Noise-Controlled Face Dataset

Experiments

label flips： 某样本属于某个个体但给了另外一个个体的标签；

outliers：某样本不属于数据集中任何一个个体，但是给了某个个体的标签；

The Little Schemer

JS 压缩/解压工具

随机密码生成器

正则表达式在线测试

label flips：某样本属于某个个体但给了另外一个个体的标签；