历经27年，人脸识别技术如何发展至识别精度达99.5%以上

栏目: 数据库 · 发布时间: 7年前

早在20世纪50年代，认知科学家就已着手对人脸识别展开研究。20世纪60年代，人脸识别工程化应用研究正式开启。当时的方法主要利用了人脸的几何结构，通过分析人脸器官特征点及其之间的拓扑关系进行辨识。这种方法简单直观，但是一旦人脸姿态、表情发生变化，精度则严重下降。

20世纪90年代

1991年，著名的“特征脸”（Eigenface）方法第一次将主成分分析和统计特征技术引入人脸识别，在实用效果上取得了长足的进步。这一思路也在后续研究中得到进一步发扬光大，例如，Belhumer成功将Fisher判别准则应用于人脸分类，提出了基于线性判别分析的Fisherface方法。

历经27年，人脸识别技术如何发展至识别精度达99.5%以上

来自100个类（主题）的前四个Fisherfaces。

2000-2012年

21世纪的前十年，随着机器学习理论的发展，学者们相继探索出了基于遗传算法、支持向量机（Support Vector Machine，SVM）、boosting、流形学习以及核方法等进行人脸识别。

2009年至2012年，稀疏表达（Sparse Representation）因为其优美的理论和对遮挡因素的鲁棒性成为当时的研究热点。与此同时，业界也基本达成共识：基于人工精心设计的局部描述子进行特征提取和子空间方法进行特征选择能够取得最好的识别效果。

历经27年，人脸识别技术如何发展至识别精度达99.5%以上

图形概要

Gabor及LBP特征描述子是迄今为止在人脸识别领域最为成功的两种人工设计局部描述子。这期间，对各种人脸识别影响因子的针对性处理也是那一阶段的研究热点，比如人脸光照归一化、人脸姿态校正、人脸超分辨以及遮挡处理等。

历经27年，人脸识别技术如何发展至识别精度达99.5%以上

3种圆形的LBP算子

也是在这一阶段，研究者的关注点开始从受限场景下的人脸识别转移到非受限环境下的人脸识别。LFW人脸识别公开竞赛（LFW是由美国马萨诸塞大学发布并维护的公开人脸数集，测试数据规模为万）在此背景下开始流行，当时最好的识别系统尽管在受限的FRGC测试集上能取得99%以上的识别精度，但是在LFW上的最高精度仅仅在80%左右，距离实用看起来距离颇远。

2013年

微软亚洲研究院的研究者首度尝试了10万规模的大训练数据，并基于高维LBP特征和JointBayesian方法在LFW上获得了95.17%的精度。这一结果表明：大训练数据集对于有效提升非受限环境下的人脸识别很重要。然而，以上所有这些经典方法，都难以处理大规模数据集的训练场景。

2014年前后

随着大数据和深度学习的发展，神经网络重受瞩目，并在图像分类、手写体识别、语音识别等应用中获得了远超经典方法的结果。香港中文大学的Sun Yi等人提出将卷积神经网络应用到人脸识别上，采用20万训练数据，在LFW上第一次得到超过人类水平的识别精度，这是人脸识别发展历史上的一座里程碑。

历经27年，人脸识别技术如何发展至识别精度达99.5%以上

论文下载链接：

https://www.aminer.cn/archive/hybrid-deep-learning-for-face-verification/53e9a51db7602d9702e4193c

自此之后，研究者们不断改进网络结构，同时扩大训练样本规模，将LFW上的识别精度推到99.5%以上。人脸识别发展过程中一些经典的方法及其在LFW上的精度，都有一个基本的趋势：训练数据规模越来越大，识别精度越来越高。

历经27年，人脸识别技术如何发展至识别精度达99.5%以上 aminer学术头条

AMiner平台由清华大学计算机系研发，拥有我国完全自主知识产权。系统2006年上线，吸引了全球220个国家/地区800多万独立IP访问，数据下载量230万次，年度访问量1000万，成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

理论人脸识别 Eigenface Fisherface 机器学习卷积神经网络语音识别

相关数据

神经网络技术

Neural Network

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

大数据技术

Big data

大数据，又称为巨量资料，指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

来源：维基百科

人脸识别技术

Facial recognition

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术，包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等；而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。人脸识别是一项热门的计算机技术研究领域，它属于生物特征识别技术，是对生物体（一般特指人）本身的生物特征来区分生物体个体。

来源：维基百科

遗传编程技术

Genetic programming

遗传编程或称基因编程，简称GP，是一种从生物演化过程得到灵感的自动化生成和选择计算机程序来完成用户定义的任务的技术。从理论上讲，人类用遗传编程只需要告诉计算机“需要完成什么”，而不用告诉它“如何去完成”，最终可能实现真正意义上的人工智能：自动化的发明机器。

来源：维基百科

线性判别分析技术

Linear Discriminant Analysis

线性判别分析是对费舍尔的线性鉴别方法的归纳，这种方法使用统计学，模式识别和机器学习方法，试图找到两类物体或事件的特征的一个线性组合，以能够特征化或区分它们。所得的组合可用来作为一个线性分类器，或者，更常见的是，为后续的分类做降维处理。

来源：维基百科

机器学习技术

Machine Learning

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

流形学习技术

Manifold learning

流形学习（manifold learning）是机器学习、模式识别中的一种方法，在维数约简方面具有广泛的应用。它的主要思想是将高维的数据映射到低维，使该低维的数据能够反映原高维数据的某些本质结构特征。流形学习的前提是有一种假设，即某些高维数据，实际是一种低维的流形结构嵌入在高维空间中。流形学习的目的是将其映射回低维空间中，揭示其本质。

来源：知乎 Jason Gu

主成分分析技术

Principal component analysis

在多元统计分析中，主成分分析（Principal components analysis，PCA）是一种分析、简化数据集的技术。主成分分析经常用于减少数据集的维数，同时保持数据集中的对方差贡献最大的特征。这是通过保留低阶主成分，忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是，这也不是一定的，要视具体应用而定。由于主成分分析依赖所给数据，所以数据的准确性对分析结果影响很大。

来源：机器之心维基百科

语音识别技术

Speech Recognition

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性，目前的语音识别系统只能在一定的限制条件下获得满意的性能，或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

来源： What is Automatic Speech Recognition?

深度学习技术

Deep learning

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源： LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

微软亚洲研究院机构

Microsoft Research Asia

微软亚洲研究院是微软公司在亚太地区设立的研究机构，也是微软在美国本土以外规模最大的一个。从1998年建院至今, 通过从世界各地吸纳而来的专家学者们的鼎力合作，微软亚洲研究院已经发展成为世界一流的计算机基础及应用研究机构，致力于推动整个计算机科学领域的前沿技术发展，并将最新研究成果快速转化到微软全球及中国本地的关键产品中，帮助消费者改善计算体验。同时，微软亚洲研究院着眼于下一代革命性技术的研究，助力公司实现长远发展战略和对未来计算的美好构想。目前，微软亚洲研究院共有200多名科学家以及300多名访问学者和实习生，主要从事五个领域的研究：1. 自然用户界面、2. 新一代多媒体、3. 以数字为中心的计算、4. 互联网搜索与在线广告、5. 计算机科学基础从微软亚洲研究院诞生出来的新技术层出不穷，它们对微软公司产生了非常重要的影响。众多从微软亚洲研究院诞生的创新技术转移到了微软产品中，包括：Office、Windows、Azure、Bing、Visual Studio、Xbox Kinect、Power BI等，以及近年来以微软小冰、Cortana、Microsoft Translator、微软认知服务等为代表的人工智能产品。同时，基于以实践驱动的研究理念，近年来微软亚洲研究院孵化了很多广受欢迎的应用和技术项目，包括微软自拍、微软小英、微软识花、微软对联/字谜、Urban Air、小鱼天气等。

涉及领域

特征选择技术

Feature selection

在机器学习和统计学中，特征选择（英语：feature selection）也被称为变量选择、属性选择或变量子集选择。它是指：为了构建模型而选择相关特征（即属性、指标）子集的过程。

来源：维基百科

支持向量机技术

Support Vector Machines

在机器学习中，支持向量机是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。给定一组训练实例，每个训练实例被标记为属于两个类别中的一个或另一个，SVM训练算法创建一个将新的实例分配给两个类别之一的模型，使其成为非概率二元线性分类器。SVM模型是将实例表示为空间中的点，这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后，将新的实例映射到同一空间，并基于它们落在间隔的哪一侧来预测所属类别。

来源： Wikipedia

淘宝技术这十年

子柳 / 电子工业出版社 / 2013-5 / 45.00元

《淘宝技术这十年》内容简介：任何网站的发展都不是一蹴而就的。它在发展过程中会遇到各种各样的问题和业务带来的压力。正是这些问题和压力推动着技术的进步和发展，而技术的发展反过来又会促进业务的更大提升。如今淘宝网的流量排名已是全球前15名、国内前3名，其系统服务器也从一台发展到万台以上。《淘宝技术这十年》从工程师的角度讲述淘宝这个超大规模互联网系统的成长历程，及其所有主动和被动的技术变革的前因后......一起来看看《淘宝技术这十年》这本书的介绍吧!

码农工具