哪怕拍不到脸,人脸识别也能精准找到目标人物

栏目: 编程工具 · 发布时间: 5年前

内容简介:“今天很多APP上用刷脸登陆,它会让你眨眼、转头或者是张嘴……,大家在使用过程中可能会发现它不太方便,关键它让你觉得不太友好,为什么要做这些看起来很傻的动作?所以这就是我们现在要解决的。”中国科学院重庆研究院人工智能联合研究中心副主任

“今天很多APP上用刷脸登陆,它会让你眨眼、转头或者是张嘴……,大家在使用过程中可能会发现它不太方便,关键它让你觉得不太友好,为什么要做这些看起来很傻的动作?所以这就是我们现在要解决的。”

温浩

中国科学院重庆研究院人工智能联合研究中心副主任

云从科技联合创始人

为什么要做人脸识别?

前段时间大家看到一个新闻,在张学友的全国9场演唱会上,接二连三的有逃犯落网,一共抓了25名逃犯,其中有些是潜藏多年的逃犯。一方面说明张学友的号召力特别强大,但更重要的是幕后我们的人工智能技术。

公安通过在安检门和会场布设大量摄像头,实时分析每一位到场观众的面部。当逃犯出现在现场的时候,后台马上计算分析出来,通知我们的公安干警。

所以我们的公安干警可以在短时间内高效地抓到逃犯,它为公安省去了大量的人力和物力。这就是人工智能技术给我们的生活带来的保障和安全。

除了保障安全外,我们在各种场合如门禁、高铁、机场,都在大量使用人脸识别和其他技术。举个例子,在有些地方,我们也使用刷脸支付。

我们为什么要做人脸识别?当然不光是为了抓逃犯,我们是为了一个新的时代,叫做人类和人工智能协作共存的新时代。

大家可能对人工智能既熟悉又陌生,觉得是不是人工智能要代替人?我们其实是抱积极乐观的态度,它一定是和我们协作共存的。 协作一定是从识别人开始的 ,如果机器连你是谁都不知道那它怎么和你协作?

那识别是从什么时候开始?我们认为应该是从计算机视觉开始,所谓百闻不如一见,很多时候我们对人的信息是来自他的脸,来自他的外在形象,这是一个最重要的信息。

我们70%的信息都来自于视觉,所以人脸识别是非常重要的视觉的入口,在各行各业已经得到广泛的应用。

比如通过刷脸支付,我们能很方便地买到一杯咖啡,不需要带卡,不需要带其他东西,也不需要记密码。

刷脸支付

在机场通过安检口识别之后,我们可以走到一个航显屏上,它可以实时地把我要去的目的地、航班、登机口都显示出来,同时可以指示我怎么走到登机口。

这就是非常好的展示人工智能帮助我们更好地生活的例子,不光是保障我们的安全。

哪怕拍不到脸,人脸识别也能精准找到目标人物

智慧航显

如何排除光、角度的干扰

我们要达到让机器更靠谱地识别人的目的,第一个就是要解决人脸识别。

人脸识别的基本原理是通过摄像机拍一张你的照片,然后在后台计算机上分析。 照片是有角度、有光线的,如何让计算机摆脱这些干扰因素?

如果是侧面和正面,会有怎样的影响?如果是逆光,人脸可能都看不清楚了,这时怎样把它识别出来?这些因素都是我们首先要考虑的。

哪怕拍不到脸,人脸识别也能精准找到目标人物

光线变化

从2013年开始,我们做了一些实验性的工作。

首先,我们设计了一个 大规模的摄像头阵列 ,这个阵列有91个摄像头,包括7层,我们叫7种俯仰角,以及13个不同偏转角度,我们叫偏航角。

这91种角度,91个摄像头,可以在毫秒的误差范围内同时采集到一个人不同角度的人脸,我们称之为结构化的数据。

哪怕拍不到脸,人脸识别也能精准找到目标人物

多角度人脸采集阵列

它有别于我们在互联网上采集到的一些人脸照片,或者是我们自己拍的照片,因为它没有角度信息。我们需要知道照片是什么角度拍的,这个就是结构化。

它能够让计算机在短时间内通过少量的数据训练,对一个人不同的角度采取有效的分析。这个设备我们现在还在用,采集到上千万张结构化的人脸。

其次,我们模拟了各种各样的光源,强光、弱光、逆光、顺光,或者是太阳光,或是微弱的星光,或者室外的车灯、室内的照明灯,来看这种光源情况下,不同的光照等级下人脸的变化情况。

哪怕拍不到脸,人脸识别也能精准找到目标人物

多光源模拟光环境

这是从角度和光源两个方面去识别人脸。

通过这些技术,我们今天可以把人脸识别的误识率做到亿分之一。 相当于1亿次尝试冒充别人去验证,只有一次机会的概率通过 ,这基本上可以覆盖到绝大多数的应用。我们人眼的正确率大概是97%左右,它已经是99.8%了。

哪怕拍不到脸,人脸识别也能精准找到目标人物

误识率亿分之一

识别“活人”

仅仅靠这个就可以把事情做好了吗?还不行。

举个例子,前 段时间我们看到宁波有一套行人的闯红灯识别系统 ,它可以把非法闯红灯的行人实时抓拍并曝光在LED屏上。

结果有网友看到董明珠女士的照片曝光在曝光台。大家觉得很奇怪,为什么董明珠会在宁波,仔细一看发现原来是公交车上的车身广告。

车身广告有董明珠女士的人脸,摄像机把她精确地识别出来了,然后被认为是非法闯红灯了。

甚至还有交警在执法的过程中也被抓拍下来,也被认为是闯红灯了。

这种情况让人尴尬,识别没有错,但犯了一个最大的问题是这是不是真实的人脸,如果不是真实的人脸就应该排除掉。

这牵扯到另外一项技术—— 活体检测技术,它能够分辨是平面的照片,还是视频,还是一个真实的人脸, 甚至是一个3D的人脸模型,都可以把它分辨出来,这是我们要做的第二项技术。

最早我们的技术是用在手机银行,或者是证券的远程开户, 比如今天很多APP上用刷脸登陆,它会让你眨眼、转头或者是张嘴,这些动作是随机的 ,你不可能事先录制好,通过这些动作就可以判别出你是真人还是照片。

哪怕拍不到脸,人脸识别也能精准找到目标人物

动作检测

但大家在使用过程中会发现它比较慢,快的话也要三五秒钟,慢的话可能要十几秒钟,有时可能不太方便。 关键它让你觉得不太友好,为什么要做这些看起来很傻的动作?所以这就是我们现在要解决的。

第二代的 红外双目技术 。它通过两个摄像头,一个是可见光的摄像头,RGB的,还有一个是红外光摄像头,我们虽然人眼看不到,但它对我们的人脸是比较敏感的,它可以反射,可以被红外的摄像头采集到,但如果是照片,或者是视频、平板,它反射回来的照片是不一样的。

哪怕拍不到脸,人脸识别也能精准找到目标人物

红外双目摄像头

这里有两幅图片,一幅是可见光的RGB的图像,一幅是红外光的图像。红外光本来是看不到的,我们把它通过一些计算展示出来。

可以看到这两幅图片是对同一个人脸同时采集的,如果是照片的话一定是有很大差异的,通过这种差异性的计算可以把真实的人脸和照片区分开。

哪怕拍不到脸,人脸识别也能精准找到目标人物

RGB图像(左)红外光图像(右)

像这样的技术,我们已经用在刷脸支付,银行里的刷脸取款,包括在华南理工大学各种各样的校园e银行里面有很多刷脸购物的东西,它的设备上都有这样一个双目摄像头。

我们在内部也会做很多攻击,自己去攻击自己。 比如通过挖眼睛、挖嘴巴等的人脸照片,还有各种各样的人脸的面具、3D模型同时进行测试,让计算机能够真正地分辨是攻击的还是真实的。

哪怕拍不到脸,人脸识别也能精准找到目标人物

人脸照片和面具攻击测试

但是我们现在的技术还是平面的,最重要的是发展一个三维的、实时的生成人脸,我们采取 结构光的技术

它同样是红外光,也同样有至少两个摄像头,一个是可见光摄像头,一个是红外光摄像头,但是这个光跟刚才不一样,它是有结构的,比如说二维的点阵。

哪怕拍不到脸,人脸识别也能精准找到目标人物

红外结构光3D成像

假如有一万多个二维点阵,它可以同时投射到人脸上,因为这些光有结构,它经过空间的传输后到人脸,人脸是有深度的,经过反射之后会产生形变,形变信息经过计算以后就可以得到人脸的实时的3D模型。

这个技术可以精确地实现人脸3D建模 ,当然就可以分辨出人脸是平面的还是真实的。 这个技术可以用来实时地如通过一张照片就能生成你的人脸模型,他的侧面、正面、顶部和底部,都可以快速地实现。很多娱乐化的应用里也会用这样的技术。

哪怕拍不到脸,人脸识别也能精准找到目标人物

实时3D人脸模型

拍不到脸怎么办?

有了这些技术之后,我们基本上可以比较精准地识别到一个人脸。但这还远远不够, 很多时候摄像机是固定的角度,并不能拍到你的人脸,这时怎么办?

从2017年开始,我们在做这样一个技术叫 跨镜追踪,不同的摄像机可以把同一个人的衣着、姿态、配饰都识别出来,然后仍然把你定位出来

哪怕拍不到脸,人脸识别也能精准找到目标人物

跨镜追踪

这个技术非常实用,如果用在抓逃犯上,可以更精准地通过少量的摄像机就能把目标人物检测出来。

当然它可以用在其他更多地方, 假如说一个女孩在公园里跑步, 公园主干道上有一些摄像机,这些 摄像机在没有拍到人脸的情况下,仍然可以把这个女孩的衣着和步态识别出来 ,然后对她进行轨迹的跟踪,这就是我们的跨镜追踪技术。

这个技术除了抓逃以外,还可以用于帮助走失的儿童、走失的老人,可以实时地、快速地跟踪。同时,这个技术还可以用在商业里面。

三个目标:为了更靠谱地识别人

我们的人脸识别技术,或是行人识别技术,它都可以让我们比较精准地去识别,但我们仍在继续研究一些更前沿的技术,希望能够更加精准地去识别人,我们的目标是靠谱地识别人。

首先,我们的技术能不能做在前端,而不是一直在后端,要靠计算机、服务器实现,这样的话它的实时性、计算量都会比较复杂。 所以 我们会放在前端,包括到我们的摄像机、无人机上面去做。

第二,我们要远距离、 大规模地识别 。如果是上百人、上千人的场合,我们能不能快速地识别,而且当距离相对来说可能比较远时,照片的分辨率、每个人人脸或人体的分辨率会比较低,这时我们照样可以把它识别。

第三,识别人是最终目的,所以不光是计算机视觉,还有语音、手势,包括动作、唇语我们都可以去识别。做识别的目的是要识别人、理解人,最后是帮助人,所以它一定要实现一个完整的人机交互。这是我们发展的三大目标。

我简单地用三个视频来展现我们三大目标的发展。

第一个是科幻电影《头号玩家》,这里面就是 用无人机直接快速准确地锁定目标,现在这已经不是科幻场景了 ,已经在实时地实现了。

和一些合作伙伴一起,已经通过无人机、摄像头,或者一些移动式设备就可以直接识别到我们的目标。它的难度在于它的计算量一定要放在前端的移动系统里面。

哪怕拍不到脸,人脸识别也能精准找到目标人物

前端快速识别

第二个是我们在商业门店做的能快速地识别上百名顾客,能够把他们实时的人员分布图,每个人的移动轨迹,他对于哪些区域比较感兴趣、停留了多久,都可以分析出来。

这对于商家来说是非常有用的商业分析,他可以知道他的店里面产生了怎样的价值,每个人是怎样的规律,可以做实时的分析。

哪怕拍不到脸,人脸识别也能精准找到目标人物

远距离大规模识别

第三个,我们通过多模态的技术,人机交互,包括语音、人脸、唇语、动作综合地识别人,然后实现一个完美的人机交互。

在这里,他通过不同的动作来控制地图,或者找寻他的目的地,最后在车上通过一些相关的措施认证它,最后实现一个比较完整的交互。

这三个目标达到之后,我们就可以最终实现靠谱地识别人的目的。

哪怕拍不到脸,人脸识别也能精准找到目标人物

综合识别

最后,我想以卡斯帕罗夫的话结尾,他最近写的一本新书《深度思考》里面提到:

我们最终会被人工智能这样一个技术超越,甚至取代,这是我们社会正在发生的必然趋势,但是我们不应该害怕,我们应该努力地面对,努力地和它协作,最后达到一个新的高度,这才是我们应该去积极地思考和处理的态度。

我们相信,在座的各位也会在人工智能领域发挥你们的聪明才智,做出更多更好的新事物!谢谢大家。

声明:本文来自SELF格致论道讲坛,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Computer Age Statistical Inference

Computer Age Statistical Inference

Bradley Efron、Trevor Hastie / Cambridge University Press / 2016-7-21 / USD 74.99

The twenty-first century has seen a breathtaking expansion of statistical methodology, both in scope and in influence. 'Big data', 'data science', and 'machine learning' have become familiar terms in ......一起来看看 《Computer Age Statistical Inference》 这本书的介绍吧!

SHA 加密
SHA 加密

SHA 加密工具

UNIX 时间戳转换
UNIX 时间戳转换

UNIX 时间戳转换

RGB CMYK 转换工具
RGB CMYK 转换工具

RGB CMYK 互转工具