本文来自科普博览大家族
SELF格致论道讲坛(ID:SELFtalks)
这两天,一款换脸APP刷爆朋友圈。可怕的AI换脸,居然毫!无!违!和!感!
但此类应用仍存在诸多侵权风险和隐患,引发了很多公众担忧和热议。
当人脸成为“数字ID”,潘多拉魔盒正在被打开。当人工智能发展迅速,究竟人脸识别都用了哪些黑科技?
温浩
中国科学院重庆研究院
人工智能联合研究中心副主任
云从科技联合创始人
Part.1
为什么要做人脸识别?
前段时间大家看到一个新闻,在张学友的全国9场演唱会上,接二连三的有逃犯落网,一共抓了25名逃犯,其中有些是潜藏多年的逃犯。一方面说明张学友的号召力特别强大,但更重要的是幕后我们的人工智能技术。
公安通过在安检门和会场布设大量摄像头,实时分析每一位到场观众的面部。当逃犯出现在现场的时候,后台马上计算分析出来,通知我们的公安干警。
所以我们的公安干警可以在短时间内高效地抓到逃犯,它为公安省去了大量的人力和物力。这就是人工智能技术给我们的生活带来的保障和安全。
除了保障安全外,我们在各种场合如门禁、高铁、机场,都在大量使用人脸识别和其他技术。举个例子,在有些地方,我们也使用刷脸支付。
我们为什么要做人脸识别?当然不光是为了抓逃犯,我们是为了一个新的时代,叫做人类和人工智能协作共存的新时代。
大家可能对人工智能既熟悉又陌生,觉得是不是人工智能要代替人?我们其实是抱积极乐观的态度,它一定是和我们协作共存的。协作一定是从识别人开始的,如果机器连你是谁都不知道那它怎么和你协作?
那识别是从什么时候开始?我们认为应该是从计算机视觉开始,所谓百闻不如一见,很多时候我们对人的信息是来自他的脸,来自他的外在形象,这是一个最重要的信息。
我们70%的信息都来自于视觉,所以人脸识别是非常重要的视觉的入口,在各行各业已经得到广泛的应用。
比如通过刷脸支付,我们能很方便地买到一杯咖啡,不需要带卡,不需要带其他东西,也不需要记密码。
刷脸支付
在机场通过安检口识别之后,我们可以走到一个航显屏上,它可以实时地把我要去的目的地、航班、登机口都显示出来,同时可以指示我怎么走到登机口。
这就是非常好的展示人工智能帮助我们更好地生活的例子,不光是保障我们的安全。
智慧航显
Part.2
如何排除光、角度的干扰我们要达到让机器更靠谱地识别人的目的,第一个就是要解决人脸识别。
人脸识别的基本原理是通过摄像机拍一张你的照片,然后在后台计算机上分析。照片是有角度、有光线的,如何让计算机摆脱这些干扰因素?
如果是侧面和正面,会有怎样的影响?如果是逆光,人脸可能都看不清楚了,这时怎样把它识别出来?这些因素都是我们首先要考虑的。
光线变化
从2013年开始,我们做了一些实验性的工作。
首先,我们设计了一个大规模的摄像头阵列,这个阵列有91个摄像头,包括7层,我们叫7种俯仰角,以及13个不同偏转角度,我们叫偏航角。
这91种角度,91个摄像头,可以在毫秒的误差范围内同时采集到一个人不同角度的人脸,我们称之为结构化的数据。
多角度人脸采集阵列
它有别于我们在互联网上采集到的一些人脸照片,或者是我们自己拍的照片,因为它没有角度信息。我们需要知道照片是什么角度拍的,这个就是结构化。
它能够让计算机在短时间内通过少量的数据训练,对一个人不同的角度采取有效的分析。这个设备我们现在还在用,采集到上千万张结构化的人脸。
其次,我们模拟了各种各样的光源,强光、弱光、逆光、顺光,或者是太阳光,或是微弱的星光,或者室外的车灯、室内的照明灯,来看这种光源情况下,不同的光照等级下人脸的变化情况。
多光源模拟光环境
这是从角度和光源两个方面去识别人脸。
通过这些技术,我们今天可以把人脸识别的误识率做到亿分之一。相当于1亿次尝试冒充别人去验证,只有一次机会的概率通过,这基本上可以覆盖到绝大多数的应用。我们人眼的正确率大概是97%左右,它已经是99.8%了。
误识率亿分之一
Part.3
识别“活人”
仅仅靠这个就可以把事情做好了吗?还不行。
举个例子,前段时间我们看到宁波有一套行人的闯红灯识别系统,它可以把非法闯红灯的行人实时抓拍并曝光在LED屏上。
结果有网友看到董明珠女士的照片曝光在曝光台。大家觉得很奇怪,为什么董明珠会在宁波,仔细一看发现原来是公交车上的车身广告。
车身广告有董明珠女士的人脸,摄像机把她精确地识别出来了,然后被认为是非法闯红灯了。
甚至还有交警在执法的过程中也被抓拍下来,也被认为是闯红灯了。
这种情况让人尴尬,识别没有错,但犯了一个最大的问题是这是不是真实的人脸,如果不是真实的人脸就应该排除掉。
这牵扯到另外一项技术——活体检测技术,它能够分辨是平面的照片,还是视频,还是一个真实的人脸,甚至是一个3D的人脸模型,都可以把它分辨出来,这是我们要做的第二项技术。
最早我们的技术是用在手机银行,或者是证券的远程开户,比如今天很多APP上用刷脸登陆,它会让你眨眼、转头或者是张嘴,这些动作是随机的,你不可能事先录制好,通过这些动作就可以判别出你是真人还是照片。
动作检测
但大家在使用过程中会发现它比较慢,快的话也要三五秒钟,慢的话可能要十几秒钟,有时可能不太方便。关键它让你觉得不太友好,为什么要做这些看起来很傻的动作?所以这就是我们现在要解决的。
第二代的红外双目技术。它通过两个摄像头,一个是可见光的摄像头,RGB的,还有一个是红外光摄像头,我们虽然人眼看不到,但它对我们的人脸是比较敏感的,它可以反射,可以被红外的摄像头采集到,但如果是照片,或者是视频、平板,它反射回来的照片是不一样的。
红外双目摄像头
这里有两幅图片,一幅是可见光的RGB的图像,一幅是红外光的图像。红外光本来是看不到的,我们把它通过一些计算展示出来。
可以看到这两幅图片是对同一个人脸同时采集的,如果是照片的话一定是有很大差异的,通过这种差异性的计算可以把真实的人脸和照片区分开。
RGB图像(左)红外光图像(右)
像这样的技术,我们已经用在刷脸支付,银行里的刷脸取款,包括在华南理工大学各种各样的校园e银行里面有很多刷脸购物的东西,它的设备上都有这样一个双目摄像头。
我们在内部也会做很多攻击,自己去攻击自己。比如通过挖眼睛、挖嘴巴等的人脸照片,还有各种各样的人脸的面具、3D模型同时进行测试,让计算机能够真正地分辨是攻击的还是真实的。
人脸照片和面具攻击测试
但是我们现在的技术还是平面的,最重要的是发展一个三维的、实时的生成人脸,我们采取结构光的技术。
它同样是红外光,也同样有至少两个摄像头,一个是可见光摄像头,一个是红外光摄像头,但是这个光跟刚才不一样,它是有结构的,比如说二维的点阵。
红外结构光3D成像
假如有一万多个二维点阵,它可以同时投射到人脸上,因为这些光有结构,它经过空间的传输后到人脸,人脸是有深度的,经过反射之后会产生形变,形变信息经过计算以后就可以得到人脸的实时的3D模型。
这个技术可以精确地实现人脸3D建模,当然就可以分辨出人脸是平面的还是真实的。这个技术可以用来实时地如通过一张照片就能生成你的人脸模型,他的侧面、正面、顶部和底部,都可以快速地实现。很多娱乐化的应用里也会用这样的技术。
实时3D人脸模型
Part.4
拍不到脸怎么办?有了这些技术之后,我们基本上可以比较精准地识别到一个人脸。但这还远远不够,很多时候摄像机是固定的角度,并不能拍到你的人脸,这时怎么办?
从2017年开始,我们在做这样一个技术叫跨镜追踪,不同的摄像机可以把同一个人的衣着、姿态、配饰都识别出来,然后仍然把你定位出来。
跨镜追踪
这个技术非常实用,如果用在抓逃犯上,可以更精准地通过少量的摄像机就能把目标人物检测出来。
当然它可以用在其他更多地方,假如说一个女孩在公园里跑步,公园主干道上有一些摄像机,这些摄像机在没有拍到人脸的情况下,仍然可以把这个女孩的衣着和步态识别出来,然后对她进行轨迹的跟踪,这就是我们的跨镜追踪技术。
这个技术除了抓逃以外,还可以用于帮助走失的儿童、走失的老人,可以实时地、快速地跟踪。同时,这个技术还可以用在商业里面。
Part.5
三个目标:为了更可靠地识别人
我们的人脸识别技术,或是行人识别技术,它都可以让我们比较精准地去识别,但我们仍在继续研究一些更前沿的技术,希望能够更加精准地去识别人,我们的目标是靠谱地识别人。
首先,我们的技术能不能做在前端,而不是一直在后端,要靠计算机、服务器实现,这样的话它的实时性、计算量都会比较复杂。所以我们会放在前端,包括到我们的摄像机、无人机上面去做。
第二,我们要远距离、大规模地识别。如果是上百人、上千人的场合,我们能不能快速地识别,而且当距离相对来说可能比较远时,照片的分辨率、每个人人脸或人体的分辨率会比较低,这时我们照样可以把它识别。
第三,识别人是最终目的,所以不光是计算机视觉,还有语音、手势,包括动作、唇语我们都可以去识别。做识别的目的是要识别人、理解人,最后是帮助人,所以它一定要实现一个完整的人机交互。这是我们发展的三大目标。
我简单地用三个视频来展现我们三大目标的发展。
第一个是科幻电影《头号玩家》,这里面就是用无人机直接快速准确地锁定目标,现在这已经不是科幻场景了,已经在实时地实现了。
和一些合作伙伴一起,已经通过无人机、摄像头,或者一些移动式设备就可以直接识别到我们的目标。它的难度在于它的计算量一定要放在前端的移动系统里面。
前端快速识别
第二个是我们在商业门店做的能快速地识别上百名顾客,能够把他们实时的人员分布图,每个人的移动轨迹,他对于哪些区域比较感兴趣、停留了多久,都可以分析出来。
这对于商家来说是非常有用的商业分析,他可以知道他的店里面产生了怎样的价值,每个人是怎样的规律,可以做实时的分析。
远距离大规模识别
第三个,我们通过多模态的技术,人机交互,包括语音、人脸、唇语、动作综合地识别人,然后实现一个完美的人机交互。
在这里,他通过不同的动作来控制地图,或者找寻他的目的地,最后在车上通过一些相关的措施认证它,最后实现一个比较完整的交互。
这三个目标达到之后,我们就可以最终实现靠谱地识别人的目的。
综合识别
最后,我想以卡斯帕罗夫的话结尾,他最近写的一本新书《深度思考》里面提到:
我们最终会被人工智能这样一个技术超越,甚至取代,这是我们社会正在发生的必然趋势,但是我们不应该害怕,我们应该努力地面对,努力地和它协作,最后达到一个新的高度,这才是我们应该去积极地思考和处理的态度。
我们相信,在座的各位也会在人工智能领域发挥你们的聪明才智,做出更多更好的新事物!谢谢大家。