人脸识别技术的发展与实用解决方案的设计
浏览:240 时间:2022-11-20

本文试图梳理人脸识别技术的发展,并根据作者在相关领域的实践给出一些实用的设计,期望有益于读者。

人脸识别技术不仅吸引了来自谷歌,脸书,阿里,腾讯,百度等国内外互联网巨头的大量研发投入,而且催生了大量的明星创业公司,如Face ++,上堂科技,Linkface等。 ,中科云可和一图。在视频监控,刑事侦查,互联网金融身份验证,自助清关系统等方面,已经创建了许多成功的应用案例。本文试图梳理人脸识别技术的发展,并根据作者在相关领域的实践给出一些实用的设计,期望有益于读者。

I.概述

用外行人的话来说,任何机器学习问题都可以等同于找到合适的转换函数的问题。

例如,语音识别是找到合适的变换函数,将输入的一维时间序列语音信号变换为语义空间;最近引起全民关注的Go人工智能AlphaGo将输入的二维布局图像转换为决策空间。下一步是确定最佳步行方法。相应地,人脸识别也是为了找到合适的变换函数,将输入的二维人脸图像变换为特征空间,以便唯一地确定相应人物的身份。

人们一直认为Go比面部识别困难得多。因此,当AlphaGo轻松击败世界冠军李时珍和柯杰的绝对优势时,人们对人工智能的力量印象更深刻。

事实上,这个结论只是对基于“常识”的人的误解,因为从大多数人的经验来看,即使经过严格的训练,击败世界冠军的机会几乎可以忽略不计;相反,绝大多数普通人即使没有经过严格的培训,人脸识别的任务也很容易实现。

但是,我们不妨仔细分析两者之间的难度:在电脑的“眼睛”中,棋盘是19倍;在19矩阵中,矩阵的每个元素的可能值来自A三{0,1,2}表示无子,白色和黑色,因此输入向量的可能值为3361;用于人脸识别,512次; 512输入图像例如,它是计算机“眼睛”中的512x512x3维矩阵。矩阵的每个元素的可能范围是0~255,因此输入向量的可能值是256786432.虽然Go AI和人脸识别都寻求合适的变换函数f,但后者输入空间的复杂性显然很明显比前者大得多。

对于理想的变换函数f,为了实现最优分类效果,在变换特征空间中,我们希望同类样本的类内差异尽可能小,不同类型样本的类间差异是尽可能大。

然而,理想是充实的,但现实是骨头。由于光照,表情,遮挡,姿势等因素的影响(图1),不同人之间的差距往往小于同一人之间的差距,如图2所示。人脸识别算法的发展历史是与这些识别影响因素斗争的历史。

图1人脸识别的影响因素

图2态度导致不同的人比同龄人更相似

二,人脸识别技术的发展

早在20世纪50年代,认知科学家就开始研究人脸识别。 20世纪60年代,人脸识别工程应用研究正式启动。此时,该方法主要利用面部的几何结构,通过分析面部器官的特征点和它们之间的拓扑关系来识别。这种方法简单直观,但一旦面部姿势和表情发生变化,准确性就会严重下降。

1991年,着名的“特征面”方法[1]首次将主成分分析和统计特征技术引入人脸识别,并在实际效果上取得了很大进展。这一想法在随后的研究中得到了进一步发展。例如,Belhumer成功地将Fisher判别标准应用于人脸分类,并提出了基于线性判别分析的Fisherface方法[2]。

在21世纪的第一个十年,随着机器学习理论的发展,学者们先后研究了基于遗传算法,支持向量机(SVM),增强,流形学习和核方法的人脸识别。从2009年到2012年,稀疏表示[3]由于其优美的理论和对遮挡因子的鲁棒性而成为当时的研究热点。

同时,业界已基本达成共识:基于人工设计的局部描述符进行特征选择的特征提取和子空间方法可以实现最佳识别结果。 Gabor [4]和LBP [5]特征描述符是人脸识别领域中两个最成功的人工设计的局部描述符。在此期间,各种人脸识别影响因素的目标处理也是该阶段的研究热点,如人脸照度归一化,人脸姿态校正,人脸超分辨率和遮挡处理。同样在这个阶段,研究人员的焦点开始从限制场景中的人脸识别转变为无限制环境中的人脸识别。 LFW面部识别公开竞争在这种背景下变得流行。当时,最佳识别系统在有限的FRGC测试装置上实现了超过99%的识别精度,但LFW的最高精度仅为约80%。这似乎与实际相去甚远。

2013年,MSRA研究人员首次尝试了大规模的100,000训练数据,基于高维LBP特征和联合贝叶斯方法,在LFW上获得了95.17%的准确率[6]。该结果表明,大的训练数据集对于在无约束环境中有效地改善面部识别是重要的。但是,所有这些经典方法都难以处理大型数据集的训练场景。

大约在2014年,随着大数据和深度学习的发展,神经网络引起了广泛的关注,并且在图像分类,手写识别和语音识别方面取得了远远优于传统方法的结果。

孙毅等人。香港中文大学提出应用卷积神经网络进行人脸识别[7]。使用200,000个训练数据,这是LFW中的第一次,识别精度超过人类水平。这是人脸识别的发展。历史上的里程碑。

从那时起,研究人员不断改进网络结构,同时扩大训练样本的规模,推动LFW的识别准确率达到99.5%以上。如表1所示,我们给出了人脸识别的一些经典方法及其在LFW上的准确性。一个基本趋势是训练数据越来越大,识别准确度越来越高。如果读者有兴趣更详细地阅读人脸识别的发展历史,可以参考文献。

表2正常人脸识别训练集

表3本文中使用的测试集

表4快速可靠的培训数据清理方法

图4显示了一组有效的人脸识别技术解决方案,包括多补丁分区,CNN特征提取,多任务学习/多丢失融合和特征融合模块。

图4人脸识别技术解决方案

1.多片段分区主要使用不同面片之间的互补信息来提高识别性能。特别地,多个贴片之间的融合可以有效地改善遮挡下的识别性能。目前,LFW审查中超过99.50%的结果主要来自多个补丁融合。

2.久经考验的人脸特征提取卷积神经网络包括:Deep-ID系列,VGG-Net,ResNet,Google Inception结构。读者可以根据其准确性和效率需求选择合适的网络。本文使用19层resnet作为示例。

3,多任务学习主要是利用其他相关信息来提高人脸识别性能。本文以性别和种族认同为例。这两个属性与特定人的身份密切相关,而其他属性(如表达和年龄)则不然。我们在resnet的中间层提取了分支,用于种族和性别的多任务学习,使得CNN网络的前几层相当于具有种族和性别判别力的高级语义信息。在CNN网络的后续层面,我们进一步学习身份。优化身份验证信息。同时,训练集中样本的性别和种族可以通过基线分类器的多数表决获得。

4,多损失融合主要是利用不同损失之间的互补特性来学习适当的人脸特征向量,使类内差异尽可能小,类差异尽可能大。当前面部识别领域的集中损失包括:成对损失,三重损失,软最大损失,中心损失等。其中,三元组损失直接定义了增加类内类之间差距的优化目标,但在具体的工程实践中,它有更多的技巧而且不易掌握。最近提出的中心损耗与softmax损失相结合,可以更好地测量特征空间内的类内和类间差异,训练配置也很方便,因此被广泛使用。

5.通过多次补丁训练获得的模型将生成多个特征向量。如何整合多个特征向量进行最终识别也是一个重要的技术问题。更常见的方案包括:特征向量拼接,分数加权融合和决策级融合(如投票)。

表5数据清理前后识别模型的性能比较

表5给出了清洁前后测试装置上的训练数据的性能比较结果。基于此,可以得出以下结论:

数据清理不仅可以加速模型训练,还可以提高识别准确度;

在西方训练集MSCeleb1M上训练的模型在LFW上实现了完美的泛化性能,LFW也由西方人主导。但是,基于Orientals的业务测试集的泛化性能更好。大跌;

基于东方人的业务培训集训练模型在东方商业测试集上有很好的表现,但西方测试集LFW相对于MSCeleb1M存在一定的差距;

将业务培训集与MSFelb1M相结合,经过培训的模型在LFW和业务数据方面具有近乎完美的性能。其中,基于三个斑块融合的模型对LFW的识别准确率为99.58%。

由此,我们可以知道,为了获得尽可能高的实际识别性能,我们应该尝试使用与使用环境相同的训练数据进行训练。同样的结论出现在论文[12]中。

事实上,除了上述识别算法之外,完整的人脸识别实用系统还应该包括人脸检测,人脸关键点定位,人脸对齐等模块,在一些具有更高安全级别要求的应用中,以防止欺骗攻击在识别系统上,如照片,视频播放,3D打印模型等,还需要引入活体检测模块;为了在视频输入中获得最佳识别效果,还需要引入图像质量评估模块以选择最合适的视频帧。确定最小化不均匀照明,大姿态,低分辨率和运动模糊对识别的影响。此外,许多研究人员和公司都试图以积极的方式规避这些因素的影响:引入红外/3D相机。典型的实际人脸识别方案如图​​5所示。

图5实际人脸识别方案的流程图

四,总结

本文简要总结了人脸识别技术的发展历史,为实际设计提供了参考。虽然人脸识别技术在LFW公开竞争中已达到99%以上的准确率,但在视频监控等实际场景中,1: N识别距离还有很长的路要走,尤其是当N很大时。 。未来,我们需要在培训数据扩展,新模型设计和测量学习方面投入更多精力,以使大规模人脸识别尽快得到实际应用。

参考

[1] Turkand M A,Pengland A P. Eigenfaces for recognition [J]。 Journal of Cognitve Neuroscience,1991,3(1): 71-86。

[2] Belhumeur P,Hespanha J,Kriegman D. Eigenfaces vs. fisherfaces:使用类特定线性投影的识别[J]。 IEEE模式分析和机器智能交易,1997,19(7): 711-720。

[3]刘C,韦克斯勒。基于Gabor特征的增强型Fisher线性模型在人脸识别中的应用[J]。 IEEE Transactions on Image Processing,2002,11(4): 467-476。

[4] Ahonen T,Hadid A,Pietikä使用局部二进制模式的面部描述:在人脸识别中的应用[J]。 IEEE Transactions on Pattern Analysis and Machine Intelligence,2006,28(12): 2037-2041。/P>

[5] Wright J,Yang A,Ganesh A,Sastry S,Ma Y.通过稀疏表示的鲁棒人脸识别[J]。 IEEE模式分析与机器智能交易,2009,31(2): 210-227。

[6]陈达,曹昕,文福,孙杰。维度维度:的高维特征及其有效压缩的人脸验证[C]。 IEEE计算机视觉与模式识别国际会议,2013年。

[7] Sun Y,Wang X,Tang X.通过联合识别深度学习人脸表示 - 验证[C]。

[8] Zhao W,Chellappa R,Rosenfeld A,Phillips P J.人脸识别:文献综述[J]。 ACM Computing Surveys,2003,35(4): 399-458。

[9] Li S Z,Jain A K.人脸识别手册(第2版)[M]。 Springer-Verlag,2011年。

[10]王蓓,李伟,杨炜,廖琦。基于韦伯定律的光照归一化及其在人脸识别中的应用[J]。 IEEE信号处理快报,2011,18(8): 462-465。 p>

[11]王彪,冯曦,龚璐,冯鹤,黄炜,韩J.鲁棒姿态在不同视角下的人脸识别归一化[C]。 ICIP,2015,

[12] Kan M.领域适应面部识别:通过公共子空间,IJCV,2014年对源域进行目标定位。

作者:_两个橙_

资料来源:https://www.jianshu.com/p/68e768131b65

本文是在@_两橙_的授权下发布的,未经作者许可不得复制。

该地图来自unsplash,基于CC0协议