卷积神经网络优势范例6篇

前言:中文期刊网精心挑选了卷积神经网络优势范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。

卷积神经网络优势

卷积神经网络优势范文1

关键词关键词:深度学习;卷积神经网络;古玩图片;图像识别

DOIDOI:10.11907/rjdk.162768

中图分类号:TP317.4

文献标识码:A文章编号文章编号:16727800(2017)005017405

0引言

随着电子商务的发展,大批艺术品交易网站随之兴起,藏品交易规模也越来越大。而当前的古玩网上交易平台还不能够实现对现有藏品图片的自动分类,客户在寻找目标藏品时不得不在众多图片中一一浏览。因此需要一种有效的方法来完成面向图像内容的分类。

在基于内容的图像检索领域,常使用人工设计的特征-如根据花瓶、碗、盘子的不同形态特征:目标轮廓的圆度、质心、宽高比等[1],继而使用BP神经网络、SVM分类器等对特征进行学习分类。文献[2]基于植物叶片的形状特征,如叶片形状的狭长度、矩形度、球状性、圆形度、偏心率、周长直径比等,利用BP神经网络实现对植物叶片进行分类。文献[3]研究印品图像的各类形状缺陷,利用图像缺陷形状的轮廓长度、面积和圆形度等几何特征,导入SVM分类器进行训练,得到分类器模型实现分类。文献[4]提出了一种基于Zernike矩的水果形状分类方法,通过提取图像中具有旋转不变性的Zernike矩特征,并运用PCA方法确定分类需要的特征数目,最后将这些特征输入到SVM分类器中,完成水果形状的分类。上述方法都要求对目标形状分割的准确性,而分割过程中由于存在目标阴影、目标分割不完整问题,会影响到人工特征的准确选取。除了上述人工特征外,最常用的特征是HOG[5,6]、SIFT[7,8]等。HOG的核心思想是所检测的局部物体外形能够被光强梯度或边缘方向的分布所描述。HOG表示的是边缘结构特征,因此可以描述局部形状信息。SIFT在图像的空间尺度中寻找极值点,并提取出其位置、尺度、旋转不变量。SIFT特征对于旋转、尺度缩放、亮度变化保持不变。但是,这两种特征在实际应用中,描述子生成过程冗长、计算量太大。而且在上述方法征设计需要启发式的方法和专业知识,很大程度上依靠个人经验。

卷积神经网络不需要手动设计提取特征,可以直接将图片作为输入,隐式地学习多层次特征,进而实现分类[9]。相比目前常用的人工设计特征然后利用各分类器,具有明显的优势。近年来,卷积神经网络已成为语音、图像识别领域研究热点。它的权值共享特点使得网络复杂度降低,权值数量减少。而且,卷积神经网络直接将图片作为输入,避免了复杂的特征设计和提取,具有一定的平移、缩放和扭曲不变性[10]。本文采用卷积神经网络对古玩图片进行分类。首先,将背景分离后的图片作为网络的输入,相比原图作为输入,此方法的网络结构更加简单。然后,卷积层通过不同的卷积核对输入图片进行卷积得到不同特征图,采样层进一步对特征图进行二次提取,最终提取到合适的特征输入分类器进行分类,而在卷积层、采样层征图的大小、数目都会影响到网络的分类能力。因此,本文通过优化网络参数,使网络达到较好的分类效果。

1卷积神经网络

1989年,LECUN等[11]提出了卷积神经网络(Convolution Neural Networks,CNN),CNN是一种带有卷积结构的深度神经网络,一般至少有2个非线性可训练的卷积层、2个非线性的固定采样层和1个全连接层,一共至少5个隐含层[12]。百度于2012年底将深度学习技术成功应用于自然图像OCR识别和人脸识别,此后深度学习模型被成功应用于一般图片的识别和理解。从百度经验来看,深度学习应用于图像识别不但大大提升了准确性,而且避免了人工特征抽取的时间消耗,从而大大提高了在线计算效率[13]。

卷积神经网络作为一种高效的深度学习方法[14],在许多图像识别方面取得了很好的成效[1519]。该网络作为一种多隐层神经网络,可以提取图像的多层次特征进行识别。

卷积神经网络主要包括卷积层和采样层,卷积层通过可学习的卷积核对输入图片进行卷积得到特征图,卷积操作即加强了输入图片的某种特征,并且降低噪声。卷积之后的结果通过激活函数(通常选择Sigmoid函数或Tanh函数)作用输出构成该层的特征图。特征图上的每一个神经元只与输入图片的一个局部区域连接,每个神经元提取的是该局部区域的特征,所有神经元综合起来就得到了全局特征,与神经元相连接的局部区域即为局部感受野[20]。而在卷积层中一般存在多张特征图,同一张特征图使用相同的卷积核,不同特征图使用不同的卷积核[21],此特点称为权值共享,即同一张特征图上的所有神经元通过相同的卷积核连接局部感受野。卷积神经网络的局部感受野和嘀倒蚕硖氐愦蟠蠹跎倭送络训练的参数个数,降低了网络模型的复杂度。

采样层对卷积层提取到的特征图进行局部非重叠采样,即把特征图分为互不重叠的N×N个子区域,对每个子区域进行采样。卷积神经网络的采样方式一般有两种:最大值采样和均值采样。最大值采样即选取区域内所有神经元的最大值作为采样值,均值采样为区域内所有神经元的平均值作为采样值。最大值采样偏向于提取目标的特征信息,而均值采样偏向于提取背景的特征信息[22]。采样后的特征平面在保留了区分度高特征的同时大大减少了数据量,它对一定程度的平移、比例缩放和扭曲具有不变性。

卷积神经网络通过卷积层和采样层的循环往复提取到图像由低层次到高层次的特征,最后一般通过全连接层将所有特征图展开得到一维向量,然后输入到分类器进行分类。

卷积神经网络在处理二维图像时,卷积层中每个神经元的输入与上一层的局部感受野相连接,并提取该局部的特征,权值共享特点又使得各神经元保持了原来的空间关系,将这些感受不同局部区域的神经元综合起来就得到了全局信息。采样层对特征图进行局部特征提取,不会改变神经元之间的空间关系,即二维图像经过卷积层、采样层仍然保持二维形式。因此,卷积神经网络有利于提取形状方面的特征。虽然卷积神经网络的局部感受野、权值共享和子采样使网络大大减少了需要训练参数的个数,但是该网络作为多隐层神经网络还是十分复杂的。对于不同的数据库,为了达到比较好的分类效果,网络的层数、卷积层特征图个数以及其它参数的设置都需要探究。

2基于卷积神经网络的古玩图片分类

2.1特征提取及传递

不同古玩的主要区别在于形状不同,而花瓶、盘子和碗在古玩中最常见,因此将这3类图片作为实验对象,对于其它种类的古玩图片的分类,该网络同样适用。卷积神经网络采用如下图所示的5层网络结构,并对网络各层的特征图数目、大小均作了修改。对于网络的输入,先将原图像进行目标与背景分割,然后进行灰度化、统一分辨率的处理,最后输入到卷积神经网络。由于训练卷积神经网络的根本目的是提取不同古玩的特征,而背景不是目标的一部分,对古玩识别来说并不提供任何有用的信息,反而对特征的提取造成干扰,所以去除背景噪声后,网络结构会更加简单,同时也利于网络对特征的学习。但是因为进行了去背景的预处理,网络也失去了对复杂背景下图片的识别能力,所以使用该网络进行古玩图片分类前都要进行目标分割的预处理过程。

卷积神经网络对古玩图片的特征提取过程如下:

(1)输入网络的图片为100×100大小的预处理图,卷积神经网络的输入层之后为卷积层,卷积层通过卷积核与输入图像进行卷积得到特征平面,卷积核大小为5×5。如图2所示,特征平面上每个神经元与原图像5×5大小的局部感受野连接。卷积核移动步长为1个像素,因此卷积层C1的特征平面大小为96×96。这种卷积操作在提取到输入图像的某一方面特征时,必然会损失掉图像的其他特征,而采取多个卷积核卷积图像得到多个特征平面则会一定程度上弥补这个缺陷。因此,在卷积层C1中使用了6个不同的卷积核与输入图像进行卷积,得到6种不同的特征平面图。如图3所示,同一张特征图上的所有神经元共享一个卷积核(权值共享),图中连接到同一个特征图的连接线表示同一个卷积核,6个不同的卷积核卷积输入图片得到6张不同的特征平面图。卷积之后的结果并非直接储存到C1层特征图中,而是通过激活函数将神经元非线性化,从而使网络具有更强的特征表达能力。激活函数选择Sigmoid函数。

卷积层中所使用的卷积核尺寸若过小,就无法提取有效表达的特征,过大则提取到的特征过于复杂。对于卷积层征图个数的设置,在一定范围内,特征图的个数越多,卷积层提取到越多有效表达原目标信息的特征,但是特征图个数如果过多,会使提取到的特征产生冗余,最终使分类效果变差。卷积层的各平面由式(1)决定: Xlj=f(∑i∈MjXl-1j*klij+blj)(1)

式(1)中,Mj表示选择输入的特征图集合,l是当前层数,f是激活函数,klij表示不同输入特征图对应的卷积核,blj为输出特征图对应的加性偏置。

(2)卷积层C1后的采样层S1由6个特征平面组成,采样层对上一层特征图进行局部平均和二次特征提取。采样过程如图4所示,特征平面上的每个神经元与上一层4×4大小的互不重合的邻域连接进行均值采样,最终每个平面的大小为24×24。采样层的各平面由式(2)决定:

Xlj=f(βljdown(Xl-1j)+blj)(2)

式(2)中,down(.)表示一个下采样函数,l是当前层数,f是激活函数,βlj表示输出特征图对应的乘性偏置,blj为输出特征图对应的加性偏置。

(3)卷积层C2与C1层操作方式一样,唯一区别的是C2层每个特征图由6个不同的卷积核与上一层6个特征图分别卷积求和得到,因此C2层一共有6×6个不同的卷积核,卷积核大小为5×5,C2层每个平面大小为20×20,共6个特征平面。

(4)采样层S2与S1层操作一样,对上一层4×4大小邻域进行均值采样,输出6个5×5大小的特征平面。本文所用的网络共包括2个卷积层、2个采样层、1个全连接层,由于输入图片已经过背景分离的预处理,采样层S2特征图大小为5×5,所以图1所示5层网络已经有很好的表达能力。如果直接将原图作为输入,那么网络的层数以及特征图的个数将比图1所示的网络更加复杂。

(5)全连接层将上一层6个5×5大小的二维平面展开成为1×150大小的一维向量输入Softmax[23]分类器,输出层一共有3个神经元(即分类的种类数目),分类器将提取到的特征向量映射到输出层的3个神经元上,即实现分类。

2.2网络训练

训练方式为有监督地训练,网络对盘子、花瓶和碗共三类图片进行分类,所以分类器输出一个3维向量,称为分类标签。在分类标签的第k维中1表示分类结果,否则为0。训练过程主要分为两个阶段:

第一阶段:向前传播A段。

将预处理过的图片输入卷积神经网络计算得到分类标签。

第二阶段:向后传播阶段。

计算输出的分类标签和实际分类标签之间的误差。根据误差最小化的原则调整网络中的各个权值。分类个数为3,共有N个训练样本。那么第n个样本的误差为:

En=12∑3k=1(tnk-ynk)2(3)

式(3)中,tn表示第n个样本的网络输出标签,tnk对应标签的第k维,yn表示第n个样本的实际分类标签,ynk对应标签的第k维。为了使误差变小,利用权值更新公式(4)更新各层神经元的权值,一直训练直到网络误差曲线收敛。

W(t+1)=W(t)+η・δ(t)・X(t)(4)

式(4)中,W(t)表示算第n个样本时的权值,W(t+1)表示计算第n+1个样本的权值,η为学习速率,选取经验值,δ为神经元的误差项,X表示神经元的输入。

3实验结果及分析

实验在MatlabR2012a平台上完成,CPU 2.30GHz,内存4GB,所采用的图像由相关古玩网站提供,分辨率统一格式化为100×100。由于盘子、花瓶和碗在各种古玩种类中它们之间的形状差别比较明显,本文实验对这三类古玩图片进行分类。对古玩图片进行了水平翻转处理,增加图片数据量,以加强网络对古玩图片分类的鲁棒性。实验数据如表1所示,图5列出了3类图片的部分样本,实验所用图片均与图5所示图片类似,背景比较单一,少数图片下方有类似阴影。

为了形象表示网络各层提取的不同特征,图6展示了当网络输入为盘子时的各层特征图。卷积层C1中6张特征图分别提取到了输入图片的不同特征,而由于权值共享,同一张特征图中神经元的空间关系保持不变,所以6张特征图都抓住了盘子的圆形特征。采样层S1对C1进行均值采样,相当于模糊滤波,所以S1层各特征图看起来模糊了一些。卷积层C2中每张特征图由6个不同的卷积核卷积S1层各特征图叠加而成,S2层与S1层处理方式相同。

为了说明将背景分离后的图片作为输入的网络与原图输入的网络之间的差异,设计了如表3所示的两种网络结构,网络CNN4只需要4层网络层就可以达到0.19%的错误率,而原图作为输入的CNN8共6层网络层,在网络达到收敛的情况下,错误率为5.24%。由此可以说明,将背景分离后图片作为输入的网络结构更加简单。

网络的训练采用了批量训练方式,即将样本分多批,当一批样本前向传播完之后才进行权值更新,每批大小为100,训练集共2 200张图片,网络迭代次数为1时共进行22次权值更新,所以权值更新的计算次数与迭代次数有如下关系:

计算次数=22×迭代次数(5)

图7为网络在训练集上的误差曲线图,横坐标为误差反向传播的计算次数,纵坐标为训练集上的均方误差。可以看出,当网络训练次数达到270次(计算次数约6 000)时,训练集误差趋于平缓,网络已经基本拟合。训练好的网络可以用来对测试集图片进行分类,表4为不同迭代次数下训练的网络在测试集上的分类错误率,可以看出迭代次数在达到270次后,网络在测试集的错误率收敛,此时只有2张图片出现分类错误。

表5给出了图像分类算法中常用的人工特征+BP神经网络、人工特征+SVM分类器以及Hog特征+SVM分类器与CNN方法的性能比较。人工设计的特征包括图片中目标轮廓的最大长宽比、质心、圆度等特征。从准确率方面来看,CNN方法的准确率高于其他方法,Hog特征方法的准确率远远高于人工特征的方法,说明了特征的好坏对图像分类效果有着很大程度上的影响,CNN提取到的特征比Hog和人工设计的特征更具代表性。从测试时间来看,Hog方法与CNN方法相差不多,采用人工特征的方法时间最长。综合两个方面,CNN方法在测试时间和HOG方法相近的情况下,准确率最高。

4结语

针对网上古玩图片分类问题,为了克服现有算法中人工设计特征困难以及往往依赖个人专业经验的不足,提出一种基于卷积神经网络的方法。将背景分离后的目标图片作为网络输入,可以实现自动提取特征进行分类,背景分离后图片作为网络输入使得网络结构更加简单,并且设置了合适的特征图个数以使网络在古玩图片集上取得较好的分类准确率。实验数据表明,该方法能够解决网上古玩图片的分类问题,并且分类准确率达到99%,其准确率优于常用的Hog特征以及人工特征方法。另外该方法不仅可以应用于网上古玩图片,还可应用于鞋类、服装等其它商品图像的分类。

参考文献参考文献:

[1]K KAVITHA,M.V.SUDHAMANI.Object based image retrieval from database using combined features[C].in Signal and Image Processing (ICSIP),2014.

[2]董红霞,郭斯羽,一种结合形状与纹理特征的植物叶片分类方法[J].计算机工程与应用,2014,50(23):185188.

[3]舒文娉,刘全香,基于支持向量机的印品缺陷分类方法[J].包装工程,2014,35(23):138142.

[4]应义斌,桂江生,饶秀勤,基于Zernike矩的水果形状分类[J].江苏大学学报:自然科学版,2007,28(1):3639.

[5]ZHU Q,YEH M C,CHENG K T,et al.Fast human detection using acascade of histograms of oriented gradients[C].Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2006.

[6]M VILLAMIZAR,J SCANDALIANS,A SANFELIU bining colorbased invariant gradient detector with Hog descriptors for robust image detection in scenes under cast shadows[C].In Robotics and Automation,ICRA IEEE International Conference on.Barcelona,Spain:IEEE,2009.

[7]CHEN J,LI Q,PENG Q,et al.CSIFT based localityconstrained linear coding for image classification[J].Formal Pattern Analysis & Applications,2015,18(2):441450.

[8]AHMAD YOUSEF K M,ALTABANJAH M,HUDAIB E,et al.SIFT based automatic number plate recognition[C].International Conference on Information and Communication Systems.IEEE,2015.

[9]LAWRENCE S,GLIES C L,TSOI A C,et al.Face recognition:a convolutional neuralnetwork approach[J].IEEE Transactions on Neural Networks,1997,8(1):98113.

[10]TREVOR HASTIE,ROBERT TIBSHIRANI,J FRIEDMAN.The elements of statistical learning[M].New York:Springer,2001.

[11]Y LECUN,L BOUOU,Y BENGIO.Gradientbased learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):22782324.

[12]DAHL J V,KOCH K C,KLEINHANS E,et al.Convolutional networks and applications in vision[C].International Symposium on Circuits and Systems (ISCAS 2010),2010:253256.

[13]余凯,贾磊,陈雨强,等.深度学习的昨天、今天和明天[J].计算机研究与发展,2013(09):17991804.

[14]MAIRAL J,KONIUSZ P,HARCHAOUI Z,et al.Convolutional kernel networks[DB/OL].http:///pdf/1406.3332v2.pdf.

[15]Z世杰,杨东坡与刘金环,基于卷积神经网络的商品图像精细分类[J].山东科技大学学报:自然科学版,2014(6):9196.

[16]程文博等,基于卷积神经网络的注塑制品短射缺陷识别[J].塑料工业,2015(7):3134,38.

[17]邓柳,汪子杰,基于深度卷积神经网络的车型识别研究[J].计算机应用研究,2016(4):14.

[18]T JONATAN,S MURPHY,Y LECUN,et al.Realtime continuous pose recovery of human hands using convolutional networks[J].ACM Transaction on Graphics,2014,33(5):3842.

[19]S SKITTANON,A C SURENARAN,J C PLATT,et al.Convolutional networks for speech detection[C].Interspeech.Lisbon,Portugal:ISCA,2004.

[20]HUBEL D H,WIESEL T N.Integrative action in the cat's lateral geniculate body[J].Journal of Physiology,1961,155(2):385398.

[21]JAKE BOUVRIE.Notes on convolutional neural networks[DB/OL].http:///5869/1/cnn_tutorial.pdf.

卷积神经网络优势范文2

(广东外语外贸大学 金融学院,广东 广州 510006)

摘 要:作为一个具有巨大应用前景研究方向,深度学习无论是在算法研究,还是在实际应用(如语音识别,自然语言处理、计算机视觉)中都表现出其强大的潜力和功能.本文主要介绍这种深度学习算法,并介绍其在金融领域的领用.

关键词 :深度学习;受限波兹曼机;堆栈自编码神经网络;稀疏编码;特征学习

中图分类号:TP181 文献标识码:A 文章编号:1673-260X(2015)01-0037-03

1 深度学习的研究意义

深度学习是一类新兴的多层神经网络学习算法,因其缓解了传统训练算法的局部最小性,引起机器学习领域的广泛关注.深度学习的特点是,通过一系列逻辑回归的堆栈作为运算单元,对低层数据特征进行无监督的再表示(该过程称为预学习),形成更加抽象的高层表示(属性类别或特征),以发现数据的分布式特征表示.深度学习的这种特性由于与脑神经科学理论相一致,因此被广泛应用于语音识别、自然语言处理和计算机视觉等领域.

生物学研究表明[1]:在生物神经元突触的输出变化与输入脉冲的持续时间有关,即依赖于持续一定时间的输入过程,输出信号既依赖于输入信号的空间效应和阈值作用,也依赖于时间总和效应.

传统的深度学习方法虽然较好地模拟了生物神经元的一个重要特性——空间总和效应上的深度,却忽视了生物神经元的另一个重要特性——时间总和效应上的宽度[2].因此,对于连续的时间变量问题(如语音识别),传统深度学习方法只能将连续的时间函数关系转化为空间关系,即离散化为时间序列进行处理.这样做有几个弊端:

(1)可能造成深度学习算法对时间采样频率的十分敏感,鲁棒性较差.这使得,不同时间尺度下,需要使用不同的数据和算法.这无疑是十分不方便的;

(2)导致深度网络规模过大,使得计算开销增大、学习效果变差、泛化性能降低;

(3)难以满足实际应用对算法的实时性的要求,更难以体现连续输入信息的累积效应,大大降低深度学习算法的实用性.

因此,对传统的深度学习算法进行改进,使其不但具有“深度”,亦能具有“宽度”,能够对连续时变数据进行更好的特征提取、提高算法效率和实用性,显得势在必行.基于这个切入点,本项目借鉴时频分析与小波分析中的方法,结合数学分析领域中的泛函分析技术,与堆栈自编码神经网络相结合,提出一种新的深度学习算法——深度泛函网络.为了验证算法的有效性及优越性,本项目将把新算法应用于金融时间序列的领域.

在目前国内外对于深度学习的研究中,几乎没有任何将深度学习技术运用于金融数据的研究.通过提出并运用得当的深度序列学习方法,我们期望从金融数据中抽取更高级的、具有经济学意义或预测性意义的高级特征(与人工设计的“技术指标”相对应),并开发相应的量化交易策略,并与其它传统算法进行对比,以说明所提算法的可行性和优越性.

2 国内外研究现状

人类感知系统具有的层次结构,能够提取高级感官特征来识别物体(声音),因而大大降低了视觉系统处理的数据量,并保留了物体有用的结构信息.对于要提取具有潜在复杂结构规则的自然图像、视频、语音和音乐等结构丰富数据,人脑独有的结构能够获取其本质特征[3].受大脑结构分层次启发,神经网络研究人员一直致力于多层神经网络的研究.训练多层网络的算法以BP算法为代表,其由于局部极值、权重衰减等问题,对于多于2个隐含层的网络的训练就已较为困难[4],这使得实际应用中多以使用单隐含层神经网络居多.

该问题由Hinton[5]所引入的逐层无监督训练方法所解决.具体地,该法对深度神经网络中的每一层贪婪地分别进行训练:当前一层被训练完毕后,下一层网络的权值通过对该层的输入(即前一层的输出)进行编码(Encoding,详见下文)而得到.当所有隐含层都训练完毕后,最后将使用有监督的方法对整个神经网络的权值再进行精确微调.在Hinton的原始论文中,逐层贪婪训练是通过受限波兹曼机(Restricted Boltzmann Machine,RBM)以及相对应的对比散度方法(Contrastive Divergence)完成的.与通常的神经元不同,RBM是一种概率生成模型,通常被设计为具有二元输入-输出(称为Bernoulli-Bernoulli RBM).通过对每一层的受限波兹曼机进行自底向上的堆栈(如图1),可以得到深度信念网(Deep Belief Network,DBN).

除了生成式的RBM,还有其他的深度学习结构被广泛使用和研究.如堆栈自编码神经网络(Stacked Auto-Encoder Network,SAEN)[6],以及深度卷积神经网络(Deep Convolutional Network)[7]等.前者的优势在于可以简单地采用通常的BP算法进行逐层预训练,并且引入随机化过程的抗噪声自编码网络(Denoising SAEN)泛化性能甚至超过DBN[8];而后者则通过权值共享结构减少了权值的数量,使图像可以直接作为输入,对平移、伸缩、倾斜等的变形具有高度不变性,因此在图像识别领域有着广泛应用.

近年来,稀疏编码(Sparse Encoding)和特征学习(Feature Learning)成为了深度学习领域较为热门的研究方向.B.A.Olshausen[9]等针对人脑的视觉感知特性,提出稀疏编码的概念.稀疏编码算法是一种无监督学习方法,它用来寻找一组“过完备”的基向量来更高效地表示输入数据的特征,更有效地挖掘隐含在输入数据内部的特征与模式.针对稀疏编码的求解问题,H.Lee等在2007年提出了一种高效的求解算法[10],该算法通过迭代地求解两个不同的凸规划问题以提高效率.同年,H.Lee等发现,当训练样本为图像时,对DBN的训练进行稀疏性的约束有利于算法学习到更高级的特征[11].例如,对手写识别数据集进行训练时,稀疏性约束下的DBN算法自主学习到了“笔画”的概念.

基于[10,11]的研究成果,R.Raina等[12]提出了“自导师学习(Self-Taught Learning)”的概念.与无监督学习(Unsupervised Learning)和半监督学习(Semi-supervised Learning)不同,自导师学习利用大量易获得的无标签数据(可以来自不同类别甚至是未知类别),通过稀疏编码算法来构建特征的高级结构,并通过支持向量机(Support Vector Machine,SVM)作为最终层分类器对少数有标签数据进行分类.这种更接近人类学习方式的模式极大提高了有标签数据的分类准确度.与之类似,H.Lee,R.Grosse等[13]提出了一种具有层次结构的特征学习算法.该算法将卷积神经网络与DBN结合,并通过稀疏正则化(Sparsity Regularization)的手段无监督地学习层次化的特征表征.图像识别实验表明,该算法能够自主学习得出“物体(Object Parts)”的概念,较好体现了人脑视觉感知的层次性和抽象性.

3 发展趋势

由于信号处理、语音识别、金融时间序列分析、视频分析等领域的实时应用需求,研究能够处理连续时变变量、自然体现时间联系结构的深度学习算法(即深度序列学习,Deep Sequence Learning)成为了新的研究热点.G.W.Taylor,G.E.Hinton等[14]提出时间受限波兹曼机(Temporal RBM,TRBM).该模型使用二值隐含元和实值可视元,并且其隐含元和可视元可以与过去一段历史的可视元之间可以有向地被相连.同时,该模型被用于人类动作识别,并展现出了优秀的性能.针对TRBM的一些不足,一些改进算法也不断涌现,如[15,16].然而,该类深度学习模型虽然考虑了动态的时间变量之间的联系,但依然只能处理离散时间问题,本质上还是属于转化为空间变量的化归法.同时,在自编码网络框架下,依然缺乏较好解决时间过程(序列)问题的方案.

4 金融时序数据中的应用

传统金融理论认为,金融市场中的证券价格满足伊藤过程,投资者无法通过对历史数据的分析获得超额利润.然而,大量实证研究却表明,中国股票价格波动具有长期记忆性,拒绝随机性假设,在各种时间尺度上都存在的可以预测的空间.因此,如何建立预测模型,对于揭示金融市场的内在规律,这无论是对于理论研究,还是对于国家的经济发展和广大投资者,都具有重要的意义.

股票市场是一个高度复杂的非线性系统,其变化既有内在的规律性,同时也受到市场,宏观经济环境,以及非经济原因等诸多因素的影响.目前国内外对证券价格进行预测的模型大致分为两类:一是以时间序列为代表的统计预测模型;该类方法具有坚实的统计学基础,但由于金融价格数据存在高噪声、波动大、高度非线性等特征,使得该类传统方法无法提供有效的工具.另一类是以神经网络、支持向量机等模型为代表的数据挖掘模型.该类模型能够处理高度非线性的数据,基本上从拟合的角度建模.虽然拟合精度较高,但拟合精度的微小误差往往和市场波动互相抵消,导致无法捕捉获利空间甚至导致损失,外推预测效果无法令人满意.因此,建立即能够处理非线性价格数据,又有良好泛化能力的预测模型势在必行.

——————————

参考文献:

〔1〕Zhang L I, Tao H W, Holt C E, et al. A critical window for cooperation and competition among developing retinotectal synapses[J]. Nature, 1998, 395(6697).

〔2〕37-44.欧阳楷,邹睿.基于生物的神经网络的理论框架——神经元模型[J].北京生物医学工程,1997,16(2):93-101.

〔3〕Rossi A F, Desimone R, Ungerleider L G. Contextual modulation in primary visual cortex of macaques[J]. the Journal of Neuroscience, 2001, 21(5): 1698-1709.

〔4〕Bengio Y. Learning deep architectures for AI[J]. Foundations and trends? in Machine Learning, 2009, 2(1):1-127.

〔5〕Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets[J]. Neural computation, 2006, 18(7): 1527-1554.

〔6〕Vincent P, Larochelle H, Bengio Y, et al. Extracting and composing robust features with denoising autoencoders[C]//Proceedings of the 25th international conference on Machine learning. ACM, 2008: 1096-1103.

〔7〕Lee H, Grosse R, Ranganath R, et al. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations[C]//Proceedings of the 26th Annual International Conference on Machine Learning. ACM, 2009: 609-616.

〔8〕Vincent P, Larochelle H, Lajoie I, et al. Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion[J]. The Journal of Machine Learning Research, 2010, 9999: 3371-3408.

〔9〕Olshausen B A, Field D J. Sparse coding with an overcomplete basis set: A strategy employed by V1?[J]. Vision research, 1997, 37(23): 3311-3325.

〔10〕Lee H, Battle A, Raina R, et al. Efficient sparse coding algorithms[J]. Advances in neural information processing systems, 2007, 19: 801.

〔11〕Lee H, Ekanadham C, Ng A Y. Sparse deep belief net model for visual area V2[C]//NIPS. 2007, 7: 873-880.

〔12〕Raina R, Battle A, Lee H, et al. Self-taught learning: transfer learning from unlabeled data[C]//Proceedings of the 24th international conference on Machine learning. ACM, 2007: 759-766.

〔13〕Lee H, Grosse R, Ranganath R, et al. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations[C]//Proceedings of the 26th Annual International Conference on Machine Learning. ACM, 2009: 609-616.

〔14〕Taylor G W, Hinton G E, Roweis S T. Modeling human motion using binary latent variables[J]. Advances in neural information processing systems, 2007, 19: 1345.

卷积神经网络优势范文3

【关键词】人脸识别;人脸检测;方法

Abstract:Face recognition system is one of the most popular current scientific research,In this paper,the process and prospects of face recognition system to do a simple review.The application of the system to do a simple analysis and the main method of face recognition for the corresponding category.For the future development of face recognition systems were mainly discussed.

Key words:Face Recognition;Face Detection;Methods

一、引言

随着科学技术的突飞猛进,计算机及网络的高速发展,信息的安全性、隐蔽性越来越重要,如何有效、方便的进行身份验证和识别,已经成为人们日益关心的问题。生物认证的方法,即利用人类自身的特征来进行身份认证,具有传统方法没有的有点,也解决了身份认证技术所面临的一大难题。其具有方便、强化安全、不会丢失、遗忘或转让等优点。现在人体生物识别技术的研究主要针对人脸、指纹、虹膜、手型、声音等物理或行为特征来进行。本文主要对人脸识别技术的介绍。

人脸识别是指给定一个静止或动态图像,利用已有的人脸数据库来确认图像中的一个或多个人。如同人的指纹一样,人脸也具有唯一性,也可用来鉴别一个人的身份。现在己有实用的计算机自动指纹识别系统面世,并在安检等部门得到应用,但还没有通用成熟的人脸自动识别系统出现。人脸图像的自动识别系统较之指纹识别系统、DNA鉴定等更具方便性,因为它取样方便,可以不接触目标就进行识别,从而开发研究的实际意义更大。另一方面,人脸表情的多样性;以及外在的成像过程中的光照,图像尺寸,旋转,姿势变化等给识别带来很大难度。因此在各种干扰条件下实现人脸图像的识别,也就更具有挑战性。

二、人脸识别系统流程

(1)人脸图像的获取:图像的获取都是通过摄像头摄取,但摄取的图像可以是真人,也可以是人脸的图片或者为了相对简单,可以不考虑通过摄像头来摄取头像,而是直接给定要识别的图像。

(2)人脸的检测:人脸检测的任务是判断静态图像中是否存在人脸。若存在人脸,给出其在图像中的坐标位置、人脸区域大小等信息。而人脸跟踪则需要进一步输出所检测到的人脸位置、大小等状态随时间的连续变化情况。

图1 人脸识别框架

(3)特征提取:通过人脸特征点的检测与标定可以确定人脸图像中显著特征点的位置(如眼睛、眉毛、鼻子、嘴巴等器官),同时还可以得到这些器官及其面部轮廓的形状信息的描述。根据人脸特征点检测与标定的结果,通过某些运算得到人脸特征的描述(这些特征包括:全局特征和局部特征,显式特征和统计特征等)。

(4)基于人脸图像比对的身份识别:即人脸识别问题。通过将输入人脸图像与人脸数据库中的所有已知原型人脸图像计算相似度并对其排序来给出输入人脸的身份信息。

(5)基于人脸图像比对的身份验证:即人脸确认问题。系统在输入人脸图像的同时输入一个用户宣称的该人脸的身份信息,系统要对该输入人脸图像的身份与宣称的身份是否相符作出判断。

三、人脸识别技术现状及发展前景

自1995年以来,国外一些公司看准了人脸识别系统广阔的应用前景,动用了大量人力和物力,自己独立研发或与高校合作,开发了多个实用的人脸识别系统,例如:加拿大Imagis公司的ID-2000面部识别软件,美国Identix公司1的FaceIt人脸识别系统,德国Human Scan公司的BioID身份识别系统,德国Cognitec Systems公司的Face VACS人脸识别系统等;美国A4vision公司的3D人脸识别产品;等等。

国内相关领域较为出名的公司有上海银晨智能识别科技有限公司(IS'vision),他们与中科院计算所联合开发了会议代表身份认证/识别系统、嫌疑人面像比对系统、面像识别考勤/门禁系统、出人口黑名单监控系统等多种自动人脸识别应用系统。2008年,北京奥运会开幕式正式使用了中国自主知识产权的人脸识别比对系统;2010年4月1日起,国际民航组织(ICAO)已确定其118个成员国家和地区必须使用机读护照,人脸识别技术是首推识别模式,该规定已经成为国际标准;2011年,Face book初次引入人脸识别技术,登陆人员可以免信息验证而激活页面;2012年3月6日,江苏省公安厅与南京理工大学日前签约共建“社会公共安全重点实验室”,开展“人脸识别”技术相关领域项目攻关。

到目前为止,虽然有关自动人脸识别的研究已经取得了一些可喜的成果,但在实际应用环境下仍面临着许多难以解决的问题:人脸的非刚体,表情、姿态、发型和化妆的多样性以及环境光照的复杂性都给正确的人脸识别带来了很大的困难。即使在大量来自模式识别、计算机视觉、生理学、心理学、神经认知科学等领域的研究人员对自动人脸识别艰苦工作40余年之后,其中不少问题至今仍然困绕着研究人员,始终找不到完善的解决办法。

在人脸识别市场,特别是在中国的市场,正经历着迅速的发展,而且发展的脚步也将越来越快。主要有三大原因:

1.是科技界和社会各个领域都认识到人脸识别技术的重要性,国家政策对人脸识别技术研究给予了很大支持,使得我国人脸识别技术取得了很大进展。国际上,美国国家标准技术局(NIST)举办的Face Recognition Vendor Test 2006(FRVT2006)通过大规模的人脸数据测试表明,当今世界上人脸识别方法的识别精度比2002年的FRVT2002至少提高了一个数量级(10倍)。其中一些方法的识别精度已经超过人类的平均水平。而对于高清晰、高质量人脸图像识别,机器的识别精度几乎达到100%。

2.各种应用需求不断出现。人脸识别市场的快速发展一方面归功于生物识别需求的多元化,另一方面则是由于人脸识别技术的进步。从需求上来说,除了传统的公司考勤、门禁等应用外,视频监控环境下的身份识别正成为一种迫切的需求,即在一个较复杂的场景中,在较远的距离上识别出特定人的身份,这显然是指纹识别的方法不能满足的,而人脸识别却是一个极佳的选择。

3.人口基数因素。人脸识别系统的市场大小,很大程度上是和人口的数量大小相关的。而我国有13亿人口,这从本质上说明了我国是世界上规模最大的生物识别市场。

四、常用的人脸识别方法

人脸识别技术和方法可分为两大类:基于几何特征的方法和基于模板匹配的方法。基于几何特征方法的思想是首先检测出嘴巴,鼻子,眼睛,眉毛等脸部主要部分的位置和大小,然后利用这些部件的总体几何分布关系以及相互之间的参数比例来识别人脸。基于模板的方法是利用模板和整个人脸图像的像素值之间的自相关性进行识别,这种方法也叫做基于表象的方法。

本文主要分析了常用的人脸识别方法为:几何特征的方法、模型的方法、神经网络的方法和多分类器集成方法。

1.几何特征的方法

最早的人脸识别方法就是Bledsoe提出的基于几何特征的方法,这种方法以面部特征点之间的距离和比率作为特征通过最近邻方法来识别人脸。该方法建立的人脸识别系统是一个半自动系统,其面部特征点必须由人手工定位,也正是由于人工的参与,该系统对光照变化和姿态变化不敏感。

Kanade首先计算眼角、鼻孔、嘴巴、下巴等面部特征之间的距离和它们之间的角度以及其它几何关系然后通过这些几何关系进行人脸的识别工作在一个20人的数据库上识别率为45%一75%。

Brunelli和Poggio通过计算鼻子的宽度和长度、嘴巴位置和下巴形状等进行识别,在一个47人的人脸库上的识别率为90%.然而,简单模板匹配方法在同一人脸库上的识别率为100%。

基于几何特征的方法比较直观,识别速度快,内存要求较少,提取的特征在一定程度上对光照变化不太敏感。但是,当人脸具有一定的表情或者姿态变化时,特征提取不精确,而且由于忽略了整个图像的很多细节信息且识别率较低,所以近年来已经很少有新的发展。

2.模型的方法

隐马尔可夫模型,是一种常用的模型,原HMM的方法首先被用于声音识别等身份识别上,之后被Nefian和Hayrs引人到人脸识别领域。它是用于描述信号统计特性的一组统计模型。

在人脸识别过程中,首先抽取人脸特征,得到后观察向量,构建HMM人脸模型,然后用EM算法训练利用该模型就可以算出每个待识别人脸观察向量的概率,从而完成识别,HMM方法的鲁棒性较好,对表情、姿态变化不太敏感,识别率高。

3.神经网络的方法

神经网络在人脸识别领域有很长的应用历史,1994年就出现了神经网络用于人脸处理的综述性文章。

动态链接结构(DLA)是用于人脸识别系统中最有影响的神经网络方法。DLA试图解决传统的神经网络中一些概念性问题,其中最突出的是网络中语法关系的表达。DLA利用突触的可塑性将神经元集合划分成若干个结构,同时保留了神经网络的优点。

自组织映射神经网络(SOM)与卷积神经网络相结合的混合神经网络方法进行人脸识别。SOM实现对图像的采样向量降维,且对图像样本的小幅度变形不敏感。卷积网络用来实现相邻像素间的相关性知识,在一定程度对图象的平移、旋转、尺度和局部变形也都不敏感。

神经网络方法较其他人脸识别方法有着特有的优势,通过对神经网络的训练可以获得其他方法难以实现的关于人脸图像的规则和特征的隐性表示,避免了复杂的特征抽取工作,并有利于硬件的实现。缺点主要在于其方法的可解释性较弱,且要求多张人脸图像作为训练集,所以只适合于小型人脸库。

4.多分类器集成方法

人脸的表象会因为光照方向、姿态、表情变化而产生较大的变化,每种特定的识别器只对其中一部分变化比较敏感,因此,将可以整合互补信息的多个分类器集成能够提高整个系统的分类准确率。

Gutta等人提出将集成的RBF与决策树结合起来进行人脸识别。结合了全局的模板匹配和离散特征的优点,在一个350人的人脸库上测试,取得了较好的实验结果。

五、总结及展望

随着图像处理、模式识别、人工智能以及生物心理学的研究进展,人脸识别技术也将会获得更大的发展。面对这种高新技术,人脸识别技术有着不可代替的优点。近几年对三维模型的人脸识别研究以成为一个热点。从二维模型到三维模型是一个阶跃性的发展,中间必须克服三维模型的开销大,所占空间大等因素。因此如何增强这类系统的保密性将是人脸识别系统要考虑的问题,它将是这种识别系统投入使用后人们最关心的问题,同时也是人脸识别领域需要研究的新课题。我们期待在不久的将来,人们将告别钥匙,迎来人脸开门的新时代。

参考文献

[1]李武军,王崇骏,张炜,等.人脸识别研究综述[J].模拟识别与人工智能,2006,19(1):58-65.

[2]李子青.人脸识别技术应用及市场分析[J].中国安防,2007,8:42-46.

[3]柴秀娟,山世光,卿来云,等.基于3D人脸重建的光照、姿态不变人脸识别[J] .软件学报,2006,17(3):525-534.

卷积神经网络优势范文4

    20世纪80年代以来,全球范围内移动无线通信得到了前所未有的发展,与第三代移动通信系统(3g)相比,未来移动通信系统的目标是,能在任何时间、任何地点、向任何人提供快速可靠的通信服务。因此,未来无线移动通信系统应具有高的数据传输速度、高的频谱利用率、低功耗、灵活的业务支撑能力等。但无线通信是基于电磁波在自由空间的传播来实现传输的。信号在无线信道中传输时,无线频率资源受限、传输衰减、多径传播引起的频域选择性衰落、多普勒频移引起的时间选择性衰落以及角度扩展引起的空间选择性衰落等都使得无线链路的传输性能差。和有线通信相比,无线通信主要由两个新的问题。一是通信行道经常是随时间变化的,二是多个用户之间常常存在干扰。无线通信技术还需要克服时变性和干扰。由于这个原因,无线通信中的信道建模以及调制编码方式都有所不同。

    1.无线数字通信中盲源分离技术分析

    盲源分离(bss:blind source separation),是信号处理中一个传统而又极具挑战性的问题,bss指仅从若干观测到的混合信号中恢复出无法直接观测的各个原始信号的过程,这里的“盲”,指源信号不可测,混合系统特性事先未知这两个方面。在研究和工程应用中,很多观测信号都可以看成是多个源信号的混合,所谓“鸡尾酒会”问题就是个典型的例子。其中独立分量分析ica(independent component analysis)是一种盲源信号分离方法,它已成为阵列信号处理和数据分析的有力工具,而bss比ica适用范围更宽。目前国内对盲信号分离问题的研究,在理论和应用方面取得了很大的进步,但是还有很多的问题有待进一步研究和解决。盲源分离是指在信号的理论模型和源信号无法精确获知的情况下,如何从混迭信号(观测信号)中分离出各源信号的过程。盲源分离和盲辨识是盲信号处理的两大类型。盲源分离的目的是求得源信号的最佳估计,盲辨识的目的是求得传输通道混合矩阵。盲源信号分离是一种功能强大的信号处理方法,在医学信号处理,阵列信号处理,语音信号识别,图像处理及移动通信等领域得到了广泛的应用。

    根据源信号在传输信道中的混合方式不同,盲源分离算法分为以下三种模型:线性瞬时混合模型、线性卷积混合模型以及非线性混合模型。

    1.1 线性瞬时混合盲源分离

    线性瞬时混合盲源分离技术是一项产生、研究最早,最为简单,理论较为完善,算法种类多的一种盲源分离技术,该技术的分离效果、分离性能会受到信噪比的影响。盲源分离理论是由鸡尾酒会效应而被人们提出的,鸡尾酒会效应指的是鸡尾酒会上,有声、谈话声、脚步 声、酒杯餐具的碰撞声等,当某人的注意集中于欣赏音乐或别人的谈话,对周围的嘈杂声音充耳不闻时,若在另一处有人提到他的名字,他会立即有所反应,或者朝 说话人望去,或者注意说话人下面说的话等。该效应实际上是听觉系统的一种适应能力。当盲源分离理论提出后很快就形成了线性瞬时混合模型。线性瞬时混合盲源分离技术是对线性无记忆系统的反应,它是将n个源信号在线性瞬时取值混合后,由多个传感器进行接收的分离模型。

    20世纪八、九十年代是盲源技术迅猛发展的时期,在1986年由法国和美国学者共同完了将两个相互独立的源信号进行混合后实现盲源分离的工作,这一工作的成功开启了盲源分离技术的发展和完善。在随后的数十年里对盲源技术的研究和创新不断加深,在基础理论的下不断有新的算法被提出和运用,但先前的算法不能够完成对两个以上源信号的分离;之后在1991年,法国学者首次将神经网络技术应用到盲源分离问题当中,为盲源分离提出了一个比较完整的框架。到了1995年在神经网络技术基础上盲源分离技术有了突破性的进展,一种最大化的随机梯度学习算法可以做到同时分辨出10人的语音,大大推动了盲源分离技术的发展进程。

    1.2 线性卷积混合盲源分离

    相比瞬时混合盲源分离模型来说,卷积混合盲源分离模型更加复杂。在线性瞬时混合盲源分离技术不断发展应用的同时,应用中也有无法准确估计源信号的问题出现。常见的是在通信系统中的问题,通信系统中由于移动客户在使用过程中具有移动性,移动用户周围散射体会发生相对运动,或是交通工具发生的运动都会使得源信号在通信环境中出现时间延迟的现象,同时还造成信号叠加,产生多径传输。正是因为这样问题的出现,使得观测信号成为源信号与系统冲激响应的卷积,所以研究学者将信道环境抽象成为线性卷积混合盲源分离模型。线性卷积混合盲源分离模型按照其信号处理空间域的不同可分为时域、频域和子空间方法。

    1.3 非线性混合盲源分离

    非线性混合盲源分离技术是盲源分离技术中发展、研究最晚的一项,许多理论和算法都还不算成熟和完善。在卫星移动通信系统中或是麦克风录音时,都会由于乘性噪声、放大器饱和等因素的影响造成非线性失真。为此,就要考虑非线性混合盲源分离模型。非线性混合模型按照混合形式的不同可分为交叉非线性混合、卷积后非线性混合和线性后非线性混合模型三种类型。在最近几年里非线性混合盲源分离技术受到社会各界的广泛关注,特别是后非线性混合模型。目前后非线性混合盲源分离算法中主要有参数化方法、非参数化方法、高斯化方法来抵消和补偿非线性特征。

    2.无线通信技术中的盲源分离技术

    在无线通信系统中通信信号的信号特性参数复杂多变,实现盲源分离算法主要要依据高阶累积量和峭度两类参数。如图一所示,这是几个常见的通信信号高阶累积量。

    在所有的通信系统中,接收设备处总是会出现白色或是有色的高斯噪声,以高阶累积量为准则的盲源分离技术在处理这一问题时稳定性较强,更重要的是对不可忽略的加性高斯白噪声分离算法同时适用。因此,由高阶累积量为准则的盲源分离算法在通信系统中优势明显。

    分离的另一个判据就是峭度,它是反映某个信号概率密度函数分布情况与高斯分布的偏离程度的函数。峭度是由信号的高阶累积量定义而来的,是度量信号概率密度分布非高斯性大小的量值。

卷积神经网络优势范文5

关键词人脸识别;特征提取

1人脸识别技术概述

近年来,随着计算机技术的迅速发展,人脸自动识别技术得到广泛研究与开发,人脸识别成为近30年里模式识别和图像处理中最热门的研究主题之一。人脸识别的目的是从人脸图像中抽取人的个性化特征,并以此来识别人的身份。一个简单的自动人脸识别系统,包括以下4个方面的内容:

(1)人脸检测(Detection):即从各种不同的场景中检测出人脸的存在并确定其位置。

(2)人脸的规范化(Normalization):校正人脸在尺度、光照和旋转等方面的变化。

(3)人脸表征(FaceRepresentation):采取某种方式表示检测出人脸和数据库中的已知人脸。

(4)人脸识别(Recognition):将待识别的人脸与数据库中的已知人脸比较,得出相关信息。

2人脸识别算法的框架

人脸识别算法描述属于典型的模式识别问题,主要有在线匹配和离线学习两个过程组成,如图1所示。

图1一般人脸识别算法框架

在人脸识别中,特征的分类能力、算法复杂度和可实现性是确定特征提取法需要考虑的因素。所提取特征对最终分类结果有着决定性的影响。分类器所能实现的分辨率上限就是各类特征间最大可区分度。因此,人脸识别的实现需要综合考虑特征选择、特征提取和分类器设计。

3人脸识别的发展历史及分类

人脸识别的研究已经有相当长的历史,它的发展大致可以分为四个阶段:

第一阶段:人类最早的研究工作至少可追朔到二十世纪五十年代在心理学方面的研究和六十年代在工程学方面的研究。

J.S.Bruner于1954年写下了关于心理学的Theperceptionofpeople,Bledsoe在1964年就工程学写了FacialRecognitionProjectReport,国外有许多学校在研究人脸识别技术[1],其中有从感知和心理学角度探索人类识别人脸机理的,如美国TexasatDallas大学的Abdi和Tool小组[2、3],由Stirling大学的Bruce教授和Glasgow大学的Burton教授合作领导的小组等[3];也有从视觉机理角度进行研究的,如英国的Graw小组[4、5]和荷兰Groningen大学的Petkov小组[6]等。

第二阶段:关于人脸的机器识别研究开始于二十世纪七十年代。

Allen和Parke为代表,主要研究人脸识别所需要的面部特征。研究者用计算机实现了较高质量的人脸灰度图模型。这一阶段工作的特点是识别过程全部依赖于操作人员,不是一种可以完成自动识别的系统。

第三阶段:人机交互式识别阶段。

Harmon和Lesk用几何特征参数来表示人脸正面图像。他们采用多维特征矢量表示人脸面部特征,并设计了基于这一特征表示法的识别系统。Kaya和Kobayashi则采用了统计识别方法,用欧氏距离来表征人脸特征。但这类方法需要利用操作员的某些先验知识,仍然摆脱不了人的干预。

第四阶段:20世纪90年代以来,随着高性能计算机的出现,人脸识别方法有了重大突破,才进入了真正的机器自动识别阶段。在用静态图像或视频图像做人脸识别的领域中,国际上形成了以下几类主要的人脸识别方法:

1)基于几何特征的人脸识别方法

基于几何特征的方法是早期的人脸识别方法之一[7]。常采用的几何特征有人脸的五官如眼睛、鼻子、嘴巴等的局部形状特征。脸型特征以及五官在脸上分布的几何特征。提取特征时往往要用到人脸结构的一些先验知识。识别所采用的几何特征是以人脸器官的形状和几何关系为基础的特征矢量,本质上是特征矢量之间的匹配,其分量通常包括人脸指定两点间的欧式距离、曲率、角度等。

基于几何特征的识别方法比较简单、容易理解,但没有形成统一的特征提取标准;从图像中抽取稳定的特征较困难,特别是特征受到遮挡时;对较大的表情变化或姿态变化的鲁棒性较差。

2)基于相关匹配的方法

基于相关匹配的方法包括模板匹配法和等强度线方法。

①模板匹配法:Poggio和Brunelli[10]专门比较了基于几何特征的人脸识别方法和基于模板匹配的人脸识别方法,并得出结论:基于几何特征的人脸识别方法具有识别速度快和内存要求小的优点,但在识别率上模板匹配要优于基于几何特征的识别方法。

②等强度线法:等强度线利用灰度图像的多级灰度值的等强度线作为特征进行两幅人脸图像的匹配识别。等强度曲线反映了人脸的凸凹信息。这些等强度线法必须在背景与头发均为黑色,表面光照均匀的前提下才能求出符合人脸真实形状的等强度线。

3)基于子空间方法

常用的线性子空间方法有:本征子空间、区别子空间、独立分量子空间等。此外,还有局部特征分析法、因子分析法等。这些方法也分别被扩展到混合线性子空间和非线性子空间。

Turk等[11]采用本征脸(Eigenfaces)方法实现人脸识别。由于每个本征矢量的图像形式类似于人脸,所以称本征脸。对原始图像和重构图像的差分图像再次进行K-L变换,得到二阶本征空间,又称二阶本征脸[12]。Pentland等[13]提出对于眼、鼻和嘴等特征分别建立一个本征子空间,并联合本征脸子空间的方法获得了好的识别结果。Shan等[14]采用特定人的本征空间法获得了好于本征脸方法的识别结果。Albert等[15]提出了TPCA(TopologicalPCA)方法,识别率有所提高。Penev等[16]提出的局部特征分析(LFALocalFeatureAnalysis)法的识别效果好于本征脸方法。当每个人有多个样本图像时,本征空间法没有考虑样本类别间的信息,因此,基于线性区别分析(LDALinearDiscriminantAnalysis),Belhumeur等[17]提出了Fisherfaces方法,获得了较好的识别结果。Bartlett等[18]采用独立分量分析(ICA,IndependentComponentAnalysis)的方法识别人脸,获得了比PCA方法更好的识别效果。

4)基于统计的识别方法

该类方法包括有:KL算法、奇异值分解(SVD)、隐马尔可夫(HMM)法。

①KL变换:将人脸图像按行(列)展开所形成的一个高维向量看作是一种随机向量,因此采用K-L变换获得其正交K-L基底,对应其中较大特征值基底具有与人脸相似的形状。国外,在用静态图像或视频图像做人脸识别的领域中,比较有影响的有MIT的Media实验室的Pentland小组,他们主要是用基于KL变换的本征空间的特征提取法,名为“本征脸(Eigenface)[19]。

②隐马尔可夫模型:剑桥大学的Samaria和Fallside[20]对多个样本图像的空间序列训练出一个HMM模型,它的参数就是特征值;基于人脸从上到下、从左到右的结构特征;Samatia等[21]首先将1-DHMM和2-DPseudoHMM用于人脸识别。Kohir等[22]采用低频DCT系数作为观察矢量获得了好的识别效果,如图2(a)所示。Eickeler等[23]采用2-DPseudoHMM识别DCT压缩的JPEG图像中的人脸图像;Nefian等采用嵌入式HMM识别人脸[24],如图2(b)所示。后来集成coupledHMM和HMM通过对超状态和各嵌入状态采用不同的模型构成混合系统结构[25]。

基于HMM的人脸识别方法具有以下优点:第一,能够允许人脸有表情变化,较大的头部转动;第二,扩容性好.即增加新样本不需要对所有的样本进行训练;第三,较高的识别率。

(a)(b)

图2(a)人脸图像的1-DHMM(b)嵌入式隐马尔科夫模型

5)基于神经网络的方法

Gutta等[26]提出了混合神经网络、Lawrence等[27]通过一个多级的SOM实现样本的聚类,将卷积神经网络CNN用于人脸识别、Lin等[28]采用基于概率决策的神经网络方法、Demers等[29]提出采用主元神经网络方法提取人脸图像特征,用自相关神经网络进一步压缩特征,最后采用一个MLP来实现人脸识别。Er等[30]采用PCA进行维数压缩,再用LDA抽取特征,然后基于RBF进行人脸识别。Haddadnia等[31]基于PZMI特征,并采用混合学习算法的RBF神经网络进行人脸识别。神经网络的优势是通过学习的过程获得对这些规律和规则的隐性表达,它的适应性较强。

6)弹性图匹配方法

Lades等提出采用动态链接结构(DLA,DynamicLinkArchitecture)[32]的方法识别人脸。它将人脸用格状的稀疏图如图3所示。

图3人脸识别的弹性匹配方法

图3中的节点用图像位置的Gabor小波分解得到的特征向量标记,图的边用连接节点的距离向量标记。Wiskott等人使用弹性图匹配方法,准确率达到97.3%。Wiskott等[33]将人脸特征上的一些点作为基准点,构成弹性图。采用每个基准点存储一串具有代表性的特征矢量,减少了系统的存储量。Wurtz等[34]只使用人脸ICI部的特征,进一步消除了结构中的冗余信息和背景信息,并使用一个多层的分级结构。Grudin等[35]也采用分级结构的弹性图,通过去除了一些冗余节点,形成稀疏的人脸描述结构。另一种方法是,Nastar等[36]提出将人脸图像I(x,y)表示为可变形的3D网格表(x,y,I(x,y)),将人脸匹配问题转换为曲面匹配问题,利用有限分析的方法进行曲面变形,根据两幅图像之间变形匹配的程度识别人脸。

7)几种混合方法的有效性

(1)K-L投影和奇异值分解(SVD)相融合的分类判别方法。

K-L变换的核心过程是计算特征值和特征向量。而图像的奇异值具有良好的稳定性,当图像有小的扰动时,奇异值的变化不大。奇异值表示了图像的代数特征,在某种程度上,SVD特征同时拥有代数与几何两方面的不变性。利用K-L投影后的主分量特征向量与SVD特征向量对人脸进行识别,提高识别的准确性[37]。

(2)HMM和奇异值分解相融合的分类判别方法。

采用奇异值分解方法进行特征提取,一般是把一幅图像(长为H)看成一个N×M的矩阵,求取其奇异值作为人脸识别的特征。在这里我们采用采样窗对同一幅图片进行重叠采样(如图4),对采样所得到的矩阵分别求其对应的前k个最大的奇异值,分别对每一组奇异值进行矢量标准化和矢量重新排序,把这些处理后的奇异值按采样顺序组成一组向量,这组向量是惟一的[38]。

图4采样窗采样

综合上述论文中的实验数据表明[39],如表1:

表1人脸识别算法比较

8)基于三维模型的方法

该类方法一般先在图像上检测出与通用模型顶点对应的特征点,然后根据特征点调节通用模型,最后通过纹理映射得到特定人脸的3D模型。Tibbalds[40]基于结构光源和立体视觉理论,通过摄像机获取立体图像,根据图像特征点之间匹配构造人脸的三维表面,如图5所示。

图5三维人脸表面模型图6合成的不同姿态和光照条件下二维人脸表面模型

Zhao[41]提出了一个新的SSFS(SymetricShape-from-Shading)理论来处理像人脸这类对称对象的识别问题,基于SSFS理论和一个一般的三维人脸模型来解决光照变化问题,通过基于SFS的视图合成技术解决人脸姿态问题,针对不同姿态和光照条件合成的三维人脸模型如图6所示。

三维图像有三种建模方法:基于图像特征的方法[42、43]、基于几何[44]、基于模型可变参数的方法[45]。其中,基于模型可变参数的方法与基于图像特征的方法的最大区别在于:后者在人脸姿态每变化一次后,需要重新搜索特征点的坐标,而前者只需调整3D变形模型的参数。三维重建的系统框图,如图7所示。

图7三维建模的系统框图

三维人脸建模、待识别人脸的姿态估计和识别匹配算法的选取是实现三维人脸识别的关键技术。随着采用三维图像识别人脸技术的发展,利用直线的三维图像信息进行人脸识别已经成为人们研究的重心。

4总结与展望

人脸自动识别技术已取得了巨大的成就,随着科技的发展,在实际应用中仍然面临困难,不仅要达到准确、快速的检测并分割出人脸部分,而且要有效的变化补偿、特征描述、准确的分类的效果,还需要注重和提高以下几个方面:

(1)人脸的局部和整体信息的相互结合能有效地描述人脸的特征,基于混合模型的方法值得进一步深入研究,以便能准确描述复杂的人脸模式分布。

(2)多特征融合和多分类器融合的方法也是改善识别性能的一个手段。

(3)由于人脸为非刚体性,人脸之间的相似性以及各种变化因素的影响,准确的人脸识别仍较困难。为了满足自动人脸识别技术具有实时要求,在必要时需要研究人脸与指纹、虹膜、语音等识别技术的融合方法。

(4)3D形变模型可以处理多种变化因素,具有很好的发展前景。已有研究也表明,对各种变化因素采用模拟或补偿的方法具有较好的效果。三维人脸识别算法的选取还处于探索阶段,需要在原有传统识别算法的基础上改进和创新。

(5)表面纹理识别算法是一种最新的算法[52],有待于我们继续学习和研究出更好的方法。

总之,人脸识别是极富挑战性的课题仅仅采用一种现有方法难以取得良好的识别效果,如何与其它技术相结合,如何提高识别率和识别速度、减少计算量、提高鲁棒性,如何采用嵌入式及硬件实现,如何实用化都是将来值得研究的。

参考文献

[1]O''''TooleAJ,AbdiH,DeffenbacherKA,etal.Alowdimensionalrepresentationoffacesinthehigherdimensionsofspace.[J].JournaloftheOpticalSocietyof2America,1993,10:405~411

[2]张翠萍,苏光大.人脸识别技术综述.中国图像图形学报,2000,5(11):885-894

[3]A.Samal,P.A.Iyengar.Automaticrecognitionandanalysisofhumanfacesandfacialexpressions:asurvey[J].PatternRecognition,1992,25(1):65-67

[4]TurkM,PentlandA.Eigenfacesforrecognition[J].JournalofCognitiveNeuroscience,1991,3(1):71~86

[5]BartlettMS,MovellanJR,SejnowskiTJ.FaceRecognitionbyIndependentComponentAnalysis[J].IEEETrans.onNeuralNetwork,2002,13(6):1450-1464

[6]ManjunathBS,ShekharCandChellappaR.Anewapproachtoimagefeaturedetectionwithapplication[J].Patt.Recog,1996,29(4):627-640

[7]ChengY.LiuK,YangJ,etal.Humanfacerecognitionmethodbasedonthestatisticalmodelofsmallsamplesize.SPIEProc,Intell.RobotsandComputerVisionX:AlgorithmsandTechn.1991,1606:85-95

[8]NefianAVEmbeddedBayesianNetworksforFaceRecognition[A].Proceedings.IEEEInternationalConferenceonMultimediaandExpo[C]2002,2:133-136

[9]GuttaS,WechslerH.FaceRecognitionUsingHybridClassifiers[J].PatternRecognition,1997,30(4):539-553

[10]HaddadniaJ,AhmadiM,FaezKAHybridLearningRBFNeuralNetworkforHumanFaceRecognitionwithPseudoZernikeMomentInvariant[A].Proceedingsofthe2002InternationalJointConferenceonNeuralNetworks[C].2002,1:11-16

[11]M.Lades,J.C.Vorbruggen,J.Buhmann,ect.Distortioninvariantobjectrecognitioninthedynamiclinkarchitecture.IEEETrans.onComputer,1993,42(3):300-311

[12]NastarC,MoghaddamBA.FlexibleImages:MatchingandRecognitionUsingLearnedDeformations[J].ComputerVisionandImageUnderstanding,1997,65(2):179-191

[13]羊牧.基于KL投影和奇异值分解相融合人脸识别方法的研究[D].四川大学.2004,5,1

[14]白冬辉.人脸识别技术的研究与应用[D].北方工业大学.2006,5

卷积神经网络优势范文6

关键词:语义标记;三维人脸;网格标记;随机森林;正方形切平面描述符

DOIDOI:10.11907/rjdk.171139

中图分类号:TP317.4

文献标识码:A 文章编号:1672-7800(2017)006-0189-05

0 引言

在计算机视觉与图像领域,对于二维图像人脸的研究(包括人脸识别、人脸检测、人脸特征点标记等)非常多,并且取得了很大进展。特别是近几年,随着深度学习算法的应用,对于二维人脸的研究有了极大突破[1]。然而,相对于二维人脸,人们对三维人脸研究较少。三维人脸的研究是以人脸的三维数据为基础,结合计算机视觉和计算机图形学,充分利用三维人脸的深度信息和其它几何信息,解决和克服现有二维人脸研究中面临的光照、姿态、表情等问题[3]。三维人脸模型标记与分割是将三维人脸网格模型上的顶点进行分类,将人脸划分为几个区域,例如眉毛、眼睛、鼻子、嘴等。对这些区域的标记与分割对三维人脸重建、特征点定位和表情动画等方面的研究都起着重要作用。三维人脸的研究是模式识别和图形学领域活跃且极具潜力的研究方向之一,在影视、游戏动画、人脸识别、虚拟现实、人机交互等方面都有着广泛应用[2-3]。

目前,许多对三维人脸方面的研究,包括三维人脸重建、识别与跟踪、姿态估计及特征点标记等,都是基于深度图的方法[4-7]。Fanelli等[6-8]提出一种方法,将从深度数据估算人脸姿态表达为一个回归问题(Regression Problem),然后利用随机森林算法解决该问题,完成一个简单深度特征映射到三维人脸特征点坐标、人脸旋转角度等实值参数的学习。通过训练数据集建立随机森林,该数据集包括通过渲染随机生成姿态的三维形变模型得到的5万张640*480深度图像。在实验部分,对Fanelli等提出的从深度图中提取特征的方法与本文的特征提取方法进行了对比。与文献[6]中的方法相比,Papazov[9]提出了一个更为复杂的三角形表面patch特征,该特征是从深度图重建成的三维点云中计算获得的,主要包括两部分:线下测试和线上测试。将三角形表面patch(TSP)描述符利用快速最近邻算法(FLANN)从训练数据中寻找最相似的表面patches。

在计算机图形学领域,网格理解在建立和处理三维模型中起着重要作用。为了有效地理解一个网格,网格标记是关键步骤,它用于鉴定网格上的每个三角形属于哪个部分,这在网格编辑、建模和变形方面都有着重要应用。Shapira等[10]利用形状直径函数作为分割三维模型的一个信号,通过对该信号的计算,定义一个上下文感知的距离测量,并且发现众多目标之间的部分相似性;随后,Sidi等[11]提出一个半监督的联合分割方法,利用一个预定义的特征集实现对目标的预先分割,然后将预先做好的分割嵌入到一个普通空间,通过使用扩散映射获得最终的对网格集的联合分割。网格标记的一个关键问题是建立强大的特征,从而提高各类网格模型标记结果的准确性,增加泛化能力。为了解决该问题,Kalogerakis等[12]提出采用一种基于条件随机场算法的方法来标记网格。通过对已标记的网格进行训练,成功地学习了不同类型的分割任务;Xie等[13]提出一种三维图形快速分割与标记的方法,用一系列特征描述法和极端学习器来训练一个网格标记分类的神经网络;Guo等[14]提出用深度卷积神经网络(CNNs)从一个大的联合几何特征中学习网格表示方式。这个大的联合几何特征首先被提取出来表示每个网格三角形,利用卷积神经网络的卷积特征,将这些特征描述符重新组织成二维特征矩阵,作为卷积神经网络的输入进行训练与学习。

本文提出一种新的几何特征描述符(正方形切平面描述符)来表示人脸模型上的顶点特征,利用随机森林算法对三维人脸模型顶点进行训练,实现对人脸模型上顶点的分类(属于鼻子或是眼睛区域等),从而实现三维人脸模型的区域标记。这种新描述符并非从深度图提取的简单矩形区域特征,而是直接从三维人脸模型计算获得,在人脸的姿势、尺寸、分辨率的改变上具有一定鲁棒性。因此,训练过程是在三维人脸模型上执行的,这种数据相对于真实的深度图数据更容易获取(例如在文献[6]中使用的训练数据)。

1 特征描述符与三维人脸区域分割

1.1 正方形切平面描述符

从一个三维人脸模型M的所有顶点上随机选取一个种子点P,根据三维人脸模型的几何结构,计算该种子点的法向量,此时根据一点和法向量即可确定一个切平面。确定正方形的边长L和正方形的方向。正方形的方向(正方形局部坐标系)是根据全局坐标系下建立的正方形,通过法向量转换而成。建立正方形局部坐标系,以便于计算三维人脸上的点到正方形的投影距离,减少程序运行时间,从而可以确定一个正方形切平面块S。在这种情况下,根据正方形切平面块S,可以计算出一个简单且具有鲁棒性的几何描述符V。将正方形边长分成K等份,正方形则细分为K2个小正方形,如图1(a)所示。模型M上的所有点向正方形切平面块上投影,如果投影点在正方形内,此点则肯定在K2个小正方形中的某一个正方形内,称该点属于该小正方形或者称小正方形包含该点。每个小正方形的描述符是其包含所有点投影距离的平均值。考虑到人脸模型的几何特征,有些人脸部分存在于正方形上面,有些部分则存在于正方形下面,因此每个点的投影距离有正负之分。整个正方形切平面块的描述符V是所有小正方形描述符的简单串联。在实验部分,本文将对边长L和划分的小正方形个数K2对分类的准确率进行对比研究。

使用每个小正方形包含所有点的平均投影距离作为描述符,使得该描述符对噪声、数据分解和分辨率上的变化具有鲁棒性,这在实验部分有所体现。许多三维几何特征已经在一些文章中被提出,包括Spin Images(SI)[15]、3D shape context (SC)[16]、 SHOT[17]和MeshHOG[18-19]。这些描述法都根据局部坐标系定义并且依赖于大量的平面法向量,使噪声数据对结果产生一定影响。和以上描述法相比,本文描述符取平均投影距离,并且正方形取的足够大,使描述法更加简单、有效且具有鲁棒性。除三维几何特征外,许多文章也对三维模型投影生成的深度图进行了特征选取和处理。例如,Fanelli等[6-8]在深度图中选取patch,然后在patch中随机选取两个矩形框F1、F2,如图2所示。以像素点的深度值和几何法向量的X、Y、Z值作为随机森林的4个特征通道,F1和F2中所有像素点某个特征通道平均值的差值作为随机森林每棵树节点的二元测试。二元测试定义为:

本文在实验部分对上述特征选取方式与本文提出的正方形描述符在三维人脸区域标记上的结果进行了比较。

1.2 数据库与人脸区域分割

训练阶段的正方形切平面描述符均取自于高分辨率的人脸网格模型,这些训练模型由Basel Face Model (BFM)[20]生成。BFM是一个公开、可获得的基于PCA的三维形变模型,由200个人脸对象的高分辨率三维扫描创建而成。通过从一个正态分布取样的PCA系数,BFM能被用来生成任意数量的随机网格人脸。此外,在所有生成的人脸网格模型上,对应顶点的索引都是一样的。例如,在所有训练模型上,在鼻尖的顶点有相同的索引数字,这将带来诸多便利。对于训练模型,只需在任意一个BFM人脸模型上进行一次人脸区域的手动标记,即可知道每个训练模型要分割的区域上各点的索引,如每个模型鼻子区域的所有顶点索引都是一样的。

对训练模型进行手动分割标记(只需分割标记一次),将一个三维人脸模型分割为10个区域:左眉毛、右眉毛、左眼睛、右眼睛、左脸颊、右脸颊、鼻子、上嘴唇、下嘴唇、下巴,剩下部分属于其它区域。如图3所示,对三维人脸模型进行区域分割,不同的分割区域用不同颜色进行标记,每个区域包含很多三维人脸模型顶点。由于很多三维人脸模型额头部分包含的顶点相对较少,特征信息也相对较少,所以将额头区域划分至其它区域。人脸模型的每个区域包含的所有顶点属于同一类,根据上述BFM数据库特点可知,数据库中任何一个人脸模型每个区域包含的所有顶点索引都是一致的。

2 随机森林算法分类标记人脸区域

2.1 随机森林算法

分类回归树[21]是一个强大的工具,能够映射复杂的输入空间到离散或者分段连续的输出空间。一棵树通过分裂原始问题到更简单、可解决的预测以实现高度非线性映射。树上的每一个节点包含一个测试,测试的结果指导数据样本将分到左子树或是右子树。在训练期间,这些测试被选择用来将训练数据分组,这些分组对应着实现很好预测的简单模型。这些模型是由训练时到达叶子节点的被标记的数据计算而来,并且存储于叶子节点。Breiman[22]指出虽然标准的决策树单独使用会产生过拟合,但许多随机被训练的树有很强的泛化能力。随机被训练树的随机性包括两方面,一是用来训练每棵树的训练样本是随机选取的,二是每棵树上的二元测试是从使每个节点最优的测试集中随机选取的。这些树的总和称为随机森林。本文将三维人脸模型区域的标记与分割描述为一个分类问题,并利用随机森林算法来有效地解决它。

2.2 训练

训练数据集是由BFM生成的50个三维人脸模型。从每个模型上随机取n=10 000个顶点样本,每个顶点对应一个正方形切平面块。本文实验中森林由100棵树建立而成,森林里每个树由随机选取的一系列块(patch){Pi=Vfi,θi}构建而成。Vfi是从每个样本提取的特征,即正方形切平面描述符,f是特征通道的个数,正方形划分为K2个小正方形,f=K2。实值θi是这个样本所属的类别,例如鼻子区域类别设为数字1,那么鼻子区域内的顶点样本所对应的θ=1。建立决策树时,在每个非叶子节点上随机生成一系列可能的二元测试,该二元测试定义为:

这里的Pi∈{L,R}是到达左子树或右子树节点上的样本集合,wi是到左子树或右子树节点的样本数目和到父节点样本数目的比例,例如:wi=|Pi||P|。

2.3 测试

通过BFM生成55个三维人脸模型,其中50个人脸模型作为训练数据,剩下5个人脸模型作为测试数据。测试数据依然取10 000个样本点,并且知道每个样本点属于哪一个区域,通过测试数据计算三维人脸模型网格点分类的准确率。为了测试提出方法的有效性,研究过程中从网上下载获取了其它三维人脸模型,对人脸模型上的所有网格点通过之前训练好的随机森林模型进行分类。因为其它人脸模型与BFM生成人脸模型的尺寸、坐标单位等不一致,所以本研究对这些测试模型进行了后期处理,对正方形的边长按照模型尺寸的比例M行选取。

3 实验

3.1 数据集与实验环境

本文三维人脸标记与分割所用的训练和测试三维人脸模型由BFM生成,50个模型作为训练数据,5个模型作为测试数据。每个模型包含53 490个顶点和106 466个三角形网格,每个训练模型选取10 000个顶点样本。用C++和OpenGL、OpenCV等库对三维人脸模型数据进行采样,得到每个样本的正方形切平面描述符。在Matlab平台下用随机森林算法对数据集进行训练和测试,并对实验结果进行可视化。

3.2 实验结果

利用已训练好的模型对测试数据集上三维人脸模型的所有顶点进行分类,计算顶点分类的准确率。准确率(Accuracy Rate)计算公式为:

准确率=预测正确的顶点个数(m)人脸模型上所有顶点个数(N)

根据文献[10]提出的类似描述符参数选取以及参数优化策略,经过多次实验,研究发现正方形边长L和正方形划分的小正方形数目K2两个参数的选取对顶点分类准确率有着一定影响。实验中选取参数L∈{60,80,100}、参数K2∈{9,16,25,36}进行对比,具体对比结果如表1、表2所示(其中表1中K2为16,表2中L为80mm)。

根据上面两个表格,可以明显得出,L=80mm,K2=25时顶点分类准确率最高。接下来对L=80mm,K2=25情况下的三维人脸模型区域进行标记,可视化结果如图4所示,上边是原始三维模型数据,下边是标记后的结果。(a)、(b)模型标记图是由BFM生成的三维人脸模型区域标记的结果,模型有53 490个顶点。为了验证本文方法的一般性和对分辨率具有不变性,(c)~(e)模型标记图是非BFM生成的其它三维人脸模型的标记结果,模型约有5 000个顶点。以上所有图都是对三维人脸模型所有顶点进行标记的结果。

文献[6]~[8]中提到的基于深度图的特征提取方法(见图1),同样利用随机森林算法进行了实验,并与本文的正方形特征描述符的实验结果进行了比较,如表3所示。将深度图投影到96*96大小,深度图patch所取边长c深度图大小的比例和正方形所取边长与模型大小的比例相等。

由表3可得,对三维人脸模型顶点级分类和区域标记问题,本文提出的特征描述符的标记结果优于深度图patch特征选取方法。此外,由于深度图的一些局限性,直接对三维模型处理要比对深度图处理更有优势。

3.3 结果讨论与分析

图4中5个模型顶点数目、三角形面数目和头部姿势都不一样,验证了本文所提方法对于姿势、模型尺寸和模型分辨率具有较好的鲁棒性。并且其对不同的眉毛、眼睛、脸颊区域也能进行很好的区分,将左右眉毛、左右眼睛和左右脸颊用同一颜色、不同符号进行显示。本文提出的描述符和直接对三维模型处理的方法,与在深度图上选取特征方法相比具有一定优势。由于手动分割人脸区域时,很难避免分割粗糙,区域交界处有的部分顶点没有包含进去,因此在区域交界处顶点的分类误差会相对略大,特别是嘴唇之间的部分。另外,三维人脸模型中额头和下巴的顶点和特征相对较少,所以相较于其它区域,这两个区域的顶点分类误差也会略大。

4 结语

本文提出一种基于正方形切平面描述符的三维人脸区域标记方法。将这种几何特征描述符作为选取样本的特征,通过随机森林算法,对三维人脸模型进行区域分类和标记。该方法可有效识别出三维人脸模型的眉毛、眼睛、鼻子、嘴巴和脸颊等区域,这对三维人脸特征点的定位及其它三维人脸方面的研究都具有重要意义。本文提出的方法对三维人脸模型头部姿态、模型尺寸、模型分辨率具有较好的鲁棒性。和基于深度图的方法相比,本文提出的方法具有更好的泛化能力,是一种行之有效的特征提取方法。

然而,手动分割人脸区域的做法在一定程度上略显粗糙,特征选取速度亦仍需优化。同时,本文仅对三维模型上所有顶点所属区域进行标记,没有将标记后的结果结合三维分割算法进行区域分割优化。如何对相关算法加以改进,将是下一步需要解决的问题。

参考文献:

[1]SUN Y, WANG X, TANG X. Deep convolutional network cascade for facial point detection[J]. Computer Vision & Pattern Recognition,2013,9(4):3476-3483.

[2]CAO C, WENG Y, LIN S, et al. 3D shape regression for real-time facial animation[J]. Acm Transactions on Graphics, 2013, 32(4):96-96.

[3]CAO C, HOU Q, ZHOU K. Displaced dynamic expression regression for real-time facial tracking and animation[J]. Acm Transactions on Graphics, 2014, 33(4):1-10.

[4]SEEMAN E, NICKEL K, STIEFELHAGEN R. Head pose estimation using stereo vision for human-robot interaction[C].ICAFGR, 2004 Sixth IEEE International Conference on Automatic Face and Gesture Recognition. IEEE, 2004: 626-631.

[5]BREITENSTEIN M D, KUETTEL D, WEISE T, et al. Real-time face pose estimation from single range images[C]. Proc.IEEE put.Vis.Pattern Recognit, 2008:1-8.

[6]FANELLI G, GALL J, GOOL L V. Real time head pose estimation with random regression forests[C]. IEEE Conference on Computer Vision & Pattern Recognition, 2011:617-624.

[7]FANELLI G, WEISE T, GALL J, et al. Real time head pose estimation from consumer depth cameras[C].Pattern Recognition Dagm Symposium, Frankfurt/main, Germany, 2011:101-110.

[8]FANELLI G, DANTONE M, GALL J, et al. Random forests for real time 3D face analysis[J]. International Journal of Computer Vision, 2013, 101(3):437-458.

[9]PAPAZOV C, MARKS T K, JONES M. Real-time 3D head pose and facial landmark estimation from depth images using triangular surface patch features[C].IEEE Conference on Computer Vision and Pattern Recognition. 2015:4722-4730.

[10]SHAPIRA L, SHALOM S, SHAMIR A, et al. Contextual part analogies in 3D objects[J]. International Journal of Computer Vision, 2010, 89(2):309-326.

[11]SIDI O, KAICK O V, KLEIMAN Y, et al. Unsupervised co-segmentation of a set of shapes via descriptor-space spectral clustering[C].SIGGRAPH Asia Conference. 2011.

[12]KALOGERAKIS E, HERTZMANN A, SINGH K. Learning 3D mesh segmentation and labeling[J]. Acm Transactions on Graphics, 2010, 29(4):157-166.

[13]XIE Z, XU K, LIU L, et al. 3D shape segmentation and labeling via extreme learning machine[J]. Computer Graphics Forum, 2014, 33(5):85-95.

[14]GUO K, ZOU D, CHEN X. 3D mesh labeling via deep convolutional neural networks[J]. Acm Transactions on Graphics, 2015, 35(1):1-12.

[15]JOHNSON A E, HEBERT M. Using spin images for efficient object recognition in cluttered 3d scenes[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 1999, 21(5):433-449.

[16]FROME A, HUBER D, KOLLURI R, et al. Recognizing objects in range data using regional point descriptors[J]. Lecture Notes in Computer Science, 2004.

[17]TOMBARI F, SALTI S, STEFANO L D. Unique signatures of histograms for local surface description[C].European Conference on Computer Vision Conference on Computer Vision. Springer-Verlag, 2010:356-369.

[18]ZAHARESCU A, BOYER E, VARANASI K, et al. Surface feature detection and description with applications to mesh matching[C]. IEEE Conference on Computer Vision & Pattern Recognition, 2009:373-380.

[19]ZAHARESCU A, BOYER E, HORAUD R. Keypoints and local descriptors of scalar functions on 2D manifolds[J]. International Journal of Computer Vision, 2012, 100(1):78-98.

[20]PAYSAN P, KNOTHE R, AMBERG B, et al. A 3D face model for pose and illumination invariant face recognition[C].IEEE International Conference on Advanced Video & Signal Based Surveillance. IEEE Computer Society, 2009:296-301.

[21]BREIMAN, LEO. Classification and regression trees[M].Classification and regression trees /. Chapman & Hall/CRC, 1984:17-23.

[22]MITCHELL. Machine learning[M]. McGraw-Hill, 2003.