卷积神经网络的特性范例6篇

前言:中文期刊网精心挑选了卷积神经网络的特性范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。

卷积神经网络的特性

卷积神经网络的特性范文1

【关键词】微表情识别 卷积神经网络 长短时记忆

1 引言

人们的内心想法通常都会表现在面部表情上,然而在一些极端环境下,人们为了压抑自己的真实内心情感时,他们的面部变化十分微小,我们通常称之为微表情。在刑侦、医学、教育、心理和国防等领域上,微表情的应用前景十分远大, 不过即便是经过训练的人也很难用肉眼来准确的检测和识别微表情。其主要原因就是它的持续时间短,仅为1/5~1/25s,而且动作幅度很小。

人脸表情识别技术早已发展到一定程度了,甚至不少研究团队提出的方法针对6种基本表情的识别率已经达到90%。然而微表情识别技术的研究在近几年来才刚刚开始,如Pfister等提出了一种结合时域插值模型和多核学习的方法来识别微表情; Wu等设计了一种使用Gabor特征和支持向量机的微表情识别系统;唐红梅等在LTP做出改进而提出的MG-LTP算法,然后采用极限学习机对微表情进行训练和分类;Wang等提出了基于判别式张量子空间分析的特征提取方法,并利用极限学习机训练和分类微表情。

上述的识别技术都是基于传统机器学习的方法,而近几年来,利用深度学习技术来解决图像识别问题是当前的研究热点。在ILSVRC-2012图像识别竞赛中,Krizhevsky等利用深度卷积神经网络的自适应特征提取方法,其性能远远超过使用人工提取特征的方法,并且在近几年内的ImageNet大规模视觉识别挑战比赛中连续刷新了世界纪录。

本文决定使用卷积神经网络(CNN)来提取人脸微表情特征,它能让机器自主地从样本数据中学习到表示这些微表情的本质特征,而这些特征更具有一般性。由于微表情的特性,要充分利用微表情的上下文信息才能更为精确的识别微表情,这里我们采用长短时记忆网络(LSTM),它是递归神经网络(RNN)中的一种变换形式,它能够充分的利用数据的上下文信息,在对序列的识别任务中表现优异,近几年来它被充分的利用到自然语言处理、语音识别机器翻译等领域。综上所述,本文提出一种CNN和LSTM结合的微表情识别方法。

2 相关工作

2.1 卷积神经网络模型

卷积神经网络模型(CNN)最早是由LeCun等在1990年首次提出,现已在图像识别领域取得巨大成功,它能够发现隐藏在图片中的特征,相比人工提取的特征更具有区分度,而且不需要对原始数据做过多的预处理。

卷积神经网络(CNN)通过三种方式来让网络所学习到的特征更具有鲁棒性:局部感受野、权值共享和降采样。局部感受野是指每一个卷积层的神经元只能和上一层的一部分神经元连接,而不是一般神经网络里所要求的全连接,这样每一个神经元能够感受到局部的视觉特征,然后在更高层将局部信息进行整合,进而得到整个图片的描述信息。权值共享是指每一个神经元和上一层的部分神经元所连接的每一条边的权值,和当前层其他神经元和上一层连接的每一条边的权值是一样的,首先@样减少了需要训练的参数个数,其次我们可以把这种模式作为提取整个图片特征的一种方式。降采样是指通过将一定范围内的像素点压缩为一个像素点,使图像缩放,减少特征的维度,通常在卷积层之后用来让各层所得到的特征具有平移、缩放不变形,从而使特征具有更强的泛化性。

2.2 长短时记忆型递归神经网络模型

长短时记忆(LSTM)模型是由Hochreiter提出,它解决了传统RNN在处理长序列数据时存在的梯度消失问题,这一切都要归结于LSTM结构的精心设计。一个常规的LSTM结构如图1所示。

每一个LSTM结构都有一个记忆单元Ct(t表示当前时刻),它保存着这个时刻LSTM结构的内部状态,同时里面还有三个门来控制整个结构的变化,它们分别是输入门(xt),忘记门(ft)和输出门(ht),它们的定义如下所示:

(1)

(2)

(3)

(4)

(5)

(6)

其中σ是一个sigmod函数,而则表示输入数据的非线性变化,W和b是模型需要训练得到的参数。等式5展示了当前的记忆单元是由忘记门和上一时刻的内部状态所控制的,ft决定了上一时刻的内部状态对当前时刻的内部状态的影响程度,而it则确定了输入数据的非线性变换得到的状态对当前时刻记忆单元的影响程度。等式6展示了输出门和当前时刻的内部状态决定了该LSTM的输出。正因为这个巧妙的设计,LSTM就能处理长序列的数据,并且能够从输入序列中获取时间上的关联性,这一特性对于微表情的识别尤为重要。

3 网络结构调优和改进

3.1 卷积神经网络设计

本文针对输入大小为96×96的灰度图,构建了4个卷积层(C1,C2,C3,C4),4个池化层(S1,S2,S3,S4),1个全连接层(FC1)和1个Softmax层组成的卷积神经网络结构,如图2所示。卷积核(C1,C2,C3,C4)的大小分别为3×3,3×3,5×5,5×5,分别有32,32,32,64个。池化层的降采样核大小均为2×2,并且全部采用的是最大采样,每一个池化层都在对应的卷积层之后,而在所有的卷积层之后,连接了一个包含256个神经元的全连接层,为了尽可能的避免过拟合问题,本文在全连接层后加入一个p=0.75的Dropout层,除了softmax层,其余层的激活函数全部是采用ReLU,CNN的参数训练都是采用随机梯度下降算法,每一批次包含100张图片,并设置冲量为0.9,学习速率为0.001。

3.2 长短时记忆型递归神经网络设计

尽管CNN已经从人脸微表情图片从学习到了特征,但是单一的CNN模型忽略了微表情在时域上的信息。于是我们提出通过LSTM来学习不同人脸表情在时域上的关联特征。我们构建了多个LSTM层,以及一个softmax层。

我们首先先训练好CNN的参数,然后把训练好的CNN模型,作为一个提取人脸微表情的工具,对于每一帧图片,我们把最后一个全连接层的256维的向量输出作为提取的特征。那么给定一个时间点t,我们取之前的W帧图片([t-W+1,t])。然后将这些图片传入到训练好的CNN模型中,然后提取出W帧图片的特征,如果某一个序列的特征数目不足,那么用0向量补全,每一个特征的维度为256,接着将这些图片的特征依次输入到LSTM的节点中去,只有t时刻,LSTM才会输出它的特征到softmax层。同样LSTM网络的参数训练还是采用随机梯度下降算法,每一批次为50个序列,冲量为0.85,学习速率为0.01。

4 实验

4.1 微表情数据集

该实验的训练数据和测试数据均来自于中国科学院心理研究所傅小兰团队的第2代改进数据库CASMEII。该数据库从26名受试者中捕捉到近3000个面部动作中选取的247个带有微表情的视频,并且给出了微表情的起始和结束时间以及表情标签,由于其中悲伤和害怕表情的数据量并不多,因此本文选取了里面的5类表情(高兴,恶心,惊讶,其他,中性),由于数据库中的图片尺寸不一样并且是彩色图片,因此先将图片进行灰度处理,并归一化到 大小作为网络的输入。本实验采用5折交叉验证的方法,选取245个微表情序列等分成5份,每个序列的图片有10张到70张不等,每份均包含5类表情。

4.2 CNN+LSTM和CNN的对比实验

从图2中可以看出不同策略在五类表情里的识别率。当我们采用单一的CNN模型来对人脸微表情进行分类时,我们采取了dropout策略和数据集扩增策略来防止CNN过拟合。CNN+D表示采取了dropout策略的CNN模型,CNN+A表示采取了数据扩增策略的CNN模型, 即对每一张图片进行了以下四种变换:旋转、水平平移、垂直平移、水平翻转。从而能将数据集扩增至4倍。CNN+AD表示采取了两种策略的CNN模型。CNN+LSTM表示结合了CNN和LSTM的网络模型。

从表1中我们可以看出,添加了策略的CNN,在人微表情识别上的表现要好于没有添加策略的CNN,这可能是因为训练图片较少,而CNN网络层次较深,导致没有添加策略的CNN在训练参数的过程中很容易就过拟合了。而对于CNN+LSTM的表现要好于单一的CNN模型,这说明LSTM的确能够充分利用时域上的特征信息,从而能够更好识别序列数据,这证明了CNN+LSTM的模型可以用于识别人脸微表情的可行性。从表1中,我们还可以看出高兴和惊讶的表情识别率较高,而其他的则相对较低,这可能是因为高兴和惊讶的区分度较大,并且样本较多。

4.3 LSTM的参数调整

下面我们逐一的研究不同参数对CNN+LSTM模型的微表情识别率的影响程度。

图4显示输入的序列个数为100左右能够拥有相对较高的准确率,这说明只有充分利用每一个微表情序列的时域信息,这样,训练出的模型才更加具有一般性。

图5显示出当LSTM隐层的神经元个数为128时,此时的微表情平均识别率最高,这说明隐层需要足够多的神经元才能保留更长的时域信息,对于微表情识别来说,能够拥有更高的精度。

图6显示了LSTM隐层的个数为5时,该模型拥有最好的识别率,这说明较深的LSTM网络才能充分挖掘特征的时域信息。因此经过以上实验,我们得到了一个由5层LSTM,每一层包含128个神经元,并能够处理长度为100的特征序列的模型。

4.4 和非深度学习算法的实验对比

为了比较传统机器学习算法和深度学习算法孰优孰劣,我们使用传统机器学习算法在Casme2进行了一样的实验,从表2中可以看出,本文所提出的CNN+LSTM模型相对于这些传统机器学习模型,有着较为优异的表现。

本文中的实验均是基于Google的开源机器学习库TensorFlow上进行的,硬件平台是dell工作站:Intel(R) Core(TM) i7-5820K CPU、主频3.3GHZ,内存64GB、Nvida GeForce GTX TITAN X GPU、显存12GB。

5 结束语

本文针对传统方法对微表情识别率低,图片预处理复杂的情况,提出了采用卷积神经网络和递归神经网络(LSTM)结合的方式,通过前面的卷积网络层来提取微表情的静态特征,省去了传统机器学习方法,需要人工提取特征的过程,简化了特征提取的工作。然后再通过后面的递归神经网路,充分利用表情特征序列的上下文信息,从而在序列数据中发现隐藏在其中的时域信息,从实验结果中可以看出,利用了时域信息的CNN+LSTM比单纯使用CNN的识别率更高,而且相对于传统机器学习方法也更为优秀。但是当数据量越大时,如果网络的层次比较深的话,模型的训练时间就会很长,并且极度依赖硬件设备,这算是深度学习通有的弊病。为了进一步投入到应用中去,接下来还得提高微表情的识别率,以及在实时环境下,如何能够动态和准确的识别微表情,这些都将会是以后研究的重点。

参考文献

[1]PORTER S,TEN BRINKE L.Reading between the Lies Identifying Concealed and Falsified Emotions in Universal Facial Expressions[J].Psychological Science,2008,19(05):508-514.

[2]Pfister T,Li X,Zhao G,Pietikainen M (2011) Recognising spontaneous facial micro-expressions.2011 Proc IEEE Int Conf Comput Vis (ICCV): IEEE.pp.1449-1456.

[3]Wu Q,Shen X,Fu X (2011) The Machine Knows What You Are Hiding: An Automatic Micro-expression Recognition System.In: D’Mello S,Graesser A,Schuller B,Martin J-C,editors.Affect Comput Intell Interact.Springer Berlin/ Heidelberg. pp.152-162.

[4]唐红梅,石京力,郭迎春,韩力英,王霞. 基于MG-LTP与ELM的微表情识别[J].电视技术,2015,39(03):123-126.

[5]WANG S J,CHEN H L,YAN W J,et al. Face Recognition and Micro-Expression Recognition Based on Discriminant Tensor Subspace Analysis Plus Extreme Learning Machine[J].Neural Processing Letters,2014,39(01):25-43.

[6]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks. In:Advances in Neural Information Processing Systems 25.Lake Tahoe, Nevada,USA:Curran Associates,Inc., 2012.1097?1105

[7]DENG J,DONG W,SOCHER R,et al.Imagenet:A large-scale hierarchical image database [C]//IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE,2009:248-255.

[8]BENGIO Y,DELALLEAU O.On the expressive power of deep archi-tectures[C]//Proc of the 14th International Conference on Discovery Science.Berlin:Springer-Verlag,2011:18-36.

[9]LeCun Y,Boser B,Denker J S,Howard R E,Hubbard W,Jackel L D,Henderson D.Handwritten digit recogni- tion with a back-propagation network. In: Proceedings of Advances in Neural Information Processing Systems 2. San Francisco,CA,USA:Morgan Kaufmann Publishers Inc.,1990.396-404.

[10]S可.卷积神经网络在图像识别上的应用研究[D].杭州:浙江大学[学位论文],2012.

[11]Hochreiter S,Sehmidhuber J.Long Short-Term Memory.Neural Computation,1997,9(08):1735-1780

[12]LUCEY P,COHN J F,KANADE T,et al.The Extended Cohn-Kanade Dataset ( CK + ): A complete dataset for ac- tion unit and emotion-specified expression [C] //IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops (CVPRW).New York:IEEE,2010:94-101.

[13]Dayan P,Abott L F.Theoretical Neuroscience.Cambridge:MIT Press, 2001.

[14]YAN W J, LI X, WANG S J, et al. CASME II: An Improved Spontaneous Micro-Expression Database and the Baseline Evaluation [J].Plos One, 2014,9(01):1-8.

[15]Yandan Wang,John See,Raphael C-W Phan,Yee-Hui Oh. Efficient Spatio-Temporal Local Binary Patterns for Spontaneous Facial Micro-Expression Recognition[J].PLOS ONE,2013,10(05): 11-12

[16]张轩阁,田彦涛,郭艳君,王美茜.基于光流与LBP-TOP特征结合的微表情识别[J].吉林大学学报:信息科学版, 2015,33(05):521-522.

[17]Martín Abadi, Paul BarhamJianmin, Chen el.TensorFlow:Large-Scale Machine Learning on Heterogeneous Distributed Systems[EB/OL].https:///abs/1605.08695.

卷积神经网络的特性范文2

(广东外语外贸大学 金融学院,广东 广州 510006)

摘 要:作为一个具有巨大应用前景研究方向,深度学习无论是在算法研究,还是在实际应用(如语音识别,自然语言处理、计算机视觉)中都表现出其强大的潜力和功能.本文主要介绍这种深度学习算法,并介绍其在金融领域的领用.

关键词 :深度学习;受限波兹曼机;堆栈自编码神经网络;稀疏编码;特征学习

中图分类号:TP181 文献标识码:A 文章编号:1673-260X(2015)01-0037-03

1 深度学习的研究意义

深度学习是一类新兴的多层神经网络学习算法,因其缓解了传统训练算法的局部最小性,引起机器学习领域的广泛关注.深度学习的特点是,通过一系列逻辑回归的堆栈作为运算单元,对低层数据特征进行无监督的再表示(该过程称为预学习),形成更加抽象的高层表示(属性类别或特征),以发现数据的分布式特征表示.深度学习的这种特性由于与脑神经科学理论相一致,因此被广泛应用于语音识别、自然语言处理和计算机视觉等领域.

生物学研究表明[1]:在生物神经元突触的输出变化与输入脉冲的持续时间有关,即依赖于持续一定时间的输入过程,输出信号既依赖于输入信号的空间效应和阈值作用,也依赖于时间总和效应.

传统的深度学习方法虽然较好地模拟了生物神经元的一个重要特性——空间总和效应上的深度,却忽视了生物神经元的另一个重要特性——时间总和效应上的宽度[2].因此,对于连续的时间变量问题(如语音识别),传统深度学习方法只能将连续的时间函数关系转化为空间关系,即离散化为时间序列进行处理.这样做有几个弊端:

(1)可能造成深度学习算法对时间采样频率的十分敏感,鲁棒性较差.这使得,不同时间尺度下,需要使用不同的数据和算法.这无疑是十分不方便的;

(2)导致深度网络规模过大,使得计算开销增大、学习效果变差、泛化性能降低;

(3)难以满足实际应用对算法的实时性的要求,更难以体现连续输入信息的累积效应,大大降低深度学习算法的实用性.

因此,对传统的深度学习算法进行改进,使其不但具有“深度”,亦能具有“宽度”,能够对连续时变数据进行更好的特征提取、提高算法效率和实用性,显得势在必行.基于这个切入点,本项目借鉴时频分析与小波分析中的方法,结合数学分析领域中的泛函分析技术,与堆栈自编码神经网络相结合,提出一种新的深度学习算法——深度泛函网络.为了验证算法的有效性及优越性,本项目将把新算法应用于金融时间序列的领域.

在目前国内外对于深度学习的研究中,几乎没有任何将深度学习技术运用于金融数据的研究.通过提出并运用得当的深度序列学习方法,我们期望从金融数据中抽取更高级的、具有经济学意义或预测性意义的高级特征(与人工设计的“技术指标”相对应),并开发相应的量化交易策略,并与其它传统算法进行对比,以说明所提算法的可行性和优越性.

2 国内外研究现状

人类感知系统具有的层次结构,能够提取高级感官特征来识别物体(声音),因而大大降低了视觉系统处理的数据量,并保留了物体有用的结构信息.对于要提取具有潜在复杂结构规则的自然图像、视频、语音和音乐等结构丰富数据,人脑独有的结构能够获取其本质特征[3].受大脑结构分层次启发,神经网络研究人员一直致力于多层神经网络的研究.训练多层网络的算法以BP算法为代表,其由于局部极值、权重衰减等问题,对于多于2个隐含层的网络的训练就已较为困难[4],这使得实际应用中多以使用单隐含层神经网络居多.

该问题由Hinton[5]所引入的逐层无监督训练方法所解决.具体地,该法对深度神经网络中的每一层贪婪地分别进行训练:当前一层被训练完毕后,下一层网络的权值通过对该层的输入(即前一层的输出)进行编码(Encoding,详见下文)而得到.当所有隐含层都训练完毕后,最后将使用有监督的方法对整个神经网络的权值再进行精确微调.在Hinton的原始论文中,逐层贪婪训练是通过受限波兹曼机(Restricted Boltzmann Machine,RBM)以及相对应的对比散度方法(Contrastive Divergence)完成的.与通常的神经元不同,RBM是一种概率生成模型,通常被设计为具有二元输入-输出(称为Bernoulli-Bernoulli RBM).通过对每一层的受限波兹曼机进行自底向上的堆栈(如图1),可以得到深度信念网(Deep Belief Network,DBN).

除了生成式的RBM,还有其他的深度学习结构被广泛使用和研究.如堆栈自编码神经网络(Stacked Auto-Encoder Network,SAEN)[6],以及深度卷积神经网络(Deep Convolutional Network)[7]等.前者的优势在于可以简单地采用通常的BP算法进行逐层预训练,并且引入随机化过程的抗噪声自编码网络(Denoising SAEN)泛化性能甚至超过DBN[8];而后者则通过权值共享结构减少了权值的数量,使图像可以直接作为输入,对平移、伸缩、倾斜等的变形具有高度不变性,因此在图像识别领域有着广泛应用.

近年来,稀疏编码(Sparse Encoding)和特征学习(Feature Learning)成为了深度学习领域较为热门的研究方向.B.A.Olshausen[9]等针对人脑的视觉感知特性,提出稀疏编码的概念.稀疏编码算法是一种无监督学习方法,它用来寻找一组“过完备”的基向量来更高效地表示输入数据的特征,更有效地挖掘隐含在输入数据内部的特征与模式.针对稀疏编码的求解问题,H.Lee等在2007年提出了一种高效的求解算法[10],该算法通过迭代地求解两个不同的凸规划问题以提高效率.同年,H.Lee等发现,当训练样本为图像时,对DBN的训练进行稀疏性的约束有利于算法学习到更高级的特征[11].例如,对手写识别数据集进行训练时,稀疏性约束下的DBN算法自主学习到了“笔画”的概念.

基于[10,11]的研究成果,R.Raina等[12]提出了“自导师学习(Self-Taught Learning)”的概念.与无监督学习(Unsupervised Learning)和半监督学习(Semi-supervised Learning)不同,自导师学习利用大量易获得的无标签数据(可以来自不同类别甚至是未知类别),通过稀疏编码算法来构建特征的高级结构,并通过支持向量机(Support Vector Machine,SVM)作为最终层分类器对少数有标签数据进行分类.这种更接近人类学习方式的模式极大提高了有标签数据的分类准确度.与之类似,H.Lee,R.Grosse等[13]提出了一种具有层次结构的特征学习算法.该算法将卷积神经网络与DBN结合,并通过稀疏正则化(Sparsity Regularization)的手段无监督地学习层次化的特征表征.图像识别实验表明,该算法能够自主学习得出“物体(Object Parts)”的概念,较好体现了人脑视觉感知的层次性和抽象性.

3 发展趋势

由于信号处理、语音识别、金融时间序列分析、视频分析等领域的实时应用需求,研究能够处理连续时变变量、自然体现时间联系结构的深度学习算法(即深度序列学习,Deep Sequence Learning)成为了新的研究热点.G.W.Taylor,G.E.Hinton等[14]提出时间受限波兹曼机(Temporal RBM,TRBM).该模型使用二值隐含元和实值可视元,并且其隐含元和可视元可以与过去一段历史的可视元之间可以有向地被相连.同时,该模型被用于人类动作识别,并展现出了优秀的性能.针对TRBM的一些不足,一些改进算法也不断涌现,如[15,16].然而,该类深度学习模型虽然考虑了动态的时间变量之间的联系,但依然只能处理离散时间问题,本质上还是属于转化为空间变量的化归法.同时,在自编码网络框架下,依然缺乏较好解决时间过程(序列)问题的方案.

4 金融时序数据中的应用

传统金融理论认为,金融市场中的证券价格满足伊藤过程,投资者无法通过对历史数据的分析获得超额利润.然而,大量实证研究却表明,中国股票价格波动具有长期记忆性,拒绝随机性假设,在各种时间尺度上都存在的可以预测的空间.因此,如何建立预测模型,对于揭示金融市场的内在规律,这无论是对于理论研究,还是对于国家的经济发展和广大投资者,都具有重要的意义.

股票市场是一个高度复杂的非线性系统,其变化既有内在的规律性,同时也受到市场,宏观经济环境,以及非经济原因等诸多因素的影响.目前国内外对证券价格进行预测的模型大致分为两类:一是以时间序列为代表的统计预测模型;该类方法具有坚实的统计学基础,但由于金融价格数据存在高噪声、波动大、高度非线性等特征,使得该类传统方法无法提供有效的工具.另一类是以神经网络、支持向量机等模型为代表的数据挖掘模型.该类模型能够处理高度非线性的数据,基本上从拟合的角度建模.虽然拟合精度较高,但拟合精度的微小误差往往和市场波动互相抵消,导致无法捕捉获利空间甚至导致损失,外推预测效果无法令人满意.因此,建立即能够处理非线性价格数据,又有良好泛化能力的预测模型势在必行.

——————————

参考文献:

〔1〕Zhang L I, Tao H W, Holt C E, et al. A critical window for cooperation and competition among developing retinotectal synapses[J]. Nature, 1998, 395(6697).

〔2〕37-44.欧阳楷,邹睿.基于生物的神经网络的理论框架——神经元模型[J].北京生物医学工程,1997,16(2):93-101.

〔3〕Rossi A F, Desimone R, Ungerleider L G. Contextual modulation in primary visual cortex of macaques[J]. the Journal of Neuroscience, 2001, 21(5): 1698-1709.

〔4〕Bengio Y. Learning deep architectures for AI[J]. Foundations and trends? in Machine Learning, 2009, 2(1):1-127.

〔5〕Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets[J]. Neural computation, 2006, 18(7): 1527-1554.

〔6〕Vincent P, Larochelle H, Bengio Y, et al. Extracting and composing robust features with denoising autoencoders[C]//Proceedings of the 25th international conference on Machine learning. ACM, 2008: 1096-1103.

〔7〕Lee H, Grosse R, Ranganath R, et al. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations[C]//Proceedings of the 26th Annual International Conference on Machine Learning. ACM, 2009: 609-616.

〔8〕Vincent P, Larochelle H, Lajoie I, et al. Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion[J]. The Journal of Machine Learning Research, 2010, 9999: 3371-3408.

〔9〕Olshausen B A, Field D J. Sparse coding with an overcomplete basis set: A strategy employed by V1?[J]. Vision research, 1997, 37(23): 3311-3325.

〔10〕Lee H, Battle A, Raina R, et al. Efficient sparse coding algorithms[J]. Advances in neural information processing systems, 2007, 19: 801.

〔11〕Lee H, Ekanadham C, Ng A Y. Sparse deep belief net model for visual area V2[C]//NIPS. 2007, 7: 873-880.

〔12〕Raina R, Battle A, Lee H, et al. Self-taught learning: transfer learning from unlabeled data[C]//Proceedings of the 24th international conference on Machine learning. ACM, 2007: 759-766.

〔13〕Lee H, Grosse R, Ranganath R, et al. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations[C]//Proceedings of the 26th Annual International Conference on Machine Learning. ACM, 2009: 609-616.

〔14〕Taylor G W, Hinton G E, Roweis S T. Modeling human motion using binary latent variables[J]. Advances in neural information processing systems, 2007, 19: 1345.

卷积神经网络的特性范文3

基金项目:甘肃省自然科学基金资助项目(1014RJZA009);甘肃省教育厅硕士生导师基金资助项目(0803-07)。

作者简介:王燕(1971-),女,甘肃兰州人,副教授,硕士,主要研究方向:模式识别、图像处理、智能信息处理; 公维军(1987-),男,甘肃张掖人,硕士研究生,主要研究方向:模式识别。

文章编号:1001-9081(2011)07-1822-03doi:10.3724/SP.J.1087.2011.01822

(兰州理工大学 计算机与通信学院, 兰州 730050)

()

摘 要:提出了一种基于双阈值的两级级联分类器的人脸检测加速方法。该方法首先应用Gabor滤波器提取经模板匹配保留的似人脸样本特征,经主成分分析(PCA)降维后的特征作为第一级BP神经网络输入进行检测,在输出端应用双阈值对人脸/非人脸进行粗检测,然后把介于双阈值之间的人脸/非人脸模块作为第二级AdaBoost算法设计的输入并再次进行精检测,从而在提高检测速度的同时达到提高检测率和降低误检率的目的。实验表明,应用双阈值进行级联分类加速检测后,该方法的检测精度要优于基于简单阈值的分类器。

关键词:人脸检测;双阈值;分类器;级联;加速

中图分类号:TP391.4文献标志码:A

Accelerated algorithm of face detection based on

dual-threshold cascade classifiers

WANG Yan,GONG Wei-jun

(School of Computer and Communication, Lanzhou University of Technology, Lanzhou Gansu 730050, China)

Abstract: The paper proposed an accelerating way of face detection based on dual-threshold cascade classifiers. First, it applied Gabor filter to extract the face-like features that were retained by template matching, then put eigenvectors extracted by the way of Principal Component Analysis (PCA) into the BP neural network as first classifier, then used dual-threshold to decide face or non-face on output end, and put the face or non-face of midway between up and down threshold into the AdaBoost classifier as the second classifier to decide. In this way, it can improve the detection rate and reduce the false rate while speeding up the detection speed. The experimental results prove that the precision of cascade classifier of face detection based on dual-threshold is superior to the classifier of single threshold.

Key words: face detection; dual-threshold; classifier; cascade; acceleration

0 引言

人脸作为人类视觉中常见而复杂的模式,它所表现的信息在人与人的交流及人机交互领域都有着重要的意义。对人脸进行检测在安保视频监控,目标身份检测、门禁系统、智能人机接口和侦查犯罪等诸多领域都有着广泛的应用背景。人脸检测可描述为对一幅给定的图像(静态或者视频),采用一定的方法和策略对其进行搜索以确定其中是否含有人脸以及人脸在图像中出现的位置。

人脸是一类非刚性的自然形体,虽然具有很强的共性,但由于个体表情、光照、遮掩以及成像角度等因素的影响,使得人脸具有比较复杂而细致的模式变化。如果能够很好地提取关键特征及设计良好的分类器,将为解决后续跟踪识别及相似的复杂模式检测问题提供有益的指导,所以人脸检测是当前模式识别领域的一个热点研究课题。

之前不少学者提出了各种综合算法以及一些改进算法,Rowley等人[1]提出了使用神经网络算法设计的人脸检测模型,Viola等人[2]等人提出了用简单特征训练级联人脸检测器的AdaBoost方法,这之后又有学者在此基础上提出了改进算法,如Lienhart等人提出的扩展特征的旋转人脸检测[3]、支持向量机[4]等。还有学者提出各种模型算法,如肤色模型的人脸检测[5-6]等。上述基于单一分类器的人脸检测在一定程度上提高了检测精度,但是由于自身特点的局限性,并且分类阈值的单一性等造成了进一步提升精度和降低报警率的困难。本文通过级联分类这种粗细检测的原则,提出了一种基于双阈值的级联分类器的加速人脸检测方法。与以往级联的方法不同,本方法结合基于知识与统计的方法[7],先应用模板匹配将大量背景去除,只将其中很少的似人脸送入第一级BP神经网络构成的分类器进行双阈值初检,将介于上下阈值的人脸/非人脸送入应用Haar特征的AdaBoost算法的第二级分类器进行精确判别。实验证明该方法能够有效提高检测率,降低误检率并提高检测速度。

1 两级分类器的构建

1.1 基于Gabor小波的BP神经网络分类器

1.1.1 Gabor小波特征提取

Gabor小波变换(加窗傅里叶变换)由于其小波核函数具有和人脑大脑皮层简单细胞的二维反射区相类似的特性,使其在空间频率、方向选择及空间位置的局部信息上有着良好的采集和分辨能力,因此在以生物学和视觉特性为背景的图像学和人脸检测等多方面得到了广泛的应用。

二维Gabor滤波器函数形式为:

Gj(w)exp(-)[exp(ikjw)-exp(-)](1)

其中:kj,φuu・,w(x,y);δ为高斯窗口的尺度因子,控制滤波器的带宽和尺度;φu与ωv控制滤波器的调制方向和频率。只要选择合适的δ、φu和ωv,就可以使Gabor小波滤波器构成Gabor滤波器组来一同作用于图像,从而实现目标图像的Gabor小波分解,得到我们所要的特征。在本文中通过检测窗口与Gabor滤波器组卷积即可得到我们所要提取的特征。

1.1.2 BP神经网络

BP神经网络是一种基于误差修正学习规则的网络,它实现一种由输入到输出的非线性空间的一种映射,它的模型一般由输入层、隐层、输出层组成,隐层可以由一层或多层组成。该算法学习的目的是对网络的连接权值进行调整,使得对任意输入都能得到所谓期望的输出[8],它采用了优化的梯度下降算法,直到调整的误差满足需求为止。

1.2 基于AdaBoost算法的人脸检测分类器

1.2.1 Haar特征模板和积分图像

应用AdaBoost学习算法的特征级联人脸检测方法是由Viola和Jones提出来的,该方法采用一种“积分图像”的表示方法,能快速从人脸中计算出所用到的人脸特征。

Haar型特征是Viola等人提出的一种简单的矩形矩阵。Haar型特征的值是指图像上两个或者多个形状大小相同的矩形内部所有像素灰度值之和的差值。这些以图像灰度值为自变量的矩形特征在边缘检测方面有着很好的表现能力,对人脸脸部的各种特征有很好的提取和编码能力,检测速度很快。

Haar型特征的计算是通过引入积分图像实现的,见图1。对于一个灰度图像I,它的积分图像i的定义为图像中(x,y)点左上部分所有像素点的累加:

I(x,y)∑x′≤x,y′≤yi(x′,y′)(2)

图1 积分图像

这时,1、2、3、4的积分图的值分别为A、A+B、A+C、A+B+C+D,D点的矩形特征可以通过4+1-(2+3)计算得出,这样,只要对图像遍历一次,就可以得到积分图,就可以在恒定的时间内得到任意尺度下的图像的特征。

1.2.2 AdaBoost学习算法

AdaBoost学习算法选择少量而又非常重要的矩形特征来构造一系列弱分类器,然后将这些弱分类器级联起来构成一个强分类器。算法通过选择最能区分正负样本的矩形特征。对于每一个特征,弱分类器给定一个最优的分类函数的阈值,使得最少的样本被错误分类。一个弱分类器hj(x)包含矩形特征fj,阈值θj和用于控制不等式方向的pj:

hj(x)1, pjfj(x)≤pjθj

0, 其他 (3)

具体学习算法如下:

设(X1,Y1)、(X2,Y2)、…、(Xn,Yn)为具体输入的图像,用Yj0,1来标记正负样本,T为循环次数。

1)初始化权值w1,对正样本(Yj1)和负样本(Yj0)有I1/(2m),1/(2n)。

2)当t1,2,…,T时:

①标准化权值,wt,i

②对每一个特征j,训练相应的分类器hj使该分类器对该特征进行分类,误差为εj∑Tt1wt|hj(x)-yi|。

③选择最小误差分类的分类器。

④更新权值wt+1,twt,jβ1-eit,若Xi被正确地分类,则ei0;反之,ei1,βt(1-ei)/t。

⑤最终的强分类器为:

h(x)1, ∑Tt1αtht(x)≥∑Tt1αt

0, 其他 (4)

其中αtlb (1/βt)。

2 基于双阈值的级联分类器的加速算法

2.1 系统构造框架

为了解决基于传统的检测方法中无论是单分类器还是级联分类器均由单一阈值造成漏检与误检之间的矛盾,本文在兼顾速度的同时通过利用双阈值设置检测缓冲区,达到提高检测率与降低误检率和漏检率的目的。具体流程如图2所示。

图2 人脸检测系统框架

2.2 样本选取和图像预处理

该系统所用的人脸训练样本来自MIT、ORL训练图库。为了便于训练,统一将其裁剪为21×18的样本图像进行相应的分类器训练,在训练当中可以根据后期检测结果适时添加一些非人脸样本,减少一定的盲目性。

无论在训练还是在检测前,为了减少图像由于光照、背景以及采集设备等造成的影响,都将进行一定的预处理。在本系统中,我们采用了连续性能更好的Gamma光照补偿,这样当原始图像分布不均匀,并且主要集中在较低范围灰度级时,经过均衡处理后,图像的灰度动态范围变大,对比度增强,人脸特征更加突出。这样可以进一步减少光照等因素带来的影响,从而更有利于提取人脸特征。

2.3 系统加速算法设计

传统基于滑动窗的检测方法在待测图像中依次滑动,通过将每一个窗口送入训练好的神经网络分类器进行判别,而经实验测试一张21×18的图片在本文所训练的神经网络分类器中运行时间为0.07s左右,若进行全部窗口测试,计算量相当大,这也是时间复杂度相对较高的原因之一。基于此,本文对基于欧氏距离的模板匹配算法[9]进行模板改进,去除眼睛模板,在应用多尺度压缩的图像金字塔方法的测试图片上进行整体模板匹配[10],通过保留与人脸相似度大的窗口位置进行神经网络分类器测试进而将大量背景去除,通过这种加速处理方法来提高前期算法的效率。

2.4 双阈值级联分类器

第一级分类器我们采用神经网络的方法[11-12]。它是通过主成分分析(Principal Component Analysis,PCA)降维[13]后进行BP神经网络训练得到的分类器,由于传统BP神经网络在应用时存在一些问题,如容易形成局部最小问题、收敛速度问题而不能保证全局最小结果[14],因此本文在训练BP神经网络时采用具有自适应能力的动量项对BP神经网络进行优化设计。对隐层的神经元来说:

Δwji(n)αΔwji(n-1)+ηδj(n)yj(n)(5)

对于输出层来说:

Δwji(n)αΔwji(n-1)+ηδk(n)yj(n)(6)

在式(5)和式(6)中,α为动量因子,调节范围在(0,1),其中式中第二项相当于ηδ(n)y(n)-η,可以根据这一项来判断误差曲面的趋势以进行自适应调整,从而不至于过大造成过冲或过小造成收敛速度慢,从而起到一定的稳定作用。根据具体实验效果,得出了以下自适应因子数据参照表,见表1。

表1 自适应因子参照表

通过自适应因子来调节学习速度进而控制反馈回路。通过应用优化设计的BP网络,其收敛速度和鲁棒性得到了很大的提高。

将达到一定程度的匹配模块经过Gabor特征提取输入第一级分类器,在应用神经网络进行粗检测时,如果高于双阈值中的上阈值则直接判别为人脸,不再送入细检测分类器;而低于下阈值的直接判别为非人脸,直接剔除;而由于训练集范围的有限性及光照,遮掩等各种原因,在介于高阈值和低阈值之间的范畴中,有存在人脸的可能性。因此,把介于这两个阈值之间的人脸与部分非人脸图像块再输入基于Haar特征的AdaBoost分类算法的第二级分类器进行再次判别,由于只检测第一级分类器输出介于双阈值之间的人脸或非人脸的小尺寸图像,所以在此进一步进行加速检测。

由于第二级分类器采用灰度级上的积分特征提取,所以能够快速地对介于双阈值中的人脸/非人脸从灰度级上进行确认。最后通过这两级级联分类器的最终确认并合并人脸中心位置以确定最终位置,从而得到检测后最终的人脸图像。

2.5 算法描述

根据粗细检测的原则,对检测图片进行分类器级联检测,由第一级神经网络分类器进行粗检测,在与第二级分类器级联时,通过设置双阈值接口算法来进行细检测从而达到既降低计算复杂度又提高精度的目的。具体算法描述如下:

1)初始化分类器,预处理测试集图片

2)FOR i1:n//n为测试集图片数

Input classifier_gabor&bp( )//进入第一级分类器

FOR j1:m //m为第一级分类器初检图像块数

IF wj>Threshold_up

yj+1 accept//加入到人脸集

ELSE IF

(wjThreshold_down)

Input classifier_adaboost( )//进入第二级分类器

IF (wj>Threshold_adaboost)

yj+1 accept//再次确认加入到人脸集

ELSE discard

ELSE discard

END

END

Threshold_up与Threshold_down为系统第一级分类器的上下阈值。

3 系统测试结果与分析

为了验证该算法的加速性能与检测率,采用2组实验进行检测,第一组采用一张320×240的标准视频的一帧静态多人脸图像进行速度检测,验证本文算法的加速性能;第二组进行识别率检测,首先对CMU实验室的CMU_PIE中的gallery图库中的68张简单背景正面人脸进行检测,由于背景单一且为单人脸,检测率最高达到了100%,同时为了进一步验证算法设计的有效性,我们对部分MIT+CMU的测试图片以及室外收集的部分图片进行了测试(包含120张图片,235个人脸,其中包括部分不超过±20°的侧面人脸),并对单一使用AdaBoost算法检测人脸与BP神经网络、Gabor+BP神经网络人脸检测方法做了对比实验,实验1和实验2的结果如下所示,图4为应用双阈值级联分类器的对比效果。

表2 不同算法检测速度和检测率

图3 部分测试图片检测效果

图4 双阈值级联分类效果对比

通过以上实验结果表明,本文提出的算法在精确度和鲁棒性上有了明显的提高,从表2的检测速度上来看,虽然本文提出的算法相比AdaBoost算法较慢,但比传统算法有很大幅度的提高,有进一步提升的潜力;同时从图4中可以清晰地看出,应用双阈值粗细检测方法能进一步降低误检率,精度有相对较大的提升。

4 结语

本文提出了一种基于双阈值的两级级联分类器的人脸加速检测方法,通过模板匹配方法来降低在分类器中的计算时间,同时在两级级联分类器之间设置双阈值接口进行级联检测,并在第一级分类器的收敛性上做了一定的改进,在加速的同时更加提高了精度。通过应用双阈值级联分类器的加速算法判断人脸/非人脸,解决了基于传统阈值分类器在检测当中的矛盾问题,速度也有相应的提高,误检率进一步降低,系统整体性能得到了提升。

参考文献:

[1] ROWLEY H A, BALUJA S, KANADA T. Neural network-based face detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 20(1):23-38.

[2] VIOLA P, JONES M. Rapid object detection using a boosted cascade of simple features[C]// Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2001:511-518.

[3] LIENHART R, MAYDT J. An extended set of haar-like features for rapid object detection[C]// Proceedings of the International Conference in Image Processing. New York:IEEE, 2002:900-903.

[4] HEISELE B, SERRE T, POGGIO T. A component-based framework for face detection and identification[J]. International Journal of Computer Vision, 2007, 74(2):167-181.

[5] HSU R L, ABDEL-MOTTALEB M, JAIN A K. Face detection in color images[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(5):696-706.

[6] 月书仁,梁昔明,叶吉祥,等.基于脸部信息和支持向量机的人脸检测[J].计算机应用,2006,26(5):1032-1034.

[7] 梁路宏,艾海舟,徐光佑,等.人脸检测研究综述[J].计算机学报,2002,25(5) :449-458.

[8] 王志良,孟秀艳.人脸工程学[M].北京:机械工业出版社,2008.

[9] 梁路宏,艾海舟,徐光佑,等.基于模板匹配与人工神经网确认的人脸检测[J].电子学报,2001,29(6):744-747.

[10] 林宇生,杨静宇. 基于Gabor滤波特征和支持向量机的人脸检测[J]. 计算机工程与应用, 2007, 43(1):33-34.

[11] 聂祥飞,郭军.基于Gabor小波的人脸检测[J].计算机工程,2006,32(21):44-46.

[12] 顼改燕,徐华,翟忠武,等.基于Gabor滤波器和BP神经网络的人脸皮肤皱纹区域自动识别[J].计算机应用,2010,30(2):430-432.

卷积神经网络的特性范文4

    20世纪80年代以来,全球范围内移动无线通信得到了前所未有的发展,与第三代移动通信系统(3g)相比,未来移动通信系统的目标是,能在任何时间、任何地点、向任何人提供快速可靠的通信服务。因此,未来无线移动通信系统应具有高的数据传输速度、高的频谱利用率、低功耗、灵活的业务支撑能力等。但无线通信是基于电磁波在自由空间的传播来实现传输的。信号在无线信道中传输时,无线频率资源受限、传输衰减、多径传播引起的频域选择性衰落、多普勒频移引起的时间选择性衰落以及角度扩展引起的空间选择性衰落等都使得无线链路的传输性能差。和有线通信相比,无线通信主要由两个新的问题。一是通信行道经常是随时间变化的,二是多个用户之间常常存在干扰。无线通信技术还需要克服时变性和干扰。由于这个原因,无线通信中的信道建模以及调制编码方式都有所不同。

    1.无线数字通信中盲源分离技术分析

    盲源分离(bss:blind source separation),是信号处理中一个传统而又极具挑战性的问题,bss指仅从若干观测到的混合信号中恢复出无法直接观测的各个原始信号的过程,这里的“盲”,指源信号不可测,混合系统特性事先未知这两个方面。在研究和工程应用中,很多观测信号都可以看成是多个源信号的混合,所谓“鸡尾酒会”问题就是个典型的例子。其中独立分量分析ica(independent component analysis)是一种盲源信号分离方法,它已成为阵列信号处理和数据分析的有力工具,而bss比ica适用范围更宽。目前国内对盲信号分离问题的研究,在理论和应用方面取得了很大的进步,但是还有很多的问题有待进一步研究和解决。盲源分离是指在信号的理论模型和源信号无法精确获知的情况下,如何从混迭信号(观测信号)中分离出各源信号的过程。盲源分离和盲辨识是盲信号处理的两大类型。盲源分离的目的是求得源信号的最佳估计,盲辨识的目的是求得传输通道混合矩阵。盲源信号分离是一种功能强大的信号处理方法,在医学信号处理,阵列信号处理,语音信号识别,图像处理及移动通信等领域得到了广泛的应用。

    根据源信号在传输信道中的混合方式不同,盲源分离算法分为以下三种模型:线性瞬时混合模型、线性卷积混合模型以及非线性混合模型。

    1.1 线性瞬时混合盲源分离

    线性瞬时混合盲源分离技术是一项产生、研究最早,最为简单,理论较为完善,算法种类多的一种盲源分离技术,该技术的分离效果、分离性能会受到信噪比的影响。盲源分离理论是由鸡尾酒会效应而被人们提出的,鸡尾酒会效应指的是鸡尾酒会上,有声、谈话声、脚步 声、酒杯餐具的碰撞声等,当某人的注意集中于欣赏音乐或别人的谈话,对周围的嘈杂声音充耳不闻时,若在另一处有人提到他的名字,他会立即有所反应,或者朝 说话人望去,或者注意说话人下面说的话等。该效应实际上是听觉系统的一种适应能力。当盲源分离理论提出后很快就形成了线性瞬时混合模型。线性瞬时混合盲源分离技术是对线性无记忆系统的反应,它是将n个源信号在线性瞬时取值混合后,由多个传感器进行接收的分离模型。

    20世纪八、九十年代是盲源技术迅猛发展的时期,在1986年由法国和美国学者共同完了将两个相互独立的源信号进行混合后实现盲源分离的工作,这一工作的成功开启了盲源分离技术的发展和完善。在随后的数十年里对盲源技术的研究和创新不断加深,在基础理论的下不断有新的算法被提出和运用,但先前的算法不能够完成对两个以上源信号的分离;之后在1991年,法国学者首次将神经网络技术应用到盲源分离问题当中,为盲源分离提出了一个比较完整的框架。到了1995年在神经网络技术基础上盲源分离技术有了突破性的进展,一种最大化的随机梯度学习算法可以做到同时分辨出10人的语音,大大推动了盲源分离技术的发展进程。

    1.2 线性卷积混合盲源分离

    相比瞬时混合盲源分离模型来说,卷积混合盲源分离模型更加复杂。在线性瞬时混合盲源分离技术不断发展应用的同时,应用中也有无法准确估计源信号的问题出现。常见的是在通信系统中的问题,通信系统中由于移动客户在使用过程中具有移动性,移动用户周围散射体会发生相对运动,或是交通工具发生的运动都会使得源信号在通信环境中出现时间延迟的现象,同时还造成信号叠加,产生多径传输。正是因为这样问题的出现,使得观测信号成为源信号与系统冲激响应的卷积,所以研究学者将信道环境抽象成为线性卷积混合盲源分离模型。线性卷积混合盲源分离模型按照其信号处理空间域的不同可分为时域、频域和子空间方法。

    1.3 非线性混合盲源分离

    非线性混合盲源分离技术是盲源分离技术中发展、研究最晚的一项,许多理论和算法都还不算成熟和完善。在卫星移动通信系统中或是麦克风录音时,都会由于乘性噪声、放大器饱和等因素的影响造成非线性失真。为此,就要考虑非线性混合盲源分离模型。非线性混合模型按照混合形式的不同可分为交叉非线性混合、卷积后非线性混合和线性后非线性混合模型三种类型。在最近几年里非线性混合盲源分离技术受到社会各界的广泛关注,特别是后非线性混合模型。目前后非线性混合盲源分离算法中主要有参数化方法、非参数化方法、高斯化方法来抵消和补偿非线性特征。

    2.无线通信技术中的盲源分离技术

    在无线通信系统中通信信号的信号特性参数复杂多变,实现盲源分离算法主要要依据高阶累积量和峭度两类参数。如图一所示,这是几个常见的通信信号高阶累积量。

    在所有的通信系统中,接收设备处总是会出现白色或是有色的高斯噪声,以高阶累积量为准则的盲源分离技术在处理这一问题时稳定性较强,更重要的是对不可忽略的加性高斯白噪声分离算法同时适用。因此,由高阶累积量为准则的盲源分离算法在通信系统中优势明显。

    分离的另一个判据就是峭度,它是反映某个信号概率密度函数分布情况与高斯分布的偏离程度的函数。峭度是由信号的高阶累积量定义而来的,是度量信号概率密度分布非高斯性大小的量值。

卷积神经网络的特性范文5

本文作者:工作单位:安徽埃夫特智能装备有限公司

从控制系统设计角度来说,可以采用辩证法内外因基本原理来分析影响重载机器人控制品质的因素,首先,如果系统存在动力学耦合、柔性等非线性因素,仅仅采用传统的线性控制很难获得良好的控制品质,底层伺服回路的控制缺陷是影响机器人控制品质的内因。第二,如果运动规划环节处理不当,传输给底层运动控制回路的运动指令不合理,即存在位置不连续,速度不连续,加速度跃变等情况,对系统会产生严重的冲击,即便底层伺服控制设计再优秀,同样也会严重影响系统控制品质,这就是所谓的外因。下面就从内外因角度对目前在机器人运动规划和底层伺服控制方面的相关进展进行综述。机器人运动规划方法运动规划与轨迹规划是指根据一定规则和边界条件产生一些离散的运动指令作为机器人伺服回路的输入指令。运动规划的输入是工作空间中若干预设点或其他运动学和动力学的约束条件;运动规划的输出为一组离散的位置、速度和加速度序列。运动规划算法设计过程中主要需要考虑以下三个问题:(1)规划空间的选取:通常情况下,机器人轨迹规划是在全局操作空间内进行的,因为在全局操作空间内,对运动过程的轨迹规划、避障及几何约束描述更为直观。然而在一些情况下,通过运动学逆解,运动规划会转换到关节空间内完成。在关节空间内进行运动规划优点如下:a.关节空间内规划可以避免机构运动奇异点及自由度冗余所带来种种问题[1-4];b.机器人系统控制量是各轴电机驱动力矩,用于调节各轴驱动力矩的轴伺服算法设计通常情况也是在关节空间内的,因此更容易将两者结合起来进行统一考虑[5,6];c.关节空间运动规划可以避免全局操作空间运动规划带来的每一个指令更新周期内进行运动规划和运动学正逆计算带来的计算量,因为如果指令更新周期较短,将会对CPU产生较大的计算负荷。(2)基础函数光滑性保证:至少需要位置指令C2和速度指令C1连续,从而保证加速度信号连续。不充分光滑的运动指令会由于机械系统柔性激起谐振,这点对高速重载工业机器人更为明显。在产生谐振的同时,轨迹跟踪误差会大幅度增加,谐振和冲击也会加速机器人驱动部件的磨损甚至损坏[7]。针对这一问题,相关学者引入高次多项式或以高次多项式为基础的样条函数进行轨迹规划,其中Boryga利用多项式多根的特性,分别采用5次、7次和9次多项式对加速度进行规划,表达式中仅含有一个独立参数,通过运动约束条件,最终确定参数值,并比较了各自性能[8]。Gasparetto采用五次B样条作为规划基础函数,并将整个运动过程中加速度平方的积分作为目标函数进行优化,以确保运动指令足够光滑[9]。刘松国基于B样条曲线,在关节空间内提出了一种考虑运动约束的运动规划算法,将运动学约束转化为样条曲线控制顶点约束,可保证角度、角速度和角加速度连续,起始点和终止点角速度和角加速度可以任意配置[10]。陈伟华则在Cartesian空间内分别采用三次均匀B样条,三次非均匀B样条,三次非均匀有理B样条进行运动规划[11]。(3)运动规划中最优化问题:目前常用的目标函数主要为运行时间、运行能耗和加速度。其中关于运行时间最优的问题,较为经典是Kang和Mckay提出的考虑系统动力学模型以及电机驱动力矩上限的时间最优运动规划算法,然而该算法加速度不连续,因此对于机器人来说力矩指令也是不连续的,即加速度为无穷大,对于真实的电驱伺服系统来说,这是无法实现的,会对系统产生较大冲击,大幅度降低系统的跟踪精度,对机械本体使用寿命也会产生影响[12]。针对上述问题Constantinescu提出了解决方法,在考虑动力学特性的基础上,增加对力矩和加速度的约束,并采用可变容差法对优化问题进行求解[13]。除了以时间为优化目标外,其他指标同样被引入最优运动规划模型中。Martin采用B函数,以能耗最少为优化目标,并将该问题转化为离散参数的优化问题,针对数值病态问题,提出了具有递推格式的计算表达式[14]。Saramago则在考虑能耗最优的同时,将执行时间作为优化目标之一,构成多目标优化函数,最终的优化结果取决于两个目标的权重系数,且优化结果对于权重系数选择较为敏感[15]。Korayem则在考虑机器人负载能力,关节驱动力矩上限和弹性变形基础上,同时以在整个运行过程中的位置波动,速度波动和能耗为目标,给出了一种最优运动规划方法[6],然而该方法在求解时,收敛域较小,收敛性较差,计算量较大。

考虑部件柔性的机器人控制算法机器人系统刚度是影响动态性能指标重要因素。一般情况下,电气部分的系统刚度要远远大于机械部分。虽然重载工业机器人相对于轻型臂来说,其部件刚度已显著增大,但对整体质量的要求不会像轻型臂那么高,而柔性环节仍然不可忽略,原因有以下两点:(1)在重载情况下,如果要确保机器人具有足够的刚度,必然会增加机器人部件质量。同时要达到高速高加速度要求,对驱动元件功率就会有很高的要求,实际中往往是不可实现(受电机的功率和成本限制)。(2)即使驱动元件功率能够达到要求,机械本体质量加大会导致等效负载与电机惯量比很大,这样就对关节刚度有较高的要求,而机器人关节刚度是有上限的(主要由减速器刚度决定)。因此这种情况下不管是开链串联机构还是闭链机构都会体现出明显的关节柔性[16,17],在重载搬运机器人中十分明显。针对柔性部件带来的系统控制复杂性问题,传统的线性控制将难以满足控制要求[17-19],目前主要采用非线性控制方法,可以分成以下几大类:(1)基于奇异摄动理论的模型降阶与复合控制首先针对于柔性关节控制问题,美国伊利诺伊大学香槟分校著名控制论学者MarkW.Spong教授于1987年正式提出和建立柔性关节的模型和奇异摄动降阶方法。对于柔性关节的控制策略绝大多数都是在Spong模型基础上发展起来的。由于模型的阶数高,无法直接用于控制系统设计,针对这个问题,相关学者对系统模型进行了降阶。Spong首先将奇异摄动理论引入了柔性关节控制,将系统分成了慢速系统和边界层系统[20],该方法为后续的研究奠定了基础。Wilson等人对柔性关节降阶后所得的慢速系统采用了PD控制律,将快速边界层系统近似为二阶系统,对其阻尼进行控制,使其快速稳定[21]。针对慢速系统中的未建模非线性误差,Amjadi采用模糊控制完成了对非线性环节的学习[22]。彭济华在对边界层系统提供足够阻尼的同时,将神经网络引入慢速系统控制,有效的克服了参数未知和不确定性问题。连杆柔性会导致系统动力学方程阶数较高,Siciliano和Book将奇异摄动方法引入柔性连杆动力学方程的降阶,其基本思想与将奇异摄动引入柔性关节系统动力学方程一致,都将柔性变形产生的振动视为暂态的快速系统,将名义刚体运动视为准静态的慢速系统,然后分别对两个系统进行复合控制,并应用于单柔性连杆的控制中[23]。英国Sheffield大学A.S.Morris教授领导的课题组在柔性关节奇异摄动和复合控制方面开展了持续的研究。在2002年利用Lagrange方程和假设模态以及Spong关节模型建立柔性关节和柔性连杆的耦合模型,并对奇异摄动理论降阶后的慢速和快速子系统分别采用计算力矩控制和二次型最优控制[24]。2003年在解决柔性关节机器人轨迹跟踪控制时,针对慢速系统参数不确定问题引入RBF神经网络代替原有的计算力矩控制[25].随后2006年在文献[24]所得算法和子系统模型的基础上,针对整个系统稳定性和鲁棒性要求,在边界层采用Hinf控制,在慢速系统采用神经网络算法,并给出了系统的稳定性分析[26]。随着相关研究的开展,有些学者开始在奇异摄动理论与复合控制的基础上作出相应改进。由于奇异摄动的数学复杂性和计算量问题,Spong和Ghorbel提出用积分流形代替奇异摄动[27]。针对奇异摄动模型需要关节高刚度假设,在关节柔度较大的情况下,刘业超等人提出一种刚度补偿算法,拓展了奇异摄动理论的适用范围[28]。(2)状态反馈和自适应控制在采用奇异摄动理论进行分析时,常常要同时引入自适应控制律来完成对未知或不精确参数的处理,而采用积分流形的方式最大的缺点也在于参数的不确定性,同样需要结合自适应控制律[29,30]。因此在考虑柔性环节的机器人高动态性能控制要求下,自适应控制律的引入具有一定的必要性。目前对于柔性关节机器人自适应控制主要思路如下:首先根据Spong模型,机器人系统阶数为4,然后通过相应的降阶方法获得一个二阶的刚体模型子系统,而目前的大多数柔性关节自适应控制律主要针对的便是二阶的刚体子系统中参数不确定性。Spong等人提出了将自适应控制律引入柔性关节控制,其基于柔性关节动力学奇异摄动方程,对降阶刚体模型采用了自适应控制律,主要采用的是经典的Slotine-Li自适应控制律[31],并通过与Cambridge大学Daniel之间互相纠正和修改,确立一套较为完善的基于奇异摄动模型的柔性关节自适应控制方法[32-34]。(3)输入整形控制输入整形最原始的思想来自于利用PosicastControl提出的时滞滤波器,其基本思想可以概括为在原有控制系统中引入一个前馈单元,包含一系列不同幅值和时滞的脉冲序列。将期望的系统输入和脉冲序列进行卷积,产生一个整形的输入来驱动系统。最原始的输入整形方法要求系统是线性的,并且方法鲁棒性较差,因此其使用受到限制。直到二十世纪九十年初由MIT的Signer博士大幅度提高该方法鲁棒性,并正式将该方法命名为输入整形法后[35],才逐渐为人们重视,并在柔性机器人和柔性结构控制方面取得了一系列不错的控制效果[36-39]。输入整形技术在处理柔性机器人控制时,可以统一考虑关节柔性和连杆柔性。对于柔性机器人的点对点控制问题,要求快速消除残余振荡,使机器人快速精确定位。

这类问题对于输入整形控制来说是较容易实现的,但由于机器人柔性环节较多,呈现出多个系统模态,因此必须解决多模态输入整形问题。相关学者对多模态系统的输入整形进行了深入研究。多模态系统的输入整形设计方法一般有:a)级联法:为每个模态设计相应的滤波器,然后将所有模态的时滞滤波器进行级联,组合成一个完整的滤波器,以抑制所有模态的振荡;b)联立方程法:直接根据系统的灵敏度曲线建立一系列的约束方程,通过求解方程组来得到滤波器。这两种方法对系统的两种模态误差均有很好的鲁棒性。级联法设计简单,且对高模态的不敏感性比联立方程法要好;联立方程法比较直接,滤波器包含的脉冲个数少,减少了运行时间。对于多模态输入整形控制Singer博士提出了一种高效的输入整形方法,其基本思想为:首先在灵敏度曲线上选择一些满足残留振荡最大幅值的频段,在这些特定的频带中分别选择一些采样频率,计算其残留振荡;然后将各频率段的残留振荡与期望振荡值的差平方后累加求和,构成目标函数,求取保证目标函数最小的输入整形序列。将频率选择转化为优化问题,对于多模态系统,则在每个模态处分别选择频率采样点和不同的阻尼系数,再按上述方法求解[40]。SungsooRhim和WayneBook在2004年针对多模态振动问题提出了一种新的时延整形滤波器,并以控制对象柔性模态为变量的函数形式给出了要消除残余振动所需最基本条件。同时指出当滤波器项数满足基本条件时,滤波器的时延可以任意设定,消除任何给定范围内的任意多个柔性振动模态产生的残余振动,为输入整形控制器实现自适应提供了理论基础[41],同时针对原有输入整形所通常处理的点对点控制问题进行了有益补充,M.C.Reynolds和P.H.Meckl等人将输入整形应用于关节空间的轨迹控制,提出了一种时间和输入能量最优的轨迹控制方法[42]。(4)不基于模型的软计算智能控制针对含有柔性关节机器人动力学系统的复杂性和无法精确建模,神经网络等智能计算方法更多地被引入用于对机器人动力学模型进行近似。Ge等人利用高斯径向函数神经网络完成柔性关节机器人系统的反馈线性化,仿真结果表明相比于传统的基于模型的反馈线性化控制,采用该方法系统动态跟踪性能较好,对于参数不确定性和动力学模型的变化鲁棒性较强,但是整个算法所用的神经网络由于所需节点较多,计算量较大,并且需要全状态反馈,状态反馈量获取存在一定困难[43]。孙富春等人对于只具有关节传感器的机器人系统在输出反馈控制的基础上引入神经网络,用于逼近机器人模型,克服无法精确建模的非线性环节带来的影响,从而提高机器人系统的动态跟踪性能[44]。A.S.Morris针对整个柔性机器人动力学模型提出了相应的模糊控制器,并用GA算法对控制器参数进行了优化,之后在模糊控制器的基础上,综合了神经网络的逼近功能对刚柔耦合运动进行了补偿[45]。除采用神经网络外,模糊控制也在柔性机器人控制中得以应用。具有代表性的研究成果有V.G.Moudgal设计了一种具有参数自学习能力的柔性连杆模糊控制器,对系统进行了稳定性分析,并与常规的模糊控制策略进行了实验比较[46]。Lin和F.L.Lewis等人在利用奇异摄动方法基础上引入模糊控制器,对所得的快速子系统和慢速子系统分别进行模糊控制[4748]。快速子系统的模糊控制器采用最优控制方法使柔性系统的振动快速消退,慢速子系统的模糊控制器完成名义轨迹的追踪,并对单柔性梁进行了实验研究。Trabia和Shi提出将关节转角和末端振动变形分别设计模糊控制器进行控制,由于对每个子系统只有一个控制目标,所以模糊规则相对简单,最后将两个控制器的输出进行合成,完成复合控制,其思想与奇异摄动方法下进行复合控制类似[49]。随后又对该算法进行改进,同样采用分布式结构,通过对输出变量重要性进行评估,得出关节和末端点的速度量要比位置量更为重要,因此将模糊控制器分成两部分,分别对速度和位置进行控制,并利用NelderandMeadSimplex搜索方法对隶属度函数进行更新[50]。采用基于软计算的智能控制方法相对于基于模型的控制方法具有很多优势,特别是可以与传统控制方法相结合,完成对传统方法无法精确建模的非线性环节进行逼近,但是目前这些方法的研究绝大部分还处于仿真阶段,或在较简单的机器人(如单自由度或两自由度机器人)进行相关实验研究。其应用和工程实现受限的主要原因在于计算量大,但随着处理器计算能力的提高,这些方法还有广泛的应用前景。

卷积神经网络的特性范文6

关键词: 动态纹理分类; 慢特征分析; 深度学习; 堆栈降噪自动编码网络模型

中图分类号: TN919?34 文献标识码: A 文章编号: 1004?373X(2015)06?0020?05

Dynamic texture classification method based on stacked denoising autoencoding model

WANG Cai?xia, WEI Xue?yun, WANG Biao

(School of Electronics and Information Engineering, Jiangsu University of Science and Technology, Zhenjiang 212003 China)

Abstract: To overcome the shortcomings of extracting the feature descriptors by manual operation and too high feature dimension for dynamic scene classification, a deep learning network model is proposed to extract dynamic texture features. Firstly, the slow feature analysis method is used to learn dynamic characteristics of each video sequence through before hand, and the learned feature is used as input data of deep learning to get the advanced representation of the input signal. The stacked denoising autoencoding model is selected for the deep learning network mode. SVM classification method is used for its classification. The experimental result proves that the feature dimension extracted by this method is low and can effectively describe dynamic textures.

Keywords: dynamic texture classification; slow feature analysis; deep learning; stacked denoising autoencoding model

0 引 言

动态纹理是指具有空间重复性、并随时间变化的视觉模式,这种模式形成了一系列在时间域上具有某种不变性的图像序列[1]。不同的动态纹理可能具有相似的外观,但是却具有不同的运动形式,所以表观和运动是动态纹理特征的两大方面。在目前的动态视频分析系统中,最关键的步骤是如何提取有效的动态纹理特征描述符。在过去几十年里,对纹理的研究大部分都集中在静态纹理特征的研究,动态纹理的研究相对静态纹理而言起步要晚的多。动态纹理的研究最早始于20世纪90年代初,由Nelson和Polana采用建立线性系统模型的方法对其进行研究[2],并且将视觉运动划分为三类[3]:行为、运动事件以及动态纹理。随后,Szummer 和 Picard提出采用时空自回归模型(Spatio?Temporal Auto Regressive,STAR)[4]对动态纹理序列进行建模。基于光流的识别法是目前比较流行的动态纹理识别法,因为其计算效率高,并且以一种很直观的方式来描述图像的局部动态纹理特征,Fazekas和Chetverikov总结出,正则性(Regulated)全局流与普通流(Normal Flow)相比,普通流可以同时包含动态特性和形状特性[5]。基于LBP的动态纹理方法是最近几年才提出的一种有效算法,典型的是Zhao等人提出的两种时空域上的描述子:时空局部二值模式(Volume Local Binary Pattern,VLBP)[6]和三正交面局部二值模式(Local Binary Pattern from Three Orthogonal Planes,LBP?TOP)[7],有效地结合“运动”和“外观”特征。2007―2008年是动态纹理研究最多的两年,各大期刊杂志连续刊登有关动态纹理的研究文章。

本文试图解决动态自然场景的分类问题(例如:烟火、河流、风暴、海洋、雪花等)。在计算机视觉领域,过去采用较多的是手动提取特征来表示物体运动信息(例如:HOF、基于STIP的HOG算法等),实验表明该类方法对人体行为识别非常有效。但是由于自然环境比较复杂,动态纹理表现不稳定,易受光照、遮挡等影响,而手动选取特征非常费力,需要大量的时间进行调节,所以该类方法并不适用于动态场景分类。Theriault等人提出利用慢特征分析的方法来提取动态视频序列的特征[8]。该方法虽然能有效表示动态纹理特征,但是其提取的特征维数较高。深度学习是机器学习研究中一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,近几年深度学习网络模型在大尺度图像分类问题中成功应用使得其得到越来越多人的重视。卷积神经网络、深度置信网络和堆栈自编码网络是三种典型的深度学习网络模型,而堆栈自编码网络模型不仅对高维数据有很好的表示,而且采用非监督的学习模式对输入数据进行特征提取,这对于传统的手动提取特征。利用堆栈自编码网络模型对慢特征进行进一步学习,不仅能降低数据维度,而且还能提取出数据更有效的特征表示。

1 基于堆栈自编码网络模型的慢特征分析法

1.1 慢特征分析法

文献[9?10]中提到,慢特征分析算法的目标是从不断变化的输入信号中学习不变量,即除了无意义的常值信号外,最具不变性质的信息,其实质也就是从快速变化的信号中提取缓慢变化的信号特征,这种特征是从混合信号中提取出来的源信号的高级表示,表征信号源的某些固有属性[11]。

实验证明,慢特征分析法在人体行为识别中有很好的描述作用,这为动态纹理分类提供了一个很好的选择。慢特征分析算法的核心思想是相关矩阵的特征值分解,其本质是在经过非线性扩展特征空间对目标函数进行优化,寻找最优解的线性组合。

给定一个时域输入信号序列:

[vt=v1t,v2t,…,vDtT]

目标就是学习一组映射函数:

[Sv=S1v,S2v,…,SMv]

使得输出信号[yt=y1t,y2t,…,yMtT]的各个分量[yj=Sjvt]的变化尽可能缓慢,而且仍然保留相关的重要信息。选用时域信号一阶导数的均方值来衡量输出信号个分量的变化率:

[minSj<y?2j>t] (1)

且满足以下条件:

(1) [<yj>t=0];

(2) [<y2j>t=1];

(3) [?j<j':<yj,yj'>t=0]。

其中:[<y>t]是[y]的时域平均值;[y?j]是[yj]的时域一阶导数。这三个约束条件保证慢特征分析的输出信号的各分量的变化率尽可能小,其中条件1和条件2确保输出没有无意义的常信号值,条件3确保输出各分量之间是非相关的,且不同慢特征承载着不同信息。值得注意的是,函数[Sv]是输入信号的瞬时函数,所以输出结果不能看成是通过低通滤波器的结果,慢特征处理速度要比低通滤波器快很多。如图1所示。

<E:\王芳\现代电子技术201506\现代电子技术15年38卷第6期\Image\42t1.tif>

图1 时域输入信号慢特征的提取

输出信号各分量按照变化率从小到大排列,且互不相关,其最优解问题可以看成以下公式的解特征值问题:

[Sj:<v?v?T>tSj=λjSj] (2)

求解得到的特征值按从小到大的顺序排列,即[λ1≤λ2≤???≤λM],输出信号的慢特征和最小特征值息息相关。输入信号[vt]可以是多种模式的图像特征(例如色彩,梯度,SIFT特征,HOG特征)。

这里采用的是v1特征[12?13],该特征对图像有很好的表示,确保预先学习到的慢特征能达到最优。

1.2 堆栈自动编码模型

自动编码器模型是深度学习网络模型之一,其尽可能复现输入信号,捕捉代表输入信号的主要成分。

如图2所示,对于给定输入信号[x],根据式(2)得到输出[y],此过程为编码过程:

[y=fθx=sWx+b] (3)

式中:[sx=11+θ-x];[W]是[d′×d]维权重矩阵;[b]是偏移向量。

为了验证输出[y]是否准确表达原输入信号,利用式(2)对其进行重构,得到重构信号[z]。此过程为解码/重构过程:

[gθ′y=sW′y+b′] (4)

从输入到输出的权值记为[θ=W,b],从输出到输入的权值记为[θ′=W′,b′]。逐层进行参数[θ]和[θ′]的优化,式(5)为其目标函数:

[θ?,θ′*=argminθ,θ′Lx,zLx,z=12x-z2] (5)

调整参数,使得重构误差达到最小,因此可以得到[x]的第一层表示。

<E:\王芳\现代电子技术201506\现代电子技术15年38卷第6期\Image\42t2.tif>

图2 普通DA和降噪DA

降噪自动编码器(Denoising Auto Encoder,Dae)是在自动编码器的基础上给训练数据加入噪声,编码器需要学习去除噪声而获得没有被噪声污染的输入信号,因此获得输入信号更加鲁棒的表达。堆栈自动编码模型(Sda)是将多个Dae堆叠起来形成的一种深度网络模型。利用优化后的参数[θ]得到当前层的输出[y](即下一层的输入),将得到的[y]作为新一层的输入数据,逐层进行降噪自动编码的过程,直到到达多层神经网络中间隐层的最后一层为止,算出该层输出,即为输出特征,如图3所示。

<E:\王芳\现代电子技术201506\现代电子技术15年38卷第6期\Image\42t3.tif>

图3 多层神经网络结构图

1.3 基于Sda的慢特征分析法

基于Sda的慢特征分析方法利用慢特征分析法预先学习动态视频序列的慢特征,将该特征作为模型输入,进行多层降噪自动编码网络模型参数的学习,最后使用SVM分类器对该模型的输出特征进行分类,具体步骤如图4所示。

2 实 验

2.1 实验数据集与评估准则

实验所用数据由10类动态场景构成(包括海滩,电梯,森林烟火,高速公路,闪电,海洋,铁路,河流,云,街道),且每一个类别由30个250×370 pixels大小的彩序列构成。这些视频序列全部来自于加拿大约克大学计算机视觉实验室于2012年的YUPENN动态场景数据集[14],该数据库主要强调的是对象和表层在短时间内场景的实时信息。如图5所示。

<E:\王芳\现代电子技术201506\现代电子技术15年38卷第6期\Image\42t4.tif>

图4 基于Sda的慢特征分析步骤图

<E:\王芳\现代电子技术201506\现代电子技术15年38卷第6期\Image\42t5.tif>

图5 YUPENN动态数据库

将所有彩序列进行尺度缩放,分别放大和缩小1.2倍,1.4倍,1.6倍,并且在每一个尺度上进行旋转,旋转角度分别为[2°,4°,6°,-2°,-4°,-6°]。所以样本总数为(10×30)×(6×6)=10 800个。实验性能使用混淆矩阵(Confusion Matrix)进行衡量。混淆矩阵是多分类问题中常用的衡量准则,它使得分类结果一目了然并能指出错误预测的影响。分类矩阵通过确定预测值是否与实际值匹配,将模型中的所有事例分为不同的类别。然后会对每个类别中的所有事例进行计数,并在矩阵中显示总计。实验中一共有14个类别的数据集,所以最后会产生一个大小为14×14的混淆矩阵。

2.2 实验结果与分析

实验选用线性SVM分类器,采用Leave?One?Out 分析法进行分类。所有视频序列全部转换成灰度视频进行慢特征分析,输出大小为4 032维的慢特征向量作为Sda网络模型的输入数据。

2.2.1 Sda网络模型大小

堆栈降噪自动编码器网络层数以及每一层的大小对输出特征的鲁棒性和SVM分类结果有重要的影响。当网络层数不一样时,模型学习到的特征也就不一样,网络层数过低,学习力度可能不够,特征达不到最佳表示效果,网络层数太高,可能会出现过拟合现象,隐层的大小和最后的分类结果也息息相关,所以选取不同网络层数和隐层大小分别进行实验,如图6所示,选取网络层数分别为1,2,3,隐层大小分别为500,1 000,2 000。由图6可知,当隐层大小为500时的分类得分显然比1 000和2 000时高很多;在隐层大小为500时,随着网络层数不断增加,实验结果不断提升,当网络层数由2层上升到3层时,实验结果已经非常接近(网络层数为2时score=95.9%,网络层数为3时score=96.3%)。可以得知,随着网络层数不断增加,分类的效果逐渐提高,当网络层数为3时,分类结果已非常接近。

<E:\王芳\现代电子技术201506\现代电子技术15年38卷第6期\Image\42t6.tif>

图6 不同网络层数和隐层大小的分类结果

2.2.2 噪声

Sdae对每一层的输入加入噪声,编码器自动学习如何去除噪声而获得更加鲁棒的动态纹理特征,因此每一层所加入的噪声的大小对提取的特征有很大的影响。因此,选取不同大小的噪声分别进行实验,如图7所示,选取噪声大小分别为10%,15%,20%,25%,30%,35%,40%,45%,50%,固定网络层大小为[500,500,500];由图可知,加入噪声对分类得分的影响呈类似抛物线形状,对每一层输入数据加入25%的噪声时score=0.964为最大值。

2.2.3 混淆矩阵以及实验与现有方法的比较

图8为实验最优参数所计算出的混淆矩阵,由图可知,海滩、电梯、高速公路以及海洋的分类效果达到100%,喷泉(Fountain)的分类效果虽然最差,但也已经达到83%左右,其容易被误分成森林火灾(17%错误分类)。由该混淆矩阵可以得知,实验所用方法能够达到将近96.4%平均得分。表1是本文所用方法与现有几个比较常用的动态纹理特征提取方法的比较,分别有HOF[15],GIST[16],Chaos[17],SFA[8]。由表格可以得知,SFA是几个方法中效果最好的,可以达到76.7%的分类效果,而本文所用方法SFA+Sda比SFA方法提高了将近20%的分类得分,并且在每一个动态场景中分类效果总是优于其他几种方法。

<E:\王芳\现代电子技术201506\现代电子技术15年38卷第6期\Image\42t7.tif>

图7 加入不同噪声的分类结果

<E:\王芳\现代电子技术201506\现代电子技术15年38卷第6期\Image\42t8.tif>

图8 混淆矩阵

表1 本实验与现有方法比较

3 结 语

本文提出一种基于多层降噪自动编码网络模型的动态纹理分类方法:预先学习动态视频序列的慢特征,以此作为多层降噪自编码网络模型的输入数据进行非监督的深度学习,网络最顶层的输出即为所提取的动态纹理特征,采用SVM分类器对该特征进行分类。本文对实验中的各种影响参数如网络模型的深度、每一层的大小以及加入噪声的大小做了充分的研究,实验证明,该方法所提取的特征对动态纹理有很好的表示作用,分类效果不错,在动态场景分类问题中有很大的应用价值。

参考文献

[1] DORETTO G, CHIUSO A, WU Y, et al. Dynamic textures [J]. International Journal on Computer Vision, 2003, 51(2): 91?109.

[2] NELSON R C, POLENA P. Qualitative recognition of motion using temporal texture [J]. CVGIP: Image Understanding, 1992, 56(1): 78?89.

[3] POLANA R, NELSON R. Temporal texture and activity recognition [J]. Motion?Based Recognition: Computational Imaging and Vision, 1997, 9: 87?124.

[4] SZUMMER M, PICARD R W. Temporal texture modeling [C]// Proceedings of 1996 International Conference on Image Processing. [S.l.]: [s.n.], 1996: 11?16.

[5] FAZEKAS S, CHETVERIKOV D. Normal versus complete ?ow in dynamic texture recognition a comparative study [C]// 2005 4th International Workshop on Texture Analysis and Synthesis (ICCV 2005). [S.l.]: [s.n.], 2005: 37?42.

[6] ZHAO G, PIETIK?INEN M. Dynamic texture recognition using volume local binary patterns [C]// European Conference on Computer Vision. [S.l.]: [s.n.], 2006: 165?177.

[7] PIETIK¨AINEN G Z M. Dynamic texture recognition using local binary patterns with an application to facial expression [J]. IEEE Transaction on Pattern Analysis and Machine Intelligence, 2007, 29(6): 915?928.

[8] THERIAULT Christian, THOME Nicolas, CORD Matthieu. Dynamic scene classification: learning motion descriptors with slow features analysis [EB/OL]. [2014?09?17]. http://.

[9] FRANZIUS M, WILBERT N, WISKOTT L. Invariant object recognition with slow feature analysis [C]// ICANN 18th International Conference. Berlin: Springer?Verlag, 2008: 961?970.

[10] WISKOTT L, SEJNOWSKI T. Slow feature analysis: Unsupervised learning of invariances [J]. Neural Comput., 2002, 14: 715?770.

[11] 马奎俊,韩彦军,陶卿,等.基于核的慢特征分析算法[J].模式识别与人工智能,2011(2):79?84.

[12] DE VALOIS R, YUND E, HEPLER N. The orientation and direction selectivity of cells in macaque visual cortex [J]. Vision Research, 1982, 22: 531?544.

[13] HUBEL D, WIESEL T. Receptive fields of single neurons in the cat’s striate cortex [J]. Journal of Physiol, 1959, 4: 574?591.

[14] DERPANIS Konstantinos, LECCE M, DANIILIDIS K, et al. Dynamic scene understanding: the role of orientation features in space and time in scene classification [C]// International Conference on Computer Vision and Pattern Recognition. [S.l.]: [s.n.], 2012: 111?121.

[15] MARSZALEK M, LAPTEV I, SCHMID C. Actions in Context [C]// 2009 IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2009: 2?6.