卷积神经网络过程范例6篇

前言:中文期刊网精心挑选了卷积神经网络过程范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。

卷积神经网络过程

卷积神经网络过程范文1

关键词:手写数字识别;卷积神经网络;应用

手写体数字识别在邮政、金融等领域应用广泛。对于数字识别,人们往往要求识别器有很高的识别可靠性,数字识别的错误所带来的影响比文字识别等其他识别所带来的影响更大,特别是有关金融方面的数字识别错误所带来的后果是无法想象的,识别错一个数字,这其中的差距可能是几的差距,也可能是几十、几百的差距,这些都还是小问题;但更有可能这一个数字代表的差距是几万、几千万甚至几亿乃至更多,那么这个错误造成的损失就无法估量了。因此,O计出有着高可靠性与高识别率的数字识别系统已经成为了字符识别领域一个非常重要的环节。

1 网络模型和数据库及学习算法的选择

1.1 关于Mnist数据库的介绍

首先,Mnist是NIST数据库的一个优化子集。它是一个有着60000个训练样本集与10000个测试样本集的手写体数字数据库。此数字库一共有4个文件。

此数字库的所有样本集都有图像文件以及标签文件。标签文件的作用是用来储存样本集中的每个样本的数值标签,而每一个样本的图像数据信息则是由图像文件存储着。此数据库的图像数据均保存在二进制文件之中,且每个样本图像的大小均为28*28。

1.2 数字识别的模型选择

手写体数字虽然只有0~9十个数字,但由于写法因人而异,不同地域同样一个数字有多种不同的写法,每个人都有自己的书写习惯。且一些纸质差异、笔画粗细、光线问题、位置、尺度大小等等多种因素都能对输入产生影响。考虑到这些因素,为让网络有良好的识别能力,我们这里采用在图像识别领域有着优秀表现的卷积神经网络作为此数字识别系统的训练模型。

1.3 学习算法的选择

一个优秀的网络模型必须具备良好的学习算法,每个学习网络都有着相对来说较为合适自己的学习算法,而并不是说越高端的算法就越好。在此文中,我选择的学习算法是较为成熟的BP算法。此算法在文字前面有些许介绍,此处不再多做说明。

2 基于卷积神经网络的数字识别系统的设计

2.1 输入层以及输出层设定

根据样本的特征与此网络的网络结构,可以大概判断出输入层与输出层该如何设置。隐含层的个数可以是一个,也可以是多个,这与要分类的问题有关。

前文提及到在mnist数据库中,所有的图像都是28*28大小的,且以整个图片的像素形式存储在数据文件之中。每张图像大小为28*28,故一个图片像素点个数为784个。这里,卷积神经网络的输入即为这784个像素点。

因为数字识别需要识别的是0~9这十个数字,即需要识别十种字符类别,所以将这个神经网络输出层的神经元节点数设置为10。

2.2 网络的中间层设置

卷积神经网络的中间层有两个部分,即卷积层(特征提取层)与下采样层(特征映射层),由第二章中图2-1所示,C1、C3为卷积层,S2、S4为降采样层。

1)激活函数选择

激活函数选择sigmoid函数。同样,在第二章有所提及。Sigmoid函数是严格递增函数,能较好的平衡线性与非线性之间的行为,比较贴近生物神经元的工作。相比于其他函数,sigmoid函数还存在着许多优势,比如光滑性、鲁棒性以及它的导数可以用它自身来表示。

sigmoid函数为:

(1)

其中,x为神经元净输入。

激活函数导数为:

(2)

2)卷积层设计

图像经过卷积核对特征图进行卷积,之后再经过sigmoid函数处理在卷积层得到特征映射图。特征映射图相比于原图像,其特征更为明显突出。

卷积运算其实就是一个加权求和的过程。离散卷积是本文所选取的方法,规定卷积核在水平和竖直两个方向每次都是移动一个像素,即卷积的步长为1。

3)下采样层的设计

根据图像局部相关性这一原理,为了降低网络的学习维度、减少需要处理的数据量且保留图像的有用信息,可以对卷积后的图像进行下采样。这里,我们采取的是取卷积层4个像素点平均值为下采样层的一个像素点的方法。这样可以降低网络规模。

2.3 网络总体结构CNN-0

根据LeNet-5结构,再结合上文中的对输入层、输出层、中间层的设计,完成了如图3-1所示的基本网络结构:

相比于LeNet-5,CNN-0做了一些修改,并非完全按照LeNet-5网络结构模型。Sigmoid函数是本网络中的激活函数,选择这个函数的好处在于可以让所有层得到的输出都在区间[-1,1]之内。网络训练的学习率固定值为1或者是衰减的学习速率。经过卷积后的一维向量与输出层没有沿用LeNet-5的径向基函数网络,而是采取全连接方式,省去了F6层。

3.3 卷积神经网络训练过程

在模式识别中,学习网络有无指导学习网络与有指导学习网络两个类别。无指导学习网络一般是用来进行聚类分析,本文采取的是有指导学习网络。

卷积神经网络其实就是从输入到输出的一种映射,它可以学量的映射关系,只需要用现有的模式对网络进行训练,网络就能具备映射能力。而不需要输入与输出之间的精确的关系。

训练算法与传统的BP算法相差无几(BP算法在第二章有做概述),主要可分为四个步骤,而这四个步骤可以归为向前传播阶段与向后传播阶段:相前传播:

1)随机的从样本集中获取一个样本(A, ),然后将A输入至网络中;

2)根据公式(3)计算出实际输出:

(3)

向后传播:

1)计算和理想输出之间的差;

2)根据极小化误差方法调整权值矩阵。

结语

在手写数字识别这一块,相对来说比较有难度的应该就是脱机自由手写字符识别了,不过本文所研究的并不是这一系统,本设计是一个基于卷积神经网络的手写数字识别系统,因卷积神经网络的局部感受野和降采样以及权值共享、隐性特征提取等优点,它在图像识别领域得到了非常广泛的应用。此程序是在Caffe这个框架上进行运行的,操作系统为Linux系统ubuntu14.04版本。Caffe是一个开源的深度学习框架,也可以说是一个编程框架或者模板框架,它提供一套编程机制。因此,本文所需要实际的卷积神经网络就可以根据这个框架来进行构建。

参考文献:

[1]张伟,王克俭,秦臻.基于神经网络的数字识别的研究[J].微电子学与计算,2006年第23卷第8期.

卷积神经网络过程范文2

【关键词】深度神经网络 序列到序列网络 卷积网络 对抗式生成网路

1 深度神经网络起源

人工神经网络(ArtificialNeuralNetworks,ANN)研究是人工智能领域的一个重要分支,在对生物神经网络结构及其机制研究的基础上,构建类似的人工神经网络,使得机器能直接从大量训练数据中学习规律。其研究最早可以追溯到1957年Frank Rosenblatt提出的感知机模型,他在《The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain》建立了第一个人工神经网络数学模型,19世纪80年代末期反向传播(Back Propagation)算法的发明更是带来了ANN的学习热潮,但由于理论分析难度较大,训练方法及技巧尚不成熟,计算机运算能力还不够强大,这个时期ANN结构较为简单,大部分都可等价为单隐层神经网络,主要是进行浅层学习(Shallow Learning)研究。

2006年Geoffrey Hinton在《A Fast Learning Algorithm for Deep Belief Nets》中提出了逐层贪婪预训练(layerwise greedy pretraining),显著提高了MNIST手写数字识别的准确率,开创了深度学习的新方向;随后又在《Reducing the Dimensionality of Data with Neural Networks》中提出了deep autoencoder结构,在图像和文本降维实验上明显优于传统算法,证明了深度学习的正确性。以这两篇论文为开端,整个学术界掀起了对深度学习的研究热潮,由于更多的网络层数和参数个数,能够提取更多的数据特征,获取更好的学习效果,ANN模型的层数和规模相比之前都有了很大的提升,被称之为深度神经网络(Deep Neural Networks,DNN)。

2 深度神经网络的现代应用

2010年以来,随着理论不断创新和运算能力的增长,DNN被应用到许多领域并取得了巨大的成功。2011年微软和谷歌的研究员利用DNN将语音识别的错误率降低了20%~30%;2012年在ImageNet图像识别挑战赛(ILSVRC2012)中DNN更是将识别错误率从26%降到了15%;2016年3月DeepMind团队研发的围棋软件AlphaGO以4:1的巨大优势战胜了世界围棋冠军李世石,2017年1月初AlphaGO的升级版Master以60:0的战绩击败了数十位中日韩围棋高手。当前对DNN的研究主要集中在以下领域:

2.1 语音识别领域

微软研究院语音识别专家邓立和俞栋从2009年开始和深度学习专家Geoffery Hinton合作,并于2011年宣布推出基于DNN的识别系统,彻底改变了语音识别的原有技术框架;2012年11月,百度上线了第一款基于DNN的语音搜索系统,成为最早采用DNN技术进行商业语音服务的公司之一;2016年微软使用循环神经网络语言模型(Recurrent Neural Network based Language Modeling,RNN-LM)将switchboard的词识别错误率降低到了6.3%。

2.2 图像识别领域

早在1989年,YannLeCun和他的同事们就提出了卷积神经网络(Convolution Neural Networks,CNN)结构。在之后的很长一段时间里,CNN虽然在诸如手写数字问题上取得过世界最好的成功率,但一直没有被广泛应用。直到2012年10月,Geoffrey Hinton在ILSVRC2012中使用更深的CNN将错误率从26%降到15%,业界才重新认识到CNN在图像识别领域上的巨大潜力;2012年谷歌宣布基于CNN使得电脑直接从一千万张图片中自发学会猫脸识别;2013年DNN被成功应用于一般图片的识别和理解;2016年DeepMind团队基于CNN研发了围棋AI,并取得了巨大成功。

2.3 自然语言处理领域

2003年YoshuaBengio等人提出单词嵌入(word embedding)方法将单词映射到一个矢量空间,然后用ANN来表示N-Gram模型;2014年10月NEC美国研究院将DNN用于自然语言处理(Natural language processing,NLP)的研究工作,其研究员Ronan Collobert和Jason Weston从2008年开始采用单词嵌入技术和多层一维卷积的结构,用于POS Tagging、Chunking、Named Entity Recognition、Semantic Role Labeling等四典型NLP问题;2014年IlyaSutskever提出了基于LSTM的序列到序列(sequence to sequence,seq2seq)网络模型,突破了传统网络的定长输入向量问题,开创了语言翻译领域的新方向;2016年谷歌宣布推出基于DNN的翻译系统GNMT(Google Neural Machine Translation),大幅提高了翻译的精确度与流畅度。

3 深度神经网络常见结构

DNN能够在各领域取得巨大成功,与其模型结构是密不可分的,现代DNN大都可归纳为三种基本结构:序列到序列网络、卷积网络、对抗式生成网络,或由这三种基本网络结构相互组合而成。

3.1 序列到序列网络

序列到序列网络的最显著特征在于,它的输入张量和输出张量长度都是动态的,可视为一串不定长序列,相比传统结构极大地扩展了模型的适应范围,能够对序列转换问题直接建模,并以端到端的方式训练模型。典型应用领域有:自动翻译机(将一种语言的单词序列转换为另一种语言的单词序列),语音识别(将声波采样序列转换为文本单词序列),自动编程机研究(将自然语言序列转换为语法树结构),此类问题的特点在于:

(1)输入和输出数据都是序列(如连续值语音信号/特征、离散值的字符);

(2)输入和输出序列长度都不固定;

(3)输入输出序列长度没有对应关系。

其典型如图1所示。

网络由编码器(encoder)网络和解码器网络(decoder)两部分连接构成:

3.1.1 编码器网络

编码器网络通常是一个递归神经网络(Recurrent Neural Networks,RNN),网络节点一般使用长短期记忆模型(Long Short Term Memory,LSTM)实现,序列中里第t个张量xt的输出yt依赖于之前的输出序列(y0、y1…yt-1),输入序列(x0、x1、x2…)那爸梁笠来问淙胪络,整个序列处理完后得到最终的输出Y以及各层的隐藏状态H。

3.1.2 解码器网络

解码器网络是一个与编码器网络结构相同的RNN网络,以解码器的最终输出(Y,H)为初始输入,使用固定的开始标记S及目标序列G当作输入数据进行学习,目标是使得在X输入下Y和G尽量接近,即损失度函数f(X)取得最小值。

解码器网络属于典型的监督学习结构,可以用BP算法进行训练,而编码器网络的输出传递给了解码器网络,因此也能同时进行训练。网络模型学习完毕后,将序列X输入编码器,并将起始标记S输入解码器,网络就会给出正确的对应序列。

3.2 卷积神经网络

卷积神经网络将传统图像处理的卷积运算和DNN相结合,属于前馈神经网络,是在生物视觉皮层的研究基础上发展而来的,在大型图像处理上有出色表现。CNN一般由多个结构相似的单元组成,每个单元包含卷积层(convolution layer)和池化层(poolinglayer),通常网络末端还连接全联通层(fully-connected layer,FC)及Softmax分类器。这种结构使得CNN非常适合处理二维结构数据,相比其它DNN在图像处理领域上具有天然优势,CNN的另一优势还在于,由于卷积层共享参数的特点,使得它所需的参数数量大为减少,提高了训练速度。其典型结构如图2所示:

3.2.1 卷积层(Convolutional layer)

卷积层由若干卷积核构成,每个卷积核在整个图像的所有通道上同时做卷积运算,卷积核的参数通过BP算法从训练数据中自动获取。卷积核是对生物视觉神经元的建模,在图像局部区域进行的卷积运算实质上是提取了输入数据的特征,越深层的卷积层所能提取到的特征也越复杂。例如前几个卷积层可能提取到一些边缘、梯度、线条、角度等低级特征,后续的卷积层则能认识圆、三角形、长方形等稍微复杂的几何概念,末尾的卷积层则能识别到轮子、旗帜、足球等现实物体。

3.2.2 池化层(Poolinglayer)

池化层是卷积网络的另一重要部分,用于缩减卷积层提取的特征图的尺寸,它实质上是某种形式的下采样:将图像划分为若干矩形区块,在每个区块上运算池化函数得到输出。有许多不同形式的池化函数,常用的有“最大池化”(maxpooling,取区块中数据的最大值)和“平均池化”(averagepooling,取区块中数据的平均值)。池化层带来的好处在于:

(1)减小了数据尺寸,降低参数的数量和计算量;

(2)模糊了各“像素”相对位置关系,泛化了网络识别模式。

但由于池化层过快减少了数据的大小,导致,目前文献中的趋势是在池化运算时使用较小的区块,甚至不再使用池化层。

3.3 生成式对抗网络(Generative Adversarial Network,GAN)

生成式对抗网络最初由Goodfellow等人在NIPS2014年提出,是当前深度学习研究的重要课题之一。它的目的是收集大量真实世界中的数据(例如图像、声音、文本等),从中学习数据的分布模式,然后产生尽可能逼真的内容。GAN在图像去噪,修复,超分辨率,结构化预测,强化学习中等任务中非常有效;另一重要应用则是能够在训练集数据过少的情况下,生成模拟数据来协助神经网络完成训练。

3.3.1 模型结构

GAN网络典型结构如图3所示,一般由两部分组成,即生成器网络(Generator)和识别器网络(Discriminator):

(1)生成器网络的目标是模拟真实数据的分布模式,使用随机噪声生成尽量逼真的数据。

(2)识别器的目标是学习真实数据的有效特征,从而判别生成数据和真实数据的差异度。

3.3.2 训练方法

GAN采用无监督学习进行训练,输入向量z一般由先验概率概率pz(z)生成,通过生成器网络产生数据G(z)。来自训练集的真实数据的分布为pdata (x),GAN网络的实质是学习该特征分布,因此生成的数据G(z)必然也存在对应的分布pg (z),而识别器网络则给出数据来自于真实数据的概率D(x)以及D(G(z) )。整个训练过程的实质就是生成器网络和识别器网络的博弈过程,即找到

4 深度神经网络研究展望

DNN虽然在各大领域都取得了重大的成功,甚至宣告了“智能时代”的来临,但是与人类大脑相比,DNN在许多方面仍有显著差距:

4.1 识别对抗样本的挑战

对抗样本是指在数据集中添加微小的扰动所形成的数据,这些数据能使网络以极高的置信度做出错误的判别。在网络实际使用过程中会带来非常大的问题,比如病毒制造者可能刻意构造样本来绕过基于DNN的安全检查网络。部分研究指出问题的根因可能在于DNN本身的高度非线性,微小的扰动可能在输出时产生巨大的差异。

4.2 构造统一模型的挑战

DNN虽然在很多领域都取得了巨大的成功,但无论是序列到序列网络、卷积网络、还是对抗式生成网络都只适应于特定领域,与此相对的则是,人类只用一个大脑就能完成语音、文本、图像等各类任务,如何构建类似的统一模型,对整个领域都是极大的挑战。

4.3 提高训练效率的挑战

DNN的成功依赖于大量训练数据,据统计要使得网络学会某一特征,平均需要50000例以上的样本,相比而言人类只需要少量的指导即可学会复杂问题,这说明我们的模型和训练方法都还有极大的提高空间。

参考文献

[1]ROSENBLATT F.The perceptron:a probabilistic model for information storage and organization in the brain [M].MIT Press,1988.

[2]HINTON G E,OSINDERO S,TEH Y W.A fast learning algorithm for deep belief nets [J].Neural Computation,1989, 18(07):1527-54.

[3]HINTON G E,SALAKHUTDINOV R R. Reducing the Dimensionality of Data with Neural Networks[J].Science, 2006,313(5786):504.

[4]SEIDE F,LI G,YU D.Conversational Speech Transcription Using Context-Dependent Deep Neural Networks; proceedings of the INTERSPEECH 2011, Conference of the International Speech Communication Association, Florence,Italy,August,F,2011 [C].

[5]OQUAB M,BOTTOU L,LAPTEV I,et al. Learning and Transferring Mid-level Image Representations Using Convolutional Neural Networks; proceedings of the Computer Vision and Pattern Recognition,F,2014 [C].

[6]SILVER D,HUANG A,MADDISON C J,et al.Mastering the game of Go with deep neural networks and tree search [J].Nature,2016,529(7587):484.

[7]XIONG W,DROPPO J,HUANG X,et al.The Microsoft 2016 Conversational Speech Recognition System[J].2016.

[8]LECUN Y,BOTTOU L,BENGIO Y,et al. Gradient-based learning applied to document recognition [J].Proceedings of the IEEE,1998,86(11):2278-324.

[9]BENGIO Y,DELALLEAU O, LE R N,et al.Learning eigenfunctions links spectral embedding and kernel PCA [J].Neural Computation,2004,16(10):2197-219.

[10]LEGRAND J,COLLOBERT R.Recurrent Greedy Parsing with Neural Networks [J].Lecture Notes in Computer Science,2014,8725(130-44.

[11]SUTSKEVER I,VINYALS O,LE Q V. Sequence to Sequence Learning with Neural Networks [J].Advances in Neural Information Processing Systems,2014,4(3104-12.

[12]WU Y,SCHUSTER M,CHEN Z,et al. Google's Neural Machine Translation System:Bridging the Gap between Human and Machine Translation [J]. 2016.

[13]GOODFELLOW I J,POUGETABADIE J,MIRZA M,et al.Generative Adversarial Networks [J].Advances in Neural Information Processing Systems,2014,3(2672-80.

作者挝

卷积神经网络过程范文3

【关键词】微表情识别 卷积神经网络 长短时记忆

1 引言

人们的内心想法通常都会表现在面部表情上,然而在一些极端环境下,人们为了压抑自己的真实内心情感时,他们的面部变化十分微小,我们通常称之为微表情。在刑侦、医学、教育、心理和国防等领域上,微表情的应用前景十分远大, 不过即便是经过训练的人也很难用肉眼来准确的检测和识别微表情。其主要原因就是它的持续时间短,仅为1/5~1/25s,而且动作幅度很小。

人脸表情识别技术早已发展到一定程度了,甚至不少研究团队提出的方法针对6种基本表情的识别率已经达到90%。然而微表情识别技术的研究在近几年来才刚刚开始,如Pfister等提出了一种结合时域插值模型和多核学习的方法来识别微表情; Wu等设计了一种使用Gabor特征和支持向量机的微表情识别系统;唐红梅等在LTP做出改进而提出的MG-LTP算法,然后采用极限学习机对微表情进行训练和分类;Wang等提出了基于判别式张量子空间分析的特征提取方法,并利用极限学习机训练和分类微表情。

上述的识别技术都是基于传统机器学习的方法,而近几年来,利用深度学习技术来解决图像识别问题是当前的研究热点。在ILSVRC-2012图像识别竞赛中,Krizhevsky等利用深度卷积神经网络的自适应特征提取方法,其性能远远超过使用人工提取特征的方法,并且在近几年内的ImageNet大规模视觉识别挑战比赛中连续刷新了世界纪录。

本文决定使用卷积神经网络(CNN)来提取人脸微表情特征,它能让机器自主地从样本数据中学习到表示这些微表情的本质特征,而这些特征更具有一般性。由于微表情的特性,要充分利用微表情的上下文信息才能更为精确的识别微表情,这里我们采用长短时记忆网络(LSTM),它是递归神经网络(RNN)中的一种变换形式,它能够充分的利用数据的上下文信息,在对序列的识别任务中表现优异,近几年来它被充分的利用到自然语言处理、语音识别机器翻译等领域。综上所述,本文提出一种CNN和LSTM结合的微表情识别方法。

2 相关工作

2.1 卷积神经网络模型

卷积神经网络模型(CNN)最早是由LeCun等在1990年首次提出,现已在图像识别领域取得巨大成功,它能够发现隐藏在图片中的特征,相比人工提取的特征更具有区分度,而且不需要对原始数据做过多的预处理。

卷积神经网络(CNN)通过三种方式来让网络所学习到的特征更具有鲁棒性:局部感受野、权值共享和降采样。局部感受野是指每一个卷积层的神经元只能和上一层的一部分神经元连接,而不是一般神经网络里所要求的全连接,这样每一个神经元能够感受到局部的视觉特征,然后在更高层将局部信息进行整合,进而得到整个图片的描述信息。权值共享是指每一个神经元和上一层的部分神经元所连接的每一条边的权值,和当前层其他神经元和上一层连接的每一条边的权值是一样的,首先@样减少了需要训练的参数个数,其次我们可以把这种模式作为提取整个图片特征的一种方式。降采样是指通过将一定范围内的像素点压缩为一个像素点,使图像缩放,减少特征的维度,通常在卷积层之后用来让各层所得到的特征具有平移、缩放不变形,从而使特征具有更强的泛化性。

2.2 长短时记忆型递归神经网络模型

长短时记忆(LSTM)模型是由Hochreiter提出,它解决了传统RNN在处理长序列数据时存在的梯度消失问题,这一切都要归结于LSTM结构的精心设计。一个常规的LSTM结构如图1所示。

每一个LSTM结构都有一个记忆单元Ct(t表示当前时刻),它保存着这个时刻LSTM结构的内部状态,同时里面还有三个门来控制整个结构的变化,它们分别是输入门(xt),忘记门(ft)和输出门(ht),它们的定义如下所示:

(1)

(2)

(3)

(4)

(5)

(6)

其中σ是一个sigmod函数,而则表示输入数据的非线性变化,W和b是模型需要训练得到的参数。等式5展示了当前的记忆单元是由忘记门和上一时刻的内部状态所控制的,ft决定了上一时刻的内部状态对当前时刻的内部状态的影响程度,而it则确定了输入数据的非线性变换得到的状态对当前时刻记忆单元的影响程度。等式6展示了输出门和当前时刻的内部状态决定了该LSTM的输出。正因为这个巧妙的设计,LSTM就能处理长序列的数据,并且能够从输入序列中获取时间上的关联性,这一特性对于微表情的识别尤为重要。

3 网络结构调优和改进

3.1 卷积神经网络设计

本文针对输入大小为96×96的灰度图,构建了4个卷积层(C1,C2,C3,C4),4个池化层(S1,S2,S3,S4),1个全连接层(FC1)和1个Softmax层组成的卷积神经网络结构,如图2所示。卷积核(C1,C2,C3,C4)的大小分别为3×3,3×3,5×5,5×5,分别有32,32,32,64个。池化层的降采样核大小均为2×2,并且全部采用的是最大采样,每一个池化层都在对应的卷积层之后,而在所有的卷积层之后,连接了一个包含256个神经元的全连接层,为了尽可能的避免过拟合问题,本文在全连接层后加入一个p=0.75的Dropout层,除了softmax层,其余层的激活函数全部是采用ReLU,CNN的参数训练都是采用随机梯度下降算法,每一批次包含100张图片,并设置冲量为0.9,学习速率为0.001。

3.2 长短时记忆型递归神经网络设计

尽管CNN已经从人脸微表情图片从学习到了特征,但是单一的CNN模型忽略了微表情在时域上的信息。于是我们提出通过LSTM来学习不同人脸表情在时域上的关联特征。我们构建了多个LSTM层,以及一个softmax层。

我们首先先训练好CNN的参数,然后把训练好的CNN模型,作为一个提取人脸微表情的工具,对于每一帧图片,我们把最后一个全连接层的256维的向量输出作为提取的特征。那么给定一个时间点t,我们取之前的W帧图片([t-W+1,t])。然后将这些图片传入到训练好的CNN模型中,然后提取出W帧图片的特征,如果某一个序列的特征数目不足,那么用0向量补全,每一个特征的维度为256,接着将这些图片的特征依次输入到LSTM的节点中去,只有t时刻,LSTM才会输出它的特征到softmax层。同样LSTM网络的参数训练还是采用随机梯度下降算法,每一批次为50个序列,冲量为0.85,学习速率为0.01。

4 实验

4.1 微表情数据集

该实验的训练数据和测试数据均来自于中国科学院心理研究所傅小兰团队的第2代改进数据库CASMEII。该数据库从26名受试者中捕捉到近3000个面部动作中选取的247个带有微表情的视频,并且给出了微表情的起始和结束时间以及表情标签,由于其中悲伤和害怕表情的数据量并不多,因此本文选取了里面的5类表情(高兴,恶心,惊讶,其他,中性),由于数据库中的图片尺寸不一样并且是彩色图片,因此先将图片进行灰度处理,并归一化到 大小作为网络的输入。本实验采用5折交叉验证的方法,选取245个微表情序列等分成5份,每个序列的图片有10张到70张不等,每份均包含5类表情。

4.2 CNN+LSTM和CNN的对比实验

从图2中可以看出不同策略在五类表情里的识别率。当我们采用单一的CNN模型来对人脸微表情进行分类时,我们采取了dropout策略和数据集扩增策略来防止CNN过拟合。CNN+D表示采取了dropout策略的CNN模型,CNN+A表示采取了数据扩增策略的CNN模型, 即对每一张图片进行了以下四种变换:旋转、水平平移、垂直平移、水平翻转。从而能将数据集扩增至4倍。CNN+AD表示采取了两种策略的CNN模型。CNN+LSTM表示结合了CNN和LSTM的网络模型。

从表1中我们可以看出,添加了策略的CNN,在人微表情识别上的表现要好于没有添加策略的CNN,这可能是因为训练图片较少,而CNN网络层次较深,导致没有添加策略的CNN在训练参数的过程中很容易就过拟合了。而对于CNN+LSTM的表现要好于单一的CNN模型,这说明LSTM的确能够充分利用时域上的特征信息,从而能够更好识别序列数据,这证明了CNN+LSTM的模型可以用于识别人脸微表情的可行性。从表1中,我们还可以看出高兴和惊讶的表情识别率较高,而其他的则相对较低,这可能是因为高兴和惊讶的区分度较大,并且样本较多。

4.3 LSTM的参数调整

下面我们逐一的研究不同参数对CNN+LSTM模型的微表情识别率的影响程度。

图4显示输入的序列个数为100左右能够拥有相对较高的准确率,这说明只有充分利用每一个微表情序列的时域信息,这样,训练出的模型才更加具有一般性。

图5显示出当LSTM隐层的神经元个数为128时,此时的微表情平均识别率最高,这说明隐层需要足够多的神经元才能保留更长的时域信息,对于微表情识别来说,能够拥有更高的精度。

图6显示了LSTM隐层的个数为5时,该模型拥有最好的识别率,这说明较深的LSTM网络才能充分挖掘特征的时域信息。因此经过以上实验,我们得到了一个由5层LSTM,每一层包含128个神经元,并能够处理长度为100的特征序列的模型。

4.4 和非深度学习算法的实验对比

为了比较传统机器学习算法和深度学习算法孰优孰劣,我们使用传统机器学习算法在Casme2进行了一样的实验,从表2中可以看出,本文所提出的CNN+LSTM模型相对于这些传统机器学习模型,有着较为优异的表现。

本文中的实验均是基于Google的开源机器学习库TensorFlow上进行的,硬件平台是dell工作站:Intel(R) Core(TM) i7-5820K CPU、主频3.3GHZ,内存64GB、Nvida GeForce GTX TITAN X GPU、显存12GB。

5 结束语

本文针对传统方法对微表情识别率低,图片预处理复杂的情况,提出了采用卷积神经网络和递归神经网络(LSTM)结合的方式,通过前面的卷积网络层来提取微表情的静态特征,省去了传统机器学习方法,需要人工提取特征的过程,简化了特征提取的工作。然后再通过后面的递归神经网路,充分利用表情特征序列的上下文信息,从而在序列数据中发现隐藏在其中的时域信息,从实验结果中可以看出,利用了时域信息的CNN+LSTM比单纯使用CNN的识别率更高,而且相对于传统机器学习方法也更为优秀。但是当数据量越大时,如果网络的层次比较深的话,模型的训练时间就会很长,并且极度依赖硬件设备,这算是深度学习通有的弊病。为了进一步投入到应用中去,接下来还得提高微表情的识别率,以及在实时环境下,如何能够动态和准确的识别微表情,这些都将会是以后研究的重点。

参考文献

[1]PORTER S,TEN BRINKE L.Reading between the Lies Identifying Concealed and Falsified Emotions in Universal Facial Expressions[J].Psychological Science,2008,19(05):508-514.

[2]Pfister T,Li X,Zhao G,Pietikainen M (2011) Recognising spontaneous facial micro-expressions.2011 Proc IEEE Int Conf Comput Vis (ICCV): IEEE.pp.1449-1456.

[3]Wu Q,Shen X,Fu X (2011) The Machine Knows What You Are Hiding: An Automatic Micro-expression Recognition System.In: D’Mello S,Graesser A,Schuller B,Martin J-C,editors.Affect Comput Intell Interact.Springer Berlin/ Heidelberg. pp.152-162.

[4]唐红梅,石京力,郭迎春,韩力英,王霞. 基于MG-LTP与ELM的微表情识别[J].电视技术,2015,39(03):123-126.

[5]WANG S J,CHEN H L,YAN W J,et al. Face Recognition and Micro-Expression Recognition Based on Discriminant Tensor Subspace Analysis Plus Extreme Learning Machine[J].Neural Processing Letters,2014,39(01):25-43.

[6]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks. In:Advances in Neural Information Processing Systems 25.Lake Tahoe, Nevada,USA:Curran Associates,Inc., 2012.1097?1105

[7]DENG J,DONG W,SOCHER R,et al.Imagenet:A large-scale hierarchical image database [C]//IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE,2009:248-255.

[8]BENGIO Y,DELALLEAU O.On the expressive power of deep archi-tectures[C]//Proc of the 14th International Conference on Discovery Science.Berlin:Springer-Verlag,2011:18-36.

[9]LeCun Y,Boser B,Denker J S,Howard R E,Hubbard W,Jackel L D,Henderson D.Handwritten digit recogni- tion with a back-propagation network. In: Proceedings of Advances in Neural Information Processing Systems 2. San Francisco,CA,USA:Morgan Kaufmann Publishers Inc.,1990.396-404.

[10]S可.卷积神经网络在图像识别上的应用研究[D].杭州:浙江大学[学位论文],2012.

[11]Hochreiter S,Sehmidhuber J.Long Short-Term Memory.Neural Computation,1997,9(08):1735-1780

[12]LUCEY P,COHN J F,KANADE T,et al.The Extended Cohn-Kanade Dataset ( CK + ): A complete dataset for ac- tion unit and emotion-specified expression [C] //IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops (CVPRW).New York:IEEE,2010:94-101.

[13]Dayan P,Abott L F.Theoretical Neuroscience.Cambridge:MIT Press, 2001.

[14]YAN W J, LI X, WANG S J, et al. CASME II: An Improved Spontaneous Micro-Expression Database and the Baseline Evaluation [J].Plos One, 2014,9(01):1-8.

[15]Yandan Wang,John See,Raphael C-W Phan,Yee-Hui Oh. Efficient Spatio-Temporal Local Binary Patterns for Spontaneous Facial Micro-Expression Recognition[J].PLOS ONE,2013,10(05): 11-12

[16]张轩阁,田彦涛,郭艳君,王美茜.基于光流与LBP-TOP特征结合的微表情识别[J].吉林大学学报:信息科学版, 2015,33(05):521-522.

[17]Martín Abadi, Paul BarhamJianmin, Chen el.TensorFlow:Large-Scale Machine Learning on Heterogeneous Distributed Systems[EB/OL].https:///abs/1605.08695.

卷积神经网络过程范文4

Abstract:the mechanical transmission system is widely used in national defense, aerospace, production and other fields of industry. Among them, the gear transmission system is the most frequently used mechanical transmission mechanism. However, because of long time of mechanical work, gear wear and tear parts easily happened, and lead to the occurrence of a variety of mechanical failure. In this paper, the author analyzes the gear transmission process, the system fault diagnosis methods and solutions.

关键词:机械传动系统;故障诊断及解决

Keywords: mechanical transmission system; Troubleshooting and solutions

1. 引言

机械传动系统广泛运用于国防、航天航空、生产等各个领域及行业中,因此,确保其安全性和可靠性具有非常重要的意义。齿轮传动系统,作为当今世界上运用频率最高的机械传动系统之一,对其故障的早期、及时诊断和解决,不仅有利于经济合理地安排设备维修的时间,更能有效避免重大人身或设备伤亡事故的发生。

2. 齿轮传动系统故障的诊断方法

2.1 常见齿轮传动系统故障

根据经验总结,常见的齿轮传动故障一般可分为两种:一种是分布在一个齿轮的各个轮齿上的分布式故障;另一种则是只集中于一个齿轮的某一个或者某几个轮齿上的局部故障。以下就具体的系统故障做诊断方法分析。

2.2 齿轮故障的诊断方法

2.2.1 小波分析方法

小波变换是一种多分辨率的时频分析方法。目前,齿轮传动故障分析中使用最广泛的小波分析方法是二进离散小波变换法。而随着小波分析技术的不断发展,和计算机容量、运算能力的飞速提高,连续小波变换也开始逐步应用于齿轮传动故障的诊断分析。而且,与二进离散小波变换相比,连续小波具有时间和尺度网格划分更细致、小波基无需正交和具有“时(移)不变”特性等多方面优势,更适合机械动态信号的检测和故障诊断。

2.2.2 神经网络分析方法

神经网络,在充分学习经验样本的基础上,将知识转换成为神经网络的权值和阈值,并将其存储在整个神经网络中。虽然神经网络模型可以映射出故障征兆的特征空间和模式空间,但是它不能解释故障诊断的技术内容和实质,因此又相当于知识表达的“黑箱结构”。人工神经元网络,是基于对人大脑中神经元结构特性的模仿,而建立起来的一种简单的非线性动力学互联网络。人工神经元网络的优点很多,例如:具有大规模并行处理能力、适应性学习和处理复杂多模式。BP网络、Hopfield网络和BAM网络是齿轮传动系统故障诊断领域常用的3种神经网络。其中,BP网络可以看作是一个静态的系统,具有模式分类能力。

2.2.3 独立变量分解法

之所以使用独立变量分别是存在两方面原因的。一方面,由于齿轮箱体表面测量到的振动信号是齿轮传动系统的振源信号与系统结构的脉冲响应函数的卷积,直接对齿轮传动的振源信号进行故障诊断非常困难;另一方面,独立分量分析法(ICA)是具有盲源分离和盲反卷积功能的新型多变量数据统计方法。因此,独立分量分析法在齿轮传动系统故障的诊断中具有非常重要的作用。根据ICA盲源分离原理进行齿轮传动故障诊断的方法主要可分为3类:①振动信号的盲源分离;②振动信号的单向分解;③利用部分已知信息进行盲源分离。ICA反卷积运算方法也是多种多样,例如:窄带信号卷积模型法。

3. 齿轮故障的解决方法

3.1 正确安装和使用齿轮传动系统,是预防系统故障发生的重要环节

只有严格遵守相应的安装程序和操作技能要求,对齿轮传动系统进行正确的安装和使用,才能确保机械设备的正常运行。首先,要注意齿轮安装的精度要求。齿轮安置精度的肯定,要在连系传动齿轮的承载本领和使用寿命的基础上举行肯定。其次,不管是新安置、改换齿轮,仍是检验安置齿轮,都应该严格依照技术标准请求执行。最后,为了防止过度损坏齿轮的轴承或出现断轮,安装时切忌用铁锥敲打。

3.2 正确使用和管理剂,是延长机械传动齿轮使用寿命,减少故障发生的关键环节

剂的正确使用和管理,对避免齿轮传动系统故障的发生,延长其使用寿命具有至关重要的作用。一方面,为了防止齿轮的加速老化磨损和使用寿命的不正常缩短,应该结合齿轮的运转情况、工作条件和环境等因素,正确使用剂。首先要科学记录传动齿轮的工作情况、每个部位使用的剂型号、使用时间等。然后根据出厂标准制定维修计划,并结合实际工作环境和季节的变化,及时、适当地更换和加装剂,保证机械传动齿轮的正常工作。另一方面,还应该严格以科学的技术标准为指导,对剂的选择、使用和更换过程进行严格把关。

3.3 完善生产技术和管理,对避免机械传动齿轮故障也有重要意义

虽然机械传动齿轮只是一个生产部件,但它与机械的轴和轴承都是相互联系、相互作用的,每个部件的精度对生产都有重要影响作用。因此,必须严格按照出厂标准,对每一个部件进行安装调试,以保证传动齿轮和相关设备的精度,从而确保生产。日常生产管理过程中,也要在严格按照技术要求进行的基础上,对其进行综合的科学化管理,避免超负荷、故障生产。

4. 结论

齿轮传动系统在国防、农业、工业和生产等领域的机械设备中都有广泛的运用。因此,及时、早期的诊断和解决齿轮传动系统中的故障,确保其安全性和可靠性具有非常重要的意义。首先,本文以小波分析方法、神经网络分析方法和独立变量分解法为例,详细分析了齿轮故障的的诊断方法,并对故障的解决提出了3点建议:①正确安装和使用齿轮传动系统;②正确使用和管理剂;③完善生产技术和管理。

参考文献:

[1]李涛.探析机械传动系统关键零部件故障预测技术[J].中小企业管理与科技,2014(8).

[2]闫慧.关于采煤机械传动齿轮失效问题的探讨[J].科技创新与应用,2011(19).

卷积神经网络过程范文5

(广东外语外贸大学 金融学院,广东 广州 510006)

摘 要:作为一个具有巨大应用前景研究方向,深度学习无论是在算法研究,还是在实际应用(如语音识别,自然语言处理、计算机视觉)中都表现出其强大的潜力和功能.本文主要介绍这种深度学习算法,并介绍其在金融领域的领用.

关键词 :深度学习;受限波兹曼机;堆栈自编码神经网络;稀疏编码;特征学习

中图分类号:TP181 文献标识码:A 文章编号:1673-260X(2015)01-0037-03

1 深度学习的研究意义

深度学习是一类新兴的多层神经网络学习算法,因其缓解了传统训练算法的局部最小性,引起机器学习领域的广泛关注.深度学习的特点是,通过一系列逻辑回归的堆栈作为运算单元,对低层数据特征进行无监督的再表示(该过程称为预学习),形成更加抽象的高层表示(属性类别或特征),以发现数据的分布式特征表示.深度学习的这种特性由于与脑神经科学理论相一致,因此被广泛应用于语音识别、自然语言处理和计算机视觉等领域.

生物学研究表明[1]:在生物神经元突触的输出变化与输入脉冲的持续时间有关,即依赖于持续一定时间的输入过程,输出信号既依赖于输入信号的空间效应和阈值作用,也依赖于时间总和效应.

传统的深度学习方法虽然较好地模拟了生物神经元的一个重要特性——空间总和效应上的深度,却忽视了生物神经元的另一个重要特性——时间总和效应上的宽度[2].因此,对于连续的时间变量问题(如语音识别),传统深度学习方法只能将连续的时间函数关系转化为空间关系,即离散化为时间序列进行处理.这样做有几个弊端:

(1)可能造成深度学习算法对时间采样频率的十分敏感,鲁棒性较差.这使得,不同时间尺度下,需要使用不同的数据和算法.这无疑是十分不方便的;

(2)导致深度网络规模过大,使得计算开销增大、学习效果变差、泛化性能降低;

(3)难以满足实际应用对算法的实时性的要求,更难以体现连续输入信息的累积效应,大大降低深度学习算法的实用性.

因此,对传统的深度学习算法进行改进,使其不但具有“深度”,亦能具有“宽度”,能够对连续时变数据进行更好的特征提取、提高算法效率和实用性,显得势在必行.基于这个切入点,本项目借鉴时频分析与小波分析中的方法,结合数学分析领域中的泛函分析技术,与堆栈自编码神经网络相结合,提出一种新的深度学习算法——深度泛函网络.为了验证算法的有效性及优越性,本项目将把新算法应用于金融时间序列的领域.

在目前国内外对于深度学习的研究中,几乎没有任何将深度学习技术运用于金融数据的研究.通过提出并运用得当的深度序列学习方法,我们期望从金融数据中抽取更高级的、具有经济学意义或预测性意义的高级特征(与人工设计的“技术指标”相对应),并开发相应的量化交易策略,并与其它传统算法进行对比,以说明所提算法的可行性和优越性.

2 国内外研究现状

人类感知系统具有的层次结构,能够提取高级感官特征来识别物体(声音),因而大大降低了视觉系统处理的数据量,并保留了物体有用的结构信息.对于要提取具有潜在复杂结构规则的自然图像、视频、语音和音乐等结构丰富数据,人脑独有的结构能够获取其本质特征[3].受大脑结构分层次启发,神经网络研究人员一直致力于多层神经网络的研究.训练多层网络的算法以BP算法为代表,其由于局部极值、权重衰减等问题,对于多于2个隐含层的网络的训练就已较为困难[4],这使得实际应用中多以使用单隐含层神经网络居多.

该问题由Hinton[5]所引入的逐层无监督训练方法所解决.具体地,该法对深度神经网络中的每一层贪婪地分别进行训练:当前一层被训练完毕后,下一层网络的权值通过对该层的输入(即前一层的输出)进行编码(Encoding,详见下文)而得到.当所有隐含层都训练完毕后,最后将使用有监督的方法对整个神经网络的权值再进行精确微调.在Hinton的原始论文中,逐层贪婪训练是通过受限波兹曼机(Restricted Boltzmann Machine,RBM)以及相对应的对比散度方法(Contrastive Divergence)完成的.与通常的神经元不同,RBM是一种概率生成模型,通常被设计为具有二元输入-输出(称为Bernoulli-Bernoulli RBM).通过对每一层的受限波兹曼机进行自底向上的堆栈(如图1),可以得到深度信念网(Deep Belief Network,DBN).

除了生成式的RBM,还有其他的深度学习结构被广泛使用和研究.如堆栈自编码神经网络(Stacked Auto-Encoder Network,SAEN)[6],以及深度卷积神经网络(Deep Convolutional Network)[7]等.前者的优势在于可以简单地采用通常的BP算法进行逐层预训练,并且引入随机化过程的抗噪声自编码网络(Denoising SAEN)泛化性能甚至超过DBN[8];而后者则通过权值共享结构减少了权值的数量,使图像可以直接作为输入,对平移、伸缩、倾斜等的变形具有高度不变性,因此在图像识别领域有着广泛应用.

近年来,稀疏编码(Sparse Encoding)和特征学习(Feature Learning)成为了深度学习领域较为热门的研究方向.B.A.Olshausen[9]等针对人脑的视觉感知特性,提出稀疏编码的概念.稀疏编码算法是一种无监督学习方法,它用来寻找一组“过完备”的基向量来更高效地表示输入数据的特征,更有效地挖掘隐含在输入数据内部的特征与模式.针对稀疏编码的求解问题,H.Lee等在2007年提出了一种高效的求解算法[10],该算法通过迭代地求解两个不同的凸规划问题以提高效率.同年,H.Lee等发现,当训练样本为图像时,对DBN的训练进行稀疏性的约束有利于算法学习到更高级的特征[11].例如,对手写识别数据集进行训练时,稀疏性约束下的DBN算法自主学习到了“笔画”的概念.

基于[10,11]的研究成果,R.Raina等[12]提出了“自导师学习(Self-Taught Learning)”的概念.与无监督学习(Unsupervised Learning)和半监督学习(Semi-supervised Learning)不同,自导师学习利用大量易获得的无标签数据(可以来自不同类别甚至是未知类别),通过稀疏编码算法来构建特征的高级结构,并通过支持向量机(Support Vector Machine,SVM)作为最终层分类器对少数有标签数据进行分类.这种更接近人类学习方式的模式极大提高了有标签数据的分类准确度.与之类似,H.Lee,R.Grosse等[13]提出了一种具有层次结构的特征学习算法.该算法将卷积神经网络与DBN结合,并通过稀疏正则化(Sparsity Regularization)的手段无监督地学习层次化的特征表征.图像识别实验表明,该算法能够自主学习得出“物体(Object Parts)”的概念,较好体现了人脑视觉感知的层次性和抽象性.

3 发展趋势

由于信号处理、语音识别、金融时间序列分析、视频分析等领域的实时应用需求,研究能够处理连续时变变量、自然体现时间联系结构的深度学习算法(即深度序列学习,Deep Sequence Learning)成为了新的研究热点.G.W.Taylor,G.E.Hinton等[14]提出时间受限波兹曼机(Temporal RBM,TRBM).该模型使用二值隐含元和实值可视元,并且其隐含元和可视元可以与过去一段历史的可视元之间可以有向地被相连.同时,该模型被用于人类动作识别,并展现出了优秀的性能.针对TRBM的一些不足,一些改进算法也不断涌现,如[15,16].然而,该类深度学习模型虽然考虑了动态的时间变量之间的联系,但依然只能处理离散时间问题,本质上还是属于转化为空间变量的化归法.同时,在自编码网络框架下,依然缺乏较好解决时间过程(序列)问题的方案.

4 金融时序数据中的应用

传统金融理论认为,金融市场中的证券价格满足伊藤过程,投资者无法通过对历史数据的分析获得超额利润.然而,大量实证研究却表明,中国股票价格波动具有长期记忆性,拒绝随机性假设,在各种时间尺度上都存在的可以预测的空间.因此,如何建立预测模型,对于揭示金融市场的内在规律,这无论是对于理论研究,还是对于国家的经济发展和广大投资者,都具有重要的意义.

股票市场是一个高度复杂的非线性系统,其变化既有内在的规律性,同时也受到市场,宏观经济环境,以及非经济原因等诸多因素的影响.目前国内外对证券价格进行预测的模型大致分为两类:一是以时间序列为代表的统计预测模型;该类方法具有坚实的统计学基础,但由于金融价格数据存在高噪声、波动大、高度非线性等特征,使得该类传统方法无法提供有效的工具.另一类是以神经网络、支持向量机等模型为代表的数据挖掘模型.该类模型能够处理高度非线性的数据,基本上从拟合的角度建模.虽然拟合精度较高,但拟合精度的微小误差往往和市场波动互相抵消,导致无法捕捉获利空间甚至导致损失,外推预测效果无法令人满意.因此,建立即能够处理非线性价格数据,又有良好泛化能力的预测模型势在必行.

——————————

参考文献:

〔1〕Zhang L I, Tao H W, Holt C E, et al. A critical window for cooperation and competition among developing retinotectal synapses[J]. Nature, 1998, 395(6697).

〔2〕37-44.欧阳楷,邹睿.基于生物的神经网络的理论框架——神经元模型[J].北京生物医学工程,1997,16(2):93-101.

〔3〕Rossi A F, Desimone R, Ungerleider L G. Contextual modulation in primary visual cortex of macaques[J]. the Journal of Neuroscience, 2001, 21(5): 1698-1709.

〔4〕Bengio Y. Learning deep architectures for AI[J]. Foundations and trends? in Machine Learning, 2009, 2(1):1-127.

〔5〕Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets[J]. Neural computation, 2006, 18(7): 1527-1554.

〔6〕Vincent P, Larochelle H, Bengio Y, et al. Extracting and composing robust features with denoising autoencoders[C]//Proceedings of the 25th international conference on Machine learning. ACM, 2008: 1096-1103.

〔7〕Lee H, Grosse R, Ranganath R, et al. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations[C]//Proceedings of the 26th Annual International Conference on Machine Learning. ACM, 2009: 609-616.

〔8〕Vincent P, Larochelle H, Lajoie I, et al. Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion[J]. The Journal of Machine Learning Research, 2010, 9999: 3371-3408.

〔9〕Olshausen B A, Field D J. Sparse coding with an overcomplete basis set: A strategy employed by V1?[J]. Vision research, 1997, 37(23): 3311-3325.

〔10〕Lee H, Battle A, Raina R, et al. Efficient sparse coding algorithms[J]. Advances in neural information processing systems, 2007, 19: 801.

〔11〕Lee H, Ekanadham C, Ng A Y. Sparse deep belief net model for visual area V2[C]//NIPS. 2007, 7: 873-880.

〔12〕Raina R, Battle A, Lee H, et al. Self-taught learning: transfer learning from unlabeled data[C]//Proceedings of the 24th international conference on Machine learning. ACM, 2007: 759-766.

〔13〕Lee H, Grosse R, Ranganath R, et al. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations[C]//Proceedings of the 26th Annual International Conference on Machine Learning. ACM, 2009: 609-616.

〔14〕Taylor G W, Hinton G E, Roweis S T. Modeling human motion using binary latent variables[J]. Advances in neural information processing systems, 2007, 19: 1345.

卷积神经网络过程范文6

关键词:BP神经网络;Morlet小波;决策理论;Hilbert变换

中图分类号:TP18文献标识码:A文章编号:1009-3044(2009)32-9050-02

Wireless Signal Simulation Algorithm for Automatic Identification

ZHANG Meng

(Purchasing, China Railway Communication Co., Ltd., Beijing 100140, China)

Abstract: We have firstly discussed the modulation distinguishing method based on rational budgeting theory through the method of comparing Tine-Frequency analysis of the analysis signals formed by Hibert Transform . And on the basic of analyzing the fault of this method ,we put forward the distinguishing method based on NN. When NN is distinguishing signals, it mainly depends on the different positions of peak. Wavelet Transform here equals a mathematic microscope .it reflects the inexorable links between the signal categories and the positions of peak. Taking advantage Wavelet Transform and the simple three-layer BP NN, the more accurate Time-Frequency characteristics of signals to be distinguishing can be drawn.

Keywords: BP ANN; Morlet Wavelet; BudgetingTheory; Hibert Transform

在军事电子对抗等多方面的重要应用,通信信号调制的自动识别分类问题也相继发展起来。无线电信号调制实识别就是要判断截获信号的调制种类。为此,需要事先对其特征进行选定,并确定它们与相应调制种类相联系的取值范围,然后再对信号进行特征测量,并根据测量结果对信号的调制进行分类判决。

如果把无线电信号的调制识别与分类视为一种模式识别问题,那末,从模式识别理论来看,模式分类是模式识别的一个子系统。因此,在模式识别理论框架下,无线电信号的调制识别是一个总体概念。而调制分类则只是调制识别的一个分支[1]。

1 基于决策理论的模拟调制方式识别方法

此算法主要实现区分AM、FM、DSB、LSB、USB、VSB、AM-FM等七种调制样式,所分析的对象序列s(n)是由接收机中频输出并经过采样得到的,这样s(n)的采样频率和载频都已知,分别记做Fs和Fc。算法分两个步骤:

第一步,根据信号的包络特征将AM、USB、LSB与FM区分开,因为前三种信号的包络不为恒定值,而FM的包络理论上是恒定值(实际中接近恒定)。因而可以从中提取一个特征参数R。参数R反映了零中心归一化包络的功率谱特征,FM的零中心归一化包络接近零,因其参数R应远远小于前三种信号。实际中若R

第二步,根据信号频谱的对称性,将AM与USB与LSB区分开,因为AM的单边频谱关于载频是近似对称的,USB和LSB的单边频谱对于载频来说分别只有上边频和下边频。因而可以从中提取另一个特征参数 。理论上,由于AM的上下边频对称,所以AM的P接近零,而LSB和USB的P分别接近1和-1。实际中若|P|< 0.5,判为AM信号,若P>0.5,判为LSB,P

第三步,零中心非弱信号段瞬时相位非线性分量绝对值的标准偏差:σap 。

σap由下式定义:

(1)

式中,at是判断弱信号段的一个幅度判决门限电平,c是在全部取样数据Ns中属于非弱信号值的个数,?准NL(i)是经零中心化处理后瞬时相位的非线性分量,在载波完全同步时,有:?准NL(i)= φ(i)-φ0

式中:,φ(i)为瞬时相位。用σap来区分是DSB信号还是AM-FM信号。

第四步,零中心非弱信号段瞬时相位非线性分量的标准偏差:σdp。

σdp由下式定义:

(2)

σdp主要用来区别不含直接相位信息的AM、VSB信号类和含直接相位信息的DSB、LSB、USB、AM-FM信号类,其判决门限设为t(σdp) 。

2 决策论方法的改进

前面介绍的基于决策理论的模拟调制方式识别方法存在缺陷针对上述问题,人们又提出了基于神经网络(NN)的识别方法。

2.1 BP网络作为分类器的模拟调制方式识别方法

该算法用基于有监督训练的神经网络模型BP网络作为分类器,用BP模型多层感知网络与反向传播学习算法相结合,通过不断比较网络的实际输出与指定期望输出间的差异来不断的调整权值,直到全局(或局部)输出差异极小值,不难想象该神经网络对模型细节中的诸多问题均有良好效果。

基于NN的模拟信号调制识别框图[2]如图1所示,该NN采用三层结构即,1个输入层,1个输出层,1个中间层。中间层可采用多层。但由于受到计算复杂性的限制,目前采用单层或双层中间层的NN比较多见。本图中间层采用单层25个节点,输入层和输出层的节点数取决于信号特征参数的个数和信号的分类数,因而分别为4和7。

神经网络具有信息分布式存储、大规模自适应并行处理和高度容错特性,适用于模式识别的基础。其学习能力和容错特性对不确定性模式识别具有独到之处[3]。通信信号在传播过程中受到信道噪声的污染,接受到的信号是时变的、非稳定的,而小波变换特别适用于非稳定信号的分析,其作为一种信息提取的工具已得到较广泛的应用。小波变换具有时频局部性和变焦特性,而神经网络具有自学习、自适应、鲁棒性、容错性和推广能力,两者优势的结合可以得到良好的信号模式自动识别特性,从而形成各种处理方法。

2.2 基于小波的特征提取和识别方法

小波特别适用于非稳定信号的分析,作为一种特征提取的工具已得到较为广泛的应用。小波的重要特点是它能够提供一个信号局部化的频域信息。小波变换能够将各种交织在一起的不同频率组成的混合信号分解成不同频率的块信号,它对不同的时间和频率有不同的解释,因此,对调制信号进行小波分解,得到不同水平下的细节信息,这些信息对于不同类别的调制信号来说是有差别的[4]。

在实际应用中,小波变换常用的定义有下列两种:

(3)

(4)

式中,星号*表示共轭。式(3)表示小波变换是输入信号想x(t)和小波函数φα, τ(t)的相关积分;式(4)用卷积代替了相关积分。两种定义在本质上是一致的。本为采用后者。

将式(4)中的τ和t离散化,即令τ=kTs,及t=iTs,得连续小波变换公式(4)的离散形式,又称小波系数:

(5)

Morlet小波是一种单频复正弦调制高斯波,也是最常用的复值小波。其实、频两域都具有很好的局部性,它的时域形式如下:

(6)

虽然信号特征有很多种,神经网络在进行信号识别时,主要是依据谱峰位置的不同,因此提取信号特征主要任务就是寻找信号类别与谱峰位置间的必然联系。而小波变换在这里则相当于一个数学显微镜,通过它,可以详细了解各类信号在不同低频段上的频谱构成。

整个系统在PC机上进行仿真,采用Windows2000操作系统和Matlab6.1和Cool Edit2.0进行声音录制。

在仿真中,采用44K的采样率,录制了一段歌声和一段笑声,用Matlab生成22K的正弦载波,并根据第二章的各调制样式的定义,生成了各个仿真的调制波形。并转化成.wav文件录在电脑中。

3 结束语

本文仅限于理论理论研究,用MatLab仿真实现,没有用DSP芯片等物理电路实现,仅为实际实现提供理论指导。

参考文献:

[1] 罗利春.无线电侦察信号分析与处理[M].北京:国防工业出版社,2003.

[2] 杨小牛,楼才义,徐建良.软件无线电原理与应用[M].北京:电子工业出版社,2001.