前言:中文期刊网精心挑选了卷积神经网络的算法范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。
卷积神经网络的算法范文1
中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2016)35-0209-03
Research and Implementation of Image Classification Based on Convolution Neural Network
WANG Chao
(Information Engineering Institute,East China University of Technology, Nanchang 330013, China)
Abstract: The problem of image classification has been the core problem in computer vision. A good solution is developed by further study which can solve the problem of extracting image features in image classification. In order to learn image features efficiently, constructing the machine learning model with hidden layer as well as training a large number of image data will eventually promote the accuracy of image classification or prediction. This paper is intended as an in-depth Caffe learning framework to construct a small image data-base. The convolutional neural network provided by Caffe framework will make a training analysis of the data set and then extract the information of target image features. These can be used for the final prediction of the target image. Compared with the traditional image classification algorithm, the accuracy of the prediction will be greatly improved.
Key words: image classification; deep learning; Caffe framework; Convolutional Neural Network
S着计算机与互联网技术的快速发展,我们已经进入了一个以图像构建的世界。但是面临有海量图像信息却找不到所需要的数据的困境,因而图像分类技术应运而生。通过各种机器学习算法使计算机自动将各类图像进行有效管理和分类,但是由于图像内容包含着大量复杂且难以描述的信息,图像特征提取和相识度匹配技术也存在一定的难题,要使得计算机能够像人类一样进行分类还是有很大的困难。
深度学习是近十年来人工智能领域取得的重要突破,在图像识别中的应用取得了巨大的进步,传统的机器学习模型属于神经网络模型,神经网络有大量的参数,经常会出现过拟合问题,因而对目标检测准确率上比较低。本文采用卷积神经网络框架,图像特征是从大数据中自动学习得到,而且神经网络的结构深由很多层组成,通过重复利用中间层的计算单元来减少参数,在特征汇聚阶段引入图像中目标的显著信信息,增强了图像的特征表达能力。通过在图像层次稀疏表示中引入图像显著信息,加强了图像特征的语义信息,得到图像显著特征表示,通过实验测试,效果比传统的图像分类算法预测的准确度有明显的提升。
1 基于卷积神经网络的图像分类方法
1.1 人工神经网络
人工神经网络(Artificial Neural Network, ANN)是描述生物神经网络运行机理和工作过程的抽象和简化了的数学物理模型,使用路径权值的有向图来表示模型中的人工神经元节点和神经元之间的连接关系,之后通过硬件或软件程序实现上述有向图的运行[1]。目前最典型的人工神经网络算法包括:目前最典型的人工神经网络有BP网络 [2]Hopfield网络[3]Boltzmann机[4]SOFM网络[5]以及ART网络人工神经网络[6],算法流程图如图1所示[7]。
1.2 卷积神经网络框架的架构
Caffe是Convolutional Architecture for Fast Feature Embedding的缩写[8],意为快速特征嵌入的卷积结构,包含最先进的深度学习算法以及一系列的参考模型,图2表示的是卷积神经网络结构图。Caffe深度学习框架主要依赖CUDA,IntelMKL,OpenCV,glog软件以及caffe文件。本文使用的各个软件版本说明,如表1所示。
Caffe深度学习框架提供了多个经典的卷积神经网络模型,卷积神经网络是一种多层的监督学习神经网络,利用隐含层的卷积层和池采样层是实现卷积神经网络特征提取功能,卷积神经网络模型通过采取梯度下降法最小化损失函数对网络中的权重参数逐层反向调节,通过频繁的迭代训练来提高网络的精度。卷积神经网络使用权值共享,这一结构类似于生物神经网络,从而使网络的复杂程度明显降低,并且权值的数量也有大幅度的减少,本文使用这些模型直接进行训练,和传统的图像分类算法对比,性能有很大的提升,框架系统训练识别基本流程如图3表示。
1.3 图像分类特征提取
卷积神经网络的结构层次相比传统的浅层的神经网络来说,要复杂得多,每两层的神经元使用了局部连接的方式进行连接、神经元共享连接权重以及时间或空间上使用降采样充分利用数据本身的特征,因此决定了卷积神经网络与传统神经网络相比维度大幅度降低,从而降低计算时间的复杂度。卷积神经网络主要分为两个过程,分为卷积和采样,分别的对上层数据进行提取抽象和对数据进行降维的作用。
本文以Caffe深度学习框架中的 CIFAR-10数据集的猫的网络模型为例,如图4所示,对卷积神经网络模型进行训练。CIFAR-10是一个标准图像图像训练集,由六万张图像组成,共有10类(分为飞机,小汽车,鸟,猫,鹿,狗,青蛙,马,船,卡车),每个图片都是32×32像素的RGB彩色图像。通过对数据进行提取和降维的方法来提取图像数据的特征。
2 实验分析
将猫的图像训练集放在train的文件夹下,并统一修改成256×256像素大小,并对猫的图像训练集进行标记,标签为1,运行选择cpu进行训练,每进行10次迭代进行一次测试,测试间隔为10次,初始化学习率为0.001,每20次迭代显示一次信息,最大迭代次数为200次,网络训练的动量为0.9,权重衰退为0.0005,5000次进行一次当前状态的记录,记录显示如下图5所示,预测的准度在98%以上。而相比传统的图像分类算法BP神经网络网络的收敛性慢,训练时间长的,网络的学习和记忆具有不稳定性,因而卷e神经网络框架在训练时间和预测准度上具有非常大的优势。
3 结束语
本文使用Caffe深度学习框架,以CIFAR-10数据集中猫的网络模型为例,构建小型猫的数据集,提取猫的图象特征信息,最后和目标猫图像进行预测,并和传统的图像分类算法进行对比,预测的准确率有很大的提升。
参考文献:
[1] 杨铮, 吴陈沭, 刘云浩. 位置计算: 无线网络定位与可定位性[M]. 北京: 清华大学出版社, 2014.
[2] 丁士折. 人工神经网络基础[M]. 哈尔滨: 哈尔滨工程大学出版社, 2008.
[3] McClelland J L, Rumelhart D E, PDP Research Group. Parallel distributedprocessing[J]. Explorations in the microstructure of cognition, 1986, 2.
[4] Hopfield J J. Neural networks and physical systems with emergent collectivecomputational abilities[J]. Proceedings of the national academy of sciences, 1982, 79(8): 2554-2558.
[5] Ackley D H, Hinton G E, Sejnowski T J. A learning algorithm for boltzmannmachines[J]. Cognitive science, 1985, 9(1): 147-169.
[6] Kohonenmaps T. Self-Organized Formation of Topologically Correct Feature Maps[J]. Biological Cybernetics,1982, 43(1): 59-69.
卷积神经网络的算法范文2
关键词:深度学习;机器学习;卷积神经网络
1概述
深度学习(Deep Learning)是人工智能、图像建模、模式识别、神经网络、最优化理论和信号处理等领域的交叉学科,主要构建和模拟人脑进行分析学习,它属于机器学习的新兴领域。
2大数据与深度学习
目前,光学检测、互联网、用户数据、互联网、金融公司等许多领域都出现了海量数据,采用BP算法对于训练神经网络出现了梯度越来越稀疏、收敛到局部最小值只能用有标签的数据来训练等缺点。Hinton于2006年提出了深度学习的概念,Lecun等人提出了卷积神经网络,卷积神经网络利用空间关系减少参数数目以提高训练性能。
CPU和GPU计算能力大幅提升,为深度学习提供了硬件平台和技术手段,在海量大数据处理技术上解决了早期神经网络训练不足出现的过拟合、泛化能力差等问题。
大数据和深度学习必将互相支撑,推动科技发展。
3深度学习模型
深度学习模型实际上是一个包含多个隐藏层的神经网络,目前主要有卷积神经网络,深深度置信神经网络,循环神经网络。
1)卷积神经网络
在机器学习领域,卷积神经网络属于前馈神经网络的一种,神经元不再是全连接的模式,而是应用了局部感受区域的策略。然而传统的神经网络使用神经元间全连接的网络结构来处理图像任务,因此,出现了很多缺陷,导致模型⑹急剧增加,及其容易过拟合。
在卷积神经网络中,网络中的神经元只与前一层的部分神经元连接,利用图像数据的空间结构,邻近像素间具有更强的相关性,单个神经元仅对局部信息进行响应,相邻神经元感受区域存在重叠,因此,综合所有神经元可以得到全局信息的感知。
另外,一个卷积层中的所有神经元均由同一个卷积核对不同区域数据响应而得到,即共享同一个卷积核,使得卷积层训练参数的数量急剧减少,提高了网络的泛化能力。
一般在卷积层后面会进行降采样操作,对卷积层提取的特征进行聚合统计。降采样区域一般不存在重叠现象。降采样简化了卷积层的输出信息,进一步减少了训练参数的数量,增强了网络的泛化能力。
卷积神经网络实现了局部特征的自动提取,使得特征提取与模式分类同步进行,适用于处理高分辨率的图像数据。目前,卷积神经网络在图像分类、自然语言处理等领域得到广泛应用。
2)深度置信网络
深度置信网络是一种生成模型,网络中有若干隐藏层,同一隐藏层内的神经元没有连接,隐藏层间的神经元全连接。神经网络经过“反向运行”得到输入数据。
深度置信网络可以用做生成模型,通过前期的逐层无监督学习,神经网络可以较好的对输入数据进行描述,然后把训练好的神经网络看作深度神经网络,最后得到分类任务的深度神经网络。
深度置信网络可以用于图像识别、图像生成等领域,深度置信网络可以进行无监督或半监督的学习,利用无标记数据进行预训练,提高神经网络性能。但近几年由于卷积神经网络的飞速发展,深度置信网络已经很少被提及。
3)循环神经网络
循环神经网络是一种专门用于处理时序数据的神经网络,它与典型的前馈型神经网络最大区别在于网络中存在环形结构,隐藏层内部的神经元是互相连接的,可以存储网络的内部状态,其中包含序列输入的历史信息,实现了对时序动态行为的描述。这里的时序并非仅仅指代时间概念上的顺序,也可以理解为序列化数据间的相对位置。如语音中的发音顺序,某个英语单词的拼写顺序等。序列化输入的任务都可以用循环神经网络来处理。如语音、视频、文本等。对于序列化数据,每次处理时输入为序列中的一个元素,比如单个字符、单词、音节,期望输出为该输入在序列数据中的后续元素。循环神经网络可以处理任意长度的序列化数据。
循环神经网络可以用于机器翻译、连写字识别、语音识别等。循环神经网络和卷积网络结合,将卷积神经网络用于检测并识别图像中的物体,循环神经网络用于识别出物体的名称为输入,生成合理的语句,从而实现对图像内容的描述。
4深度学习应用
1)语音识别
语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。其应用领域主要有语音输入系统、语音控制系统和智能对话查询系统,语音识别极大地推动了人工智能的快速发展。1952年Davis等人研究了世界上第一个能识别10个英文数字发音的实验系统。大规模的语音识别研究是在20世纪70年代以后,在小词汇量、孤立词的识别方面取得了实质性的进展。2012年,微软研究院使用深度神经网络应用在语音识别上将识别错误率降低了20%,取得了突破性的进展。2015年11月17日,浪潮集团联合全球可编程芯片巨头Altera,以及中国最大的智能语音技术提供商科大讯飞,共同了一套DNN语音识别方案。
2)图像分析
图像是深度学习最早尝试的应用领域。1989年,LeCun和他的同事们就发表了卷积神经网络的工作。2012年10月,Hinton和他的两个学生用更深的CNN在ImageNet挑战上获得了第一名,使图像识别向前跃进了一大步。
自2012年以来,深度学习应用于图像识别使得准确率大大上升,避免了消耗人工特征抽取的时间,极大地提升了效率,目前逐渐成为主流的图像识别与检测方法。
卷积神经网络的算法范文3
【关键词】微表情识别 卷积神经网络 长短时记忆
1 引言
人们的内心想法通常都会表现在面部表情上,然而在一些极端环境下,人们为了压抑自己的真实内心情感时,他们的面部变化十分微小,我们通常称之为微表情。在刑侦、医学、教育、心理和国防等领域上,微表情的应用前景十分远大, 不过即便是经过训练的人也很难用肉眼来准确的检测和识别微表情。其主要原因就是它的持续时间短,仅为1/5~1/25s,而且动作幅度很小。
人脸表情识别技术早已发展到一定程度了,甚至不少研究团队提出的方法针对6种基本表情的识别率已经达到90%。然而微表情识别技术的研究在近几年来才刚刚开始,如Pfister等提出了一种结合时域插值模型和多核学习的方法来识别微表情; Wu等设计了一种使用Gabor特征和支持向量机的微表情识别系统;唐红梅等在LTP做出改进而提出的MG-LTP算法,然后采用极限学习机对微表情进行训练和分类;Wang等提出了基于判别式张量子空间分析的特征提取方法,并利用极限学习机训练和分类微表情。
上述的识别技术都是基于传统机器学习的方法,而近几年来,利用深度学习技术来解决图像识别问题是当前的研究热点。在ILSVRC-2012图像识别竞赛中,Krizhevsky等利用深度卷积神经网络的自适应特征提取方法,其性能远远超过使用人工提取特征的方法,并且在近几年内的ImageNet大规模视觉识别挑战比赛中连续刷新了世界纪录。
本文决定使用卷积神经网络(CNN)来提取人脸微表情特征,它能让机器自主地从样本数据中学习到表示这些微表情的本质特征,而这些特征更具有一般性。由于微表情的特性,要充分利用微表情的上下文信息才能更为精确的识别微表情,这里我们采用长短时记忆网络(LSTM),它是递归神经网络(RNN)中的一种变换形式,它能够充分的利用数据的上下文信息,在对序列的识别任务中表现优异,近几年来它被充分的利用到自然语言处理、语音识别机器翻译等领域。综上所述,本文提出一种CNN和LSTM结合的微表情识别方法。
2 相关工作
2.1 卷积神经网络模型
卷积神经网络模型(CNN)最早是由LeCun等在1990年首次提出,现已在图像识别领域取得巨大成功,它能够发现隐藏在图片中的特征,相比人工提取的特征更具有区分度,而且不需要对原始数据做过多的预处理。
卷积神经网络(CNN)通过三种方式来让网络所学习到的特征更具有鲁棒性:局部感受野、权值共享和降采样。局部感受野是指每一个卷积层的神经元只能和上一层的一部分神经元连接,而不是一般神经网络里所要求的全连接,这样每一个神经元能够感受到局部的视觉特征,然后在更高层将局部信息进行整合,进而得到整个图片的描述信息。权值共享是指每一个神经元和上一层的部分神经元所连接的每一条边的权值,和当前层其他神经元和上一层连接的每一条边的权值是一样的,首先@样减少了需要训练的参数个数,其次我们可以把这种模式作为提取整个图片特征的一种方式。降采样是指通过将一定范围内的像素点压缩为一个像素点,使图像缩放,减少特征的维度,通常在卷积层之后用来让各层所得到的特征具有平移、缩放不变形,从而使特征具有更强的泛化性。
2.2 长短时记忆型递归神经网络模型
长短时记忆(LSTM)模型是由Hochreiter提出,它解决了传统RNN在处理长序列数据时存在的梯度消失问题,这一切都要归结于LSTM结构的精心设计。一个常规的LSTM结构如图1所示。
每一个LSTM结构都有一个记忆单元Ct(t表示当前时刻),它保存着这个时刻LSTM结构的内部状态,同时里面还有三个门来控制整个结构的变化,它们分别是输入门(xt),忘记门(ft)和输出门(ht),它们的定义如下所示:
(1)
(2)
(3)
(4)
(5)
(6)
其中σ是一个sigmod函数,而则表示输入数据的非线性变化,W和b是模型需要训练得到的参数。等式5展示了当前的记忆单元是由忘记门和上一时刻的内部状态所控制的,ft决定了上一时刻的内部状态对当前时刻的内部状态的影响程度,而it则确定了输入数据的非线性变换得到的状态对当前时刻记忆单元的影响程度。等式6展示了输出门和当前时刻的内部状态决定了该LSTM的输出。正因为这个巧妙的设计,LSTM就能处理长序列的数据,并且能够从输入序列中获取时间上的关联性,这一特性对于微表情的识别尤为重要。
3 网络结构调优和改进
3.1 卷积神经网络设计
本文针对输入大小为96×96的灰度图,构建了4个卷积层(C1,C2,C3,C4),4个池化层(S1,S2,S3,S4),1个全连接层(FC1)和1个Softmax层组成的卷积神经网络结构,如图2所示。卷积核(C1,C2,C3,C4)的大小分别为3×3,3×3,5×5,5×5,分别有32,32,32,64个。池化层的降采样核大小均为2×2,并且全部采用的是最大采样,每一个池化层都在对应的卷积层之后,而在所有的卷积层之后,连接了一个包含256个神经元的全连接层,为了尽可能的避免过拟合问题,本文在全连接层后加入一个p=0.75的Dropout层,除了softmax层,其余层的激活函数全部是采用ReLU,CNN的参数训练都是采用随机梯度下降算法,每一批次包含100张图片,并设置冲量为0.9,学习速率为0.001。
3.2 长短时记忆型递归神经网络设计
尽管CNN已经从人脸微表情图片从学习到了特征,但是单一的CNN模型忽略了微表情在时域上的信息。于是我们提出通过LSTM来学习不同人脸表情在时域上的关联特征。我们构建了多个LSTM层,以及一个softmax层。
我们首先先训练好CNN的参数,然后把训练好的CNN模型,作为一个提取人脸微表情的工具,对于每一帧图片,我们把最后一个全连接层的256维的向量输出作为提取的特征。那么给定一个时间点t,我们取之前的W帧图片([t-W+1,t])。然后将这些图片传入到训练好的CNN模型中,然后提取出W帧图片的特征,如果某一个序列的特征数目不足,那么用0向量补全,每一个特征的维度为256,接着将这些图片的特征依次输入到LSTM的节点中去,只有t时刻,LSTM才会输出它的特征到softmax层。同样LSTM网络的参数训练还是采用随机梯度下降算法,每一批次为50个序列,冲量为0.85,学习速率为0.01。
4 实验
4.1 微表情数据集
该实验的训练数据和测试数据均来自于中国科学院心理研究所傅小兰团队的第2代改进数据库CASMEII。该数据库从26名受试者中捕捉到近3000个面部动作中选取的247个带有微表情的视频,并且给出了微表情的起始和结束时间以及表情标签,由于其中悲伤和害怕表情的数据量并不多,因此本文选取了里面的5类表情(高兴,恶心,惊讶,其他,中性),由于数据库中的图片尺寸不一样并且是彩色图片,因此先将图片进行灰度处理,并归一化到 大小作为网络的输入。本实验采用5折交叉验证的方法,选取245个微表情序列等分成5份,每个序列的图片有10张到70张不等,每份均包含5类表情。
4.2 CNN+LSTM和CNN的对比实验
从图2中可以看出不同策略在五类表情里的识别率。当我们采用单一的CNN模型来对人脸微表情进行分类时,我们采取了dropout策略和数据集扩增策略来防止CNN过拟合。CNN+D表示采取了dropout策略的CNN模型,CNN+A表示采取了数据扩增策略的CNN模型, 即对每一张图片进行了以下四种变换:旋转、水平平移、垂直平移、水平翻转。从而能将数据集扩增至4倍。CNN+AD表示采取了两种策略的CNN模型。CNN+LSTM表示结合了CNN和LSTM的网络模型。
从表1中我们可以看出,添加了策略的CNN,在人微表情识别上的表现要好于没有添加策略的CNN,这可能是因为训练图片较少,而CNN网络层次较深,导致没有添加策略的CNN在训练参数的过程中很容易就过拟合了。而对于CNN+LSTM的表现要好于单一的CNN模型,这说明LSTM的确能够充分利用时域上的特征信息,从而能够更好识别序列数据,这证明了CNN+LSTM的模型可以用于识别人脸微表情的可行性。从表1中,我们还可以看出高兴和惊讶的表情识别率较高,而其他的则相对较低,这可能是因为高兴和惊讶的区分度较大,并且样本较多。
4.3 LSTM的参数调整
下面我们逐一的研究不同参数对CNN+LSTM模型的微表情识别率的影响程度。
图4显示输入的序列个数为100左右能够拥有相对较高的准确率,这说明只有充分利用每一个微表情序列的时域信息,这样,训练出的模型才更加具有一般性。
图5显示出当LSTM隐层的神经元个数为128时,此时的微表情平均识别率最高,这说明隐层需要足够多的神经元才能保留更长的时域信息,对于微表情识别来说,能够拥有更高的精度。
图6显示了LSTM隐层的个数为5时,该模型拥有最好的识别率,这说明较深的LSTM网络才能充分挖掘特征的时域信息。因此经过以上实验,我们得到了一个由5层LSTM,每一层包含128个神经元,并能够处理长度为100的特征序列的模型。
4.4 和非深度学习算法的实验对比
为了比较传统机器学习算法和深度学习算法孰优孰劣,我们使用传统机器学习算法在Casme2进行了一样的实验,从表2中可以看出,本文所提出的CNN+LSTM模型相对于这些传统机器学习模型,有着较为优异的表现。
本文中的实验均是基于Google的开源机器学习库TensorFlow上进行的,硬件平台是dell工作站:Intel(R) Core(TM) i7-5820K CPU、主频3.3GHZ,内存64GB、Nvida GeForce GTX TITAN X GPU、显存12GB。
5 结束语
本文针对传统方法对微表情识别率低,图片预处理复杂的情况,提出了采用卷积神经网络和递归神经网络(LSTM)结合的方式,通过前面的卷积网络层来提取微表情的静态特征,省去了传统机器学习方法,需要人工提取特征的过程,简化了特征提取的工作。然后再通过后面的递归神经网路,充分利用表情特征序列的上下文信息,从而在序列数据中发现隐藏在其中的时域信息,从实验结果中可以看出,利用了时域信息的CNN+LSTM比单纯使用CNN的识别率更高,而且相对于传统机器学习方法也更为优秀。但是当数据量越大时,如果网络的层次比较深的话,模型的训练时间就会很长,并且极度依赖硬件设备,这算是深度学习通有的弊病。为了进一步投入到应用中去,接下来还得提高微表情的识别率,以及在实时环境下,如何能够动态和准确的识别微表情,这些都将会是以后研究的重点。
参考文献
[1]PORTER S,TEN BRINKE L.Reading between the Lies Identifying Concealed and Falsified Emotions in Universal Facial Expressions[J].Psychological Science,2008,19(05):508-514.
[2]Pfister T,Li X,Zhao G,Pietikainen M (2011) Recognising spontaneous facial micro-expressions.2011 Proc IEEE Int Conf Comput Vis (ICCV): IEEE.pp.1449-1456.
[3]Wu Q,Shen X,Fu X (2011) The Machine Knows What You Are Hiding: An Automatic Micro-expression Recognition System.In: D’Mello S,Graesser A,Schuller B,Martin J-C,editors.Affect Comput Intell Interact.Springer Berlin/ Heidelberg. pp.152-162.
[4]唐红梅,石京力,郭迎春,韩力英,王霞. 基于MG-LTP与ELM的微表情识别[J].电视技术,2015,39(03):123-126.
[5]WANG S J,CHEN H L,YAN W J,et al. Face Recognition and Micro-Expression Recognition Based on Discriminant Tensor Subspace Analysis Plus Extreme Learning Machine[J].Neural Processing Letters,2014,39(01):25-43.
[6]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks. In:Advances in Neural Information Processing Systems 25.Lake Tahoe, Nevada,USA:Curran Associates,Inc., 2012.1097?1105
[7]DENG J,DONG W,SOCHER R,et al.Imagenet:A large-scale hierarchical image database [C]//IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE,2009:248-255.
[8]BENGIO Y,DELALLEAU O.On the expressive power of deep archi-tectures[C]//Proc of the 14th International Conference on Discovery Science.Berlin:Springer-Verlag,2011:18-36.
[9]LeCun Y,Boser B,Denker J S,Howard R E,Hubbard W,Jackel L D,Henderson D.Handwritten digit recogni- tion with a back-propagation network. In: Proceedings of Advances in Neural Information Processing Systems 2. San Francisco,CA,USA:Morgan Kaufmann Publishers Inc.,1990.396-404.
[10]S可.卷积神经网络在图像识别上的应用研究[D].杭州:浙江大学[学位论文],2012.
[11]Hochreiter S,Sehmidhuber J.Long Short-Term Memory.Neural Computation,1997,9(08):1735-1780
[12]LUCEY P,COHN J F,KANADE T,et al.The Extended Cohn-Kanade Dataset ( CK + ): A complete dataset for ac- tion unit and emotion-specified expression [C] //IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops (CVPRW).New York:IEEE,2010:94-101.
[13]Dayan P,Abott L F.Theoretical Neuroscience.Cambridge:MIT Press, 2001.
[14]YAN W J, LI X, WANG S J, et al. CASME II: An Improved Spontaneous Micro-Expression Database and the Baseline Evaluation [J].Plos One, 2014,9(01):1-8.
[15]Yandan Wang,John See,Raphael C-W Phan,Yee-Hui Oh. Efficient Spatio-Temporal Local Binary Patterns for Spontaneous Facial Micro-Expression Recognition[J].PLOS ONE,2013,10(05): 11-12
[16]张轩阁,田彦涛,郭艳君,王美茜.基于光流与LBP-TOP特征结合的微表情识别[J].吉林大学学报:信息科学版, 2015,33(05):521-522.
[17]Martín Abadi, Paul BarhamJianmin, Chen el.TensorFlow:Large-Scale Machine Learning on Heterogeneous Distributed Systems[EB/OL].https:///abs/1605.08695.
卷积神经网络的算法范文4
关键词:Deep Learning;多隐含层感知;DropConnect;算法
中图分类号:TP181
Deep Learning是机器学习研究的新领域,它掀起了机器学习领域的第二次浪潮,并受到学术界到工业界高度重视。Deep Learning概念根源于人工神经网络[3],它由Geoffrey Hinton等在Science上提出。它致力于建立模拟人脑分析学习机制的多层次神经网络,并通过这种网络分析解释数据,如视频、文本和声音等。Deep Learning的多隐含层使得它具有优异的特征学习能力,而且学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类。它的“逐层初始化”(layer-wise pre-training[4])可以有效克服深度神经网络在训练上的难度。本文在对Deep Learning算法分析的基础上,着重阐述了对Regularization of Neural Networks using DropConnect模型的改进。
1 Deep Learning算法分析
1.1 Deep Learning多隐含层感知架构
Deep Learning算法最优秀特征是多隐含层感知器架构,这种架构通过组合低层特征来形成更加抽象的高层属性类别或特征,并实现对数据分布式表示。Deep Learning的多隐含层结构是由输入层、隐层(多层)、输出层组成的多层网络(如图1所示),只有相邻层神经元之间有连接,同一层以及跨层节点之间相互无连接,每一层可以看作是一个浅层机器学习模型(如logistic regression,Support Vector Machines)。
图1 含多个隐含层的Deep Learning模型
Deep Learning的多隐含层感知结构模拟的是人脑的大脑皮层工作。人大脑皮层计算也是分多层进行[5],例如图像在人脑中是分多个阶段处理,首先是进入大脑皮层V1区提取边缘特征,然后进入大脑皮层V2区抽象成图像的形状或者部分,再到更高层,以此类推。高层的特征是由底层组合而成。使用含多隐含层感知器架构网络主要优势在于它能以更简洁的方式表达比浅层网络大得多的函数关系(如图2)。通过这种深层非线性网络结构,Deep Learning可以实现复杂函数的逼近,表征输入数据的分布式表示,并展现了强大的从少数样本集中学习数据集本质特征的能力。
图2 多层次实现复杂函数图
1.2 Deep Learning训练过程
(1)首先逐层构建单层神经元,使得每次都是训练一个单层网络。
(2)当所有层训练完后,使用Wake-Sleep算法[6]进行调优。
将除最顶层的其它层间的权重是双向的。向上的权重用于“认知”,向下的权重用于“生成”。然后使用Wake-Sleep算法调整所有的权重。让“认知”和“生成”达成一致,也就是保证生成的最顶层表示能够尽可能正确的复原底层的结点。
1.3 Deep Learning数据处理一般过程
Deep Learning算法通过传感器等方式获得数据之后,首先对数据进行预处理。在数据预处理中,标准的第一步是数据归一化处理,第二步是数据白化处理(如PCA白化和ZCA白化)。其次特征提取和特征选择。然后将输出作为下层的输入,不断进行特征提取和特征选择,直到学习到合符要求的最佳特征。在特征提取和特征选择过程中,常用自动编码、稀疏编码、聚类算法、限制波尔兹曼机、卷积神经网络等算法进行特征提取和特征选择。然后用反向传播算法、随机梯度下降算法、批量梯度下降算法等进行调优处理,再用池化等算法避免特征过度拟合,从而得到最终提取特征。最后将学习到的最终提取特征输入到分类器(如softmax分类器,logistic回归分类器)进行识别、推理或预测。
2 基于Regularization of Neural Networks using DropConnect模型改进
2.1 Regularization of Neural Networks using DropConnect模型[2]
该模型的四个基本组成成分是:
(1)特征提取:v=g(x;Wg)。x是输入层的输入数据,Wg是特征提取函数的参数,v是输出的提取特征,特征提取函数g()。其中g()为多层卷积神经网络算法函数,而Wg卷积神经网络的偏值。
(2)DropConnect层:r=a(u)=a((M*W)v)如图3。v是输出的提取特征,W是完全连接的权重矩阵,M是二进制掩码矩阵,该矩阵的每个元素随机的以1-p概率设置为0或以p概率设置为1,a()是一个非线性激活函数,r是输出向量。M*W是矩阵对应元素相乘。
(3)Softmax分类器层:o=s(r;Ws)。将r映射到一个k维的输出矩阵(k是类的个数),Ws是softmax分类函数的参数。
(4)交叉熵损失:A(y,o)=-∑yi(oi),i∈1,2,3…k。y是标签,o是概率。
图3 DropConnect示意图
2.2 模型改进描述和分析
对DropConnect模型的改进主要集中在上面它的四个基本组成成分中的DropConnect层。由于该层以随机方式让掩码矩阵M的每个元素Mij按1-p的概率设置为0,然后让掩码矩阵与层间的权重矩阵对应相乘即M*W。相对DropOut模型r=a((M*(Wv))得到的特征,r=a((M*W)v)得到的特征是比较好的特征r,同时也提高算法的泛化性。因为Dropconnect模型在权重W和v运算之前,将权重以一定的概率稀疏了,从运行结果看整体算法的错误率降低了。但是,由于是随机的让Mij按1-p的概率为0,并且这种随机是不可以预测的,故可能会导致某些重要特征对应的权重被屏蔽掉,最终造成输出ri的准确性降低。故就此提出了新的设计思想。
改进思想是用单层稀疏编码层代替DropConnect层,通过稀疏编码训练出一组最佳稀疏的特征。具体描述:让经过多层卷积神经网络提取到的特征v作为稀疏编码的输入,经过稀疏编码重复训练迭代,最终得到最佳的稀疏的特征r。因为稀疏编码算法是一种无监督学习方法,用它可以寻找出一组“超完备”基向量来更高效地表示输入数据。
总之任何对Deep Learning算法的改进,都是为了提取出最佳特征,并使用优秀的分类算法来分类、预测或推理,最终降低算法的错误率。而对于怎样改进算法,以何种方式降低错误率,则没有具体的限制。并且各种提取特征和特征选择的算法之间并不是互斥的,它们之间可以有各种形式的嵌套,最终的目标都是提高算法的正确率和效率。
3 结束语
Deep Learning使得语音、图像和文本等的智能识别和理解取得惊人进展,如Google Brain项目和微软推同声传译系统。它极大地推动了人工智能和人机交互快速发展。随着从学术界到工业界的广泛重视,Deep Learning算法的改进依然在继续,Deep Learning算法的正确率和效率仍在不断提高。Deep Learning的发展将加快“大数据+深度模型”时代来临。
参考文献:
[1]Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks[J].Science,2006(5786):504-507
[2]汤姆・米切尔.机器学习[M].北京:机械工业出版社,2003:1-280.
[3]吴昌友.神经网络的研究及应用[D].哈尔滨:东北农业大学,2007.
[4]HINTON G,OSINDERO S,TEH Y. A fast learning algorithm for deep belief nets[J].Neural Computation,2006(07):1527-1554.
[5]Hubel D H, Wiesel T N. Receptive fields,binocular interaction and functional architecture in the cat's visual cortex[J].The Journal of physiology,1962(01):106.
[6]Chuang Gao,Bin Chen,Wei Wei.Dynamic detection of wake-sleep transition with reaction time-magnitude[J].Neural Regenerattion Research,2009(07):552-560.
卷积神经网络的算法范文5
关键词:图像复原;盲复原;逆滤波;神经网络复原
1 图像退化及复原模型
1.1 图像降质的数学模型
图像复原处理的关键问题在于如何建立退化模型。假定输入图像f(x,y)经过某个退化系统后输出的是一幅退化的图像。为了方便讨论, 把噪声引起的退化(即噪声)对图像的影响一般作为加性噪声考虑,这也与许多实际应用情况一致,如图像数字化时的量化噪声、随机噪声等就可以作为加性噪声,即使不是加性噪声而是乘性噪声,也可以用对数方式将其转化为相加形式。原始图像f(x,y) 经过一个退化算子或系统H(x,y) 的作用,然后和噪声n(x,y)进行叠加,形成退化后的图像g(x,y)。图像退化的过程可以用数学表达式写成如下的形式:
g(x,y)=H[f(x,y)]+n(x,y)
n(x,y)是一种统计性质的信息下图表示退化过程的输入和输出的关系,其中H(x,y)包含了退化系统的物理过程,即所要寻找的退化数学模型。
1.2 图像的退化恢复模型
数字图像的图像恢复问题可以看作是:根据退化图像g(x ,y)和退化算子H(x ,y)的形式,沿着逆向过程去求解原始图像f(x ,y), 或者说逆向地寻找原始图像的最佳近似估计。
2 研究背景与意义
图像复原是数字图像处理技术的一个重要研究方向,在现实生活中,有着非常广阔的应用前景和市场。数字图像处理研究很大部分是服务于数字图像复原的,而运动模糊图像的复原又是图像复原中的重要课题之一,从六十年代起就有人研究它。初期研究的主要原因是对卫星所拍摄的图像进行复原,因为卫星相对地球是运动的,所拍出的图像是模糊的(当然卫星所拍摄图像的模糊原因不仅仅是相对运动而造成的,还有其他原因如大气湍流所造的模糊等等)。美国的喷气推进实验室(JPL)对徘徊者飞行器发回的月球照片进行了图像恢复处理。传统的图像恢复方法可以很好地恢复出来原始图像,但是需要事先知道系统的先验知识(例如系统的点扩散函数)。在先验知识不足的情况下,如何恢复出来原始图像?这就需要模糊图像盲恢复技术。根据不同的应用背景和先验知识,大致可以两种方法恢复两种类型的模糊图像,以满足不同的应用要求。
第一种方法:如何快速恢复模糊图像,进行适时性图像处理?这个技术在实际生活中有着广泛应用。
第二种方法:如何在事先不能确定模糊系统点扩散函数的情况下,恢复模糊图像,改善图像的质量,这就是图像盲恢复的问题。
3 国际国内研究发展和现状
从历史上来看,数字图像处理研究有很大部分是在图像恢复方面进行的,包括对算法的研究和针对特定问题的图像处理程序的编写。数字图像处理中很多值得注意的成就就是在这两方面取得的。
在六十年代中期,去卷积(逆滤波)开始被广泛地应用于数字图像恢复。这一阶段对模糊图像的研究主要是把因相对运动而拍摄的模糊图像复原过来,从而增强人们的判读能力。早期做图像复原研究,主要强调尽可能使模糊图像复原到原貌,增加它的判读性,在此发展了很多的复原方法,诸如:差分复原、维纳滤波等.这些方法各有特点,较好的解决了运动模糊图像的判读问题,但是在应用上均有一定的限制。
虽然经典的图象复原方法不少,但归纳起来大致可分为逆滤波法,或称相关变换法( inv ersefiltering or t ransfo rm related techniques) 和代数方法( alg ebraic techniques) 两种。
3.1 传统复原法
3.1.1 逆滤波方法
逆滤波法大致有经典逆滤波法、维纳滤波法、卡尔曼滤波法等. 其中,在傅立叶变换域,经典逆滤波的变换函数是引起图象失真的变换函数的逆变换,其虽在没有噪声的情况下,可产生精确的复原图象,但在有噪声时,将对复原图象产生严重的影响,虽然滤波函数经过修改,有噪声的图象也能复原,但它仅适用于极高信噪比条件下的图象复原问题; 维纳滤波法是通过选择变换函数,同时使用图象和噪声的统计信息来极小化均方复原误差,这虽然在一定程度上克服了逆滤波法的缺点,但是维纳滤波法需要较多有关图象的先验知识,如需要对退化图象进行满足广义平稳过程的假设,还需要知道非退化图象的相关函数或功率谱特性等等,而在实际应用中,要获得这些先验知识有较大的困难,为此,Ozkan 等人在研究图象序列的复原问题时,提出了一种解决空间和时间相关性的多帧维纳滤波法,是近年来维纳滤波法的新发展; 卡尔曼滤波是一种递归滤波方法,其虽可用于非平稳图象的复原,但是因计算量过大,而限制了其实际应用的效果。 Wu 和Kundu 又对卡尔曼滤波方法进行了改进,不仅提高了速度,并考虑了应用于非高斯噪声的情况; Cit rin 和Azimi-Sadjadi 也对卡尔曼滤波方法进行了改进,提出了块卡尔曼滤波方法; Koch 等提出了扩展卡尔曼滤波( extended Kalmam filter) 复原方法,该方法可以较好地复原模糊类型不相似的退化图象.除了上述的逆滤波方法外,还有参数估计滤波法,它实质上是维纳滤波法的变种. 20 世纪90 年代初,又提出了基于递归图象滤波的自适应图象复原方法及合成滤波方法,它代表了滤波方法新的发展方向. 1998 年Kundur 等人首先明确提出了递归逆滤波( recursiv e inv er se filter ing ) 算法 ,2000 年Chow 等人又进行了改进,即在代价函数中增加了空间自适应正则化项,从而很好地抑制了噪声,并减少了振铃现象,较好实现了在低SNR 条件下的盲图象复原. 2001 年,Eng 等人结合模糊集的概念,提出了自适应的软开关中值滤波方法,它能在有效地去掉脉冲噪声的同时,很好地保存图象的细节,是一种值得重视的新的图象复原方法。
3.1 2 代数方法
Andrews 和Hunt 提出了一种基于线性代数的图象复原方法。这种方法可能比较适合那些相对于积分运算,则更喜欢矩阵代数,而相对于分析连续函数,又更喜欢离散数学的人的口味。它为复原滤波器的数字计算提供了一个统一的设计思路。代数方法可分为伪逆法、奇异值分解伪逆法、维纳估计法和约束图象复原方法等。 其中,伪逆法,实质上是根据图象退化的向量空间模型来找到引起图象退化的模糊矩阵,但由于模糊矩阵总是很大的,因此在计算上往往不可行; 而奇异值分解伪逆法则是利用矩阵可分解成特征矩阵系列的思想,将模糊矩阵进行分解,由于简化了计算,从而有利于模糊矩阵的估计计算,但在有噪声存在时,经常会出现不稳定的现象; 维纳估计法虽然考虑了噪声的情况,但它仅适合噪声是二维随机过程,且已知其期望和协方差的情况。前面的方法仅把图象看成是数字的阵列,然而一个好的复原图象应该在空间上是平滑的,其在幅度值上是正的,而约束图象复原方法就是将这些因素作为约束条件,如基于维纳估计法和回归技术而提出的图象复原方法就是一种约束图象复原方法,而且通过选取不同的约束参数和回归方法可以得到不同的图象复原算法。传统的图象复原算法或面临着高维方程的计算问题,或要求恢复过程满足广义平稳过程的假设,这就是,使得具有广泛应用价值的图象复原问题没有得到圆满的解决的根本原因。
3.2 神经网络图象复原的方法
神经网络图象复原方法的发展方向自从神经网络图象复原首次提出十多年来,其研究在不断地深入和发展,描述它的现状已属不易,展望它的未来更是困难,况且科学研究具有不确定性. 据笔者判断,如下诸方面是亟待解决的问题,或研究活动已有向这些方面集中的趋势。
3. 2.1小波神经网络用于图象复原将是研究的重点
自1992 年Zhang 提出小波神经网络以来,如今已提出了各种类型的小波网络,且小波与神经网络的结合成了一个十分活跃的研究领域。通过学者们的理论分析和模拟实验表明: 由于小波神经网络具有逼近能力强、可显著降低神经元的数目、网络学习收敛的速度快、参数( 隐层结点数和权重) 的选取有理论指导、能有效避免局部最小值问题等优点,因此将其用于图象复原是一个值得研究的方向。将小波的时频域局部性、多分辨性等性质,与神经网络的大规模并行性、自学习特性等优点结合起来,不仅将使用于图象复原的小波神经网络具有自适应分辨性,也将使正则化参数的选取更具有自适应能力. 最终使复原图象既能保持图象的细节,又能很好地抑制图象中的各种噪声。
3.2.2细胞神经网络、BP 网络、自组神经网络
值得进一步研究细胞神经网络( CNN ) 由于其具有易于硬件实现的特点,因而具有很强的商业价值,但由于其自身还有很不成熟的地方,因此值得深入地研究. 其研究方向有: 细胞神经网络理论基础的进一步完善及在此基础上建立细胞神经网络中邻域系统的概念; 与图象数据局部相关性等概念结合起来研究,以建立新的图象复原理论,形成新的图象复原技术。BP 网络对受污染或带噪声的训练样本,不仅能进行正确的映射,且与其纯样本仍相似。 正是BP 网络的泛化能力强,使它在解决图象复原问题时,可能比其他神经网络具有更好的潜在性能。 将BP 网络用于图象复原是很值得进一步研究的.大家知道,人脑的学习方式是“自主的”,即有自组织和自适应的能力的,即人脑能在复杂、非平稳和有“干扰”的环境及其变化的情况下,来调整自己的思维和观念,还能根据对外界事物的观察和学习,找到其内在的规律和本质属性,并能在一定的环境下,估计到可能出现的情况以及预期会遇到和感觉到的各种内容及情况。 自组织神经网络(SONN) 正是基于人脑的这些功能而生成的,由于它具有能从输入的数据中,揭示出它们之间内在关系的能力,因此将其用于“盲图象”的复原将是非常有利的。
3.2.3 需要提出更适合图象复原的新神经网络模型
小波神经网络是为逼近任意非线性函数而提出来的,但为了图象复原的需要,可考虑针对图象复原的特殊情况,提出新的神经网络模型。 如,因为大多数图象是由平滑区域和轮廓细节组成的,其图象数据在平滑区域虽具有较强的相关性,但与轮廓细节相邻的数据应极不相关,所以,提出一种专用于图象复原的“相关性神经网络模型”是必然的期待; 再有,因为多项式具有较广的拟合性和较好的收敛性,所以应提出的“多项式神经网络”,将它们用于图象复原也是值得研究的。
3.2.4 神经网络与其他理论的结合
研究是寻求新模型、新方法的重要途径目前神经网络的研究正由单纯的神经计算转向计算智能,并结合脑科学的研究向生物智能方向发展。 为此,神经网络图象复原的研究也应考虑吸收模糊、分形、混沌、进化计算、信息融合等交叉学科的研究成果。 与模糊系统的结合将是一个重要的研究方向,因为,神经网络与模糊系统有如下很多的相同之处: ( 1) 它们在处理和解决问题时,无需建立对象的精确数学模型,而只需要根据输入的采样数据去估计其要求的决策; ( 2) 在对信息的加工处理过程中,均表现出了很强的容错能力; ( 3) 它们都可以用硬件来实现. 由此可见,将神经网络与模糊系统结合,用于图象复原将是有意义的研究工作。
4 未来展望
图像恢复发展到现在,已经有了许多成熟的算法,但是还是存在许多问题,等待着我们去解决。目前图像恢复的最新发展有:
1. 非稳图像复原,即空间可变图像复原。
2. 退化视频信号的复原问题,以及摄像机拍照图像复原,这是一个需要进一步研究的领域。
3. 运动补偿时空复原滤波,同时将时间相关应用到运动补偿中。
4. “Telemedicine“的出现,远程诊断极大的依赖于远程接受的图像质量,图像恢复在医学领域中有相当重要的作用。
5. 模糊 PSF 的 Identification 仍然是一个困难的问题,尤其在空间可变的 PSF 的估计中。
6. 空间可变恢复方法,可以利用 Wavelets 和 Markov 随机场等方法进行复图像恢复,这是一个具有发展潜力的研究方向。
参考文献
1 冯久超,黄海东. 基于神经网络的盲图象恢复[ J ] . 计算机科学,2000,27( 1) : 67~68.
2 Er ler K,Jernigan E. Adaptive image restorat ion using recursive image f ilters [ J ] . IEE E Trans actions on Signal Process ing,1994,42( 7) : 1877~1881.
卷积神经网络的算法范文6
中图分类号:G642
1 背 景
电子信息科学与技术是以物理和数学为基础,研究通过电学形式表达和操控信息的基本规律以及运用这些基本规律实现各种电子系统的方法。在进入电子时代和信息社会的今天,电子信息科学技术已渗透各个领域。随着电子信息技术日新月异,电子信息教学领域也面临着全新的挑战,需要培养具有全方位视野和超强能力的新一代工程师及领导者。本着这一目标,清华大学电子系自2008年开始着手进行课程改革,通过改革课程体系将原有课程重新整合,从学科范式的角度整理出电子工程本科教育的知识体系结构,从而梳理出新的本科课程体系,形成电子信息领域学科地图[1-2]。
2016年AlphaGo战胜李世石的事实,让人工智能技术再一次向世人展示了自己的潜力。人工智能无论在传统的制造加工行业,还是在新兴的互联网行业,都成为国内外各大企业争相研究开发的目标,在学术界也是如此。2016年底,Gartner全球峰会2017十大技术趋势报告[3],预测2017年十大技术趋势:人工智能与机器学习、智能应用、智能事物、虚拟和增强现实、数字化双生、区块链和已分配分类账、对话式系统、格网应用和服务架构、数字化技术平台、自适应安全架构。Gartner预计2017年全球将有超过60%的大型企业开始采用人工智能技术。
在2016年开设的媒体与认知课程内容中,我们参考国内外诸多名校相关课程的理论及项目内容,结合电子工程系在该领域研究的基础优势和创新性成果,建设了一套媒体认知人工智能技术教学课程内容及平台,以期学生获得人工智能技术中深度学习技术的基础理论和开发能力。课程通过提供人工智能技术领域高层次专业人才必需的基本技能、专业知识及思维方式,力争培养具有国际一流科研创新能力的人工智能方向的专业技术人才。
2 人工智能技术教学内容
美国MIT大学的Statistical Learning Theory and Applications课程[4],致力于从统计学习和正则化理论的角度介绍机器学习的基础和最新进展。除了经典的机器学习方法,如支持向量机、流形学习、有监督学习等之外,还重点介绍深度学习计算的理论框架并要求学生以项目形式给出基于机器学习和深度神经网?j的解决方案。
美国CMU大学的Deep Learning课程[5]通过一系列研讨会和课程实验介绍深度学习这一主题,涵盖深度学习的基础知识和基础理论及应用领域,以及大量数据学习的最新问题。通过若干实验题目,学生可以对深度神经网络原理及应用加深理解。
美国Stanford大学的Deep Learning for Natural Language Processing课程[6]深入介绍应用于自然语言理解的深度学习前沿研究,讨论包括循环神经网络、长短期记忆模型、递归神经网络、卷积神经网络等非常新颖的模型。通过上机实验,学生将学习使用神经网络工作的技巧来解决实际问题,包括实施、训练、调试、可视化和提出自己的神经网络模型,最终的实验项目涉及复杂的循环神经网络并将应用于大规模自然语言理解的问题。
媒体认知课程参考了上述著名课程的理论内容和项目特色。我们结合电子工程系在人工智能领域研究的基础、优势和创新性成果,设计开发了一套以人工智能技术为基础的前沿探索型媒体认知教学课程内容及实验平台,试图构建具有国际水准的人工智能技术教学课程内容。
3 深度学习技术发展概况
传统的人工智能系统一般采用机器学习技术,这类技术在处理原始形式的自然数据的能力上受到限制,一般困难集中在如何将原始数据变换为合适的内部表示或特征向量。深度学习(deep learning)近年来受到人工智能行业的广泛关注,是一种表征学习(representation-learning)方法,由于拥有可以逼近任意非线性函数的特性,深度神经网络(deep neural network,DNN)及其衍生的各种神经网络结构有能力取代传统模型,在语音、图像、文本、视频等各种媒体的内容识别系统中发挥作用。
著名的人工智能科学家Yann LeCun于2015年在Nature上发表文章[7]指出,深度学习允许多个处理层组成的计算模型学习如何表征具有多级抽象层面的数据。这些方法已经大大提高语音识别、视觉识别、目标检测以及诸如药物发现、基因学等许多领域的最新技术水平。深度学习通过使用反向传播算法发现大数据集中的复杂结构,以指示机器如何改变其内部参数,这些内部参数是从深度神经网络上一层的表示中计算每层中的表示。深度卷积网络在处理图像、视频、语音和音频方面带来突破性的进展,而递归网络则对文本、语音等顺序数据提供解决方案。
递归网络可被视作较深的前馈网络,其中所有层共享相同的权重。递归网络的问题在于难以在长期的时间内学习并存储信息。为了解决这一问题,长短期记忆(long short-term memory,LSTM)模型网络被提出,主要特点在于其存储器单元在下一个加权值为1的时间段内与自身连接,因此能够在复制自身状态的同时累加外部信号,此外这种自我连接被另一个单元通过学习决定何时清除此类信息。长短期记忆模型被证明在语音识别和机器翻译应用系统中比传统的递归网络更加有效。
4 基于深度学习的语音识别教学项目
在对上述课程及配套项目进行详细研究的基础上,结合现有科研及平台,我们构建了一种基于深度学习的连续语音识别项目平台,包括两个主要项目:深度神经网络语音识别项目及长短期记忆模型递归神经网络语音识别项目。
4.1 深度神经网络语音识别项目
典型的深度神经网络语音识别模型[8-9]核心是对声学特征进行多层变换,并将特征提取和声学建模在同一网络中进行优化。神经网络可以通过非线性激活函数来拟合任何非线性函数,可以使用神经网络取代原有声学模型中的高斯混合模型,用来计算每一帧的特征与每个音素的相似程度。深度神经网络原理的结构示意图如图1所示。
图1代表了一个拥有3个隐含层的深度神经网络。相邻两层中,每层的每一个节点都与另外一层的所有节点单向连接。数据由输入层输入,逐层向下一层传播。对于节点间的连接权重,采用BP算法。BP算法对于给定的输入输出训练数据,首先通过正向传播由输入得到输出,之后通过实际输出与理论上的正确输出之差得到残差,并由输出层向输入层根据激活函数与连接权重反向传播残差,计算出每一个节点与理想值之间的残差,最后根据每个节点的残差修正节点间连接的权重,通过对权重的调整实现训练,从而更加靠近理论输出结果。
将DNN实际利用到语音识别的声学模型时,其结构示意图如图2所示。深度神经网络的输入层输入从每一帧音频中提取出的特征,通过网络的正向传播,在输出?邮涑龅鼻爸《杂Σ煌?音素的相似程度,从而作为HMM的发射概率进行语音识别。考虑到DNN没有记忆特性,而语音信号即使是在音素层级上,其前后也有相当大的联系。为了提高DNN在处理前后高度关联的语音信号中的表现,一般选择同时将当前帧的前后部分帧作为网络的输入,从而提高对当前帧识别的正确率。
4.2 长短期记忆模型递归神经网络语音识别项目
长短期记忆模型应用于语音识别中声学模型的思路和深度神经网络类似[10-11],取代高斯混合模型用于计算输入帧与各音素的匹配程度。原理为首先根据输入门判断输入的数据可以进入记忆细胞的比例,同时遗忘门决定记忆细胞遗忘的比例;之后由记忆细胞残存的记忆部分和新输入的部分求和,作为记忆细胞的新记忆值;将新的记忆值根据输出门的控制得到记忆细胞的输出,并通过递归投影层降维,降维之后的结果一方面作为3个控制门的反馈,另一方面作为网络的输出;非递归投影层则仅仅作为最终输出的补充,而不会影响控制门。将长短期记忆模型实际利用到语音识别的声学模型时,其结构示意图如图3所示。
与深度神经网络不同,长短期记忆模型递归神经网络因为有记忆特性,所以不需要额外的多帧输入,只需要输入当前帧。然而,考虑到语音前后的关联性,一般会将输入的语音帧进行时间偏移,使得对t时刻帧的特征计算得到的输出结果是基于已知未来部分帧的特征之后进行的,从而提高准确度。