前言:中文期刊网精心挑选了卷积神经网络方法范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。
卷积神经网络方法范文1
关键词: 模式识别; 神经网络; 卷积; 文字识别
中图分类号: TN711?34; TP391.4 文献标识码: A 文章编号: 1004?373X(2014)20?0019?03
Large pattern online handwriting character recognition based on multi?convolution neural network
GE Ming?tao1, WANG Xiao?li1, PAN Li?wu2
(1. SIAS International School, Zhengzhou University, Zhengzhou 451150, China;
2. Henan University of Animal Husbandry and Economy, Zhengzhou 450011, China)
Abstract: Online handwriting character recognition is an important field in the research of pattern recognition. The traditional recognition method is based on the common convolutional neural networks (CNNs) technology. It has an efficient recognition rate for the small pattern character set online handwriting characters, but has low recognition rate for the large pattern character set recognition. A recognition method based on multi?convolutional neural networks (MCNNs) is presented in this paper to overcome the situation that the previous methods have the low recognition rate for large pattern character set and improve the recognition rate for the large pattern handwriting character set recognition. The stochastic diagonal Levenbert?Marquardt method is used in the system for training optimization. The experimental results show that the proposed method has the recognition rate of 89% and has a good prospect for online handwriting character recognition for large scale pattern.
Keywords: pattern recognition; neural network; convolution; character recognition
0 引 言
随着全球信息化的飞速发展和对自动化程度要求的不断提高 ,手写文字识别技术被广泛地应用到许多方面。特别是近几年拥有手写功能的手机、平板电脑等智能电子产品的普及,联机手写文字识别研究已经成为一个备受关注的主题。联机手写字符识别要求实时性较高,识别过程中要求特征空间的维数比较高,在进行特征样本训练时要求训练的数目很大,要匹配的特征值或特征对象比较多 [1?2]。
卷积神经网络(Convolutional Neural Networks,CNNs)的优点在于图像的识别过程中对视觉模式的获得是直接从原始图像中获得的,所以在设计系统时图像的预处理工作很少,与一般神经网络相比是一种高效的识别方法。卷积神经网络在模式识别的一些领域具有很好的鲁棒性,如在识别有变化的模式和对几何变形的识别方面。利用卷积神经网络的手写识别方法具有如下一些优点:对于要检测的图像可以与事先制定网络拓扑结构之间有较高的匹配率;特征提取和模式分类同时进行;训练参数往往是系统计算量的重要参数,而卷积神经网络中利用权值共享技术,这样就可以大大降低该参数,在设计系统结构时使得结构变得更简单,从而使得整个系统具有更好的适应性[3?5]。
目前,人机交互系统的手写字符识别、汽车车牌号识别和信息安全中常用的人脸识别等领域都有卷积神经网络的成功应用。文献[6]用一个4层的卷积神经网络LeNet?5对Mnist库进行识别实验,获得了98.4%的识别率,用2层的BP网络的识别率[4,6]是87%。许多学者对卷积神经网络在联机手写文字识别方面做了多方位的研究。 但是,这些成功的联机手写文字识别主要是针对小模式字符集,利用以往的这些方法对大规模模式分类的联机手写文字的识别依然有识别率不高的问题。本文介绍了卷积神经网络的基本概念和一种典型的卷积神经网络结构,给出了基于多重卷积神经网络的字符识别和词语识别模型。通过使用大字符集的UNIPEN数据库进行训练和测试,本文提出的方法在大模式联机手写识别上,取得了较高的识别速度和满意的识别率。
1 卷积神经网络
文献[6?7]中详细地描述了卷积神经网络如何保证图像对位移、缩放、扭曲鲁棒性能。典型的手写字符卷积神经网络LeNET 5的结构图如图1所示[6?7]。
图1 典型的卷积神经网络结构
在图1中,输入层接收要识别32×32的手写字符图像,经过简单的大小归一化和图像灰度处理,之后的结果作为一个采样层的图像;然后用一个可学习核进行卷积操作,卷积结果经过激活函数的输出形成这一层的神经元,每个神经元与输入图像的一个5×5的邻域相连接,从而得到由6幅特征图组成的第一个隐层(C1层)。每个特征图有25个权值(如方向线段,端点、角点等),考虑到边界效果,得到的特征图的大小是28×28,小于输入图层[3?9]。卷积层的数学计算过程可表示为:
[xlj=fi∈Mjxl-1j*kernellij+blj] (1)
式中:[l] 代表层数;kernel是卷积核;[Mj]代表输入特征图的一个选择。每个输出图有一个偏置[b]。
每个卷积层的结果作为下一个次采样层的输入,次采样层的作用是对输入信息进行抽样操作。如果输入的特征图为n个,则经过次采样层后特征图的个数仍然为n,但是输出的特征图要变小(例如,各维变为原来的50%)。因此隐层S2是由6个大小为14×14的特征图组成的次采样层。次采样层计算公式可以用式(2)表示:
[xlj=fβl-1jdown(xl-1j)+blj] (2)
式中down(・) 表示次采样函数。次采样函数一般是对该层输入图像的一个n×n大小的区域求和,因此,输出图像的大小是输入图像大小的[1n]。每一个输出的特征图有自己的β和b。
类似的,C3层有16个10×10的特征图组成的卷积层,特征图的每个神经元与S2网络层的若干个特征图的5×5的邻域连接。网络层S4是由16个大小为5×5的特征图组成的次采样层。特征图的每个神经元与C3层的一个2×2大小的邻域相连接。网络层C5是由120个特征图组成的卷积层。每个神经元与S4网络层的所有特征图的5×5大小的邻域相连接。网络层F6,包括84个神经元,与网络层C5进行全连接。最后,输出层有10个神经元,是由径向基函数单元(RBF)组成,输出层的每个神经元对应一个字符类别。RBF单元的输出yi的计算方法如式(3)所示:
[yi=j(xj-wij)2] (3)
很多研究人员通过对字符集作弹性训练,经测试发现在MNIST字符集上的识别率可以高达99%以上[6?7] 。卷积神经网络的优势主要是对小模式集上,如对数字或26个英文字母组成的集合都有着较高的识别率。然而,对大模式集的识别仍然是一个挑战,因为设计一个优化的并足够大的单一网络是比较困难的,且训练时间也较长。因此,本文的目的旨在通过组合多个对某一字符集有高识别率的卷积神经网络,从而构成多重卷积神经网络,进而提高卷积神经网络对大模式集手写字符的识别率。
2 多重卷积神经网络
2.1 多重卷积神经网络字符识别
根据传统卷积神经网络的运算过程以及其在处理大模式集手写字符时存在的不足,本文提出一种多重卷积神经网络来改进传统的卷积神经网络模型,用多个拥有高识别率的小卷积神经网络组成一个多重卷积神经网络。每一重小卷积神经网络对某一具体字符集有较高的识别率,另外,单重卷积神经网络除了有一个正式的输出集之外,还产生一个未知的输出(即难以识别的字符),即如果一个输入字符没有被正确识别,它将被输出为一个未知字符,然后输入模式转到下一重卷积神经网络进行识别。最后,通过一个拼写检查模块进行判断,选择最好的结果输出。系统的流程如图2所示。
其中CNN 1是识别手写数字的卷积神经网络,CNN 2是识别手写小写英文字母的卷积神经网络,该模型具有极强的扩展性,可以添加多任意模式的卷积神经网络(如中文,日文等)。
图2 多重卷积神经网络字符识别示意图
2.2 随机对角Levenberg?Marquardt训练方法
传统的结构比较简单、单一的卷积神经网络多采用基本的Back Propagation(BP)规则训练网络,往往需要几百次迭代,网络的收敛速度较慢。本文采用LeCun博士提出的随机对角Levenberg?Marquardt 算法对网络作训练,该算法需要的迭代次数明显比基本的BP 算法少[4,9]。随机对角Levenberg?Marquardt算法的公式为:
[ηki=ε?2E?w2ij+μ] (4)
式中[ε]是全局的学习率,一般取初始值0.01,太大会使网络无法收敛,太小则会降低收敛速度,且使网络更容易陷入局部极小值,训练过程中可以用启发式规则改变[ε]的值,本文取最下值为5e-005; [?2E?w2ij]是一个估计值,根据训练集的大小可以调整样本数量,文中随机选取200个样本估算它的值;[μ]用来避免[?2E?w2ij] 太小时[ηki]的变化过大 。
2.3 多重卷积神经网络词句识别
本文提出的多重卷积神经网络对手写词语的识别方法可以简单地描述为:首先对输入的手写图像进行预处理和分割,然后通过多重卷积神经网络模块分别进行识别,最后采用单词识别模块对识别结果进行判断,选择最好的结果输出。其过程如图3所示。
图3 多重卷积神经网络联机手写词句识别过程
本文提出的多重卷积神经网络联机手写文字识别方法克服了传统卷积神经网络文字识别的对字符集的限制,每一重卷积神经网络是一个针对小模式的卷积神经网络,易于训练和优化,更重要的是此方案的灵活性非常好易于调节参数,可扩展性强。每一重卷积神经网络都具有可重用能力,可以根据需要加载一个或多个网络,可以根据新的模式添加新的网络而不需改变或重建原来的网络。
3 训练和实验
为了评估多重卷积神经网络对基于大模式字符集的联机手写文字识别的性能,本系统采用MNIST和UNIPEN两种不同的手写字符训练集进行测试。UNIPEN数据库是在1992年举行的IEEE IAPR会议上提出并建立的,其目的是创建一个大型的手写体数据库用于为在线手写识别提供研究和开发的基础,得到了多个知名公司或研究所的支持并完成了UNIPEN的规范设计。在进行数据比对实验中,本文采用许多研究使用的MNIST手写数字数据库,该数据库是NEC 研究中心设计的,是NIST(The National Institute of Standards and Technology)数据库的一个子集,该训练集中有大量训练样本和测试用例。本文默认用以下定义:
[识别率=正确识别数样本总数×100%]
[失误率误识率=错误识别数样本总数×100%]
实验测试是在通用的台式电脑上进行的。整个识别原型系统采用C#编写,运行在.NetFrame 4.5平台上。经测试对MNIST训练集识别正确率可达[9]99%,对UNIPEN数字识别正确率可达97%,对UNIPEN数字和大写字母识别正确率可达89%(1a,1b) ,对UNIPEN小写字母识别正确率可达89%(1c) 。图4是对UNIPEN小写字母3次训练的均方误差比较。
图4 训练的误差数据
从图4中可以看出,在开始的几个训练周期内,均方误差(MSE)下降得很快,然后在第13个周期后神经网络达到一个稳定的值,约为0.148 5。也就是说,网络在第13个周期后,改善程度就很小。所以修改训练错误率的值为0.000 45后重新进行18代的第二次训练,均方误差有所降低。经过第三次的训练后趋于稳定,对UNIPEN小写字母识别正确率可达89%。经测试,通过使用随机对角Levenberg?Marquardt方法,收敛速度比基本BP算法快了许多,经过68代训练后识别正确率可达89%。
4 结 语
本文提出了基于多重卷积神经网络的联机手写字符的识别方法,通过使用多个识别率高的卷积神经网络和随机对角 Levenberg? Marquardt方法,可以适用于大模式联机手写识别。经过实验数据比较,该方法在大模式联机手写识别过程中具有很高的识别率,与此同时识别速度也很快,有很好的实时性,总体效果很好。在当今触摸屏应用遍及生产生活的各个方面的趋势下,该方法有着广阔的应用前景。同时此方法为今后多手写汉字识别的研究提供了很好的借鉴。
注:本文通讯作者为潘立武。
参考文献
[1] 吴鸣锐,张钹.一种用于大规模模式识别问题的神经网络算法[J].软件学报,2001,12(6):851?855.
[2] 张辉.大规模联机手写汉字识别数据库整理、统计与实验分析[D].广州:华南理工大学,2012.
[3] 徐姗姗,刘应安,徐,等.基于卷积神经网络的木材缺陷识别[J].山东大学学报:工学版,2013,43(2):23?28.
[4] 吕刚.基于卷积神经网络的多字体字符识别[J].浙江师范大学学报:自然科学版,2011,34(4):425?428.
[5] PHAM D V. Online handwriting recognition using multi convolution neural networks [M]. Berlin Heidelberg: Springer, 2012: 310?319.
[6] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient?based learning applied to document recognition [C]// Proceeding of IEEE. USA: IEEE, 1998: 2278?2324.
[7] SIMARD P Y, STEINKRAUS Dave, PLATT John. Best practices for convolutional neural networks applied to visual document analysis [C]// International Conference on Document Analysis and Recognition (ICDAR). Los Alamitos: IEEE Computer Society, 2003: 958?962.
卷积神经网络方法范文2
关键词:全卷积神经网络;显著性预测;缩略图生成
中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2017)14-0149-02
1概述
缩略图是一种经压缩方式处理后的图片,在小尺度下包含了原图像大部分有效信息,可广泛应用于图像快速索引、网页超链接等多个领域。目前相关算法多采用固定分辨率缩放及中央裁剪等固定规则进行缩略图生成,而忽视图像自身具有的内容信息。为提高缩略图携带的有效信息,该文利提出一种利用全卷积神经网络对图像进行显著性预测,再由显著点密度自动获取图像中包含最有意义信息的区域进行截取,进而生成图像内容相关缩略图的算法。
2算法设计
为生成面向图像信息的自适应缩略图,该方法由两部分组成。第一部分为图像识别模块,主要工作是得到图像的显著性图;第二部分为自适应滑动窗口模块,主要工作是得到窗口内平均显著度最强的窗口坐标。
2.1显著性A测
该文在缩略图截取区域识别阶段采用显著性预测算法作为识别手段。显著性预测是目前非常活跃并正在不断取得突破性进展的机器视觉领域下的一个子领域,是一种模拟人类注意力机制的算法。其主要目标是对图像(画面)中吸引人注意的地方(显著性区域)进行自动的识别与提取,并生成与输入图像尺度对应的一张灰度图。其生成的灰度图中的高亮度区域代表具有显著性物体,如汽车、人脸、字母等,并且服从高斯分布。根据特征融合理论(Feature Integration Theory),目前已有多种基于卷积神经网络的显著性预测算法被提出(如DeepFix、SALICON等),并极大的提高了显著性识别的精度。
2.2卷积神经网络概述
为生得到面向内容的缩略图截取坐标,首先需要对图像内容进行识别,并对图像每个区域的重要程度进行分类。近年来由于GPU并行运算性能的突破性进步以及基于大数据技术的训练数据集扩充,深度卷积神经网络(Deep Convolutional Neu-ral Networks,DCNNs)在包括图像识别、目标跟踪及显著性预测等多个图像处理领域上的任务都取得了极大的提升。而预训练参数(Pretraining)与转移学习(Transfer Learning)等技术进一步提升了CNNs在多项图像处理任务中的泛化能力及可用性,因此该文采用截断VGG19模型为预训练网络,进行显著点识别及缩略图。全卷积神经网络与传统的全连接神经网络类似,均采用梯度下降算法对权值进行更新。不同点在于,全卷积神经网络每次更新的值包括卷积核的值以及该卷积核的权值。
2.3网络结构
该文所采用的全卷积神经网络采用截断的VGGl9预训练模型的前10层组成。VGGl9由进行图像识别(物体分类)的ImageNet数据集训练而成,可精确识别数据集中1000中物体分类,故其所学习的卷积核参数包含有丰富的物体信息。
其中网络的具体成分主要由10层卷积模块及3层最大池化层组成,而卷积模块依次由一层卷积层,一层批量归一化层以及一层ReLU(Rectified Linear Unit)激活函数层组成。其中前8层卷积层由普通3×3大小,1×1步长的卷积核组成,后两层卷积层由带2×2洞的3×3大小(故实际感受野为5×5),步长1×1的卷积核组成。
网络结构如图1所示。
2.4缩略图生成
由全卷积神经网络识别并得到的显著性图为灰度值为0-255的灰度图,大的灰度值代表高显著性激活度。在得到对应图像的显著性图之后,方法采用步长为10像素的滑动窗口对显著性图进行遍历,并选择所窗口内激活程度最高的区域所处坐标作为缩略图截取坐标。对于有多个相同激活值的区域则选取距离图像中心最近的区域所处坐标为缩略图截取坐标。最后通过对原始输入图像中对应缩略图截取坐标进行截取,得到最终缩略图。
3实验设计
根据算法流程,该方法中实验设计也可分为两部分:第一部分为训练用于得到显著点坐标的全卷积神经网络,第二部分为设计并实现基于显著性图的动态步长滑动窗口方法。
3.1网络参数及训练数据设置
该方法训练数据选自开放数据集MIT1003及SALI-CONt31。实验采用批量训练方法,每批数据由128个样本组成,共训练2000个批次。网络采用绝对平均误差(Mean AbsoluteError,MAE)为损失函数(如公式1所示),并采用改进的梯度下降算法Adam算法进行权值更新,以提高网络鲁棒性及收敛性。网络收敛曲线如图2所示。
3.2滑动窗口设计
在得到输入图像的显著性图之后,所提方法通过滑动窗口截取缩略图,并通过自适应步长降低算法的时间复杂度。自适应步长通过由当前窗口内显著性图的平均激活值得到。步长的最大分辨率为40像素,最小分辨率为5像素,当当前窗口内平均激活值小于预设阈值时,下一次窗口的滑动步长增加为当前步长2倍,直至增大到最大分辨率步长。当当前窗口呢平均激活值大于预设阈值时,则每一次滑动减小位原步长的1/2,直至衰减到最小分辨率步长。
3.3实验结果
在验证及测试阶段,采用的测量标准为AUC-Judd,相关系数(Correlation Coefficient)以及KL散度(Kullback-Leibler Diver-gence)。其中AUC-Judd越大越好,KL散度越小越好。训练收敛后以以上测量标准在MIT1003数据集上进行了验证测试,所得结果如表一所示。表一表面该方法在显著性预测上超过了传统方法,取得了较好的结果。
图3对所提方法得到的缩略图进行了直观展示。从中可知所提方法在缩略图生成的过程中对图像本身信息进行了有效提取且得到了有效的显著性图,并由该显著性图通过滑动窗口得到了缩略图所需的正确截取坐标。最后得到的缩略图对于原图像本身信息具有高代表性,且并未损失分辨率信息。
卷积神经网络方法范文3
关键词:卷积神经网络;语言模型;分析
1 卷积神经网络语言模型
CNN语言模型基本结构包括输入层、卷积层、池化层及后续的分类层。输入层是表示语言的矩阵,该矩阵可以是通过Google word2vec或GloVe预训练得到的词嵌入表示,也可以是从原始数据重新训练的语言的向量表示。输入层之后是通过线性滤波器对输入矩阵进行卷积操作的卷积层。在NLP问题中,输入矩阵总是带有固定顺序的结构,因为矩阵的每一行都表示离散的符号,例如单词或者词组等。因此,使用等宽的滤波器是非常合理的设置。在这种设置下,仅需要考虑滤波器的高度既可以实现不同尺寸的滤波器做卷积操作。由此可知,在处理NLP问题时,卷积神经网络的滤波器尺寸一般都是指滤波器的高度。
然后,将卷积层输出的特征映射输入池化层,通过池化函数为特征映射进行降维并且减少了待估计参数规模。一般的,CNN池化操作采用1-max池化函数。该函数能够将输入的特征映射统一生成维度相同的新映射。通过池化操作,可以将卷积层生成的特征连接成更抽象的高级特征,所得到的高级特征尺寸与输入的句子不再存在直接关系。
最后,将得到的高级特征输入softmax分类层进行分类操作。在softmax层,可以选择应用dropout策略作为正则化手段,该方法是随机地将向量中的一些值设置为0。另外还可以选择增加l2范数约束,l2范数约束是指当它超过该值时,将向量的l2范数缩放到指定阈值。在训练期间,要最小化的目标是分类的交叉熵损失,要估计的参数包括滤波器的权重向量,激活函数中的偏置项以及softmax函数的权重向量。
2 卷积神经网络语言模型应用分析
CNN语言模型已经广泛应用于诸如文本分类,关系挖掘以及个性化推荐等NLP任务,下面将对这些应用进行具体的介绍与分析。
2.1 CNN在文本分类中的应用分析
kim提出了利用CNN进行句子分类的方法。该方法涉及了较小规模的参数,并采用静态通道的CNN实现了效果很优异的句子分类方法。通过对输入向量的调整,进一步提高了性能实现了包括情感极性分析以及话题分类的任务。在其基础上为输入的词嵌入设计了两种通道,一种是静态通道,另一种是动态通道。在卷积层每一个滤波器都通过静态与动态两种通道进行计算,然后将计算结果进行拼接。在池化层采用dropout正则化策略,并对权值向量进行l2约束。最后将该算法应用于MR、SST-1与SST-2、Subj、TREC、CR以及MPQA等数据集。MR数据集为电影评论数据集,内容为一句话的电影评论,其分类包括积极情感极性与消极情感极性两类。SST-1与SST-2数据集为斯坦福情感树库是MR数据集的扩展,但该数据集已经划分好了训练集、验证集及测试集并给出了细粒度的标记,标记包括非常积极、积极、中性、消极、非常消极等情感极性。Subj数据集为主观性数据集,其分类任务是将句子分为主观句与客观句两类。TREC数据集为问题数据集,其分类任务是将所有问题分为六类,例如关于数字、人物或位置等信息的问题。CR数据集为评论数据集,包括客户对MP3、照相机等数码产品的评论,其分类任务是将其分为积极评价与消极评价两类。MPQA数据集是意见极性检测任务数据集。通过实验证明,该方法在这几个典型数据集上都能取得非常优异的效果。
2.2 CNN在关系挖掘中的应用分析
Shen等人提出了一种新的潜在语义模型,以词序列作为输入,利用卷积-池化结构为搜索查询和Web文档学习低维语义向量表示。为了在网络查询或网络文本中捕捉上下文结构,通过输入单词序列上下文时间窗口中的每个单词来获取词汇级的n-gram语法特征,将这些特征聚合成句子级特征向量。最后,应用非线性变换来提取高级语义信息以生成用于全文字符串的连续向量表示。该模型的不同之处在于,输入层与卷积层之间加入了word-n-gram层与letter-trigram层,它们能够将输入的词序列转变为letter-trigram表示向量。在卷积层通过上下文特征窗口发现相邻单词的位置特征,并变现为n-gram形式。然后通过max池化将word-n-gram特征合并为句子级的高级特征。在池化层之后增加了语义层来提取更高级的语义表示向量。
2.3 CNN在个性化推荐中的应用分析
Weston等人提出了一种能够利用标签(hashtag)有监督的学习网络帖子短文本特征表示的卷e嵌入模型(Convolutional Embedding Model)。该方法利用提出的CNN模型在55亿词的大数据文本上通过预标注的100,000标签进行训练。该方法除了标签预测任务本身能取得好的效果外,学习到的特征对于其它的文本表示任务也能起到非常有效的作用。该模型与其它的词嵌入模型类似,输入层为表示文本的矩阵,但是,在用查找表表示输入文本的同时将标签也使用查找表来表示。对于给定的文档利用10万条最频繁出现的标签通过评分函数对任何给定的主题标签进行排序。
其中,econv(w)表示CNN的输入文档,elt(t)是候选标签t的词嵌入表示。因此,通过对分数f(w,t)进行排序可以获取所有候选主题标签中排序第一的话题进行推荐。实验数据集采用了两个大规模语料集,均来自流行的社交网络文本并带有标签。第一个数据集称作people数据集,包括搜集自社交网络的2亿1000万条文本,共含有55亿单词。第二个数据集被称作pages,包括3530万条社交网络文本,共含有16亿单词,内容包括企业、名人、品牌或产品。
3 结束语
卷积神经网络应用于语言模型已经取得了非常大的发展,对于自然语言处理中的各项任务均取得了优异的结果。本文通过对几项典型工作的分析,探讨了不同卷积神经网络模型结构在不同任务中的表现。通过综合分析可以得出以下结论。首先,CNN的输入采用原始数据训练的向量表示一般效果会优于预训练的词嵌入表示;其次,在卷积层滤波器的尺寸一般采用宽度与输入矩阵宽度相等的设置;最后,为了优化结果可以采用dropout正则化处理。
卷积神经网络方法范文4
[关键词]卷积网络,mnist,深度学习;
中图分类号:TP391 文献标识码:A 文章编号:1009-914X(2017)02-0168-01
1 概述
几年来,深度卷积网络技术飞速发展,在图像,语音,自然语言处理等多个人工智能领域纷纷取得领先。深度卷积网络作为深度神经网络的一种,其具有独特的类似于人眼局部感受野的卷积核,以及类似于生物神经的层次级联结构。由于权值共享的特性,网络的参数大大减少,同时降低了对训练数据过拟合的风险,具有比其他种类的深度网络更加易于训练的好处。
2 深度卷积网络
2.1 深度卷积层的结构
一个典型的深度卷积网络结构如图2-1所示。
深度卷积网络的第一层是输入层,接下来是若干个卷基层和下采样层,最后是一个分类器,如softmax分类器,由分类器输出相应的分类结果。通常,每一个卷基层后面都紧跟一个下采样层。在卷基层,利用局部连接和权值共享可以减少网络的训练参数,降低计算的复杂性。通过卷积运算,得到的卷积结果通过sigmoid等激活函数的输出得到这一层的特征图,然后作为下一层(下采样层)的输入。在下采样层。将前一层对应的特征图中相邻若干个特征通过池化操作合并成一个特征。输入的图像数据可以直接传送到第一个卷积层,进行逐层特征学习,最后利用有标签样本数据输入到softmax分类器,通过后向反馈微调整个网络的参数。
2.2 深度卷积网络的学习算法
2.2.1 卷积层的学习
卷积层是利用局部连接和权值共享,减少网络的自由参数个数,降低网络参数选取复杂度。在每一个卷积层中,用一个可学习的卷积核与上一层若干个特征图进行卷积,再通过一个激活函数f,如sigmoid利用式2-1就可以得到相应的输入特征。
这里l表示层数,k是卷积核,*表示二维卷积,表示偏置,是输入特征图集合。
2.2.2 下采样层的学习
下采样层利用图像局部相关性原理,对图像进行子抽样,在减少数据处理量的同时保留有用信息。这里通常是对前一层对应的特征图中的向量特征进行池化操作。池化分为平均池化和最大池化等,池化后特征图数量不变,但特征图变小,输出的特征可用式2-2计算。
其中对应权值,b表示相应偏置,dowm表示下采样函数。
深度卷积网络,输入端直接输入图像像素,采用由前向后的逐层学习方式,计算损失函数,再通过bp算法对整个训练参数进行调整。
3 深度学习中常用方法
3.1 线性校正单元
线性校正单元(ReLU)是当前最普遍使用的非线性激活函数,其函数形式为f(x)=max(x,0)。在过去神经网络通常使用Tanh或Sigmoid函数作为激活函数。研究表明,生理神经元编码可能是以稀疏分布的形式表示,因为神经元的活动电位和突出后效应消耗了绝大部分能量,同时能激活的神经元数量预测在1%至4%之间,所以大部分神经元处在静息状态。尽管ReLU非线性,并且在零点处不可微分,但是它可以生成真正的零来进行稀疏表示,所以对生理神经元激活的拟合更好。实验表明,ReLU作为激活函数,在网络中学习的更快。
3.2 Dropoup
在网络的训练过程中,过拟合是个常见的问题,尤其是在训练大规模网络的时候,Dropout 是处理这个问题的一种方法。Dropout 是指在训练的时候,以随机概率抛弃神经元的连接,进而增加网络的健壮性。若在训练中使用了 Dropout,则会导致网络连接数变少,所以测试的时候需要通过对该层的所有权值等比例缩小,以平均近似训练时的网络。神经元与Dropout 随机挑选的单元进行训练,会使得每个单元不依赖于特定单元从而变得更加健壮,进而产生有用的特征信息。
4 仿真实验
本文采用matlab仿真环境,网络采用五层结构,前两层为卷积层,卷积核分别为3和5。中间两层为全连接,最后一层是softmax分类器。实验结果如图4-1所示。结果可以看到,错误率大约为0.48%左右,此网络拥有很高的识别率。
参考文献
[1] 段宝彬,韩立新. 改进的深度卷积网络及在碎纸片拼接中的应用[J].计算机工程与应用,2014,50(9):176-181.
[2] 郑昌艳,梅卫,王刚. 基于深度卷积神经网络的蛇形机动航迹图像识别[J].火力与指挥控制,2016.05.
[3] 张宏毅. 基于深度卷e网络的同款商品图像检索研究[J].图形图像,2016.04.
[4] 刘畅. MRI脑影像的深度卷积网络分割和三维可视化[D].
[5] Glorot X, Bordes A, Bengio Y.Deep sparse rectifier neural networks;International Conferenc e on Artificial Intelligence and Statistics[C], 2011.
[6] Lennie P.The cost of cortical computation [J].Current biology,2003,13(6):493-497.
卷积神经网络方法范文5
Abstract:the mechanical transmission system is widely used in national defense, aerospace, production and other fields of industry. Among them, the gear transmission system is the most frequently used mechanical transmission mechanism. However, because of long time of mechanical work, gear wear and tear parts easily happened, and lead to the occurrence of a variety of mechanical failure. In this paper, the author analyzes the gear transmission process, the system fault diagnosis methods and solutions.
关键词:机械传动系统;故障诊断及解决
Keywords: mechanical transmission system; Troubleshooting and solutions
1. 引言
机械传动系统广泛运用于国防、航天航空、生产等各个领域及行业中,因此,确保其安全性和可靠性具有非常重要的意义。齿轮传动系统,作为当今世界上运用频率最高的机械传动系统之一,对其故障的早期、及时诊断和解决,不仅有利于经济合理地安排设备维修的时间,更能有效避免重大人身或设备伤亡事故的发生。
2. 齿轮传动系统故障的诊断方法
2.1 常见齿轮传动系统故障
根据经验总结,常见的齿轮传动故障一般可分为两种:一种是分布在一个齿轮的各个轮齿上的分布式故障;另一种则是只集中于一个齿轮的某一个或者某几个轮齿上的局部故障。以下就具体的系统故障做诊断方法分析。
2.2 齿轮故障的诊断方法
2.2.1 小波分析方法
小波变换是一种多分辨率的时频分析方法。目前,齿轮传动故障分析中使用最广泛的小波分析方法是二进离散小波变换法。而随着小波分析技术的不断发展,和计算机容量、运算能力的飞速提高,连续小波变换也开始逐步应用于齿轮传动故障的诊断分析。而且,与二进离散小波变换相比,连续小波具有时间和尺度网格划分更细致、小波基无需正交和具有“时(移)不变”特性等多方面优势,更适合机械动态信号的检测和故障诊断。
2.2.2 神经网络分析方法
神经网络,在充分学习经验样本的基础上,将知识转换成为神经网络的权值和阈值,并将其存储在整个神经网络中。虽然神经网络模型可以映射出故障征兆的特征空间和模式空间,但是它不能解释故障诊断的技术内容和实质,因此又相当于知识表达的“黑箱结构”。人工神经元网络,是基于对人大脑中神经元结构特性的模仿,而建立起来的一种简单的非线性动力学互联网络。人工神经元网络的优点很多,例如:具有大规模并行处理能力、适应性学习和处理复杂多模式。BP网络、Hopfield网络和BAM网络是齿轮传动系统故障诊断领域常用的3种神经网络。其中,BP网络可以看作是一个静态的系统,具有模式分类能力。
2.2.3 独立变量分解法
之所以使用独立变量分别是存在两方面原因的。一方面,由于齿轮箱体表面测量到的振动信号是齿轮传动系统的振源信号与系统结构的脉冲响应函数的卷积,直接对齿轮传动的振源信号进行故障诊断非常困难;另一方面,独立分量分析法(ICA)是具有盲源分离和盲反卷积功能的新型多变量数据统计方法。因此,独立分量分析法在齿轮传动系统故障的诊断中具有非常重要的作用。根据ICA盲源分离原理进行齿轮传动故障诊断的方法主要可分为3类:①振动信号的盲源分离;②振动信号的单向分解;③利用部分已知信息进行盲源分离。ICA反卷积运算方法也是多种多样,例如:窄带信号卷积模型法。
3. 齿轮故障的解决方法
3.1 正确安装和使用齿轮传动系统,是预防系统故障发生的重要环节
只有严格遵守相应的安装程序和操作技能要求,对齿轮传动系统进行正确的安装和使用,才能确保机械设备的正常运行。首先,要注意齿轮安装的精度要求。齿轮安置精度的肯定,要在连系传动齿轮的承载本领和使用寿命的基础上举行肯定。其次,不管是新安置、改换齿轮,仍是检验安置齿轮,都应该严格依照技术标准请求执行。最后,为了防止过度损坏齿轮的轴承或出现断轮,安装时切忌用铁锥敲打。
3.2 正确使用和管理剂,是延长机械传动齿轮使用寿命,减少故障发生的关键环节
剂的正确使用和管理,对避免齿轮传动系统故障的发生,延长其使用寿命具有至关重要的作用。一方面,为了防止齿轮的加速老化磨损和使用寿命的不正常缩短,应该结合齿轮的运转情况、工作条件和环境等因素,正确使用剂。首先要科学记录传动齿轮的工作情况、每个部位使用的剂型号、使用时间等。然后根据出厂标准制定维修计划,并结合实际工作环境和季节的变化,及时、适当地更换和加装剂,保证机械传动齿轮的正常工作。另一方面,还应该严格以科学的技术标准为指导,对剂的选择、使用和更换过程进行严格把关。
3.3 完善生产技术和管理,对避免机械传动齿轮故障也有重要意义
虽然机械传动齿轮只是一个生产部件,但它与机械的轴和轴承都是相互联系、相互作用的,每个部件的精度对生产都有重要影响作用。因此,必须严格按照出厂标准,对每一个部件进行安装调试,以保证传动齿轮和相关设备的精度,从而确保生产。日常生产管理过程中,也要在严格按照技术要求进行的基础上,对其进行综合的科学化管理,避免超负荷、故障生产。
4. 结论
齿轮传动系统在国防、农业、工业和生产等领域的机械设备中都有广泛的运用。因此,及时、早期的诊断和解决齿轮传动系统中的故障,确保其安全性和可靠性具有非常重要的意义。首先,本文以小波分析方法、神经网络分析方法和独立变量分解法为例,详细分析了齿轮故障的的诊断方法,并对故障的解决提出了3点建议:①正确安装和使用齿轮传动系统;②正确使用和管理剂;③完善生产技术和管理。
参考文献:
[1]李涛.探析机械传动系统关键零部件故障预测技术[J].中小企业管理与科技,2014(8).
[2]闫慧.关于采煤机械传动齿轮失效问题的探讨[J].科技创新与应用,2011(19).
卷积神经网络方法范文6
关键词:人机大战;人工智能;发展前景
中图分类号:TP391 文献标识码:A
0.引言
2016年3月15日,备受瞩目的“人机大战”终于落下帷幕,最终Google公司开发的“AlphaGo”以4∶1战胜了韩国九段棋手李世h。毫无疑问,这是人工智能历史上一个具有里程碑式的大事件。大家一致认为,人工智能已经上升到了一个新的高度。
这次胜利与1997年IBM公司的“深蓝”战胜国际象棋世界冠军卡斯帕罗不同。主要表现在两个方面:
(1)AlphaGo的胜利并非仅仅依赖强悍的计算能力和庞大的棋谱数据库取胜,而是AlphaGo已经拥有了深度学习的能力,能够学习已经对弈过的棋盘,并在练习和实战中不断学习和积累经验。
(2)围棋比国际象棋更加复杂,围棋棋盘有361个点,其分支因子无穷无尽,19×19格围棋的合法棋局数的所有可能性是幂为171的指数,这样的计算量相当巨大。英国围棋联盟裁判托比表示:“围棋是世界上最为复杂的智力游戏,它简单的规则加深了棋局的复杂性”。因此,进入围棋领域一直被认为是目前人工智能的最大挑战。
简而言之,AlphaGo取得胜利的一个很重要的方面就是它拥有强大的“学习”能力。深度学习是源于人工神经网络的研究,得益于大数据和互联网技术。本文就从人工智能的发展历程与现状入手,在此基础上分析了人工智能的未来发展前景。
1.人工智能的发展历程
AlphaGo的胜利表明,人工智能发展到今天,已经取得了很多卓越的成果。但是,其发展不是一帆风顺的,人工智能是一个不断进步,并且至今仍在取得不断突破的学科。回顾人工智能的发展历程,可大致分为孕育、形成、暗淡、知识应用和集成发展五大时期。
孕育期:1956年以前,数学、逻辑、计算机等理论和技术方面的研究为人工智能的出现奠定了基础。德国数学家和哲学家莱布尼茨把形式逻辑符号化,奠定了数理逻辑的基础。英国数学家图灵在1936年创立了自动机理论(亦称图灵机),1950年在其著作《计算机与智能》中首次提出“机器也能思维”,被誉为“人工智能之父”。总之,这些人为人工智能的孕育和产生做出了巨大的贡献。
形成期:1956年夏季,在美国达特茅斯大学举办了长达2个多月的研讨会,热烈地讨论用机器模拟人类智能的问题。该次会议首次使用了“人工智能”这一术语。这是人类历史上第一次人工智能研讨会,标志着人工智能学科的诞生。其后的十几年是人工智能的黄金时期。在接下来的几年中,在众多科学家的努力下,人工智能取得了瞩目的突破,也在当时形成了广泛的乐观思潮。
暗淡期:20世纪70年代初,即使最杰出的AI程序也只能解决问题中最简单的部分,发展遇到瓶颈也就是说所有的AI程序都只是“玩具”,无法解决更为复杂的问题。随着AI遭遇批评,对AI提供资助的机构也逐渐停止了部分AI的资助。资金上的困难使得AI的研究方向缩窄,缺少了以往的自由探索。
知识应用期:在80年代,“专家系统”(Expect System)成为了人工智能中一个非常主流的分支。“专家系统”是一种程序,为计算机提供特定领域的专门知识和经验,计算机就能够依据一组从专门知识中推演出的逻辑规则在某一特定领域回答或解决问题。不同领域的专家系统基本都是由知识库、数据库、推理机、解释机制、知识获取等部分组成。
集成发展期:得益于互联网的蓬勃发展、计算机性能的突飞猛进、分布式系统的广泛应用以及人工智能多分支的协同发展,人工智能在这一阶段飞速发展。尤其是随着深度学习和人工神经网络研究的不断深入,人工智能在近几十年中取得了长足的进步,取得了令人瞩目的成就。
人工智能发展到今天,出现了很多令人瞩目的研究成果。AlphaGo的胜利就是基于这些研究成果的一个里程碑。当前人工智能的研究热点主要集中在自然语言处理、机器学习、人工神经网络等领域。
2.人工智能l展现状与前景
人工智能当前有很多重要的研究领域和分支。目前,越来越多的AI项目依赖于分布式系统,而当前研究的普遍热点则集中于自然语言处理、机器学习和人工神经网络等领域。
自然语言处理:自然语言处理(Natural Language Processing,简称NLP),是语言学与人工智能的交叉学科,其主要功能就是实现让机器明白人类的语言,这需要将人类的自然语言转化为计算机能够处理的机器语言。
自然语言处理主要包括词法分析、句法分析和语义分析三大部分。词法分析的核心就是分词处理,即单词的边界处理。句法分析就是对自然语言中句子的结构、语法进行分析如辨别疑问句和感叹句等。而语义分析则注重情感分析和整个段落的上下文分析,辨别一些字词在不同的上下文定的语义和情感态度。
当前自然语言的处理主要有两大方向。一种是基于句法-语义规则的理性主义理论,该理论认为需要为计算机制定一系列的规则,计算机在规则下进行推理与判断。因此其技术路线是一系列的人为的语料建设与规则制定。第二种是基于统计学习的经验主义理论,这种理论在最近受到普遍推崇。该理论让计算机自己通过学习并进行统计推断的方式不停地从数据中“学习”语言,试图刻画真实世界的语言现象,从数据中统计语言的规律。
机器学习:机器学习(Machine Learning)是近20年来兴起的人工智能一大重要领域。其主要是指通过让计算机在数据中自动分析获得规律,从而获取“自我学习”的能力,并利用规律对未知数据进行判断和预测的方法。
机器学致可以分为有监督的学习和无监督的学习。有监督的学习是从给定的训练数据集中练出一个函数和目标,当有新的数据到来时,可以由训练得到函数预测目标。有监督的学习要求训练集同时有输入和输出,也就是所谓的特征和目标。而依据预测的结果是离散的还是连续的,将有监督的学习分为两大问题,即统计分类问题和回归分析问题。统计分类的预测结果是离散的,如肿瘤是良性还是恶性等;而回归分析问题目标是连续的,如天气、股价等的预测。
无监督学习的训练集则没有人为标注的结果,这就需要计算机去发现数据间的联系并用来分类等。一种常见的无监督学习是聚类分析(Cluster Analysis),它是将相似的对象通过静态分类的方法分成不同的组别或者是特定的子集,让同一个子集中的数据对象都有一些相似的属性,比较常用的聚类方法是简洁并快速的“K-均值”聚类算法。它基于K个中心并对距离这些中心最近的数据对象进行分类。
机器学习还包括如半监督学习和增强学习等类别。总而言之,机器学习是研究如何使用机器来模拟人类学习活动的一门学科,而其应用随着人工智能研究领域的深入也变得越来越广泛,如模式识别、计算机视觉、语音识别、推荐算法等领域越来越广泛地应用到了机器学习中。
人工神经网络:在脑神经科学领域,人们认为人类的意识及智能行为,都是通过巨大的神经网络传递的,每个神经细胞通过突出与其他神经细胞连接,当通过突触的信号强度超过某个阈值时,神经细胞便会进入激活状态,向所连接的神经细胞一层层传递信号。于1943年提出的基于生物神经元的M-P模型的主要思想就是将神经元抽象为一个多输入单输出的信息处理单元,并通过传递函数f对输入x1,x2…,xn进行处理并模拟神经细胞的激活模式。主要的传递函数有阶跃型、线性型和S型。
在此基础上,对神经网络算法的研究又有诸多进展。日本的福岛教授于1983年基于视觉认知模型提出了卷积神经网络计算模型。通过学习训练获取到卷积运算中所使用的卷积系数,并通过不同层次与自由度的变化,可以得到较为优化的计算结果。而AlphaGo也正是采用了这种深度卷积神经网络(DCNN)模型,提高了AlphaGo的视觉分类能力,也就是所谓的“棋感”,增强了其对全盘决策和把握的能力。
3.人工智能的发展前景
总体来看,人工智能的应用经历了博弈、感知、决策和反馈这几个里程碑。在以上4个领域中,既是纵向发展的过程,也是横向不断改进的过程。
人工智能在博弈阶段,主要是实现逻辑推理等功能,随着计算机处理能力的进步以及深度学习等算法的改进,机器拥有了越来越强的逻辑与对弈能力。在感知领域,随着自然语言处理的进步,机器已经基本能对人类的语音与语言进行感知,并且能够已经对现实世界进行视觉上的感知。基于大数据的处理和机器学习的发展,机器已经能够对周围的环境进行认知,例如微软的Kinect就能够准确的对人的肢体动作进行判断。该领域的主要实现还包括苹果的Siri,谷歌大脑以及无人驾驶汽车中的各种传感器等。在以上两个阶段的基础上,机器拥有了一定的决策和反馈的能力。无人驾驶汽车的蓬勃发展就是这两个里程碑很好的例证。Google的无人驾驶汽车通过各种传感器对周围的环境进行感知并处理人类的语言等指令,利用所收集的信息进行最后的决策,比如操作方向盘、刹车等。
人工智能已经渗透到生活中的各个领域。机器已经能识别语音、人脸以及视频内容等,从而实现各种人际交互的场景。在医学领域,人工智能可以实现自动读片和辅助诊断以及个性化t疗和基因排序等功能。在教育领域,机器也承担了越来越多的辅助教育,智能交互的功能。在交通领域,一方面无人车的发展表明无人驾驶是一个可以期待的未来,另一方面人工智能能够带来更加通畅和智能的交通。另外人工智能在安防、金融等领域也有非常广阔的发展前景。总之,人工智能在一些具有重复性的和具备简单决策的领域已经是一种非常重要的工具,用来帮助人们解决问题,创造价值。
参考文献
[1]阮晓东.从AlphaGo的胜利看人工智能的未来[J].新经济导刊,2016 (6):69-74.