前言:中文期刊网精心挑选了卷积神经网络的发展范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。
卷积神经网络的发展范文1
中图分类号 TP18 文献标识码:A 文章编号:1009-3044(2016)10-0194-03
Abstract: In this paper, the convolution neural network recognition in the leaves, and the process by convolution of image visualization. Experiments show that the neural network application identification convolution leaves a 92% recognition rate. In addition , this neural network and support vector machine comparative study can be drawn from the study , convolutional neural network in either speed or accuracy better than support vector machines, visible, convolution neural network in the leaves aspect has good application prospects.
Key words recognition leaves; SVM; convolutional neural network
1 概述
树叶识别与分类在对于区分树叶的种类,探索树叶的起源,对于人类自身发展、科普具有特别重要的意义。目前的树叶识别与分类主要由人完成,但,树叶种类成千上万种,面对如此庞大的树叶世界,任何一个植物学家都不可能知道所有,树叶的种类,这给进一步研究树叶带来了困难。为了解决这一问题,一些模式识别方法诸如支持向量机(Support Vector Machine,SVM)[1],K最近邻(k-NearestNeighbor, KNN)[2]等被引入,然而,随着大数据时代的到来,这些传统分类算法暴露出越来越多的不足,如训练时间过长、特征不易提取等不足。
上世纪60年代开始,学者们相继提出了各种人工神经网络[3]模型,其中卷积神经网络由于其对几何、形变、光照具有一定程度的不变形,因此被广泛应用于图像领域。其主要特点有:1)输入图像不需要预处理;2)特征提取和识别可以同时进行;3)权值共享,大大减少了需要训练的参数数目,是训练变得更快,适应性更强。
卷积神经网络在国内研究才刚刚起步。LeNet-5[4]就是一种卷积神经网络,最初用于手写数字识别,本文研究将卷积神经网络LeNet-5模型改进并应用于树叶识别中。本文首先介绍一下卷积神经网络和LeNet-5的结构,进而将其应用于树叶识别,设计了实验方案,用卷积神经网络与传统的模式识别算法支持向量机(SVM)进行比较,得出了相关结论,并对进一步研究工作进行了展望。
2人工神经网络
人工神经网络方面的研究很早就已开展,现在的人工神经网络已经发展成了多领域、多学科交叉的独立的研究领域。神经网络中最基本的单元是神经元模型。类比生物神经元,当它“兴奋”时,就会向相连的神经元发送化学物质,从而改变这些神经元的状态。人工神经元模型如图1所示:
上述就是一个简单的神经元模型。在这个模型中,神经元接收来自n个其他神经元传递过来的输入信号,这些信号通过带权重的w进行传递,神经元接收到的总输入值将与神经元的阈值进行比较,然后通过“激活函数”来产生输出。
一般采用的激活函数是Sigmoid函数,如式1所示:
[σz=11+e-z] (1)
该函数图像图2所示:
2.1多层神经网络
将上述的神经元按一定的层次结构连接起来,就得到了如图3所示的多层神经网络:
多层神经网络具有输入层,隐藏层和输出层。由于每一层之间都是全连接,因此每一层的权重对整个网络的影响都是特别重要的。在这个网络中,采用的训练算法是随机梯度下降算法[5],由于每一层之间都是全连接,当训练样本特别大的时候,训练需要的时间就会大大增加,由此提出了另一种神经网络―卷积神经网络。
2.2卷积神经网络
卷积神经网络(CNN)由于在图像分类任务上取得了非常好的表现而备受人们关注。发展到今天,CNN在深度学习领域已经成为了一种非常重要的人工神经网络。卷积神经网络的核心在于通过建立很多的特征提取层一层一层地从图片像素中找出关系并抽象出来,从而达到分类的目的,CNN方面比较成熟的是LeNet-5模型,如图4所示:
在该LeNet-5模型中,一共有6层。如上图所示,网络输入是一个28x28的图像,输出的是其识别的结果。卷积神经网络通过多个“卷积层”和“采样层”对输入信号进行处理,然后在连接层中实现与输出目标之间的映射,通过每一层卷积滤波器提取输入的特征。例如,LeNet-5中第一个卷积层由4个特征映射构成,每个特征映射是一个24x24的神经元阵列。采样层是基于对卷积后的“平面”进行采样,如图所示,在第一个采样层中又4的12x12的特征映射,其中每个神经元与上一层中对应的特征映射的2x2邻域相连接,并计算输出。可见,这种局部相关性的特征提取,由于都是连接着相同的连接权,从而大幅度减少了需要训练的参数数目[6]。
3实验研究
为了将LeNet-5卷积网络用于树叶识别并检验其性能,本文收集了8类树叶的图片,每一类有40张照片,如图5所示的一张树叶样本:
本文在此基础上改进了模型,使用了如图6卷积神经网络模型:
在此模型中,第一个卷积层是由6个特征映射构成,每个特征映射是一个28*28的神经元阵列,其中每个神经元负责从5*5的区域通过卷积滤波器提取局部特征,在这里我们进行了可视化分析,如图7所示:
从图中可以明显地看出,卷积网络可以很好地提取树叶的特征。为了验证卷积神经网络与传统分类算法之间的性能,本文基于Python语言,CUDA并行计算平台,训练同样大小8类,一共320张的一批训练样本,采用交叉验证的方法,得到了如表1所示的结论。
可见,无论是识别率上,还是训练时间上,卷积网络较传统的支持向量机算法体现出更好地分类性能。
4 总结
本文从人工神经网络出发,重点介绍了卷积神经网络模型LeNet-5在树叶识别上的各种研究并提取了特征且进行了可视化,并与传统分类算法SVM进行比较。研究表明,该模型应用在树叶识别上较传统分类算法取得了较好的结果,对收集的树叶达到了92%的准确率,并大大减少了训练所需要的时间。由于卷积神经网络有如此的优点,因此在人脸识别、语音识别、医疗识别、犯罪识别方面具有很广泛的应用前景。
本文的研究可以归纳为探讨了卷积神经网络在树叶识别上的效果,并对比了传统经典图像分类算法,取得了较好的分类精度。
然而,本文进行实验的样本过少,当数据集过多的时候,这个卷积神经网络算法的可行性有待我们进一步的研究;另外,最近这几年,又有很多不同的卷积神经网络模型出现,我们会继续试验其他的神经网络模型,力求找到更好的分类算法来解决树叶识别的问题。
参考文献:
[1]Bell A, Sejnowski T. An Information-Maximization Approach to Blind Separation and Blind Deconvolution[J]. Neural Computation, 1995, 7(6):1129-59.
[2]Altman N S. An Introduction to Kernel and Nearest-Neighbor Nonparametric Regression[J]. American Statistician, 1992, 46(3):175-185.
[3]Ripley B D, Hjort N L. Pattern Recognition and Neural Networks[M]. Pattern recognition and neural networks. Cambridge University Press,, 1996:233-234.
[4]Lécun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11):2278-2324.
卷积神经网络的发展范文2
【关键词】深度神经网络 序列到序列网络 卷积网络 对抗式生成网路
1 深度神经网络起源
人工神经网络(ArtificialNeuralNetworks,ANN)研究是人工智能领域的一个重要分支,在对生物神经网络结构及其机制研究的基础上,构建类似的人工神经网络,使得机器能直接从大量训练数据中学习规律。其研究最早可以追溯到1957年Frank Rosenblatt提出的感知机模型,他在《The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain》建立了第一个人工神经网络数学模型,19世纪80年代末期反向传播(Back Propagation)算法的发明更是带来了ANN的学习热潮,但由于理论分析难度较大,训练方法及技巧尚不成熟,计算机运算能力还不够强大,这个时期ANN结构较为简单,大部分都可等价为单隐层神经网络,主要是进行浅层学习(Shallow Learning)研究。
2006年Geoffrey Hinton在《A Fast Learning Algorithm for Deep Belief Nets》中提出了逐层贪婪预训练(layerwise greedy pretraining),显著提高了MNIST手写数字识别的准确率,开创了深度学习的新方向;随后又在《Reducing the Dimensionality of Data with Neural Networks》中提出了deep autoencoder结构,在图像和文本降维实验上明显优于传统算法,证明了深度学习的正确性。以这两篇论文为开端,整个学术界掀起了对深度学习的研究热潮,由于更多的网络层数和参数个数,能够提取更多的数据特征,获取更好的学习效果,ANN模型的层数和规模相比之前都有了很大的提升,被称之为深度神经网络(Deep Neural Networks,DNN)。
2 深度神经网络的现代应用
2010年以来,随着理论不断创新和运算能力的增长,DNN被应用到许多领域并取得了巨大的成功。2011年微软和谷歌的研究员利用DNN将语音识别的错误率降低了20%~30%;2012年在ImageNet图像识别挑战赛(ILSVRC2012)中DNN更是将识别错误率从26%降到了15%;2016年3月DeepMind团队研发的围棋软件AlphaGO以4:1的巨大优势战胜了世界围棋冠军李世石,2017年1月初AlphaGO的升级版Master以60:0的战绩击败了数十位中日韩围棋高手。当前对DNN的研究主要集中在以下领域:
2.1 语音识别领域
微软研究院语音识别专家邓立和俞栋从2009年开始和深度学习专家Geoffery Hinton合作,并于2011年宣布推出基于DNN的识别系统,彻底改变了语音识别的原有技术框架;2012年11月,百度上线了第一款基于DNN的语音搜索系统,成为最早采用DNN技术进行商业语音服务的公司之一;2016年微软使用循环神经网络语言模型(Recurrent Neural Network based Language Modeling,RNN-LM)将switchboard的词识别错误率降低到了6.3%。
2.2 图像识别领域
早在1989年,YannLeCun和他的同事们就提出了卷积神经网络(Convolution Neural Networks,CNN)结构。在之后的很长一段时间里,CNN虽然在诸如手写数字问题上取得过世界最好的成功率,但一直没有被广泛应用。直到2012年10月,Geoffrey Hinton在ILSVRC2012中使用更深的CNN将错误率从26%降到15%,业界才重新认识到CNN在图像识别领域上的巨大潜力;2012年谷歌宣布基于CNN使得电脑直接从一千万张图片中自发学会猫脸识别;2013年DNN被成功应用于一般图片的识别和理解;2016年DeepMind团队基于CNN研发了围棋AI,并取得了巨大成功。
2.3 自然语言处理领域
2003年YoshuaBengio等人提出单词嵌入(word embedding)方法将单词映射到一个矢量空间,然后用ANN来表示N-Gram模型;2014年10月NEC美国研究院将DNN用于自然语言处理(Natural language processing,NLP)的研究工作,其研究员Ronan Collobert和Jason Weston从2008年开始采用单词嵌入技术和多层一维卷积的结构,用于POS Tagging、Chunking、Named Entity Recognition、Semantic Role Labeling等四典型NLP问题;2014年IlyaSutskever提出了基于LSTM的序列到序列(sequence to sequence,seq2seq)网络模型,突破了传统网络的定长输入向量问题,开创了语言翻译领域的新方向;2016年谷歌宣布推出基于DNN的翻译系统GNMT(Google Neural Machine Translation),大幅提高了翻译的精确度与流畅度。
3 深度神经网络常见结构
DNN能够在各领域取得巨大成功,与其模型结构是密不可分的,现代DNN大都可归纳为三种基本结构:序列到序列网络、卷积网络、对抗式生成网络,或由这三种基本网络结构相互组合而成。
3.1 序列到序列网络
序列到序列网络的最显著特征在于,它的输入张量和输出张量长度都是动态的,可视为一串不定长序列,相比传统结构极大地扩展了模型的适应范围,能够对序列转换问题直接建模,并以端到端的方式训练模型。典型应用领域有:自动翻译机(将一种语言的单词序列转换为另一种语言的单词序列),语音识别(将声波采样序列转换为文本单词序列),自动编程机研究(将自然语言序列转换为语法树结构),此类问题的特点在于:
(1)输入和输出数据都是序列(如连续值语音信号/特征、离散值的字符);
(2)输入和输出序列长度都不固定;
(3)输入输出序列长度没有对应关系。
其典型如图1所示。
网络由编码器(encoder)网络和解码器网络(decoder)两部分连接构成:
3.1.1 编码器网络
编码器网络通常是一个递归神经网络(Recurrent Neural Networks,RNN),网络节点一般使用长短期记忆模型(Long Short Term Memory,LSTM)实现,序列中里第t个张量xt的输出yt依赖于之前的输出序列(y0、y1…yt-1),输入序列(x0、x1、x2…)那爸梁笠来问淙胪络,整个序列处理完后得到最终的输出Y以及各层的隐藏状态H。
3.1.2 解码器网络
解码器网络是一个与编码器网络结构相同的RNN网络,以解码器的最终输出(Y,H)为初始输入,使用固定的开始标记S及目标序列G当作输入数据进行学习,目标是使得在X输入下Y和G尽量接近,即损失度函数f(X)取得最小值。
解码器网络属于典型的监督学习结构,可以用BP算法进行训练,而编码器网络的输出传递给了解码器网络,因此也能同时进行训练。网络模型学习完毕后,将序列X输入编码器,并将起始标记S输入解码器,网络就会给出正确的对应序列。
3.2 卷积神经网络
卷积神经网络将传统图像处理的卷积运算和DNN相结合,属于前馈神经网络,是在生物视觉皮层的研究基础上发展而来的,在大型图像处理上有出色表现。CNN一般由多个结构相似的单元组成,每个单元包含卷积层(convolution layer)和池化层(poolinglayer),通常网络末端还连接全联通层(fully-connected layer,FC)及Softmax分类器。这种结构使得CNN非常适合处理二维结构数据,相比其它DNN在图像处理领域上具有天然优势,CNN的另一优势还在于,由于卷积层共享参数的特点,使得它所需的参数数量大为减少,提高了训练速度。其典型结构如图2所示:
3.2.1 卷积层(Convolutional layer)
卷积层由若干卷积核构成,每个卷积核在整个图像的所有通道上同时做卷积运算,卷积核的参数通过BP算法从训练数据中自动获取。卷积核是对生物视觉神经元的建模,在图像局部区域进行的卷积运算实质上是提取了输入数据的特征,越深层的卷积层所能提取到的特征也越复杂。例如前几个卷积层可能提取到一些边缘、梯度、线条、角度等低级特征,后续的卷积层则能认识圆、三角形、长方形等稍微复杂的几何概念,末尾的卷积层则能识别到轮子、旗帜、足球等现实物体。
3.2.2 池化层(Poolinglayer)
池化层是卷积网络的另一重要部分,用于缩减卷积层提取的特征图的尺寸,它实质上是某种形式的下采样:将图像划分为若干矩形区块,在每个区块上运算池化函数得到输出。有许多不同形式的池化函数,常用的有“最大池化”(maxpooling,取区块中数据的最大值)和“平均池化”(averagepooling,取区块中数据的平均值)。池化层带来的好处在于:
(1)减小了数据尺寸,降低参数的数量和计算量;
(2)模糊了各“像素”相对位置关系,泛化了网络识别模式。
但由于池化层过快减少了数据的大小,导致,目前文献中的趋势是在池化运算时使用较小的区块,甚至不再使用池化层。
3.3 生成式对抗网络(Generative Adversarial Network,GAN)
生成式对抗网络最初由Goodfellow等人在NIPS2014年提出,是当前深度学习研究的重要课题之一。它的目的是收集大量真实世界中的数据(例如图像、声音、文本等),从中学习数据的分布模式,然后产生尽可能逼真的内容。GAN在图像去噪,修复,超分辨率,结构化预测,强化学习中等任务中非常有效;另一重要应用则是能够在训练集数据过少的情况下,生成模拟数据来协助神经网络完成训练。
3.3.1 模型结构
GAN网络典型结构如图3所示,一般由两部分组成,即生成器网络(Generator)和识别器网络(Discriminator):
(1)生成器网络的目标是模拟真实数据的分布模式,使用随机噪声生成尽量逼真的数据。
(2)识别器的目标是学习真实数据的有效特征,从而判别生成数据和真实数据的差异度。
3.3.2 训练方法
GAN采用无监督学习进行训练,输入向量z一般由先验概率概率pz(z)生成,通过生成器网络产生数据G(z)。来自训练集的真实数据的分布为pdata (x),GAN网络的实质是学习该特征分布,因此生成的数据G(z)必然也存在对应的分布pg (z),而识别器网络则给出数据来自于真实数据的概率D(x)以及D(G(z) )。整个训练过程的实质就是生成器网络和识别器网络的博弈过程,即找到
4 深度神经网络研究展望
DNN虽然在各大领域都取得了重大的成功,甚至宣告了“智能时代”的来临,但是与人类大脑相比,DNN在许多方面仍有显著差距:
4.1 识别对抗样本的挑战
对抗样本是指在数据集中添加微小的扰动所形成的数据,这些数据能使网络以极高的置信度做出错误的判别。在网络实际使用过程中会带来非常大的问题,比如病毒制造者可能刻意构造样本来绕过基于DNN的安全检查网络。部分研究指出问题的根因可能在于DNN本身的高度非线性,微小的扰动可能在输出时产生巨大的差异。
4.2 构造统一模型的挑战
DNN虽然在很多领域都取得了巨大的成功,但无论是序列到序列网络、卷积网络、还是对抗式生成网络都只适应于特定领域,与此相对的则是,人类只用一个大脑就能完成语音、文本、图像等各类任务,如何构建类似的统一模型,对整个领域都是极大的挑战。
4.3 提高训练效率的挑战
DNN的成功依赖于大量训练数据,据统计要使得网络学会某一特征,平均需要50000例以上的样本,相比而言人类只需要少量的指导即可学会复杂问题,这说明我们的模型和训练方法都还有极大的提高空间。
参考文献
[1]ROSENBLATT F.The perceptron:a probabilistic model for information storage and organization in the brain [M].MIT Press,1988.
[2]HINTON G E,OSINDERO S,TEH Y W.A fast learning algorithm for deep belief nets [J].Neural Computation,1989, 18(07):1527-54.
[3]HINTON G E,SALAKHUTDINOV R R. Reducing the Dimensionality of Data with Neural Networks[J].Science, 2006,313(5786):504.
[4]SEIDE F,LI G,YU D.Conversational Speech Transcription Using Context-Dependent Deep Neural Networks; proceedings of the INTERSPEECH 2011, Conference of the International Speech Communication Association, Florence,Italy,August,F,2011 [C].
[5]OQUAB M,BOTTOU L,LAPTEV I,et al. Learning and Transferring Mid-level Image Representations Using Convolutional Neural Networks; proceedings of the Computer Vision and Pattern Recognition,F,2014 [C].
[6]SILVER D,HUANG A,MADDISON C J,et al.Mastering the game of Go with deep neural networks and tree search [J].Nature,2016,529(7587):484.
[7]XIONG W,DROPPO J,HUANG X,et al.The Microsoft 2016 Conversational Speech Recognition System[J].2016.
[8]LECUN Y,BOTTOU L,BENGIO Y,et al. Gradient-based learning applied to document recognition [J].Proceedings of the IEEE,1998,86(11):2278-324.
[9]BENGIO Y,DELALLEAU O, LE R N,et al.Learning eigenfunctions links spectral embedding and kernel PCA [J].Neural Computation,2004,16(10):2197-219.
[10]LEGRAND J,COLLOBERT R.Recurrent Greedy Parsing with Neural Networks [J].Lecture Notes in Computer Science,2014,8725(130-44.
[11]SUTSKEVER I,VINYALS O,LE Q V. Sequence to Sequence Learning with Neural Networks [J].Advances in Neural Information Processing Systems,2014,4(3104-12.
[12]WU Y,SCHUSTER M,CHEN Z,et al. Google's Neural Machine Translation System:Bridging the Gap between Human and Machine Translation [J]. 2016.
[13]GOODFELLOW I J,POUGETABADIE J,MIRZA M,et al.Generative Adversarial Networks [J].Advances in Neural Information Processing Systems,2014,3(2672-80.
作者挝
卷积神经网络的发展范文3
关键词:ROS;表面缺陷;图像采集;神经网络;模型训练
飞机蒙皮是包围在飞机骨架结构外且用粘接剂或铆钉固定于骨架上,形成飞机气动力外形的维形构件,在飞机正常工作状态下扮演着重要的角色,一旦飞机蒙皮出现缺陷等问题,需要及时的反馈出来并且维修。传统的飞机表面缺陷检测方式大多数是由人工来完成,会存在效率低、成本高等缺点,甚至会出现检测失误的情况。本文就针对铝合金表面缺陷检测方面,提出一种基于ROS的飞机表面缺陷检测系统,采用移动机器人底盘定位和导航技术,结合深度学习、图像处理等技术检测出存在缺陷的位置并标记出来,通过机器代替传统人工的方式,旨在提高检测效率和检测精度,为飞机表面缺陷检测提供一种方式。
1系统的总体设计
飞机表面缺陷检测系统主要由检测模块、ROS机器人模块、图像处理模块三大部分组成,系统的总体结构框图如图1所示。系统的具体工作原理为:在某一区域范围内,检测模块以树莓派为核心控制器,通过检测模块中的图像采集系统对铝合金材料表面进行图像采集,将采集到的图像通过TCP通信传输到图像处理模块上[4]。图像处理模块利用深度学习中设计的卷积神经网络进行数据训练,得到检测模型,将检测模型应用到图像预处理上。此时,OpenCV对检测模块得到的图像进行图像处理[5],最终得到缺陷出现的位置。当前区域检测完毕后,通过ROS机器人模块的定位和导航功能,驱动运动执行机构工作,并移动到相邻下一块检测区域,直到所有位置都检测完毕。上述工作原理可实现飞机表面缺陷检测系统,下文将对其包括的三大模块进行说明介绍。
2检测模块设计
如图2所示,系统的检测模块主要是包括树莓派和摄像头,其中树莓派作为检测模块的处理器,搭建的有Ubuntu系统,是系统实现的重要组成部分。树莓派可以提供普通计算机的功能,并且功耗低。可直接在树莓派上安装Keil进行开发,具有很好的开发效果,运行稳定。本次飞机表面缺陷检测系统实现了树莓派将摄像头拍摄的图片发送到图像处理模块上,同时也搭载ROS系统实现了移动底盘的定位和导航功能。
3ROS机器人模块设计
ROS随着机器人技术发展愈发受到关注,采用分布式框架结构来处理文件,这种方式允许开发者单独设计和开发可执行文件。ROS还以功能包的形式封装功能模块,方便移植和用户之间的共享。下面将介绍其建图和导航功能的实现。
3.1建图设计
本文在ROS系统中使用Gmapping算法软件包实现建图[7],在ROS系统中设计了建图过程中各节点及节点间的话题订阅/的关系如图3所示。在图3建图节点话题关系图上,其中椭圆形里代表节点,矩形基于ROS的飞机表面缺陷检测系统胡浩鹏(纽约大学NewYorkUniversity纽约10003)框里代表的是主题,节点指向主题代表着该节点了主题消息,主题指向节点代表着该节点订阅了主题消息。在建图过程中,主要涉及激光雷达节点、键盘控制节点、底盘节点、Gmapping节点和地图服务节点。
3.2导航设计
ROS提供的Navigation导航框架结构如图4所示,显然MOVE_BASE导航功能包中包括全局路径规划和局部路径规划两部分,即在已构建好的地图的基础上,通过配置全局和局部代价地图,从而支持和引导路径规划的实施。为了保证导航效果的准确,通过AMCL定位功能包进行护理床的位置定位[8]。获取目标点的位置后,MOVE_BASE功能包结合传感器信息,在路径规划的作用下,控制指令,控制护理床完成相应的运动。
4图像处理模块设计
图像处理模块设计主要分为图像预处理、模型训练和卷积神经网络三大部分,通过TCP通信协议进行通信,TCP通信是一种面向连接的通信,可完成客户端(树莓派)和服务端(PC)的信息传递[9]。下面主要对卷积神经网络部分进行介绍。
4.1卷积神经网络训练流程
通过相机采集到的缺陷和问题图像作为训练样本,这部分是检测飞机表面缺陷的关键一步,然后对训练样本进行训练,具体步骤如下所示。(1)训练标记数据:首先使用图像预处理中标记好的道路故障提取出来,通过卷积神经网络对标记框内的目标数据进行训练;(2)提取特征数据:将道路故障的类型统计并归纳;(3)误差反馈学习:对测试样本进行误差反馈学习,并进行测试;(4)优化训练数据:将得到的测试结果与设定的故障分类结果进行误差对比,不断优化训练集,最终得到理想的训练数据。
4.2缺陷检测流程
缺陷检测流程如图5所示,首先输入缺陷原始图像,通过特征提取网络,将处理后的图像使用检测器进行检测,其中检测器里为卷积神经网络训练后得到的模型,最终缺陷检测后得到的识别后的图像,并反馈出来。
4.3实验测试
铝合金表面缺陷主要有碰伤、刮花、凸粉、脏点等常见的缺陷,下面将以这四种为主要对象进行检测训练,各自训练集数量为1000张。通过卷积神经网络对缺陷的特征进行提取和分类,最终实现了缺陷的检测。本次实验测试的样本为200张,每种缺陷50张,均采集自铝合金材料表面且与训练样本一致,实验结果如表1所示。由表1可知,检测脏点的准确率高达98%,刮花和凸粉的准确率也达到94%,但碰伤的准确率相对较低,只有88%。可能造成的原因是:①硬件原因导致采集的图像清晰度比较低;②碰伤缺陷不明显,无人机难以识别;③训练的数据集较少,特征学习误差大;但最后结果是满足了设计需求,还需进一步改进。
5总结与展望
卷积神经网络的发展范文4
关键词:Deep Learning;多隐含层感知;DropConnect;算法
中图分类号:TP181
Deep Learning是机器学习研究的新领域,它掀起了机器学习领域的第二次浪潮,并受到学术界到工业界高度重视。Deep Learning概念根源于人工神经网络[3],它由Geoffrey Hinton等在Science上提出。它致力于建立模拟人脑分析学习机制的多层次神经网络,并通过这种网络分析解释数据,如视频、文本和声音等。Deep Learning的多隐含层使得它具有优异的特征学习能力,而且学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类。它的“逐层初始化”(layer-wise pre-training[4])可以有效克服深度神经网络在训练上的难度。本文在对Deep Learning算法分析的基础上,着重阐述了对Regularization of Neural Networks using DropConnect模型的改进。
1 Deep Learning算法分析
1.1 Deep Learning多隐含层感知架构
Deep Learning算法最优秀特征是多隐含层感知器架构,这种架构通过组合低层特征来形成更加抽象的高层属性类别或特征,并实现对数据分布式表示。Deep Learning的多隐含层结构是由输入层、隐层(多层)、输出层组成的多层网络(如图1所示),只有相邻层神经元之间有连接,同一层以及跨层节点之间相互无连接,每一层可以看作是一个浅层机器学习模型(如logistic regression,Support Vector Machines)。
图1 含多个隐含层的Deep Learning模型
Deep Learning的多隐含层感知结构模拟的是人脑的大脑皮层工作。人大脑皮层计算也是分多层进行[5],例如图像在人脑中是分多个阶段处理,首先是进入大脑皮层V1区提取边缘特征,然后进入大脑皮层V2区抽象成图像的形状或者部分,再到更高层,以此类推。高层的特征是由底层组合而成。使用含多隐含层感知器架构网络主要优势在于它能以更简洁的方式表达比浅层网络大得多的函数关系(如图2)。通过这种深层非线性网络结构,Deep Learning可以实现复杂函数的逼近,表征输入数据的分布式表示,并展现了强大的从少数样本集中学习数据集本质特征的能力。
图2 多层次实现复杂函数图
1.2 Deep Learning训练过程
(1)首先逐层构建单层神经元,使得每次都是训练一个单层网络。
(2)当所有层训练完后,使用Wake-Sleep算法[6]进行调优。
将除最顶层的其它层间的权重是双向的。向上的权重用于“认知”,向下的权重用于“生成”。然后使用Wake-Sleep算法调整所有的权重。让“认知”和“生成”达成一致,也就是保证生成的最顶层表示能够尽可能正确的复原底层的结点。
1.3 Deep Learning数据处理一般过程
Deep Learning算法通过传感器等方式获得数据之后,首先对数据进行预处理。在数据预处理中,标准的第一步是数据归一化处理,第二步是数据白化处理(如PCA白化和ZCA白化)。其次特征提取和特征选择。然后将输出作为下层的输入,不断进行特征提取和特征选择,直到学习到合符要求的最佳特征。在特征提取和特征选择过程中,常用自动编码、稀疏编码、聚类算法、限制波尔兹曼机、卷积神经网络等算法进行特征提取和特征选择。然后用反向传播算法、随机梯度下降算法、批量梯度下降算法等进行调优处理,再用池化等算法避免特征过度拟合,从而得到最终提取特征。最后将学习到的最终提取特征输入到分类器(如softmax分类器,logistic回归分类器)进行识别、推理或预测。
2 基于Regularization of Neural Networks using DropConnect模型改进
2.1 Regularization of Neural Networks using DropConnect模型[2]
该模型的四个基本组成成分是:
(1)特征提取:v=g(x;Wg)。x是输入层的输入数据,Wg是特征提取函数的参数,v是输出的提取特征,特征提取函数g()。其中g()为多层卷积神经网络算法函数,而Wg卷积神经网络的偏值。
(2)DropConnect层:r=a(u)=a((M*W)v)如图3。v是输出的提取特征,W是完全连接的权重矩阵,M是二进制掩码矩阵,该矩阵的每个元素随机的以1-p概率设置为0或以p概率设置为1,a()是一个非线性激活函数,r是输出向量。M*W是矩阵对应元素相乘。
(3)Softmax分类器层:o=s(r;Ws)。将r映射到一个k维的输出矩阵(k是类的个数),Ws是softmax分类函数的参数。
(4)交叉熵损失:A(y,o)=-∑yi(oi),i∈1,2,3…k。y是标签,o是概率。
图3 DropConnect示意图
2.2 模型改进描述和分析
对DropConnect模型的改进主要集中在上面它的四个基本组成成分中的DropConnect层。由于该层以随机方式让掩码矩阵M的每个元素Mij按1-p的概率设置为0,然后让掩码矩阵与层间的权重矩阵对应相乘即M*W。相对DropOut模型r=a((M*(Wv))得到的特征,r=a((M*W)v)得到的特征是比较好的特征r,同时也提高算法的泛化性。因为Dropconnect模型在权重W和v运算之前,将权重以一定的概率稀疏了,从运行结果看整体算法的错误率降低了。但是,由于是随机的让Mij按1-p的概率为0,并且这种随机是不可以预测的,故可能会导致某些重要特征对应的权重被屏蔽掉,最终造成输出ri的准确性降低。故就此提出了新的设计思想。
改进思想是用单层稀疏编码层代替DropConnect层,通过稀疏编码训练出一组最佳稀疏的特征。具体描述:让经过多层卷积神经网络提取到的特征v作为稀疏编码的输入,经过稀疏编码重复训练迭代,最终得到最佳的稀疏的特征r。因为稀疏编码算法是一种无监督学习方法,用它可以寻找出一组“超完备”基向量来更高效地表示输入数据。
总之任何对Deep Learning算法的改进,都是为了提取出最佳特征,并使用优秀的分类算法来分类、预测或推理,最终降低算法的错误率。而对于怎样改进算法,以何种方式降低错误率,则没有具体的限制。并且各种提取特征和特征选择的算法之间并不是互斥的,它们之间可以有各种形式的嵌套,最终的目标都是提高算法的正确率和效率。
3 结束语
Deep Learning使得语音、图像和文本等的智能识别和理解取得惊人进展,如Google Brain项目和微软推同声传译系统。它极大地推动了人工智能和人机交互快速发展。随着从学术界到工业界的广泛重视,Deep Learning算法的改进依然在继续,Deep Learning算法的正确率和效率仍在不断提高。Deep Learning的发展将加快“大数据+深度模型”时代来临。
参考文献:
[1]Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks[J].Science,2006(5786):504-507
[2]汤姆・米切尔.机器学习[M].北京:机械工业出版社,2003:1-280.
[3]吴昌友.神经网络的研究及应用[D].哈尔滨:东北农业大学,2007.
[4]HINTON G,OSINDERO S,TEH Y. A fast learning algorithm for deep belief nets[J].Neural Computation,2006(07):1527-1554.
[5]Hubel D H, Wiesel T N. Receptive fields,binocular interaction and functional architecture in the cat's visual cortex[J].The Journal of physiology,1962(01):106.
[6]Chuang Gao,Bin Chen,Wei Wei.Dynamic detection of wake-sleep transition with reaction time-magnitude[J].Neural Regenerattion Research,2009(07):552-560.
卷积神经网络的发展范文5
1989年贝尔实验室成功利用反向传播算法,在多层神经网络开发了一个手写邮编识别器。1998年Yann LeCun和Yoshua Bengio发表了手写识别神经网络和反向传播优化相关的论文《Gradient-based learning applied to document recognition》,开创了卷积神经网络的时代。
此后,人工智能陷入了长时间的发展沉寂阶段,直到1997年IBM的深蓝战胜国际象棋大师和2011年IBM的沃森智能系统在Jeopardy节目中胜出,人工智能才又一次为人们所关注。2016年Alpha Go击败韩国围棋九段职业选手,则标志着人工智能的又一波。从基础算法,底层硬件,工具框架到实际应用场景,目前人工智能已经全面开花。 作为人工智能核心的底层硬件AI芯片,也同样经历了多次的起伏和波折,
总体看来,AI芯片的发展前后经历了四次大的变化,其发展历程如下图所示。
(1)2007年以前,AI芯片产业一直没有发展成为成熟的产业;同时由于当时算法、数据量等因素,这个阶段AI芯片并没有特别强烈的市场需求,通用的CPU芯片即可满足应用需要。
(2)随着高清视频、VR、AR游戏等行业的发展,GPU产品取得快速的突破;同时人们发现GPU的并行计算特性恰好适应人工智能算法及大数据并行计算的需求,如GPU比之前传统的CPU在深度学习算法的运算上可以提高几十倍的效率,因此开始尝试使用GPU进行人工智能计算。
(3)进入2010年后,云计算广泛推广,人工智能的研究人员可以通过云计算借助大量CPU和GPU进行混合运算,进一步推进了AI芯片的深入应用,从而催生了各类AI芯片的研发与应用。
(4)人工智能对于计算能力的要求不断快速地提升,进入2015年后,GPU的性能功耗比不高的特点使其适用场合受到很多限制,业界开始研发针对人工智能的专用芯片,通过更好的硬件和芯片架构,在计算效率、能耗比上进一步提升。
卷积神经网络的发展范文6
人工智能的概念已提出60年,从原来的理论框架体系的搭建,到实验室关键技术的准备,如今已开始进入全新的发展阶段――产业化。
目前,从基本的算法到脑科学研究,人工智能都还没有突破性进展的可能性。但是,以深度神经网络为代表的人工智能,结合日新月异的大数据、云计算和移动互联网,就可以在未来5到10年改变我们的世界。
人工智能+时代的两大机遇
人工智能不仅将替代简单重复的劳动,还将替代越来越多的复杂的高级脑力活动,创造一个个新的机会。可以说,任何一个行业、企业或今天的创业者,如果不用人工智能改变今天的生产和生活方式,5年后一定会出局。
第一个趋势是以语音为主导、以键盘和触摸为辅助的人机交互时代正在到来。如今越来越多的设备不再需要屏幕,越来越多的场景我们不用直接碰触。比如,想把灯光调亮,想打开五米之外的设备,我们的手没法直接触碰。再如,开车时不方便用手、用眼做其他事情。这时,语音就成为最主要的一个交互方式。
第二个趋势是人工智能正在全球范围内掀起一股浪潮,“人工智能+”的时代到来,而且会比我们想象的还要快。为什么呢?麦肯锡分析认为,当前45%的工作可以被技术自动化,不只是简单重复性的工作,CEO20%的工作也可以被机器取代。《科学》杂志预测,2045年人工智能会颠覆全球50%、中国77%的就业。也就是说,今天的我们3/4的工作30年后会被人工智能取代。埃森哲认为,到2035年人工智能会让12个发达国家经济增长率翻一倍。我国的增长率只有比这还高,才对得起今天的时代机遇。
从科大讯飞的情况可以看出,人工智能将迎来两大产业机遇。
第一,未来3到5年,万物互联的时代到来,以语音为主、键盘触摸为辅的人机交互将广泛应用。第二,未来5到10年,人工智能会像水和电一样进入各行各业,深刻改变我们的生活。
认知智能是最大技术瓶颈
人工智能技术有两种分类方法。一种分为强人工智能和弱人工智能;另一种是讯飞研究院提出的、跟技术演进路径相关的分类,分成计算智能、感知智能和认知智能。
计算智能就是机器能存会算。就像当年IBM的深蓝电脑下象棋超过卡斯帕罗夫,典型的就是因为运算能力强,提前算到了所有的结果。
感知智能,比如语音合成技术,能够让机器开口说话。再如语音识别技术,就像今天的演讲,后台系统把它变成文字,准确率可达95%。
认知智能是让机器具备能理解、会思考的能力。这是最大的挑战,也是大家最热切期待的技术突破。工业革命让我们从繁重的体力劳动中解放出来,未来的认知智能会让人从今天很多复杂的脑力劳动中解放出来。
科大讯飞选择以语音为入口解决认知难题,进行认知革命。以人机交互为入口的目的,就是为了解决自然语言理解的技术难题。这个入口可以把人类的智慧最便捷地汇聚到后台,供机器学习和训练,也可以使后台人工智能的成果最简单直接地输出,从社会不断取得它学习需要的反馈信息,在此基础上实现知识管理和推理学习。
科大讯飞承担的科技部第一个人工智能重大专项――高考机器人。目标是为了“考大学”,但其核心技术正是语言理解、知识表达、联想推理和自主学习。
人工智能技术正走向产业化
目前,科大讯飞的人工智能研究已经取得了阶段性成果。
在教育行业,科大讯飞的机器人通过构建学生全过程的学习数据和老师上课的数据,提升了课堂效率,原来45分钟的课堂,现在15分钟就搞定。因为大量的内容学生都是知道的,老师只需向个别没掌握的学生单独讲授。这样,老师就有时间把课堂的重点放在大家都不了解的知识上,学生可以用大量时间进行启发式学习。借助这些手段,学生的重复性训练可以降低50%以上。
在医疗行业,科大讯飞利用语音解决门诊电子病历,利用人工智能辅助诊疗。学习最顶尖医疗专家知识后的人工智能产品,可以超过一线全科医生的水平。当前,医疗行业一线最缺的是全科医生和儿科医生,引入人工智能技术就可以缓解医疗资源短缺压力。
科大讯飞的人工智能技术还应用在汽车领域。在宝马汽车去年的国际测试中,科大讯飞以86%的准确率名列第一。
在客服领域,机器已经替代掉了30%的人工服务。目前,安徽移动呼叫中心有75%的服务内容已被机器替代。
机器人还将从服务后台走向前端。今年第四季度末或明年,服务机器人将开始在银行和电信营业厅上岗工作,它们不仅好玩、有趣,吸引人气,还能帮客户解决实际问题。