卷积神经网络的优化范例6篇

前言:中文期刊网精心挑选了卷积神经网络的优化范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。

卷积神经网络的优化

卷积神经网络的优化范文1

关键词关键词:深度学习;卷积神经网络;古玩图片;图像识别

DOIDOI:10.11907/rjdk.162768

中图分类号:TP317.4

文献标识码:A文章编号文章编号:16727800(2017)005017405

0引言

随着电子商务的发展,大批艺术品交易网站随之兴起,藏品交易规模也越来越大。而当前的古玩网上交易平台还不能够实现对现有藏品图片的自动分类,客户在寻找目标藏品时不得不在众多图片中一一浏览。因此需要一种有效的方法来完成面向图像内容的分类。

在基于内容的图像检索领域,常使用人工设计的特征-如根据花瓶、碗、盘子的不同形态特征:目标轮廓的圆度、质心、宽高比等[1],继而使用BP神经网络、SVM分类器等对特征进行学习分类。文献[2]基于植物叶片的形状特征,如叶片形状的狭长度、矩形度、球状性、圆形度、偏心率、周长直径比等,利用BP神经网络实现对植物叶片进行分类。文献[3]研究印品图像的各类形状缺陷,利用图像缺陷形状的轮廓长度、面积和圆形度等几何特征,导入SVM分类器进行训练,得到分类器模型实现分类。文献[4]提出了一种基于Zernike矩的水果形状分类方法,通过提取图像中具有旋转不变性的Zernike矩特征,并运用PCA方法确定分类需要的特征数目,最后将这些特征输入到SVM分类器中,完成水果形状的分类。上述方法都要求对目标形状分割的准确性,而分割过程中由于存在目标阴影、目标分割不完整问题,会影响到人工特征的准确选取。除了上述人工特征外,最常用的特征是HOG[5,6]、SIFT[7,8]等。HOG的核心思想是所检测的局部物体外形能够被光强梯度或边缘方向的分布所描述。HOG表示的是边缘结构特征,因此可以描述局部形状信息。SIFT在图像的空间尺度中寻找极值点,并提取出其位置、尺度、旋转不变量。SIFT特征对于旋转、尺度缩放、亮度变化保持不变。但是,这两种特征在实际应用中,描述子生成过程冗长、计算量太大。而且在上述方法征设计需要启发式的方法和专业知识,很大程度上依靠个人经验。

卷积神经网络不需要手动设计提取特征,可以直接将图片作为输入,隐式地学习多层次特征,进而实现分类[9]。相比目前常用的人工设计特征然后利用各分类器,具有明显的优势。近年来,卷积神经网络已成为语音、图像识别领域研究热点。它的权值共享特点使得网络复杂度降低,权值数量减少。而且,卷积神经网络直接将图片作为输入,避免了复杂的特征设计和提取,具有一定的平移、缩放和扭曲不变性[10]。本文采用卷积神经网络对古玩图片进行分类。首先,将背景分离后的图片作为网络的输入,相比原图作为输入,此方法的网络结构更加简单。然后,卷积层通过不同的卷积核对输入图片进行卷积得到不同特征图,采样层进一步对特征图进行二次提取,最终提取到合适的特征输入分类器进行分类,而在卷积层、采样层征图的大小、数目都会影响到网络的分类能力。因此,本文通过优化网络参数,使网络达到较好的分类效果。

1卷积神经网络

1989年,LECUN等[11]提出了卷积神经网络(Convolution Neural Networks,CNN),CNN是一种带有卷积结构的深度神经网络,一般至少有2个非线性可训练的卷积层、2个非线性的固定采样层和1个全连接层,一共至少5个隐含层[12]。百度于2012年底将深度学习技术成功应用于自然图像OCR识别和人脸识别,此后深度学习模型被成功应用于一般图片的识别和理解。从百度经验来看,深度学习应用于图像识别不但大大提升了准确性,而且避免了人工特征抽取的时间消耗,从而大大提高了在线计算效率[13]。

卷积神经网络作为一种高效的深度学习方法[14],在许多图像识别方面取得了很好的成效[1519]。该网络作为一种多隐层神经网络,可以提取图像的多层次特征进行识别。

卷积神经网络主要包括卷积层和采样层,卷积层通过可学习的卷积核对输入图片进行卷积得到特征图,卷积操作即加强了输入图片的某种特征,并且降低噪声。卷积之后的结果通过激活函数(通常选择Sigmoid函数或Tanh函数)作用输出构成该层的特征图。特征图上的每一个神经元只与输入图片的一个局部区域连接,每个神经元提取的是该局部区域的特征,所有神经元综合起来就得到了全局特征,与神经元相连接的局部区域即为局部感受野[20]。而在卷积层中一般存在多张特征图,同一张特征图使用相同的卷积核,不同特征图使用不同的卷积核[21],此特点称为权值共享,即同一张特征图上的所有神经元通过相同的卷积核连接局部感受野。卷积神经网络的局部感受野和嘀倒蚕硖氐愦蟠蠹跎倭送络训练的参数个数,降低了网络模型的复杂度。

采样层对卷积层提取到的特征图进行局部非重叠采样,即把特征图分为互不重叠的N×N个子区域,对每个子区域进行采样。卷积神经网络的采样方式一般有两种:最大值采样和均值采样。最大值采样即选取区域内所有神经元的最大值作为采样值,均值采样为区域内所有神经元的平均值作为采样值。最大值采样偏向于提取目标的特征信息,而均值采样偏向于提取背景的特征信息[22]。采样后的特征平面在保留了区分度高特征的同时大大减少了数据量,它对一定程度的平移、比例缩放和扭曲具有不变性。

卷积神经网络通过卷积层和采样层的循环往复提取到图像由低层次到高层次的特征,最后一般通过全连接层将所有特征图展开得到一维向量,然后输入到分类器进行分类。

卷积神经网络在处理二维图像时,卷积层中每个神经元的输入与上一层的局部感受野相连接,并提取该局部的特征,权值共享特点又使得各神经元保持了原来的空间关系,将这些感受不同局部区域的神经元综合起来就得到了全局信息。采样层对特征图进行局部特征提取,不会改变神经元之间的空间关系,即二维图像经过卷积层、采样层仍然保持二维形式。因此,卷积神经网络有利于提取形状方面的特征。虽然卷积神经网络的局部感受野、权值共享和子采样使网络大大减少了需要训练参数的个数,但是该网络作为多隐层神经网络还是十分复杂的。对于不同的数据库,为了达到比较好的分类效果,网络的层数、卷积层特征图个数以及其它参数的设置都需要探究。

2基于卷积神经网络的古玩图片分类

2.1特征提取及传递

不同古玩的主要区别在于形状不同,而花瓶、盘子和碗在古玩中最常见,因此将这3类图片作为实验对象,对于其它种类的古玩图片的分类,该网络同样适用。卷积神经网络采用如下图所示的5层网络结构,并对网络各层的特征图数目、大小均作了修改。对于网络的输入,先将原图像进行目标与背景分割,然后进行灰度化、统一分辨率的处理,最后输入到卷积神经网络。由于训练卷积神经网络的根本目的是提取不同古玩的特征,而背景不是目标的一部分,对古玩识别来说并不提供任何有用的信息,反而对特征的提取造成干扰,所以去除背景噪声后,网络结构会更加简单,同时也利于网络对特征的学习。但是因为进行了去背景的预处理,网络也失去了对复杂背景下图片的识别能力,所以使用该网络进行古玩图片分类前都要进行目标分割的预处理过程。

卷积神经网络对古玩图片的特征提取过程如下:

(1)输入网络的图片为100×100大小的预处理图,卷积神经网络的输入层之后为卷积层,卷积层通过卷积核与输入图像进行卷积得到特征平面,卷积核大小为5×5。如图2所示,特征平面上每个神经元与原图像5×5大小的局部感受野连接。卷积核移动步长为1个像素,因此卷积层C1的特征平面大小为96×96。这种卷积操作在提取到输入图像的某一方面特征时,必然会损失掉图像的其他特征,而采取多个卷积核卷积图像得到多个特征平面则会一定程度上弥补这个缺陷。因此,在卷积层C1中使用了6个不同的卷积核与输入图像进行卷积,得到6种不同的特征平面图。如图3所示,同一张特征图上的所有神经元共享一个卷积核(权值共享),图中连接到同一个特征图的连接线表示同一个卷积核,6个不同的卷积核卷积输入图片得到6张不同的特征平面图。卷积之后的结果并非直接储存到C1层特征图中,而是通过激活函数将神经元非线性化,从而使网络具有更强的特征表达能力。激活函数选择Sigmoid函数。

卷积层中所使用的卷积核尺寸若过小,就无法提取有效表达的特征,过大则提取到的特征过于复杂。对于卷积层征图个数的设置,在一定范围内,特征图的个数越多,卷积层提取到越多有效表达原目标信息的特征,但是特征图个数如果过多,会使提取到的特征产生冗余,最终使分类效果变差。卷积层的各平面由式(1)决定: Xlj=f(∑i∈MjXl-1j*klij+blj)(1)

式(1)中,Mj表示选择输入的特征图集合,l是当前层数,f是激活函数,klij表示不同输入特征图对应的卷积核,blj为输出特征图对应的加性偏置。

(2)卷积层C1后的采样层S1由6个特征平面组成,采样层对上一层特征图进行局部平均和二次特征提取。采样过程如图4所示,特征平面上的每个神经元与上一层4×4大小的互不重合的邻域连接进行均值采样,最终每个平面的大小为24×24。采样层的各平面由式(2)决定:

Xlj=f(βljdown(Xl-1j)+blj)(2)

式(2)中,down(.)表示一个下采样函数,l是当前层数,f是激活函数,βlj表示输出特征图对应的乘性偏置,blj为输出特征图对应的加性偏置。

(3)卷积层C2与C1层操作方式一样,唯一区别的是C2层每个特征图由6个不同的卷积核与上一层6个特征图分别卷积求和得到,因此C2层一共有6×6个不同的卷积核,卷积核大小为5×5,C2层每个平面大小为20×20,共6个特征平面。

(4)采样层S2与S1层操作一样,对上一层4×4大小邻域进行均值采样,输出6个5×5大小的特征平面。本文所用的网络共包括2个卷积层、2个采样层、1个全连接层,由于输入图片已经过背景分离的预处理,采样层S2特征图大小为5×5,所以图1所示5层网络已经有很好的表达能力。如果直接将原图作为输入,那么网络的层数以及特征图的个数将比图1所示的网络更加复杂。

(5)全连接层将上一层6个5×5大小的二维平面展开成为1×150大小的一维向量输入Softmax[23]分类器,输出层一共有3个神经元(即分类的种类数目),分类器将提取到的特征向量映射到输出层的3个神经元上,即实现分类。

2.2网络训练

训练方式为有监督地训练,网络对盘子、花瓶和碗共三类图片进行分类,所以分类器输出一个3维向量,称为分类标签。在分类标签的第k维中1表示分类结果,否则为0。训练过程主要分为两个阶段:

第一阶段:向前传播A段。

将预处理过的图片输入卷积神经网络计算得到分类标签。

第二阶段:向后传播阶段。

计算输出的分类标签和实际分类标签之间的误差。根据误差最小化的原则调整网络中的各个权值。分类个数为3,共有N个训练样本。那么第n个样本的误差为:

En=12∑3k=1(tnk-ynk)2(3)

式(3)中,tn表示第n个样本的网络输出标签,tnk对应标签的第k维,yn表示第n个样本的实际分类标签,ynk对应标签的第k维。为了使误差变小,利用权值更新公式(4)更新各层神经元的权值,一直训练直到网络误差曲线收敛。

W(t+1)=W(t)+η・δ(t)・X(t)(4)

式(4)中,W(t)表示算第n个样本时的权值,W(t+1)表示计算第n+1个样本的权值,η为学习速率,选取经验值,δ为神经元的误差项,X表示神经元的输入。

3实验结果及分析

实验在MatlabR2012a平台上完成,CPU 2.30GHz,内存4GB,所采用的图像由相关古玩网站提供,分辨率统一格式化为100×100。由于盘子、花瓶和碗在各种古玩种类中它们之间的形状差别比较明显,本文实验对这三类古玩图片进行分类。对古玩图片进行了水平翻转处理,增加图片数据量,以加强网络对古玩图片分类的鲁棒性。实验数据如表1所示,图5列出了3类图片的部分样本,实验所用图片均与图5所示图片类似,背景比较单一,少数图片下方有类似阴影。

为了形象表示网络各层提取的不同特征,图6展示了当网络输入为盘子时的各层特征图。卷积层C1中6张特征图分别提取到了输入图片的不同特征,而由于权值共享,同一张特征图中神经元的空间关系保持不变,所以6张特征图都抓住了盘子的圆形特征。采样层S1对C1进行均值采样,相当于模糊滤波,所以S1层各特征图看起来模糊了一些。卷积层C2中每张特征图由6个不同的卷积核卷积S1层各特征图叠加而成,S2层与S1层处理方式相同。

为了说明将背景分离后的图片作为输入的网络与原图输入的网络之间的差异,设计了如表3所示的两种网络结构,网络CNN4只需要4层网络层就可以达到0.19%的错误率,而原图作为输入的CNN8共6层网络层,在网络达到收敛的情况下,错误率为5.24%。由此可以说明,将背景分离后图片作为输入的网络结构更加简单。

网络的训练采用了批量训练方式,即将样本分多批,当一批样本前向传播完之后才进行权值更新,每批大小为100,训练集共2 200张图片,网络迭代次数为1时共进行22次权值更新,所以权值更新的计算次数与迭代次数有如下关系:

计算次数=22×迭代次数(5)

图7为网络在训练集上的误差曲线图,横坐标为误差反向传播的计算次数,纵坐标为训练集上的均方误差。可以看出,当网络训练次数达到270次(计算次数约6 000)时,训练集误差趋于平缓,网络已经基本拟合。训练好的网络可以用来对测试集图片进行分类,表4为不同迭代次数下训练的网络在测试集上的分类错误率,可以看出迭代次数在达到270次后,网络在测试集的错误率收敛,此时只有2张图片出现分类错误。

表5给出了图像分类算法中常用的人工特征+BP神经网络、人工特征+SVM分类器以及Hog特征+SVM分类器与CNN方法的性能比较。人工设计的特征包括图片中目标轮廓的最大长宽比、质心、圆度等特征。从准确率方面来看,CNN方法的准确率高于其他方法,Hog特征方法的准确率远远高于人工特征的方法,说明了特征的好坏对图像分类效果有着很大程度上的影响,CNN提取到的特征比Hog和人工设计的特征更具代表性。从测试时间来看,Hog方法与CNN方法相差不多,采用人工特征的方法时间最长。综合两个方面,CNN方法在测试时间和HOG方法相近的情况下,准确率最高。

4结语

针对网上古玩图片分类问题,为了克服现有算法中人工设计特征困难以及往往依赖个人专业经验的不足,提出一种基于卷积神经网络的方法。将背景分离后的目标图片作为网络输入,可以实现自动提取特征进行分类,背景分离后图片作为网络输入使得网络结构更加简单,并且设置了合适的特征图个数以使网络在古玩图片集上取得较好的分类准确率。实验数据表明,该方法能够解决网上古玩图片的分类问题,并且分类准确率达到99%,其准确率优于常用的Hog特征以及人工特征方法。另外该方法不仅可以应用于网上古玩图片,还可应用于鞋类、服装等其它商品图像的分类。

参考文献参考文献:

[1]K KAVITHA,M.V.SUDHAMANI.Object based image retrieval from database using combined features[C].in Signal and Image Processing (ICSIP),2014.

[2]董红霞,郭斯羽,一种结合形状与纹理特征的植物叶片分类方法[J].计算机工程与应用,2014,50(23):185188.

[3]舒文娉,刘全香,基于支持向量机的印品缺陷分类方法[J].包装工程,2014,35(23):138142.

[4]应义斌,桂江生,饶秀勤,基于Zernike矩的水果形状分类[J].江苏大学学报:自然科学版,2007,28(1):3639.

[5]ZHU Q,YEH M C,CHENG K T,et al.Fast human detection using acascade of histograms of oriented gradients[C].Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2006.

[6]M VILLAMIZAR,J SCANDALIANS,A SANFELIU bining colorbased invariant gradient detector with Hog descriptors for robust image detection in scenes under cast shadows[C].In Robotics and Automation,ICRA IEEE International Conference on.Barcelona,Spain:IEEE,2009.

[7]CHEN J,LI Q,PENG Q,et al.CSIFT based localityconstrained linear coding for image classification[J].Formal Pattern Analysis & Applications,2015,18(2):441450.

[8]AHMAD YOUSEF K M,ALTABANJAH M,HUDAIB E,et al.SIFT based automatic number plate recognition[C].International Conference on Information and Communication Systems.IEEE,2015.

[9]LAWRENCE S,GLIES C L,TSOI A C,et al.Face recognition:a convolutional neuralnetwork approach[J].IEEE Transactions on Neural Networks,1997,8(1):98113.

[10]TREVOR HASTIE,ROBERT TIBSHIRANI,J FRIEDMAN.The elements of statistical learning[M].New York:Springer,2001.

[11]Y LECUN,L BOUOU,Y BENGIO.Gradientbased learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):22782324.

[12]DAHL J V,KOCH K C,KLEINHANS E,et al.Convolutional networks and applications in vision[C].International Symposium on Circuits and Systems (ISCAS 2010),2010:253256.

[13]余凯,贾磊,陈雨强,等.深度学习的昨天、今天和明天[J].计算机研究与发展,2013(09):17991804.

[14]MAIRAL J,KONIUSZ P,HARCHAOUI Z,et al.Convolutional kernel networks[DB/OL].http:///pdf/1406.3332v2.pdf.

[15]Z世杰,杨东坡与刘金环,基于卷积神经网络的商品图像精细分类[J].山东科技大学学报:自然科学版,2014(6):9196.

[16]程文博等,基于卷积神经网络的注塑制品短射缺陷识别[J].塑料工业,2015(7):3134,38.

[17]邓柳,汪子杰,基于深度卷积神经网络的车型识别研究[J].计算机应用研究,2016(4):14.

[18]T JONATAN,S MURPHY,Y LECUN,et al.Realtime continuous pose recovery of human hands using convolutional networks[J].ACM Transaction on Graphics,2014,33(5):3842.

[19]S SKITTANON,A C SURENARAN,J C PLATT,et al.Convolutional networks for speech detection[C].Interspeech.Lisbon,Portugal:ISCA,2004.

[20]HUBEL D H,WIESEL T N.Integrative action in the cat's lateral geniculate body[J].Journal of Physiology,1961,155(2):385398.

[21]JAKE BOUVRIE.Notes on convolutional neural networks[DB/OL].http:///5869/1/cnn_tutorial.pdf.

卷积神经网络的优化范文2

关键词 深度神经网络 图像分类 车型识别 预测

中图分类号:TP317.4 文献标识码:A

0 引言

所谓的深度学习是根据具有多层结构的人工神经网络所提出。在具体的深度学习中,主要借助模拟神经系统中的层次结构,来进行数据结构特征的反映,一般来说,细节用低层次进行表示,抽象数据结构则用高层次来表示,利用这种方式,能够进行数据挖掘学习,满足学习要求。在传统的车型识别发展中,主要涉及到的技术包括模式识别、特征选择和提取以及检测分割等方面内容,在技术发展中,存在的难点主要涉及到如何将完整的目标车辆区域进行分割,这是项基础工作,也是难点所在。这结合实际需求,对于不同拍摄角度下的汽车图片,包括皮卡车、SUV、面包车以及小轿车进行车型识别,其目标质量分割质量则是最为关键的技术,直接影响到最后的判断效果。所以,应该重视进行具有代表性特征的选择处理,并相应转化成有效的参数过程。在获取特征参数后,则应该结合项目要求来选择合理的分类器,这样才能保障识别的准确率。结合汽车车型识别问题的要求,这里网络输入则是原始图像,利用神经网络优势,原始数据经过卷积层、完全连接层以及Softmax 层的培训学习,通过这种深度神经网络来进行分析处理,免于上述存在难度的图像分割、手工提取等过程。

1数据集

这里的车型识别目标的数据集主要包括皮卡车、SUV、面包车以及小轿车等四种类型。其中,训练集和测试集分别包括1025张和368张原始图片。此数据集中,包括不同摄像角度中的汽车图像照片,具有背景复杂、图像大小不统一,车辆在图片中所占比例具有较大差异性等方面问题,这些都在一定程度上造成车型识别的难度上升。

在预处理中,为了保证网络输入的一致性,对于原始图像进行调整处理为256?56?尺寸。在此基础上,对于图像RGB三个通道的均值进行计算,并进行均值标准化的处理。在具体的网络训练测试的过程中,主要则是选取224?24? 的样本作为输入。

2网络结构探讨

结合文献所提出的深度神经网络VGG16的优势,我们将其应用在汽车车型识别问题中。VGG16网络具有较强的优势,主要包括5个堆栈式的卷积神经网络ConvNet,以及3个完全连接层以及1个Softmax层,由此可见,其属于“网络中的网络”架构。在每个每个ConvNet中,还有多个卷积层所构成,然后紧跟随着Max-Pooling层。在进行卷积以及池化处理的基础上,进行三层完全连接处理,同时,Softmax层的输入则是最后一个完全连接曾的输出,在这基础上,实现车型分类的要求。结合实际需求,将非线性的ReLU层加入该网络中,这样就会让ReLU来处理卷积层和完全连接层的输出,保证训练时间有效降低。另外,还将一种正则化Dropout方式应用在网络中,避免出现完全连接层中的过拟合问题。

另一个神经网络Alexnet,结构稍微简单一些,主要包括5卷积层、3个完全连接层、Softmax层等几部分,在进行部分卷积层处理后,在进行Max- Pooling层处理。在此网络中,同样采用非线性的ReLU层,所采用难度重叠池化方式,也能有效保证尽量降低过拟合的问题。

3实验结果分析

结合上述分析的深度神经网络VGG16和AlexNet的基础上,进行Gaffe框架的搭设,为了保证运算效率,建立在GeForce GTX TITAN X CPU的工作站中。经过统计,单一网路训练大约为2小时,一张图片测试大约为0.2秒。在应用上述网络测试、训练之外,在分类过程中,还应用了经典的分类算法KNN。经过实验分析,可以看出,VGG16网络能够具有比较好的分类结果,能够实现准确率为97.3%,而AlexNet网络准确率达到为93.0%,KNN算法不能有效处理较为复杂背景的图片,分类准确率仅为52.3%。在具体的案例中,分析VGG16网络错误分类的情况,面包车具有完全正确的分类效果。在错误分类的SUV车型中,究其原因,主要包括:车颜色有两部分组成,红色部分则和皮卡车车型相同;车型结构太类似于皮卡车;背景中加入其他车型,这样会造成分类结果不准确。如果图片中仅仅包括车头的情况,在进行车型识别中也存在较大的难度,不同车型从前面角度进行观察,并没有太大的差异化,这点应该明确指出。

4结语

这里采用深度学习方法,结合先进的深度神经网络,以及功能强大的计算机工作站,对于四类汽车进行识别实验研究。经过试验表明,VGG16网络具有最好的分类效果,传统的经典分类算法往往仅为其准确率的一半左右。所以,可以看出深度神经网络具有强大的学习能力,能够在图像分类问题中表现出很大优势,应该不断优化深度神经网络的结构,以便其适用于更多的图像分类要求。

参考文献

[1] Hinton G E, Osindero S, Teh Y W.A Fast Learning Algorithm For Deep Belief Nets[J]. Neural Computation, 2006, 18(7):1527-1554.

卷积神经网络的优化范文3

【关键词】人工智能 图像识别 深度学习

1 概述

图像识别技术是人工智能研究的一个重要分支,其是以图像为基础,利用计算机对图像进行处理、分析和理解,以识别不同模式的对象的技术。目前图像识别技术的应用十分广泛,在安全领域,有人脸识别,指纹识别等;在军事领域,有地形勘察,飞行物识别等;在交通领域,有交通标志识别、车牌号识别等。图像识别技术的研究是更高级的图像理解、机器人、无人驾驶等技术的重要基础。

传统图像识别技术主要由图像处理、特征提取、分类器设计等步骤构成。通过专家设计、提取出图像特征,对图像M行识别、分类。近年来深度学习的发展,大大提高了图像识别的准确率。深度学习从大量数据中学习知识(特征),自动完成特征提取与分类任务。但是目前的深度学习技术过于依赖大数据,只有在拥有大量标记训练样本的情况下才能够取得较好的识别效果。本文认为研究如何在标记数据有限的情况下继续利用深度学习完成物体识别任务具有重要意义。这也是未来人工智能研究的重要方向之一。

2 传统图像识别技术

传统的图像识别技术包括:图像获取、预处理、特征提取、分类。在图像输入后,需要先对图像进行预处理。一幅标准灰度图像,如果每个像素的像素值用一个字节表示,灰度值级数就等于256级,每个像素可以是0~255之间的任何一个整数值。一幅没有经过压缩处理的640×480分辨率的灰度图像就需要占据300KB的存储空间。通常我们需要将图片的亮度及对比度调整合适,才能使图片更加清晰、便于观察。

许多采集到的图片带有或多或少的噪声,需要对图片的噪声进行消除。对图片噪声的消除可以使用不同的去噪方法,如中值滤波、算数平均滤波、平滑线性滤波和高斯滤波等。不同滤波器分别适用于不同情况的噪声。如椒盐噪声便适合使用中值滤波器,高斯噪声便适合使用平滑线性滤波和高斯滤波。有时候,我们需要对图像细化处理(如指纹细化,字符细化等),以便获取主要信息,减少无关信息。细化操作,可以得到由单像素点组成的图像轮廓,便于后续特征提取操作。

基本的图像特征提取包括边缘、角点等提取。一般使用不同的特征提取算子结合相应的阈值得到这些关键点。另一类在频域中进行特征提取的方法主要是通过傅里叶变换,将图像基于频率分为不同的部分,从而可以在频谱中反映出原始图像的灰度级变化,便可得到图像的轮廓、边缘。

在完成图像的预处理和特征提取之后,我们便能够对图像进行识别、分类。常用的分类器有K-近邻(KNN),支持向量机(SVM),人工神经网络(ANN)等等。K-近邻算法原理是,当一个样本的k个最相邻的样本中大部分属于某一类别时,该样本也应当属于同一类别。支持向量机是通过寻找支持向量,在特征空间确定最优分类超平面,将两类样本分开。人工神经网络模仿生物大脑中的神经网络结构,通过误差反向传播不断优化参数,从而得到较好的分类效果。

3 基于深度学习的图像识别技术

一般认为深度学习技术是由Hinton及其学生于2006年提出的,其属于人工神经网络分支。深度神经网络模仿人脑的神经机制来分析样本,并尽可能地对样本的特征进行更深度的学习。以图片为例,利用深度学习技术对样本的特征进行学习时,由低层特征到高层特征越来越抽象,越来越能表达语义概念。当样本输入后,首先对图像进行卷积与下采样操作,卷积和下采样操作是为了进行特征提取和选择。以原始像素作为输入,深度学习技术可以自动学习得到较好的特征提取器(卷积参数)。深度学习的训练过程,首先将当前层的输出作为下一层的输入,进行逐层分析,使得每一层的输入与输出差别尽可能小。其后,再联合优化,即同时优化所有层,目标是分类误差最小化。

传统的深度神经网络往往网络中的节点数太过庞大,难以训练。人们构造出卷积神经网络,以权值共享的方式减少了节点数量,从而能够加深学习的深度,使系统能学习到更抽象、更深层的特征,从而提高识别正确率。目前较成功的深度学习网络结构有AlexNet、GoogLeNet、ResNet等。

与传统识别技术相比,深度学习技术具有以下优势:

(1)无需人工设计特征,系统可以自行学习归纳出特征。

(2)识别准确度高,深度学习在图像识别方面的错误率已经低于人类平均水平,在可预见的将来,计算机将大量代替人力进行与图像识别技术有关的活动。

(3)使用简单,易于工业化,深度学习由于不需要领域的专家知识,能够快速实现并商业化,国内较知名的深度学习创业公司有专注人脸识别的Face++、研究无人车的驭势科技等。

4 存在问题与未来展望

虽然深度学习具备诸多优点,但目前来看深度学习仍有许多不足之处。首先,由于深度学习模型为非凸函数,对其的理论研究十分困难,缺乏理论保证。在对数据进行调整时,仍是简单的“试错”,缺少理论支撑。

同时,由于深度学习过于依赖数据量和计算资源。对一个新概念的学习,往往需要数百个甚至更多有标记的样本。当遇到有标记的样本难以获取或者代价太大时,深度学习就无法取得好的学习效果。并且深度学习需要十分昂贵的高性能GPU,这使得深度学习难以平民化。目前深度学习训练速度较慢,往往需要几天甚至一个月。其模型扩展性差,缺少“举一反三”的能力,样本稍加变化,系统性能便会迅速下降。目前的深度学习属于静态过程,与环境缺乏交互。

对其的解决方案目前主要有两点:

(1)针对于模型扩展性差的问题,通过引入迁移学习,研究不同任务或数据之间的知识迁移,提高模型的扩展能力、学习速度,同时降低学习成本,便于冷启动。

(2)与强化学习结合,研究在动态环境下进行深度学习,提高深度学习与环境交互的能力。

参考文献

[1]蒋树强,闵巍庆,王树徽.面向智能交互的图像识别技术综述与展望[J].计算机研究与发展,2016:113-122.

[2]张翠平,苏光大.人脸识别技术综述[J].中国图象图形学报,2000:885-894.

[3]梅园,赵波,朱之丹.基于直线曲线混合Gabor滤波器的指纹增强算法[J].计算机科学,2016.

[4]孙志军,薛磊,许阳明,王正.深度学习研究综述[J].计算机应用研究,2012:2806-2810.

[5]庄福振,罗平,何清,史忠植.迁移学习研究进展[J].软件学报,2015:26-39.

[6]高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004:86-100.

卷积神经网络的优化范文4

当今世界,无线通信技术发展迅速,无线通信进入第五代(5G)时代需实现上千倍容量,毫秒延迟和大量的连接[1-2]。为了满足上述要求,一些关键技术,如大规模多输入多输出(Mul-tiple-InputMultiple-Output,MIMO),毫米波(MillimeterWave,mmWave)等已被提出。这些技术在工程应用中均表现出相同的特点,即具有处理大型无线数据的能力。对于无线通信,其对移动速度和通信质量具有较高的要求,然而在满足大数据和高速复杂场景中的通信需求中,传统的通信技术存在以下固有的局限性:(1)复杂场景中信道建模困难:通信的设计系统在很大程度上依赖于现实的信道条件。而在实际应用中,这些模型的建模在复杂的场景中变得十分困难[3]。例如,在大规模MIMO系统中天线数量的增加改变了信道属性[4],相应的信道模型存在未知的因素。很多情况下,信道不能用严格的数学模型来描述。因此,设计适合信道模型的算法必不可少。(2)鲁棒的信号处理算法的需求:使用低成本硬件,例如低功耗、低分辨率模数转换器[5]引入了额外的信号非线性失真,这需要使用高鲁棒的接收处理算法,例如,信道估计和检测的算法。然而,使用这些算法可能会增加计算的复杂度。在这种情况下,具有实时大数据处理能力且更有效和高鲁棒的信号处理算法是必需的。(3)块结构通信受限系统:传统的通信系统由几个处理模块,如信道编码、调制和信号检测,尽管研究人员多年来尝试优化每个算法的处理模块并在实践中取得成功,但并不能使得整个通信系统能得到最优的性能,因为通信的根本问题取决于接收端可靠的消息恢复[6]。因此,如果对每个模块进行的子优化替换为端到端的优化,就有希望进一步改进系统性能。深度学习(DeepLearning,DL)近年来因成功应用在计算机视觉、自动语音识别和自然语言处理等领域而获得广泛关注,是典型的大数据依赖的学习框架。同时,研究人员也把DL广泛应用到了无线通信的物理层[7-11]。与传统的机器学习算法[12-14]相比,DL显著增强了特征提取和结构灵活性。特别是基于DL的系统通过端到端优化灵活地调整参数来自动调整模型结构,这可以代替手动从原始数据中提取特征。基于DL的通信系统具有良好的应用复杂场景主要有如下原因:首先,DL是一种数据驱动的方法,其模型是在大型训练数据集上优化得到的,基于DL的通信系统不需要建立数学模型。其次,能够处理大数据也是DL重要的特点,DL采用分布式并行计算体系结构,保证了计算速度和计算速度处理能力。DL系统由于其拥有快速开发并行处理体系结构,如图形处理单元,在处理大数据上具有巨大的潜力。最后,基于DL的通信系统可实现整个系统性能的改进,因为模型经过端到端的训练优化了整体的性能,而对单个模块结构没有要求。本文旨在对近年来在基于大数据的DL在无线通信物理层的研究作出综述,本文的组织结构如下:第二节简要概述无线通信物理层的系统框图。第三节介绍了几个DL应用到通信物理层的示例。第四节讨论了未来研究的领域和挑战。第五节是全文总结。

1通信系统模型

它是一个模块结构,包括信道编码、调制、信道估计、信道均衡、信道译码和信道状态信息(ChannelStateInformation,CSI)反馈等模块。通信算法是在长期的研究中发展起来的,以优化通信系统其中的模块。之前有研究试图利用传统的机器学习方法,作为特定模块的替代算法。DL架构最近被引入到几个处理模块中以适应新兴的复杂通信场景,以期达到更优的性能。

2几个典型的DL应用到物理层的案例

本节给出了一些DL应用在通信物理层的典型例子,包括联合信道估计和信号检测、联合均衡和信号译码、大规模MIMOCSI压缩反馈和mmWave大规模MIMO混合预编码。下面分别进行介绍。

2.1联合信道估计和信号检测

一般信道估计和信号检测是接收机的两个独立过程。首先,CSI通过导频来估计,然后利用估计的CSI在接收端恢复发送符号。文献[7]提出了一种联合信道估计和信号检测方法。具体地说,一个带有五层全连接层的深度神经网络(DeepNeuralNetwork,DNN)用于联合信道估计和检测,这里将信道看作一个黑盒子。在离线训练中,发送数据和导频形成帧,然后这些帧经过一个时变信道。该网络把接收信号作为输入,通过训练网络来重构发送数据。当导频不足、去掉循环前缀和非线性失真几种情况下,基于DNN的信道估计和检测方法都优于最小均方误差方法。

2.2联合均衡和信号译码

文献[15]提出了一种联合均衡和信号译码的方法,该方法中在不知道CSI情况下,基于神经网络的联合均衡器和解码器可以实现均衡和译码。这里使用两个神经网络,首先,卷积神经网络(ConvolutionalNeuralNetworks,CNN)用于恢复失真的发送数据,然后DNN解码器对CNN网络均衡后的信号进行解码。实验结果表明,在各种信道条件下,该方法的性能优于其他基于机器学习方法。其中分别表示比特流符号,发送符号,接收符号,均衡后的符号和译码后的符号。

2.3大规模MIMOCSI压缩反馈

在频分双工网络中,大规模MIMO依赖于CSI反馈来实现基站端天线的性能增益。然而,大量天线导致过多的反馈开销。已经大量工作通过利用CSI的空间和时间的相关性来减少CSI反馈开销。利用CSI的稀疏特性,压缩感知(Compressedsensing,CS)已被应用于CSI压缩反馈中。然而,传统的CS算法面临挑战,因为现实世界的数据并不完全稀疏,现有信号恢复算法的收敛速度很慢,这限制了CS的适用场景。CsiNet[16]被提出来模拟CS信道压缩反馈的过程。取角延迟域的信道矩阵作为输入,编码器的第一层是生成两个特征图的卷积层。然后将卷积后的数据重新排列为N×1大小的适量,再利用全连接层生成M×1大小的压缩数据(MN)。由于不需要CS测量矩阵,减少了反馈开销。在解码器上,利用一个全连接层、两个残差层和一个卷积层对压缩的CSI进行重构。结果表明,CsiNet算法在不同压缩比和复杂度上的性能明显优于基于CS的方法。

2.4基于DL的mmWave大规模MIMO混合预编码

mmWave一直被认为是一种5G的重要方案,其中混合模拟和数字预编码是一种重要的可以减少硬件复杂性和能耗的方法。然而,现有的混合预编码方案受限于高计算复杂度,且不能充分利用空间信息。为了克服这些局限性,文献[17]提出了一个基于DL的mmWave大规模MIMO混合预编码框架,其中每个预编器的选择被视为一种DNN的映射关系。具体地说,通过训练DNN选择混合预编码器来优化mmWave大规模MIMO的预编码过程。实验结果表明,基于DNN的混合预编码方法能降低mmWave大规模MIMO的误码率和增强频谱效率,在保证更优的性能的同时,能大大减少所需的计算复杂度。

3挑战

DL在无线通信系统物理层中的应用是一个新的研究领域,虽然已有的研究表现出了较好的结果,但是在未来的研究中一些挑战值得进一步探讨。(1)模型的选择在基于DL的通信框架下,神经网络的设计是核心挑战。许多基于DL的技术都是按照通用模型开发的。例如,计算机视觉总是使用CNN,而LSTM则通常用于自然语言处理领域。然而,我们想知道是否有基于DL的无线通信模型,我们认为,通用模型将有助于在实践中得到实现。在工程项目中,不仅通用模型提高了优化通信框架的便利性,也可以减少模型选择的成本和时间。在可以得到通用的模型之前,这个问题还需要广泛的探索。(2)系统性能与训练效率的权衡现有的工作表明了基于DL的数据驱动模型在物理层通信中的强大功能。然而,即使DL可以通过端到端学习来优化通信系统性能,当所有通信模块被融合在一起时,训练过程将花费很长时间。为了提高训练效率,达到良好的系统性能,可以保留部分通信模块,以实现训练效率和系统性能两者之间的权衡。(3)严谨的数学证明和基本的理论总的来说,基于深度学习的通信框架的性能已经在信道估计、均衡、CSI反馈等场景得到了证明,然而,我们还没有推导出严谨的数学证明和基本的理论来进一步验证其框架的性能。推导出基本的理论也会有所帮助我们了解通信框架,这将是改进网络和开发更高效的通信框架的基础。同时,训练所需的训练集大小也是不一定的,基于DL的通信框架是否能得到最优的性能仍然存在不确定性。(4)真实数据集的获得近年来DL技术应用于各种领域,并且得到飞速发展,这很大程度上归功于能够获得真实的开源数据集。训练和测试数据集的质量和数量对基于DL框架的性能有很大的影响。在计算机科学领域,随着自然语言处理,计算机视觉和自动驾驶的飞速发展,已经提供了许多公开的的数据集,如ImageNet和MNIST。然而,在基于DL的无线通信领域,虽然有一些数据集可以应用于某些领域,但目前存在的可用数据集很少。为了便于研究,未来还需要有一些可靠的数据集。

卷积神经网络的优化范文5

Abstract: Classifier selection is the key factor for data classification. K-mean classifier, ISODATA classifier and SOFM neural network classifier are compared in computational complexity and classification performance. The experiments show that three kinds of classifiers cost equal time on the same image, but the self organizing feature map neural network classifier is optimal in classification performance.

关键词: K-均值分类器;ISODATA分类器;SOFM神经网络分类器

Key words: K-mean classifier;ISODATA classifier;SOFM neural network classifier

中图分类号:TP7 文献标识码:A 文章编号:1006-4311(2013)04-0182-02

0 引言

K-均值分类器、迭代自组织数据分类器和自组织特征映射神经网络分类器在遥感图像分类方面应用广泛。王晓军等人将非监督K-均值分类用在合成孔径雷达SAR图像各极化通道上进行参数估计[1]。包健等人将K-均值算法用于高光谱遥感影像的非监督分类中,具有较强的实用性[2]。贾明明等人选取对气候变化敏感的澳大利亚作为研究区。利用了ISODATA分类结果、NDVI阈值及其时间序列主成分分析特征量对研究区土地利用/覆被进行分类[3]。李正金等人进行了基于TM卫星遥感技术和小麦估产模型的冬小麦产量监测研究,采用优化的ISODATA分类方法,结合人机交互式判读解译作物信息[4]。夏浩铭等提取地物在空间上的联系,利用神经网络分类,获得较好的地物分类精度[5]。文章阐述了三种分类器的工作原理,分析了三种分类器的计算复杂度和分类效果。

1 K-均值分类器

基本K-均值思想很简单。首先,选择k个初始聚类中心,其中k是目标分类数目。每个样本按照距离函数计算与所有聚类中心的距离,样本加入到与之距离最短的聚类中心所在分组。新样本加入后,更新该分组的聚类中心。重复训练和更新,直到每类的聚类中心不发生变化为止。当分类数目已知时,利用K-均值分类方法能够方便地计算出样本聚类中心。但是在实际应用中,分类数目可能无法估算,这在一定程度上限制了这种方法的应用。

K-均值算法特点是每次调整样本后,修改一次聚合中心和准则值,当考察完n个样本后,一次迭代运算完成,新的聚合中心和准则值也计算出来。在迭代过程中,准则值逐渐减小,直到它的最小值为止。如果在一次迭代前后,准则值没有变化,说明算法已经收敛。

2 ISODATA分类器

ISODATA算法通过对样本迭代来确定聚类的中心。每一次迭代时,首先是在不改变类别数目的情况下改变分类。然后将样本平均矢量之差小于某一阈值的类别合并起来,根据样本协方差矩阵来决定其分裂与否。主要环节是聚类、集群分裂和集群合并等处理。

ISODATA分类算法最优迭代次数很难设定,一般遥感图像的数据量大,若迭代误差取值较小,分类也很难实现。沈照庆等人[6]以某次迭代中“合并”和“分裂”都为零为求最优分类数的迭代条件,而不是预先设定迭代次数;取最大和最小隶属度取代每一个隶属度为比对特征值,提高了分类速度和精度;利用等效转换研究隶属度矩阵的迭代误差变化规律,得出变化速度趋于稳定时为求解最优隶属度矩阵的智能迭代控制,减少人为事先干预。

3 SOFM神经网络分类器

神经网络由被称作神经元的相互连接处理单元组成。自组织特征映射(Self-Organizing Feature Map,简称SOFM)网络模拟大脑的神经系统自组织特征映射的功能,在学习过程中不需要指导,进行自组织学习。SOFM网络可用于图像压缩、语言识别、机器学习和优化问题等。

训练SOFM网络时首先初始化连接权重为小的随机数,训练开始后,输入向量送入网络。每输入一个样本矢量,各神经元的加权和中必然有一个最大值,经过侧反馈作用,在最大值点周围连接权重自适应调节。SOFM网络已经证明,网络通过反复学习输入模式,可使连接加权矢量空间分布密度与输入模式的概率分布趋于一致,也就是连接权矢量空间分布能反应输入模式的统计特征。训练好的网络在竞争层产生了一个或几个最大输出,它们在竞争层中的位置反映了输入向量在自身空间的特征。

4 实验结果分析

实验选取2003年青岛市一景SPOT5图像作为数据源,截取城乡结合部某地作为实验区域,实验区域在红波波段显示为图1(a)。对于实验区的遥感图像分别采用上述分类器进行地物分类实验。

用ENVI 4.3的分类功能根据K-均值算法分类。参数设置为:分类数量15(一般为最终输出分类数的2-3倍),最大迭代次数为40(默认是15),其它参数取默认值。K-均值关注的是不同波段的灰度信息,系统自动分类时,得到的分类数目为八类,结果如图1(b)所示。从分类结果上可以看出,K-均值分类算法对水体的分类效果较好,水体用红色表示,不但能分出主河道而且显示出在耕地中有一条灌溉沟渠。绿地在分类图中用绿色表示,图上中部的绿地分类正确,但在河道附近,部分耕地错分为绿地了。耕地被分为蓝色、黄色和暗绿色三类。反射系数高的南北方向道路和屋顶较亮的厂房被归为一类,东西走向的道路两边毛刺现象严重。建筑物错分率也较高。

在ENVI 4.3环境下,利用ISODATA算法分类。参数设置为:类别数范围[5-15](一般最小数量不能小于最终分类数,最大数量为最终分类数量的2-3倍),最大迭代次数为40(默认是15),其它参数取默认值,结果见图1(c)。从分类结果上看,ISODATA分类算法对灰度值一致性好的水体分类效果较好,水体用红色表示。能区分出主河道而且显示出在耕地中有一条灌溉沟渠,但将图像下方,靠近南北走向的道路的一间面积较大的厂房错分为水体。绿地在分类图中用绿色表示,图上中部的绿地分类正确较好,但在河道附近,相当一部分耕地错分为绿地了。耕地分类效果表较好,但有部分错分为绿地。东西走向的道路线条比较连贯,两边有点毛刺现象,但不严重。的空地用粉红色表示,居民区是暗绿色,部分工厂厂房的屋顶错分为水体。

SOFM网络利用MATLAB中的神经网络工具箱实现。设定SOFM网络的输入矢量各维的数据范围是像素灰度在[1,32]之间,邻域像素卷积[25,800]之间,学习率为0.9,距离函数是欧氏距离函数,训练步长是5000。输入训练样本,每类500个,5类共2500个样本,距离为5类,每类表征一种地物类型。网络对类型的定义储存在训练网络中。利用训练好的网络对实验图像所有像元进行分类。分类结果用灰度图像表示,像素的颜色代表分类的类型,像素的位置对于测试图像同位置的地物,如图1(d)所示。白色表示道路,浅灰表示建筑物,灰色表示绿地,深灰表示耕地,黑色表示水体。从分类结果图上看,纵横贯穿郊区的主干道和楼区内的道路基本能够正确分类。由于反射系数与道路相近,工厂厂房的屋顶也被错分为道路。建筑物、耕地和绿地总体上分类正确。水体的分类结果令人满意,主水道和灌溉的沟渠都能清楚地分出。分类器处理样本图像的时间接近,都是20分钟左右。

5 总结

K-均值分类中耕地被分三类,道路两边毛刺现象严重,建筑物错分率也较高,分类效果最差。SOFM网络对道路、水体、耕地和绿地总体上分类正确,分类正确率最高。ISODATA分类对水体、耕地、道路分类基本正确,建筑物错分较多。

参考文献:

[1]王晓军,王鹤磊,李连华,孟藏珍,马宁.基于C均值分类的极化SAR图像白化斑点滤波方法[J].系统工程与电子技术,

2008,30(12):2389-2392.

[2]包健,厉小润.K均值算法实现遥感图像的非监督分类.机电工程,2008,25(3):77-80.

[3]贾明明,刘殿伟,宋开山,王宗明,姜广甲,杜嘉,曾丽红.基于MODIS时序数据的澳大利亚土地利用/覆被分类与验证.遥感

技术与应用,2010,25(3):379-386.

[4]李正金,李卫国,申双.基于ISODATA法的冬小麦产量分级监测预报.遥感应用,2009,8:30-32.

卷积神经网络的优化范文6

本文作者:工作单位:安徽埃夫特智能装备有限公司

从控制系统设计角度来说,可以采用辩证法内外因基本原理来分析影响重载机器人控制品质的因素,首先,如果系统存在动力学耦合、柔性等非线性因素,仅仅采用传统的线性控制很难获得良好的控制品质,底层伺服回路的控制缺陷是影响机器人控制品质的内因。第二,如果运动规划环节处理不当,传输给底层运动控制回路的运动指令不合理,即存在位置不连续,速度不连续,加速度跃变等情况,对系统会产生严重的冲击,即便底层伺服控制设计再优秀,同样也会严重影响系统控制品质,这就是所谓的外因。下面就从内外因角度对目前在机器人运动规划和底层伺服控制方面的相关进展进行综述。机器人运动规划方法运动规划与轨迹规划是指根据一定规则和边界条件产生一些离散的运动指令作为机器人伺服回路的输入指令。运动规划的输入是工作空间中若干预设点或其他运动学和动力学的约束条件;运动规划的输出为一组离散的位置、速度和加速度序列。运动规划算法设计过程中主要需要考虑以下三个问题:(1)规划空间的选取:通常情况下,机器人轨迹规划是在全局操作空间内进行的,因为在全局操作空间内,对运动过程的轨迹规划、避障及几何约束描述更为直观。然而在一些情况下,通过运动学逆解,运动规划会转换到关节空间内完成。在关节空间内进行运动规划优点如下:a.关节空间内规划可以避免机构运动奇异点及自由度冗余所带来种种问题[1-4];b.机器人系统控制量是各轴电机驱动力矩,用于调节各轴驱动力矩的轴伺服算法设计通常情况也是在关节空间内的,因此更容易将两者结合起来进行统一考虑[5,6];c.关节空间运动规划可以避免全局操作空间运动规划带来的每一个指令更新周期内进行运动规划和运动学正逆计算带来的计算量,因为如果指令更新周期较短,将会对CPU产生较大的计算负荷。(2)基础函数光滑性保证:至少需要位置指令C2和速度指令C1连续,从而保证加速度信号连续。不充分光滑的运动指令会由于机械系统柔性激起谐振,这点对高速重载工业机器人更为明显。在产生谐振的同时,轨迹跟踪误差会大幅度增加,谐振和冲击也会加速机器人驱动部件的磨损甚至损坏[7]。针对这一问题,相关学者引入高次多项式或以高次多项式为基础的样条函数进行轨迹规划,其中Boryga利用多项式多根的特性,分别采用5次、7次和9次多项式对加速度进行规划,表达式中仅含有一个独立参数,通过运动约束条件,最终确定参数值,并比较了各自性能[8]。Gasparetto采用五次B样条作为规划基础函数,并将整个运动过程中加速度平方的积分作为目标函数进行优化,以确保运动指令足够光滑[9]。刘松国基于B样条曲线,在关节空间内提出了一种考虑运动约束的运动规划算法,将运动学约束转化为样条曲线控制顶点约束,可保证角度、角速度和角加速度连续,起始点和终止点角速度和角加速度可以任意配置[10]。陈伟华则在Cartesian空间内分别采用三次均匀B样条,三次非均匀B样条,三次非均匀有理B样条进行运动规划[11]。(3)运动规划中最优化问题:目前常用的目标函数主要为运行时间、运行能耗和加速度。其中关于运行时间最优的问题,较为经典是Kang和Mckay提出的考虑系统动力学模型以及电机驱动力矩上限的时间最优运动规划算法,然而该算法加速度不连续,因此对于机器人来说力矩指令也是不连续的,即加速度为无穷大,对于真实的电驱伺服系统来说,这是无法实现的,会对系统产生较大冲击,大幅度降低系统的跟踪精度,对机械本体使用寿命也会产生影响[12]。针对上述问题Constantinescu提出了解决方法,在考虑动力学特性的基础上,增加对力矩和加速度的约束,并采用可变容差法对优化问题进行求解[13]。除了以时间为优化目标外,其他指标同样被引入最优运动规划模型中。Martin采用B函数,以能耗最少为优化目标,并将该问题转化为离散参数的优化问题,针对数值病态问题,提出了具有递推格式的计算表达式[14]。Saramago则在考虑能耗最优的同时,将执行时间作为优化目标之一,构成多目标优化函数,最终的优化结果取决于两个目标的权重系数,且优化结果对于权重系数选择较为敏感[15]。Korayem则在考虑机器人负载能力,关节驱动力矩上限和弹性变形基础上,同时以在整个运行过程中的位置波动,速度波动和能耗为目标,给出了一种最优运动规划方法[6],然而该方法在求解时,收敛域较小,收敛性较差,计算量较大。

考虑部件柔性的机器人控制算法机器人系统刚度是影响动态性能指标重要因素。一般情况下,电气部分的系统刚度要远远大于机械部分。虽然重载工业机器人相对于轻型臂来说,其部件刚度已显著增大,但对整体质量的要求不会像轻型臂那么高,而柔性环节仍然不可忽略,原因有以下两点:(1)在重载情况下,如果要确保机器人具有足够的刚度,必然会增加机器人部件质量。同时要达到高速高加速度要求,对驱动元件功率就会有很高的要求,实际中往往是不可实现(受电机的功率和成本限制)。(2)即使驱动元件功率能够达到要求,机械本体质量加大会导致等效负载与电机惯量比很大,这样就对关节刚度有较高的要求,而机器人关节刚度是有上限的(主要由减速器刚度决定)。因此这种情况下不管是开链串联机构还是闭链机构都会体现出明显的关节柔性[16,17],在重载搬运机器人中十分明显。针对柔性部件带来的系统控制复杂性问题,传统的线性控制将难以满足控制要求[17-19],目前主要采用非线性控制方法,可以分成以下几大类:(1)基于奇异摄动理论的模型降阶与复合控制首先针对于柔性关节控制问题,美国伊利诺伊大学香槟分校著名控制论学者MarkW.Spong教授于1987年正式提出和建立柔性关节的模型和奇异摄动降阶方法。对于柔性关节的控制策略绝大多数都是在Spong模型基础上发展起来的。由于模型的阶数高,无法直接用于控制系统设计,针对这个问题,相关学者对系统模型进行了降阶。Spong首先将奇异摄动理论引入了柔性关节控制,将系统分成了慢速系统和边界层系统[20],该方法为后续的研究奠定了基础。Wilson等人对柔性关节降阶后所得的慢速系统采用了PD控制律,将快速边界层系统近似为二阶系统,对其阻尼进行控制,使其快速稳定[21]。针对慢速系统中的未建模非线性误差,Amjadi采用模糊控制完成了对非线性环节的学习[22]。彭济华在对边界层系统提供足够阻尼的同时,将神经网络引入慢速系统控制,有效的克服了参数未知和不确定性问题。连杆柔性会导致系统动力学方程阶数较高,Siciliano和Book将奇异摄动方法引入柔性连杆动力学方程的降阶,其基本思想与将奇异摄动引入柔性关节系统动力学方程一致,都将柔性变形产生的振动视为暂态的快速系统,将名义刚体运动视为准静态的慢速系统,然后分别对两个系统进行复合控制,并应用于单柔性连杆的控制中[23]。英国Sheffield大学A.S.Morris教授领导的课题组在柔性关节奇异摄动和复合控制方面开展了持续的研究。在2002年利用Lagrange方程和假设模态以及Spong关节模型建立柔性关节和柔性连杆的耦合模型,并对奇异摄动理论降阶后的慢速和快速子系统分别采用计算力矩控制和二次型最优控制[24]。2003年在解决柔性关节机器人轨迹跟踪控制时,针对慢速系统参数不确定问题引入RBF神经网络代替原有的计算力矩控制[25].随后2006年在文献[24]所得算法和子系统模型的基础上,针对整个系统稳定性和鲁棒性要求,在边界层采用Hinf控制,在慢速系统采用神经网络算法,并给出了系统的稳定性分析[26]。随着相关研究的开展,有些学者开始在奇异摄动理论与复合控制的基础上作出相应改进。由于奇异摄动的数学复杂性和计算量问题,Spong和Ghorbel提出用积分流形代替奇异摄动[27]。针对奇异摄动模型需要关节高刚度假设,在关节柔度较大的情况下,刘业超等人提出一种刚度补偿算法,拓展了奇异摄动理论的适用范围[28]。(2)状态反馈和自适应控制在采用奇异摄动理论进行分析时,常常要同时引入自适应控制律来完成对未知或不精确参数的处理,而采用积分流形的方式最大的缺点也在于参数的不确定性,同样需要结合自适应控制律[29,30]。因此在考虑柔性环节的机器人高动态性能控制要求下,自适应控制律的引入具有一定的必要性。目前对于柔性关节机器人自适应控制主要思路如下:首先根据Spong模型,机器人系统阶数为4,然后通过相应的降阶方法获得一个二阶的刚体模型子系统,而目前的大多数柔性关节自适应控制律主要针对的便是二阶的刚体子系统中参数不确定性。Spong等人提出了将自适应控制律引入柔性关节控制,其基于柔性关节动力学奇异摄动方程,对降阶刚体模型采用了自适应控制律,主要采用的是经典的Slotine-Li自适应控制律[31],并通过与Cambridge大学Daniel之间互相纠正和修改,确立一套较为完善的基于奇异摄动模型的柔性关节自适应控制方法[32-34]。(3)输入整形控制输入整形最原始的思想来自于利用PosicastControl提出的时滞滤波器,其基本思想可以概括为在原有控制系统中引入一个前馈单元,包含一系列不同幅值和时滞的脉冲序列。将期望的系统输入和脉冲序列进行卷积,产生一个整形的输入来驱动系统。最原始的输入整形方法要求系统是线性的,并且方法鲁棒性较差,因此其使用受到限制。直到二十世纪九十年初由MIT的Signer博士大幅度提高该方法鲁棒性,并正式将该方法命名为输入整形法后[35],才逐渐为人们重视,并在柔性机器人和柔性结构控制方面取得了一系列不错的控制效果[36-39]。输入整形技术在处理柔性机器人控制时,可以统一考虑关节柔性和连杆柔性。对于柔性机器人的点对点控制问题,要求快速消除残余振荡,使机器人快速精确定位。

这类问题对于输入整形控制来说是较容易实现的,但由于机器人柔性环节较多,呈现出多个系统模态,因此必须解决多模态输入整形问题。相关学者对多模态系统的输入整形进行了深入研究。多模态系统的输入整形设计方法一般有:a)级联法:为每个模态设计相应的滤波器,然后将所有模态的时滞滤波器进行级联,组合成一个完整的滤波器,以抑制所有模态的振荡;b)联立方程法:直接根据系统的灵敏度曲线建立一系列的约束方程,通过求解方程组来得到滤波器。这两种方法对系统的两种模态误差均有很好的鲁棒性。级联法设计简单,且对高模态的不敏感性比联立方程法要好;联立方程法比较直接,滤波器包含的脉冲个数少,减少了运行时间。对于多模态输入整形控制Singer博士提出了一种高效的输入整形方法,其基本思想为:首先在灵敏度曲线上选择一些满足残留振荡最大幅值的频段,在这些特定的频带中分别选择一些采样频率,计算其残留振荡;然后将各频率段的残留振荡与期望振荡值的差平方后累加求和,构成目标函数,求取保证目标函数最小的输入整形序列。将频率选择转化为优化问题,对于多模态系统,则在每个模态处分别选择频率采样点和不同的阻尼系数,再按上述方法求解[40]。SungsooRhim和WayneBook在2004年针对多模态振动问题提出了一种新的时延整形滤波器,并以控制对象柔性模态为变量的函数形式给出了要消除残余振动所需最基本条件。同时指出当滤波器项数满足基本条件时,滤波器的时延可以任意设定,消除任何给定范围内的任意多个柔性振动模态产生的残余振动,为输入整形控制器实现自适应提供了理论基础[41],同时针对原有输入整形所通常处理的点对点控制问题进行了有益补充,M.C.Reynolds和P.H.Meckl等人将输入整形应用于关节空间的轨迹控制,提出了一种时间和输入能量最优的轨迹控制方法[42]。(4)不基于模型的软计算智能控制针对含有柔性关节机器人动力学系统的复杂性和无法精确建模,神经网络等智能计算方法更多地被引入用于对机器人动力学模型进行近似。Ge等人利用高斯径向函数神经网络完成柔性关节机器人系统的反馈线性化,仿真结果表明相比于传统的基于模型的反馈线性化控制,采用该方法系统动态跟踪性能较好,对于参数不确定性和动力学模型的变化鲁棒性较强,但是整个算法所用的神经网络由于所需节点较多,计算量较大,并且需要全状态反馈,状态反馈量获取存在一定困难[43]。孙富春等人对于只具有关节传感器的机器人系统在输出反馈控制的基础上引入神经网络,用于逼近机器人模型,克服无法精确建模的非线性环节带来的影响,从而提高机器人系统的动态跟踪性能[44]。A.S.Morris针对整个柔性机器人动力学模型提出了相应的模糊控制器,并用GA算法对控制器参数进行了优化,之后在模糊控制器的基础上,综合了神经网络的逼近功能对刚柔耦合运动进行了补偿[45]。除采用神经网络外,模糊控制也在柔性机器人控制中得以应用。具有代表性的研究成果有V.G.Moudgal设计了一种具有参数自学习能力的柔性连杆模糊控制器,对系统进行了稳定性分析,并与常规的模糊控制策略进行了实验比较[46]。Lin和F.L.Lewis等人在利用奇异摄动方法基础上引入模糊控制器,对所得的快速子系统和慢速子系统分别进行模糊控制[4748]。快速子系统的模糊控制器采用最优控制方法使柔性系统的振动快速消退,慢速子系统的模糊控制器完成名义轨迹的追踪,并对单柔性梁进行了实验研究。Trabia和Shi提出将关节转角和末端振动变形分别设计模糊控制器进行控制,由于对每个子系统只有一个控制目标,所以模糊规则相对简单,最后将两个控制器的输出进行合成,完成复合控制,其思想与奇异摄动方法下进行复合控制类似[49]。随后又对该算法进行改进,同样采用分布式结构,通过对输出变量重要性进行评估,得出关节和末端点的速度量要比位置量更为重要,因此将模糊控制器分成两部分,分别对速度和位置进行控制,并利用NelderandMeadSimplex搜索方法对隶属度函数进行更新[50]。采用基于软计算的智能控制方法相对于基于模型的控制方法具有很多优势,特别是可以与传统控制方法相结合,完成对传统方法无法精确建模的非线性环节进行逼近,但是目前这些方法的研究绝大部分还处于仿真阶段,或在较简单的机器人(如单自由度或两自由度机器人)进行相关实验研究。其应用和工程实现受限的主要原因在于计算量大,但随着处理器计算能力的提高,这些方法还有广泛的应用前景。