前言:中文期刊网精心挑选了神经网络中偏置的作用范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。
神经网络中偏置的作用范文1
关键词:卷积神经网络 人体行为识别 Dropout
中图分类号:TP391.41 文献标识码:A 文章编号:1672-3791(2017)04(c)-0028-02
该文采用随机Dropout卷积神经网络,笔者将此法的优点大致概况为将繁琐杂乱的前期图像处理简易化,原来的图像不可以直接输入,现在的原始图像即可实现直输功能,因其特性得到广泛研究与应用。另外,卷积神经网络在图像的处理中能够将指定的姿势、阳光的照射反应、遮避、平面移动、缩小与放大等其他形式的扭曲达到鲁棒性,从而达到良好的容错能力,进而可以发现其在自适应能力方面也非常强大。因为卷积神经网络在之前建立网络模型时,样本库为训练阶段提供的样本,数量有限,品质上也很难满足要求,致使网络权值参数不能够完成实时有效的调度与整理。
1 卷积神经网络
据调查卷积神经网络由K.Fukushima在80年代提出,那时候它被称为神经认知机,这一认知成为当时的第一个网络,后来网络算法发生了规模性变革,由LeCun为代表提出了第一个手写数字识别模型,并成功投入到商业用途中。LeNet被业界冠以卷积神经网络的代表模型,这类系统在很多方面都起到了不容小趋的作用,它多数应用于各类不同的识别图像及处理中,在这些层面上取得了重要成果。
笔者经查阅资料发现卷积神经网络其实是由两个种类组合而来,它们分别是特征提取、分类器,这种组成我们可以看到特征提取类可由一定数量的卷积层以及子采样层相互重叠组合而成,全部都连接起来的1层或者2层神经网络,就是由分类器来进行安排的。卷积神经网络中的局部区域得到的感觉、权值的参数及子采样等可以说是重要网络结构特征。
1.1 基本CNN网络结构
图1中就是最为经典的LeNet-5网络模型结构图。通过图1中我们可以获悉,该模型有输入输出层,除这两层外还有6层,其征提取可在前4层中体现,后两层体现的是分类器。
在特征提取部分,6个卷积核通过卷积,是图像经尺寸为32×32的输入而得见表1,运算过程如式(1):
(1)
式中:卷积后的图像与一个偏置组合起来,使函数得到激活,因此特征图变诞生了,通过输出得到了6个尺寸的特征图,这6个尺寸均为28×28,近而得到了第一层的卷积,以下笔者把它简要称为c1;那么c1层中的6个同尺寸图再经由下面的子采样2×2尺寸,再演变成特征图,数量还是6个,尺寸却变成了14×14,具体运算如公式(2):
通过表2我们可以使xi生成的和与采样系数0.25相乘,那么采样层的生成也就是由加上了一个偏置,从而使函数被激活形成了采样层的第1个层次,以下我们简要称为s1;这种过程我们可反复运用,从而呈现出卷积层中的第2层,可以简要称之为c2,第2层简称s2;到目前为止,我们对特征的提取告一段落。
神经网络的识别,我们可以看到它是由激活函数而形成的一个状态,这一状态是由每个单元的输出而得;那么分类器在这里起到的作用是将卷积层全部连接起来,这种通过连接而使1层与上面1层所有特征图进行了串连,简要称之为c5;因而2层得到了退变与简化效应,从而使该神经网络成为经典,简要称之为F6,向量及权值是由F6 输送,然后由点积加上偏置得到结果的有效判定。
1.2 改进的随机DropoutCNN网络
1.2.1 基本Dropout方法
神经网络泛化能力能够得到提升,是基于Dropout方法的深入学习。固定关系中存在着节点的隐含,为使权值不再依附于这种关系,上述方法可随机提取部分神经元,这一特性是通过利用Dropout在网络训练阶段中随机性而得,对于取值能够有效的存储及保护存留,这一特性在输出设定方面一定要注重为0,这些被选择的神经元随然这次被抽中应用,但并不影响下次训练的过程,并具还可以恢复之前保留的取值,那么每两个神经元同时产生作用的规避,可以通过重复下次随机选择部分神经元的过程来解决;我们通过这种方法,使网络结构在每次训练阶段中都能呈现不同变化,使一些受限制的特征,不再受到干扰,使其真正能展现自身的优点,在基于Dropout方法中,我们可以将一些神经元的一半设为0来进行输出,随机神经元的百分比可控制在50%,有效的避免了特征的过度相似与稳合。
1.2.2 随机Dropout方法
Dropout方法就是随机输出为0的设定,它将一定比例神经元作为决定的因素,其定义网络在构建模型时得到广泛采用。神经元基于随机Dropout的方法是该文的重要网络输出途径,通过设定输出为0,使其在网络中得到变。图2是随机Dropout的加入神经元连接示意图,其在图中可知两类神经元:一类是分类器的神经元,这一阶段的神经元可分榱讲悖涣硪焕嗌窬元是由输出而形成的层次。模型在首次训练的阶段会使神经元随机形成冻结状态,这一状态所占的百分比为40%、60%,我们还可以看到30%及50%的神经元可能在网络随机被冻结,那么这次冻结可以发生在模型第二次训练,那么第三次神经元的冻结可从图示中得出70%及40%,还可以通过变化用人工设置,其范围值宜为35%~65%,那么网络神经元连接次序的多样化,也因此更为突出与精进,网络模型的泛化能力也得到了跨越势的提高。
2 实验及结果分析
2.1 实验方法
卷积神经网络通过实验,通过输入层呈现一灰色图像,该图像尺寸被设定成28×28的PNG格式,这里我们以图像框架图得到双线性差值,用来处理图像及原视频中的影像,将框架图的卷积核设定为5×5的尺寸,子采样系数控制值为0.25,采用SGD迭代200次,样本数量50个进行设定,一次误差反向传播实现批量处理,进行权值调整。实验采用交叉验证留一法,前四层为特征提取层,C1-S1-C2-S2按顺序排列,6-6-12-12个数是相应特征,通过下阶段加入随机Dropout,这阶段为双层也就是两层,进行连接,连接层为全体,从而可知结果由分类得出,又从输出层输出。
2.2 实验结果分析
识别错误率可通过卷积神经网络模型,及训练过程与检测过程中可查看到的。在训练阶段中,我们可以将Dropout的网络中融入200次训练,在将没有使用该方法的网络进行相互比较分析,我可以得知,后者训练时的识别错误率稍高于前者,前者与后的相比较所得的差异不是很大,进而我们可知使用Dropout方法,对卷积神经网络在泛化能力上得到有效的提升,从而有效的防止拟合。
3 结语
笔者基于Dropout卷积神经网络,人体行为识别在视频中进行, 通过Weizmann数据集检测实验结果,随机Dropout在分类器中加入。通过实验可以得知:随机Dropout的加入,使卷积神经构建了完美网络模型,并且使其在人体行为识别中的效率赢得了大幅度的提升,近而使泛化能力可以通过此类方法得到提高,可以防止拟合。
参考文献
[1] 其它计算机理论与技术[J].电子科技文摘,2002(6).
神经网络中偏置的作用范文2
【关键词】GIS;神经网络;土地利用
引言
土地是人类目前生活发展过程中最基本、最重要的间接资源之一。运用科学合理的管理、发展土地的方法有着重要意义。土地利用是当今全球环境变化的重要原因之一,开展典型区域的个案研究是认识全球环境变化的必要途径,也是区域可持续发展研究的关键。目前土地管理中实现了文字信息与地图信息一体化的自动管理模式。土地利用动态变化预测是土地管理工作中的重要部分,直接关系到国家的可持续发展。因而研究土地利用的变化对提高土地利用率有着深远的意义。
1. 土地利用变化预测模型现状
早期的土地利用变化模型重点是理解静态的空间格局,1990以来,首先是时间动态模型在空间格局分析的基础上与地理信息系统的结合;其次是遥感技术的被广泛发展,遥感数据具有相对客观性和高分辨率的特点,对于识别和分析土地利用变化发挥着至关重要的作用;最后是21世纪出现的地理信息系统((Geographic Information System,简称GIS),GIS是一门十分复杂的综合叉学科,并且和众多学科相结合,例如与地理学、地图学以及遥感技术等学科相结合,在不同的领域范围中应用广泛,除可以对空间信息进行分析以及预处理之外,还能够把视觉化的地图和地理数据分析功能,连同一般的数据库操作等集成到一起来分析。
2.神经网络
从神经网络的输入层到其隐含层实现这一过程,其实是一个非线性映射的过程,然而,从隐含层到输出层这一过程却是线性映射;神经网络强大的处理功能相当于从高维空间到低维空间的映射。神经元是对神经网络模型操作处理的基本单位,同时也是神经网络设计的最基本的基础,如图所示为神经元基础模型。
神经元模型一般含有三种基本元素:
(1)突触或连接链,每一个都存在其权值,因此可以被看作为特征。
(2)加法器,用于求解输入神经元相应突触加权所产生的和。
(3)激活函数用来限制神经元输出振幅。贴近得到任意的函数形式。但是,如果信息中含有某些敏感点,那么这些敏感点,很有可能造成神经网络在学习和练习的过程中陷入局部最小值。如果只利用神经网络去对土地利用变化分析,毋庸置疑存在缺点,所以我们利用GIS和神经网络相结合方法对土地利用变化进行模型。
3. GIS和神经网络相结合土地利用变化预测模型
3.1模型的优化结构
土地利用变化研究需要基于大量的数据的前提 ,遥感是数据存储和处理的工具,我们通过神经网络模型和GIS相结合方式,预测出土地利用的变化。模型分为两个部分――神经网络训练和神经网络模拟。其中神经网络的练习经常使用算法为反向传播。通过对两期遥感影像的土地利用图进行分类,随机选择出测试样本以及训练样本,用ThinksPro操作软件创建该神经网络模型,反复进行训练目的是获取神经网络的权值参数以及偏置参数。在我们确定自由参数以后,就可以用已知的数据进行预测土地利用变化规律,需要反复预测过程,通过给定的回合数确定预测的时间。
3.2 获取空间数据
神经网络的输入数据功能,一般是用来存储一系列数据层或者解决数据问题的,其中最根本的数据图层便是土地利用分类图层,因此我们需要对每一种数据进行编码,用来表示对预测单元的影响大小,这些编码以后便作为输人变量的初始值。
3.3 处理遥感数据
遥感数据是主要数据来源对土地利用变化研究来说,通过软件对遥感影像进行处
理,遥感数据处理的过程有以下几各步骤:
(1)合成遥感影像数据
(2)对影像几何精校正
(3)图像效果增强处理
(4)图像的镶嵌
(5)对研究区裁减
(6)遥感影像的分类
(7)对分类结果评价
3.4 GIS空间分析
由模型可知,模型可以很好的c栅格数据相结合,采用GIS软件空间分析是重要数据生成一种方法,在这里我们用作为空间分析的重要工具。
空间缓冲区分析,即再实体周围创建相互存在一定间隔的带状区域,用来区别这些实体对附近对象所产生的辐射大小。因此,空间缓冲区分析,首先要确定出分析源,在实际应用中,随着距离的不断增大,其产生的影响就会缓慢减弱。在本文中,笔者主要通过空间缓冲区分析这一功能,从而获得各实体对其缓冲区产生的影响结果。
4.结语
用神经网络进行预测方法充分利用了其复杂映射能力,很强的自组织等长处,此外,通过使用GIS数据辅助训练样本的选择,达到了对样本点的自动化选取目的,从而大大提高了选取训练样本的效率,节省了宝贵的时间;另外神经网络存在大量的缺点:例如特别容易陷入局部最小、学习收敛速度慢等一系列缺点,以及忽略一些重要影响因素的特征,所以我们预测结果并非特别精确,我相信在不远的将来,我们一定可以通过更好的模型预测出更加精确的土地利用动态变化。
参考文献
[1]张明媛.基于GIS模拟土地利用变化[J] .燕山大学学报.2014.
神经网络中偏置的作用范文3
关键词:暂态混沌神经网络;优化问题;非线性函数优化;TSP
中图分类号:TP183 文献标识码:A 文章编号:1004-373X(2009)04-076-04
Transient Chaotic Neural Netwgork and Its Optimization ofthe Applied Research
PENG Jingbin1,2,YE Jinbao2,3,WANG Xuejiao3
(1.Hengyang Transport Machinery Co.Ltd.,Hengyang,421002,China;2.Hunan Sci.and Tech.Economy Trade Vocational College,Hengyang,421009,China;
3.University of South China,Hengyang,421001,China)
Abstract:For analysing and studing the characteristic and optimized mechanism of transient chaotic neural network,based on analysis of transient chaotic neuron model,through programming the simulation analysis in the Matlab software to compare the neural network dynamic characteristic and various parameters regarding the network optimization process influence.Transient chaotic neural network model by the chaos inherent in the use of random traversal of the track,and carries on the search in wide range according to its own rule,the search process,according to traverse chaotic orbit,free from restrictions on the objective function,which has overcome the local minimum The ability to effectively can solve a series of combinatorial optimization problems.The control network parameter is selected according to the network dynamic characteristic,through the simulation,problems of non-linear function optimization and 10 city TSP problems are solved.The optimization results is satisfied.And thus is conducive to such a chaotic neural network optimization problem in the promotion.
Keywords:transient chaotic neural network;optimization;non-liear function optimization;TSP
0 引 言
生物神经网络是一个非常复杂的非线性巨系统,存在各种复杂的动力学行为,在生物学实验中人们已观察到人脑和动物神经系统中的各种混沌行为。由于人工神经网络是对生物神经网络的模拟,因而深入研究人工神经网络中的复杂动力学(特别是混沌)对于提高人工神经网络的智能化程度具有重要意义。人工神经网络的一个重要应用领域是用于优化。神经网络的寻求稳定平衡点的大规模并行计算能力对于优化问题是强有力的工具,但由于其利用梯度下降的动力学,因此在求解许多实际优化问题时常陷入局部极小值。由于混沌具有遍历性、随机性、规律性的特点,混沌运动能在一定范围内按其自身的规律不重复地遍历所有状态,因此,利用混沌变量进行优化搜索,无疑会比随机搜索更为优越。混沌动力学为人们研究神经网络提供了新的契机,用神经网络研究或产生混沌以及构造混沌神经网络,混沌神经网络具有更加丰富和远离平衡点的动力学特性。混沌动力学是以对初始条件的敏感性以及在相空间的不停运动为特征的,这一特点使得混沌成为很好地在状态空间进行搜索的机制,当将其用于优化时,它具有逃离局部极值的能力。正是基于这个机制,这里研究了暂态混沌神经网络模型和其优化问题中的应用,它具有暂态的混沌动力学行为,可以对状态空间做暂时的搜索。
1 暂态混沌神经元
混沌神经元是标定混沌神经网络的基本单位,对于单个神经元的混沌特性的了解可为混沌神经网络提供必要前提和认识基础。在混沌神经元的研究中,振荡子是一种典型的研究对象,因为振荡子或它们的组合可表现出丰富的混沌动力学行为,为了理解混沌神经网络的运行机理,在此以单个神经元为例检验该网络的混沌动力学行为。首先给出暂态混沌神经网络模型:
Иui(t+1)=kui(t)+α\j≠1wijvj+θ-s1(k)\〗-
gi(t)\И
当Е联=0时单个神经元的网络模型:
Иu(t+1)=ku(t)-g(t)\(1)
v(t)=11+exp{-μu(t)\}(2)
gi(t)=(1-β)gi(t+1)(3)
η(t+1)=η(t)ln{e+λ\}(4)И
在Matlab中仿真混沌神经元模型进行模拟仿真,对式(1)~式(4)随机取参数Е=0.7,β=0.001,λ=0.006,μ=300Щ煦缟窬元内部状态的演变如图1所示。
图1 混沌神经元状态演化图
对于这里的单个混沌神经元的动力学特性和控制参数的演化过程进行仿真与研究。
图2、图3是在式(1)~式(4)取参数k=0.9,β=0.001,λ=0.006,g(0)=0.08时单个神经元的动力学特征和控制参数的退化曲线,可以看出式(1)~式(4)组成的网络具有暂态混沌动力学的行为,随着控制参数在时间上的不断衰减,通过一个倍周期倒分叉过程,网络将逐渐趋于稳定的平衡点。
图2 单个神经元的动力学特征
图3 控制参数的退化曲线
图4、图5中k=0.9,β=0.003,λ=0.006,g(0)=0.08,由于图4,图5相对于图2和图3只是β增大,但可以知道β增大有利于加速收敛,但优化质量会有所下降,从网络的动态方程可知,β增大使能量函数对动态方程的影响增大,如影响过大,将不能产生充分地混沌动态;反之太小的β使能量函数的变化不能充分的影响动态的演变,从而搜索过程难以收敛到对应最小能量值的最优解,同时过分的混沌搜索将导致优化过程变长。
图4 单个神经元的动力学特征
图5 控制参数的退化曲线
图6、图7中k=0.9,β=0.001,λ=0.008,g(0)=0.08,由图6,图7相对于图2和图3只是λ增大,然而可以知道λ增大有利于加速收敛,但优化质量会下降,λ的大小反应控制参数Z(t)的下降速率的快慢,过大的λ会使Щ煦缍态消失的过快,从而容易收敛到局部最小或非法状态;反之混沌动态持续太久,将严重影响收敛速度。
图6 单个神经元的动力学特征
图7 控制参数的退化曲线
图8、图9中k=0.9,β=0.001,λ=0.008,g(0)=0.10,由图8和图9相对于图2和图3只是Z(0)增大,但可以知道Z(0)减小有利于加速收敛,但算法收敛到次优解的概率将增加,加快Z的下降速度,一旦混沌行为不充分则必然影响优化性能;反之Z(0)过大将使得下降过程过慢,从而混沌对系统演化过程的影响过大,收敛必然缓慢。
图8 单个神经元的动力学特征
图9 控制参数的退化曲线
2 暂态混沌神经网络
上述部分对单个无反馈神经元的动力学特性和控制参数进行了仿真与研究,下面系统地对混沌神经网络进行研究。显然暂态混沌神经网络有反馈项,而且还是许多单个的神经元构成,其构成是将混沌机制引入到Hopfield神经网络中,构造出具有自组织特性和克服局部极小能力的暂态混沌神经网络,其数学模型如下:
Иui(t+1)=kui(t)+α\j≠1wijvj+θ-s1(K)\〗-
gi(t)\(5)
vi(t)=11+exp{-μui(t)\}(6)
gi(t)=(1-β)gi(t+1)(7)
ηi(t)=ηi(t-1)ln{e+λ\}(8)И
其中:式(5)为混沌神经网络的动态方程;式(6)为神经网络的激励函数。ui和vj为神经网络在K时刻的输入和输出;wij为从第j个神经元到第i个神经元的连接权值;k为比例常数;θ为神经元偏置;S1(K),S2(K)为外加的混沌变量;β和λ为时变量gi(t)和ηi(t)У乃ゼ跻蜃印Hopfield神经网络离散型模型为:
Иui(K+1)=(1-Δtτ)ui(K)+Δtβ′[∑njwijvj(K)+θ]
=kui(K)+β[∑njwijvj(K)+θ](9)И
比较混沌神经网络和Hopfield神经网络模型只是在Hopfield神经网络后面加上Вgi(t)\项,变量gi(t)表示每个神经元的抑制自反馈链接的强度,当t0,gi(t)0,Щ煦缟窬网络退化为神经网络暂态混沌神经网络模型综合了随机性和确定性算法的优点。优化过程分为基于混沌的“粗搜索”和基于Hopfield神经网络“细(梯度)搜索”两个阶段。粗搜索中的混沌搜索同时具有随机性和轨道遍历性,具有克服陷入局部极小的能力。随机性保证大范围搜索能力,轨道遍历性使算法能按系统自身的行为不重复地遍历所有可能状态,有利于克服一般随机算法中以分布遍历性的机制搜索带来的局限性。粗搜索过程结束,转入HHN梯度搜索及细搜索阶段,随着粗搜索结束,系统方程中控制参数决定项的作用很弱,及暂态混沌动力行为消失后,网络优化过程基本按能量函数的梯度下降方向进行。此时的行为类似于Hopfield神经网络寻优过程。系统最终收敛于一个稳定的平衡点,即收敛到全局意义下较满意的解。
算法流程图如图10所示。
3 暂态混沌神经网络模型在优化问题中的应用
3.1 在函数优化中的应用
求解下述非线性优化问题:
ИF(x)=(x1-0.8)2\+
(x2-0.6)2\И
目标函数的全局最小点为:(0.8,0.6);局部极小点为有3个:(0.7,0.5),(0.7,0.6),(0.8,0.5)。以min F(x)为网络的能量函数进行优化求解并给定相应的网络参数和网络初始值。
计算结果见表1。
表1 计算结果
全局最优解对应最优解迭代次数
理论解0.000.8,0.6-
混沌解1.478E-0070.799,0.59990
在此给出网络的神经元的输出X(t)随时间的演化过程(随时间变化):如图11所示。
图10 优化流程图
图11 神经元1的输出X1(t)和神经元2的输出X2(t)
两个神经元的输出函数的初始状态是不可预测的混沌运动,随着非线性反馈强度的逐渐减弱,经过短暂的分叉过程后,最终收敛到网络的稳定状态(0.8,0.6)处。因此该网络具有避免陷入局部极小值的能力,从而实现全局优化。
3.2 应用于TSP问题(10个城市TSP问题)
TSP问题是一类典型的组合优化难题,它要求旅行商用最短的路径走遍地图上的n个城市而且只能访问一次,最后回到起始点。TSP问题分为对称TSP(dij=dji)和非对称TSP(dij≠dji)。其中:dij表示城市i与城市j之间的距离;对称TSP的可能路径有(n-1)!/2条,非对称的有(n-1)!条。显然,用穷举法来寻找最短路径将花费大量的时间,而且若城市数量大,则该方法几乎是无法解决TSP问题的。1985年,Hopfield与Tank构造了TSP问题满足所有限制条件的一个能量公式:
ИE=w12\ni=1(∑njxij-1)2+∑nj=1(∑nixij-1)2\〗
+w22∑ni=1∑nj=1∑nk=1(xkj+1+xkj-1)xijdikИ
同时,结合HNN算法成功地解决了TSP问题。但是对于10个城市的TSP问题,20次实验中,只得到16次合法解,10次最优解通过分析得到解决TSP问题的差分方程:
yij(t+1)=kyij(t)+α{-w1\ni≠jxij(t)+
∑nk≠ixkj(t)\〗-w2\nk≠idik(xkj+1(t)+xkj-1)\〗+
w1}-zi(t)\, i=1,2,…,n
对于10个城市的TSP问题,原始数据取自文,参数选取如下:k=0.9; W1=1;W2=1;I0=0.65;γ=100;z(0)=0.05;εi=250;变动β,λ,随机选取初始值仿真120次得到表2的仿真结果。
表2 仿真结果
Е力娄霜ё钣沤猹な目次优解な目平均迭代ご问
0.020.060.011173320
0.020.040.011200289
0.020.040.024254
0.030.020.012241
从表2中取出1组数据Е=0.03,β=0.02,λ=0.01,神经元输出能量函数演化图以及最优路径如图12所示。
图12 10个城市TSP最短路径仿真图
对图12分析可以得到:模型中存在很多参数需要选取。输入正比例系数Е劣跋斓代步数的多少与模型混沌动态性能,过小的α值使迭代步数增加,过大的α值则减弱模型混沌动态性能,故应该仔细选取该参数;β控制增益函数的衰减速率,这个参数将显著影响寻优过程的收敛速度,较小的β值将会加快收敛速度;较大的λ值会加快收敛速度但会使混沌动态消失过快,从而影响寻优结果,较小的λ值会使混沌动态作用时间加长而使收敛速度变慢。
4 结 语
暂态混沌神经网络利用混沌所固有的随机性和轨道遍历性在大范围内按其自身规律进行搜索,搜索过程按混沌轨道遍历,不受目标函数限制,从而具有克服陷入局部极小的能力。当混沌搜索结束以后,网络进入类似Hopfield网络的梯度搜索过程,由于混沌搜索为梯度搜索提供了一个好的位于全局最优解附近的初始值,因而可以较快地获得全局意义下的最优解。通过实例仿真分析,比较暂态混沌神经网络在优化方面显示出了其优化方面的优势和较好的发展前景。
参 考 文 献
[1]Aihara K,Takabe T,Toyada M.Chaotic Neural Networks[J].Phys.Letters A,1990,144(6/7):333-340.
[2]Nozawa H.Solutions ofthe Optimization Problem Using the Neural Network Model as a Globally Coupled Map[J].Physica D,1994,75(1-3):179-189.
[3]张学义,胡仕诚,谢荣生,等.一种混沌神经网络及其在优化计算中的应用[J].系统工程与电子技术,2000,22(7):69-71.
[4]王凌,郑大钟.一种基于退火策略的混沌神经网络优化算法[J].控制理论与应用,2000,17(1):139-142.
[5]窦春霞,张淑清.基于混沌神经网络预测模型的最优控制决策及应用[J].动力工程,2004,24(1):68-72.
[6]Chen Luonan,Aihara Kazuyuk.Global Searching Ability of Chaotic Neural Networks [J].IEEE Transactions on Circuits and System I:Fundamental Theory and Application,1999,46(8):974-993.
[7]窦春霞.基于混沌一神经网络模型最优控制及应用[J].系统工程学报,2004,19(3):229-233.
[8]李薪宇,吕炳朝.暂态混沌神经网络中的模拟退火策略优化[J].计算机应用,2005(10):198-200.
[9]周婷,贾振红,刘秀玲.一种用于函数优化的小波混沌神经网络[J].计算机应用,2007,27(12):2 910-2 912.
[10]高海昌,冯博琴,朱利.智能优化算法求解TSP问题[J]控制与决策,2006(3):241-247.
神经网络中偏置的作用范文4
关键词:卷积神经网络;语言模型;分析
1 卷积神经网络语言模型
CNN语言模型基本结构包括输入层、卷积层、池化层及后续的分类层。输入层是表示语言的矩阵,该矩阵可以是通过Google word2vec或GloVe预训练得到的词嵌入表示,也可以是从原始数据重新训练的语言的向量表示。输入层之后是通过线性滤波器对输入矩阵进行卷积操作的卷积层。在NLP问题中,输入矩阵总是带有固定顺序的结构,因为矩阵的每一行都表示离散的符号,例如单词或者词组等。因此,使用等宽的滤波器是非常合理的设置。在这种设置下,仅需要考虑滤波器的高度既可以实现不同尺寸的滤波器做卷积操作。由此可知,在处理NLP问题时,卷积神经网络的滤波器尺寸一般都是指滤波器的高度。
然后,将卷积层输出的特征映射输入池化层,通过池化函数为特征映射进行降维并且减少了待估计参数规模。一般的,CNN池化操作采用1-max池化函数。该函数能够将输入的特征映射统一生成维度相同的新映射。通过池化操作,可以将卷积层生成的特征连接成更抽象的高级特征,所得到的高级特征尺寸与输入的句子不再存在直接关系。
最后,将得到的高级特征输入softmax分类层进行分类操作。在softmax层,可以选择应用dropout策略作为正则化手段,该方法是随机地将向量中的一些值设置为0。另外还可以选择增加l2范数约束,l2范数约束是指当它超过该值时,将向量的l2范数缩放到指定阈值。在训练期间,要最小化的目标是分类的交叉熵损失,要估计的参数包括滤波器的权重向量,激活函数中的偏置项以及softmax函数的权重向量。
2 卷积神经网络语言模型应用分析
CNN语言模型已经广泛应用于诸如文本分类,关系挖掘以及个性化推荐等NLP任务,下面将对这些应用进行具体的介绍与分析。
2.1 CNN在文本分类中的应用分析
kim提出了利用CNN进行句子分类的方法。该方法涉及了较小规模的参数,并采用静态通道的CNN实现了效果很优异的句子分类方法。通过对输入向量的调整,进一步提高了性能实现了包括情感极性分析以及话题分类的任务。在其基础上为输入的词嵌入设计了两种通道,一种是静态通道,另一种是动态通道。在卷积层每一个滤波器都通过静态与动态两种通道进行计算,然后将计算结果进行拼接。在池化层采用dropout正则化策略,并对权值向量进行l2约束。最后将该算法应用于MR、SST-1与SST-2、Subj、TREC、CR以及MPQA等数据集。MR数据集为电影评论数据集,内容为一句话的电影评论,其分类包括积极情感极性与消极情感极性两类。SST-1与SST-2数据集为斯坦福情感树库是MR数据集的扩展,但该数据集已经划分好了训练集、验证集及测试集并给出了细粒度的标记,标记包括非常积极、积极、中性、消极、非常消极等情感极性。Subj数据集为主观性数据集,其分类任务是将句子分为主观句与客观句两类。TREC数据集为问题数据集,其分类任务是将所有问题分为六类,例如关于数字、人物或位置等信息的问题。CR数据集为评论数据集,包括客户对MP3、照相机等数码产品的评论,其分类任务是将其分为积极评价与消极评价两类。MPQA数据集是意见极性检测任务数据集。通过实验证明,该方法在这几个典型数据集上都能取得非常优异的效果。
2.2 CNN在关系挖掘中的应用分析
Shen等人提出了一种新的潜在语义模型,以词序列作为输入,利用卷积-池化结构为搜索查询和Web文档学习低维语义向量表示。为了在网络查询或网络文本中捕捉上下文结构,通过输入单词序列上下文时间窗口中的每个单词来获取词汇级的n-gram语法特征,将这些特征聚合成句子级特征向量。最后,应用非线性变换来提取高级语义信息以生成用于全文字符串的连续向量表示。该模型的不同之处在于,输入层与卷积层之间加入了word-n-gram层与letter-trigram层,它们能够将输入的词序列转变为letter-trigram表示向量。在卷积层通过上下文特征窗口发现相邻单词的位置特征,并变现为n-gram形式。然后通过max池化将word-n-gram特征合并为句子级的高级特征。在池化层之后增加了语义层来提取更高级的语义表示向量。
2.3 CNN在个性化推荐中的应用分析
Weston等人提出了一种能够利用标签(hashtag)有监督的学习网络帖子短文本特征表示的卷e嵌入模型(Convolutional Embedding Model)。该方法利用提出的CNN模型在55亿词的大数据文本上通过预标注的100,000标签进行训练。该方法除了标签预测任务本身能取得好的效果外,学习到的特征对于其它的文本表示任务也能起到非常有效的作用。该模型与其它的词嵌入模型类似,输入层为表示文本的矩阵,但是,在用查找表表示输入文本的同时将标签也使用查找表来表示。对于给定的文档利用10万条最频繁出现的标签通过评分函数对任何给定的主题标签进行排序。
其中,econv(w)表示CNN的输入文档,elt(t)是候选标签t的词嵌入表示。因此,通过对分数f(w,t)进行排序可以获取所有候选主题标签中排序第一的话题进行推荐。实验数据集采用了两个大规模语料集,均来自流行的社交网络文本并带有标签。第一个数据集称作people数据集,包括搜集自社交网络的2亿1000万条文本,共含有55亿单词。第二个数据集被称作pages,包括3530万条社交网络文本,共含有16亿单词,内容包括企业、名人、品牌或产品。
3 结束语
卷积神经网络应用于语言模型已经取得了非常大的发展,对于自然语言处理中的各项任务均取得了优异的结果。本文通过对几项典型工作的分析,探讨了不同卷积神经网络模型结构在不同任务中的表现。通过综合分析可以得出以下结论。首先,CNN的输入采用原始数据训练的向量表示一般效果会优于预训练的词嵌入表示;其次,在卷积层滤波器的尺寸一般采用宽度与输入矩阵宽度相等的设置;最后,为了优化结果可以采用dropout正则化处理。
神经网络中偏置的作用范文5
关键词关键词:极限学习机;模式识别;高光谱遥感图像;判别信息
DOIDOI:10.11907/rjdk.162600
中图分类号:TP317.4文献标识码:A文章编号文章编号:16727800(2017)001016105
对于连续狭窄的光谱带,高光谱成像传感器能够捕获详细和丰富的光谱信息。近年来,随着图像处理技术的发展,高光谱图像得到广泛应用,在高光谱图像应用中最重要的任务是对图像进行分类。然而,在高光谱遥感图像分类问题中存在一些挑战。例如有限训练样本之间的不平衡和高维度,高光谱遥感图像几何形状复杂,高光谱遥感图像分类计算复杂度高。为使高光谱遥感图像分类取得良好效果,近年来,机器学习方法在高光谱图像分类中得到广泛应用,例如人工神经网络(Artificial neural networks,ANNs)[1]、支持向量机(Support vector machine,SVM)[2]、多项逻辑回归(Multinomial logistic regression,MLR)[3]、主动学习(Active learning,AL)[4]等,其它方法如利用稀疏表示[5]以及谱聚类[6]对高光谱进行分离也得到广泛应用。然而,由于高光谱遥感图像具有{维度以及复杂性,通过机器学习算法寻找最优的参数来进行分类通常非常困难,并且耗时,实现高光谱遥感图像高效快速分类已成为遥感图像领域的重要问题。
近年来,Huang等[7]基于单隐层前馈神经网络(Single-hidden layer feedforward networks,SLFNs)结构提出了极限学习机(Extreme learning machine,ELM)。ELM随机产生隐层节点的输入权值和偏置值,所有参数中仅有输出权值经过分析确定。ELM将传统神经网络的求解过程转化为一个线性模型,ELM随机选择输入权值和分析确定SLFNs的输出权值,避免了传统神经网络学习方法收敛速度慢及陷入局部极小解的可能,具有更好的泛化能力和更快的学习速度。文献[7]指出ELM通过随机产生隐层节点的输入权值和偏置值分析确定输出权值,保持了SLFNs的通用逼近能力,同时能够得到一个全局最优解。由于ELM良好的泛化能力,使得ELM应用在不同的领域中。在高光谱遥感图像领域,Pal等[8]将ELM应用到土地覆盖分类中,与BP[9]神经网络和支持向量机相比,ELM取得了更好的分类效果,并且ELM算法的计算复杂度远远小于BP和支持向量机。Bazi等[10]利用差分进化方法优化核ELM算法的参数,提高了高光谱遥感图像的分类效果。为了提高ELM算法在高光谱遥感图像分类中的稳定性,Samat等[11]基于Bagging 和 AdaBoost算法提出了集成的极限学习机算法(Ensemble extreme learning machine,E2LM)。
虽然针对高光谱遥感图像分类问题,研究人员在ELM算法的基础上提出了改进,然而 ELM及其改进算法并未充分考虑数据样本间的几何特征和数据蕴含的判别信息。知道样本之间具有某些相似的属性和分布特征,样本之间的相似属性和分布特征能够弥补ELM学习不够充分的问题,进而可以提高ELM的泛化能力,因而数据样本的几何特征和数据蕴含的判别信息对ELM的分类性能具有重要作用。
基于以上分析,本文提出一种基于判别信息极端学习机(Discriminative information regularized extreme learning machine,IELM),对于分类问题,IELM同时考虑到数据样本的几何特征和数据蕴含的判别信息,通过最大化异类离散度和最小化同类离散度,优化极端学习机的输出权值,从而在一定程度上提高ELM的分类性能和泛化能力。IELM方法的优势在于:①继承了ELM的优点,在一定程度上避免了ELM学习不充分的问题;②将异类离散度和同类离散度引入到ELM中,充分利用数据样本的判别信息;③利用MMC[12]方法有效解决最大化异类离散度和最小化同类离散度矩阵奇异问题。
为评价和验证本文提出的基于判别信息极端学习机的高光谱遥感图像分类方法,实验使用Indian Pines,Salinas scene两个高光谱遥感图像数据,将本文所提出的方法与ELM、支持向量机(Support vector machine,SVM)、最近邻分类器协作表示(Collaborative representation nearest neighbor classifier,CRNN)[13]进行对比,实验结果表明本文提出的算法能够取得较好的分类效果。
实验环境为惠普工作站处理器:Intel(R)Xeon(R) CPU E5-1603 0 @2.80 GHz,安装内存:8.00GB ,系统类型:64位操作系统,版本:win7,语言开发环境采用 Matlab 2010b。
第一组实验数据为Indian Pines遥感图像数据,Indian Pines数据是AVIRIS传感器在萨利纳斯山谷收集的数据,该图像包含200个波段,图像大小为145×145,地表真实分类如图1所示,Indian Pines数据集属性设置如表1所示。
第二组实验数据为Salinas scene遥感图像数据,Salinas scene数据是AVIRIS传感器在萨利纳斯山谷收集的数据,该图像包含204个波段,图像大小为512×217,地表真实分类如图2所示, Salinas scene数据集属性设置如表2所示。
实验中,对于Indian Pines和Salinas scene图像数据,随机选取1%的数据样本作为训练集,剩下部分为测试集,使用总体精度(OA),Kappa系数,平均准确率(AA)衡量不同算法的性能。
(1)体精度。总体精度(overall accuracy,OA)是对分类结果质量的总体评价,等于被正确分类的像素总和除 以总的像素个数。被正确分类的像素沿着混淆矩阵的对角线分布,它显示了被正确分类到真实分类中的像元数。根据混淆矩阵可得OA的计算式为:p=∑ci=1miiN(21)其中,c表示类别数目,mii表示混淆矩阵对角线上的元素,N=∑ci=1∑cj=1mij表示测试样本的总数。
(2)Kappa系数。Kappa系数采用一种多元离散分析技术,反映分类结果与参考数据之间的吻合程度,它考虑了混淆矩阵的所有因子,是一种更为客观的评价指标,其定义为:k=N∑ci=1mii-∑ci=1(mi+m+i)N2-∑ci=1(mi+m+i)(22)其中,mi+,m+i分别表示混淆矩阵第i行的总和、第i列的总和,c表示类别数目,N为测试样本总数,mii表示混淆矩阵对角线上的元素,Kappa系数越大分类精度越高。
(3)平均精度。平均精度(average accuracy,AA)定义为每类分类准确率相加除以类别总数。AA=∑ci=1accic(23)其中,c表示类别数目,acci表示每类的分类准确率。
4.2实验结果及分析
将IELM与ELM,SVM,CRNN进行对比,SVM采用libsvm工具箱,核函数采用径向基核函数(Radial basis function,RBF),惩罚参数c=0.02,核函数参数g=0.02,IELM与ELM均采用Sigmoid函数作为激活函数,隐层节点个数设置为500,惩罚参数c=20。
5结语
本文提出了一种基于判别信息极端学习机的高光谱遥感图像分类方法,创新之外在于考虑到光谱遥感图像数据的联系和差异信息。IELM引入同类离散度和异类离散度的概念,体现了输入空间数据的判别信息,通过最大化异类离散度和最小化同类离散度,优化极端学习机的输出权值。与NN,SVM, ELM算法的对比实验表明,本文所提出方法的分类效果优于NN,SVM,ELM算法。
参考文献:
[1]Q SAMI UL HAQ,L TAO.Neural network based adaboosting approach for hyperspectral data classication[J].International Conference on Computer Science and Network Technology(ICCSNT),2011:241245.
[2]J A GUALTI,R F CROMP.Support vector machines for hyperspectral remote sensing classification[J].in Proc.SPIE 27th AIPR Workshop:put.Assisted Recognit.Int.Soc.Opt.Photonics,Washington,DC,USA,1999:221232.
[3]J Li,J BIOUCASDIAS,A.PLAZA.Semisupervised hyperspectral image classification using soft sparse multinomial logistic regression[J].IEEE Geosci.Remote Sens.Lett,2013,10(2):318322.
[4]W DI,MM CRAWFORD.Active learning via multiview and local proximity coregularization for hyperspectral image classification[J].IEEE Journal of Selected Topics in Signal Processing,2011,5(3):618628.
[5]J BIOUCASDIAS,M A T.FIGUEIREDO.Alternating direction algorithms for constrained sparse regression:application to hyperspectral unmixing[J].Hyperspectral Image and Signal Processing:Evolution in Remote Sensing (WHISPERS),2010:14.
[6]Y TARABALKA,J A BENEDIKTSSON,J CHANUSSOT.Spectralspatial classification of hyperspectral imagery based on partitional clustering techniques[J].IEEE Transactions on Geoscience and Remote Sensing,2009,47(8):29732987.
[7]GB HUANG,H ZHOU,X DING,et al.Extreme learning machine for regression and multiclass classification[J].IEEE Trans.Syst Man Cybern B,2012,42(2):51329.
[8]M PAL,A E MAXWELL,T A WARNER.Kernelbased extreme learning machine for remotesensing image classification[J].Remote Sens.Lett,2013,4(9):853862.
[9]D RUMELHART,G HINTON,R WILLIAMS.Learning by backpropagating errors[J].Nature,1986,323(6088):533536.
[10]Y BAZI.Differential evolution extreme learning machine for the classification of hyperspectral images[J].IEEE Geosci.Remote Sens.Lett,2014,11(6):10661070.
[11]A SAMAT,P DU,S LIU,et al.E2LMs:ensemble extreme learning machines for hyperspectral image classification[J].IEEE J.Sel.Topics Appl.Earth Observ.Remote Sens,2014,7(4):10601069.
[12]H LI,T JIANG,K ZHANG.Efficient robust feature extraction by maximum margin criterion[J].IEEE Transactions on Neural Networks ,2006,17(1):157165.
神经网络中偏置的作用范文6
作者简介:孙涵,博士生,讲师,主要研究方向为资源管理工程和能源系统模型。
基金项目:中国地质大学(武汉)优秀青年教师特色学科团队项目(编号:CUG090113);教育部人文社科青年项目(编号:10YJC790071)。
(中国地质大学经济管理学院, 湖北 武汉 430074)
摘要 为了取得可靠的能源需求预测,本文引入工业化、城市化等重要因素,利用支持向量回归机在时间序列预测中的优势,确定了输入向量集合和输出向量集合,建立基于支持向量回归机能源需求预测模型。将我国1985-2009年能源需求相关数据进行模拟与仿真,并对中国2010-2020年能源需求量进行预测,并模拟解释变量不同增长率下能源需求的演变并给出政策选择。研究结果表明,中国高速的经济增长以及工业化和城市化的发展对能源需求影响很大,到2020年能源需求将达到45.3亿t标准煤,而且经济增长速度越快对能源需求就越大。变量模拟得出的结论是产业结构也是能源需求重要影响因素之一,工业结构的调整,即便是微调,也会对能源需求有很大的抑制作用;中国城市化进程以及城市化发展阶段所表现出的工业化特征,推动了能源需求快速增长,城市化率越高对能源需求越大,且对能源需求是刚性的,城市化也是能源需求重要影响因素之一。
关键词 能源需求;城市化;工业化;支持向量回归机
中图分类号 F407.21;C913.3文献标识码 A文章编号 1002-2104(2011)07-0007-06doi:10.3969/j.issn.1002-2104.2011.07.002
能源是人类生存和发展的重要物质基础,也是国家经济命脉和国家安全的重要战略物资。未来能源基础能否支撑我国经济的可持续增长,成为国内外关注的十分重要的问题。因此,做好未来能源需求分析,搞好能源需求预测,为能源规划及政策的制订提供科学的依据,对于保持我国国民经济可持续发展具有重要的现实意义。
国内外许多能源机构或相关机构主要从经济学理论和工程技术理论这两个角度对影响能源需求的影响因素、能源需求预测以及预测方法做了大量的研究。这些具有代表性的预测方法:MARKAL(市场分配)模型、情景分析法、弹性系数法、静态或动态投入产出法、时间序列法等方法已被广泛应用于能源需求研究和预测[1-3]。在解释经济发展与能源消费之间长期均衡和短期波动关系方面,标准Granger因果检验、协整和误差修正模型(ECM)得到广泛运用[4-6]。但是迄今,在对能源需求研究和预测的文献中,主要有两点不足:第一,除了将经济水平作为最重要的解释变量,一些学者也试图纳入其它变量以增强模型的解释能力。但是,截止目前对能源需求的研究中,很少同时将工业化和城市化两个因素纳入进行定量的实证研究。发达国家的城市化和工业化已基本完成,能源需求处于相对稳定的缓慢增长或下降阶段,在模型中可以忽略这两个因素的影响。然而,当涉及到经济处于转型时期的发展中国家特别是中国时,这对研究结果的影响就尤其显著。目前,中国有着世界第一大规模的人口、第二大规模的经济,但区域之间发展极不平衡,这是基本国情;经济持续高速增长、城市化加快和其间的工业化特征,这是现在及今后相当一段时期内中国经济社会发展的最重要特点[7-8]。对中国能源需求的研究,必须考虑到上述基本国情和特殊经济社会发展阶段中的主要特征。第二,能源系统是一个的非线性系统,上述预测方法预测精度不高。能源消费和经济增长之间存在一种非线性的关系,一些学者得到了二者之间存在着类似环境库兹涅茨曲线的结论。由于传统的线性预测方法对数据样本没有学习过程,难以准确刻画能源系统中的非线性关系,导致预测精度较低[9]。尽管人工神经网络方法是公认的相对较好的方法,但我国能源需求的历史数据较少,在小样本情况下神经网络进行预测通常得不到充分的训练,使得性能不稳定,并且还存在推广(预测)能力不强等缺点[10-11]。而支持向量机[12-13]是一种专门研究有限样本情况下非参数估计问题的机器学习方法,它在解决小样本、非线性及高维模式识别问题中表现出许多特别的优势,受到学者的青睐,并已成功应用于时间序列预测[14],已经成为机器学习界的研究热点之一。
因此,本文将在前人研究的基础上做出两个主要改进:第一将城市化和工业化同时纳入模型中,分析中国经济增长和能源消费的长期关系;第二,运用支持向量回归机方法,建立能源消费和经济增长的非线性数据模型。基于上述模型,对中国2010-2020年能源需求量进行预测,模拟解释变量不同增长率下,未来能源需求的演化路径,并给出政策分析与建议。
1 能源需求预测模型的建立
支持向量机(Support Vector Machines, SVM)最早是由Cortes 和Vapnik[12-13]于1995年提出的一项新的数据挖掘技术,它借助于最优化方法,非常成功地处理回归问题(时间序列分析)和模式识别(分类问题)等诸多问题。
1.1 能源需求的回归支持向量机模型构建
能源系统是一个大而复杂的非线性系统,能源需求受经济、社会等诸多因素的影响,各因素相互渗透,相互作用。一般说来,能源需求影响因素与能源需求量的关系非常复杂,很难用一个具体的模型来描述。本文采用SVR来映射输入(能源需求影响因素)与输出(能源需求量) 之间的关系。具体说来:
在本文中,把能源需求量以及所确定的各影响因素指标的历时数据作为样本,构造一个多输入、单输出的支持向量回归机预测模型,如图1所示。
把影响能源需求变量[9-10]作为输入,把能源需求量作为输出,分别用(x1,x2,…,xd)和y来表示。本文用经济增长(GDP)、城市化(城市人口数量占总人口数量)和产业结构(第二产业占整个产业的比重)和人口总数四个变量来表示输入。
根据上述历年的数据看作时间序列{X(t),t1,2,…,n},则其预测模型可以描述为X(t)Φ[X(t-1),X(t-2)],…X(t-d)式中:Φ为非线性函数;d为输入向量维数。
在进行能源需求预测时,利用支持向量回归机(SVR)进行回归与预测的基本思想[12-13],就是将输入的影响因素x1,x2,…,xd,映射到一个高维特征空间,并在此空间进行线性回归,从而将特征空间的非线性回归问题转化为高维特征空间线性回归问题,所以它对于一些复杂的或非线性的问题非常有效。由统计学习理论[10-11]可确定回归函数如下:
f(X)(w,φ(X))+b(1)
其中,φ∶RnF,w∈F。(,)表示内积,φ为Rn空间到F空间的非线性映射,X∈Rn,w为权重,w∈F,b为偏置。
SVR解决回归问题是使结构风险最小化,而不是传统回归方法使经验最小化,这使得预测模型具有很好的函数逼近能力和泛化能力。式(1)中φ已知,利用样本数据(Xi,Yi)进行训练使式(2)泛函数最小化,可求出试(1)中w和b估计值。
Remp[f]∑Si1C(ei)+λω2(2)
其中,式(2)中Remp[f]为经验风险,ω2为置信风险。C(ei)为模型的经验损失,eif(Xi)-YiY^-Yi ,Y^和Yi分别表示样本的预测值和真是值,ei为误差,S为样本容量。
由于φ是固定的,ω2反映了模型在高维特征空间的复杂性,其值越小则置信风险越小。λ是用于控制样本训练损失与模型复杂性折中的正则化参数。
求解式(2)等价于求解如下式(3)优化问题
minLwTw+C∑Si1(ε*i+εi)(3)
s.t.y-(w,φ(Xt))-bε+ε*i
(w,φ(Xt)+b-y)ε+εi
ε*i,εi0
其中c1/λ,其他符号跟上述公式符号相同。为了便于求解,往往把上述式(3)转化为对偶问题,并求解。
那么可得到:w∑Si1(αi-α*i)φ(Xi),则可得非线性函数f(x):
f(x)∑li1(αi-α*i)K(Xt,X)+b(4)
b是偏置,可由任一支持向量机代入求得;K(Xt,X)是内积函数。本文选择径向基核函数[9,15]:
K(Xt,X)exp(-)(5)
将式(5)代入式(4)中,经过等价交换可得到下式(6)
f(x)∑li1ajexp-+b(6)
式(6)中:xj是训练年份输入数据向量;xv是预测年份的输入数据向量;f(x)为输出向量集合。式(6)经过运算会得到能源需求预测的参数αj和b,从而得到预测模型。
1.2 方法的检验与验证
首先将把1985-2005年(训练样本)能源需求变量数据,作为SVR的输入,相应的中国能源消耗量作为输出,进行模拟与仿真。其次,运用训练好的模型对中国2006-2008年能源需求量进行预测(检测样本),最后根据预测的结果与实际值进行比较,以验证方法的有效性和可行性。在进行训练与预测时,需要确定SVR正规化参数C和RBF核函数参数σ2。本文将最终的预测结果所产生的误差作评价标准,根据验证集上的性能表现,来确定合适的取值。本文经过反复试验,最后确定当C80,σ275时,预测2006-2009年能源需求量分别为24.727、27.305、29.214和29.159亿t标准煤,与实际能源消耗相比误差分别为0.41%、2.81%、2.5%和4.89%。为了验证其方法的可行性,将预测结果与真实值和BP神经网络预测值进行比较,如表1所示。由此可见,该方法预测的误差范围都很小,较BP神经网络方法好,其结果理想。因此,可以说本文选取的影响因素和所建立的模型具有一定的可行性和可靠性。上述模型的建立、编程及预测等工作均在Matlab8.0软件上编写实现的。
2 能源长期需求预测分析
2.1 数据来源
由于对能源需求做预测时,首要的工作是数据的收集与整理,特别是口径统一的一致性分析等。因此,本文所涉及到的数据是根据2000年和2009年《中国统计年鉴》中相关数据直接引用或间接计算而得,由于篇幅原因,数据略。从而保证了数据的可靠和口径的统一。又由于改革开放之前我国是一个封闭型的经济,这与1978年之后我国经济体制和运行环境都有较大区别,再根据数据的可
表1 能源需求预测结果
Tab.1 Energy demand forecast result
获性,本文只考察了中国1985-2009年的能源需求数据。
2.2 数据预处理
已确定的输入和输出数据共包含5个方面的内容。由于指标的量纲不同,数据在数量上差异性很大,如果直接用原始数据进行运算,则很可能出现较大范围的变化,使预测结果准确性降低。因此,需要对各指标的数据进行归一化处理,通过式(7),可以把全部数据都归一化到[0,1]之间。
x(7)
2.3 情形分析
由于预测是基于历史数据的,而未来能源影响因素如城市化、产业结构以及中国经济增长存在各种不确定性都会对预测的结果产生影响。因此,需要在不同影响情况下,对能源需求进行模拟分析。
为了更加全面地分析经济增长对用能源需求的影响,本文在GDP增长率为8%的基础上上下浮动0.5个百分点。尽管GDP 增长率低可以降低能源需求,但是保持经济高速增长(约8%) 是中国社会发展和劳动就业的保障[4],因此它不该纳入我们的政策模拟分析中。相反,其它变量都是政府部门能够通过产业政策、加以影响的,因此在一定程度上都能成为抑制能源需求的政策工具。
产业结构的变化根据国家发展和改革委员会能源研究所研究结果[12],第二产业结构的增长率为8.27%。2009年全国城市化率约46.69%,距离中等收入国家61%、高收入国家78%的平均水平相去甚远。以2009年为基础,2020年要达到60%的城市化率[5]。可计算各年的城市化速度接近2.2%。2009年中国人口13.35亿,2020年达到14.5亿,可计算各年的人口增长速度接近6.4‰。我们在目标假设的基础上,逐个改变GDP 以外变量的变动幅度,其中第二产业在原来增长率的基础上上下浮动0.5个百分点(其它产业增长率不变化),城市化的增长率上下浮动0.4个百分点。由于人口增长缓慢,因此本文不对人口总数可能变化做分析。综上所述,本文把目标趋势假设:8%GDP 增长率;8.27%第二产业结构变量增长率;2.2%城市化增长率为基本情况,为2009年为基准,模拟在不同的路径下,中国2010-2020年能源需求量,其结果如表2所示。
2.4 预测结果分析
第一,对经济增长速度的模拟结果表明,在目标趋势假设下,能源消费量自2010年的31.553亿t,然后逐年增长,直到2020年为45.3亿t。由于经济的增长对能源的需求有较大影响,于是本文对不同GDP 增长率的进行模拟,其结果表明,7.5%GDP增长率使得中国在2010年的能源需求预测值为31.471亿t,到2020年则到45.055亿t;8.5%GDP增长率使得中国在2010年的能源需求预测值为31.631亿t,到2020年则到达45.381亿t。说明中国在2010-2020年中,依然要消耗大量的能源,经济增长仍然是一个重要的影响因素,经济增长的大能源需求也越大。而这也说明正处在工业化中期的中国,未来能源消费量与经济发展水平有较强的正相关性。这也与许多经济学家研究的结论是一致的。
第二,对产业结构调整的模拟结果表明:-0.5%的下调(减少第二产业比例) 使得能源2010年的能源需求为31.484亿t,比目标预测值少0.069亿t,到2020年能源仍需求45.249亿t,比目标预测值少0.051亿t;+0.5 %的上调(增加第二产业比例) 使得能源2010年的需求为31.621亿t,比目标预测值多0.068亿t,到2020年能源仍需求45.349亿t,比目标预测值多0.049亿t。由此可见,不同的产业结构会改变能源消耗倒U型曲线需求量的高度,由于短期内重工业结构是很难大幅度进行调整的,只能进行微调[11],但是从模拟结果我们仍然可以看出,即使微调对未来能源需求也有很大的抑制作用,可以说产业结构对能源需求影响大。由此可见,产业结构也是中国未来能源需求增加的重要因素之一。
第三,对城市化调整的模拟结果表明:-0.4%的下调使得能源2010年的需求为31.515亿t,比目标预测值少0.038亿t,到2020年能源仍需求45.158亿t,比目标预测值少0.142亿t;+0.4%的上调使得能源2010年的需求为31.591亿t,比目标预测值多0.038亿t,到2020年不同的城市化的变化率,能源需求都为45.393亿t,比目标预测值多0.093亿t。由此可见,不同的城市化会改变能源消耗倒U型曲线需求的高度,且城市化对未来能源需求的影响呈现一种不断加大的趋势,即城市化程度越高,对能源消耗越多,对未来能源的影响也越大(见表2)。可以说,城市化也是中国未来能源需求增加的主要因素之一。
通过以上分析,我们发现2010-2020年,城市化、工业化和经济增长一样成为影响未来能源需求的主要因素。中国的能源动态表明,2010年到2020年间,中国能源年消费总量还会不断增长,说明与能源密切相关的高耗能产业在快速增长,表明了工业化和城市化进程在加速。主要是因为:中国的城市化、工业化仍未完成以及中国政府对经济的驾驭能力,即使保守估计,中国经济还可以再快速增长30年[3]。正处在工业化中期,进入重工业化阶段的中国,高耗能产业快速增长,未来现代化目标必须完成工业化。工业化的资源路线决定了必然消耗大量的能源,这是一条无法跳脱的基本规律。而随着城市化进程推动,农村人口的快速城市化过程必然带来能源消费量的相应增长。2009年全国城市化率为46.69%,要想接近或达到距离中等收入国家61%的水平时,到2020年,中国大约有2.4亿人口将迁移进城市居住和工作(相当于目前美国2008年人口的75.66%)。保守地估计,中国城市人口能源消费是农村人口3.5到4倍[8]。2.4亿农村移民的能源消费将是一个庞大的数字。大规模城市基础设施和住房建设,需要大量水泥和钢铁,这些都只能在国内生产,因为世界上没有哪一个国家能为中国生产这么多的钢材和水泥。因此,高耗能产业对能源的需求也是刚性的。可以说,中国城市化进程以及城市化发展阶段所表现出的工业化特征,推动了能源需求快速增长。
3 结 论
基于SVR的方法,我们预测了至2020年中国能源的长期需求,2020年的能源消费量将达45.3亿t,比其它预测要稍高一些。说明在现有的能源消费结构下,保持高速经济增长速度和现有第二产业结构比例,能源需求很大。对不同GDP 增长率的模拟结果表明,7.5 %的GDP 增长率使得中国在2020年的能源需求预测值为45.055亿t;8.5%的GDP增长率为45.381亿t;而不同的经济增长速度对能源需求是不同的,经济增长越高能源消耗也越大。因此可以说,在此演义的路径下,经济增长速度是能源政策的一个重要影响变量。由于高速的经济增长(8%)是中国社会发展和劳动就业的保障,不该纳入我们的政策模拟分析中。但是,这对我国能源战略规划具有重要的参考价值。因而,经济增长速度是能源政策的一个重要变量。
工业化对中国2010-2020年能源需求都有显著的影响。这个因素可以改变倒U型曲线的形状和能源消费量的高度。也就是说,在不同经济增长方式和能源环境政策下,未来能源消费的“环境库兹涅茨”曲线高度。这意味着,通过制定和执行积极的能源政策,有可能使“环境库兹涅茨”曲线降低,或在曲线上找到一条近似水平的通道,甚至让能源需求峰值提前到来。例如调整产业结构来抑制高耗能产业的发展。工业结构的调整,尽管短期内重工业结构很难大幅度进行调整,但是我们可以进行微调,也会对能源需求有很大的抑制作用。因此,从中长期看,第一,中国必须加速改变全球化贸易分工的低端高耗能产业结构,从能源密集型的制造业向高技术、服务业的转型,特别是要警惕一味追求GDP的地方政府对落后产业的过分保护。第二,加强全民的环保节能意识。比如,建筑物的节能,中国的老百姓还很少考虑。这样通过这种方法减少中国经济对能源过度依赖,是有效的政策取向。
城市化也是对中国2010-2020年能源需求的主要影响之一。在城市化推进的过程中,中国的能源消费将发生巨大变化,即使技术进步有可能提高能源使用效率,但为满足经济增长和社会现代化的需要,中国能源消费总量仍将经历一段刚性的高增长阶段。从总体来看,城市化将是一个比较长的历程。各国社会条件不同,经历的时间会有所不同,但这一过程是每个发达和中等收入国家都经历过的。如果没有出现大的灾难性问题,中国城市化进程到2020年左右才能完成。需要并且真正理解这一阶段的能源消费增长和能源消费刚性问题,是制定有效的能源战略和政策的必要前前提。但长期来看,中国城市化水平的提高有利于提高能源的利用效率,所以,用推进城市化来调整和优化产业结构,是我国资源节约型社会建设的一项重要内容,这必将进一步提高能源效率,从而降低经济社会发展对能源的依赖程度。
参考文献(References)
[1]王安建,王高尚.能源与国家经济发展[M].北京:地质出版社,2008.[ Wang Anjian, Wang Gaoshang. Energy and State Economy Development[M].Beijing: Geology Press,2008.]
[2]Capros P, Mantzos L. The European Energy Outlook to 2010 and 2030[J]. International Journal of Global Energy Issues, 2000,14(1-4): 137-154.
[3]梁巧梅,魏一鸣,范英.中国能源需求和能源强度预测的情景分析模型及其应用[J].管理学报,2004,1(1):62-67.[Liang Qiaomei, Wei Yiming, Fan Ying. A Model for Scenario Analysis of China’s Energy Requirement and Energy Intensity and Its Applications[J].Chinese Journal of Management, 2004,1(1):62-67.]
[4]Bentzen J, Engsted T. Short and Long Run Elasticities in Energy Demand: A Cointegration Approach [J].Energy Economics,1993,15:9-16.
[5]何晓萍,刘希颖,林艳苹.中国城市化进程中的电力需求预测[J].经济研究,2009, (1): 118-130.[ He Xiaoping,Liu Xiying and Lin Yanping. China's Electricity Demand Forecast under Urbanization Process[J].Economic Research Journal,2009,(1):118-130.]
[6]林伯强,魏巍贤,李丕东.中国长期煤炭需求:影响与政策选择[J].经济研究, 2007, (2): 48-58 [Lin Boqiang,Wei Weixian, Li Pidong. China's Long-run Coal Demand: Impacts and Policy Choice[J].Economic Research Journal,2007,(2):48-58.]
[7]林伯强.中国重化工业之行的能源和环境约束[N/OL].2005,5.省略 / html/ 2005-10-18/17393.htm. [ Lin Boqiang. The Heavy Chemical Industry in China's Energy and Environmental Constraints[N/OL]. 省略/html/2005-10-18/17393.]
[8]林伯强.城市化是能源可持续问题的关键[N/OL].21世纪经济报道,2008,5.省略/.[Lin Boqiang. Urbanization is the key to Energy Sustainable Issues[N/OL].21ST century Business Herald,2008,5. 省略/.]
[9]胡雪棉,赵国浩.基于Matlab的BP神经网络煤炭需求预测模型[J].中国管理科学, 2008,10(16):521-525. [Hu Xuemian, Zhao Guohao. Forecasting Model of Coal Demand Based on Matlab BP Neural Network[J].Chinese Journal of Management Science,2008, 10(16):521-525.]
[10]Lawrence S, Giles C L, Tsoi A C. Lessons in Neural Network Training: Overfitting May Be Harder Than Expected [C]. Proceedings of the Fourteenth National Conference on Artificial Intelligence[M]. Mento Park,CA: AAAl Press,1997: 540 -545.
[11]Moody J E. The Effective Number of Parameters: An Analysis of Generalization and Regularization in Nonlinear Learning Systems[J].NIPS, 1992,4:847-854.
[12]Vapnik V N. The Nature of Statistical Learning Theory[M].Springer,1995.
[13]邓乃扬,田英杰.数据挖掘中的新方法―支持向量机[M].北京:科学出版社,2004.[Deng Naiyang, Tian Yingjie. A New Method of Data Mining: Support Vector Machine[M].Beijing: China Science Press,2004.]
[14]Theodore B, Trafalis H I. Support Vector Machine for Regression and Applications to Financial Forecasting [C]. IEEE-INNS-ENNS International Joint Conference on Neural Networks, 2000:348-353.
[15]吴巧生,成金华,王华.中国工业化进程中的能源消费变动――基于计量模型的实证分析[J].中国工业经济,2005,(4):30-371.[Wu Qiaosheng, Cheng Jinhua, Wang Hua. Change of Energy Consumption with the Process of Industrialization in China[J]. China Industrial Economy, 2005,(4):30-371.]
[16]郭菊娥,柴建,吕振东.我国能源消费需求影响因素及其影响机理分析[J].管理学报, 2008,9(5):651-654.[ Guo Ju'e, Chai Jian, Lu Zhendong. Application of Path analysis and PLSR to Forecast the Energy Resource Demand in China[J].Chinese Journal of Management, 2008,9(5): 651-654.]
[17]国家发展和改革委员会能源研究所课题组.中国2050年低碳发展之路:能源需求暨碳排放情景分析[M].北京:科学出版社,2009.[State Development and Reform Commission Energy Research Institute Topic-based Group. China's Low Carbon Development Pathways by 2050: Scenario Analysis of Energy Demand and Carbon Emissions[M]. Beijing: Science Press, 2009.]
[18]魏一鸣,范英,韩智勇,等.中国能源需求报告(2006):战略与政策研究[M].北京:科学出版社,2006.[Wei Yiming, Fan ying, Han Zhiyong,et al. China Energy Report(2006): Strategy and Policy Research [M]. Beijing: Science Press,2006.]
[19]Sazimy C. Use of Artificial Neural Networks for Transport Energy Demand Modeling[J]. Energy Policy, 2006,34(17):3165-3172.
[20]Judson R A, Schmalensee R, Stoker T M. Economic Development and the Structure of the Demand for Commercial Energy[J]. Energy Journal,1999, 20(2):29-57.
China Energy Demand Forecast and Analysis in the Process of
Industrialization and Urbanization
SUN Han CHENG Jin-hua
(School of Economics and Management, Chinese University of Geosciences,Wuhan Hubei 430074,China)