神经网络过拟合的表现范例6篇

前言:中文期刊网精心挑选了神经网络过拟合的表现范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。

神经网络过拟合的表现

神经网络过拟合的表现范文1

关键词经济活动预测模型人工神经网络

经济活动诸如商品价格走势、生产活动的产量预测、加工的投入产出分析、工厂的成本控制等方面都是重要的技术经济层面。定量化的经济活动分析是经济学研究的必由之路,而建模是量化分析的基础,这是因为模型为科学分析和质量、成本等控制提供了理论依据。本文针对经济活动中大多数研究对象都具有的非线性特点,给出了用人工神经网络(ArtificialNerveNetwork)模型建立经济活动的预测模型的原理和方法,并描述了神经网络与各种先进的建模方法相结合的模型化方法,为经济活动的分析、预测与控制提供了理论基础。

1神经网络模型方法

现实的经济系统是一个极其复杂的非线性系统,客观上要求建立非线性模型。传统上使用回归与自回归模型刻画的都是线性关系,难于精确反映因变量的变化规律,也终将影响模型的拟合及预报效果。为揭示隐含于历史记录中的复杂非线性关系必须借助更先进的方法———人工神经网络(ANN)方法。

人工神经网络具有并行处理、自适应、自组织、联想记忆及源于神经元激活函数的压扁特性的容错和鲁棒性等特点。数学上已经证明,神经网络可以逼近所有函数,这意味着神经网络能逼近那些刻画了样本数据规律的函数,且所考虑的系统表现的函数形式越复杂,神经网络这种特性的作用就越明显。

在各类神经网络模型中,BP(Back-Propagation误差后向传播)神经网络模型是最常用的也是最成熟的模型之一。本质上,BP模型是对样本集进行建模,即建立对应关系RmRn,xk∈Rm,ykRn。数学上,就是一个通过函数逼近拟合曲线/曲面的方法,并将之转化为一个非线性优化问题来求解。

对BP神经网络模型,一般选用三层非循环网络。假设每层有N个处理单元,通常选取连续可微的非线性作用函数如Sigmoid函数f(x)=1/(1+e-x),训练集包括M个样本模式{(xk,yk)}。对第P个训练样本(P=1,2,…,M),单元j的输入总和记为apj,输出记为Opj,则:

apj=WQ

Opj=f(apj)=1/(1+e-apj)(1)

对每个输入模式P,网络输出与期望输出(dpj)间误差为:

E=Ep=((dpj-Opj)2)(2)

取BP网络的权值修正式:

Wji(t+1)=Wji(t)+?浊?啄pj+?琢(Wji(t)-Wji(t-1))(3)

其中,对应输出单元?啄pj=f’,(apj)(dpj-Opj);对应输入单元?啄pj=f’,(apj)?啄pkWkj;

?浊是为加快网络收敛速度而取值足够大又不致产生振荡的常数;?琢为一常数项,称为趋势因子,它决定上一次学习权值对本次权值的影响。

BP学习算法的步骤:初始化网络及学习参数;提供训练模式并训练网络直到满足学习要求;前向传播过程,对给定训练模式输入,计算网络的输出模式,并与期望比较,如有误差,则执行下一步,否则返回第二步;后向传播过程,计算同一层单元的误差?啄pj,按权值公式(3)修正权值;返回权值计算公式(3)。BP网络的学习一般均需多周期迭代,直至网络输出与期望输出间总体的均方根误差ERMS达到一定要求方结束。

实践中,BP网络可能遇到如下问题:局部极小点问题;迭代收敛性及收敛速度引起低效率问题。此外还有,模型的逼近性质差;模型的学习误差大,记忆能力不强;与线性时序模型一样,模型网络结构及节点作用函数不易确定;难以解决应用问题的实例规模与网络规模之间的矛盾等。为克服这样的一些问题,同时为了更好地面向实际问题的特殊性,出现了各种基于神经网络模型或与之结合的模型创新方法。

2灰色神经网络模型

灰色预测和神经网络一样是近年来用于非线性时间序列预测的引人注目的方法,两种方法在建模时都不需计算统计特征,且理论上可以适用于任何非线性时间序列的建模。灰色预测由于其模型特点,更合用于经济活动中具有指数增长趋势的问题,而对于其他变化趋势,则可能拟合灰度较大,导致精度难于提高。

对于既有随时间推移的增长趋势,又有同一季节的相似波动性趋势,且增长趋势和波动性趋势都呈现为一种复杂的非线性函数特性的一类现实问题,根据人工神经网络具有较好的描述复杂非线性函数能力特点,用其对季节性建模;最后根据最优组合预测理论,建立了兼有GM(1,1)和ANN优点的最优组合预测模型。该模型能够同时反映季节性时间序列的增长趋势性和同季波动性的双重特性,适用于一般具有季节性特点的经济预测。

首先,建立GM(1,1)模型,设时间序列x(0)=(x(0)(1),x(0)(2),?撰,x(0)(n)),作一阶累加生成:

x(1)=(x(1)(1),x(1)(2),?撰,x(1)(n))(4)

其中x(1)(k)=(x(0)(i),k=1,2,?撰,n

构造一阶线性灰色微分方程并得到该方程的白化微分方程:

+ax=u

用最小二乘法求解参数a,u,得到x(1)的灰色预测模型:

(1)(k+1)=(X(0)(1)-u/a)e-ak+u/a,(k=0,1,2,?撰)(5)

其次,根据上节方法建立BP人工神经网络模型。

第三,将两模型优化组合。设f1是灰色预测值,f2是神经网络预测值,fc是最优组合预测值,预测误差分别为:e1,e2,ec,取w1和w2是相应的权系数,且w1+w2=1,有fc=w1f1+w2f2,则误差及方差分别为ec=w1e1+w2e2,Var(ec)=w21Var(e1)+w22Var(e2)+2w1w2cov(e1,e2)

对方差公式求关于w1的极小值,并取cov(e1,e2)=0,即可得到组合预测权系数的值。

2基于粗糙集理论的神经网络模型

粗糙集理论与模糊集理论一样是研究系统中知识不完全和不确定问题的方法。模糊集理论在利用隶属函数表达不确定性时,为定义一个合适的隶属函数,需要人工干预,因而有主观性。而粗糙集理论由粗糙度表示知识的不完全程度,是通过表达知识不精确性的概念计算得到的,是客观的,并不需要先验知识。粗糙集通过定义信息熵并进而规定重要性判据以判断某属性的必要性、重要性或冗余性。

一般来说,BP神经网络模型对模型输入变量的选择和网络结构确定等都基本凭经验或通过反复试验确定,这种方法的盲目性会导致模型质量变差。用粗糙集理论指导,先对各种影响预测的因素变量进行识别,以此确定预测模型的输入变量;再通过属性约简和属性值约简获得推理规则集;然后以这些推理规则构造神经网络预测模型,并采用加动量项的BP的学习算法对网络进行优化。有效改善了模型特性,提高了模型质量。其建模步骤为:由历史数据及其相关信息历史数据构造决策表;初始化;对决策表的决策属性变量按划分值域为n个区域的方式离散化;采用基于断点重要性的粗糙集离散化算法选择条件属性变量和断点(分点),同时计算决策表相容度,当决策表相容度为1或不再增加时,则选择条件属性变量和分点过程结束;由选择的条件属性变量及其样本离散化值构造新的决策表,并对其约简,得到推理规则集;由推理规则集建立神经网络模型;对神经网络进行训练;若神经网络拟合误差满足要求,则结束,否则,增加n。必须指出,区间分划n太小,会使得拟合不够,n太大,即输出空间分得太细,会导致过多的区域对应,使网络结构过于复杂,影响泛化(预测)能力。

3小波神经网络模型

人工神经网络模型存在的网络结构及节点函数不易确定问题,结合小波分析优良的数据拟合能力和神经网络的自学习、自适应特性建模,即用非线性小波基取代通常的非线性S型函数。

设非线性时间序列变化函数f(t)∈L2(R),定义其小波变换为:

Wf(a,b)==f(t)?渍()dt(6)

式中,?渍ab(t)称为由母小波?渍t(定义为满足一定条件的平方可积函数?渍(t)∈L2(R)如Haar小波、Morlet小波、样条小波等)生成的依赖于参数a、b的连续小波,也称小波基。参数a的变化不仅改变小波基的频谱结构,还改变其窗口的大小和形状。对于函数f(t),其局部结构的分辩可以通过调节参数a、b,即调节小波基窗口的大小和位置来实现。

用小波级数的有限项来逼近时序函数,即:

(t)=wk?渍()(7)

式中(t),为时间序列y(t)的预测值序列;wk,bk,ak分别为权重系数,小波基的平移因子和伸缩因子;L为小波基的个数。参数wk,bk,ak采用最小均方误差能量函数优化得到,L通过试算得到。

4模糊神经网络模型

模糊集合和模糊逻辑以人脑处理不精确信息的方法为基础,而人工神经网络是以大量简单神经元的排列模拟人脑的生理结构。二者的融合既具有神经网络强大的计算能力、容错性和学习能力,又有对于不确定、不精确信息的处理能力,即同时具有底层的数据处理、学习能力和高层的推理、思考能力。

一种应用模糊理论的方法是把模糊聚类用来确定模糊系统的最优规则数,从而确定模糊神经网络的结构。这样确定的网络结构成为四层:第一层为直接输入层;第二层为模糊化层,对输入做模糊化处理;第三层为模糊推理层,对前层模糊结果做模糊推理;第四层为非模糊化层,可以采用重心非模糊化法,产生网络输出。该网络采用动态处理法,增强了其处理能力,且适用性强、精度高。

5结语

除上述几种结合式神经网络方法之外,人工神经网络模型在算法设计方面一直在取得巨大的进步。神经网络模型方法是一种先进的具有智能的非线性建模方法,其在自然科学、经济现象、社会活动等方面的应用正在不断深化,把神经网络方法引入经济活动的分析和预测中,并紧密联系诸多先进的建模方法,是使工业经济、商业经济及其对经济本质规律的研究等各项工作推向前进的重要理论武器。

参考文献

神经网络过拟合的表现范文2

关键词:差分进化;粒子群;高斯变异;OIF-Elman;系统辨识

DOI:10.16640/ki.37-1222/t.2017.05.119

1 概述

神经网络因具有强大的并行处理能力、自组织和自学习能力、非线性映射能力,在系统辨识领域受到了广泛的重视[1]。采用神经网络对系统进行辨识时,无需知道系统的具体结构,通过对相关数据进行训练可以得到辨识模型的网络结构,使得辨识更加简便易行,且可用于闭环辨识。在工程实际中,辨识对象大多为动态系统,且具有较强的非线性,一般的静态前馈神经网络虽然可以采用增加外部迟延的方法辨识动态系统,但会使网络结构复杂化,导致收敛速度变慢。具有内部反馈结构的递归神经网络,因自身具有反馈结构,网络本身便是一个非线性动态系统,成为辨识动态系统的有效方法之一[2]。本文在OIF-Elman[3]递归网络模型的基础上,结合改进的粒子群算法对其进行优化,并用于加热炉换热器对象的辨识,辨识的结果证实了该方法的可行性和优越性。

2 OIF-ELman神经网络

2.1 OIF-Elman网络结构

基本的Elman神经网络在BP神经网络基础上加入了局部反馈链接和局部递归单元,具有了动态系统的结构。OIF-Elman网络在Elman网络的基础上增加了输出层节点的反馈,强化了对动态系统的拟合能力,被称为具有输出-输入反馈机制的改进Elman网络[4]。其结构图如图1所示,网络的两个关联层的表达式分别为[5]:

2.2 OIF-Elman网络动态系统仿真

分别采用Elman网络及OIF-Elman网络对二阶动态系统:,输入信号为,取样本个数为50。学习算法均采用误差反向传播(BP)学习算法并比较两种网络的拟合精度,如图2所示。图2(a)榱街滞络的训练误差曲线,图2(b)为两种网络输出对应每一个样本的误差,可见OIF-Elman网络相比于Elman网络误差更小,精度更高,在动态系统辨识上更加有效。

3 混合粒子群优化算法

由于传统的BP学习算法收敛速度慢易陷入局部最优等缺陷,本文提出一种改进的混合粒子群优化算法作为OIF-Elman神经网络的学习算法。改进的算法在标准粒子群算法模型的基础上,融入了高斯变异以及差分进化算法的交叉变异机制,并将本文算法与典型的三种差分进化粒子群算法(DEPSO)在不同目标函数上进行仿真对比。

3.1 算法思想

算法保留了粒子群模型的速度向量,采用常用的一种差分变异策略,增加粒子的多样性,保证全局搜索能力,但由于目标向量是速度向量,故在此基础上将基向量改为,并加入基于群体最优的差分向量,加速种群收敛速度,加强了对群体最优附近区域的挖掘能力[6]。文献[11]中采用了对于最优向量中某一维分量变异的策略得到了很好的效果,在本文算法的高斯变异操作中,只对速度向量的某一维分量进行变异。另外为了进一步加强算法在群体最优附近的挖掘能力,引入高斯变异在最优位置附近进行搜索。有研究指出,全局最优解易出现在粒子群的群体最优位置与个体最优之间[7],受此启发,本文算法中取群体历史最优位置和历史次优位置之间的区域进行高斯变异。这么选择首先使高斯变异的范围根据搜索进程进行变化,搜索前期范围较大,搜索后期范围会缩小。其次是因为在算法收敛后期问题的解多在群体最优位置附近,当粒子位置(由于算法的选择操作,粒子个体最优即是粒子当前位置)未越过最优解时,算法会使粒子向最优解移动并记录上次最优位置,当粒子由于速度惯性越过最优解时,问题的解便在历史最优位置和历史次优位置之间,所以说这个范围是最具价值的搜索空间。实验证明这种方式对于单峰及多峰函数起到了局部挖掘,促进收敛的作用。

根据上述原理,本文算法步骤如下:

(1)初始化。初始化种群个数,迭代次数,以及所有粒子的位置和速度。

(2)计算每个粒子的适应度值,初始化种群个体历史最优和群体最优。

(3)判断是否达到结束条件,如是则输出当前全局最优值,否则执行下面步骤。

(4)对粒子速度向量中随机选择的一维,按照下面公式进行变异。更新粒子位置后采用差分进化算法的选择机制,与之前粒子位置的适应度值进行比较,若当前粒子比之前粒子的适应度值更优,则用当前粒子进行替换,否则保留前一代粒子到下一代。

(5)记录粒子群的历史最优及历史次优,采用下式进行高斯变异,在历史最优与历史次优之间进行挖掘,寻找更优的粒子对当前最优粒子进行替换,并更新次优粒子位置。

(6)返回步骤(3)。

3.2 数值仿真

将本文提出的算法与标准粒子群算法(PSO)、差分进化算法(DE)以及三种典型的差分进化与粒子群的结合算法[8](本文将其称为:I辅助式[9]、II集成式[10]和III协作式[11])进行对比,选用Ackley多峰函数、Griewank函数、Rastrigin函数、Rosenbrock函数四种测试函数作为算法的目标函数,仿真结果如图3及表1所示。

由图3可知,本文改进算法在Rastrigin多峰函数优化上的优势显著,PSO算法和DE算法以及类型II均陷入了局部最优,类型I和类型III的改进算法依然继续搜索趋势,但与本文所提算法相比速度极慢。在其他函数如Rosenbrock函数仿真结果上,相比于其他算法,本文改进算法达到更高精度,表现出在此单峰问题求解中的优势。

4 对加热炉-对流换热系统辨识

4.1 加热炉换热器控制系统的组成

将本文的辨识方法应用到加热炉换热器双入双出耦合对象,控制系统的方框图如图4所示。其输出为内胆温度T1和换热器冷却水出口温度T2,入为控制器1和控制器2的输出信号即加热器与变频器的开度信号U1和U2。故设计神经网络辨识模型的输出为T1和T2,输入为U1和U2。

训练样本以5秒的采样间隔取控制回路闭合时加入换热器冷却水出口温度设定值后500秒内的100组控制器的输出以及温度数据,所有试验数据做归一化处理,训练次数为300次。

4.2 仿真对比及结果分析

将本文方法与采用BP学习的OIF-Elman网络及采用上述类型III优化算法的OIF-Elman网络进行对比,如图5所示。经过训练,三种网络模型均收敛到了一定的精度,本文提出的网络模型相比于BP算法OIF-Elman网络及类型III-OIFElman网络以较少的训练次数收敛到了较高精度。表2为三种模型的辨识误差,同时也加入了标准Elman神经网络的辨识误差作为对比,可以看出采用本文算法的OIF-Elman网络的辨识精度更高。

图6为三种网络模型对训练样本输出信号的拟合曲线,更加直观地展现出网络模型的辨识效果,由图可见,同样是采用本文算法的OIF-Elman网络模型相比其他两种模型对于样本的拟合效果更好。

5 结束语

加热炉换热器对象是一个多入多出的动态过程,采用OIFElman这种递归型神经网络对加热炉换热器对象闭环调节过程的实验数据进行了辨识,得到具有一定精度的神经网络模型。采用BP算法,网络的隐层节点较多,收敛速度慢,且精度不高。采用粒子群等智能算法优化神经网络权值、阈值、关联系数、关联层初始值,较之BP算法,智能优化算法表现出了较快的收敛速度与精度,省却了人为给定关联系数及关联层初值这一步骤,同时表现出了较强的搜索能力,简化神经网络的复杂性,得出了在同样规模的神经网络结构下BP算法无法搜索到的解。本文提出的混合算法较之多种改进的差分进化粒子群算法在仿真结果上表现出较好的搜索能力,并应用到神经网络对象辨识中,针对加热炉换热器对象得到了一种结构简单,精度更高的神经网络模型。

参考文献:

[1]茹菲,李铁鹰.人工神经网络系统辨识综述[J].软件导刊, 2011,10(03):134-135.

[2]章国升.基于递归神经网络的非线性系统辨识研究[D].兰州: 兰州大学,2010.

[3]时小虎,梁艳春,徐旭.改进的Elman模型与递归反传控制神经网络[J].软件学报,2003,14(06):82-91.

[4]王琛.超超临界机组非线性动态模型的研究[D].北京:华北电力大学(北京),2010.

[5]姚柳.超超临界机组的建模与仿真[D].北京:华北电力大学(北京),2011.

[6]宋锦,师玉娇,高浩等.基于新型变异策略的差分进化算法[J].计算机工程与设计,2016,37(05):1285-1290.

[7]Gao H,Xu W. Particle Swarm Algorithm with Hybrid Mutation Strategy[J]. Applied Soft Computing, 2011, 11(8): 5129-5142.

[8]辛斌,陈杰.粒子群优化与差分进化混合算法的综述与分类[J]. 系统科学与数学,2011,31(9):1130-1150.

[9]Zhang W,Xie X.Depso:Hybrid Particle Swarm with Differential Evolution Operator[C]//Proceedings of the Ieee International Conference on Systems,man,and Cybernetics, [S.l.]:[s.n.],2004:3816-3821.

[10]Jun S,Jian L.A Hybrid of Differential Evolution and Particle Swarm Optimization for Global Optimization[C]//Proceedings of the 3rd International Symposium on Intelligent Information Technology Application,[S.l.]:[s.n.], 2009:138-141.

[11]Niu B,Li L.A Novel Pso-de-based Hybrid Algorithm for Global Optimization[C]//Proceedings of the 4th International Conference on Intelligent Computing,[S.l.]:Springer Berlin Heidelberg,2008:156-163.

神经网络过拟合的表现范文3

关键词:汇率弹性化;汇率波动;神经网络

中图分类号:F830.7 文献标识码:A 文章编号:1674-2265(2013)04-0008-06

一、文献综述

随着经济全球化的不断推进和国际资本流动的日益加剧,汇率对于投资者选择正确的投资策略、企业规避和防范外汇风险以及中央银行有效干预外汇市场和制定正确的货币政策,都有着非常重要的影响。因此,关于汇率的行为描述和预测问题研究一直是国内外理论界关注的焦点。

关于汇率波动的预测,一般从“汇率波动缘于经济系统基本因素所致”(易纲、范敏,1997)出发,进而基于对汇率的理性预期等假设前提对汇率决定进行探讨。相关的理论有购买力平价理论、利率平价理论、国际收支说等,并基于此,在汇率与影响汇率的经济因素之间建立线性模型,再利用计量等工具对模型进行检验、矫正。常用的方法有最小二乘法、协整方法等。易纲、范敏(1997)对人民币汇率决定的诸多理论作了详尽分析,他们认为,均衡的市场利率和货币的完全可兑换这两个前提条件在中国不成立,从而利率平价在中国解释能力不强,这与王爱俭等(2003)的结论一致。但他们同时指出,随着中国向人民币完全可兑换和资本自由流动的方向不断迈进,利率平价的解释和预测能力会越来越强。魏巍贤(1998)在其1997年研究成果中的人民币汇率决定模型的基础上,采用月度数据构建了人民币短期汇率预测模型,结果表明模型具有较好的模拟和预测性能以及结构稳定性。他进一步的研究(2000)结果表明,1994年以来汇率稳定主要归因于央行的干预、适度从紧的货币政策、高速的经济增长以及对外债余额与通货膨胀的有效控制。惠晓峰等(1999)对购买力平价和货币理论进行修正,采用线性组合预测汇率,结果显示组合模型比单个模型更加稳定。相关的文献还可见于郑兰祥(2000)、张道政(2005)等。

另一种汇率预测的思路便是传统的时间序列模型,常用的有ARMA模型(帕尔马和陈,1997)、随机游走模型(哈基奥,1986)和GARCH簇模型(波勒斯列夫等,1991;恩格尔等,1997)。惠晓峰等(2003)论证了GARCH模型预测人民币汇率时序的可行性,发现人民币汇率存在明显的异方差性。韦斯特等(West等,1995)通过以上几个模型对汇率预测效果的对比发现,GARCH模型预测效果最佳,尤其是短期预测;ARMA模型预测效果次之。霍伯(Hopper,1997)和布鲁克斯(Brooks,1997)的研究结论也表明,GARCH等时序模型能有效预测汇率波动。

然而大量的研究发现,市场的收益率并非呈现标准正态分布,反而呈明显尖峰厚尾现象。同时,诸多文献进一步证实汇率波动呈现簇聚现象、长记忆性等显著的非线性特征(波勒斯列夫等,1991;恩格尔等,1997;杨瑞成等,2010)。可见,非线性特征存在于汇率波动已是不争的事实(米斯等,1990),而神经网络是预测汇率非线性波动的良好选择(关等,1995)。

神经网络方法在汇率波动预测的应用研究已有诸多文献可考。迪博尔德等(Diebold等,1990)研究认为,非线性方法在汇率波动预测中对于汇率值以及趋势的预测都有更优表现。鲁芬斯等(Refense等,1993)也认为神经网络方法对汇率预测要比传统线性预测方法好很多。劳舍尔(Rauscher,l997)在验证了汇率与经济各变量间的长期均衡关系后,采用各经济变量作为BP网络的输入,对汇率的波动作了动态预测,结果表明BP网络在汇率的波动尤其是其波动趋势上的预测要优于ARMA、VEC等线性模型。惠晓峰等(2002)针对传统BP网络的缺陷,结合遗传算法与递归预测方法提出基于实数编码的GABP网络预测模型,并在人民币兑美元汇率时序的实证检验中得出良好的结果。王熙等(2010)通过对人民币名义汇率高频时序波动率的研究,验证了其非线性动态行为表征,同时指出,非线性模型能比线性模型更好地描述汇率时序中大的波动。

可见,国内外文献主要根据相关理论和模型对汇率自身或者汇率收益的波动率进行预测和比较分析,而较少从汇率收益率的角度探讨汇率波动区间和波动趋势以及汇率弹性化下汇率波动预测模型的选择问题,而这正是本文要重点解决的问题。因此,本文选取2001年1月至2010年12月的月度数据,综合采用线性MA模型和非线性神经网络模型对汇率波动进行预测比较,探讨汇率弹性化下人民币汇率的波动预测问题,借以捕捉汇率波动趋势,并基于此给出相应的结论与建议。

二、变量说明与模型选择

根据黄志刚等(2010)的分析,本文选择VOL(汇率波动)、CF(短期跨境资本流动)、ERI(汇率干预)、RIR(实际利率)4个经济变量来解释汇率的波动,同时加入股市收益及汇率波动滞后项作为汇率波动的预测解释变量。各变量说明如下。

(一)变量与数据说明

1. VOL:汇率波动。关于汇率波动的预测,本文主要探讨汇率的收益率,即波动幅度。黄志刚等(2010)将其定义为:

[rt=mpt-mpt-1mpt-1×100]

其中,[mpt]表示直接标价法下当月每日即期汇率的平均值,[mpt-1]表示前一个月每日即期汇率的平均值。这是百分比法定义的收益率。然而因对数收益率有更好的统计特性,如具有简单的可加性,能在一定程度上消除或降低自相关等线性依赖性等(杨瑞成等,2010),因而对金融时序分析而言,对数收益率比百分比收益率更为适用(雷强等,2009)。故本文采用汇率价格的对数收益率来表示人民币兑美元汇率波动,定义如下:

[VOLt=Ln(Pt/Pt-1)×100]

其中[Pt]表示第t月人民币兑美元汇率中间价的月度均值,乘以100是为了提高精度,数据来源于中国人民银行网站。

2. CF:短期国际资本流动。关于短期跨境资本流动(Capital Flow,记为CF)的度量,本文沿用黄志刚(2010)的设定方式,即:

短期跨境资本流动=外商直接投资增加额+外债增加额+经常项目顺差额-外汇储备增加额

其中,各变量均采用月度数据。不同的是,本文中的外债增加额是将外债净额季度数据通过一阶差分得到的季度增加额,用Eviews7.2软件转换为月度数据得来,而不是直接把差分所得的季度增加额当作每个月的值(这会高估外债增加额)。经常项目顺差仍采用进出口顺差的月度数据近似表示。数据来源于国家商务部网站和国家外管局网站。

3. ERI:汇率干预。为研究政府干预对汇率波动的影响,本文根据干杏娣等(2007)和黄志刚等(2010)的研究结论,同样选取外汇储备月度变化量代表政府对汇率波动的干预(Exchange Rate Interference,记为ERI)。数据来源于国家外管局网站。

4. RIR:实际利率。根据利率平价、购买力平价等国际金融理论可知,利率的变化会通过不同途径和不同方式引起国际收支的变化,进而引起汇率变动;同时也能通过资本流动和商品市场对汇市波动产生直接或间接的影响。国外大量研究表明,利率价格变化对汇率波动有显著影响,并且汇市与货币市场间存在双向波动溢出效应,这些特征在成熟市场国家表现更为突出。随着我国汇率弹性的逐渐增加,二者间的联动性进一步增强,央行调控政策效果不仅取决于利率或汇率变动,还取决于二者间的联动性。

因此,本文沿用实际利率(记为RIR)代表宏观经济形势的变化。数据采用全国银行间同业拆借市场利率的月度加权均值,并通过月度通胀率进行调整而得,数据来源于中国人民银行网站、国家统计局网站和《中国金融统计年鉴》。

5. SHZ:上证指数收益。大量研究文献认为股市对汇率波动也有很大影响。自20世纪90年代以来,国内外学者就已对股市与汇市的关系作了丰富研究,许多学者分别从宏观和微观角度分析得出股市与汇市间存在较强联系的结论,但不同国家间传导关系有别。也有部分研究指出二者间并不存在长期关联性(菲力巴提斯等,2005;奥赛尔,2006;姚等,2006),但大部分学者倾向于认为金融自由化会加强两者间的联系(王新军等,2010)。因此,为研究股市与汇市间的关系,并比较分析不同汇制下二者间的关系,本文也把该变量考虑在内,同时将滞后一期汇率波动的影响VOL(-1)项也考虑到汇率波动预测中。

鉴于两次汇改(分别是2005年7月21日和2007年5月21日央行进行的两次汇率改革)以及金融危机(即2008年12月次贷危机引发的全球金融危机)的影响,本文将研究数据划分为4个阶段:2001年1月―2005年7月(2001M01―2005M07),2005年8月―2007年4月(2005M08―2007M04),2007年5月―2008年12月(2007M05―2008M12),2009年1月―2010年12月(2009M01―2010M12),对以上变量间的关系进行分阶段检验。

(二)平稳性检验

由表1可知,各变量在不同时段呈现出不同性质。其中第一、四阶段结果较一致;第二、三阶段结果较一致。以第二、三阶段为例,原序列VOL、CF、ERI、RIR均不能拒绝存在单位根的原假设,而经过一阶差分后则都为平稳序列。因此,VOL、CF、ERI、RIR在第二、三阶段都为一阶单整序列。而SHZ收益序列则是平稳时序。显然第一、四阶段各变量间并不满足协整检验前提,故只针对第二、三阶段作进一步协整检验。

(三)协整检验

协整可用以描述变量间的长期稳定关系。鉴于数据量的缘故,本文综合VAR模型检验结果以及黄志刚等(2010)的研究,确定第二、三阶段相应变量检验最佳滞后阶数均为1,结果如表2所示。可知,两阶段各变量间均存在显著的长期均衡关系。

由式(1)―(4)可知,无论哪个阶段,政府干预对汇率波动始终呈显著负效应;而滞后一期汇率波动则对当期汇率波动有显著正向影响,这也说明了汇率波动的趋势性特征。比较不同阶段回归方程的系数正负可以发现,2005年汇改后的第二、三阶段回归结果一致性较强,而2005年前的第一阶段与2009年后第四阶段的回归结果相近度较高,既反映了不同阶段变量间内在联系的变化,也从侧面反映出不同阶段金融市场、宏观经济及调控政策等整体环境的不同。如第二、三阶段短期资本流动与汇率波动呈显著正相关,股市与汇市波动有显著正联动性,实际利率与汇率波动显著负相关,反映了该时期汇率制度弹性不断增大,金融市场、宏观经济及调控政策等整体环境变化不大。但在汇改之前与金融危机阶段,上述自变量与汇率波动变量的回归系数方向恰好相反,这与吴(WU,2000)的研究结论一致,说明该二阶段汇率缺乏弹性或存在较多的政府干预和资本管制等。

由变量显著性也可发现,汇率与利率关联性在2005年汇改之后有显著提升,这说明随着汇率弹性明显增强,汇率对利率的反应也逐步灵敏,汇率改革逐步回归市场(陈镜冰等,2010)。第一、四阶段结果表明二者间存在正向关系,货币市场变动加剧了汇市波动。而且此二阶段人民币兑美元汇率波动幅度较小,限制了货币市场与外汇市场间的信息传导(赵华,2007),桎梏了我国货币政策的传导效率,进而也说明了汇率的非市场化会阻碍利率的市场化进程。

同时也可看出,MA过程能够较好地拟合汇率的波动模型,但4个阶段的最优回归方程不尽相同,故对相应时期波动预测应根据不同时段作动态的模型调整。因此,本文考虑以2005年为分界点,对不同时期的汇率波动采取逐月预测的方式,并同时使用全时段的预测方式作比较分析。预测模型如下:

[VOL=C+α1CF+α2ERI+α3RIR+α4SHZ+α5VOL(-1)+β1ma(1)+…+βnma(n) (5)]

其中,ma的项数根据具体情况选择。全时段预测模型根据前90个月数据得出最优模型,进而预测后30个月数据;逐月预测则分两段,分别以30个月和20个月历史窗口值作滚动预测,即每预测一个月的数值,就对模型进行调整,根据拟合优度、AIC准则、变量显著性和模型稳健性等选取最优预测模型。

(五)神经网络预测模型介绍

汇率波动预测具有不确定性,时间序列及回归模型是最常用的预测方式,其根据汇率变量与相关经济变量的关系构建多元回归模型作预测,但要求有较大样本量。然而诸多学者的研究结果认为,神经网络模型能够有更优的汇率预测表现,而其中BP神经网络就是目前应用最为广泛的一种网络模型。BP网络能通过比较网络输出结果的误差,反复修正权值和阀值,逐步缩小误差,提高预测精度,即“误差逆传播算法”。随着这种误差逆传播修正不断进行,网络对输入响应的准确率不断上升。

由于传统BP网络预测存在收敛慢、振荡、容易陷入局部极小点、权值偏大以及不稳定等问题(周永进等,2007),许多学者对BP网络算法作了改进,如MFBP、MBP、动态自适应BP快速算法,以及人工智能算法如遗传算法、模拟退火算法等与BP网络结合的组合神经网络模型等。其中,遗传算法(Genetic Algorithms,GA)是使用较广泛也较优的选择(金,2005)。GA算法是一种全局寻优搜索算法,它能通过群体实现搜索过程,且易于并行化,能够提高算法的效率。本文采用GA算法对BP神经网络的连接权进行优化(伍海华,2009)。先用GA算法对初始权值进行优化,定出权值取值范围;然后采用BP算法在以上的解空间中搜索最优解;再根据网络的不断训练与迭代,直至达到最优权值进而进行BP网络预测。

国内外学者的研究成果已经表明,用GA算法改进的BP网络的预测效果和收敛速度要明显优于一般BP网络算法(魏巍贤等,1995;王建成等,1998;郑志军等,2000)。因此本文选择GABP神经网络算法进行预测,并与前文MA模型预测效果作比较,探讨汇率弹性化下不同模型对汇率波动预测的解释力。

三、汇率弹性化下人民币汇率波动预测模型的比较分析

(一)预测方式

本文分别采用以下四种方式对人民币兑美元汇率波动进行样本内拟合与样本外预测。

1. MAQD全时段预测:采用90个月的历史数据对后续30个月数据作预测,并对历史数据进行模拟。

2. MAZY逐月预测:根据汇率弹性的不同,对2001M01―2005M07时段和2005M08―2010M12时段分别采用30个月和20个月的周期窗口进行滚动逐月预测。

3. GABP网络预测:采用遗传算法改进的BP神经网络方法对汇率波动进行样本外预测和样本内模拟。

由图1可见,MA逐月和GABP网络预测的效果均优于全时段MA预测效果。逐月预测的汇率波动与实际波动趋势较吻合;而全时段预测值倾向于低估实际汇率波动。用GABP网络得出的预测值与实际值较接近。当然这只是直观的认知,对于各模型的实际预测效果还需根据相关评价指标予以比较。

(二)模型性能评价

由于神经网络无法用计量经济学中常用的拟合优度、置信度、显著性等检验指标,为与MA多元回归模型结果作比较,本文综合采用以下几个常用指标来评价各模型预测效果。

1. 平均绝对误差(MAE):[MAE=1Ni=1N|volfi-voli|]

2. 均方误差(MSE):[MSE=1Ni=1N(volfi-voli)2]

3.平均绝对百分误差(MAPE):

[MAPE=1Ni=1N|volfi-volivoli|]

4.均方根误差(RMSE):[RMSE=1Ni=1N(volfi-voli)2]

其中,[voli]与[volfi]分别表示汇率波动的实际值和预测值。对于各模型而言,以上4个数值越小,说明模型预测值越接近于实际值,因而模型的预测效果也就越佳。

MA模型、一般BP网络和GABP神经网络模型的预测结果如表3所示。

同时对最后30个月共同预测期的汇率波动预测值作图,如图2所示。

综合表3和图2我们可以发现,MA模型对于历史数据的拟合效果要相对优于BP神经网络模型,逐月MA模型预测结果优于全时段MA模型。就全时段MA模型而言,其对历史数据模拟的绝对偏差均很小,而对样本外数据的预测效果却不佳;逐月MA模型则不但能达到很好的历史拟合,同时其样本外预测效果也较好,无论是绝对误差还是均方误差皆远小于全时段MA预测效果。从图2中也可以发现,逐月MA预测时序和汇率实际波动趋势较吻合,而全时段MA则明显低估汇率实际波动。这些都再次证明了逐月预测的优越性。

分阶段比较可以发现,MA模型适合于汇率波动趋势变化较小时期的预测,而BP神经网络模型对汇率波动较大时期的预测更具有良好表现。2005年汇改之前,逐月MA模型无论是样本内模拟还是样本外预测都是三种方式中最优的,该时段汇率缺乏弹性,正好体现了MA线性模型对于稳定趋势预测的良好性能。而随着汇率波动程度的增强,以近30个月的预测效果而言,GABP神经网络预测无论是在汇率波动数值还是波动趋势方向上都有着更优良的表现。同时也可发现,2008―2009年间的预测值偏差均较大,这也从侧面反映了金融危机的影响。

综上可知,2005年汇改之前,即汇率缺乏弹性时期,逐月MA模型的历史拟合和样本外预测效果最优;随着汇改的深入,汇率弹性逐步增强,GABP神经网络模型无论是在汇率波动的数值上还是波动趋势方向上的预测均有最优表现。同时,利用非线性神经网络模型的预测在汇率弹性较大时期能够有比线性MA模型更优的预测效果,即能更好地捕捉实际汇率的波动。可见,对于汇率波动的预测不但应选择合适的变量,同时在汇率弹性的不同时期也应当选取合适的汇率波动预测模型。

四、结论

汇率是影响国际间经济金融联系和发展的重要变量。自2005年我国启动人民币汇率形成机制改革以来,汇率弹性不断增大,波动性明显增强。本文利用2001―2010年的月度数据,分别采用MA线性模型和基于遗传算法改进的GABP网络模型,对汇率波动进行了模拟预测,结果表明2005年人民币汇改以来,汇率与经济变量间的关联性明显增强,但2008年金融危机以来,受相关政策的影响,汇率改革有些停滞,汇率与经济变量间的联动性减弱,这说明汇率的弹性化能够加深汇率波动及其结构变量间的均衡关系。

汇率与经济结构变量间的模型分析结果表明,政府干预对汇率波动呈显著负效应,而滞后一期汇率波动则对当期汇率波动有显著正向影响,汇率弹性增大增强了人民币升值预期,升值预期则进一步助推了股市价格波动,股市对汇率波动的影响会因汇率弹性的不同而有所差异。汇率缺乏弹性会限制货币市场与外汇市场间的信息传导,桎梏我国货币政策的传导效率,这也进而说明了汇率的非市场化会阻碍利率的市场化进程。因此在促成利率市场化的诸多因素中,汇率因素起着不可忽视的作用,要加快完善货币市场才能更大程度地发挥利率对汇率的作用机制(王爱俭等,2003),意即利率市场化改革应与汇率市场化改革协调推进,二者不可分而治之。

比较不同模型的预测效果发现,MA线性模型基于历史数据对汇率波动趋势的持续性预测效果较好,适合于短期预测,因此2005年汇改之前,即汇率缺乏弹性时期,逐月MA模型的历史拟合和样本外预测效果最优;而且逐月预测效果要远优于全时段预测。GABP神经网络算法可以逼近任意非线性映射,避开了复杂的参数估计过程,较为简单直观,而且能够显著提升BP网络的预测效能。随着汇改的逐步深入和汇率弹性的逐步增强,GABP神经网络模型相对MA线性模型对汇率波动有更好的解释力和预测效果。可见,对于人民币汇率弹性化进程中汇率波动预测模型的选择也应根据汇率弹性不同因时而异。

参考文献:

[1]易纲,范敏.人民币汇率的决定因素及走势分析[J].经济研究,1997,(10).

[2]魏巍贤.人民币汇率决定模型的实证分析[J].系统工程理论与实践,2000,(3).

[3]Baillie Richard,Bollerslev Tim.1991.Intra-day and Inter-market Volatility in Foreign Exchange Rates, Review of Economic Studies, 58(3), pp.565-585.

[4] Engle R.,R.Jeffrey.1997.Forecasting the frequency of changes in quoted foreign exchange prices with the autoregressive conditional duration model, Journal of Empirical Finance,4 (3),pp.187-212.

神经网络过拟合的表现范文4

过去10年,人们对机器学习的兴趣激增。几乎每天,你都可以在各种各样的计算机科学课程、行业会议、华尔街日报等等看到有关机器学习的讨论。在所有关于机器学习的讨论中,许多人把机器学习能做的事情和他们希望机器学习做的事情混为一谈。从根本上讲,机器学习是使用算法从原始数据中提取信息,并在某种类型的模型中表示这些信息。我们使用这个模型来推断还没有建模的其他数据。

神经网络是机器学习的一种模型,它们至少有50年历史了。神经网络的基本单元是节点(node),基本上是受哺乳动物大脑中的生物神经元启发。神经元之间的连接也以生物的大脑为模型,这些连接随着时间的推移而发展的方式是为“训练”。

在20世纪80年代中期和90年代初期,许多重要的架构进步都是在神经网络进行的。然而,为了得到好的结果需要大量时间和数据,这阻碍了神经网络的采用,因而人们的兴趣也减少了。在21世纪初,计算能力呈指数级增长,计算技术出现了“寒武纪大爆发”。在这个10年的爆炸式的计算增长中,深度学习成为这个领域的重要的竞争者,赢得了许多重要的机器学习竞赛。直到2017年,这种兴趣也还没有冷却下来;今天,我们看到一说机器学习,就不得不提深度学习。

作者本人也注册了Udacity的“Deep Learning”课程,这门课很好地介绍了深度学习的动机,以及从TensorFlow的复杂和/或大规模的数据集中学习的智能系统的设计。在课程项目中,我使用并开发了用于图像识别的卷积神经网络,用于自然语言处理的嵌入式神经网络,以及使用循环神经网络/长短期记忆的字符级文本生成。

本文中,作者总结了10个强大的深度学习方法,这是AI工程师可以应用于他们的机器学习问题的。首先,下面这张图直观地说明了人工智能、机器学习和深度学习三者之间的关系。

人工智能的领域很广泛,深度学习是机器学习领域的一个子集,机器学习又是人工智能的一个子领域。将深度学习网络与“经典的”前馈式多层网络区分开来的因素如下:

比以前的网络有更多的神经元更复杂的连接层的方法用于训练网络的计算机能力的“寒武纪大爆炸”自动特征提取

这里说的“更多的神经元”时,是指神经元的数量在逐年增加,以表达更复杂的模型。层(layers)也从多层网络中的每一层都完全连接,到在卷积神经网络中层之间连接局部的神经元,再到在循环神经网络中与同一神经元的循环连接(recurrent connections)。

深度学习可以被定义为具有大量参数和层的神经网络,包括以下四种基本网络结构:

无监督预训练网络卷积神经网络循环神经网络递归神经网络

在本文中,主要介绍后三种架构。基本上,卷积神经网络(CNN)是一个标准的神经网络,通过共享的权重在空间中扩展。CNN设计用于通过内部的卷积来识别图像,它可以看到图像中待识别的物体的边缘。循环神经网络(RNN)被设计用于识别序列,例如语音信号或文本。它的内部有循环,这意味着网络上有短的记忆。递归神经网络更像是一个层级网络,在这个网络中,输入必须以一种树的方式进行分层处理。下面的10种方法可以应用于所有这些架构。

1.反向传播

反向传播(Back-prop)是一种计算函数偏导数(或梯度)的方法,具有函数构成的形式(就像神经网络中)。当使用基于梯度的方法(梯度下降只是方法之一)解决优化问题时,你需要在每次迭代中计算函数梯度。

对于神经网络,目标函数具有组合的形式。如何计算梯度呢?有两种常用的方法:(i)解析微分(Analytic differentiation)。你已经知道函数的形式,只需要用链式法则(基本微积分)来计算导数。(ii)利用有限差分进行近似微分。这种方法在计算上很昂贵,因为函数值的数量是O(N),N指代参数的数量。不过,有限差分通常用于在调试时验证back-prop实现。

2.随机梯度下降法

一种直观理解梯度下降的方法是想象一条河流从山顶流下的路径。梯度下降的目标正是河流努力达到的目标——即,到达最底端(山脚)。

现在,如果山的地形是这样的,在到达最终目的地之前,河流不会完全停下来(这是山脚的最低点,那么这就是我们想要的理想情况。)在机器学习中,相当从初始点(山顶)开始,我们找到了解决方案的全局最小(或最佳)解。然而,可能因为地形的性质迫使河流的路径出现几个坑,这可能迫使河流陷入困境。在机器学习术语中,这些坑被称为局部极小值,这是不可取的。有很多方法可以解决这个问题。

因此,梯度下降很容易被困在局部极小值,这取决于地形的性质(用ML的术语来说是函数的性质)。但是,当你有一种特殊的地形时(形状像一个碗,用ML的术语来说,叫做凸函数),算法总是保证能找到最优解。凸函数对ML的优化来说总是好事,取决于函数的初始值,你可能会以不同的路径结束。同样地,取决于河流的速度(即,梯度下降算法的学习速率或步长),你可能以不同的方式到达最终目的地。这两个标准都会影响到你是否陷入坑里(局部极小值)。

3.学习率衰减

根据随机梯度下降的优化过程调整学习率(learning rate)可以提高性能并减少训练时间。有时这被称为学习率退火(learning rate annealing)或自适应学习率(adaptive learning rates)。训练过程中最简单,也是最常用的学习率适应是随着时间的推移而降低学习度。在训练过程开始时使用较大学习率具有进行大的改变的好处,然后降低学习率,使得后续对权重的训练更新更小。这具有早期快速学习好权重,后面进行微调的效果。

两种常用且易于使用的学习率衰减方法如下:

逐步降低学习率。在特定的时间点较大地降低学习率。

4 . Dropout

具有大量参数的深度神经网络是非常强大的机器学习系统。然而,过拟合在这样的网络中是一个严重的问题。大型网络的使用也很缓慢,这使得在测试时将许多不同的大型神经网络的预测结合起来变得困难。Dropout是解决这个问题的一种方法。

Dropout的关键想法是在训练过程中随机地从神经网络中把一些units(以及它们的连接)从神经网络中删除。这样可以防止单元过度适应。在训练过程中,从一个指数级的不同的“稀疏”网络中删除一些样本。在测试时,通过简单地使用一个具有较小权重的单一网络,可以很容易地估计所有这些“变瘦”了的网络的平均预测效果。这显著减少了过拟合,相比其他正则化方法有了很大改进。研究表明,在视觉、语音识别、文档分类和计算生物学等监督学习任务中,神经网络的表现有所提高,在许多基准数据集上获得了state-of-the-art的结果。

5. Max Pooling

最大池化(Max pooling)是一个基于样本的离散化过程。目标是对输入表示(图像,隐藏层输出矩阵等)进行下采样,降低其维度,并允许对包含在分区域中的特征进行假设。

这在一定程度上是为了通过提供一种抽象的表示形式来帮助过拟合。同时,它通过减少学习的参数数量,并为内部表示提供基本的平移不变性(translation invariance),从而减少计算成本。最大池化是通过将一个最大过滤器应用于通常不重叠的初始表示的子区域来完成的。

6.批量归一化

当然,包括深度网络在内的神经网络需要仔细调整权重初始化和学习参数。而批量标准化有助于实现这一点。

权重问题:无论权重的初始化如何,是随机的也好是经验性的选择也罢,都距离学习到的权重很遥远。考虑一个小批量(mini batch),在最初时,在所需的特征激活方面将会有许多异常值。

深度神经网络本身是有缺陷的,初始层中一个微小的扰动,就会导致后面层巨大的变化。在反向传播过程中,这些现象会导致对梯度的分散,这意味着在学习权重以产生所需输出之前,梯度必须补偿异常值,而这将导致需要额外的时间才能收敛。

批量归一化将梯度从分散规范化到正常值,并在小批量范围内向共同目标(通过归一化)流动。

学习率问题:一般来说,学习率保持较低,只有一小部分的梯度校正权重,原因是异常激活的梯度不应影响学习的激活。通过批量归一化,减少异常激活,因此可以使用更高的学习率来加速学习过程。

7.长短时记忆

LSTM网络在以下三个方面与RNN的神经元不同:

能够决定何时让输入进入神经元;能够决定何时记住上一个时间步中计算的内容;能够决定何时让输出传递到下一个时间步长。

LSTM的优点在于它根据当前的输入本身来决定所有这些。所以,你看下面的图表:

当前时间标记处的输入信号x(t)决定所有上述3点。输入门从点1接收决策,遗忘门从点2接收决策,输出门在点3接收决策,单独的输入能够完成所有这三个决定。这受到我们的大脑如何工作的启发,并且可以基于输入来处理突然的上下文/场景切换。

8. Skip-gram

词嵌入模型的目标是为每个词汇项学习一个高维密集表示,其中嵌入向量之间的相似性显示了相应词之间的语义或句法相似性。Skip-gram是学习单词嵌入算法的模型。

Skip-gram模型(以及许多其他的词语嵌入模型)的主要思想是:如果两个词汇项(vocabulary term)共享的上下文相似,那么这两个词汇项就相似。

换句话说,假设你有一个句子,比如“猫是哺乳动物”。如果你用“狗”去替换“猫”,这个句子仍然是一个有意义的句子。因此在这个例子中,“狗”和“猫”可以共享相同的上下文(即“是哺乳动物”)。

基于上述假设,你可以考虑一个上下文窗口(context window,一个包含k个连续项的窗口),然后你跳过其中一个单词,试着去学习一个能够得到除跳过项外所有项的神经网络,并预测跳过的项是什么。如果两个词在一个大语料库中反复共享相似的语境,则这些词的嵌入向量将具有相近的向量。

9.连续词袋(Continuous Bag Of Words)

在自然语言处理问题中,我们希望学习将文档中的每个单词表示为一个数字向量,使得出现在相似的上下文中的单词具有彼此接近的向量。在连续的单词模型中,我们的目标是能够使用围绕特定单词的上下文并预测特定单词。

我们通过在一个庞大的语料库中抽取大量的句子来做到这一点,每当我们看到一个单词时,我们就会提取它周围的单词。然后,我们将上下文单词输入到一个神经网络,并预测位于这个上下文中心的单词。

当我们有成千上万的这样的上下文单词和中心词以后,我们就有了一个神经网络数据集的实例。训练神经网络,最后编码的隐藏层输出表示特定单词的嵌入。而当我们对大量的句子进行训练时也能发现,类似语境中的单词得到的是相似的向量。

10.迁移学习

神经网络过拟合的表现范文5

(一)样本的选择

本文选取房地产上市公司作为样本以保证研究的真实性。鉴于我国上市公司鲜有破产的情况发生,本文采用证监会的界定原则,将ST或者*ST(specialtreatment)公司定义为处于财务危机状态的公司,将非ST公司界定为财务状况正常的公司。

1.财务危机状态样本的界定

样本来自于2005—2013年首次被ST或者*ST的34家房地产上市公司。选取的样本研究期是上市公司被特殊处理时首次发生亏损的前一年(T-3年)。房地产企业投资回收期较长,亏损时有发生,在这一年以后接连发生亏损以至被特殊处理,因此这一年是上市公司发生财务危机的重要转折点。

2.财务正常状态样本的选取原则

本研究针对的是房地产上市公司,界定未被特殊处理的房地产上市公司为财务状况正常的样本。为了排除政策等其他因素对研究的影响,选取的正常样本研究期应与发生财务危机的公司相同,据此本文最终选取了2005—2013年间34家房地产上市公司为财务状况正常的样本。

(二)预警指标的选择

由于财务危机的发生难以用几个简单的指标来描述,同时又缺乏相关经济理论的指导,造成了指标选择较为困难,本文采用试错法对指标进行筛选。基于全面性和可量化的原则,结合我国房地产行业的特征,从企业的短期偿债能力、现金流量能力、长期偿债能力、营运能力、盈利能力、股东获利能力、风险水平和发展能力8个方面。过多的指标存在着大量无用的信息,不仅会导致分析困难,而且会降低预测的准确性。因此在进行分析之前,必须对备选指标进行筛选,剔除对财务危机表现不显著的指标。

二、模型构建与分析

(一)财务数据的预处理

在采集到的数据中,部分财务指标缺乏,需要对这部分缺失的数据作一个预处理,保持数据的完整性,才能进行下一步的分析。对数据的预处理主要包括两种情况:一是对于报表中未披露的数据。用该企业近期的数据作大致估计,尽量能代表公司的实际情况。二是对于不存在的指标数据。比率型指标当分母为零时,该指标不存在,为了保持数据的连续性,当期指标数据以其前后两期的均值来代替。

(二)显著性检验为了使分析更具有针对性

需要对上述备选指标进行显著性检验,选出有差异的指标。对于分布不同的指标,采用不同的方法进行显著性检验。

1.服从正态分布指标的显著性

检验利用SPSS软件对上述备选指标进行正态分布检验。检验结果显示营运资金对资产总额比率、负债与权益市价比率、流动资金比率、营业成本率、账面市值比5个指标呈正态分布,其余指标不符合正态分布。变量呈正态分布,对两类样本的相关指标进行T检验,根据检验的结果判断两类样本的预警指标是否具有显著性差异。本次T检验显著性水平取值为0.05,在此显著性水平下,营运资金对总资产比率和营业成本率通过显著性检验,即这两个指标在两类样本中存在显著差异。

2.不服从正态分布指标的显著性

检验其余57个指标不服从正态分布,不能直接使用参数检验。非参数检验适用范围广,对数据要求也不严,但是容易造成信息的损失,检验效能低。为了保证信息的准确性,先将数据进行转化,利用转化后的数据进行参数检验。转化后的数据参数检验结果表明,流动比率、营运资金比率、长期资产适合率等25个指标通过了显著性水平为0.05的参数检验,在两组样本中差异显著。

3.显著性检验结果综合以上两种显著性检验结果。

(三)因子分析较多的指标会导致模型过度拟合

使得预测准确度降低。对上述27个指标进行因子分析,进一步减少指标的数量。对剩下的指标进行KMO测度和Bartlett球形检验。由上述检验结果可知KMO测度值为0.557,球形检验P值为0小于0.05,适合作因子分析。采用正交旋转法进行转换。结果显示,特征值大于1的主成分有10个,累计贡献率达84%,由正交旋转成分矩阵可得:因子一主要代表盈利能力,因子二、因子八、因子十主要代表股东获利能力,因子三和因子七主要代表长期偿债能力,因子四和因子六主要代表短期偿债能力,因子五主要代表营运能力,因子九主要代表风险水平。

(四)模型构建、预测结果及检验

1.BP神经网络模型的构建、预测结果及检验

BP神经网络模型主要由一个输入层、一个输出层、一个或多个隐含层构成,每层节点的权值通过BP神经网络自我学习来调整,关于隐含层节点数的确定尚无相关理论,目前主要通过试错法来确定。本次建模采用隐含层为一层的BP神经网络结构,隐含层节点数由试错法确定为4,从而得出BP神经网络结构为10-4-1。从每类样本中随机抽取20个作为建模组,剩余28个样本作为验证组,检验模型的预测效果。将建模组40个样本的10个因子作为BP神经网络模型的输入层作自我学习。模型自我学习完成之后,将剩余的28个测试样本输入经学习样本调适完成后的BP神经网络模型,得到的预测结果与实际结果比较。通过上述对比分析可知,BP人工神经网络模型预测上市公司的财务状况准确率为85.7%,具有较高的准确率。模型对于验证组中两类公司的预测准确率相同。

2.Logistic模型构建、预测结果及检验

将因子分析得到的10个因子用于Logistic回归分析,令Y=0表示公司处于财务危机状态,Y=1表示公司处于正常状态,运行SPSS软件,得到Logistic模型对40个建模样本的判定分类。模型总体判定正确率为87.5%,其中对正常状态公司的判定准确率高达90%,由此判定模型的拟合度较好。Logistic模型的相关参数。模型参数中各参数的Sig值均大于0.05,对结果的影响均不显著,建立的模型理论意义不大。求证其在实际预警中是否具有实用意义,将验证组的24个样本带入模型得到的结果。对于验证组的判定中虽然模型的理论意义不大,但在预测房地产上市公司是否处于财务危机状态仍然有一定的实用意义,预测准确率达到了67.86%,相较于神经网络模型准确率较低,但是比神经网络模型更加容易理解,便于操作。

3.模型结果说明

上述两种模型分别对验证组进行了预测,对于一个房地产公司,两种模型可能会给予不同的判定,因此对比了两种模型对于验证组的预测结果。验证组中,有9家公司的BP神经网络模型和Logistic模型给出了互相矛盾的判断,导致无法准确判定这9家房地产上市公司的财务状况。然而,当BP神经网络模型和Logistic模型对同一房地产上市公司财务状况的预测结果一致时,在验证组中取得了89.47%的预测准确率,有效提高了预测结果的准确性。

三、结论

通过上文对房地产上市公司财务预警指标体系的构建及实证研究后发现:

1.企业财务指标选取越多,包含的财务信息也就越全面,降维处理时得出的因子会较多,几个因子才能代表公司某一方面的能力。

2.对公司T-3年的财务状况进行分析,两类公司现金流量能力方面的指标没有显著性区别,从现金流指标无法判断公司未来是否会处于财务危机状况。

3.Logistic模型的参数对预测结果的影响都不显著,证实财务危机是由多种因素共同作用所造成的,难以使用一种或几种指标来表明房地产上市公司发生了财务危机。

神经网络过拟合的表现范文6

关键词:品牌竞争力;BP神经网络;评估指标

一、前言

竞争是市场经济的本质,企业作为市场经济的主体也处在各种竞争中。当市场经历单一的产品竞争、质量竞争、价格竞争、广告竞争等等之后,以品牌为核心的竞争模式将会成为引领市场的主要形式。企业如果成功塑造了市场领导者品牌,就会形成持续有效的、创造无限价值的竞争力。

品牌竞争力是企业在市场决战中最重要的能力,用通俗的话说,如果你的产品比其他牌子的同类产品卖得好、卖得快、卖得贵、卖得久,就说明你的品牌竞争力强;反之,就说明你的品牌竞争力弱。因此,评估企业自身品牌的竞争实力成为摆在企业前的一个迫切议题。国内外的一些学者已从不同角度提出科学定量评估品牌竞争力的许多方法:市场表现评估法主要从品牌竞争力的表象方面进行评估;品牌综合管理能力指标评估法、品牌竞争力基础工作评估法都只单方面考虑从企业因素来衡量竞争力的强弱,未考虑品牌的顾客因素;与之相对应的基于顾客价值的品牌竞争力评估则没有考虑品牌对企业的价值体现。因此,本文基于品牌的顾客价值和企业价值的双重角度,从四个维度建立品牌竞争力评估的指标体系,并运用BP神经网络模型预测目标品牌的竞争力。

二、品牌竞争力的评估指标体系

由于前述评估方法的片面性,其指标体系必然体现着不完善性。品牌竞争力的评估体系应综合体现品牌的顾客价值和品牌所反映企业的各方面能力的综合,基于顾客价值我们建立准则层——顾客的忠诚度,基于企业的品牌竞争力我们建立三个准则层——品牌市场能力、品牌管理能力和品牌基础能力。对于各个子准则层体现的具体因素内容如表1所示。

三、基于BP神经网络的品牌竞争力评估模型

近年来,众多学者量化评估品牌竞争力的方法主要有层次分析法、线性回归分析法、第二代回归分析方法、模糊综合评判法等。神经网络的出现给多指标的系统评价提供了新思路,特别是BP神经网络强大的自学自适应能力,在很多行业得到不同程度的成功应用,非常适用于对矛盾复杂的、近似的、不确定的知识环境做决策,能成功解决相关因素人为权重设计的主观性及相关系数的复杂计算。

(一)BP人工神经网络基本原理

BP网络是一种反向传递并能修正误差的多层反馈型网络,其结构一般由输入层、输出层和隐含层构成,层与层之间的神经元通过相应的网络权系数完全互连;同层内的神经元则无关联。神经网络在外界输入样本的刺激下不断改变网络的连接权值,将网络输出值和期望输出值的误差由输出层、隐含层、输入层的反向传递,以使网络的输出不断地接近实际的输出。

(二)基于BP神经网络的品牌竞争力评估模型

1.人工神经网络模型结构的确定。根据自变量一般为BP神经网络模型的输入层,因变量一般为输出层的原则,品牌竞争力的BP神经网络模型中,指标体系中目标层品牌竞争力的大小为输出层,设强、中、弱三个判定层次;子准则层作为品牌竞争力的影响因子,其14个指标为输入层,分别为X(C1)-X(C14)。

为达到BP神经网络容量大小和网络训练时间的良好效果,本模型中训练层的节点数取29个为最佳(隐含层的节点数=2倍输入节点数+1)。

2.样本选择与组织。在样本的选择中,应选择有显著代表性且分布均匀的、足够数量的样本。为评估目标品牌竞争力大小,可先选取一些本企业已开发的品牌或可获取的其他品牌产品的实际经营数据作为训练、测试样本。

3.输入层的确定。在表1提出的14个指标中,由于不同指标是从不同的角度反映品牌竞争力,指标之间又由于量纲不同,所以无法进行比较。因此,从最终评价值的确定和神经网络训练的收敛性考虑,需要对指标先进行无量纲化处理。

(1)定性指标:这些指标的评价值采用专家打分法进行评价,取值为0.0-1.0之间。

(2)定量指标:定量指标又分为正向指标,逆向指标和适度指标。

正向指标一般采用下面的线性递增函数进行描述:

yi=0 x(c)≤x(c) x(c)≤x(c)≤x(c)1

x(c)≥x(c)

逆向指标一般采用下面的无量纲化标准函数:

yi=0 x(c)≤x(c) x(c)≤x(c)≤x(c)1

x(c)≥x(c)

适度指标一般采用下面的函数进行无量纲化处理:

yi=

其中,q为该指标的最适合值。

4.训练函数的选择。由于输入层变量和输出层变量不成线性关系,所以隐含层一般选择Sigmoid函数为激励函数,即f(x)=,实现输入层和输出层的非线性映射。

5.BP神经网络的训练和终止。在该模型中,我们引入动量批梯度下降函数,即一种批处理的前馈神经网络训练方法,不但提高了收敛速度,而且引入了一个动量项,有效避免了局部最小问题在网络训练中的出现。我们先将85%-90%的训练样本的指标值输入网络,按照公式一层一层的计算隐含层神经元和输出层神经元的输入和输出,当神经网络的输出值和实际输出值的均方误差超过某一阈值,则将误差函数沿输出层、隐含层、输入层反向传递,调整神经网络各个神经元的阈值和各层连接权值,使误差函数不断减小。在训练网络的过程中,训练一定次数后就停下来,用保留的15%-10%的测试样本检验此时网络的测试误差,当测试误差下降到目标误差精度以下时,则停止训练,此时则为最佳训练次数,模型输出值和实际输出值实现最优拟合。

6.目标品牌竞争力大小的评估。将要预测的品牌的指标值输入训练好的BP神经网络,该模型就能相对客观地对该品牌的竞争力进行评估,输出层的输出值就是该品牌竞争力的判定值,通过判定值可知品牌竞争力的强弱(整个流程见图1)。

四、结束语

品牌的研究在中国还将走得更远,本文在现有研究的基础上提出将品牌竞争力的量化评估与人工智能进行简单结合,克服评估工作过程中人为因素的主观性及相关权数计算的复杂性,提高品牌竞争力评估的可信性与客观性,使评价结果更客观反映企业品牌建设的真实状况,为企业诊断品牌经营问题,打造核心竞争力经营决策提供更可靠的信息支持。

参考文献:

1.蒋亚奇,张亚萍.基于层次分析法的企业品牌竞争力评价与测度研究[J].经济研究导刊,2011(8).

2.王文川等.品牌竞争力模糊灰色综合评价方法研究[J].统计与决策,2010(6).

3.周玫.基于顾客忠诚的品牌竞争力评价分析[J].当代财经,2005(9).

4.范秀成.品牌权益及其测评体系分析[J].南开管理评论,2000(1).

5.李煜华等.基于BP神经网络的老工业基地企业核心竞争力的综合评价[J].商业研究,2006(5).

6.许晓泓.品牌竞争力开放度评估方法的建构[J].绿色财会,2006(8).

7.陈宝忠.我国企业品牌竞争力研究[D].南昌大学,2005(6).

8.卢泰宏.品牌资产评估的模型与方法[J].中山大学学报(社会科学版),2002(3).

9.张启胜等.品牌竞争力的评价指标体系、模型及应用[J].企业家天地?理论版,2006(4).