前言:中文期刊网精心挑选了神经网络情感分析范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。
神经网络情感分析范文1
关键词:主成分分析;混合蛙跳算法;BP神经网络;帕金森氏病;分类
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2013)04-0861-05
Based-on PCA of SFLABP Neural Network Model in Application of Parkinson Disease’S Classification
ZHANG Zhi-hao,TANG De-yu
(College of Medical Information Engineering,Guangdong Pharmaceutical University,ZhongShan 528458,China)
Abstract:For the shortcomings of BP neural network which is low learning efficiency and is easy to trap into local optimum, according to these problems, a new BP neural network model optimized by Shuffle Frog Leaping Algorithm based on Principal Component Analysis is proposed. Using Principle Component Analysis to extract the features of high dimensional data, the input variables; the bias of BP neural network are optimized by Shuffle Frog Leaping Algorithm and then build the classification model of Parkinson's disease based on SFLABP neural network. At last, taking the data of Parkinson from UCI for example, the experiment result demonstrates the new model is better than the traditional BP neural network.
Key words:principal component analysis (PCA); shuffle frog leaping algorithm (SFLA); BP neural network; Parkinson; classification
随着智能计算的不断发展,人工神经网络由于其自身的适应能力和学习能力,在医疗诊断上的应用越来越广泛,其中BP神经网络[1]是人工神经网络中应用最广的一种神经网络,但由于其具有学习效率低、参数选择敏感、网络结构难确定、易陷入局部收敛等缺点,给实际应用带来了一定的困难,尤其是当网络输入变量过多时,网络结构更复杂,网络训练负担过重,学习效率骤降,将高维数据在不影响较多期望的前提下降维,网络的学习效率才会有所提高,BP网络的实际应用也将更有价值。
混合蛙跳算法,是2003年由Eusuff 和Lansay提出的一种基于启发式搜索的全局优化群体智能算法,它具有全局搜索能力强、参数少、原理简单易实现等特点,将混合蛙跳算法与BP网络结合,利用SFLA的全局搜索优化BP网络的结构参数,可以有效解决BP网络易陷入局部最优等问题。
为了解决BP网络中的缺陷,该文利用了主成分分析法降维与SFLA 全局搜索能力强等优点,网络输入使用PCA降维,网络参数使用SFLA优化,提高了BP网络的学习效率,实验证明,新模型更优。
1 主成分分析
主成分分析是由霍特林于1933年第一个提出的,主要是根据降维的思想,在损失较少信息期望的前提下,将多个相互关联的指标转化为几个综合指标的多元统计分析方法。其主要计算步骤为:
设有m个指标,n个对象的各项指标组成了原始数据矩阵
1)对进行标准化处理,使各项指标的均值为0,方差为1,具有可比性,即令:
(1)
2)计算各指标的相关系数矩阵R与R的特征值
(2)
3)确定主成分的个数
计算各个主成分的方差贡献率与累计贡献率,一般取累计贡献率达的特征值所对应的第一、第二、…,第p个主成分。
(3)
4)计算主成分的因子载荷矩阵I
其中为λ的特征向量。 (4)
5)根据因子载荷矩阵,确定各主成分表达式,得到各主成分得分。
2 混合蛙跳算法
混合蛙跳算法[2],在模拟青蛙群体寻找食物时,将蛙群分为几个子种群,每个子种群以及每只青蛙觅食的思想相互传递相互影响,将全局信息混合交换与局部信息深度搜索相结合,局部深度搜索能够快速有效地在一个特定区域内寻优,加快寻优速度;而全局混合交换可以避免个体陷入局部最优,使得算法能够跳出局部最优,不断靠近全局最优。算法的基本流程[3]如下:
1)初始化种群X。确定青蛙的数量F、种群以及每个种群青蛙的个数m,n,与青蛙最大步长。
2)随机产生初始青蛙,计算各个蛙的个体适应度值,并按个体适应度值的大小进行降序排列,并记录最优解。
3)将青蛙进行分组,将青蛙分成m个子种群,每个子种群有n只青蛙,分组规则如下:
(5)
即将第1只青蛙放入第1个子种群,第2只青蛙放入第2个子种群,…,第m只青蛙放入第m个子种群,第m+1只青蛙放入第1个子种群,第m+2只青蛙放入第2个子种群,依此类推,直至全部青蛙分组完毕。
4)对每一个分组进行模因进化,即局部搜索最优。进化过程如下:
a)找出该分组中个体适度值最差与最优的个体
b)对个体适度值最差的个体进行更新,更新策略为:
i.蛙跳步长更新: (6)
ii.位置更新: (7)
如果优于,则=,否则,再重复i,ii步骤,若此时的还比差,则随机产生一只新的青蛙代替
2)重新将进化完的各个分组进行混洗,对青蛙进行重新排序和分组,得到最优解。
3)重复计算(3)(4)(5)直至满足迭代条件为止。
3 BP神经网络
BP神经网络[1]是一种单向传播的多层前馈网络,其主要特点是信号前向传递,误差反向传播。其拓扑结构如图所示:
由图1可知,BP神经网络是一种具有三层或三层以上的神经网络,包括输入层、隐含层和输出层,层与层之间多采用全连接的方式,可以被看成是一个从输入到输出的高度非线性映射,即:
以典型的3层BP神经网络结构为例,转移函数采用Sigmoid函数,, (8)
则:
其中为权值,为阈值,为隐含层输出,为输入层节点数,为输出层节点数,
4 PCA-SFLA-BP神经网络模型
标准的BP网络算法学习效率低,收敛速度慢。当输入层的节点数较多时,也易陷入“维数灾”的问题,同样会影响其收敛的速度。
主成分分析[4]基于降维的思想,可以减少BP网络陷入“维数灾”的问题;混合蛙跳算法是一种群体智能优化算法,通过个体间的协作与竞争来实现在多维空间中对最优解的搜索。
因此,在进行BP神经网络训练时,我们使用PCA对网络的输入层节点数进行降维,使用混合蛙跳算法改进优化BP网络的权值和阈值,从而提高网络的学习效率[5][6]。其中适应度函数定义如下:
式中,N为网络输入节点数,为网络预测输出值,为样本实际输出值,q为用于网络训练时输入输出的数据维数,s为网络输出节点数。
整个模型流程图如图2所示:
5 实验结果与分析
为了验证模型的有效性,选用UCI机器学习数据库中的Parkinson数据集作为测试,该数据集有195个样本,由Little于2007年所建,主要针对31位病人,用生物医学仪器进行约6次的发音测试后记录而成,共有23个字段,其中有22个字段为测试的属性,如:MDVP、FO、Jitter、Shimmer、RAP、PPQ、HNR等一些声学参数,1个类标号(status),其值为0和1,1表示为确定病例。其中1有147例 ,0有48例。
上述数据集两类中分别随机选取100例和36例作为网络训练,其余的作为网络测试。并对网络输出重新定义,即将类标号进行了处理,其中[0 1]表示0,[1 0]表示1。
隐含层节点数l采用公式:其中n为输入层节点数,m为输出层节点数,a取1-10。
(11)
构建BP神经网络n-l-m,且本文中混合蛙跳算法的各参数分别为:青蛙规模F=20,子种群数量(模因组组数)m=5,每组中蛙的数量n=4,模因进化迭代次数Ne=10,全局迭代次数max gen=10,相当于总迭代次数为在这种平台上得到了本次实验结果。
5.1利用主成分分析选取网络的输入变量
将UCI中Parkinson[8]数据集的22个属性作为原始数据,按照前面主成分分析的步骤对原始数据进行主成分分析。得到特征值碎石图见图3,累计方差贡献率见表1。由表1可确定前4个特征值的累计方差贡献率已大于80%,所以选取4个主成分,同时也可得出各主成分的表达式与主成分得分,将主成分得分作为网络的输入变量。其中之一的表达式如下:
5.2构建SFLA-BP的帕金森病分类模型
利用主成分得分作为网络的输入,即输入层为4,分别以隐含层为4,6,8,10,输出层为2构造SFLA-BP神经网络的Parkinson分类模型,隐实验结果以随机某10次结果的平均值,其中得到某次实验(隐含层节点数为10)的均方误差图见图4,结果见表2。
由图4可得,应用了主成分分析法,减少网络的输入变量个数,网络的结构得到了简化,以及应用了SFLA优化BP的网络参数,学习率得到提高,网络训练的次数减少,由表2可知:网络的预测效果比较精确,模型有效可用。
5.3 预测结果比较
为了更好地对新模型与传统BP模型进行比较,该文多做了以下两个实验,对未经过主成分分析的数据,建立三层BP神经网络模型与SFLA-BP模型,实验结果仍然以随机某10次结果的平均值,其中得到某两次实验的均方误差图见图5,6,结果见表3,4。
可见:对于Parkinson数据集,PCASFLABP分类模型训练速率与准确率都优于SFLABP网络,更优于传统的BP网络,能较好地改善BP网络。
6 结束语
通过对BP神经网络的研究,该文提出的模型明显优于单纯的BP网络。该模型通过主成分分析对数据集进行降维,SFLA全局优化网络参数,较好地解决了BP神经网络参数复杂、易早熟的问题,得到了较好地分类效果,将对Parkinson诊断方面有较大的帮助。
参考文献:
[1] Haykin S.神经网络原理[M].北京:机械工业出版社,2004.
[2] Eusuff M M, Lansey K E. Optimization of water distribution network begin using shuffled frog leaping algorithm[J].Journal of Water Resources Planning and Management,2003,129(3):210-225.
[3] 王晓笛,何灿.混洗蛙跳算法的研究[J] 电脑知识与技术,2011,7(19):4661-4664.
[4] 许新征,丁世飞,杨胜强,等.煤与瓦斯突出的PCA-BP神经网络预测模型研究[J].计算机工程与应用,2011,47(28):219-222.
[5] 智晶,张冬梅,姜鹏飞.基于主成分的遗传神经网络股票指数预测研究[J].计算机工程与应用,2009,45(26):210-212.
[6] 余华,黄程韦,张潇丹,等.混合蛙跳算法神经网络及其在语音情感识别中的应用[J].南京理工大学学报,2011,5(35):659-663.
神经网络情感分析范文2
关键词:图像特征提取;人机交互系统;BP神经网络;Canny边缘检测算法
中图分类号:TP391
在感性消费的社会里,情感与体验等无形的因素逐渐变成衡量人生活品质的关键要素,在这样的背景下,公寓作为人的生理心理双重港湾,更是不得不考虑住户的感性需求。如何能够实现用户只通过表达自己的情感就找到符合自己需求的公寓图片呢?本文设计了一个自选公寓人机系统,使得用户能方便快捷地获得符合自己情感需求的公寓图片,并进行选择。
1 感性空间
感性空间的建立主要有下面几个步骤:一是搜集挑选用户对于公寓图片的心理感觉形容词对;二是挑选用户进行问卷调查,利用感性工学语义量化(SD)方法,建立用户情感认知空间;三是对多维情感认知空间进行多元分析,简化情感空间的维数。一和二属于调查阶段,三属于分析阶段。
1.1 调查阶段
首先挑选了11对感觉形容词,再加上一对反映用户喜好的形容词,喜欢和不喜欢,共计十二对:喜欢的――不喜欢的,宽广的――狭窄的,温馨的――清冷的,协调的――不协调的,整齐的――杂乱的,优雅的――不优雅的,明亮的――阴冷的,舒适的――不舒适的,柔和的――刚硬的,现代的――传统的,简约的――复杂的,放松的――紧张的。
选取200幅公寓图片,针对上述十二对形容词,邀请120名用户进行等级评价。评价分为五个等级,例如图1的形容词对宽广的――狭窄的,1、2、3、4、5分别表示非常宽广的,有些宽广的,中性,既不宽广也不狭窄的,有些狭窄的,非常狭窄的。
图1 五级评价
这样就得到最终的结果模型,也即用户感性数据库,可描述为:A= ,其中akij为第k个用户对第i个公寓图片的第j个感性词汇对的等级评价,K=120,I=200,J=12,i=1,2,…,I,j=1,2,…,J。
1.2 分析阶段
因子分析的思想是将众多变量之间的内部关系简化成用少数几个公共变量来描述,一般假设某一样本变量由所有变量均有的公共因子和自己独有的特殊因子两部分组成,因子分析的数学模型为:
X=B F+ε, (1)
(i*j)(i*m) (m*j) (i*j)
其中X为i个原变量j个评价标准的i维矩阵,B为因子载荷矩阵,F为m维的公共因子变量矩阵,ε为特殊因子矩阵,因子载荷矩阵是各个原始变量的因子表达式的系数,表达提取的公共因子对原始变量的影响程度。
对于上述感性数据库A,由于akij为第k个用户对第i个公寓图片的第j个感性词汇对的等级评价,于是可求得所有用户对第i个公寓图片的第j个感性词汇对的等级评价,进而可得到一个均值意象评分矩阵A′,A′= ,对该均值意象评分矩阵利用(1)式进行分析,可得到一个m维公共因子矩阵,也即将原感性空间从i维降到m维,并可得形容词在该感性空间的坐标。
2 情感客户模型
建立情感客户模型即建立图像特征空间到用户情感空间的一个映射,为此,需要先对公寓样本图片进行特征提取。
2.1 公寓设计样本图片特征提取
2.1.1 图片颜色特征提取
颜色特征采用颜色直方图法表示,颜色直方图可以是基于不同的颜色空间和坐标系。大部分的数字图像都是用RGB颜色空间表达的,然而为了更接近于人们对颜色的主观认识,首先将RGB颜色空间转换到HSV颜色空间,其转换公式具体为下面(2)、(3)、(4)式:
(2)
(3)
(4)
其中 。再将HSV颜色模型进行颜色量化,最后计算得到颜色直方图。
2.1.2 图片形状特征提取
本文选择Canny算子边缘检测算法对图片形状分析,首先对图像按(5)式灰度化;接着用高斯滤波器平滑滤波,滤波器高斯函数为(6)式,即是根据待滤波的像素点及其邻域点的灰度值按照一定的参数规则进行加权平均,这样可以有效滤去图像中的高频噪声;之后计算图像灰梯度的幅值和方向,并对灰度幅值进行非极大值抑制,即寻找像素点局部最大值,将非极大值点所对应的灰度值置为0,这样可以剔除一大部分非边缘的点;剩下的也不都是边缘点,为了减少假边缘,采用双阈值法,选择相对高低两个阈值,由高阈值可以得到一个边缘图像,由于阈值较高,这样图像就含有很少假边缘,但是产生的图像边缘可能有间断,因此又采用了一个低阈值,将高阙值得到的边缘连接成轮廓,在到达轮廓的断点时,选择低阙值直到边缘能够闭合为止;之后采用Hu不变矩对提取出来的轮廓进行特征提取。
Gray=0.299R+0.587G+0.114B (5)
(6)
2.2 建立情感模型
本文采取的是BP神经网络方法,通过神经网络学习图像特征与用户感性词汇之间的关系,结构图如下:
图2 BP神经网络结构图
输入层维数为基本颜色的个数,输出层维数为感性词汇的个数。我们选择200幅公寓图片作为BP神经网络的训练图,邀请20位用户对这些图像进行情感标注,挑选出代表性词汇,假设我们得到的词汇空间为温馨,清冷,简约,古典,恬淡,高贵,轻快,优雅,分别用(10000000),(01000000)…(00000001)一一对应表示,之后提取图片的颜色特征,得到十二种基本颜色特征,红橙黄绿青蓝紫褐灰粉黑白,分别用(100000000000),(010000000000)…(000000000001)一一对应表示,这样就得到神经网络的训练集。输入层与输出层之间隐含层的作用是根据训练样本,学习提取并储存其内在规律。对于隐含层节点来说,确定其最佳数目的常用方法是试凑法,一般以式(7)作为试凑法的初始值:
(7)
式中m为隐层节点个数,n为输入层节点个数,l为输出层节点个数,a为1-10之间的常数。完成训练后,就可以将训练样本以外的数据输入到网络中,判断网络的预测能力。
3 客户自选公寓设计人机系统
图3给出了该人机系统的框图,图4给出了用户自选流程,用户可以对显示的图片进行选择,文中选取的是200幅公寓图片,但系统图片库中远远超过这个数目,而且系统管理人员会及时更新图片库,所以要求系统能够对更新的图片进行感性注释,当用户输入的是系统形容词库中所没有的形容词时,系统能够进行训练学习,找到其感性空间中对应坐标,并且系统可以该形容词汇自动记忆并加入感性形容词库。
图3 客户自选公寓人机系统框图 图4 用户自选公寓流程
4 实验及分析
本文共选取了200幅公寓图片,邀请用户对图片进行评价和量化,形成情感数据库,当用户提出形容词配对自选公寓时,从图片库中找出符合条件的样本,并显示出来。图5为“清冷的”显示结果。实验中用户感觉较好。
图5 自助公寓系统获取图像
5 结束语
本文将感性工学方法与图像特征提取相结合用于设计人机系统,研究出一种情感模型,通过神经网络方法,使得图片的特征空间可以映射到客户情感空间,从而完成了自选公寓系统最重要的部分,致力于实现人机之间的和谐交流。在公寓样本图像的分析这个问题上,包括图像选取是否涵盖所有类型,包括怎样使提取的特征更准确代表图像,比如有的学者将图像的全局颜色特征和局部特征相结合,等等,未来研究中可以着重这些方面,进一步完善。
参考文献:
[1]黄,赖茂生.图像情感特征的分类与提取[J].计算机应用,2008(03).
[2]许青,陈坤,彭兆元.基于感性工学的消费者需求分析[J].设计艺术研究,2012(03).
[3]汪霞,张晓如,冯成.基于颜色、形状的情感图像检索[J].科学技术与工程,2009(11).
[4]薛雨丽,毛峡,张帆.BHU人脸表情数据库的设计与实现[J],2007(02).
[5]Akiya Inoue,Takeshi Kurosawa,Motoi Iwashita,Ken Nishimatsu.Customer Choice-Behavior Modeling Applied to Kansei Engineering.2011 International Conference on Biometrics and Kansei Engineering.
[6]汤凌洁.感性工学方法之考察[D].南京艺术学院,2008:21-39.
[7]苏建宁,李鹤歧.应用数量化一类理论的感性意象与造型设计要素关系的研究[J].兰州理工大学学报,2005(02).
[8]柯惠新,黄京华,沈浩.调查研究中的统计分析法[M].北京:北京广播学院出版社,1999.
[9]靳清泽.基于神经网络的图像特征和情感映射规则的研究[D].太原理工大学,2012.
[10]李清勇,胡宏,施智平.基于纹理语义特征的图像检索研究[J].计算机学报,2006(01).
[11]李海芳,柳凌燕,陈俊杰.基于免疫规划的神经网络规则抽取算法[J].电脑开发与应用,2010(07).
[12]刘红岩,陈剑,陈国青.数据挖掘中数据分类算法综述[J].清华大学学报(自然科学版),2002(06):727-730.
[13]王上飞,陈恩红,王胜惠.基于情感模型的感性图像检索[J].电路与系统学报,2003(06).
神经网络情感分析范文3
关键词:教学设计前端分析;数据挖掘;综合集成方法论;BP神经网络;层次聚类
中图分类号:G40-057 文献标识码:A 文章编号:1673-8454(2011)21-0084-04
教学设计对于教学工作科学化,提高学习者分析问题、解决问题的能力和培养科学思维能力与科学态度,促进教育技术的实践与理论的发展和适应信息社会发展的需求等方面都有着重要的意义和价值。前端分析,是教学设计的第一步,它是教学设计过程的基础,有助于理顺问题与方法、目的与手段的关系,其设计的好坏直接影响到后面的一系列工作。在不同的教学设计过程模式中,前端分析的内容略有不同,但主要包括:学习任务、学习需要、学习者特征和学习环境等。鉴于本文的研究主要定位于学科课程范围,学习需要和学习任务由学校学科专业所规定,学习环境一般在具体的情境中由授课教师掌握控制,又由于学习者是教学活动的主体,教学设计的一切活动都是为了学习者的学,学生之间存在着共性,也存在着差异,本文只对学习者特征做主要研究。对学生进行分析的目的是了解影响学生学习的认知能力、学习风格、学习动机。通过对学习者三个方面特征的研究,使得教师更好地把握学习者的情况,从而达到更好地实现因材施教、因风格施教的口的。
为了有利于后续教学设计自动化的探索,本文基于综合集成(Meta-synthesis)方法论,即将专家的知识与经验、统计数据和信息资料,以及计算机技术三者有机动态地结合起来,构成一个高度智能化的人机交互系统,把数据挖掘技术应用于数字化后的教学设计前端分析中,列举出实验过程,并对实验结果进行分析。
一、理论基础
1.数据挖掘技术概述
数据挖掘(Data Mining,DM)是从大量的、不规则的、含有噪音的数据集中识别出有效的、新颖的、潜在有用的,以及最终可被人理解和利用的模式的高级处理过程。它包含神经网络、聚类、粗糙集、遗传算法、决策树、关联规则等多种技术。它被广泛应用于各个领域,包括金融业、零售业、电信业及其他科技应用领域。
2.BP神经网络方法
BP神经网络(误差反向传播网络)是目前使用最广泛、发展最成熟的一种经典的神经网络模型,它是一种监督学习型数据挖掘方法。BP神经网络是一种多层前馈神经网络,主要特点是输入信号前向传递,误差反向传递,并且在这个过程中不断修改权值直到达到目标值。网络包括:输入层,隐层和输出层。其网络模型如图1所示:
其中,X1,X2……Xn是输入信号。YI,Y2……Yn是输出信号。Wij,wjk代表权值。输入层输入信号,输出层输出处理结果信号,隐层处理信号,在处理的过程中,根据来自输出层的反馈信号,权值不断被调整,当输出层误差减小到预定值时,学习结束。可以说,BP神经网络学习的实质就是权值的改变。
3.聚类分析方法
聚类分析是一种无监督学习型数据挖掘方法,其实质是建立一利,分类方法,它能够将一批样本数据按照他们在性质上的亲密程度在没有先验知识的情况下自动进行分类。层次聚类是聚类分析中的一种方法,它是根据样本间的亲疏程度,将最相似的样本结合在一起,以逐次聚合的方式分类,白:到最后所有的样水成一类。
根据聚类过程的不同,层次聚类法可分为方向相反的两大类:分解法(自顶向下)和凝聚法(自底向上)。本研究采用的是凝聚法,其基本思想是:(1)假定N个样本各自成一类,计算类间距(等于各样本之间的距离);(2)选择距离最近的两类并成一个新类:(3)计算新类与其他类问的距离;(4)重复第2步和第3步,这样每次缩小一类,直到所有样本都成一类为上。
二、学习者特征测量方法
学习者特征主要包括认知能力、学习风格、学习动机三个方面。
美国著名教育心理学家布鲁姆(B.S.Bloom)的“教育目标分类”理论把教学目标分为认知、情感和动作技能三个目标领域,其中认知能力的目标按智力活动的复杂程度由低级到高级又可划分为六个等级:(1)认记――记忆或重复以前呈现过的信息的能力,也就是知识保持能力;(2)理解――用自己的语言来解释所获得的信息的能力;(3)应用――将知识(概念、原理或定律)应用于新情况的能力;(4)分析――把复杂的知识分解为若干个彼此相关的组成部分的能力;(5)综合――将有关的知识元素综合起来形成新知识块或新模式的能力:(6)评价――根据已有知识或给定的标准对事物作出评价和鉴定的能力。根据认知能力的评估与测量方法的不同,可以把学生认知能力值测量方法分为两种:“小组评估法”和“逐步逼近法。”研究是根据“小组评估法”来设计量表测试学生认知能力的。
学习动机是指直接推动学生进行学习的一种内部动力,是激励和指引学生进行学习的一种需要,本文学习动机测量是根据王迎、彭华茂、黄荣怀等在《远程学习者学习动机测量工具的编制与应用》一文中提出的“远程学习者学习动机问卷”测量的,该问卷是根据奥苏贝尔的学习动机分类理论从三个动机维度,即认知内驱力、自我提高内驱力和附属内驱力来制定的一种测验学生学习动机类型和强度的表格:奥苏贝尔将学习动机划分为三个方面:即认知内驱力(cognitive drive)、自我提高内驱力(ego-enhancement drive)以及附属内驱力(affiliative drive),认知内驱力是一种要求了解和理解的需要,要求掌握知识的需要,以及系统地阐述问题并解决问题的需要,这是一种内部动机;自我提高内驱力是个体因自己的胜任能力或工作能力而赢得相应地位的需要,这是一种外部动机:附属内驱力:是个体为了保持长者(家长、教师等)的赞许:或认可而表现出来的把学习或工作做好的一种需要,也是一种外部动机。
学习风格(Learmng Stvte)的概念是由美国学者Herbert Thelen于1954年首次提出,在今天的教育和技能培训领域中,学习风格一词已是研究者最广泛使用的概念之一,学习风格理论已成为当今教育心理学一个新的领域。学习风格是学习者持续一贯的带有个性特征的学习方式,是学习策略和学习倾向的总和。其测定方法主要有测验法、行为观察法、行为评定法和作品分析法。其中,测验法是最主要的方法。学习风格的测量在手段上可以分为图式和量表两种形式。大多数研究者采用量表方式来测定学习风格。学习风格的测量工具可以分为七种二场独立一场依存类型测量工具、荣格个性
类型测量工具、感知觉类型测量工具、社会互动类型测量工具、多元智能类型测量工具、基于经验的学习风格测量量表、基于三维模型的学习风格测量量表。所罗门学习风格量表属于多元智能类型测量工具。多元智力理论是由加德纳提出的,但他并未开发测量工具。所罗门学习风格量表(也称Felder-Si/verman量表)是由Feldel和Soloman于1997年开发的一种用来测量学生学习风格类型的量表,是教育领域比较有权威的学习风格量表。所罗门(Barbara A.Soloman)从信息加工感知、输入、理解四个方面将学习风格分为4个组对8种类型,它们是:活跃型与沉思型、感悟型与直觉型、视觉型与言语型、序列型与综合型,比较全面地反映了学习者的学习风格,且具有很强的操作性,可以较好地进行学习风格的调试。因此,本文中学习风格测量选用“所罗门学习风格量表”测量。
三、调查问卷结果
本研究的调查对象是云南大学2008届职业与继续教育学院市场营销和财会专业现代教育技术学课程的89名本科生的认知能力、学习动机和学习风格。调查问卷共89份,经筛选整理后,有效问卷为89份?表1、2、3为问卷处理后的部分数据。
四、层次聚类方法分类
利用SPSS软件,用层次聚类分析法对上述问卷数据进行聚类得到分类结果,然后把结果反馈给被调查者,再由被调查者和专家对结果进行核实、探讨,取得共识,接下来对可疑或不合理的数据进行相应的调整,如此反复修改,最后形成用于接下来的实验研究中的学生特征分类结果。其中,把认知能力分为较强和一般两类,学习动机分为较强、中等和较弱三类。
学习风格的测量结果可以直接用于描述学习者,故不做进一步研究。
五、认知能力数据分析预测
1.BP网络设计
首先,需要获得网络的输入和目标样本。根据上面得到的学生特征分类结果,选取其中30组作为训练样本、样本被分为较强组和一般组。
接下来确定网络结构,根据Kohnogorov定理,采用一个Nx(2N+I)xM的3层BP网络作为状态分类器。其中,N表示输入特征向量的分量数,M表示输出状态类别总数。对于本例,N=6。为了简化网络,用(1,1)表示较强状态,(1,0)表示一般状态。这样一来,就可以在网络中只设计两个输入神经元表示这两种状态类别。由此可得,该BP网络结构为:输入层有6个神经元,中间层有13个神经元,输出层有2个神经元。按照一般的设计方案,中间层神经元的传递函数为s型正切函数,输出层神经元的传递函数为S型对数函数,是因为该函数为0-1丽数(后面我们必须将样本数据归一化到0-1内),正好满足状态类别的输出要求。
令P表示网络的输入样本向量,T表示网络的目标向量,由上表可得
P=[81 82 69 78 65 46、69 68 65 72 72 53,79 92 56 67 78 61、
79 60 62 69 81 60 82 85 70 82 80 62 66 g4 69 63 85 59,
80 90 75 78 79 51,90 93 63 88 77 59
69 78 60 76 83 57,……]
T=[1 1 1 1 1 1 1 1,1 1 1 1,1 1 1 1 1 1,1 1 1 1,1 1,1 1 1 1 1 1
1 0 1 n 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 10
利用如下代码建立一个符合以上要求的BP网络。网络的训练函数为trainhn,学习函数取默认值learngdm,性能函数取默认值mse。其中丽数mlnnaax设定了输入向量元素的阈值范围。
net=newff(minmax(P),[13,2],{tansig','logsig”),’trainlml;
2.网络训练
net=train(net,P,T)
训练结果为:
TRAINLM,Epoch 0/50,MSE 0 730893/0.001,Gra-dient 1.60962/le-010
TRAINLM,Epoch 7/50,MSE 0.000444178/0.001,Gradient 0.0902879/le-010
TRAINLM,Performance goa]met,
可见,经过7次训练后,网络误差达到了设定的最小值,结果如图2所示。
3.网络测试与运用
网络测试的目的是为了确定网络是甭满足实际应用的需求。选取7组“较强”状态数据和3组“一般”状态数据作为测试数据。利用上面设计的网络,判别它们分别属于哪一种状态。运行结果如图3所示:
由此可见,前7组数据预测其为“较强”状态,后3组数据预测其为“一般”状态,这与实际情况相符合,说明所设计的网络是合理的,可以投入运用。
六、学习动机数据分析预测
学习动机在BP网络设计、网络训练、网络测试与应用上的方法与认知能力相似,故不再赘述。在此只给出网络的目标样本训练的结果图(图4)、测试样本(表4)和测试结果(图5)。
目标样本为:
由此可见,前2组数据预测其为“较强”状态,第3组数据预测其为“中等”状态,第4组不能判断其状态情况,第5组数据预测其为“中等”状态,第6组数据预测其为“较弱”状态,其中,第1、2、3、6组数据预测结果与实际相符合,第4、5组预测结果与实际情况不符合,故神经网络预测成功率为66.7%,基本可以使用。
七、小结
教学设计前端分析是一个复杂的问题,本文以从定性到定量综合集成方法为主,在大量实验数据的基础上,选用数据挖掘技术中的BP神经网络和层次聚类分析对教学设计前端分析中的认知能力和学习动机做了研究,系统预测成功率较高,这对于进一步开展后续的教学设计研究及实现教学设计自动化的研究起着很好的铺垫作用。
参考文献:
[1]于景元,涂元季从定性到定量综合集成方法――案例研究U]系统工程理论与实践,2002(5):2.
[2]陈文伟,陈晟知识工程与知识管理[M].北京:清华大学出版社,2010:165.
[3]韩力群人工神经网络教程[M].北京北京邮电大学出版社,2006:59-64.
[4]杨晓明SPSS在教育统计中的应用[M].北京:高等教育出版社,2004:247.
[5]瞿俊,基于重叠度的层次聚类算法研究及其应用[D].福建:厦门大学,2007.
[6]罗伯特・M・加涅学习的条件[M].北京:人民教育出版社,1985.
[7]张正兰,张明,蔡绍稷建造认知型学生模型的研究[J].南京师大学报(自然科学版),1997,20(1):2-4.
[8]陈琦,刘孺德当代教育心理学[M].北京:北京师范大学出版社,1997:120.
[9]王迎,彭华茂,黄荣怀远程学习者学习动机测量工具的编制与应用U1开放教育研究,2006,12(5):1-4
[10]李淑霞成功远程学习者研究综述[J].成功(教育),2007.
[11]陈晶,李玉斌,刘家勋.网络远程学习者特征分析方法初探[J].现代远程教育研究,2006(5).
[12]龙雪梅WBI设计中的学习风格分析[J].西南师范大学学报,2001(8):480-483.
[13]陈丽远程教育学基础[M].北京:高等教育出版社,2004(7).
神经网络情感分析范文4
一、移情的定义
尽管“移情”一词来源于西方的美学,但在我国传统文化中很早就出现了关于移情的理论。例如,孔子学说的核心是“忠恕”;朱熹说:“恕,推己以及人也。”推己以及人就是移情。可见,我国古代所讲的“推己及人”“设身处地”其实就暗含了移情的内涵。
在西方,对移情最早做出系统阐述的则是德国美学家T.李普斯,他在《论移情作用》里说:“审美欣赏的特征在于,在它里面使我感到愉快的自我和使我感到愉快的对象并不是分割开来成为两回事,这两方面都是同一个自我,即直接体验到的自我。”李普斯侧重于由我及物,但没有着重分析自然景物对人的情绪的作用。
尽管东西方文化都提到移情理论,但对移情的侧重点在这两种文化中稍有不同。我国传统文化侧重的是“由我及人”的移情,而西方美学侧重的是“由我及物”的移情。
在心理学领域中,移情的概念最早在1909年由铁钦纳提出,他认为人不仅能看到别人的情感,而且也能用心灵感受到别人的情感,他把这种情形称为移情。在心理学百科全书中,移情称为感情的移入,指的是个体从他人角度出发感受到他人的情感、想法和认识的心理现象。
综上所述,移情的概念非常复杂,有关移情的定义至今仍存争议。文中笔者将移情定义为觉察、理解别人感觉和情绪的倾向以及敏感程度。
二、如何增强移情能力
(一)情感分享
建立移情虽然很简单,但并不总是很容易。研究已经得出,当我们体验别人的经历时,自然做出情感分享反应。这主要是因为别人的经历无意识地激发了我们大脑镜像神经元,镜像神经元能反应别人大脑细胞的情况。从婴儿期开始,镜像神经元帮助我们将别人的姿势同化到自己的动力系统,成为分享表象。我们的神经网络储存并编码这些分享表象,当受到相应的刺激时,我们会无意识地分享别人的情感。姿势、身体语言以及声调等分享表象形成我们的神经网络,这些神经网络就像大脑的“硬件”,其他诸如语言等分享表象形成的神经网络就像大脑的“软件”,研究者认为孤独症患者在某种程度上不能形成足够的镜像神经元,因而分享情感能力受到影响。
形成这些产生移情的神经通路,需要我们耐心观察别人:不是用我们学习的理论分析别人,而是要特别注意别人的行为、面部表情、声调以及话语等等,这纯粹是由我们的经验形成的。这意味着虽然理论对于分析问题以及解决问题是必需的,但是要做到移情唯一要做的就是观察别人的行为、姿势、面部表情、说话的声调等等。
(二)自我—他人意识
情感分享在很多领域都非常重要,但是有研究表明:情感分享亦能导致情感枯竭或者生理耗尽。许多社会工作者对那些需要救济者有很强的情感分享行为,但是往往在摆脱他们的情感困扰时出现问题,因此当他们想要放松时,仍有负担。这种对别人情感卷入的程度不是建设性的,阻止了建设性的行为反应。外科医生禁止为那些与之感情卷入过深的人做手术,因为客观性是提供帮助的基础。这对于那些希望治愈心理困扰者的社会工作者来说也是同样的道理,对于我们自身来说也是同样的道理,我们对别人的情感卷入过深时,容易将别人的情感困扰带给自己。
从教育的视角来看,社会工作者应该知道,如果不能区分自我意识与他人意识,那么真正的移情不存在。自我意识允许我们自己的情感从别人的情感中脱离出来,避免过度情感卷入以及允许我们理智推断别人的心理状态及别人的态度。换句话说,自我—他人意识就像闸门一样,适当的阻止我们认知与情感之间的自动联结。如果社会工作者缺乏自我—他人意识,那么很容易体验求助者的愤怒、绝望以及焦虑等情绪。没有自我与他人边界的社会工作者不仅容易体验求救者的消极情绪,还可能将自己的情绪投射给别人。
对事实情况的觉察可以帮助社会工作者在情感分享的同时清晰的区分自我与别人。如果我们确实看清楚了当下情境下发生了什么,我们不仅对别人产生移情,我们也能看清事实:那是别人的伤痛、困惑和失落感,而不是我的。
(三)心理灵活性,自我情感控制
心理灵活性是复杂的认知能力,让我们在接受和拒绝别人观点之间,识别自我与别人之间反复变化。Eisenberg等人将情感控制定义为“开始、避免、抑制、维持的过程或者调节发生,形成,强度的过程或者维持内在情感状态,情绪心理过程,情绪目标,伴随情绪的行为,实现目标的过程。”
心理灵活性也是有效运用移情的关键成分。如果我们不开启对别人经历的感受能力,就不能感受别人的感受。同样,如果不能抑制对别人的感受能力,那么就会感受别人的消极情绪,导致情感枯竭。
自我控制被定义为控制个体想法、情绪以及行为的有意识、有目的地努力。因此,大部分理论家强调那些想控制或改变自己行为的人必须多注意自己的行为,有意识地控制行为。
研究表明,自我觉察是控制个体情绪状态的关键。我们控制情感分享以及达到健康的自我—他人意识状态的关键是觉察别人与自己的想法或情感。
神经网络情感分析范文5
【关键字】人工智能,计算机网络技术,措施手段
中图分类号:G623文献标识码: A
一、前言
人工智能手段在我国的很多的领域都有所涉及,人工智能的应用不仅仅方便了人们的生产生活,而且有助于我国各项科学技术的运行和发展。我们根据现今先进的人工智能的计算机网络应用模式进行了具体的分析和探讨,有如下的几点结论,希望有一定的借鉴作用:
二、人工智能
1.人工智能(Artificial Intelligence)简称AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能研究如何用计算机去模拟、延伸和扩展人的智能;如何把计算机用得更聪明,如何设计和建造具有高智能水平的计算机应用系统。人工智能是相对于人类智能而言的,它是采用人工的方法和技术来模拟、延伸和扩展人类智能行为的一门综合学科。随着计算机硬件和软件突飞猛进的发展、计算机速度的不断提高、存储容量的不断扩大、价格的不断降低以及网络技术的不断发展,许多原来无法完成的工作现在已经能够实现,AI具备了更多的现实应用的基础,AI研究出现了新的。目前人工智能研究的3个热点是:智能接口、数据挖掘、主体及多主体系统。
2.智能接口技术是研究如何使人们能够方便自然地与计算机交流。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。主体是具有信念、愿望、意图、能力、选择、承诺等心智状态的实体,比对象的粒度更大,智能性更高,而且具有一定自主性。下一步就是模仿人类右脑的模糊处理功能和整个大脑的并行化处理功能。人工神经网络是未来人工智能应用的新领域,未来智能计算机的构成,可能就是作为主机的冯.诺依曼型机与作为智能的人工神经网络的结合。研究表明:情感是智能的一部分,而不是与智能相分离的,因此人工智能领域的下一个突破可能在于赋予计算机情感能力。情感能力对于计算机与人的自然交往至关重要。
3.在人工智能中,这样的领域包括语言处理、自动定理证明、智能数据检索系统、视觉系统、问题求解、人工智能方法和程序语言以及自动程序设计等。随着计算机网络的普及,特别是Internet的出现,各种计算机技术包括人工智能技术的广泛应用推动着人机关系的重大变化。据日美等国未来学家的预测,人机关系正在迅速地从“以人为纽带”的传统模式向“以机为纽带”的新模式转变。人机关系的这一转变将引起社会生产方式和生活方式的巨大变化,同时也向人工智能乃至整个信息技术提出了新的课题。这促使人工智能进入第三个发展时期。在这个新的发展时期中,人工智能面临一系列新的应用需求。
三、人工智能在网络技术中的应用。
1.人工智能在网络安全中的运用。互联网将千千万万的用户联系起来。极大地方便了人类的生活。目前,威胁用户个人资料安全的网络隐患层出不穷。如果能将人工智能技术运用到网络安全领域,将大大提高计算机网络性能,确保用户隐私得到充分的保护。人工智能具有处理不确定性以及不可知性的能力、协作能力、处理非线性能力、学习、解释以及推理能力等,这些能力均在网络安全领域得到了广泛的应用利用统训、记忆、概率以及决策等智能方法对数据进行甄别.达到访问控制目的的智能防火墙技术以及利用基于专家系统、人工神经网络、模糊识别、自治面向对象技术等开发的入侵检测技术有效阻止了病毒的入侵.保障r资源的完整性、保密性和可用性。
2.人工智能Agent技术推动计算机网络信息服务水平的提高。人工智能Agent技术的全称为人工智能技术。通过每个Agent所有的知识域库处理新信息,并给予其解释推理机制对周围环境进行判断,当一个Agent获得一项任务.利用便捷的通讯网络,实现各个之间的相互沟通,共同完成任务。人工智能Agent技术具有自主性、学习型、协作性、个性化、智能化以及社会性等特征。该技术的运用使计算机能够自动执行由人所分配的工作,大大改善了计算机的使用方式。促进了计算机网络信息服务水平的提高。
3.软件方面,新的开发工具不断出现,使人工智能越来越方便地运用于各种领域。硬件方面,性能更好、价格更低的人工智能芯片,如模糊芯片、神经网络芯片甚至“知识芯片”将不断涌现,模糊计算机、神经计算机等新一代计算机将出现,以代替在该领域的数字计算机,这无疑又将给人工智能的实际应用带来彻底革命。人工智能与计算机图形学之间的相互结合和相互影响正在迅速地发展,新的智能自主图形角色开始普及到游戏、动画、多媒体、多用户虚拟世界、电子商务和其他基于web的活动领域。智能自主图形角色建模是多方面努力的成果,从底层的几何模型、物理模型,中间层的生物力学模型到高层的行为模型。
4.由于计算机芯片的微型化已接近极限。人们越来越寄希望于人工智能能够带动全新的计算机技术的发展。目前至少有三种技术有可能引发新的革命,他们是光子计算机、量子计算机和生物计算机。根据推测,未来光子计算机的运算速度可能比今天的超级计算机快1000到1万倍人工智能一直处于计算机技术的前沿,人工智能研究的理论和发现在很大程度上将决定计算机技术的发展方向。
四、“信息一系统一机制”方法论与人工智能的新进展
1.发现“智能生成的共性核心机制”和“人工智能的机制模拟方法”,在研究中体会到,虽然人类智能的定义相当复杂。但是依然可表述如下。智能所模拟的,实际上只是人类智能的“显性智能”。于是,可把这个方法称为“人工智能的机制模拟方法”,或简称为“机制模拟方法”。这是在新的方法论启迪下发现的人工智能模拟的新方法。
2.发现“知识的生态学结构”根据“以信息观、系统观、机制观为主要标志的复杂信息系统科学方法论”,发现了智能生成的共性核心机制是“信息一知识一智能转换”。
3.发现“机制模拟方法是人工智能的统一模拟方法”把人工智能的机制模拟方法“信息一知识一智能转换”与知识的生态学系统“经验知识一规范知识一常识知识转换”相结合,就发现:机制模拟方法可有四种具体的工作模式:
模式A:信息一经验知识一经验型智能策略转换(人工种经网络是它的特例);
模式B:信息一规范知识一规范型智能策略转换(物理符号系统是它的特例);
模式C:信息一常识知识一常识型智能策略转换(感知动作系统是它的特例);
模式D:信息一奉能知识一本能型智能策略转换。
不难证明,基于结构模拟的人工神经网络方法就是机制模拟方法的模式A,它们都是利用经验知识生成经验型智能策略。基于功能模拟的物理符号系统方法就是机制模拟方法的模式B,它们都是利用规范知识生成规范型智能策略。把原先看不见的本质联系揭示出来,这就是先进方法论的威力。
五、结束语
综上所述,我国的人工智能的科学技术已经有了很大的突破和创新,科学技术与计算机网络在人工智能上的应用和发展是显而易见的。因此,相信只要在我国科学家的不断探索和研究下,会有更加广泛的人工智能的应用,我国的各个领域的生产生活也会更加的智能化和系统化。
参考文献:
[l]蔡自兴。徐光佑.人工智能及其应用.北京:清华大学出版社,2012.
[2]刘树玲.基于Internet的草坪病害诊断专家系统.华中农业大学.2013.
[3]廖桂平.棉花病虫草害诊断与防护专家系统.湖南农业大学.2012.
神经网络情感分析范文6
关键词: 情感分析; 情感倾向性; 词典扩充; 电力客服工单; 主动服务
中图分类号: TN915.853?34; V249 文献标识码: A 文章编号: 1004?373X(2017)11?0163?04
Dictionary expansion based sentiment tendency analysis of power customer service order
GU Bin, PENG Tao, CHE Wei
(State Grid Jiangsu Electric Power Company, Nanjing 210000, China)
Abstract: In order to improve the customer satisfaction and active service consciousness of the electric power enterprises effectively, the textual characteristic of the power customer service order is combined to construct the sentiment analysis model of the power customer service order. The keywords of the service order are extracted according to TF?IDF thought. The word2vec training is used to get the word vector of each word. The cosine similarity is calculated to expand the high similarity field vocabulary to the sentiment dictionary. The service order sentiment analysis and text classification are performed. The validity of the method is verified with experimental analysis. The results show that, in comparison with the original sentiment dictionary, the method of dictionary expansion and service order sentiment tendency analysis is superior, has higher accuracy, and can provide a certain reference significance for the customer relation management of power enterprise.
Keywords: sentiment analysis; sentiment tendency; dictionary expansion; power customer service order; active service
0 引 言
随着电力体制改革的逐步深化,配电市场竞争不断加剧,迫切需要供电企业改变传统的思维方式和工作模式,进一步树立市场化服务意识,从客户需求出发,挖掘客户的潜在需求和内在价值,从而提升客户满意度和运营效益。作为与客户交流、沟通的重要窗口,电力企业95598客服系统记录了海量的客户信息,若能彻底挖掘客服工单中的客户特征、情感信息并了解客户的关注焦点,对电力企业和客户都将具有十分重要的意义[1]。
电力客服工单情感倾向性分析可以有效地发掘客户情感信息和需求,可根据客户情感倾向性识别潜在的投诉客户,可根据反馈信息判别某项业务的实施效果等。针对文本情感倾向性分析,现有的理论研究比较侧重于文本特征提取以及采用机器学习方法对文本进行分类,但是基于具体业务特征进行情感词典扩充的研究还比较少,导致情感倾向性计算往往会存在一定的差异,因此,根据电力行业的特c,进行客户服务工单情感词典扩充及情感倾向性的研究非常有必要。
情感分析是指利用文本挖掘、机器学习技术分析挖掘隐藏在文本中的情感信息,并将其分类为积极情感态度和消极情感态度[2]。目前,国内外关于文本情感倾向性分析已经进行了较多的研究工作[3?7],文献[3]基于情感词间的点互信息和上下文约束,提出一种两阶段的领域情感词典构建算法,提升了情感词情感倾向的识别能力。文献[4]研究了基于矩阵投影(MP)和归一化向量(NLV)的文本分类算法,实现对商品评价的情感分析,不仅可以有效识别商品评论情感性倾向,而且提升了识别效率。文献[5]将词级别向量和字级别向量作为原始特征,采用卷积神经网络提取文本特征并进行情感倾向性分析,结果表明字级别向量可取得较高的准确率。文献[6]提出一种词图模型的方法,利用PageRank算法得到情感词的褒贬权值,并将其作为条件随机场模型特征预测情感词倾向,提升了具体语境下预测的准确性,但是针对文本数量较大的情况准确率较低。文献[7]结合句子结构上下文语义关联信息,提出一种基于深度神经网络的跨文本粒度情感分类模型,提升了分类准确率,但该方法只适应于特定领域,泛化能力较低。
鉴于以上研究现状,本文以电力客户服务领域文本特征为突破口,构建了电力客服工单情感分析模型,基于工单关键词提取对原始的情感词典进行扩充,并对工单情感倾向性进行分析,最后,通过算例应用验证了本文所提方法的有效性。
1 相关工作
1.1 情感分类
情感分类技术的主要目标是基于文本数据识别用户所表达的情感信息,并将文本数据分为正类和负类。当前,针对情感分类的研究,主要从监督学习、基于规则方法、跨领域情感分析等方面展_研究,与此同时,针对文本特征的提取和特征情感判别是情感分类研究的两个关键问题。
1.2 Word2vec介绍
word2vec是Google在2013年开源的一款将词表征为实数值向量(word vector)的高效工具,采用的模型有CBOW(Continuous Bag?of?Words,即连续的词袋模型)和Skip?Gram两种,word2vec采用的是Distributed Representation的词向量表示方式,经过对输入集数据进行训练,可以实现将文本词汇转换为维空间向量,然后基于空间向量相似度来表达文本语义相似度,模型输出结果可用于自然语言处理领域相关工作,比如文本聚类、词典扩充、词性分析等。
word2vec生成词向量的基本思想来源于NNLM(Neural Network Language Model)模型,其采用一个三层神经网络构建语言模型,假设某个词的出现只与前个词相关,其原理示意图如图1所示。
图1中,最下方的为前个输入词,并根据其预测下一个词每个输入词被映射为一个向量,为词语的词向量。网络的第一层(输入层)为输入词语组成的维向量网络第二层(隐藏层)计算为偏置因子,使用激活函数tanh;网络第三层(输出层)包含个节点,每个节点表示下一词的未归一化log概率,并使用softmax激活函数将输出值归一化,最后使用随机梯度下降法对模型进行优化。
图1 NNLM原理模型图
模型的目标函数为:
需要满足的约束条件为:
2 电力客服工单情感分析模型
本文以某电力公司客服工单数据为研究对象,在深入理解电力业务及工单文本语义特点的基础上,建立了一种电力客服工单情感分析模型。首先,在进行文本预处理的基础上,对文本进行分词处理并且完成关键词提取;然后,采用word2vec训练工单数据,并基于关键词进行情感词典扩充,构建电力客服领域专用情感词典;最后,进行工单情感倾向性分析。
2.1 工单文本预处理
由于工单文本数据中存在大量价值含量较低甚至没有价值意义的数据,在进行分词、情感分析中会对结果产生较大的影响,那么在文本挖掘之前就必须先进行文本预处理,去除大量没有挖掘意义的工单数据。工单文本预处理工作主要包括:删除未标注业务类型数据、分句处理、文本去重、短句删除等。
分句处理:将工单数据处理成以句子为最小单位,以句尾标点符号为标志分割,包括“,”,“。”,“;”,“!”等符号。
文本去重:就是去除工单数据中重复的部分,常用的方法有观察比较删除法、编辑距离去重法、Simhash算法去重等。
短句删除:删除过短的文本,如“还可以”,“非常好”等,设置文本字符数下限为10个国际字符。
2.2 电力客户服务领域情感词典构建
2.2.1 分词
本文采用python的jieba分词工具对数据集进行分词,并完成词性标注和去除停用词,由于情感分析通常由名词、形容词、副词和连词等反映出来,因此删除词性为动词的词汇。jieba中文分词工具包包含三种分词模式:精确模式、全模式和搜索引擎模式,综合分词效果及后文的研究,本文选择精确模式进行分词,三种模式的分词效果如表1所示。
另外,在实际的分词过程中,出现了个别分词结果与实际的语义不符,原因是字典中缺少相关的专有名词,或者是这些词语的词频较低,比如“客户/咨询/抄/表示/数等/信息”,“客户/查户/号”,“变压器/重/过载”,“查/分/时/电价”等,因此,需要对原有词典进行更新。python中采用jieba.load_userdict(dict.txt)语句添加自定义词典,其中dict.txt是保存字典内容的文件,其格式为每一行分三部分:一部分为词语;另一部分为词频;最后为词性(可省略),用空格隔开。
2.2.2 关键词提取
构建电力客户服务领域专属情感词典,需要尽可能保证领域词典的多样性,关键词的提取要求一方面能够尽量反应出这个特征项所属的类别,另一方面能够把自身属于的类别与其他类别有效地区分开来,依据此原理,本文采用TF?IDF思想进行电力客户服务领域关键词的提取,关键词选取的权重决定了情感词典的多样性,为下文情感词典的扩充做好基础,算法原理如下。
将工单文档和特征项构建成二维矩阵,各条工单的特征向量可表示为:
式中:表示第个工单中第个特征中的词频。则与为:
式中:表示语料库中的文件总数;表示包含词语的文件总数,防止分母为零的情况,通常对分母做+1的处理。因此,的计算公式为:
实际应用中,依据维度的大小确定相应的权重大小,这样就形成了代表语料特征的关键词集。
2.2.3 基于word2vec进行情感词典扩充
随着经济技术的发展及客户文化的差异,不同的客户通常使用不同的词汇描述同一个对象特征,且电力行业中存在许多专用词汇,同样也表达了一定情感,但这些词脱离于现有的情感词典,因此,有必要对现有的情感词典进行扩充,进而提升工单情感倾向性分析的准确性[8]。选取中国知网情感词集和大连理工大学林鸿飞教授整理和标注的中文情感词汇本体库作为基础的情感词典,然后依据权重较大的关键词对原有词典进行扩充[9]。基于上文电力客户服务工单中提取的关键词,采用word2vec工具对工单数据集进行训练,根据CBOW模型或Skip?Gram模型训练出每个词的词向量,并通过计算余弦相似度得到文本语义上的相似度,并将相似度较高的词语加入到情感词典中。
依据上文分词后得到的工单文本数据,采用Linux Version2.6环境对数据进行训练,操作命令如下:
./word2vec ?train data95598.txt ?output vectors_95598data.bin ?cbow 0 ?size 200 ?winodw 5 ?negative 0 ?hs 1 ?sample le?3 threads 12 ?binary 1
其中,data95598.txt为输入数据集;vectors_95598data.bin为模型输出文件;采用Skip?Gram模型进行训练,词向量维度设置为200;训练窗口大小设置为5;-sample表示采样的阈值,训练结果采用二进制方式存储。这样,得到的模型文件中就包含了每个词的词向量。
采用余弦相似度计算关键词的相似词,即基于生成的词向量计算两个维向量的相似度,因为word2vec本身就是基于上下文语义生成的词向量,因此,余弦值越大,表明两个词语的语义越相似。向量与的余弦计算公式如下:
通过distince命令计算输入词与其他词的余弦相似度,经过排序返回相似词列表,再经过人工筛选,将这些词加入到原有情感词典中,实现对原有情感词典的扩充。
2.3 工单情感倾向性分析
工单情感倾向性分析是基于构建的情感词典,计算每个客服工单的情感分值,从而判断工单的情感倾向性。通过上文处理,每一个客服工单都可以被分割成一个个子句片段,表示为每个子句片段由一系列分词后的词语构成,提取每个句子的情感词、否定词等,表示为依据情感词典中给定词的极性值计算每个子句的情感值,分别算每个句子的正向和负向情感分值,计算公式如下:
式中:SenSum表示某个客服工单的情感分值;表示第个子句中第个正向情感词的极性值;表示第个子句中第个负向情感词的极性值。
在否定子句中,当为偶数时,否定子句情感为正;当为奇数时,否定子句情感极性为负。对所有的子句情感分值求和并求均值,就得到了整个客服工单的情感值,进而判断客服工单的情感倾向性,若SenSum为正,表示工单情感为正向;否则,工单情感为负向。
3 实验分析
3.1 实验数据准备
本文的实验环境基于Linux系统,采用python语言进行算法的实现,抽取某电力公司95598客服工单数据作为研究对象,运用jieba包进行中文分词处理,并采用word2vec训练数据生成词向量及扩充情感词典。由于工单数据是按照业务类型生成的,因此选取业务类型为表扬的工单作为正类,选取业务类型为投诉的作为负类,其中,正类和负类数据比例为21,共得到20 000条数据作为实验数据集,随后进行情感倾向性分析,随机选择70%的数据作为训练集,30%的数据作为测试集。
3.2 评价指标
当前针对文本分类效果评估有许多方法,本文选择准确率(precision)、召回率(recall)和值进行文本情感分类效果的评估,准确率是对分类精确性的度量,召回率是对分类完全性的度量,值越大说明分类效果越好,准确率和召回率是一组互斥指标,值是将二者结合的一个度量指标,值越大,分类效果越好,并将通过本文情感分析模型得到的结果与业务员标注的类型做对比分析。它们的计算公式如下:
3.3 实验结果及分析
本文基于抽取到的客服工单数据,结合设计的电力客服工单情感分析模型,实现对电力客户服务领域情感词典的扩充,并基于构建的电力客服领域专属词典进行工单情感倾向性分析,70%的数据用于训练word2vec并进行情感词典的扩充,30%的数据用于测试工单情感分类的准确性。测试集共包含工单数6 000条,其中正类工单3 895条,负类工单2 105条。将采用本文情感分析模型得到的结果与原始基础情感词典得到的结果进行对比分析,见表2。
由表2可知,采用本文构建的电力客服工单词典针对正向和负向的情感词都有较高的准确率、召回率和值,由此可知,本文设计的电力客服工单情感分析模型是合理的,且具有明显的性能优势。
4 结 语
本文设计了一种电力客服工单情感分析模型,构建了电力客服领域情感专用词典并进行工单情感倾向性分析。采用word2vec工具对采集到的数据进行训练,并用测试集数据对本文提出的模型进行验证分析,结果表明,本文所提方法具有一定的合理性和可行性,可为电力企业客户关系管理提供一定的参考意义,促进企业客户满意度及运营效益的提升。此外,本文主要研究了基于构建的电力客服专用情感词典进行客户情感倾向性分析,但是对于无监督性学习方法情感倾向性分析以及情感强度的分析还有待进一步研究。
参考文献
[1] 李胜宇,高俊波,许莉莉.面向酒店评论的情感分析模型[J].计算机系统应用,2017,26(1):227?231.
[2] SINGH VK, PIRYANI R, UDDIN A, et al. Sentiment analysis of movie reviews: a new feature?based heuristic for aspect?level sentiment classification [C]// Proceedings of 2013 International Multi?Conference on Automation, Computing, Communication, Control and Compressed Sensing (iMac4s). Kottayam: IEEE, 2013: 712?717.
[3] 郗亚辉.产品评论中领域情感词典的构建[J].中文信息学报,2016,30(5):136?144.
[4] 钟将,杨思源,孙启干.基于文本分类的商品评价情感分析[J].计算机应用,2014,34(8):2317?2321.
[5] 刘龙飞,杨亮,张绍武,等.基于卷积神经网络的微博情感倾向性分析[J].中文信息学报,2015,29(6):159?165.
[6] 黄挺,姬东鸿.基于图模型和多分类器的微博情感倾向性分析[J].计算机工程,2015,41(4):171?175.
[7] 刘金硕,张智.一种基于联合深度神经网络的食品安全信息情感分类模型[J].计算机科学,2016,43(12):277?280.