前言:中文期刊网精心挑选了神经网络语义分割范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。
神经网络语义分割范文1
关键词:主题模型;特征表达;多示例多标记学习;场景分类;文本分类
中图分类号: TP181
文献标志码:A
Multiinstance multilabel learning method based on topic model
YAN Kaobi1, LI Zhixin1,2*, ZHANG Canlong1,2
1.Guangxi Key Laboratory of MultiSource Information Mining and Security, Guangxi Normal University, Guilin Guangxi 541004, China
2.Guangxi Experiment Center of Information Science, Guilin Guangxi 541004, China
Abstract: Concerning that most of the current methods for MultiInstance MultiLabel (MIML) problem do not consider how to represent features of objects in an even better way, a new MIML approach combined with Probabilistic Latent Semantic Analysis (PLSA) model and Neural Network (NN) was proposed based on topic model. The proposed algorithm learned the latent topic allocation of all the training examples by using the PLSA model. The above process was equivalent to the feature learning for getting a better feature expression. Then it utilized the latent topic allocation of each training example to train the neural network. When a test example was given, the proposed algorithm learned its latent topic distribution, then regarded the learned latent topic allocation of the test example as an input of the trained neural network to get the multiple labels of the test example. The experimental results on comparison with two classical algorithms based on decomposition strategy show that the proposed method has superior performance on two realworld MIML tasks.
英文关键词Key words:
topic model; feature expression; multiinstance multilabel learning; scene classification; text categorization
0引言
传统的监督学习问题通常定义为单示例单标记学习问题,一个对象用一个示例来表示,同时关联一个标记。定义X为示例空间,Y为标记集合。单示例单标记学习的目的是从一个给定的数据集{(xi,yi)|1≤i≤N}中学习一个函数f:xy,其中:xi∈X是一个示例,yi∈Y是示例xi的一个标记。在机器学习技术[1]日益成熟的条件下,传统的单示例单标记学习方法已经取得了很大的成功。
然而,在现实世界中,一个对象通常是多义性的复杂对象,如果仍用传统的单示例单标记学习方法,不但不能很好地表达出对象丰富的内容信息,而且不能得到对象准确的语义标记集合,因此对于这种多义性对象,可以采用多标记学习方法来处理。在多标记学习[2]方法下,一个对象用一个示例来表示,但是关联多个标记。多标记学习的目的是从一个给定的数据集{(xi,yi)|1≤i≤N}中学习一个函数f:x2y,其中:xi∈X是一个示例,yiY是示例xi的一个标记集合{(yi1,yi2,…,yili)},li是标记集合yi中标记的个数。虽然多标记学习已经取得了很大的成就,但是只用一个示例来表示多义性对象不能有效地表达出多义性对象的复杂内容。
事实上,在多标记学习中,一个标记对应着对象不同的区域,如果能够对一个确定的区域(不是一个整体的对象)和一个特定的标记直接建立对应的模型,将会有效地减少噪声对分类准确性的影响,因此可以采用多示例学习的方法来表示多义性对象的复杂内容。多示例学习[3]的任务是从一个给定的数据集{(xi,yi)|1≤i≤N}中学习一个函数f:2xy,其中:xiX是一个包的示例集合{(xi1,xi2,…,xini)},ni是包xi中示例的个数,yi∈Y是包xi上的一个标记。然而,多示例学习主要用于单标记问题,对于多标记问题需要分解为多个单标记问题进行处理。
为了克服多标记学习和多示例学习方法的缺点,将二者结合起来形成一种多示例多标记学习方法[4],来处理带有复杂内容的多义性对象将会更加合理和有效。多示例多标记学习的目的是从一个给定的数据集{(xi,yi)|1≤i≤N}中学习一个函数f:2x2y,其中,xiX是一个包的示例集合{(xi1,xi2,…,xini)},ni是示例集合xi中示例的个数,yiY是包xi的一个标记集合{(yi1,yi2,…,yili)},li是标记集合Yi中标记的个数。
近年来,多示例多标记学习已经取得了很大的进展,同时也面临着三个主要的难题。首先,由于图像分割技术[5]的限制,很难划分出具有完整语义标记的示例;其次,在划分示例后,传统的做法是提取示例的底层特征,然后建立特征向量和语义标记之间的映射模型,由于特征提取[5]和机器学习技术[1]的限制,如何自动提取示例的高层特征及建立映射模型也是一个难点;最后,由于标记之间复杂的相关性[6],如何建立能够捕获标记之间相关性的模型[7]也是一个难点,同时文献[8]指出了大数据问题也是多示例多标记学习面临的一个新问题。如果能够克服这些主要难题,可以建立一个完美的多示例多标记模型,该模型可以直接学习示例和标记之间的映射关系,同时可以捕获到标记之间的相关性。
1相关研究
1.1多示例学习
多示例学习中,一个样本被看成是一个包含多个示例的包,当需要对一个包进行标记的时候,如果包中至少有一个示例具有对应的标记含义,则将这个包标记为正包,否则标记为负包。虽然多示例学习框架被限制在单标记问题上,但是多示例学习方法已经取得了很多研究成果,针对不同的问题提出了不同的多示例学习方法,此外多示例学习还可以用于图像检索。
1.2多标记学习
对于多义性对象,可以采用多标记学习的方法来处理。文献[6]对多标记学习作了一个全面的综述报告;文献[9]提出了一种基于神经网络的多标记学习方法。从现有的多标记算法可以看出,可以采用两个策略来处理多标记学习问题:一是将多标记问题分解为多个单标记问题。但是在很多情况下标记之间是有相关性的,例如天空和海洋可能会同时出现在同一个场景中,如果仍然用这个策略来处理多标记学习问题,将会丢失这种对提升多分类性能很有帮助的信息。二是直接对示例和标记集合之间建立模型。在一些复杂的模型中,不但可以直接建立示例和标记集合的对应关系,同时也可以得到标记之间的一些相关性。
1.3多示例多标记学习
对于多示例多标记学习,文献[4]中对多示例多标记学习作了一个全面的介绍,并且提出了MIMLBOOST和MIMLSVM算法。MIMLBOOST算法首先将多示例多标记问题转化为多示例问题,然后再采用MIBOOST[10]来处理多示例问题;MIMLSVM算法首先将多示例多标记学习问题转化为多标记问题,然后采用MLSVM[11]算法来处理多标记问题。传统的监督学习方法、多示例学习方法和多标记学习方法都可以通过分解策略从多示例多标记学习中得到,但是采用这种分解策略会丢失很多蕴藏在训练样本中的信息,同时也不能考虑到标记之间存在关联性的问题。后来,文献[12]提出了一种直接学习示例和标记之间映射关系的MIMLRBF算法;文献[7]提出了一种联合多示例和多标记的新颖算法,该算法不但可以直接对示例集合和标记集合之间进行建模,同时还可以捕获到标记之间的关联性;文献[8]则提出了一种针对大数据问题的快速多示例多标记算法。然而,上述文献中提到的方法都没有考虑如何来更好地表示对象的特征这一因素。针对这一问题,本文考虑将特征学习模型融入多示例多标记学习中,以学习到一个更好的特征表达方式,从根源上提升分类算法的准确性。概率潜在语义分析模型可以学习到样本中潜在的主题这一高层特征,本文结合这一特性提出一种新的多示例多标记学习方法PLSANNMIML,以解决多示多标记学习中如何更好地表示对象特征这一问题。
2PLSANNMIML方法
2.1概率潜在语义分析
Hofmann[13]首次提出用概率潜在语义模型对文本进行建模的方法。当用概率潜在语义分析模型处理图像数据时,可以把图像看成是文档,用概率潜在语义分析模型对图像进行建模来发现图像潜在的主题分布。
假设D={d1,d2,…,di}代表一个图像数据集,W={w1,w2,…,wj}代表一个视觉词汇表,这种用概率潜在语义分析模型对图像进行建模的模型是一个发现共现矩阵隐变量的模型,而该共现矩阵的值由nij=(wj,di)组成,其中nij=(wj,di)是一个视觉词wj出现在图像di中的数量。设Z={z1,z2,…,zk}代表没有观测到的潜在主题变量, P(di)代表观测到一张具体图像的概率, P(zk|di)代表一张特定图像在潜在主题空间下的概率分布, P(wj|zk)代表一个视觉词出现在一个确定主题变量下的条件概率。这种生成模型可以用如下步骤表示:
1)以一定的概率P(di)选择一张图像di;
2)以一定的概率P(zk|di)选择一个主题zk;
3)以一定的概率P(wj|zk)生成一个词wj。
经过上面的过程,当得到一个观测点(wj,di)时,潜在的主题变量zk被忽略,产生下面的联合概率模型:
L=logP(wj,di)=∑d∈D∑w∈Wn(wj,di)logP(wj,di)
(1)
在遵循似然原则的条件下,采用期望最大化算法[12]最大化似然函数的对数,从而得到P(wj|zk)和P(zk|di),似然函数的对数表现形式如式(2)所示:
L=logP(wj,di)=∑d∈D∑w∈Wn(wj,di)logP(wj,di)
(2)
2.2神经网络
神经网络[14]由于其在信息处理中具有非线性的自适应能力,已经在人工智能领域中取得了广泛的应用。算法通过具有三层结构的前向神经网络模型[15]来得到样本的标记集合,每层由不同的神经元组成,第一层叫输入层,中间层叫隐藏层,最后一层叫输出层。在每一层中的每个神经元都连接着下一层的所有神经元,但在同一层中的神经之间是没有连接的,当信息从一层传到下一层时,前层中的每个神经元都会有一个激活函数对信息进行变换,该函数选择的是S型的激活函数,其定义是:f(x)=1-ex1+ex。在训练神经网络时,采用的是反向传播学习算法[15]来学习神经网络中神经元的权值。
2.3PLSANNMIML方法
算法主要包括训练和测试两个阶段,流程如图1所示。
2.3.1训练阶段
训练过程包括两个步骤:首先通过概率潜在语义分析模型从所有的训练样本中学习到每个样本的特定主题分布P(zk|di)和每个主题的特定词分布P(wj|zk),每个样本就可以用P(zk|di)来表示;其次再用每个样本的特定主题分布来训练神经网络,具体细节如下所示:
式(3)描述的是神经网络在样本xi上的误差函数。训练过程中算法采用概率潜在语义分析模型将xi转化为主题向量zk。假定标记空间Y有Q个标记,神经网络具有与主题向量zk维数相同的输入和Q个输出,其中Q个输出对应着Q个标记,向量w是在神经网络中需要学习的权值向量。
Ei(w)=∑Qq(ciq-diq)2
(3)
其中:ciq是训练时样本xi在第q个类上的实际输出;而diq是样本xi在第q个类上的目标输出,如果q∈yi则diq的值为1,否则其值为-1。通过结合误差反向传播策略[14],采用随机梯度下降法来最小化式(3)中的误差函数,其过程如下:
假定xji是单元j的第i个输入, wji是关联输入xji的权值大小,netj=∑iwjixji是单元j的网络输出,oj=f(netj)是单元j的实际输出,tj是单元j的目标输出,根据随机梯度下降算法可以得到每个权值的更新公式如下:
wji=wji-ηEiwji
(4)
其中η是学习速率的大小。计算式Eiwji的值时,分两种情况讨论:
当j是输出层的单元时,推导出式(5):
Eiwji=-(tj-oj)oj(1-oj)
(5)
当j是隐藏层的单元时,推导出式(6):
Eiwji=-oj(1-oj)xji∑k∈S[(tj-oj)oj(1-oj)]wkj
(6)
其中S是单元j的输出所能连接到的单元的集合。
2.3.2测试阶段
给定一个测试样本pX,算法首先利用在训练阶段得到的每个主题的特定词分布P(wj|zk)来学习到测试样本的特定主题分布P(zk|dt),然后将学习到的主题分布输入到已经训练好的神经网络,神经网络将会有Q个输出,采用文献[9]介绍的方法选择阈值,通过选择合适的阈值,得到标记的相关集合。
3实验结果与分析
3.1实验步骤
根据选择的模型,算法涉及到三个需要确定的参数变量,分别是词的数量、主题的数量和神经网络中隐层神经元的数量,分别用Words、Topics、Neurons来表示。由于这三个参数对算法的性能有很重要的作用,因此首先需要确定这三个参数的最优值。在确定参数的最优值时,采用汉明损失(Hamming loss)和1错误率(oneerror)这两个评价指标来评估参数对算法性能的影响。确定算法的最优参数后,算法对现实世界中的两种多示例多标记学习任务进行实验,并与现有的多示例多标记算法MIMLBOOST和MIMLSVM进行比较。
实验涉及到两个数据集,每个数据集都有2000个样本。实验时先把每个数据集划分为三部分:1000个样本的训练集合、500个样本的验证集和500个样本的测试集。
其中500个样本的验证集用于确定算法的最优参数。当确定算法的最优参数后,再将1000个样本的训练集和500个样本的验证集合并形成一个1500个样本的训练集,最终每个数据集对应着一个1500个样本的训练集和一个500个样本的测试集。表1是对实验中所用数据集的具体描述。
【答:文本数据集每个包划分出的示例都不相同,一个平均值表示的是一次实验时每个包的示例的平均数,表格中平均数有个范围是对数据集进行不同的划分,进行多次实验时的一个平均值范围,所以是3.56±2.71,也与后面表中的实验数据一致。上面场景数据集,每幅图片都划分成9个示例,所以平均数不变,也可以写成9.00±0.00;
3.1.1场景数据集
实验使用的场景数据集包含2000幅自然场景图像,整个数据集包含的类标记有沙漠、山、海洋、日落、树。数据集中每幅图像的标记都是人工标记的,数据集中超过22%的图像具有多个标记,平均每幅图像的标记数量是1.24±0.44。对图像划分示例后,通过提取每个示例的颜色和纹理特征将其中的每个示例表示为一个18维的向量,并用这个特征向量代表这个示例。
3.1.2文本数据集
实验使用的文本数据集又名为Reuters21578数据集。实验时先对这个数据集进行预处理,形成一个具有2000个文档的数据集。整个文档数据集包含7个类标记,大约15%的文档具有多个标记,平均每个文档的标记数量是1.15±044。当进行示例划分时,采用滑动窗口的技术[16]来形成文档的示例,每个示例对应着一个被大小为50的滑动窗口所覆盖的文本段,最后采用基于词频[17]的词袋模型表示方法来表示生成的示例。
3.2实验结果
图2是采用部分场景数据集作为实验数据,观测不同参数值配置对算法性能的影响。图2(a)~(f)中参数变量的取值范围为[3,21],并且参数变量取整数值;
算法中,学习速率η的值设置为0.1。通过改变参数的配置,采用汉明损失和1错误率来评估参数对算法性能影响,进行了多组实验来确定算法的最优参数值。
实验开始时,如图2(a)和(b)中显示,先确定Neurons和Topics这两个参数的值,其值设置为Neurons=3,Topics=3,Words的变化范围为[3,21]。从图2(a)和(b)中可以看到,当Words取值为7时,汉明损失和1错误率指标取得最小值,算法的分类性能最好。
在图2(c)和(d)中,参数Neurons的值与图2(a)和(b)中的值相同,但是Words的值设置为7,Topics的变化范围为[3,21]。从图2(c)和(d)中可以看出,当Topics取值为9时,汉明损失和1错误率指标取得最小值,算法的分类性能最好。
在图2(e)和(f)中,根据前面的实验结果,参数Words的值设置为7,Topics的值设置为9,Neurons变化范围为[3,21]。从图2(e)和(f)中可以看出,当Neurons取值为9时,汉明损失和1错误率指标取得最小值,算法的分类性能最好。确定算法的最优参数值后,算法对现实世界中的两种多示例多标记学习任务进行实验,并和MIMLBOOST和MIMLSVM进行比较,采用文献[12]中提到的五种多标记学习评价指标来评估算法的性能。表2和表3分别是各个算法在场景数据集和文本数据集上进行实验的结果,同时表4还给出了各个算法在这两个数据集进行实验时所需要的时间。在表2和表3中,表示数值越小算法性能越好,而表示数值越大算法性能越好。
从表2、3中的数据可以看出,对于表中的所有评价指标,PLSANNMIML算法在场景数据集和文本数据集上具有更好的性能。
从表4中可以看出,PLSANNMIML方法在时间上也具有更好的性能,在训练和测试阶段,算法需要的时间都比MIMLSVM算法稍微少些,而且远远要少于MIMLBOOST算法所需要的时间。从所有的实验结果可以看出,PLSANNMIML方法在现实世界中的两种多示例多标记学习任务中具有更优越的性能。
4结语
现有的大部分多示例多标记学习算法都没有考虑怎么样更好地表示对象的特征这一因素,因此提出了一种结合概率潜在语义分析和神经网络的多示例多标记学习方法。概率潜在语义分析模型可以学习到样本中的潜在语义这一高层特征,而神经网络在多标记问题中具有良好的分类性能。对现实世界中的两种多示例多标记学习任务进行实验表明,PLSANNMIML算法对其他的多示例多标记学习算法而言具有很强的竞争力,解决了在多示例多标记学习算法中怎么更好地表示对象的特征这一问题;同时也存在着不足之处,算法依然采用的是分解策略来处理多示例多标记学习问题,同时还忽略了标记之间的相关性。下一步将在融入特性学习模型的基础上寻找其他策略来处理多示例多标记问题,同时也要考虑标记之间的相关性。
参考文献:
[1]
BISHOP C M. Pattern recognition and machine learning: information science and statistics [M]. New York: Springer, 2006: 67-459.
[2]
ZHOU Z, ZHANG M,ZHANG S, et al. Multiinstance multilabel learning [J]. Artificial Intelligence, 2012, 176(1): 2291-2320.
[3]
ZHOU Z. Multiinstance learning: a survey [R/OL]. Nanjing: Nanjing University, National Laboratory for Novel Software Technology, 2004 [20150206]. http:///zhouzh/zhouzh.files/publication/techrep04.pdf.Nanjing, China, Mar. 2004.
[4]
ZHOU Z, ZHANG M, HUANG S, et al. Multiinstance multilabel learning [J]. Artificial Intelligence, 2012, 176(1): 2291-2320.
[5]
PRATT W K. Digital image processing [M]. DENG L, ZHANG Y, translated. Beijing: China Machine Press, 2005:345-398. (PRATT W K. 数字图像处理[M].邓鲁华,张延恒,译. 北京:机械工业出版社,2005:345-398.)
[6]
LI Z, ZHUO Y, ZHANG C, et al. Survey on multilabel learning [J]. Application Research of Computers, 2014, 31(6): 1601-1605. (李志欣,卓亚琦,张灿龙,等.多标记学习研究综述[J].计算机应用研究,2014,31(6):1601-1605.)
[7]
ZHA Z, HUA X, MEI T, et al. Joint multilabel multiinstance learning for image classification [C]// CVPR 2008: Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2008: 1-8.
[8]
HUANG S, ZHOU Z. Fast multiinstance multilabel learning [C]// AAAI 2014: Proceedings of the 28th AAAI Conference on Artificial Intelligence. Menlo Park: AAAI Press, 2014: 1868-1874.
[9]
ZHANG M, ZHOU Z. Multilabel neural networks with applications to functional genomics and text categorization [J]. IEEE Transactions on Knowledge and Data Engineering, 2006, 18(10): 1338-1351.
[10]
XU X, FRANK E. Logistic regression and boosting for labeled bags of instances [C]// PAKDD 2004: Proceedings of the 8th PacificAsia Conference on Knowledge Discovery and Data Mining, LNCS 3056. Berlin: Springer, 2004: 272-281.
[11]
BOUTELL M R, LUO J, SHEN X, et al. Learning multilabel scene classification [J]. Pattern Recognition, 2004, 37(9): 1757-1771.
[12]
ZHANG M, WANG Z. MIMLRBF: RBF neural networks for multiinstance multilabel learning [J]. Neurocomputing, 2009, 72(16/17/18):3951-3956.
[13]
HOFMANN T. Unsupervised learning by probabilistic latent semanticanalysis [J]. Machine Learning, 2001, 42(1/2): 177-196.
[14]
SCHMIDHUBER J. Deep learning in neural networks: an overview [J]. Neural Networks, 2015, 61: 85-117.
[15]
HAYKIN S. Neural networks [M]. YE S, SHI Z, translated. 2nd ed. Beijing: China Machine Press, 2004: 109-176. (HAYKIN S. 神经网络原理[M].叶世伟,史忠植,译.2版.北京:机械工业出版社,2004:109-176.)
[16]
SEBASTIANI F. Machine learning in automated text categorization [J]. ACM Computing Surveys, 2001, 34(1): 1-47.
神经网络语义分割范文2
关键词: 情感分析; 情感倾向性; 词典扩充; 电力客服工单; 主动服务
中图分类号: TN915.853?34; V249 文献标识码: A 文章编号: 1004?373X(2017)11?0163?04
Dictionary expansion based sentiment tendency analysis of power customer service order
GU Bin, PENG Tao, CHE Wei
(State Grid Jiangsu Electric Power Company, Nanjing 210000, China)
Abstract: In order to improve the customer satisfaction and active service consciousness of the electric power enterprises effectively, the textual characteristic of the power customer service order is combined to construct the sentiment analysis model of the power customer service order. The keywords of the service order are extracted according to TF?IDF thought. The word2vec training is used to get the word vector of each word. The cosine similarity is calculated to expand the high similarity field vocabulary to the sentiment dictionary. The service order sentiment analysis and text classification are performed. The validity of the method is verified with experimental analysis. The results show that, in comparison with the original sentiment dictionary, the method of dictionary expansion and service order sentiment tendency analysis is superior, has higher accuracy, and can provide a certain reference significance for the customer relation management of power enterprise.
Keywords: sentiment analysis; sentiment tendency; dictionary expansion; power customer service order; active service
0 引 言
随着电力体制改革的逐步深化,配电市场竞争不断加剧,迫切需要供电企业改变传统的思维方式和工作模式,进一步树立市场化服务意识,从客户需求出发,挖掘客户的潜在需求和内在价值,从而提升客户满意度和运营效益。作为与客户交流、沟通的重要窗口,电力企业95598客服系统记录了海量的客户信息,若能彻底挖掘客服工单中的客户特征、情感信息并了解客户的关注焦点,对电力企业和客户都将具有十分重要的意义[1]。
电力客服工单情感倾向性分析可以有效地发掘客户情感信息和需求,可根据客户情感倾向性识别潜在的投诉客户,可根据反馈信息判别某项业务的实施效果等。针对文本情感倾向性分析,现有的理论研究比较侧重于文本特征提取以及采用机器学习方法对文本进行分类,但是基于具体业务特征进行情感词典扩充的研究还比较少,导致情感倾向性计算往往会存在一定的差异,因此,根据电力行业的特c,进行客户服务工单情感词典扩充及情感倾向性的研究非常有必要。
情感分析是指利用文本挖掘、机器学习技术分析挖掘隐藏在文本中的情感信息,并将其分类为积极情感态度和消极情感态度[2]。目前,国内外关于文本情感倾向性分析已经进行了较多的研究工作[3?7],文献[3]基于情感词间的点互信息和上下文约束,提出一种两阶段的领域情感词典构建算法,提升了情感词情感倾向的识别能力。文献[4]研究了基于矩阵投影(MP)和归一化向量(NLV)的文本分类算法,实现对商品评价的情感分析,不仅可以有效识别商品评论情感性倾向,而且提升了识别效率。文献[5]将词级别向量和字级别向量作为原始特征,采用卷积神经网络提取文本特征并进行情感倾向性分析,结果表明字级别向量可取得较高的准确率。文献[6]提出一种词图模型的方法,利用PageRank算法得到情感词的褒贬权值,并将其作为条件随机场模型特征预测情感词倾向,提升了具体语境下预测的准确性,但是针对文本数量较大的情况准确率较低。文献[7]结合句子结构上下文语义关联信息,提出一种基于深度神经网络的跨文本粒度情感分类模型,提升了分类准确率,但该方法只适应于特定领域,泛化能力较低。
鉴于以上研究现状,本文以电力客户服务领域文本特征为突破口,构建了电力客服工单情感分析模型,基于工单关键词提取对原始的情感词典进行扩充,并对工单情感倾向性进行分析,最后,通过算例应用验证了本文所提方法的有效性。
1 相关工作
1.1 情感分类
情感分类技术的主要目标是基于文本数据识别用户所表达的情感信息,并将文本数据分为正类和负类。当前,针对情感分类的研究,主要从监督学习、基于规则方法、跨领域情感分析等方面展_研究,与此同时,针对文本特征的提取和特征情感判别是情感分类研究的两个关键问题。
1.2 Word2vec介绍
word2vec是Google在2013年开源的一款将词表征为实数值向量(word vector)的高效工具,采用的模型有CBOW(Continuous Bag?of?Words,即连续的词袋模型)和Skip?Gram两种,word2vec采用的是Distributed Representation的词向量表示方式,经过对输入集数据进行训练,可以实现将文本词汇转换为维空间向量,然后基于空间向量相似度来表达文本语义相似度,模型输出结果可用于自然语言处理领域相关工作,比如文本聚类、词典扩充、词性分析等。
word2vec生成词向量的基本思想来源于NNLM(Neural Network Language Model)模型,其采用一个三层神经网络构建语言模型,假设某个词的出现只与前个词相关,其原理示意图如图1所示。
图1中,最下方的为前个输入词,并根据其预测下一个词每个输入词被映射为一个向量,为词语的词向量。网络的第一层(输入层)为输入词语组成的维向量网络第二层(隐藏层)计算为偏置因子,使用激活函数tanh;网络第三层(输出层)包含个节点,每个节点表示下一词的未归一化log概率,并使用softmax激活函数将输出值归一化,最后使用随机梯度下降法对模型进行优化。
图1 NNLM原理模型图
模型的目标函数为:
需要满足的约束条件为:
2 电力客服工单情感分析模型
本文以某电力公司客服工单数据为研究对象,在深入理解电力业务及工单文本语义特点的基础上,建立了一种电力客服工单情感分析模型。首先,在进行文本预处理的基础上,对文本进行分词处理并且完成关键词提取;然后,采用word2vec训练工单数据,并基于关键词进行情感词典扩充,构建电力客服领域专用情感词典;最后,进行工单情感倾向性分析。
2.1 工单文本预处理
由于工单文本数据中存在大量价值含量较低甚至没有价值意义的数据,在进行分词、情感分析中会对结果产生较大的影响,那么在文本挖掘之前就必须先进行文本预处理,去除大量没有挖掘意义的工单数据。工单文本预处理工作主要包括:删除未标注业务类型数据、分句处理、文本去重、短句删除等。
分句处理:将工单数据处理成以句子为最小单位,以句尾标点符号为标志分割,包括“,”,“。”,“;”,“!”等符号。
文本去重:就是去除工单数据中重复的部分,常用的方法有观察比较删除法、编辑距离去重法、Simhash算法去重等。
短句删除:删除过短的文本,如“还可以”,“非常好”等,设置文本字符数下限为10个国际字符。
2.2 电力客户服务领域情感词典构建
2.2.1 分词
本文采用python的jieba分词工具对数据集进行分词,并完成词性标注和去除停用词,由于情感分析通常由名词、形容词、副词和连词等反映出来,因此删除词性为动词的词汇。jieba中文分词工具包包含三种分词模式:精确模式、全模式和搜索引擎模式,综合分词效果及后文的研究,本文选择精确模式进行分词,三种模式的分词效果如表1所示。
另外,在实际的分词过程中,出现了个别分词结果与实际的语义不符,原因是字典中缺少相关的专有名词,或者是这些词语的词频较低,比如“客户/咨询/抄/表示/数等/信息”,“客户/查户/号”,“变压器/重/过载”,“查/分/时/电价”等,因此,需要对原有词典进行更新。python中采用jieba.load_userdict(dict.txt)语句添加自定义词典,其中dict.txt是保存字典内容的文件,其格式为每一行分三部分:一部分为词语;另一部分为词频;最后为词性(可省略),用空格隔开。
2.2.2 关键词提取
构建电力客户服务领域专属情感词典,需要尽可能保证领域词典的多样性,关键词的提取要求一方面能够尽量反应出这个特征项所属的类别,另一方面能够把自身属于的类别与其他类别有效地区分开来,依据此原理,本文采用TF?IDF思想进行电力客户服务领域关键词的提取,关键词选取的权重决定了情感词典的多样性,为下文情感词典的扩充做好基础,算法原理如下。
将工单文档和特征项构建成二维矩阵,各条工单的特征向量可表示为:
式中:表示第个工单中第个特征中的词频。则与为:
式中:表示语料库中的文件总数;表示包含词语的文件总数,防止分母为零的情况,通常对分母做+1的处理。因此,的计算公式为:
实际应用中,依据维度的大小确定相应的权重大小,这样就形成了代表语料特征的关键词集。
2.2.3 基于word2vec进行情感词典扩充
随着经济技术的发展及客户文化的差异,不同的客户通常使用不同的词汇描述同一个对象特征,且电力行业中存在许多专用词汇,同样也表达了一定情感,但这些词脱离于现有的情感词典,因此,有必要对现有的情感词典进行扩充,进而提升工单情感倾向性分析的准确性[8]。选取中国知网情感词集和大连理工大学林鸿飞教授整理和标注的中文情感词汇本体库作为基础的情感词典,然后依据权重较大的关键词对原有词典进行扩充[9]。基于上文电力客户服务工单中提取的关键词,采用word2vec工具对工单数据集进行训练,根据CBOW模型或Skip?Gram模型训练出每个词的词向量,并通过计算余弦相似度得到文本语义上的相似度,并将相似度较高的词语加入到情感词典中。
依据上文分词后得到的工单文本数据,采用Linux Version2.6环境对数据进行训练,操作命令如下:
./word2vec ?train data95598.txt ?output vectors_95598data.bin ?cbow 0 ?size 200 ?winodw 5 ?negative 0 ?hs 1 ?sample le?3 threads 12 ?binary 1
其中,data95598.txt为输入数据集;vectors_95598data.bin为模型输出文件;采用Skip?Gram模型进行训练,词向量维度设置为200;训练窗口大小设置为5;-sample表示采样的阈值,训练结果采用二进制方式存储。这样,得到的模型文件中就包含了每个词的词向量。
采用余弦相似度计算关键词的相似词,即基于生成的词向量计算两个维向量的相似度,因为word2vec本身就是基于上下文语义生成的词向量,因此,余弦值越大,表明两个词语的语义越相似。向量与的余弦计算公式如下:
通过distince命令计算输入词与其他词的余弦相似度,经过排序返回相似词列表,再经过人工筛选,将这些词加入到原有情感词典中,实现对原有情感词典的扩充。
2.3 工单情感倾向性分析
工单情感倾向性分析是基于构建的情感词典,计算每个客服工单的情感分值,从而判断工单的情感倾向性。通过上文处理,每一个客服工单都可以被分割成一个个子句片段,表示为每个子句片段由一系列分词后的词语构成,提取每个句子的情感词、否定词等,表示为依据情感词典中给定词的极性值计算每个子句的情感值,分别算每个句子的正向和负向情感分值,计算公式如下:
式中:SenSum表示某个客服工单的情感分值;表示第个子句中第个正向情感词的极性值;表示第个子句中第个负向情感词的极性值。
在否定子句中,当为偶数时,否定子句情感为正;当为奇数时,否定子句情感极性为负。对所有的子句情感分值求和并求均值,就得到了整个客服工单的情感值,进而判断客服工单的情感倾向性,若SenSum为正,表示工单情感为正向;否则,工单情感为负向。
3 实验分析
3.1 实验数据准备
本文的实验环境基于Linux系统,采用python语言进行算法的实现,抽取某电力公司95598客服工单数据作为研究对象,运用jieba包进行中文分词处理,并采用word2vec训练数据生成词向量及扩充情感词典。由于工单数据是按照业务类型生成的,因此选取业务类型为表扬的工单作为正类,选取业务类型为投诉的作为负类,其中,正类和负类数据比例为21,共得到20 000条数据作为实验数据集,随后进行情感倾向性分析,随机选择70%的数据作为训练集,30%的数据作为测试集。
3.2 评价指标
当前针对文本分类效果评估有许多方法,本文选择准确率(precision)、召回率(recall)和值进行文本情感分类效果的评估,准确率是对分类精确性的度量,召回率是对分类完全性的度量,值越大说明分类效果越好,准确率和召回率是一组互斥指标,值是将二者结合的一个度量指标,值越大,分类效果越好,并将通过本文情感分析模型得到的结果与业务员标注的类型做对比分析。它们的计算公式如下:
3.3 实验结果及分析
本文基于抽取到的客服工单数据,结合设计的电力客服工单情感分析模型,实现对电力客户服务领域情感词典的扩充,并基于构建的电力客服领域专属词典进行工单情感倾向性分析,70%的数据用于训练word2vec并进行情感词典的扩充,30%的数据用于测试工单情感分类的准确性。测试集共包含工单数6 000条,其中正类工单3 895条,负类工单2 105条。将采用本文情感分析模型得到的结果与原始基础情感词典得到的结果进行对比分析,见表2。
由表2可知,采用本文构建的电力客服工单词典针对正向和负向的情感词都有较高的准确率、召回率和值,由此可知,本文设计的电力客服工单情感分析模型是合理的,且具有明显的性能优势。
4 结 语
本文设计了一种电力客服工单情感分析模型,构建了电力客服领域情感专用词典并进行工单情感倾向性分析。采用word2vec工具对采集到的数据进行训练,并用测试集数据对本文提出的模型进行验证分析,结果表明,本文所提方法具有一定的合理性和可行性,可为电力企业客户关系管理提供一定的参考意义,促进企业客户满意度及运营效益的提升。此外,本文主要研究了基于构建的电力客服专用情感词典进行客户情感倾向性分析,但是对于无监督性学习方法情感倾向性分析以及情感强度的分析还有待进一步研究。
参考文献
[1] 李胜宇,高俊波,许莉莉.面向酒店评论的情感分析模型[J].计算机系统应用,2017,26(1):227?231.
[2] SINGH VK, PIRYANI R, UDDIN A, et al. Sentiment analysis of movie reviews: a new feature?based heuristic for aspect?level sentiment classification [C]// Proceedings of 2013 International Multi?Conference on Automation, Computing, Communication, Control and Compressed Sensing (iMac4s). Kottayam: IEEE, 2013: 712?717.
[3] 郗亚辉.产品评论中领域情感词典的构建[J].中文信息学报,2016,30(5):136?144.
[4] 钟将,杨思源,孙启干.基于文本分类的商品评价情感分析[J].计算机应用,2014,34(8):2317?2321.
[5] 刘龙飞,杨亮,张绍武,等.基于卷积神经网络的微博情感倾向性分析[J].中文信息学报,2015,29(6):159?165.
[6] 黄挺,姬东鸿.基于图模型和多分类器的微博情感倾向性分析[J].计算机工程,2015,41(4):171?175.
[7] 刘金硕,张智.一种基于联合深度神经网络的食品安全信息情感分类模型[J].计算机科学,2016,43(12):277?280.
神经网络语义分割范文3
关键词:图书馆;乱架检测;图像分割;字符识别;深度学习
中图分类号:TB
文献标识码:A
doi:10.19311/ki.16723198.2016.25.087
1概述
利用现代智能处理技术特别是用计算机代替人们自动的去处理大量的图像信息,能够解决人类器官的分辨能力容易受到环境、情绪、疲劳等因素的影响,从而部分代替人工劳动,大大提高生产效率。近年来,将传统的工作进行数字化和自动化加工逐渐成为图书馆行业越来越重视的工作内容之一。但是目前的图书馆数字化工作仍存在众多没有解决的问题。
图书乱架的整理工作是图书馆日常维护工作的一个重要组成部分。由于书籍众多,当出现不同种类的图书放置在一起时,工作人员很难人工将错误放置的图书进行正确地归类,即使能够做到,也会花费很长的时间和大量的精力,导致人力资源的浪费。
2006年,深度学习(Deep Learning)开始在学术界和工业界引领发展前沿,其中深度学习认为:1)多隐层的人工神经网络学习得到的特征对数据有更本质的刻画,有利于分类和检测;2)深度神经网络在训练上的难度,可以通过“逐层预训练”来有效克服。基于深度学习的图像视觉识别技术已经在许多行业中得到了应用,如检验零件的质量;识别工件及物体的形状和排列形态等。
本文结合图书馆日常管理中遇到的图书乱架这一实际问题,以书脊视觉图像为切入点,引入深度学习中的SoftMax回归,设计出一种包括单册图像分割、字符识别、语义特征提取以及归类判别等环节的图书乱架检测算法,其有效性已在实验中得到较好的验证。
2书脊图像的定位分割
由于获取的图像有可能会出现模糊,因此需要对图像进行预处理。将拍摄的书脊图像近似看成平稳过程,使用Wiener滤波器进行幅度相位去模糊。Wiener滤波器的基本原理是将原始图像f和对原始图像的估计f^看作随机变量,按照使f和对估计值f^之间的均方误差达到最小的准则进行图像复原。
然后使用Canny算子进行边缘检测,并进行纵向和横向的直线跟踪,对两条直线之间的区域进行判断,如果是书脊区域,就进行分割,然后定位第二本书,直到处理完整幅图像。
图1(a)为利用Canny算子进行边缘检测出来的结果,得到了所有书籍的边缘;图1(b)是对书籍进行分割定位的结果,把定位到的目标用直线标出,以供后续处理。
3书脊图像的字符识别
由于汉字的类别较大、结构复杂和类似字多,造成汉字的识别难度比较大。传统的仅用一种特征来识别汉字的方法已不能满足汉字识别的要求。因此,本文采用了二次识别的方法对汉字字符进行识别,第一次分类利用汉字的笔画穿过数目特征,第二次是对那些首次仍不能区别开的汉字利用汉字四角的能量值密度特征进行区分。
本文的汉字特征选择了笔画穿过数目和能量值密度这两个特征。笔画穿过数目是指对汉字图像的水平、垂直两个方向进行扫描,然后统计这两个方向上扫描线出国汉字笔画的次数即得到汉字的笔画直方图,得到笔画穿过次数的特征向量。
在进行汉字特征匹配时,首先对待识别的汉字笔画穿过数目特征进行提取,记该特征为C。识别时,首先计算待识别汉字与标准库中汉字的距离d,d定义为待识别汉字的笔画穿过数目矩阵C与标准库中汉字的笔画穿过数目矩阵B的对应值差值的绝对值之和,其表达式为
d=∑ni=1∑mj=1cij-bij
式中cij为矩阵C中的元素,bij表示矩阵B中的元素。
给定一个阈值σ,若距离dσ,则该字不能被识别,否则把该字放入二级识别队列中,如果二级队列中只有一个字,就判别这个字为要识别的字,若二级队列中不只一个汉字,则要对二级识别队列中的汉字进行二级识别。
在二级识别里用能量值密度作为特征,提取这些汉字的能量值密度。设一阈值为ε,计算待识别汉字的能量值密度矩阵和标准库汉字的能量值密度矩阵中对应值的绝对值之和,差值最小的汉字判别为要识别的汉字。
4语义特征提取
利用识别出来的字符,对其进行语义特征的提取,以判断书籍属于哪一类。首先通过在原始文本语义空间提取文本的局部分布信息,构造拉普拉斯矩阵和局部密度矩阵,然后通过奇异值分解SVD和广义特征值分解GEVD求解特征变换矩阵,最后实现文本数据的降维空间聚类。
给定m个文本数据的原始特征语义空间描述X=(x1,x2,…,xm)T,这里xi为文本i的特征向量描述,包含文本类别信息相关的关键词、主题词以及文本中出现的高频词等描述信息,并且xi中的每一个特征元素记录了这些词条的重要程度和出现的频度。
对X按列进行基于欧几里得距离的kNN近邻算法获取点向量xi的k个邻近点N(xi),并采用高斯核将邻接点向量的欧几里得距离转化为相似度:
sij=exp(-xi-xj2),xj∈N(xi)
得到文本集X的相似矩阵S,该矩阵为对称矩阵。通过矩阵S构造对角矩阵D,其中dii=∑jsij,令L=D-S,为谱图数据的拉普拉斯矩阵,为对称矩阵。利用局部密度矩阵D求取文本向量均值=∑ixidii∑idii,并将文本归一化i=xi-,对归一化的进行奇异值分解,降低文本的语义维度,简化数据描述。并通过非监督判别分析得到降维文本语义空间,即判别语义特征提取,获取分类判别能力最强的前l个语义特征。
在特征提取后的降维空间采用k-means聚类,进行文本分类,即语义特征的提取。
5书籍乱架放置的判别
进行了语义特征提取之后,为了检测书籍的乱架放置。因此,需要将提取到的语义特征进行分类。为了尽可能准确地进行分类,采用深度学习的方法进行模型的训练。其中训练过程分为两个阶段:贪心的逐层预训练和整个模型的全局微调。
在逐层训练预阶段,每次只训练模型的一层,然后将当前层的输出作为下一层的输入,进行下一层的训练,直到预训练完所有的层。
在模型的全局微调阶段,由于乱架放置的书籍的种类可能是多个,所以采用softmax回归多类分类器。Softmax回归多分类器是logistic回归模型在多分类问题上的推广,在多分类问题中,类标签y可以取两个以上的值。假设共有k个类别,则softmax regression的系统方程为
hθ(x(i))=p(y(i)=1|x(i);θ)p(y(i)=2|x(i);θ)p(y(i)=k|x(i);θ)=1∑kj=1eθTjx(i)eθT1x(i)eθT2x(i)eθTkx(i)
其中,x(i)为第i个输入样本,θ为系统参数,p为样本取特定类别时的概率。
此时,系统的损失函数方程为:
J(θ)=-1m∑mi=1∑kj=11y(i)=jlogeθTjx(i)∑kl=1eθTlx(i)
其中,1・是一个指示性函数,即当大括号中的值为真时,该函数的结果就为1,否则其结果为0。θ为代价最小化时所需要满足的系统参数。实际实现时,首先使用具有先验归属标记的书籍信息样本按照以上方式对书籍归属学习器进行训练,得到训练好的归属规则学习器。将提取的书籍信息输入到归属规则学习器,学习器输出到归属规则库进行书籍类别的判别,将判别出来的结果输入到乱架判决器,进行乱架检测,如果检测出来有书籍分错类,则会输出乱架警报。
6实验结果与分析
利用书脊检测出来的结果,进行字符检测并对检测出来的字符进行语义识别,判断某一本书是不是放错了类别,如果放错,则框出放错的书籍并发出警报。
图2(a)中都是科技类的书籍,并没有其他类的书籍,所以输入的这张图片并不会输出乱架报警;图2(b)中除了科技类的书籍之外,还有一本建筑类的书籍混杂其中,所以系统会把这本书检测出来并用交叉直线醒目地标示出来。
中除了科技类的书籍之外,还有一本美术类的书籍混杂其中,所以系统会把这本书检测出来并用直线标示出来。
图2和图3只是笔者为了演示系统的运行效果而给出的个例图示,限于篇幅所限不能穷尽所有曾经检测处理过的案例。笔者曾经对科技类、哲学类和艺术类为主体的大容量样本集的乱架图像进行了分析,每个样本集的分析耗约为300~320秒,大大高于人工检测的速度。乱架检测实验的样本集实验结果列于表1之中。
7结论
在图书馆系统中利用机器视觉的方法进行书籍定位和检测是视觉研究的一个重要方向。本文给出了一种综合运用相关视觉图像技术对乱架图书进行自动检测的系统设计。实验表明,该方法可通过程序设计完全有计算机自动实现,平均检出率超过90%,速度快稳定性好,处理时间大大小于人工检测时间,并且能够在很大程度上降低图书管理员的劳动强度,有助于提高大型图书馆的架上书籍整理效率。
参考文献
[1]李因易.图像处理技术在图书馆藏书清点中的应用研究[D].贵阳:贵州大学,2006.
[2]方建军,杜明芳,庞睿.基于小波分析和概率Hough变换的书脊视觉识别[J].计算机工程与科学,2014,(36):126131.
[3]何耘娴.印刷体文档图像的中文字符识别[D].秦皇岛:燕山大学,2011.
[4]D.-J. Lee,Y.Chang,J. K.Archibald,C.Pitzak.Matching book-spine images for library shelf-reading process automation[C].in Automation Science and Engineering,2008.CASE 2008. IEEE International Conference on, 2008:738743.
[5]戴臻.内容文本分类中的语义特征提取算法研究[D].长沙:中南大学,2010.
[6]Y.Bengio, Learning deep architectures for AI[J].Foundations and trends in Machine Learning, 2009,(9):1127.
[7]Y. Bengio.Deep Learning of Representations for Unsupervised and Transfer Learning[J].in ICML Unsupervised and Transfer Learning,2012:1736.
[8]P.Baldi. Autoencoders, Unsupervised Learning,and Deep Architectures[J].in ICML Unsupervised and Transfer Learning,2012:3750.
神经网络语义分割范文4
关键词:图像识别;OCR;题库采集;移动终端;特征建模
中图分类号:G434 文献标识码:A 论文编号:1674-2117(2016)12-0075-04
采集题库的现状
随着经济和社会的发展、“互联网+”的广泛应用及教育观念的更新,我们迫切需要科学、方便、完善的网络型题库管理系统。试题库建设是教育现代化的需要,是考教分离、最大限度提高办学效益的需要,因此,进行区域网络试题库系统的建设和研究具有十分重要的意义。
受限于教材版本和区域应用层面的需求,采购商业化的题库并不能完全满足教育教学的实际要求。手握大量纸质试卷的老师们,迫切需要一个录入神器,方便快捷地将其录入到题库系统里。
利用基于移动终端的图像文字识别技术将文字和图片迅速录入题库是我们在移动端系统开发的应用亮点。它能够大幅提高对质量不高图像的识别率,其关键算法对图像的噪声、亮度明暗不一致和规格凌乱的问题进行了很好的处理。它能够将图像上传到服务器进行在线识别,在识别过程中先对图像进行消噪,然后对亮度进行均衡处理及对图像阈值分割,提高了图像识别的成功率。
题库采集系统工作流程
题库采集主要分为图像采集、图像识别和标注三个过程。整体的工作流程包括:①系统启动,进入主界面,可选择开始拍摄阅卷或读取设备中已有的图像,如选择拍摄题目,进入图像采集模块,调用移动设备的摄像头进行拍摄,拍摄成功后,跳转至识别界面,如选择读取相册已有图像也跳转至识别界面。②在识别界面上显示出拍摄或者读取的相册图像,首先调用图像预处理模块对图像进行预处理,输出预处理后的图像,然后调用图像校正模块对预处理图像进行校正,输出校正图像,最后调用图像识别模块对校正图像进行识别,输出识别结果。③调用标注模块对识别结果进行分类管理,为题目添加系统属性,如学科、章节、知识点类目、题型、难度系数等标签。图1为题库采集系统工作流程示意图。
OCR智能模型设计思路
在人工智能领域,模拟人类图像识别活动的计算机程序,人们提出了不同的图像识别模型――模板匹配模型。这种模型认为,识别某个图像,必须在过去的经验中有这个图像的记忆模式,又叫特征模型。当前的刺激如果能与大脑中的模型相匹配,这个图像也就被识别了。例如,有一个字母A,如果在脑中有个A模板,字母A的大小、方位、形状都与这个A模板完全一致,字母A就被识别了。图像识别中的模型识别(Pattern Recognition)利用计算机和数学推理的方法对形状、模式、曲线、数字、字符格式和图形自动完成识别、评价的过程。
那么如何通过模型的学习提高OCR的智能判断水平呢?我们主要从以下三个方面做了实践研究。
1.采集识别优化
(1)二值化处理
二值图像在数字图像处理中占重要地位,其在处理实际图像过程中地位更加突出。要应用二值图像,扫描文档之后的第一步就是对灰度图像根据所选阈值进行二值化处理。二值图像是像素值为0或255的像素点集合,如此一来,图像的数据量大大减少,但图像的基本轮廓信息得以保留。此项的关键是所选取的阈值是否得当,不当则会减弱二值图像的处理效果。常用的阈值选取方法有固定阈值法、平均阈值法、直方图法、Means法四种。
谷歌公司在HP公司Tesseract光学字符识别引擎的基础上做了深度加工,其中对阈值的自适应分类器和两步矫正法的应用大大提高了文本的识别效率。近几年来,百度针对商业运用开发了自然场景OCR API服务,依托百度的OCR算法,提供了整图文字检测、识别、整图文字识别、整图文字行定位和单字图像识别等功能。目前火热的作业帮APP就是基于百度识别API做的延伸产品(如图2)。
(2)图像去噪与矫正
任何一幅原始图像,在其获取和传输的过程中,都会受到各种噪声的干扰,使图像质量下降,淹没其特征,对图像分析非常不利。为抑制噪声、改善图像质量所进行的处理被称为图像平滑或去噪。
图像平滑是用于突出图像的宽大区域和主干部分(低频部分)或抑制图像噪声和干扰(高频部分),使图像平缓渐变,减小突变梯度,改善图像质量的图像处理方法。它属于图像增强的一部分,主要的图像平滑方法有均值滤波、中值滤波、灰度形态学滤波、小波滤波、高斯低通滤波以及统计方法滤波。
已获得的文本图像有些不可避免地会发生倾斜,这样会给后面文字的行切分和列切分以及文字的识别带来困难,所以需要对获取的图像进行倾斜校正。图像的倾斜校正最关键的是倾斜角的检测,我们主要采用平行四边形法进行文本图像的校正(如图3)。根据拍摄者给出的一系列文件位置点,用位置点的坐标结合模型拟合出文本线,根据文本线与水平线之间的差距进行精确恢复,以得到水平分布的文本行。
2.特征提取与建模
特征提取是图像识别的重要步骤,为了保证后续处理的质量,生成的特征要具备描述物体的典型特性,如独特性、完整性、几何变换下的不变性、灵敏性以及抽象性。我们设计的系统的特征模型包括文字特征、图片特征、公式特征等。
提取图像特征关系可以有两种方法:一是对图像进行合理地分割,划分出图像中所包含的对象或区域,然后根据这些区域提取图像特征,并建立索引;二是简单地将图像均匀地划分为若干规则子块,然后对每个图像子块提取特征,并建立索引。
图像特征建模的基本原则是根据图像的视觉内容和可获得的指导信息来确定对应的文本语义描述。在图像标注任务中会涉及两种不同的媒体:一是图像,二是文本。这两种媒体具有良好的互补性,可以协作传递信息,正所谓“图文并茂”。由这两种媒体可以产生4种关系,即图像间关系(IIR)、词间关系(WWR)、由图像到词的关系(IWR)和由词到图像的关系(IR)。
3.基于标注模型的学习与训练
我们通常采用两两图像之间的视觉相似性(pairwise similarity)来建立以图像为节点的相似图,但这种方式由于没有考虑到数据集或某个数据子集内的结构分布信息,效果不能令人满意。因此我们引入了第二个以词为节点的图学习过程,用来实现对图像标注的改善。
最常见的是属性相关性,如“李白”是“古诗文”的关系。除此之外,词汇之间还存在多种相关性,如“凸透镜”与“光”之间有着很强的联系,这种相关性不依赖于特定数据集,它是人们在生活中大量知识的积累和反映。当一幅图像已被标为“凸透镜”“光”等词汇后,初中物理作为该图像标注词汇的概率就会相应提升。为了获取这种相关信息,一种方法是从训练数据集中利用已标注词汇间的共生概率来计算词汇间的关系。该方法基于已标注信息,相对准确,但它不能反映更广义的人的知识。于是,我们可以采用另一种方法,利用具有大量词汇的、包含了人的知识的结构化电子词典来计算词汇间的关系。与统计方法相比,词典包括了更加完整的大数据关联信息。由此我们设计了基于标注的模型学习体系(如下页图4),通过提取题目图像的特征点绑定其隐形属性,再与拍摄者提供的显性属性做比对,进行数据建模,并引导系统修正其三大特征库(文字、图片、公式),实现自我学习。
需要注意的是,基于标注信息描述由图到标签的关系,更适合按照多标记分类(multilabel classification)问题来解决。具体而言,假设标注词汇服从多项式分布,由此将图像标注归为多类别分类问题,而题库的分类方式恰恰符合这样的多标记模型(相对固定是显性标签:学科、学段、知识点、章节、难度等)。
注意事项
1.基于API方式的接入能使产品得到快速开发
例如,当前百度通过专业服务分发平台APIStore开放百度文字识别技术,让开发者可以零成本使用基于移动应用的OCR技术,为开发者创新应用提供了更多的选择。
2.题库特征建模要考虑学科特征
实践证明,文科和理科的题目有着截然不同的特征属性,如语文更注重词汇与语法方面的训练,而数学包含了大量的公式和二维化的图像。往往数学在小学和中学阶段的题目也会表现出不同的特征属性,在建模的同时要注意抽取。
3.未来的方向是要构建基于题库图像模型的题库推送规则
当题库的建构达到一定数量之后,我们要将图像和翻译成的题目都保存下来,再根据拍摄者的需求做相关的推送,根据其使用的情况(如点击率、评价等)再对模型进行修正。
从目前的技术发展角度看,突破性来自于机器语言翻译方面的研究成果:通过一种递归神经网络(RNN)将一种语言的语句转换成向量表达,并采用第二个RNN将向量表达转换成目标语言的语句。而谷歌将以上过程中的第一种RNN用深度卷积神经网络CNN取代,这种网络可以用来识别图像中的物体。此种方法可以实现将图像中的对象转换成语句,对图像场景进行描述。概念虽然简单,但实现起来十分复杂,科学家表示,目前实验产生的语句合理性不错,但还远谈不上“完美”,这项研究目前还处于起步阶段。相信在不久的将来此项发明将应用于教学领域,那么基于云模式下的图像识别系统将得到一个质的飞跃,它也将使图像识别与深度学习更加紧密地联系在一起,最终实现系统对互联网上教育资源摘取和自学习的强大功能。
参考文献:
[1]黄明明.图像局部特征提取及应用研究[D].北京:北京科技大学,2016.
[2]刘淼,杨镇豪,谢韵玲,谢冬青,唐春明.Android图文同步识别系统的设计和实现[J].计算机工程与设计,2014(06).
[3]李龙卓.基于形状特征的图像检索技术研究[D].青岛:青岛科技大学,2015.
[4]付芦静,钱军浩,钟云飞.基于汉字连通分量的印刷图像版面分割方法[J].计算机工程与应用,2015(05).
神经网络语义分割范文5
【关键词】液压系统;现状;发展趋势;故障诊断技术
一、液压系统故障诊断技术发展现状
液压系统故障诊断技术是随着液压设备不断高度自动化和复杂化以及对液压系统工作可靠性要求越来越高而发展起来的,是针对现代液压设备需要及时排除液压故障而提出来的,是将医疗诊断中的基本思想推广到液压工程技术而形成的,是建立在液压控制理论,信息理论和电子技术、传感器技术、人工智能技术等基础上的一门综合性新技术。液压传动是三大传动技术之一,与机械传动、电力传动相比,液压传动系统具有其独特的优点,即广泛的工艺适应性、优良的控制性能和较低廉的成本,并且功率大、响应快、精度高,已经广泛应用于冶金、制造等领域。
二、液压系统的故障原因分析
(1)主观诊断法。主观诊断法主要是依靠简单的诊断仪器,凭借个人的实践经验,判别故障发生的部位及其原因。这种方法要求诊断人员掌握丰富的故障机理知识和诊断经验,需利用系统或元件的结构、模型和功能等方面的知识,综合分析才能了解。(2)基于模型诊断法。基于模型的诊断法是先运用一定的数学手段描述系统某些可测量特征量,这些特征量在幅值、相位、频率及相关性上与故障源之间存在着联系,然后通过测量、分析、处理这些特征量信号,来判断故障源所在。这种方法实质上是以传感器技术和动态测试技术为手段,以信号处理和建模处理为基础的诊断技术。(3)智能诊断技术。液压系统故障智能诊断技术是人工智能技术在液压系统故障诊断领域中的应用,它是计算机技术和液压系统故障诊断技术相互结合与发展进步的结果。智能诊断的本质特点是模拟人脑的机能,又能比人脑更有效地获取、传递、处理、再生和利用故障信息,成功地识别和预测诊断对象的状态。因此,智能诊断技术是液压系统故障诊断的一个极具生命力的发展方向。目前的智能诊断研究主要从两个方面开展:基于专家系统的故障智能诊断技术和基于神经网络的液压系统故障智能诊断技术。
三、液压故障诊断技术发展趋势
(1)多种知识表示方法的结合。近几年来,在面向对象程序设计技术的基础上,发展起来了一种称为面向对象的知识表示方法,为这一问题提供了一条很有价值的途径。在面向对象的知识表示方法中,传统的知识表示方法如规则、框架、语义网络等可以被集中在统一的对象库中,而且这种表示方法可以对诊断对象的结构模型进行比较好的描述,在不强求知识分解成特定知识表示结构的前提下,以对象作为知识分割实体,明显要比按一定结构强求知识的分割来得自然、贴切。(2)经验知识与原理知识的紧密结合。关于深浅知识的结合问题,可以各自使用不同的表示方法,从而构成两种不同类型的知识库,每个知识库有各自的推理机,它们在各自的权利范围内构成子系统,两个子系统再通过一个执行器综合起来构成一个特定诊断问题的专家系统。这个执行器记录诊断过程的中间结果和数据,并且还负责经验与原理知识之间的“切换”。这样在诊断过程中,通过两种类型知识的相互作用,使得整个系统更加完善,功能更强。(3)多种智能故障诊断方法的混合。混合智能故障诊断系统的发展有如下趋势:由基于规则的系统到基于混合模型的系统、由领域专家提供知识到机器学习、由非实时诊断到实时诊断、由单一推理控制策略到混合推理控制策略等。(4)虚拟现实技术将得到重视和应用。虚拟现实技术是继多媒体技术以后另一个在计算机界引起广泛关注的研究热点,它有四个重要的特征,即多感知性、对存在感、交互性和自主性。从表面上看,它与多媒体技术有许多相似之处。(5)数据库技术与人工智能技术相互渗透。人工智能技术多年来曲折发展,虽然硕果累累,但比起数据库系统的发展却相形见绌。其主要原因在于缺乏像数据库系统那样较为成熟的理论基础和实用技术。人工智能技术的进一步应用和发展表明,结合数据库技术可以克服人工智能不可跨越的障碍,这也是智能系统成功的关键。对于故障诊断系统来说,知识库一般比较庞大,因此可以借鉴数据库关于信息存储、共享、并发控制和故障恢复技术,改善诊断系统性能。
神经网络语义分割范文6
关键词:歌曲中歌声的识别;MFCC;特征聚类变换;高斯混合模型
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2016)31-0170-02
Abstract: Using MFCC directly as feature parameters for singing voice detection in songs leads to large amount of feature parameters and insufficient singer’s singing characteristics. Aim to this, an approach based on clustering and transform of MFCC is proposed in this paper. After GMM clustering of MFCC, the mean of each individual Gaussian distribution is adopt as the new feature for the SVM classifier. The new feature utilizes GMM’s great ability of data description, so as to highlight singer’s singing characteristics and reduce the amount of feature parameters. The experimental results show that the approach proposed in this paper performs a little well than the combination of MFCC and standard GMM, along with the decreasing amount of processing data .
Key words:singing voice detection;MFCC;feature clustering and transform
1 引言
歌曲中歌声识别的任务是,在歌曲中定位歌手开始歌唱以及持续的片段[1]。歌曲从结构上通常可以划分为歌手演唱部分和纯伴奏部分,其中歌手演唱部分通常是人声与伴奏音乐的叠加,而纯伴奏部分则不含人声、纯粹由伴奏乐器的声音构成。目前在歌曲中歌声识别方法中,常用的声学特征参数有:线性预测系数(Linear Predict Coefficients,LPC)[1]、感知线性预测系数(Perpetual Linear Predict Coefficients,PLPC)[2]、梅尔频率倒谱系数(Mel - Frequency Cepstral Coefficients,MFCC)[3][4]、对数频率功率系数(Log Frequency Power Coefficients,LFPC)[5]等。而目前在歌曲中歌识别方法中,常用的分类器包括:隐马尔科夫模型(HMM)[1]、高斯混合模型(GMM)[3][4]、支持向量机(SVM)[6]、人工神经网络(ANN)[7]等。文献[8]的研究结果表明,在使用同一分类器对各种声学特征进行歌曲中的歌声识别时,MFCC的识别效果最好。同时,研究表明,GMM具有较强的数据描述能力,但分类能力较弱,而SVM的数据描述能力较弱,但分类效果更好[9-10]。因此,本文尝试采用MFCC作为声学特征,提出使用GMM和SVM相结合的方法来对歌曲中的歌唱部分和纯伴奏部分进行区分。
MFCC特征参数不仅可用于话者识别,还用于语音识别、语种识别等,是因为MFCC特征参数中不仅包含说话人信息,还包含丰富的语义信息、语种信息等多种信息。因此,直接采用MFCC作为歌曲中歌声识别的特征参数,将会导致特征参数中含有大量冗余信息、存在数据量大的问题。同时,特征参数中包含歌手的演唱特征较少,需要收集大量歌曲样本,即包含各种歌手演唱的歌曲样本,才能表征出歌手的演唱特征。同时,训练歌唱GMM模型和伴奏GMM模型都需要较多的训练数据。以上这些因素都会导致数据处理量很大。
针对上述问题,本文提出一种对MFCC特征进行聚类变换的歌曲中的歌声识别方法。通过对MFCC特征进行GMM聚类变换,得到各个单高斯分布的均值作为SVM分类器的特征参数。既利用了GMM数据描述能力强的特点,突出歌手歌唱的个性特征,降低特征参数的数据量;同时也利用了SVM分类能力强的优势。
2 对MFCC特征的聚类变换
2.1 MFCC特征的提取
使用经过人工标注的歌曲作为训练数据,经过预加重,加汉明窗分帧处理,本文采用的帧长为20ms。对每一帧提取13维MFCC及其一阶和二阶差分作为特征参数,共计39维。
2.2 基于GMM聚类的特征变换
根据高斯混合模型(Gaussian Mixture Model, GMM)的定义可知,高斯混合模型是用M个单高斯分布的概率密度函数的线性加权组合来对一个特征数据集的统计分布进行描述的。其中,每个单高斯分布的概率密度函数可用均值、协方差及权重来表述(m=1,2,...,M)。因此,可以把GMM中的每个单高斯分布看成一个类别,那么均值描述了该类数据的平均大小,反映了不同特征向量在在特征空间的相对位置,协方差描述了数据分布的密集程度,权重描述了属于该类的数据的多少。所以,对一个特征数据集进行GMM的训练过程,也可以看成是对该特征数据集进行GMM聚类的过程。因此,也可使用GMM聚类对MFCC特征进行特征变换。本文直接采用各个单高斯类的均值作为GMM聚类后的变换特征。本文采用的高斯混合数m为256。
3基于SVM的歌曲歌唱部分检测
3.1 SVM的训练
根据人工标注将提取出的MFCC特征参数分为歌唱MFCC特征和纯伴奏MFCC特征两类,分别融合在一起得到歌唱MFCC特征数据集和纯伴奏MFCC特征数据集。首先,对歌唱MFCC特征数据集进行GMM聚类,将得到的变换特征向量序列记为{, , ...,},其中,s代表singing,即歌唱部分。并且,将该变换特征向量序列对应的类别全部标记为+1。然后,对纯伴奏MFCC特征数据集进行GMM聚类,将得到的变换特征向量序列记为{, , ...,},其中,i代表instrumental,即纯伴奏部分。并且,将该变换特征向量序列对应的类别全部标记为-1。最后,用这些数据对SVM进行训练,得到支持向量和最优分类超平面。本文采用的SVM核函数是径向基内核。
3.2基于SVM的歌声/纯伴奏的识别
对测试歌曲中的歌声片段进行识别时,首先对其分帧,假设共有T帧,每一帧提取MFCC特征向量,这样得到一个初始的MFCC特征向量序列{x1, x2, ..., xT}。对得到的MFCC特征向量序列{x1, x2, ..., xT}进行GMM聚类,将得到的变换特征向量序列记为{, , ...,}。利用前面训练好的SVM进行分类,设分类结果为{w1,w2,...,wM},其中wm={+1, -1},m=1,2,...,M。以w1为例,如果w1=+1,则意味着所代表的类别中的所有初始MFCC对应的帧均识别为歌声帧;如果w1=-1,则意味着所代表的类别中的所有初始MFCC对应的帧均识别为纯伴奏帧。
4 实验结果及分析
实验中使用的音频数据库由60段英文流行歌曲组成,每段长度为15秒。对这60段歌曲的歌声片段和纯伴奏片段分别进行了手工标注,并将标注结果保存在对应的*.lab文件中。具体来说,将歌曲的歌声片段标注为singing,而将纯伴奏片段标注为non-singing。测试方法为留一交叉检验。采用基于帧的识别率来评价识别效果,计算公式如下:
表1给出了使用MFCC特征结合GMM模型和使用MFCC聚类变换特征结合SVM的识别结果。从表1中可以看到,使用MFCC聚类变换特征结合SVM进行识别,平均识别率略有提高。同时,平均处理数据量大大降低,仅为聚类变换之前的34.2%。
5 结论
本文采用对MFCC特征经过GMM聚类后的变换特征,即各个单高斯分布的均值,作为新的特征参数,并采用SVM作为分类器,进行歌曲中歌声的识别研究。相对初始的MFCC特征,变换特征利用GMM数据描述能力强的特点,突出了歌手歌唱的个性特征。且变换特征的数据量相对于初始MFCC特征的数据量减少了65.8%,有利于提升识别速度。同时,采用SVM作为分类器,利用了SVM分类能力强的优势,弥补了GMM区分能力较弱的不足,实验结果表明平均识别率略有提高。
参考文献:
[1] Berenzweig A L, Ellis D P W. Locating singing voice segments within music signals[C]. IEEE Workshop on the Applications of Signal Processing to Audio and Acoustics, 2001:119-122.
[2] Berenzweig A, Ellis D P W. Using Voice Segments to Improve Artist Classification of Music[J]. Proc Aes, 2002:1-8.
[3] Tsai W H, Wang H M. Automatic singer recognition of popular music recordings via estimation and modeling of solo vocal signals[J]. IEEE Transactions on Audio Speech & Language Processing, 2006, 14(1):330-341.
[4] 能恒, 张亚磊, 李霞. 基于模型在线更新和平滑处理的音乐分割算法[J]. 深圳大学学报(理工版), 2011, 28(3):271-275.
[5] T. L. Nwe, A. Shenoy, and Y. Wang, “Singing voice detection in popular music,” in Proc. 12th Annu. ACM Int. Conf. Multimedia, 2004, pp.324-327.
[6] Maddage N C, Wan K, Xu C, et al. Singing voice detection using twice-iterated composite Fourier transform[C]. IEEE International Conference on Multimedia and Expo. 2004:1347-1350 Vol.2.
[7] Tzanetakis G. Song-specific bootstrapping of singing voice structure[C]. IEEE International Conference on Multimedia and Expo. IEEE, 2004:2027-2030 Vol.3
[8] M. Rocamora and P. Herrera. Comparing audio descriptors for singing voice detection in music audio files. in Proc. of Brazil-ian Symposium on Computer Music, 11th. San Pablo, Brazil, volume 26, page 27-30, 2007.