前言:中文期刊网精心挑选了数学建模聚类算法范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。
数学建模聚类算法范文1
doi:10.11772/j.issn.10019081.2013.07.1942
摘 要:
针对极限学习机(ELM)算法随机选择输入层权值的问题,借鉴第2类型可拓神经网络(ENN2)聚类的思想,提出了一种基于可拓聚类的ELM(ECELM)神经网络。该神经网络是以隐含层神经元的径向基中心向量作为输入层权值,采用可拓聚类算法动态调整隐含层节点数目和径向基中心,并根据所确定的输入层权值,利用MoorePenrose广义逆快速完成输出层权值的求解。同时,对标准的Friedman#1回归数据集和Wine分类数据集进行测试,结果表明,ECELM提供了一种简便的神经网络结构和参数学习方法,并且比基于可拓理论的径向基函数(ERBF)、ELM神经网络具有更高的建模精度和更快的学习速度,为复杂过程的建模提供了新思路。
关键词:可拓聚类;极限学习机;径向基函数;回归;分类
中图分类号: TP18文献标志码:A
英文标题
Extension clusteringbased extreme learning machine neural network
英文作者名
LUO Genghe*
英文地址(
Department of Mechanical Engineering, Xian Aeronautical University, Xian Shaanxi 710077, China英文摘要)
Abstract:
During the construction process of Extreme Learning Machine (ELM), its input weights are randomly generated, and these parameters are nonoptimized and contain no prior knowledge of the inputs. To solve these problems, combining the clustering method of Extension Neural Network type 2 (ENN2), an extension clustering based extreme learning machine (ECELM) neural network was proposed. In ECELM neural network, the radial basis function centers of hidden neurons were firstly taken as the input weights, then extension clustering method was used to adaptively adjust the hidden neurons number and center vectors, and this welladjusted information was trained by MoorePenrose generalized inverse to obtain the output weights. Meanwhile, the effectiveness of this network was tested by the Friedman#1 dataset and the Wine dataset. The results indicate that ECELM provides a simple and convenient way to train the structure and parameters of neural network, and it is of higher modeling accuracy and faster learning speed than Extension theory based Radial Basis Function (ERBF) or ELM, which will provide a new way to apply the ECELM to complex process modeling.
数学建模聚类算法范文2
关键词:制造过程;在线质量预测;数据流;k-means
DOI:10.16640/ki.37-1222/t.2017.09.179
0 引言
随着人们对质量水平要求的不断提高,使得企业对于产品质量的控制纷纷转向对制造过程的监控和分析,使得生产成本得以减少。制造过程作为一种复杂生产过程,具有工艺参数众多、非线性显著和动态变化等特点,难以建立其精确的数学模型。近年来,随着数据采集技术和计算机技术的快速发展,制造过程质量特征参数的获取变得容易[1]。现有的预测方法如:人工神经网络[2],贝叶斯方法[3]等方法可以对产品质量进行分析预测。但是,上述方法并不能实时的预测当前的质量。本文针对制造过程中的质量数据以数据流的形式存在的特c,提出了一种在线质量预测方法,即通过离线部分对海量的数据构建ELM模型,并且对模型的相关参数进行了PSO优化;在线部分应用基于数据流计算框架的改进k-means方法对工况进行聚类;最后,将离线部分优化的预测模型传输至在线部分完成质量的在线预测。
1 离线部分产品质量预测模型的构建
极端学习机[4](ELM)是一种基于单隐层前馈神经网络的学习方法,有着学习时间短、算法运行快、结构确定简便等等。
在ELM中,输入权值是随机产生的,这种方式确定的输出权值准确率不高。粒子群算法(PSO)[5]是通过模拟鸟群觅食行为而发展起来的一种基于群体协作的随机搜索优化算法。将PSO优化算法应用于ELM建模中可以极大地优化ELM的三个参数,得到更高的预测精度与效率。PSO算法优化ELM的建模过程如下所示:
(1)将离线部分历史的过程数据作为建模数据,随机产生输入权值ω、隐含层阈值t,并通过实验初始化ELM的网络结构;
(2)应用计算出来的输出层权值、根据式(2)对预测集进行预测和验证,计算出其标准均方根误差E。
(3)通过PSO算法优化输入权值ω、隐含层阈值t和输出层权值,并通过最优的粒子建立ELM模型。
2 在线部分数据流的处理
聚类分析[6]是数据挖掘研究的一项重要技术,属于无监督机器学习方法。k-means方法将一个含有n个样本的集合划分为K个子集合,其中每个子集合代表一个类簇。近几年,随着数据规模的无限扩大,分布式并行的k-means算法越来越受到人们的青睐。而MapReduce云计算框架[7]作为当下管理大型计算机集群能力的一种流行方式得到重视。本文基于数据流的计算框架提出了一种处理在线数据流的方法。
基于数据流的改进K-means算法执行过程如下:
(1)计算每个数据对象到k个初始聚类中心的距离,根据最近邻原则分配到簇,定义一个结构体{cluster[i],distance[i]},其中,cluster[i]表示第i个数据对象的类簇标签;distance[i]表示第i个数据对象到最近中心点的距离。
令,j为对象i最近的簇标签;
令,其中,center[j]为第j个类的聚类中心,为到最近中心点的距离。
(2)按照平均法计算各个簇的质心,得到新的簇中心。
(3)利用式(1)计算误差平方和,判断是否收敛,若收敛,算法结束,输出最终聚类结果。
(1)
3 仿真实验分析
本文以车身点焊过程为例,根据实际生产经验,点焊接头强度是点焊质量的重要指标,而点焊接头的强度主要取决于点焊熔核直径[8]。ELM模型以焊接电流(I)、电极间电压(V)、动态电阻(R)、焊接时间(T)为输入,以点焊熔核直径L做为输出,对点焊过程中的工序质量进行预测。通过生产过程中的200组过程参数数据,在PC上进行实验。用本文方法和BP神经网络和贝叶斯方法可以得到预测的熔核直径如图1所示。
由图1可知,本文方法的预测平均相对误差在5%以内,因为本文在离线部分采用了PSO-ELM方法构建预测模型,并且在线部分基于数据流的计算框架,改进k-means方法极大限度的提高了算法的效率。反观神经网络,为了保持高精度必须经过大幅度的训练和测试,时间复杂度高。与贝叶斯方法相比,本文应用PSO算法优化了输入权值和隐含层阈值,缩短了建模时间和提升了预测精度。
4 结束语
鉴于制造产品的在线质量预测是一个非常重要的研究领域,并且具有广阔的前景,而现有的方法不能满足日益提升的数据量和预测的实时性要求,本文提出了一种制造产品的在线质量预测方法。实验结果表明,相对其他两种方法,本文方法具有良好的预测精度和较高的效率,能适应当前制造过程中产品质量的在线预测。
参考文献:
[1]姜兴宇,干世杰,赵凯等.面向网络化制造的智能工序质量控制系统[J].机械工程学报,2010,46(04):186-194.
[2]徐兰,方志耕,刘思峰.基于粒子群BP神经网络的质量预测模型[J].工业工程,2012,15(04):17-20.
[3]丁钢坚,张小刚.贝叶斯分类算法应用于回转窑烧结温度预测模型[J].计算机系统应用,2011,20(09):200-203.
数学建模聚类算法范文3
关键词:手势检测;人机交互;肤色分割;混合高斯模型
中图分类号:TP391 文献标识码:A 文章编号:1674-7712 (2013) 02-0045-02
一、引言
人际交互技术最近几年得到人们越来越广泛的关注。手势,作为一种自然直观的人际交流方式,现已成为一种热门的人机交互方式。一个基于视觉的手势识别系统主要包括手势采集、检测、识别等部分。要检测到手,首先需要进行有效的手势分割。手势分割是指将手势图像从复杂背景中分割出来,仅保留手势部分。手势分割的好坏也将直接影响整个手势识别系统的效率。
目前有许多图像分割的方法,有基于简单的肤色阈值分割法[1],有的用k-means聚类分割图像[2],有的采用混合高斯进行图像分割的[3],但至今任何一种分割算法都有它的局限性和针对性。实践表明,要提高图像分割效果的途径是将一些分割算法组合起来形成一个系统,根据图像的特点,分层次有针对性地使用不同的分割算法。
本文中,作者采用了普通摄像头作为输入来采集图像,设计了一个基于人脸先验知识和混合高斯模型的方法来进行手势检测。本文说明了该方法的系统结构,并在Linux下运行了该检测系统,并成功进行手势检测,检测率高。
二、系统结构
(一)系统方案
图1为本文的系统流程图,采集到图像以后,利用人脸检测提取肤色信息,对图像进行肤色检测判断是否为肤色区域,并用图像平滑和图像形态学的方法对手势图像进行图像预处理,实现图像的肤色二值分割;同时,对图像进行混合高斯建模去除背景,提取出前景区域,若同时为前景区域且是肤色区域则可以判定为人手或人脸区域,又因为前面已检测到人脸区域,因此可排除干扰,定位出手势区域。
(二)基于人脸先验知识的肤色检测
肤色是人体表面最为显著的特征,利用肤色特征信息来实现手势和背景的分离是目前最常用的手势分割方法。脸是人体面积较大的肤色区域,脸部的信息较为丰富,相对于手来说较容易检测,手和脸的肤色差异较小,当前人脸检测技术的已经比较成熟,所以近几年许多研究人员先检测脸,利用脸部肤色信息来建立肤色模型进行肤色分割。另外检测到的人脸信息也可以作为脸部区域,来排除出候选的手势肤色区域。
2001年,PaulViola和MichaelJones[4]提出了基于Adaboost算法的人脸检测方法。该方法中引入了积分图像的概念,用于快速计算图像特征;同时采用了级联的分类器组合方式,使得图片中的背景图像得以快速排除,将更多的计算集中在可能存在人脸的区域,在保证检测精度的同时,极大的提高了人脸检测速度,使人脸检测真正走向了实时应用阶段。所以本文选取AdaBoost作为人脸检测的算法。
数学建模聚类算法范文4
关键词:基因调控网络;自组织图聚类;机器学习
中图分类号:TP274文献标识码:A文章编号:1009-3044(2008)15-20ppp-
The Research Content And Data Analysis Methods On the Gene Regulatory Networks
GUO Zhi-long1,2,JI Zhao-hua1,3,TU Hua-wei1,LIANG Yan-chun1
(1.College of Computer Science and Technology,Jilin University,Changchun 130012,China;2.Dalian Huaxin Software Corporation,DaLian 116000,China; 3.Inner Mongolia Xing'an Vocational and Technical College,Wulanhaote 137400,China)
Abstract:Gene regulatory networks,which reveals the complex phenomena of life from the view of the complex interactions of genes,is very important to understand the functional genomics for researchers.The article focuses on the research content and data analysis methods about gene regulatory networks.
Key words:gene regulatory networks;Self-organizing Map;machine learning
基因调控网络是计算机科学、数学、信息学向分子生物学渗透形成的交叉点,是运用生物信息学的方法和技术通过数据采集、分析、建模、模拟和推断等手段研究复杂的基因网络关系。作为一种系统的、定量的研究方法建立在包括分子生物学,非线性数学和程序算法设计等知识等基础上,运用生物信息学的方法和技术通过数据采集、分析、建模、模拟和推断等手段,整合已有的实验数据和知识,构建生物基因调控网络,从整体的层次,了解细胞的功能;从整体的角度,阐述基因参与的生物调控过程,在全基因组水平上以系统的、全局的观点研究生命现象及其本质,是后基因组时代研究的重要内容。
1 基因调控网络概念
基因调控网络本质上是一个连续而复杂的动态系统,即复杂的动力系统网络。
1.1 基因调控网络的定义
生物体任何细胞的遗传信息、基因都是同样的,但同一个基因在不同组织、不同细胞中的表现并不一样。一个基因的表达既影响其它的基因,又受其它基因的影响,基因之间相互促进、相互抑制,在特定的细胞内和时间下综合环境等因素这样的大环境中呈现活化状态,构成一个复杂的基因调控网络。
1.2 基因调控网络的特性:
基因调控网络是连续的多层次动力系统模型,具有稳定姓、层次性、复杂性、动态性等。
1.2.1 复杂性
生物具有大量的基因,诸多基因组成各个模块,不同的基因网络模块可以在不同层次上发生相互作用,同一个基因可能参与各种不同的分子机理,使得基因网络有着高度的复杂性。
1.2.2 层次性
基因调控网络具有一定层次结构,按照调控元件、motif、模块和整个网络的四层结构,将各个节点有规律的来接在一起。调控元件分为顺式(cis-)和反式(trans-)两种类型, 分别表示受调控基因的结合位点DNA 序列和结合在该序列上对基因起激活或者抑制作用的转录因子。Motif 和模块都是由基因集合构成的调控模式, 是分析网络局部特征和网络构成以及研究调控机理的重要结构。
1.2.3 动态性
生物过程是动态的,用来理解生物过程意义的基因调控网络自然就动态存在。基因调控网络是随着生物过程的动态发生而具有动态的特性,不同条件、不同时间的基因调控网络是不同的。
1.2.4 稳定性
基因调控网络的稳定性体现在生物体缓解突变的影响方面,功能上无关基因之间的相互作用可以抵抗系统突变;一个基因在突变中丧失的功能,有另外一个或更多具有相似功能的基因所补偿,以减弱该突变对表型造成的影响,保持生物进化中的稳定性。
1.2.5 功能模块性
基因调控相关的生物功能主要是通过网络模块来实现的,有适当尺度下的动力学特征和生物学功能解释的模块是由多个motif 构成的,实现相同功能的基因或蛋白质存在拓扑结构上是相关的。
1.3 基因调控网络研究的目的
通过对基因调控网络的研究,识别和推断基因网络的结构、特性和调控关系,认识复杂的分子调控过程,理解支配基因表达和功能的基本规则,揭示基因表达过程中的信息传输规律,清楚整体的框架下研究基因的功能。
2 基因调控网络研究内容
基因调控网络的研究是假设两个基因列谱相似,则这两个基因协作调控,并可能功能相近,有同样表达模式的基因可能有同样的表达过程。基因调控网络主要在三个水平上进行:DNA水平、转录水平、翻译水平。DNA水平主要是研究基因在空间上的关系影响基因的表达;转录水平主要研究代谢或者是信号转导过程决定转录因子浓度的调控过程;翻译水平主要研究蛋白质翻译后修饰,从而影响基因产物的活性和种类的过程。基因转录调控信息隐藏在基因组序列中,基因表达数据代表基因转录调控的结果,是转录调控信息的实际体现。
基因调控网络试图从DNA微阵列等海量数据中推断基因之间的调控关系,对某一物种或组织中全部基因的表达关系进行整体性研究。采用带有反馈回路的基因网络,首先是按照同步或反同步表达,以及表达强度的变化,系统地识别各基因的特点,再用聚类的方法将各基因归类,在此基础上构建基因调控网络,分析相关控制参数.利用其本身或调节位点或拓扑结构进行不同的研究。
3 基因调控网络研究数据分析方法
数学建模聚类算法范文5
关键词:汽轮机 故障诊断 小波 神经网络
1、引言
二十世纪以来,随着工业生产和科学技术的发展,机械故障的可靠性、可用性、可维护性与安全性问题日益突出,从而促进了人们对机械设备故障机理及诊断技术的研究汽轮机是电力生产的重要设备,由于其结构的复杂性和运行环的特殊性,汽轮机的故障率较高,而却故障危害也很大。汽轮发电机组常见的机械振动故障有:转子不平衡、转子弯曲、转子不对中、油膜振荡、碰摩、转子横向裂纹和转子支承系统松动等。汽轮机振动故障的汽轮机最常见的故障,因此,汽轮机的振动故障诊断一直是故障诊断技术应用中非常重要的部分。
2、基于信号处理的振动故障诊断方法
信息的采集和处理是实现机组振动检测与故障诊断中的一个基本环节、也是振动检测软件的核心技术。现代信息分析主要包括两种形式:一种是以计算机为核心的专用数字式信号处理仪器,另一种是采用通用计算软件来进行信号分析的方式。
2.1小波变换方法
这是一种新的信号处理方法,是一种时间―尺度分析方法,具有多分辨率分析的特点。利用小波变换可以检测信号的奇异性。因噪声的小波变换的模的极大值随着尺度的增大而迅速衰减,而小波变换在突变点的模的极大值随着尺度的增大而增大(或由于噪声的影响而缓慢衰减),即噪声的Lipschitz指数处处小于零,而在信号突变点的Lipschitz指数大于零(或由于噪声的影响而等于模很小的负数),所以可以用连续小波变换区分信号突变和噪声。同样,离散小波变换可以检测随机信号频率的突变。孙燕平等应用了小波分析理论,采用多分辨分析和小波分解等基本思想对汽轮机转子振动信号进行了分析,针对振动信号的弱信号特征,提出了基于离散小波细化频率区间,小波分解后进行能量谱分析和小波变换结合傅立业变换分析法,并将其应用于模拟转子试验台上。闫亮以小波分析为基础,针对汽轮机早期振动故障信号具有背景噪声强,特征信号弱的特点改进传统的Donoho硬阈值降噪算法,提出了基于shannon熵的最优小波包基降噪算法,能明显地提高信号的信噪比。采用小波神经网络松散结合的诊断方法,利用小波包的分解重构系数得到信号的频带能量,再将频带能量作为神经网络输入向量进行模式识别。利用BP神经网络在故障诊断方面具有诊断精度高,学习速度快的特点与小波分析相结合。
小波神经网络是一种非模型的诊断方法,回避了抽取对象数学模型的难点,避免了复杂的关于建模的传递函数的运算,以及建模不完全或不精确导致的诊断误差。小波变换不需要系统的数学模型,对噪声有很强的抑制能力,有较高的灵敏度,运算量也不大,是一种很有前途的方法。
2.2信息融合的方法
信息融合是利用计算机技术对按时序获得的多源的观测信息在一定准则下加以自动分析、综合以完成所需的决策和估计任务而进行的信息处理过程。
张燕平设计了汽轮机转子轴系故障模拟试验方案,并对各种故障进行了多组升速试验,对故障信号进行了傅立叶分析,以三维幅值谱和升速过程波德图为工具,对故障信号的频域信息进行了融合研究。研究表明,一阶矩向量三维图不仅融合了信号的时频特征,还融合了信号的空间特征,因而可用来对故障的产生过程进行全面分析,是进行轴系典型故障诊断的又一有效工具。
2.3其他信息处理法
N.E.Huang等提出了一种经验模态分解方法(EMD),其主旨为把一个时间序列的信号分解成不同尺度的本征模态函数(IMF),每个本征模态函数序列都是单组分的,相当于序列的每一点只有一个瞬时频率,无其他频率组分的叠加。瞬时频率是通过对IMF进行希尔伯特变换得到,同时求得振幅,最后求得振幅频率时间的三维谱分布。唐贵基等利用EMD分析方法以及其对应的Hilbert变换在大型汽轮机故障诊断中进行非平稳信号的算法和应用,并描绘出仿真故障信号的时频图、时频谱和幅值谱。姚志宏嘲利用Kohonen网络聚类的特点,把汽轮机振动故障信号频谱中的相关频段上不同频率谱的谱峰能量值作为故障信号的训练样本输入到Kohonen网络,并由网络进行聚类,产生聚类中心点。根据此聚类中心点的位置来确认和诊断汽轮机振动故障的原因以及目前的严重程度。
3、基于知识的故障诊断方法
基于知识的方法不需要精确的数学模型就能准确预测故障,当前这一领域的研究较为活跃。
3.1基于专家系统的故障诊断方法
专家系统(Expert System――ES)是人工智能领域较为活跃的一支,它已广泛应用于过程监测系统,并取得了相当可观的经济效益。专家系统是一种基于知识的智能计算机程序系统,其运用领域专多年积累的经验与专门知识,模拟人类专家的思维过程来处理该领域的问题。张晓等提出了一种新的基于模糊与综合的离线式汽轮机故障诊断专家系统,并且提出了相关基于模糊诊断的推理和专家系统知识的漏诊断和无诊断的自学习方法。
3.2基于人工神经网络的故障诊断方法
人工神经网络技术以分布的方式存储信息,利用网络的拓扑结构和权值分布实现非线性的映射,并利用全局并行处理实现从输入空间到输出空间的非线性信息变换。对于某一特定对象建立特定的神经网络故障诊断系统,将故障征兆作为输入信号可以直接得到故障,方便地实现了故障检测与诊断。
张建华等提出了采用概率神经网络(PNN)的汽轮发电机组故障诊断方法。利用PNN算法简单、训练和泛化速度快的优点,把新的训练样本添加到以前训练好的分类器中,便于提高故障诊断结果的准确性。而且具有很高的运算速度,抗干扰能力强,对传感器测量噪声具有较强的诊断鲁棒性。新的训练样本也很容易加入以前训练好的分类器中,更适用于在线检测。程卫国翻通过对振动信号的分析,并对BP算法进行了研究和改进。刘正亮建立了人工鱼群神经网络模型,利用人工鱼的聚群、追尾和觅食行为训练RBF神经网络的权系数,提高了神经网络的收敛速度和精度。依据此模型提出一种故障诊断方法,并应用于汽轮机振动故障分析,提高了神经网络的泛化能力和故障诊断的准确率。
4、基于解析模型的故障诊断方法
基于解析模型的故障检测和诊断方法在故障诊断的研究中占有重要地位,它充分利用了系统模型的深层知识进行故障诊断,具体是指使用系统的结构、行为和功能等方面的知识对系统进行诊断推理,这就需要建立系统结构、行为和功能模型。
荆建平等针对转子裂纹故障的早期诊断与预示这一问题,提出了基于多模型估计(MMAE)的转子裂纹故障诊断方法。并对Jeffcott转子建立了正常、裂纹转子模型和基于卡尔曼滤波器的多模
型自适应估计器,通过裂纹故障的仿真分析和故障多模型估计表明,该方法对早期诊断和预示转子裂纹故障有良好的效果。张国平针对汽轮机启动和停止过程信号比平稳过程复杂这一特点用短时傅里叶变换提取状态特征信息,引入基于连续HMM建立在在线状态监测系统的应用。HMM是一种时间序列的统计模型,能用参数描述随机过程统计特性的概率模型,是一种用针对性的信号的建模和识别工具。韩璞等㈣利用了贝叶斯网络模型进行汽轮机故障诊断,通过对主成分分析方法提取故障特征的讨论,提出了基于主成分分析方法和贝叶斯网络的汽轮机故障诊断模型建立方法,应用特征提取后的样本建立了汽轮机故障贝叶斯网络模型,该汽轮机故障诊断模型简洁,易于推理,提高了汽轮机故障诊断的效率。
基于解析模型的故障诊断方法主要用于控制系统的故障诊断。因为其它诊断方法多以直接检测信号的分析为诊断依据,而控制系统的输出信号常常随着控制输入信号的变化而变化。这样,用直接信号检测分析方法往往难以甄别一个异常的信号是由于系统故障所致,还是由于控制输入信号使然。而基于解析模型的故障诊断方法将系统的模型和实际系统冗余运行,通过对比产生的残差信号,就有效地剔除了控制信号对系统的影响因素。通过对残差信号的分析,就可以诊断系统运行过程中出现的故障。
5、基于离散事件的故障诊断方法
离散事件模型的状态既反映正常状态,又反映系统的故障状态。系统的故障事件构成整个事件集合的一个子集。故障诊断就是确定系统是否处于故障状态和是否发生了故障事件。
彭希等针对常规频谱诊断方法的不足,论述了离散的BAM(双向联想记忆)网络及其特性。讨论了汽轮发电机组常见典型振动故障的变化特征及其数字化描述方法,构建了离散BAM网络能够实现汽轮机振动故障特征空间到故障标示空间的联想和追忆映射,用BAM网络建立模型诊断汽轮机组振动故障。离散BAM神经网络是继Hopfield网络之后另一类典型的反馈形网络,是一种能进行寻址记忆的二层相关网络,使用前向和后向信息对存储内容激发联想和回忆,其具有良好的动力学行为而用于联想记忆。
陈等在分析了汽轮机振动故障特点的基础上,提出了用遗传算法进行汽轮机故障诊断问题,定义了遗传算法求解故障诊断问题的概率因果网络,建立了汽轮机故障诊断模型,该模型能有效地识别出汽轮机的多故障。
数学建模聚类算法范文6
关键词 文本分类 降维技术 文本表示 分类算法
中图分类号:TP393 文献标识码:A
文本分类是指在给定分类体系下,根据文本内容自动确定文本类别的过程,将大量的文本归到一个或多个类别中。从数学角度来看,文本分类是一个映射的过程,将未标明类别的文本映射到己有的类别中来,数学表示如下:f:A->B 其中A为待分类的文本集合,B为分类体系下的类别集合。
文本分类技术是网络信息挖掘中内容挖掘的重要手段之一,通过文本的分类技术可以将网络中纷繁复杂的信息分门别类的组织在一起,从更深的层次来寻找文档之间的联系,不只停留在字面的匹配上。文本分类技术应用于信息检索中有利于提高检索的正确率和准确率。
1网页的解析
按照W3C组织所制定的标准,每一个HTML页的结构都可以对应地描述成DOM树的形式。DOM定义了HTML文档的逻辑结构,提供了一种对网页中的数据及内容进行管理和操作的途径。DOM将整个文档的内容分别抽象为不同的对象,用结点的形式予以表示,如标签结点、文档类型结点、文本结点、注释结点、属性结点等。再用类似于父子的关系将各结点按照不同层次有顺序地组织起来,形成树型结构。
2文本表示
向量空间模型(Vector Space Model,简记为VSM)是一种较著名的用于文档表示的统计模型,该模型以特征项做为文档表示的基本单位,特征项可以由字词或短语组成。每一个文档可以看成是由特征项组成的n维特征向量空间的一个向量:D=(T1,W1;T2,W2;T3,W3……;Tn,wn),其中Wi为第i个向量Ti在文档中的权重,一般选词做特征项比选字做为特征项要好一些。一般使用TF-IDF公式计算特征项权重,其中TF(Term Frequency)表示词频,IDF(Inverse Document Frequency)表示逆文档频率,反映文档集合中出现该特征项的文档数目的频率,TF-IDF权重公式如公式(1)所示:
3降维技术
3.1信息增益
信息增益在机器学习中经常被用做特征词评判的标准,它是一个基于熵的评估方法,定义为某特征项在文档中出现前后的信息熵之差。根据训练数据计算出各特征词的信息增益。删除信息增益很小的词,其余的按信息增益从大到小排列。如果以信息增益最大者为要根结点,建立一个决策树就可以进行决策树的分类挖掘。如公式(2)所示。
其中i=1,2…M。p(ci)表示类文本在语料中出现的概率,p(ci|w)表示文本包含特征项W时属于ci类的条件概率,p(w)表示语料中不包含特征项W的文本的概率,p(ci|w)表示文本不包含特征项W时属于ci类的条件概率,M为类别数。
3.2互信息(MI)
应用在相关词统计建模中,在统计学中用于表示两个变量间的关系,其计算如下公式(3)所示:
显然当特征项W独立于ci时它同该类的相关度为0 ,p(w)越小而同时p(w|ci)越大时特征项W提供类别ci的信息量越大,则这个特征项越能代表这一类,反之,p(w)越大的同时p(w|ci)越小,则可能得到负的互信息值,这种情况下,该特征项对分类的意义同样很大。
3.3交叉熵(expected cross entropy)
与信息增益类似也是一种基于概率的方法,但只计算出现在文本中的特征项,其计算如公式(4)所示:
4分类算法
K-means算法是应用最广泛的聚类算法之一,是一种已知聚类类别的聚类算法。指定类别数k,对样本集合进行聚类,聚类的结果由k个聚类中心来表达。相似度的计算根据一个簇中样本的平均值(被看作簇的中心)来进行。
首先,随机选择k个对象,每个对象初始的代表了一个簇的平均值或中心。对剩余的每个对象,根据其与各个簇中心的距离,将它赋给最近的簇。然后重新计算每个簇的平均值。这个过程不断重复,直到准则函数收敛。通常,采用平方误差准则,其定义如下:
这里的E是数据库中所有对象的平方误差的总和,p是空间中的点,表示给定的数据对象,mi是簇Ci的平均值(p和mi都是多维的)。这个准则试图使生成的结果簇尽可能的紧凑和独立。下面是K-means过程的概述。
输入:聚类的数目k和包含n个对象的数据库。
输出:k个聚类簇,使平方误差准则最小。
(1)任意选择k个对象作为初始的聚类簇中心;
(2)重复;
(3)根据聚类簇中对象的平均值,将每个对象(重新)赋给最相似的聚类簇;
(4)更新聚类簇的平均值,即计算每个簇中对象的平均值;
(5)直到不再发生变化。
这个算法尝试找出使平方误差函数至最小的k个划分。当结果簇是密集的,而簇与簇之间区别明显时,它的效果较好。对处理大数据集,该算法是相对可伸缩的和高效率的,因为它的复杂度是O(nkt),其中,n是所有样本的数目,k是聚类簇的数目,t是迭代的次数。通常的k
但是,K-means只有在簇的平均值被定义的情况下才能使用。这使得它不适用某些应用,例如涉及到分类属性的数据。要求用户必须事先给出k,可以算是该方法的另一个缺点。同时K-means不适合发现非凸面形状的簇,或者大小差别很大的簇。而且,它对于“噪声”和孤立点数据是敏感的,少量的该类数据能够对平均值产生极大的影响。
参考文献