聚类分析论文范例6篇

前言:中文期刊网精心挑选了聚类分析论文范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。

聚类分析论文

聚类分析论文范文1

系统主要实现软件的模块话设计,包括反射率数据分析模块、速度分析模块、天线运行稳定性分析模块以及雷达组网数据分析模块。

1.1反射率分析模块

反射率的大小体现了气象目标的降水粒子的密度分布及体积大小,在实际气象技术中长期用于表示气象目标的强度,在工作上采用dBZ单位表示。对于空管气象雷达图,数据显示采用PPI(PlanPositionImage)显示方式。该方式决定了一张气象雷达图由圆锥俯视平面上分析空间的回波构成。在设计上简单介绍其设计流程,首先必须读取原始数据,并判断是否首次读取,若为首次读取则对其进行预处理,否则进行坐标转换;其次进行图像绘制并判断是否需要改变仰角。此处需要关注的关键是如何进行数据的预处理。在实现上,对接收的数据进行反射率信息结构体赋值。当然该结构体包括了记录实际仰角角度、数据文件路径存储、雷达波段判断以及相关数据的偏移。通过扫描上述结构体可以实现对雷达数据的预处理。

1.2速度分析模块

多普勒雷达采用了速度退化模糊技术以扩大其对径向风速测量不模糊的区间。结构设计主要考虑数据显示的径向方式,流程设计则与反射模块类似。当然在界面设计上,系统将提供对颜色配置的定义,使其人机交互更为快捷。

1.3天线稳定性分析模块

天线是雷达数据采集的关键部位,长期以来是影响雷达运行的主要关键点之一。其依赖于底下的电机进行旋转,目前大多数进口电机可以保证24小时安全运行。而运行时仰角提升和转速的平稳性直接影响雷达数据的采集。为此,我们通过在径向数据上采用方位角及仰角进行扫描实现曲线图监控。通过选择基数据再进行预处理后绘制相关曲线实现对天线运行状态的评估。其中,曲线图的绘制需要的参数为:纵坐标为气象雷达实际运行的每层仰角均值;横坐标为范围角:0-360°。

1.4雷达组网分析模块

按照民航局的总体规划,未来空管将实现多气象雷达覆盖,在这过程,多个气象雷达的组网将成为气象雷达数据的主要来源。这种模式将使得数据覆盖面更大、数据安全性更高、数据准确性更强。而与此同时带来了雷达数据融合组网的技术难点。设计上,首先模块将定义雷达站点配置信息,并与此同时提供组网雷达可选数据;其次对选择雷达数据进行数据预处理;再之则对雷达数据进行统计平均并做坐标转换;最后进行拼图处理。在这过程中,需要对雷达数据的强度进行自适应调整、显示范围自适应调整。与上述同理,系统核心在于预处理。在C#中定义List数据列表,并在定义其结构为[站点标示][距离][方位角],对于数据读取时,需要进行插值算法处理,此时的单时数据拼接分析可以实现不同仰角和方位角的筛选。为了控制系统数据的准确性可以在前端定义雷达数据方位角表,根据表进行映射处理。通常如若出现非连续数据可以在预处理上对其进行差值补偿。在C#上可以采用反差圆补偿方法。

2.结束语

聚类分析论文范文2

摘 要 对北京体育大学2003-2012年体操方向硕士学位论文的关键词词频统计与分析,研究高频词之间的结构关系,探究北京体育大学体操方向硕士学位论文的选题方向、研究内容及其不同的特点,分析热点的形成原因与未来发展趋势。

关键词 北京体育大学 硕士学位论文 研究热点

一、研究方法与对象

研究方法主要采用词频统计法与共词聚类分析法。词频统计法能够揭示或表达文献核心内容的关键词或主题词在某一研究领域中出现的频次高低来确定该领域研究热点和发展动向的文献计量法。共词聚类分析法是一种内容分析方法,通过对一组词两两统计它们在同一片文献中出现的频率,以此为基础对这些词进行聚类分析,从而反映出词与词之间的亲疏关系,进而分析这些词所代表的学科和主题的研究结构。

二、研究生学位论文的共词聚类分析

(一)关键词词频统计与分析

本文利用《CNKI中国优秀硕士学位论文全文数据库》,搜索出2003―2012年北京体育大学体操方向硕士学位论文共73篇,以73篇学位论文中的关键词为调研对象,通过共词分析法中的聚类分析探索各高频关键词之间的内在关系,归纳出北京体育大学体操硕士学位论文研究的热点,以及各个不同研究方向的亲疏性。本研究利用Excel对前期检索出的学位论文进行关键词统计,共得到硕士学位论文关键词283个,平均每篇硕士学位论文含关键词3.9个。然后对统计结果进行以下处理:去除对反应主题没有积极意义的词,如“展望”、“问题”等,对表达同一个意思的关键词进行标准化处理,如“高职院校”、“职业技术院校”、“职技高校”等标准化为“高职院校”,“高等院校”、“高等学校”、“高校”、“大学”等标准化为“高校”。

经过多次比较,最终选择词频大于的关键词作为高频关键词,从而确定个体操方向硕士学位论文的高频关键词(表1)。这个关键词总的出现频次为65次,占关键词总频次的36.3%。从高频关键词分布可以看出,北京体育大学体操方向硕士研究生重点关注的研究对象集中在“体育教育专业”、“分析”、“普通高校”、“竞技体操”、“北京市”、“教学理念”、“现状”、“发展对策”等。

表1 硕士学位论文高频关键词表

序号 关键词 词频

1 体育教育专业 12

2 分析 10

3 普通高校 8

4 竞技体操 8

5 北京市 7

6 教学理念 7

7 现状 7

8 发展对策 6

(二)构造词篇矩阵、相似矩阵

对于高频关键词共现频次的统计,本研究利用SPSS17.0,以每篇学位论文为一条记录,记录的内容为高频关键词是否在学位论文的关键词出现(出现为1,否则为0),构造出词篇矩阵。以词篇矩阵为基础,在SPSS软件中进行相关分析,数据类型选择“binary”二元变量,相似系数选择“Ochiai”系数,构造出高频关键词的相似矩阵(见表2)。相似矩阵中的数字为相似数据,数字的大小则表明词与词之间的距离远近,数值越大则表明词与词之间的距离越近,相似度越好;反之,数值越小,表明词与词之间的距离越远,相似度越差。相似矩阵对角线的数据为1,表明某高频关键词自身相关度。

表2 硕士学位论文高频关键词的相似矩阵(部分)

体育教育专业 分析 普通高校 竞技体操 北京市 教学理念 现状 发展对策

体育教育专业 1.000 0.060 0.286 0.004 0.192 0.321 0.334 0.215

分析 0.060 1.000 0.030 0.121 0.018 0.006 0.076 0.023

普通高校 0.028 0.030 1.000 0.150 0.030 0.068 0.119 0.029

竞技体操 0.004 0.121 0.150 1.000 0.008 0.192 0.043 0.020

北京市 0.192 0.018 0.030 0.008 1.000 0.192 0.035 0.078

教学理念 0.321 0.006 0.068 0.192 0.192 1.000 0.087 0.186

现状 0.334 0.076 0.119 0.043 0.035 0.087 1.000 0.100

发展对策 0.215 0.023 0.029 0.020 0.078 0.186 0.100 1.000

(三)北京体育大学体操方向硕士学位论文的研究热点可以概括为以下几类:

1.竞技体操的发展对策。包括关键词:竞技体操、发展对策、后备人才。

2.北京市普通高校体育教育专业教学理念。包括关键词:北京市、普通高校、体育教育专业、教学理念。

3.体育教育专业与教学能力。包括关键词:体育教育专业、教学能力。

三、研究热点的特点分析

(一)北京体育大学体操方向硕士学位论文的研究热点比较宽泛,选取对象比较广泛,包括普通高校、体育院校、竞技体操、体操普修课、教学理念等。

(二)硕士学位论文注重对教学理念及竞技体操发展状况的研究,旨在通过现状研究,探寻发展的脉络与经验。

(三)硕士学位论文注重对基本理论研究,研究内容宽泛。在理论分析上显得薄弱、创新能力欠缺。

参考文献:

[1] 高宝立,刘小强.高等教育研究热点分析:两个维度、四项指标――以现代大学制度研究为例[J].教育研究.2008(09).

[2] 迟景明,吴琳.近十年我国高等教育学学科研究热点和趋势――基于研究生学位论文的共词聚类分析[J].中国高教研究.2011(9):20-24.

[3] 马费成,张勤.国内外知识管理研究热点――基于词频的统计分析[J].情报学报,2006.25(02).

聚类分析论文范文3

论文关键词:聚类分系,网络营销,策略,客户关系

0前言

现代科学技术的迅猛发展,特别是在互联网的应用和开发上更加的迅速,企业必须通过网络对自己的产品加强宣传以增强自己的竞争力。客户是一个非常重要的、有价值的重要资源,现在如何更好地从数据库中挖掘出客户中有价值的信息,更好的培植和经营与有价值客户的关系,抛弃那些无利可图没有发展前景而且营销费用高的客户,并且可以针对不同价值的客户给与不同的政策同时制定出个性化的营销策略,这些才能够保证企业的生存发展。对于这一切数据挖掘无疑是行之有效的好方法之一。本文以一个网络营销公司为例,提出了一套可操作性的对客户价值评价方法,然后使用数据挖掘技术中比较常见和常用的聚类分析算法对客户信息进行聚类从而达到非常重要的信息并为企业在网络营销中提供决策依据。

1聚类分析

聚类(clustering)是对于数据挖掘技术是非常重要的一部分,现在也是数据挖掘技术中关键的一种。聚类的意义就是针对物理或逻辑上的数据对象的进行自动分类,最后将数据对象分为多个类或簇的过程。对于聚类结果要使得数据对象在同一个分类中具有最大的相似度,而在不同的类中具有最小相似度。聚类的现实意义就是在于可以将数据按照一定得关系进行自动的分类,事先不知道所有的数据对象共有多少类,通过算法的处理最后得到一个分类结果进行应用。譬如在市场研究领域中,特别是针对网络营销的企业或网站,从大量的网络数据进行分析聚类,可以讲客户分成不同的类别,针对这些类别不同的购买力和兴趣爱好来进行个性化的营销手段,提高企业的经济效益。目前研究人员大多针对于聚类分析算法的改进和完善进行研究,进而提高聚类分析的工作效率。著名的算法有:CLARANS,BRICH,DBSCAN,CURE,STING,CLIGUE和WaveCluster等。

2聚类分析应用于企业客户资源管理

现针对某电子商务公司进行分析,该电子商务公司的客户分布在全国各地以及国外一些地区,现仅列出具有代表性的10个大客户:吉林,黑龙江,山东,江苏,浙江,安徽,湖南,缅甸,印度,南非等。在数据挖掘的目的就是从客户中找到一些共同点,在对这些客户数据进行处理前要使用聚类分析的方法进行研究看看这10个客户能否有一些共同之处以便企业针对不同类型的客户给与不同的对策,首先对该公司采用专家打分的方法,而且还有通过网上问卷调查和访谈的方式,收集各地销售专员的意见等方式,然后对数据加以综合,最后聚类分析法确定各项指标的权重。

那么在具体实施聚类分析法的时候可分为5个步骤进行:

第1步:首先对各项指数构建层次结构,其中被评定的10个大客户作为方案层,客户价值放在目标层中进行处理,各项指标是准则层,按照这样的分层结构来构造客户关系评价系统中个指数的结构图,见图2-1所示;

表2-1指标权重值表

指标

V

V

V

V

V

V

V

V

V

权重

0.0378

0.0401

0.0135

0.0161

0.0251

0.0060

0.0038

0.0091

0.0192

指标

V

V

V

V

V

V

V

V

V

权重

0.0381

0.1498

0.1721

0.0021

0.0201

0.0085

0.0053

0.0231

0.0701

指标

E

E

E

E

E

E

E

E

权重

0.0212

0.0312

0.0754

0.1841

0.0145

0.0510

0.0078

0.0684

从数据可以看出有两种情形:一是缅甸和南非,从数据中可看出这类客户的当前价值很小,但是具有很大的隐含价值,势必会有一天他们的成长给企业会带来丰厚的物质利益,这样具有发展潜能的客户应该采取措施激发潜能;二是安徽和印度这类客户,虽然从数据中看出这类客户当前价值很小,但是就这两个省份的地理位置和经济状况来分析他们隐含着较大的价值。对于这一类的客户,企业就应该采取灵活的措施,激发他们的购买能力促使该类型的客户不断地向前发展;

第2类是“维持型”客户,他们会源源不断的为企业提供利润,如黑龙江和江苏,他们这类客户根据以往的交易记录分析到得结果就是目前价值大,不过没什么发展的潜能,或者说在某种情况下它的时常还会萎缩,当前这类客户会给企业带肋比较丰厚的利润但是就长期发展而言却不是利润的主要来源,他们在某种情况下会流失掉,会被其他的企业竞争对手的介入而流失,为此对于企业一方面要维持与这类客户的良好关系,保持稳定的客户关系,另一方面还要采取一些营销手段来刺激该类客户的消费,提供一些个性化的服务和策略;

第3类“淘汰型”客户,这类用户就如同鸡肋了,对于企业的现在和将来都意义不大,目前的销售份额较小,企业对他们营销的成本还很高,年利润率很低,根据分析这类客户包括浙江、湖南和吉林,他们没有长期的发展的趋势,所以企业采取的策略就是应充分挖掘他们给企业带来的当前价值后逐渐地放弃他们;

第4类是“贵宾型”客户,这类用户是企业的主要经济利润的来源,在某种程度上可以说是企业生存的保证,他对企业是关系到生死存亡的重要客户,从数据中看山东就是该企业的这类贵宾型的客户,他的当前价值和潜在价值都很大,企业必须认真对待,细心呵护与这类客户的关系,以及该客户企业的关键性人物的关系,加强与这类客户的沟通和关系的培养,同时还要提高警惕,防止竞争对手抢走这些贵宾型客户。针对贵宾型客户企业就应该对其进行一对一的营销策略,进行良好的客户需求沟通,尽最大可能满足他们的需求,适当给与一些特殊政策来加强和他们的关系。从不同角度来加强客户对企业的忠诚度、满意度等。企业根据这些重要的信息就可以针对不同的客户采取合适的销售策略。

聚类分析论文范文4

关键词: 洞庭湖区 生态经济区划 生态经济建设

洞庭湖位于长江中游荆江河段南岸,地处湖南省北部和湖北省南部间,是我国第二大淡水湖泊。本文中的洞庭湖区仅指的是洞庭湖湖南省部分(未包括湖北省的公安、石首、松滋等),范围包括岳阳市、常德市、益阳市三个市,共24个县(市、区),土地面积为45363 km ,占到湖南省土地总面积的21.4%(具体见图1)。在经济上取得巨大成就的同时,洞庭湖区的生态环境却令人担忧,湖区生态经济建设更显得刻不容缓。

1.湖区区划指标的建立

由于生态经济区划的复杂性、综合性,强调自然和人文的有机耦合,因此在指标的选取上就必须做到全面,指标必须包含生态、经济、社会等多方面的因素。本文在参照前人指标体系选择的基础上,结合湖南洞庭湖区的实际情况,分别从社会、经济和生态方面选取了24个指标来构建本文生态经济区划的指标体系①。(见表1)

2.SPSS指标数据分析处理

2.1主成分分析

2.1.1将原始数据进行标准化处理

本文选取了20个行政单位,选取2004年的指标24个,这样就组成一个20×24的原始数据矩阵。其中对原始数据矩阵X用以下公式进行标准化处理。公式如下:

2.1.2计算所有变量的相关矩阵R,得到相关系数矩阵:

2.1.3因子提取

采用主成分分析法,利用相关系数矩阵R进行因子提取。在SPSS中可以得到所有指标的特征值。根据特征值大于1的提取原则,并且公共因子的在变量总方差中所占的累计百分数达到84.661%,所以得到了能够综合反映洞庭湖区的生态经济状况的5个公因子。(见表2)

2.1.4因子旋转

为便于对主因子进行解释,知道每个主因子的意义,本文对因子载荷矩阵进行了旋转。本文用的是最常用的最大方差旋转法(Varimax)。(旋转后的主成分特征值、贡献率和累计贡献率见表3)

2.1.5主成分的确定

计算5个主成分的得分。由20个区域5个主成分的因子得分组成一个新的数据矩阵S;由这个数据矩阵S组成下一步聚类分析的原始数据,根据主成分得分及方差贡献确定权重(见表4),根据权重值,算出各区域综合因子得分,并进行排序(见表5)。

2.2聚类分析

本文采用了系统聚类法(Hierarchical Cluster),定义各样本点之间距离采用的是平方欧氏距离(Euclidean distance),接着计算出每2个样本间的欧氏距离系数D ,其公式为:

式中:D ―i,j两点的距离系数;X ―第i点第k因子的值;X ―第j点第k因子的值;m―因子的个数;q―指数。(公式:3)

然后根据距离系数,按照最短距离法,从矩阵表中选择距离系数相似的样本归并为一类,将其组成新的序列,继续计算新类同其它样本之间的距离,如此反复,每进行一次缩小一类,直到得到所需的结果为止。通过系统聚类,可以得到树状谱系图(图2所示)。

从以上的聚类结果来看,在取欧氏距离为2.3时,可以将湖区分为7类,从综合聚类结果来看,由于生态经济区划的划分首先强调的连片性和相似性,故为了综合考虑起见,本文又对三类指标分别进行了主成分分析,并得到了各自的主成分综合得分表,在初步聚类结果的基础上,结合生态和经济、社会单类指标主成分综合得分,并参照湖区的实际情况,最终可得中心城市生态经济区、北部沿湖平原生态经济区、中部丘岗综合生态经济区、环湖山地丘陵生态经济区四个区域(区划图见图3,分区结果和特点见表6和表7)。

注释:

①本文数据来源主要是2005―2006年湖南省统计年鉴;2005年湖南省年鉴;2004年湖南省国土资源厅统计的湖南省各个县区土地利用现状数据;湖南省国土委员会办公室和湖南省经济研究中心1985年编写的洞庭湖区整治开发综合考察研究专题报告等。

参考文献:

[1]张丽珍,孟令尧等.平泉县生态经济特征及其分区开发整治模式[J].1999.16,(2):12-16.

[2]胡月明,冯艳芬,江华,徐剑波,李强,陈飞香.中山市国家级生态示范区生态经济评价及可持续发展对策研究[J].2001.22,(3):13-15.

[3]左长清.关于建设江西生态经济区的思考[J].2002,(11):13-14.

[4]李红岩.洞庭湖区生态经济区划与建设初步研究:[硕士学位论文].长沙:湖南师范大学,2007.

[5]王克英.洞庭湖治理与开发[M].长沙:湖南人民出版社,1998:3-4.

[6]金相灿等.中国湖泊富营养化[M].北京:中国环境出版社,1990:234.

[7]张小红.生态经济区区划模型与建设研究――以华容县为例.[硕士学位论文].长沙.湖南师范大学,2006.

[8]王丽.生态经济区划理论与实践初步研究――以黄山市为例.[硕士学位论文].芜湖:安徽师范大学,2005.

聚类分析论文范文5

统计时将同一机构不同部门合并为同一机构,如华东师范大学言语听觉康复科学研究院、特殊教育系等合并为华东师范大学进行统计;同一机构不同称谓或机构有更名的合并为同一最新称谓进行统计,如上海交大新华医院、上海第二医科大学附属新华医院合并为上海交大新华医院,中国医科大学第二临床学院、第二附属医院合并为中国医大盛京医院进行统计。文献关键词对论文关键词进行分析,可以了解我国儿童语言发育研究的重点和范围。利用bi-comb软件对1576篇文章的6049个关键词进行统计,抽取词频大于22的30个关键词为高频关键词,通过对高频关键词统计可以看出国内儿童语言发育涉及的研究面较为广泛,但是仅仅停留在高频关键词的简单统计,很难归纳出研究的主要方面,因此需要通过聚类分析深入挖掘这些高频关键词之间的联系[1]。通过bicomb软件对上表中的高频关键词建立共词矩阵,再利用gcluto软件进行聚类分析,得出高频关键词聚类树图,研究对象和内容儿童语言发育的研究对象广泛,包括语言发育异常的儿童和正常儿童。语言发育异常的研究对象主要包括出现口吃、构音障碍、发育性语言障碍的儿童,以及存在影响语言发育的因素如听力障碍、孤独症、智力低下和脑瘫等疾病的儿童。对异常儿童的研究内容涉及病因、临床表现、诊断、康复治疗等方面。研究者在研究语言发育时对正常儿童的界定标准一致,即选择不存在上述影响语言发育因素的儿童。对正常儿童语言发育规律的探讨,包括发音、词汇、句子、语法、语用等方面的研究。通过文献梳理,可以发现在对正常儿童进行研究时个案研究居多,群体研究相对较少。研究材料和方法国内对儿童语言发育情况进行测评的方法较缺乏,在研究中主要采用以下方法。第一种方式,采用标准的结构化测试,包括图片词汇测试、丹佛发育筛查试验、盖泽尔发展量表、韦克斯勒学龄前和学龄初期智力量表等。目前标准测试中还只有图片词汇测试是直接用于语言测评的工具,其它结构化测评都只能部分或间接通过智能水映儿童语言能力。第二种方式,采用语言样本分析,即在儿童熟悉的环境中,由他们自由地做一些常做的活动并进行录音,采集语言样本后进行转录并利用语言样本分析程序自动分析[2]。语料测评可较客观的得到儿童的语言水平,但需要儿童有足够的语言表达能力后才能收集语料,不能应用于还没语言表达能力的年幼儿童。近年来,有学者开始采用新的方式来评估儿童的语言能力。例如,北大医院梁卫兰等[3]利用父母报告方式,通过抚养人根据儿童日常的表现,选择儿童会的词汇和手势,评估婴幼儿语言和沟通能力。还有学者采用自行研究设计的量表,其中有代表性的是上海刘晓等[4]编制的《早期语言发育进程量表》。这些测评方法能较好的反映年幼儿童的语言能力,有待于在临床进行推广。

年代和学科分析从年代分布可以看出,研究国内儿童语言发育的文献量近十年增长较快,图1显示呈现逐年上升趋势,发展趋势良好。通过表1的主要研究学科可以看出,儿童语言发育引起了医学、语言学、心理学、教育学等多个学界的关注,随着相关学科的快速发展,国内儿童语言发育研究也将进一步开展,未来可更多的开展学科之间的交叉研究。期刊分析根据布拉德福定律:核心区、相关区、非相关区期刊数量成1∶n∶n2的关系[5],将729种刊载儿童语言发育论文的期刊,按照刊载论文的数量,以递减顺序排列,按照公式计算若前27种期刊中刊载33.3%以上的文献方能形成核心期刊区。排在最前面的27种期刊刊载文献约占论文总数的29%,前40种期刊才达到33.3%的比例,故目前尚未形成核心期刊群。虽然该领域尚未形成核心期刊群,但有关儿童语言发育的文献较多的刊登于表2中所列期刊,提示作者向此类期刊投稿,可能会提高命中率。作者和机构分析以普赖斯定律对作者群进行分析,核心作者的论文量应该占全部相关论文总量的一半,核心作者最低发文数N的值为:N=0.749(Gmax)1/2),其中Gmax为所统计的年限中最高产的那位作者的论文数[6],在本次研究中为27,故N取整数为4。作者论文4篇以上为56人,多数文章为合作完成,共127篇,占总论文数8.1%,远低于儿童语言发育论文总和的50%,提示儿童语言发育研究的核心作者群仍处于形成阶段。根据发文机构统计结果显示,主要发文机构包括多个教育机构和医学机构,提示可加强教育和医学机构之间的相互合作,推广医教结合模式。

关键词频次表反映了我国儿童语言发育研究重点及热点分布。对进行聚类分析得出的聚类树国内儿童语言发育研究的高频关键词大致可聚为五类。第一类是新生儿听力筛查,第二类主要是婴幼儿语言发育,第三类是语言障碍儿童的语言能力及语言训练,第四类主要是学生的词汇、句子等方面的发展,第五类是学龄前儿童的语言习得。摘要分析通过文献摘要分析,可以看出在对正常儿童进行研究时个案研究居多,群体研究相对较少。基于个案得出的数据未必能代表群体的发育规律。正常儿童的语言发育规律,是研究异常儿童发育异常的基础,可更多地开展正常儿童语言发育规律的群体调查。国内对儿童语言发育情况进行测评的方法较缺乏,主要通过结构化测评和语言样本分析方法进行测评,对年幼儿童语言能力进行测评的方法较少,新的测评方法有待于研究和推广。综上所述,国内儿童语言发育研究的总体发展趋势良好,发表文献量逐年增加,呈多学科发展的态势,引起了医学、语言学、心理学、教育学等学界的关注,未来可更多地开展学科之间的交叉研究。目前尚未形成核心期刊群和稳定的研究群体,主要发文机构包括多个教育机构和医学机构,提示可加强教育和医学机构之间的相互合作,推广医教结合模式。对正常儿童进行研究时群体研究相对较少,应更多地开展正常儿童语言发育规律的群体调查研究。国内语言发育测评的方法较缺乏,新的测评方法有待于研究和推广。

作者:潘虹地 赵亚茹 汪永娟 梁萃 陶旭炜 李雪宁 单位:中国医科大学附属盛京医院发育儿科

聚类分析论文范文6

关键词:Web;挖掘;PSO

随着Internet的迅速发展,World Wide Web已深入到社会生活的方方面面。Web可以说是目前最大的信息系统,其数据具有海量、多样、异构、动态变化等特性。人们使用Web,一般有如下需求[1]:

获取相关信息或服务;

从Web信息中发现新的知识;

提供个性化服务:不同的用户对信息、服务有不同的要求。

为了解决上述问题,人们迫切需要能自动地从Web上发现、抽取和过虑信息的工具,由此产生了Web挖掘。

Web挖掘就是从Web文档和Web活动中发现和抽取潜在的、用户感兴趣的有用模式和隐藏的知识[2]。

1.Web挖掘

WEB挖掘可以认为包括以下四个子任务[3,4]:资源发现、信息选择和预处理、概括和泛化、分析。

资源发现是一个从Web上的联机资源中检索数据的过程。信息选择和预处理是一个信息转变的过程。它可以是除去停用词,词干处理,发现训练集中的短语,以及得到关系或逻辑表示等。概括过程是应用数据采掘技术获得知识。最后的分析是对采掘结果的验证和解释,在此过程中应该发挥人的作用。

Web文本信息的特征获取是指自动地从Web文本信息中抽取出代表其内容主题的特征词条形成特征矢量来表示Web文本。它影响到下一步Web文本分类的质量。文本挖掘问题的一个主要难点是特征矢量的维数过高,对于大多数学习算法来说都难以承受。目前已有多种方法被用于特征抽取,比如文档频次门限方法、信息增益方法、χ2分布方法、互信息熵方法、基于奇异值分解的潜在语义索引方法(LSI)以及基于遗传算法的特征提取算法等。

聚类技术是对符合某一访问规律特征的用户进行用户特征挖掘。Web使用挖掘中存在两种类型的聚类:使用聚类(用户聚类)和页面聚类。根据聚类的结果聚类方法可分为层次聚类与非层次聚类。在不同的方法中,人们研究了获得较高的计算效率的问题。

在Web使用挖掘过程中,对用户、Web页面等Web对象进行聚类时,存在明显的模糊性,模糊聚类也因此成为目前Web聚类分析研究的主流。

2.Web挖掘中存在的问题

Web数据挖掘[5]与传统数据挖掘不同,Web页面的结构比一般文本文件复杂很多,它可以支持多种媒体的表达。人们最初是希望通过Web来实现世界各种信息的互通,在这个平台上自然希望任何的信息都可以表达了。因此也造成了互联网数据的复杂性这个特点。而在互联网上文档一般是分布的,异构的,无结构或者半结构的。许多新技术的产生为解决这个难题提供了一条可行的道路,如XML技术。还有,互联网上的数据动态性极强,页面本身的内容和相关的链接经常更新。而互联网面对的客户也各不相同,这些都造成了用户行为模式分析的困难度。

现行Web挖掘方法很多,解决Web信息应用部分问题,但存在一定的不足,如:由于用户查询固有的主观性、不精确性和不确定性,大多数Web检索系统仅用一个简单的检索模型,侧重于检索效率,忽视了检索的准确性。不能进行软决策,现有查询是基于“硬抛弃”法,而且取决于查询与检索出文档的相关性,但相关性只是文档的部分属性,不是很分明的界限。页面分级还不全面,还没有考虑各种参数的权重,如点击位置、相邻性和频率等,分级还很少考虑用户的特点。

为处理Web数据特征,克服目前现有的Web挖掘方法的局限,软计算方法是一个很好的方法。软计算是一组协同的方法,它提供一种处理现实中模糊状态信息灵活处理能力。它们的目标是通过探索不精确、不确定、近似推理和局部正确的最大可能限度,达到易理解的、健壮的和低代价的解决方案,类似人的决策过程。软计算技术包括模糊逻辑(fuzzy logic,FL)、粗糙集(rough set,RS)、人工神经网络(artificial neural network,ANN)和遗传算法(genetic algorithm,GA)[ 5-8]。

现有的Web文档特征抽取算法文章证明这些特征抽取方法都有一些局限。传统的聚类分析把每个待辨识的对象严格地划分到某个类中,各个类别的界限是分明的。然而现实世界存在着大量的界限划分不严格的聚类问题。即问题具有一定的模糊性,如在区分“优”和“良”等级时,就需要模糊划分。在Web使用挖掘过程中,对用户、Web页面等Web对象进行聚类时,存在明显的模糊性,模糊聚类也因此逐渐成为Web聚类分析研究的主流。

3.粒子群优化算法

粒子群优化(Particle Swarm Optimization, PSO)算法[1]是Kennedy和Eberhart受人工生命研究结果的启发、通过模拟鸟群觅食过程中的迁徙和群聚行为而提出的一种基于群体智能的全局随机搜索算法,与其他进化算法一样,也是基于“种群”和“进化”的概念,通过个体间的协作与竞争,实现复杂空间最优解的搜索;同时,PSO又不像其他进化算法那样对个体进行交叉、变异、选择等进化算子操作,而是将群体(swarm)中的个体看作是在D维搜索空间中没有质量和体积的粒子(particle),每个粒子以一定的速度在解空间运动,并向自身历史最佳位置pbest和邻域历史最佳位置gbest聚集,实现对候选解的进化。PSO算法具有很好的生物社会背景而易理解、参数少而易实现,对非线性、多峰问题均具有较强的全局搜索能力,在科学研究与工程实践中得到了广泛关注[3-8] 。

由于PSO 中粒子向自身历史最佳位置和邻域或群体历史最佳位置聚集,形成粒子种群的快速趋同效应,容易出现陷入局部极值、早熟收敛或停滞现象。同时,PSO的性能也依赖于算法参数。为了克服上述不足,国内外学者相继提出了各种改进措施。主要有粒子群初始化、邻域拓扑、参数选择和混合策略四类。

4.结论

由此可见,由于Web信息的独特性,和传统的数据挖掘相比,Web挖掘还有很多需要解决的难题需要我们针对实际应用加以解决。

参考文献:

[1]吉林大学博士学位论文 Web挖掘中若干问题的研究 许建潮 2005.6.10.

[2]Raymond Kosala,Hendrik Blockeel, Web Mining Research: A Survey, SIGKDD Explorations,2(1),pages 1-15,July 2000.

[3]中国科学院博士学位论文 WEB信息检索与分类中的数据采掘研究 李晓黎 2001.5.21.

[4]周龙镶,阳小华.基于用户访问模式的WWW浏览路径优化[J].软件学报,2001,12(6),846~850.

[5]Jianhan Zhu,Jun Hong,John G Hughes.Using Markov Models for Web Site Link Prediction.In:Proceedings ofthe thirteenth ACM conference on Hypertext and hypermedia.Maryland(USA),2002,169~170.

[6]浙江大学博士毕业论文 Web访问信息挖掘若干关键技术的研究 余轶军 2006.4.1.