前言:中文期刊网精心挑选了数学建模聚类分析范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。
数学建模聚类分析范文1
关键词 上市公司;经营业绩;主成分分析;聚类分析
一、引言
上市公司业绩评价过程中,人们往往是人为地比较上市公司某个或某几个指标的高低,主观地赋予某个指标一定的权重。这种做法虽简便易操作,但却在很大程度上有赖于评价者的主观判断能力和经验,而缺乏实证依据的支持。本文选取具有综合评价能力的指标,用主成分分析法和聚类分析法建立一个业绩综合评价模型。最后对天津若干家上市公司进行了实证分析,结果表明该模型是有效的。
二、建模
1.初始指标的选取
结合国外研究成果[1][2],以及我国财务管理实际,并根据可量化性,统计资料的可获得性和完整性,以上市公司基本财务报表为基础。我们确定15个指标作为研究中使用的初始变量。分别是: X1:每股收益; X2 :每股净资产; X3:流动比率; X4 :速动比率;X5:主营收入增长率; X6:总资产周转率; X7:固定资产增长率;X8:每股公积金; X9:每股未分配利润; X10 :资产负债率;X11 :存货周转率;X12 : 总资产周转率;X13 :主营业务利润率; X14:净资产报酬率; X15:现金流量比率。
这些指标能够反映上市公司的经营业绩,与我们的研究目的直接相关,但这些指标之间有的具有较高的相关性,比如每股收益和净资产收益率之间。为此,先对它们进行主成分分析,进行降维。因为主成分之间是不相关的,符合聚类分析的要求。
2.主成分分析
主成分(Principal Component Analysis,简称PCA)是利用了降维的思想,将多指标问题重新组合成一组新的相互无关的几个综合指标来替原来的指标,同时根据实际需要从中提取几个较少的综合指标(主成分),尽可能多地反映原来指标的信息,虽然这样做会损失部分信息,但由于我们抓住了主要矛盾,并从原始数据中进一步提取了某些新的信息。因而在某些实际问题的研究中收益大于损失。具体步骤如下 [3]:
(1)数据的无量纲处理;
(2)计算相关矩阵 R;
(3)求相关矩阵R 的特征值和特征向量;
(4)计算各主成分的贡献率
(5)确定主成分个数。
3.聚类分析
为了更进一步的分析上市公司在经营活动中存在的差别和共性,本文采用在实际应用中使用比较广泛的系统聚类法分析的方法,依据各个上市公司财务状况指标的主成分得分矩阵,把每个样本各看成一类,然后根据样本间距离及类间距离的定义,逐步合并类,减小类的数目,达到聚类分析的目标。
三、 实例
考虑到数据的可获得性,本文随机选取了天津9家上市公司2005年度公开披露的财务数据为样本(原始数据来源于华泰证券网),主成分及聚类分析的计算过程通过SAS软件来完成。
主成分分析结果:
四、结束语
我们对天津上市公司2005年度的财务状况数据分别运用主成分及聚类分析方法,对企业经营状况进行了分析和评价,借助聚类图将公司按经营的不同侧面进行分类。其结论不仅为企业的经营管理提供参考,也可以给股市投资者评判上市公司的质量提供依据。
参考文献
[1] 朱杰等. 上市公司聚类判别分析研究 [J],决策参考,2005.09-0041-03
[2] 刘卫红等.数学建模与聚类分析方法在企业经营效绩评价中的综合运用[J],数学的实践与认识,2005年5月,第35卷第5期pp.12-17
数学建模聚类分析范文2
关键词:R软件;系统聚类分析;多元统计
引言
多元统计分析是统计学的一个重要分支,也称多变量统计分析;在现实生活中,受多种指标共同作用和影响的现象大量存在,多元统计分析就是研究多个随机变量之间相互依赖关系及其内在统计规律的重要学科,其中最常用聚类分析方法,由于多元统计聚类分析方法一般涉及复杂的数学理论,一般无法用手工计算,必须有计算机和统计软件的支持。
在统计软件方面,常用的统计软件有SPSS、SAS、STAT、R、S-PLUS,等等。R软件是一个自由、免费、开源的软件,是一个具有强大统计分析功能和优秀统计制图功能的统计软件,现已是国内外众多统计学者喜爱的数据分析工具。本文结合实例介绍R软件在多元统计聚类分析中的应用。
一、系统聚类分析
聚类分析又称群分析,它是研究(样品或指标)分类问题的一种多元统计方法,所谓类,通俗地说,就是指相似元素的集合。在社会经济领域中存在着大量分类问题,比如若对某些大城市的物价指数进行考察,而物价指数很多,有农用生产物价指数、服务项目价指数、食品消费物价指数、建材零售价格指数等等。由于要考察的物价指数很多,通常先对这些物价指数进行分类。总之,需要分类的问题很多,因此聚类分析这个有用的工具越来越受到人们的重视,它在许多领域中都得到了广泛的应用。
聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等;最常用最成功的聚类分析为系统聚类法,系统聚类法的基本思想为先将n个样品各自看成一类,然后规定样品之间的“距离”和类与类之间的距离。选择距离最近的两类合并成一个新类,计算新类和其他类(各当前类)的距离,再将距离最近的两类合并。这样,每次合并减少一类,直至所有的样品都归成一类为止。
系统聚类法的基本步骤:
1、计算n个样品两两间的距离。
2、构造n个类,每个类只包含一个样品。
3、合并距离最近的两类为一新类。
4、计算新类与各当前类的距离。
5、重复步骤3、4,合并距离最近的两类为新类,直到所有的类并为一类为止。
6、画聚类谱系图。
7、决定类的个数和类。
系统聚类方法:1、最短距离法;2、最长距离法;3、中间距离法;4、重心法;5、类平均法;6、离差平方和法(Ward法)。
二、基于R语言的系统聚类分析程序
R软件及其相关包提供了各种聚类方法,主要是系统聚类方法、快速聚类方法、模糊聚类方法,常用的是系统聚类方法。
R软件实现系统聚类的程序如下:
hclust(d,method="complete",members=NULL)
其中,d是由“dist”构成的距离结构,具体包括绝对值距离、欧氏距离、切比雪夫距离、马氏距离、兰氏距离等,默认为欧氏距离;method包括类平均法average、重心法centroid、中间距离法median、最长距离法complete、最短距离法single、离差平方和法ward等,默认是最长距离法complete。
三、应用举例
表1是山东省2008年各市居民家庭平均每人全年消费性支出,利用所给数据对各市进行系统聚类。(表1)
R语言程序如下:
>X
>row.names(X)
>d
>hc1
>hc2
>hc3
>hc4
>opar
>plot(hc1,hang=-1);plot(hc2,hang=-1)
>plot(hc3,hang=-1);plot(hc4,hang=-1)
输出结果(图1)
结果分析
由图1可以看出,不同方法的分类大体一样,结合山东省具体实际情况,最长距离法分类效果较好。
在系统聚类分析中,利用R软件是最方便、最简单、最易学的,而且根据不同的情况,可以自己修改别人的程序,比较方便;可以在处理多元数据聚类分析中,利用R软件具有很大的优势。
主要参考文献
[1]王斌会.多元统计分析及R语言建模[M].广州:暨南大学出版社,2010.
[2]汤银才.R语言与统计分析[M].北京:高等教育出版社,2005.
数学建模聚类分析范文3
安徽财经大学经济学院 安徽蚌埠 233030
[摘要]适宜的销售策略对于分销商来说至关重要。本文通过建立系统聚类模型,得到对每一销售途径和销售区域所对应的销售额影响最大的商品类型,从而得知特定商品在特定销售途径或销售区域的畅滞销情况,并据此制定适宜的销售策略。
[
关键词 ]系统聚类;销售策略;分销商
一、前言
分销商用自己的资金买进产品,并承担能否从销售中得到足够盈利的全部风险。分销商的利润来源主要是靠销售产品,在享受全部利润的同时也承担着全部的风险。因此,对于分销商来说,挖掘出影响各个销售途径、各个销售区域的销售额的主要商品类别,并据此制定适宜的经营销售策略,是至关重要的。
二、研究思路
为了挖掘出影响各个销售途径、各个销售区域的销售额的主要商品类别,最终为批发销售商提供智慧的经营销售策略,我们在获取了两种不同销售途径和三种不同销售区域下的六类商品的销售额数据的基础上做了三步研究。
第一步,通过数据预处理判定某一商品对某一销售途径或区域的影响。为了量化影响,需要从该商品在此途径或区域的销售额均值进行分析,单个商品均值高的,对整个销售途径或区域的销售总额影响较大;其次,方差代表销售额的不确定性,也造成了一定影响。故,我们使用标准差系数来表示某个商品的影响,标准差系数越大,其均值的代表性越小,对整个销售途径或区域的销售总额影响也越小。
第二步,通过建立系统聚类分析模型,区分出主要影响商品这一类。由于需要分类,且分类情况未知,所以可以进行聚类分析。利用各个销售途径或区域六类商品的销售额标准差系数进行系统聚类,聚成3类,聚类中心最小的那一类为均值影响代表性最好的那一类。
第三步,为批发销售商提供智慧的经营销售策略。这个策略主要是,指出在某一销售途径和销售区域组合中,影响销售额最大的商品类别。
三、研究过程
(一)数据预处理
标准差系数越大,说明数据的离散程度大,其平均数的代表性就差;反之,标准差系数小,说明其均值代表性强。
通过运用统计软件对原始数据进行统计描述,并加工整理,得表1:
(二)系统聚类模型
1.建模思路
此模型用于区分出,对整个销售途径或区域的销售总额有较大影响的那一类商品。首先,对各个销售途径或区域的销售数据进行统计描述,得出各个商品的销售额均值和方差;其次,对所得数据进行处理,得到各个商品在各个销售途径或区域的销售额标准差系数;最后,利用系统聚类得到对整个销售途径或区域的销售总额有较大影响的那一类商品,并提出智慧的经营销售策略。
2.模型结果
(1)对途径一的六类商品进行系统聚类的结果
分别利用途径一各类商品的标准差系数进行聚类,采用组间连接聚类方法,并采用平方Euclidean距离的度量标准,得到最优聚类分3类,系统聚类结果如下:
(2)六类商品进行系统聚类的结果
采用与途径一相同的聚类方法,分别对途径二、区域一、区域二和区域三中各类商品的标准差系数进行聚类,其聚类结果如表3-6:
(三)结果分析
由聚类结果可以得到对整个销售途径或区域的销售总额有较大影响的那一类商品,结果汇总表如表7-8:
由上表可知,分销商来说,影响途径一的主要商品类别为:保鲜品、杂货商品,其中;影响途径二的主要商品类别为:杂货商品;影响区域一的主要商品类别有四个,分别为:保鲜品、乳制品、冷冻开支、熟食产品;影响区域二的主要商品类别也是四个:保鲜品、乳制品、杂货商品、熟食商品;影响区域三的主要商品类别为:保鲜品、杂货商品。
四、研究结论
对销售商来说,销售商品的方法就是途径与区域相结合的。因此,在制定经营销售策略时,主要定向分析某一区域某一商品的销售,根据表8来定性确定。具体为:在区域一中,采用途径一时,主要销售保鲜品,采用途径二时,这六种商品则没有什么差别,可以酌情均匀销售;在区域二中,采用途径一销售商品时,主要销售保鲜品、杂货商品,采用途径二销售商品时,主要销售杂货商品;在区域三中,采用途径一销售商品时,主要销售的是保鲜品,杂货商品,而采用途径二销售商品时,主要考虑杂货商品。综合以上各区域采用不同的销售途径销售商品时,销售的侧重点不同,企业酌情搭配其他产品便是相对优秀的经营销售策略。
参考文献
[1]何晓群.多元统计分析[M].北京:中国人民大学出版社,2008.
[2]杨桂元,黄己立.数学建模[M].安徽:中国科学技术大学出版社,2008.
[3]李柏年,吴礼斌等.MATLAB数据分析方法[M].北京:机械工业出版社,2001.
数学建模聚类分析范文4
关键词:矿用呼吸防护用具;设计分析;造型
研究矿用呼吸防护用具造型相关的设计,需要从用户的描述性语言中得出数据化的造型设计依据。借助感性工学的方法,建立感性意象词汇对与形态设计。
1矿用呼吸防护用具造型设计分析
防护用具主要研究矿用呼吸防护用具造型与影响消费者的感性意象之间的关系。通过构建数学模型,建立清晰的对应关系,为造型设计的选择提供详实的参考依据。
2矿用呼吸防护用具感性意象空间的建立
2.1典型感性意象词汇对的选取
2.1.1感性意象词汇对的收集感性意象词汇对具有主观特征,是指被试者在观察实验对象时,结合自身认知经验,经由大脑进行信息加工处理后所形成的感受。感性意象词汇对的收集应该尽力涵盖不同用户对于矿用呼吸防护用具的主观感受。为了提高感性意象词汇对的用户感受的描述维度,在收集之初,采用收集语义相反的感性意象词汇对的形式(如小巧的、笨重的)。本研究主要通过文献资料查阅和专家访谈的形式进行感性意象词汇对的收集,相关文献资料的来源主要有:①电商网站平台评论数据:京东、天猫官网对于工业口罩的用户评价信息。②3M重松等呼吸防护用具厂商相关产品设计书及感性工学相关文献资料。③盖得排行、百度排行等产品测评机构,网络测评平台推文。总共收集与矿用呼吸防护用具相关感性意象词汇对50对,由于词汇对数量较大,需要对相关词汇对进行进一步筛选与聚类,得到数量上尽可能少,描述涵盖尽可能广的代表词汇对来进行后续的用户测试和统计学分析。2.1.2感性意象词汇对的卡片分类释义筛选初步收集的词汇对可能存在词义和语义重复等问题,需要相关专家对所收集的词汇对进行卡片分类释义筛选,删去不合理的词汇对,合并意义相同的词汇对等。同时,通过卡片分类得到亲和图,显示词汇对之间的亲近性关系分组,也可为后续聚类实验的实验结果进行合理性验证。2.1.3感性意象词汇对的多维尺度相似性分析多维尺度分析法(MDS,MultidimensionalScaling)是一种对大量数据或变量进行降维处理的探索性分析技术,通过推断变量之间的多维空间结构来帮助设计者寻找被试用户的行为以及心理活动的潜在分类结构[1]。2.1.4感性意象词汇对的聚类分析聚类的实质就是将性质相似的变量聚集在一起,聚类分析进行分类的唯一依据是对象间的“相似性”。计算时采用数学上的“距离”来衡量,对象间距离越小,对象越相似,将距离相似的归为一类;同时使不同类的距离最远,就是聚类分析方法的原理。聚类分析最常用的方法有系统聚类法和K-均值聚类法;系统聚类法采用自上而下的分解法,将所有对象视作一个大类逐步剥离;或者采用自下而上的凝聚法,将每个对象视作单独个体逐步融合;K-均值聚类法需要先指定K个中心点,计算所有点和K个中心点的距离,按照距离最近的原则确定每个点的归属,再重新计算每类的中心,不断重复计算调整中心点位置,直到达到临界值为止。采用系统聚类法,一旦变量被分入一类后,就不会再被取出,因此通过系统聚类法得到的聚类结果是不可靠的。而K-均值聚类法虽可不断重复迭代计算聚类中心,但需要事先给出合适的聚类数量。因此,采取先进行系统聚类观测合适聚类个数,再通过K-均值聚类得到聚类中心的方法。依据系统聚类的结果,最终选取7类作为聚类中心。运用SPSS软件中的K-means聚类,最大迭代次数设置为10,收敛性标准设置为0,最终得到7个中心点。通过SPSS可以自动生成每个感性意象词汇对与其所属类型中心点的距离,选取每类中距离中心最近的词语作为该类型的代表,最终得到典型的7对感性词汇对。为了论证K-均值聚类分析结果的可靠性,选用方差分析和显著性检验进行结果验证。F值表征显示变量对聚类结果的贡献情况,值越大,表明其再聚类时的分辨作用越大,Sig值表征显著性;Sig小于0.05表征具有显著差异,说明聚类分析结果划分是合理的。
2.2典型矿用呼吸防护用具样本的选取
为了建立矿用呼吸防护用具的感性意象空间,需要对相应样本进行收集。借助文献研究以及网络调查等相关渠道,共搜集了近70款不同造型样式品牌的工业级呼吸防护面罩图片。矿用工业呼吸防护样本需要被进一步筛选,来去除外观形态相似以及重复的样本。同时需要对所收集到的图片进行灰度处理,消除产品颜色与材质对后续实验的影响,需借助PS软件对样本图片进行进一步处理。矿用呼吸防护用具样本的聚类实验通常采用专家评价法,将观察到的37例灰度处理样本进行一次不限定组合个数的分类,并对两两组合之间进行相似性打分。根据被试者对37例灰度处理图片的相似性打分形成的6个37×37的相似性矩阵,对其求取平均值后获得平均相似性矩阵,转换为距离矩阵后运用交替最小方差法求取不同样本的维度坐标值。
2.3矿用呼吸防护用具语义差异量表的建立
感性工学心理学测量方法是通过测量被试者的心理反应,从而测量感性。语义差异法,也称SD法,是著名心理学家查尔斯·埃杰顿·奥斯古德(CharlesEgertonOsgood)所创造出的方法。当受测者接受不同程度的外在刺激后,用问卷的方式去陈述自己的感受。问卷的信息视为感受量,利用多次元尺度法或图形理论法将其构造化,从而将人的感性信息转变为定量的数据。被试验者对研究者给出的实验样本进行评价等级选择,得到“感性”的实验数据[2]。将经过多维尺度分析和聚类分析获得的7组感性意象词汇对分列两端,使被试者对十二例典型矿用呼吸防护用具样本进行偏向打分。选用等级量表,分发给煤矿相应工作人员,共收集问卷59份。排除可疑问卷(填答时间过短、问卷答案高度重复等)后,统计量共计47份。为了验证问卷数据的可靠性,选用皮尔逊相关系数分析,将被试者对每个矿用呼吸防护用具样本的每对感性意象词汇对下的打分平均值分别与该样本下所有形容词打分的平均值作相关分析。计算相关系数以及对应的双尾显著性检验,7对感性意象词汇对的双尾显著性均小于0.05,且相关性都较强认为这些词汇对对整体打分结果均具有显著影响,可以保留。
3矿用呼吸防护用具造型形态设计要素的分析
矿用呼吸防护用具的主要工作原理是使空气通过具有特殊过滤颗粒物的防护滤网/滤盒,将过滤后的可吸入空气输送进入人体,同时将人体呼吸排出的气体通过单向气阀排出具有密闭效果的面罩腔体。滤盒过滤面积大小、面罩腔体大小、面罩密闭性等问题都是矿用呼吸防护用具的重要设计问题。矿用呼吸防护用具的产品模块可解构为主体、滤盒、进气阀、排气阀、贴面、头带、标识、装饰物模块,按照不同模块的形状、大小、位置关系等相关因素分类可被分为29小类。
3.1连续性项目差异性检验
涉及大小的数据,其类目小、适中、大是存在连续性渐进关系的,故可以通过连续的体块图案进行表示。涉及大小类数据的项目有主体正面面积大小、主体侧面厚度、主体重量、滤盒正面面积大小、贴面正面面积大小和贴面侧面厚度。
3.2非连续性项目差异性检验
非连续性项目是指项目类目间并不存在连续性关系,如形状的类目(水滴式、五星式、圆式、类方式、头盔式)、涉及位置关系的类目(正前式、两侧式、头顶式)。
4矿用呼吸防护用具造型特征与感性词对之间数学模型的建立
4.1为了挖掘典型矿用呼吸防护用具样本与典型感
性意象词汇对之间的内在联系,将抽象的描述性意象通过具象的数据表征表达,需要建立二者之间的数学模型。数量化理论作为多元统计分析方法,将定性与定量变量一体化,纳入说明变量的范畴。将未用数值表示的数据资料,改由从量上探索与处理。由林知己夫于1950年提出Ⅰ、Ⅱ、Ⅲ和Ⅳ型数量化理论,其中数量化理论Ⅰ类主要是进行预测与观察自变量对因变量的作用。可将矿用呼吸防护用具解构的项目及其对应类目作为自变量,将感性意象的评价值作为因变量,利用数量化理论Ⅰ类可以很好地构建预测数学模型。4.2以矿用呼吸防护用具形态特征解构项目及其对应类目作为评价对象,其典型感性意象作为评价目标,完成感性评价实验后,可得到用户对于不同设计项目类目的意象性感受。实现了将描述性、通俗化数据向准确性、标准化的建模过程,为后续的设计可以提供可靠的设计依据。
5小结
首先,本文通过文献分析、专家访谈等方法收集矿用呼吸防护用具相关感性词汇对及样本图例。借助多维尺度分析、系统聚类及K-均值聚类,对词汇对及样本图例进行聚类归纳,获得典型感性意象词汇对及典型矿用呼吸防护用具样本。随后,通过语义差异问卷,获取用户对于不用样本的感性意象偏好,建立感性意象空间,将其作为数学模型建构的因变量。接着,对矿用工业呼吸防护样本进行形态特征解构,对解构的形态特征类目项目进行筛选以及内部相关性分析,排除干扰后,将其作为数学模型建构的定性自变量。最后,借助数量化理论Ⅰ类,实现数学模型未知系数的求解,获得矿用呼吸防护用具感性意象与形态设计项目类目之间的关系方程,为造型设计的选取提供基于用户的设计参照,并以“温暖、环保、轻便、素净”感性意向为例进行数据分析。
参考文献:
[1]孔鹏.矿井粉尘现状及综合防治技术[J].西部探矿工程,2020,32(08):105-106.
数学建模聚类分析范文5
关键词:数据挖掘;聚类划分;聚类
中图分类号:TP393 文献标识码:A 文章编号:1007-9416(2017)04-0151-02
随着网络应用于各个领域,随之也产生了海量的网络数据,并且这些数据是杂乱的,无规则的。对于信息数据的爆炸式的增长,而如何分析处理这些收集到的海量数据,是数据挖掘面临的首要问题。数据挖掘(Data Mining),即是从大量的、不规则的、有噪声的、模糊的数据中,提取隐藏在其中的、人们事先不知道的、但又潜在有用的信息和知识的过程[1]。聚类分析是数据挖掘领域中研究的一项重要课题,对于收集到的海量数据,通过聚类分析,发现相似数据间的知识特征,不相似数据间的数据属性之前存在较大差异,并以此规则进行数据分类,分类后的同类的数据对象之间的有一定的相似度,不同类的数据对象之间的相似度较小,每一组数据都是相似对象的集合,通过分析可以获得同类数据对象的数学模型和数据特征。
1 聚类
聚类是一个将数据划分为若干簇或类的过程,它将物理的或抽象的数据的集合分组成多个簇或类,每个簇或类中的数据特征有较高的相似性,不同的类或簇中的数据特征则不相似,这一分类过程就是聚类的过程。聚类分析就是从给定的数据集中找出同类数据对象之间的联系,被分为同一类的数据对象,由于数据特征相同,常常被当作一个对象来进行分析处理,通过对不同数据集之间的分析,挖掘出潜在的,有用的数据知识模型,为用户提供决策。对于聚类算法,很难有明确的分类标准,这些聚类方法一般具有某些类别特征。
2 聚类算法的分类
2.1 基于划分的聚类算法
假定数据集包含n个数据对象或数据元组,要将数据集通过聚类划分成K(K≤n)个簇或类,划分的簇或类要满足下列三个条件:(1)每个簇或类中包含r(r≥1)个数据对象或元组;(2)任意一个数据对象或元组只能属于一个簇或类;(3)簇或类的划分准则是:在同一个簇或类中的数据元组特征是相似的,不同簇或类中的数据元组特征是不相似的。
基于划分的聚类算法,依据初始数据集划分数目K,构建一个初始聚类划分,然后利用迭代重定位技术,将每个数据元组在各个聚类簇中进行划分,原则是:同一个划分簇中的对象或元组数据特征相似,不同划分簇中的对象或元组数据特征有较大的差异,通过迭代重定位,把数据集N最终划分成了K个簇[2]。典型的基于划分的算法有:K均值聚类和K中心点聚类。
2.2 层次方法
层次聚类算法是将数据对象组成一棵聚类树,根据层次分解的方法,对数据集进行层次分解,直到满足某种条件为止[3]。层次聚类方法有两种,一种是自底向上的合并方法,一种是自顶向下的分裂方法。层次聚类的方法的劣势在于:一旦Q定采用具体的分裂法或合并方法后,如果中途发现此种方法并不合适,则无法返回更正。常见的层次聚类方法有:BIRCH(利用层次方法的平衡迭代归约聚类算法)、CHAMELEON(动态建模的层次聚类算法)。
2.3 基于密度的方法
基于密度的聚类划分:给定密度阈值,如果某个区域中数据点的密度大于密度阈值,则数据点属于相近的划分聚类,这种划分方法将数据集看作是数据空间中被低密度区域分割开的大密度区域。基于密度划分的方法代表性的算法有:DBSCAN(基于高密度连通区域的聚类算法)、DENCLUE(基于密度分布函数的聚类算法)。
2.4 基于网格的方法
基于网格的聚类划分方法是将数据对象空间分为若干个网格单元,聚类的过程就是对这些网格处理的过程,基于网格的聚类划分的优点是处理速度快,处理速度受限于量化空间中每一维的单元数目,而于网格单元数目无关。基于网格划分方法的典型算法有STING(统计信息网格聚类算法)和WaveCluster(小波变换聚类算法)。
2.5 基于模型的方法
基于模型的聚类方法有个假定前提:每个聚类划分都可以构建一个数学模型,聚类就是找到每个聚类簇相对应的数据模型的过程。数据集潜在的假定符合一系列的概率分布,数学模型算法可能数据点在空间中的分布密度函数或其它。常用的有EM(期望最大化聚类算法)。
3 几种常用的聚类算法
3.1 K-means划分聚类算法
通常给定包含N个数据对象的数据集D,将数据集按目标度量函数划分成K个簇。K-means聚类算法,是采用距离作为聚类的标准,距离越近,认为其相似度越高,聚类过程如下:
(1)随机从数据集D中选取K个数据对象作为初始点,初始化K个聚类;
(2)对于余下的每个数据元组,计算它与K个划分类中心的距离,将其归入距离最近的划分类中;
(3)更新类并重新计算K个类的中心点;
(4)repeat②,until所有聚类中心点不发生变化,此时对于每一个数据对象,都被分为唯一的一个聚类中。
K-means聚类算法需要用户给定K个聚类数,并选取K个数据点作为初始聚类中心,如若初始聚类中心选择不当,就会造成聚类结果有较大偏差;K-means聚类算法迭代的目标函数,随机选择的初始中心点,可能会导致聚类结果稳定性不够,与最优聚类有偏差。
3.2 最近邻层次聚类算法
层次聚类算法有凝聚层次聚类算法和分裂层次聚类算法;凝聚层次聚类算法,是把数据集合S(包含n个数据对象)划分成K个子集C1,C2,,…,Ck,每个子集中包含中的数据具有一定的相似性,两个子集间通常用欧几里德最小距离度量,如子集ci与子集cj距离为d(ci,cj),其中
其中是把n个数据记录看成m维空间中的n个对象向量,一般要求:
(1),对一切i,j;当=0时;
(2),对一切i,j;
(3),对一切i,j,k三角不等式成立。
最近邻层次聚类算法过程:
Step 1:将n个数据对象各自为一个类,即c1,c2,…,cn,其中ci,cj,(i,j≤n)的距离为d(ci,cj);
Step 2:找出dmin(ci,cj),合并ci,cj为同一个类,n=n-1;
Step 3:重新计算各类间的距离d(ci,cj);
Step 4:repeat step2,step3,Until n=1聚类结束。
层次聚类的方法简单,但是对处理离散点和噪声数据敏感,如果处理过程选择不当可能导致低质量的聚类结果,而且层次聚类算法的可伸缩性比较差。
3.3 DBSCAN一种基于高密度连通区域的聚类算法
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)
也是一种基于密度的聚类算法,该算法将高于一定密度的区域数据划分为一类,且在有噪声的数据集中发现任意形状的划分,一个聚类定义为密度相连的数据的最大集合。DBSCAN算法有以下定义:
(1)对象R的邻域为给定对象半径R内的邻域;
(2)S对象的R邻域至少有最小数目MinPts个对象,则称S对象为核心对象;
(3)对于数据对象集合D,如果Q是一个核心对象,且P在Q的R邻域内,则对象P从对象Q密度可达;
(4)密度可达:对于样本集合D,给定一串样本点p1,p2,…,pn,p=p1,q= pn,假如对象pi从pi-1直接密度可达,那么对象q从对象p密度可达。
(5)数据集D中存在对象S,且关于r和MinPts,对象p从对象S密度可达,对象Q从对象S也密度可达,那么对象p到对象q是关于r和MinPts密度相连。
与K-means算法相比,DBSCAN可以发现任意形状的簇类,也无需事先知道数据形成簇类的数量,并且可以识别出数据噪声点;但是对于边界样本数据的归类会有所不同,不能很好地反映数据集变化的密度;由于DBSCAN算法不对聚类数据进行预处理,所以当要处理的数据量比较大时,所耗费资源也非常大。
4 结语
本文介绍了数据挖掘中聚类算法的几种分类,然后详细分析了目前常用的3个聚类算法,并比较了各自的优缺点。聚类分析是数据挖掘中一种重要的分析数据的方法,通过分析可以看出不同分类的聚类算法各有各的优劣势,实际使用过程中可以根据实际数据情况来选择合适的聚类分析算法。由于聚类分析在电子商务、市场分析、生物学等越来越多的领域中得到了广泛应用,并且数据挖掘在实际应用中取得了巨大的商业价值,可对其进行深入研究。
⒖嘉南
[1]丁金凤.基于网格与密度的数据流聚类算法研究[D].哈尔滨:哈尔滨工程大学,2010.
数学建模聚类分析范文6
[关键词]大坝安全神经网络统计模型
中图分类号:TU19文献标识码:A文章编号:1671-7597(2009)1120116-02
建国以来,我国共修建8.4万余座水坝,这些工程在国民经济中发挥了巨大的作用。然而,相当一部分大坝存在着某些不安全因素,不同程度地影响工程效益的发挥,甚至威胁着下游千百万人民的生命财产安全。为此,各级政府对大坝安全监测都十分重视。使用数值模型对大坝进行安全监控是近代大坝安全监测工作中应用的一项新技术[1]。
大坝安全监控模型是根据大坝安全监测资料建立起来的、定量描述大坝效应量(如变形、渗流、应力等)与环境变量(如水位、温度、降雨等)之间统计关系或确定性关系的数学表达式,应用这些模型可以监控大坝等水工建筑物的今后运行。
一、传统模型
(一)研究现状
1955年意大利的法那林(Faneli)和葡萄牙的罗卡(Rocha)等开始应用统计回归方法来定量分析大坝的变形观测资料。1977年法那林等又提出了混凝土大坝变形的确定性模型和混合模型[4]。日本的中村庆一等采用回归分析法分析大坝实测资料,并筛选出显著因子,以建立最优的回归方程。Kalkani等采用多项式回归模型来分析Kremasta拱坝渗压计测的数据。随着计算机技术的发展,大坝监测资料的正分析研究也取得了很大的进步,统计模型、确定性模型及其混合模型在生产实践中得到了广泛的应用。目前,葡萄牙、法国、意大利、西班牙和奥地利等国家在大坝安全监测以及相关的各项研究方面不同程度处于国际领先水平[3]。
我国在大坝安全监测的资料分析方面的工作起步相对较晚,最初只以定性分析为主,即通过绘制过程线和最大、最小等简单特征值的统计来分析大坝的运行性态。上世纪70年代陈久宇等开始应用统计回归分析大坝安全监测资料;80年代中期,开始了对确定性模型及混合模型的深入研究。吴中如等从徐变理论出发推导了坝体顶部时效位移的表达式[8],用周期函数模拟温度、水压等周期荷载,并用非线性二乘法进行参数估计,还提出了裂缝开合度统计模型的建立和分析方法、坝顶水平位移的时间序列分析法以及连拱坝位移确定性模型的原理和方法,并在实际工程中得到了成功应用。河海大学于1985年首先将确定性模型的理论用于佛子岭连拱坝结构性态分析,取得较好的效果。徐洪钟等针对统计回归计算中出现的水压因子难以入选和入选以后计算结果不合理的困难,应用偏最小二乘回归建立坝顶水平位移的统计模型,消除了多重共线性的问题,取得较合理的结果[6]。
(二)统计模型
统计学模型是凭枢纽本身积累的运行经验,按过去实测的原因量与效应量的相关关系,来预测在现今相应关系下的效应量。统计模型是大坝安全监测资料分析中最常用的模型,是建立混合模型的基础。大坝安全监测领域常用统计模型采用的分析方法有:多元线性回归、逐步回归以及近年来兴起的偏最小二乘回归[7],这方面国内各单位已积累了比较丰富的经验。建立统计学模型关键是如何正确选择回归因子。
混凝土大坝的变形δ主要受水压H、温度T以及时效θ的影响,大坝的统计模型可以表示为:
(三)确定性模型
确定性模型以演绎法为建立模型的法则,结合大坝和地基的实际工作性态,按照设计要求用有限元方法,计算建筑物重要部位的效应量,然后与实测值进行优化拟合,以求得调整参数,从而建立确定性模型。确定性模型是施工期、蓄水期以及运行期进行数据解释唯一可行的理论模型。然而由于建立确定性模型要对坝体和基岩的结构、力学性能、变形规律进行正确模拟,其难度比建立统计模型要大,工作量也多的多。
混凝土大坝任一观测点的位移确定性模型的一般表达式为:
(四)混合模型
混合模型是确定性模型和统计模型的一种混合形式。对于一些缺少足够的坝内温度资料的大坝,在建立模型时,温度因子同统计模型的温度因子,水压因子与确定性模型相同,用有限元计算求得,时效因子与统计模型相同,这样建立的模型即为混合模型。
混合模型的表达式为:
二、新模型
(一)研究现状
20世纪80年代以来,国内外对数学监控模型的研究逐渐向纵深方向发展,模糊数学、灰色理论、神经网络、小波分析、混沌动力学等各种理论和方法也纷纷被引入到大坝安全监测资料分析中来,并取得了一定的成果。
1982年,我国学者邓聚龙在国际会议上首先提出灰色系统(GreySyst
em,GS)理论。随后,许多学者将其应用于实践。吴中如等从灰色系统的基本原理和方法着手,将水压、温度等因素白化,建立了坝体应力灰色预测模型。徐洪钟等将模糊数学与神经网络相结合,把构成组合模型的各个子模型作为网络学习矩阵的输入,建立了土石坝的沉降组合模型,采用自适应模糊神经网络进行组合预报。杨杰等应用灰色系统理论建立了土石坝变形的灰色非线性模型GM(1,1;a),并对其适用性进行了探讨。何鲜峰、顾冲时等利用分形插值算法建立效应量确定性分量预测模型,然后对实测数据和确定性分量预测结果间的误差序列通过相空间重构建立混沌分量预报模型,再以二者叠加组成最终混合预测模型。该模型解决了常规统计模型由于模型因子选择不当和环境量观测误差引起的模型失真问题。
(二)灰模型
灰理论是邓聚龙教授1982年在国际上首先提出的,近年来主要用于对力学系统的分析描述,建立数学模型及预测等。我们知道在大坝的位移中存在两部分位移:弹性位移和随时间及荷载而变的非线性位移(俗称时效位移)。其中,弹性位移利用有限元等计算方法较易获得。但是,影响大坝失效变形的因素极为复杂,既有已知因素又有未知因素,因此,大坝的位移是灰色的,大坝是一个极其复杂的灰色系统。相应的,这种系统的逆过程称之为灰色的逆过程。通过这种逆过程所获得的模型称为灰色模型。
灰关联模型建模的基本原理是按照被影响因素与影响因素之间的关联度,逐步选取显著变量来建立灰色模型,通过拟合效果的检验即可建立较优GM(1,N)模型。
(三)神经网络模型
由于大坝在气候和荷载作用下的动态响应是极其复杂的,受诸多因素的影响。内在因素主要有地质条件及构造的高度非线性、筑坝材料及介质的各向异性,外在因素主要有水荷载、降雨量、温度等因素以及人类活动的影响。这些内、外因素相互耦合使得效应量与因子之间的关系表现出很强的非线性特征。我们可以利用神经网络的自组织、自适应、自学习的非线性映射能力,建立大坝安全监控的神经网络模型。
(四)模糊聚类分析模型
尽管原型观测资料真实地反映了大坝各观测物理量的实际情况,但是它们之间是一种模糊关系。因此可以用聚类分析法对大坝观测数据进行分析。
把大坝看成一个模糊综合体,首先以数据迭代法为基础,求出各种因子对应于不同分级的“聚类中心”,结合预报日的各因子观测值进行二次聚类分析,以实现对位移的逐日预报。这种方法的优点是只需一次性大量的数据迭代运算,求出“模糊聚类中心”,即可在计算机上进行位移的逐日预报。此法运算量很少,而且精度较高。
三、其他模型
近年来,大坝原型观测资料分析工作逐渐向纵深方向发展,除了以上叙述的模型之外,时间序列、波谱分析等多种方法也被引入大坝安全监测资料和大坝结构性态的正反分析。吴中如、顾冲时等人通过引入空间三维坐标,提出了混凝土坝空间位移场的时空分布模型,将单测点模型拓宽至空间三维;赖道平等应用Hurst重标度和分形学理论分析时间序列数据,研究了混凝土重力拱坝变形的分形特性,评价裂缝对大坝结构性态的影响,并且由此对大坝的安全状况作了评价。还有学者提出大坝安全监控的位移分布模型、数字滤波模型等,大大丰富了大坝安全监控数值模型。
四、展望
综上所述,在国内外大坝及边坡安全监控分析模型中,统计模型、确定性模型和混合模型得到普遍的应用,模糊数学、灰色系统、神经网络等方法也得到初步应用,对大坝的性态分析方法有了长足的进展。但大坝是一个复杂的非线性系统,如何研究开拓和利用新理论和新方法,有效克服传统建模方法的不足,解决建模技术的关键问题将是今后大坝安全监测资料分析工作的发展方向。随着传统模型的不断改进和新方法、新模型的涌现,资料分析处理工作会不断得到改进,这将有力的促进大坝安全监控的发展,更好的为消除大坝安全隐患和水库安全运行服务。
参考文献:
[1]王德厚,大坝安全监测与监控[M].北京:中国水利水电出版社,2004.
[2]吴中如,水工建筑物安全监控理论及其应用[M].北京:高等教育出版社,2003.
[3]黄红女、周琼、华锡生,大坝安全监控理论与技术研究现状综述[J].大坝与安全,2005(2):54~57.
[4]陈维江、马震岳、董毓新,建立大坝安全监控数学模型的一种新方法[J].水利学报,2002,(8):91~95.
[5]包腾飞、吴中如、顾冲时,基于统计模型与混沌理论的大坝安全监测混合预测模型[J].河海大学学报,2003,31(5):534~538.
[6]徐洪钟、吴中如,偏最小二乘回归在大坝安全监控中应用[J].大坝观测与土工测试,2001(6).
[7]周光文、袁晓峰,大坝安全监测统计模型的比较与选择[J].南昌大学学报(理科版),2007,31(6):590~593,609.
[8]吴中如,混凝土坝观测物理量的数学模型及其应用[J].华东水利学院学报,1984(3):20~25.
[9]邓念武、邱福清、徐晖,BP模型在土石坝资料分析中的应用[J].武汉大学学报(工学版),2001,34(4):17~20.