前言:中文期刊网精心挑选了多元统计分析范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。
多元统计分析范文1
摘要:我国中药发展已有悠久历史,中药大多采用复方制剂,以其复方疗效显著而越来越受到重视,在其成分分析中,多元统计分析方法的运用,本质上是一种多变量协同考量的思路。本文通过对以往多元统计分析方法在中药成分分析数据中的应用作整理总结,对今后相关研究提供理论依据。
关键词:多元统计分析 中药成分分析
中药物质基础的阐明和科学质量控制方法的建立是中药现代化和国际化的关键,在化学计量学中,多元统计分析方法得到了很好的应用,通过优化了化学量测过程,提高分析效果,应用统计分析方法及其他数学方法和计算机软件的应用对其数据进行整理,已较好的阐明了中药物质成分,结构与其性能之间的复杂关系。
一、应用现状
1.1方法
在中药成分分析中,多元统计分析方法如多元回归,多元相关分析,逐步回归分析,最大似然法,判别分析,聚类分析和主成分分析,利用电子计算机能迅速而大量地处理实验数据,还广泛采用了蒙特卡洛(Monte Carlo)统计模拟法,都能在某一特定方面很好的说明其成分,但尚未有统一理论支撑整个体系,也是国内着力于建立中成药数据库的缘由之一。要进一步定性定量的确定中药成分,并很好的分析中药成分还需不断努力。
在应用中,应用最多的为多元线性回归和Logistic回归方法,其次是通径分析,因子分析和聚类分析的运用较少,比如风险模型,典型相关,MCA分析和Probit分析。
1.1.1成分提取
在对中药复方有效成分的整体提取方法,指纹图谱条件优化及定量评价指标,以及基于药理活性的组方条件优化的基础上,化学模式识别方法引入中药分析体系,模式识别,指通过相关软件等用数学方法来实现模式的自动处理和判别,模式识别可大致分为用监督模式识别(判别分析方法),是实现规定分类的标准和种类的数模,并且通过大批已知样本的信息处理找出规律,再预报未知样本的类型,如贝叶斯法(Bayes)逐步判别分析方法,人工神经网络判别法等,无监督模式识别(聚类分析方法),是对一组尚无明确分类的样本,根据它们所变现的变量特征,按相似程度的大小加以归类,最终通过信息处理找出合适的分类方法并实现样本的分类,如系统聚类分析,模糊聚类分析等以及基于特征投影的降维显示方法,另外还有一类基于特征投影的降维显示方法,如主成分分析方法,基于偏最小二乘法的降维方法等,中药的化学模式识别方法可以从复杂的化学测量数据出发,进一步揭示复杂化合物之间的隐藏规律,为中药整体研究提供十分有用的信息。
1.1.2质量控制
在中药复方质量控制方面,近年来,有监督的模式识别和无监督的模式识别往往联合起来使用,即当某中药方剂的总体质量分类不清楚时,可先用聚类分析对原来的样品进行分类,然后再用判别分析建立判别式以对新样品进行判别。
1.1.3药效检验
在化学计量中运用多变量统计过程控制(multivariate statistical process control,MSPC) 方法来处理中药成分组成,在中药分析中,结合对无知复杂多组分进行同时定性定量分析的方法,连用色谱仪器等,包括HPLC-DAD.CE-DAD(毛细管电泳二极管阵列联用仪),HPLC-MS,HPLC-IR,GC-MS.GC-IR等因其将分离与分析技术集于一体,已有很大突破,目前国内在中药成分分析中,运用了在中药化学成分研究的手段方面,如薄层色谱,气相色谱,高效液相色谱,紫外光谱,红外光谱等已得到普遍使用,还包括超临界色谱,高效逆流色谱,色谱质谱连用技术(GC/MS、HPLC/MS),核磁共振(NMR)指纹图谱,x-射线衍射指纹图谱等。其中产生大量的数据,有关研究人员运用数学中多元统计分析方法对其分析,得到相关结论,进而对药效进行更有效的分析。
1.1.4组分分析
借助各类分析仪器以及光谱色谱联用手段,可以再较短的时间内得到大量的多元性化合物信息,该过程所用到的具体方法有聚类分析,主成分分析以及偏最小二乘法,判别式分析法等,中药药效,由定量构效关系到定量组效关系研究
1.2数据处理的应用实例
在对药材产地区分和鉴别研究方面,徐永群等在黄苓的红外光谱的指纹图谱基础上,采用主成分分析法,对多个产地进行了聚类分析。
王继国等分析中药血竭样品的高效液相色谱中,把指纹图谱信息进行数据处理时,用重叠率与相关系数两个参数,从两个方面定量地对图谱进行了相似性评价,在此基础上用系统聚类分析法定性地对样品进行了分类和鉴别,建立了一种相对完善的中药血竭的化学模式识别技术。
杨红娟等对金银花的种类进行了模式识别研究,利用高效液相色谱分析获得金银花的化学信息,并进行了系统聚类分析,同时用微生物法进行抑菌活性测定,用多重线性回归揭示化学信息与药理指标之间的关系。
孙丽新等用典型相关分析对获得反映样品整体化学特征的数据做了处理,并运用聚类的方法将样品分类,得到效果良好的质量控制方法。
周立东等提出在天然药物演技中建立定量组效关系,用以解决中药复杂成分的化学组成与生物活性之间的关系问题,在中药的多变量的化学祖坟空间和中药的多变量空间之间建立起定量的关系,在多元统计分析中,如回归分析,聚类分析以及因子分析西欧提供了操作方法,
二、存在的主要问题
统计方法的选择在一定程度上取决于变量的测度水平,多元统计分析,自变量中包括名义变量的最多,自变量全部为间距测度的很少,多元统计分析方法中序次测度变量和名义测度变量的处理方法一样,所以一般并不加以区分,序次测度变量作为名义测度变量来用,把二者合成为分类变量,本次研究的论文数据中应用多元统计方法时大多数的分析中是分类变量。
2.1方法使用错误
在多元统计分析方法的应用中,如通经分析等存在一些错误,通径分析是建立一组线性回归方程,因此对变量的要求和多元线性回归一样,多元线性回归要求因变量必须为间距测度或以上的变量,自变量可以使分类变量,但当自变量中有分类变量时,必须做虚拟变量回归,而不是普通的线性回归。
2.2数据的评价和检验
对实验数据处理的最终评价是要反映该药效的最好方式,即数据在多大程度上能很好解释了因变量的间的关系,每一种统计分析方法都有自己的数据评价指标和方法。
三、总结
化学计量学提供了一整套区别于传统复方研究的思路,在中药化学,质量控制,药效检验,组方分析,代谢组学以及建立中药数据等各个领域都已有了初步的应用和发展。多元统计分析方法作为数学数据分析中的主要分析方法,虽在中药分析方法中应用存在少数问题,但其应用前景及意义极其乐观。(作者单位:沈阳师范大学)
参考文献:
[1]梁逸曾.化学计量学用于中医药研究.长沙:化学计量学与传感技术研究所,1998.
[2]罗国安.中药中成药现代化进程[M].北京:中成药出版社,2000.
[3]甘师俊,李振吉.中药现代化发展战略[M].北京:科学技术文献出版社,1998.
[4]张敏,吕华瑛.中药成分分离新技术及应用[M].山东:山东中医杂志,2005.
[5]邓书鸿,聂磊.中药谱效关系的分析方法及数据处理技术研究进展.山东:中药材 Joumal of Chinese Medicinal Materials,1819.
多元统计分析范文2
关键词:多元统计;人口研究;统计模型
中图分类号:G30-03 文献标识码:A 文章编号:1001-828X(2015)005-0000-01
随着统计学和统计软件的发展,统计分析技术被越来越多地应用于实际生活。我国作为一个人口大国,了解我国的人口状况是关系国计民生的一项重大工作。所以,研究多元统计分析技术在人口研究中的应用有着深远的意义。
一、应用于人口研究的多元统计方法
作为一门专业课程,多元统计分析提出了大量的统计方法。如多元线性回归分析、logistic回归分析以及因子分析和聚类分析等。
1.多元线性回归分析在人口研究中的应用
多元线性回归模型主要用于研究一种变量受多种因素影响时的状况。而在人口研究中,多元线性回归模型主要用于人口老龄化以及城乡收入水平的影响因素等问题。例如利用多元线性回归模型研究人口老龄化问题的分析步骤如下:
(1)通过分析与人口老龄化有关的变量,我们确定人均国内生产总值、养老保险人数,失业人口人数、人口密度和政府医疗支出作为老龄化问题的影响因素(依次用X1、X2、X3、X4、X5来表示),并通过抽样调查或查阅年鉴的方法获得回归分析所需的数据,采用多元线性回归的方法进行定量分析。
(2)建立多元线性回归模型:Y=A+b1X1+b2X2+b3X3+b4X4+b5X5+e.其中b1、b2、b3、b4、b5为回归系数,A为常数项,e为残差。利用SPSS进行逐步法分析确定系数及常数项。
(3)对各变量进行显著性检验,确定模型并结合实际意义进行分析。
2.logistic回归分析在人口研究中的应用
logistic回归分析的用途主要包括三个:一是寻找特殊因素因素;二是预测;三是判别,例如预测某一个体属于某一情形的概率。logistic回归分析在人口研究中主要用于人口预测。
3.因子分析和聚类分析在人口研究中的应用
因子分析是指从影响研究变量的众多影响因子中提取出公共因子的统计方法。因子分析能够将具有相同本质的影响因子归入同一个公共因子,从而减少研究变量的数目。聚类分析则根据研究对象的特征,对研究对象进行分类,从而达到减少研究对象的目的。因子分析和聚类分析主要用于研究人口迁移影响因素、人口发展水平等问题。
二、多元统计分析技术在人口研究中的应用现状
在20世纪80年代,我国的人口研究中很少使用多元统计分析技术。进入90年代后,随着各种多元统计分析方法的引入和统计分析软件的使用,统计分析技术在人口研究中得到了广泛的应用。多元统计分析技术能够定量分析经济因素、社会因素和人口因素之间的关系,从而更好地解释人口现象。
1.我国人口研究中多元统计分析的特点
我国人口研究问题中多元统计分析技术的应用呈现出多样化的特点,主要表现在统计方法的多样性和统计分析内容的多样性。前面提到的多元线性回归方法、logistic回归分析方法以及聚类分析等多元统计分析方法在我国人口研究中都有应用。统计分析内容更是涉及生殖健康、居住类型以及人均收入水平等生活的各个方面。
2.我国人口研究中多元统计分析数据特点
我国在人口研究中的多元统计分析数据主要来源于抽样调查和典型调查等,统计分析的单位主要是以个人和家庭等个体单位为主。在数据类型方面,我国人口问题研究中的多元分析数据以横截面数据为主,时间序列数据极少用到。
三、我国人口研究中多元统计分析技术存在的主要问题
由于多元统计分析技术在我国人口研究中的应用时间比较短,很多人口研究人员对多元统计分析技术也没有经过系统的学习,在实际应用中难免会出现一些问题。
1.人口研究中多元统计分析方法使用错误
统计方法主要由研究目的和研究数据决定。但在实际应用中,由于研究人员难以正确区分各个统计方法,从而出现随意选择的现象。通过查阅用多元统计方法研究人口问题的相关文献我们发现,在进行人口问题研究时使用最多的就是多元线性回归模型。虽然多元线性回归模型具有易于理解和分析简便的特点,但它主要是研究一个目标受多个因素影响时的情形。很多文献没有注意到这个问题,从而错误地使用了该方法。
2.多元统计分析中缺乏评价和检验
评价和检验是多元统计分析的一个重要内容,因为很多统计方法只有结合实际,才能更好地确定自己的模型建立是否恰当,才能更好地解释模型中各个变量的实际意义。但在人口研究的实际应用中,很多研究人员只是注重对统计结果的分析,而忽略了模型的检验和评价。
对模型的评价主要是指模型对观测数据的拟合程度,每一种多元统计方法都有相应的模型评价方法和指标。对模型的检验主要是指显著性检验,从而判断该模型中各变量之间的关系是否存在。因此,模型评价和检验是多元统计分析不可分割的一部分,读者也只有通过这些内容才能更好地理解人口研究报告中所描述的现象。然而通过统计可以发现,很多有关人口研究的统计报告都缺乏模型评价和检验者方面的内容。
四、结束语
多元统计分析中的很多方法都适用于人口研究。近年来,随着统计学科和计算机技术的发展,多元统计分析技术在人口研究中也得到了广泛的应用。我国人口研究对多元统计分析技术的应用呈现出多样化的特点,多元统计分析的数据来源以抽样调查和横截面数据为主。但由于我国人口研究中多元统计分析技术的引入比较晚,在实际应用中仍存在较多的问题需要改善。
参考文献:
[1]刘金塘,伍小兰.多元统计分析技术在人口研究中的应用[J].人口研究,2005,26(2):1-6.
多元统计分析范文3
关键词:spss 环境检测 多元统计分析 因子分析
中图分类号:X824 文献标识码:A 文章编号:1007—3973(2012)009—120—02
1 多元统计分析
多指标综合评价中比较难以解决的是各指标间信息的重复问题,因此因子分析法解决了这个问题,其主要是对协方差阵或相关阵的内部依赖关系的研究,并且可以使一些具有一定关系的样本或变量归结为较少的综合因子的多元统计分析方法。
2 淋溶试验常规有机指标综合评价模型
2.1 建立因子模型
根据淋溶试验结果建立因子模型,设x1代表pH值,x2代表DO,x3代表BOD,x4代表水样的COD,x5代表高锰酸盐指数,x6代表氨氮,x7代表总氮,x8代表硝酸盐氮,x9代表总磷。据此建立数据文件,相应的代表含义为它们的变量标签,对原始数据作标准化处理,得到变量间的相关矩阵如表1。
由相关系数可知:其中大部分绝对值大于0.5,说明每个变量至少与其它一个变量有较大的相关系数;pH值与氨氮、硝酸盐氮、总磷呈现负相关;高锰酸盐指数与DO、COD、BOD呈现较高的正相关;总磷与氨氮、硝酸盐氮也有较高正相关。对于一个因子模型,变量之间必须相关,如果相关很小,说明变量之间不享有共同因子。由此也可以看出,可用适当的因子模型来解释描述多个变量之间的相关关系。从相关矩阵出发,用主成分分析法求解特征向量和相应的特征值。
由于前面四个主因子提供了原始资料88.769%的信息,通过观察特征值、方差分布情况可以得知这些主因子和变量之间的相关程度较高。据主因子数确定准则,说明九项指标提供的全部信息可以用四个主因子来代表;并且为使因子模型有一个简单结构,四个主因子更能全面系统地说明变量情况,我们必须对因子载荷矩阵进行旋转,从而便于对实际背景的合理解释。
2.2 进行因子旋转
与不考虑因子旋转时得到主成分模型的初始因子载荷矩阵相比较,旋转前的公共因子对变量的解释意义不是很明确。初始因子载荷矩阵中,四个公因子对变量总氮、硝酸盐氮的说明比较模糊,有必要对其作因子旋转。
第一主因子主要由变量高锰酸盐指数、BOD、COD、DO共同表征,也即是有机综合指标,其反映有机污染指标的重要性;水体中有机阴阳离子等物质的量主要由变量氨氮、总磷、硝酸盐氮共同表征。其中硝酸盐氮是填充对地下水影响的重要因子主要是由于硝酸盐氮的载荷比较高;第三主因子由变量总氮表征,由于检测中总氮的超标比较严重,因此更加印证了对总氮的监控的重要性;第四主因子则由变量pH值表征,说明了水质的酸碱程度的影响方面。由此我们也可以知道,四个公因子充分反映了矸石淋出水样中,有机综合指标、硝酸盐氮、总氮、pH值是重要的检测因子。
2.3 求因子得分
通过比较分析,确定使用最大方差正交旋转获得合理的因子载荷,并由此计算得出公因子方差和方差贡献,最后计算得到因子得分系数(如表2)。
根据因子分析基础知识,我们知道通过系数矩阵就可以将所有的公因子表示为各个变量的线性组合,也就是所求的因子得分。如本文中第一个公因子得分就可以表示为:
其中,z1—z9 表示九个指标变量标准化后的值,其它三个公因子得分同样可以计算得到。在对所有水样进行综合评价时,就可以用因子得分来代替原来的试验数据结果,从而大大减少综合评价计算量。
3 综合评价结果
根据因子分析基础知识,我们知道通过系数矩阵就可以将所有的公因子表示为各个变量的线性组合,也就是所求的因子得分。
从综合得分结果来看:
(1)所有水样的得分都小于标准水样的得分,表明煤矸石井下填充过程中对地下水环境的有机污染程度较轻,综合评价上看基本上可以达到国家水质指标地下水Ⅲ类水质标准;
(2)粒径小的矸石对地下水的污染影响比较大,由于其粒径小,表面积就大,元素的溶出率也越大,由此引起超标现象;
(3)得到结果显示中等粒径的得分较低,影响较小;
(4)从因子分析计算过程中,我们可以明确有机综合指标、硝酸盐氮、总氮、pH值都是淋出水样的重要污染因子,这也是在实际应用时需要特别监测的主要因子。
参考文献:
[1] 赵选民,徐伟,师义民,等.数理统计[M].北京:科学出版社,2002:167—181.
[2] 梅长林,周家良.实用统计方法[M].北京:科学出版社,2002:1—145.
[3] 吴聿明.环境统计学[M].北京:中国环境科学出版社,1991:109—113,427—472.
多元统计分析范文4
[关键词] 多元统计分析;中药;质量控制
中药是指在中医理论指导下,用于预防、治疗、诊断疾病并具有康复与保健作用的物质,包括中药材、中药饮片和中成药等。中药是我国中医药文化的瑰宝,并以资源丰富、疗效独特和副作用少等优势成为国内外关注的焦点。但长久以来,原始、单一的中药质量控制方法,一直制约着中药质量的提高,随着科学技术的发展以及各种新仪器的问世,应用于中药质量控制的方法和手段也不断增加,从原来单一的质控指标发展到现在的多质控指标,这使得中药质量控制标准全面提高[1]。但这些构成指标体系的多个指标又各有侧重地解释着该中药的质量,其间必然存在着多重共线性。比如,指纹图谱在改变单一指标性成分评价中药质量所明显存在片面局限性的同时,也暴露出它自身的问题,即在表现众多成分的指纹峰中,什么是重点?哪些峰是可以放弃的?现实的要求是既不能“片面”,但也不能“一把抓”[2]。如果用一元统计方法一次只能分析一个指标,分析多个指标时就会忽视了各指标之间存在的相关性,分析的结果不能客观全面地反映情况。多元统计分析[3-7]能在不损失信息的情况下,通过变换和构造模型,剔除指标间相互制约的成分,寻找一个简单综合指标,将这些指标反映的内容综合起来,使复杂数据简单化。且有文献报道,多元统计分析能在一定程度上达到数据挖掘的目的,同时它的一些思想和功能也能在数据挖掘的数据收集、数据清理环节发挥作用[8]。因此运用多元统计分析对中药质控研究中出现的多指标、高维和大量统计数据且彼此之间相关的数据进行分析,可发现数据间的内在规律,以实现中药质量的有效控制。
1 多元统计分析的涵义
多元统计分析是同时分析和处理多组变量,从整体把握事件的特征和发生规律统计分析方法,其核心内容是总体参数估计的修正和统计推断,具体表现出来就是各类统计方法,如主成分分析、因子分析、聚类分析、判别分析和典型相关分析等[5]。多元统计分析应用于中药质量控制的研究有以下几种优势:①多指标性只有用相互关联的多个指标(即描述现象的多个方面)才能够对事物或现象的全貌有所了解,这是多元统计分析在中药质控研究多个指标的最大优点;②定量性多元统计分析就是用数学的方法来研究影响中药质量的多个指标之间相互依赖关系以及内在统计规律性的分析方法;③复杂性和数据计算量大等特点这是多元统计分析适宜于分析研究中药质控中出现的繁琐复杂数据的基础[9]。
2 多元统计方法在中药质量控制中的应用现状
多元统计分析广泛应用于经济管理、医学、教育、生物等诸多领域,其中以中医药为检索范围,在已检索到的运用各类统计方法的51 792篇文献中,包括多元统计方法的文献已达25 279篇,说明多元统计方法已在中医药研究中得到了广泛应用。而统计学理论和中医药理论客观存在的相合性,也说明了多元统计方法在中医药研究中的应用不仅是可行的,也是科学的[10]。运用多元统计分析对影响中药质量的多方面因素进行综合分析和评价,以实现对中药质量更准确,更全面地控制。下面分别介绍几种主要的多元统计分析方法近年来在中药质控中的应用。
2.1 主成分分析 主成分分析的定义为利用数学降维方法,寻找新变量替代旧变量群,新变量之间互不干涉,可独立进行分布统计,是一种将多数相关变量群替换成少数无关变量的方法[5]。主成分分析法能过滤虚假信息,减少无关指标的影响,已普遍应用于中药质量标准研究数据的统计分析中,以确定中药资源的分类和聚类,并从中获取能用于中药分析鉴别的有用信息,然后进行分析、鉴别、判断,进而进行分类和优选[11]。王劭华等[12]采用主成分分析对24批不同产地车前子样品中的10个共有峰面积进行分析,以累计方差贡献率达86.45%选取3个主成分,由主成分综合得分排序可知,综合品质较好的车前子品种为大车前子和平车前子,其中综合品质最好的为江西吉水婆婆庙产的大车前子;根据车前子主成分投影图可以将车前和平车前种子与其他品种车前种子区分开来。王琴等[13]应用主成分分析对不同地区枸杞中多糖和金属元素之间的相关性进行分析,以累积方差贡献率达88.181%筛选出3个主成分,结果表明多糖和常量金属元素钙(Ca),镁(Mg),钠(Na),钾(K)是影响枸杞质量的重要因素,微量元素铜(Cu),锌(Zn),铁(Fe)也是不可忽视的因素;其主成分得分可用于不同产地枸杞子质量的综合评价,为以后不同产地枸杞的开发利用奠定了基础。
2.2 因子分析 因子分析又称为探索性因素分析,是根据相关性大小把原始变量进行分组,使同组内变量之间的相关性较高,而不同组变量间的相关性较低[3-4]。因子分析也是利用主成分分析的降维思想,可看作是对主成分分析的推广和发展,但是其因子分析对于所研究的问题是根据原始变量的信息进行重新组合,以试图用最少个数的不可测的所谓公共因子的线性函数和通过旋转使得来的新变量对每个原始变量更具有可解释性。朵兴红[14]采用因子分析对党参、细辛等7种道地药材中Ca,Mg,锰(Mn),Cu,Fe,Zn 6种微量元素进行分析,以方差的贡献率大于99.75%提取2个主因子,分析结果表明这6种微量元素均对防治心脑血管疾病有一定的疗效,为微量元素与中药功效关系的研究提供了科学依据。多杰扎西等[15]采用因子分析对11个不同产地枸杞子中Zn,Cu,Fe,Mn等微量元素之间的关系进行研究,以累计方差达92.236%提取3个主因子,结果表明第一主因子与变量Zn和Mn有高的相关性,是枸杞子中起络合作用的微量元素,也是决定枸杞子质量的基本微量元素;第二主因子在变量Cu元素上有最高的载荷系数,是通过影响生物体内的酶、激素、维生素等生物活性物质,而发挥药效作用的微量元素;第三主因子在Fe元素上有最高的载荷系数,是在氧化还原等许多代谢中起到重要作用的微量元素,这3个主因子能够反映枸杞子中微量元素的分布特征;不同产地枸杞子的综合评价结果,与实际分类和质量的情况基本相符,如列于质量好的第一类、综合因子得分分列第二的宁夏某枸杞研究所,其培植生产的枸杞子质量高,一直起到行业示范作用。
2.3 聚类分析 聚类分析又称又称集群分析,是根据研究对象特征对研究对象进行分类的一种多元分析技术,把性质相近的个体归为一类,使得同一类中的个体都具有高度的同质性,不同类之间的个体具有高度的异质性[6]。聚类分析能够充分利用原始数据信息,除常用于中药系列品种的分类外,还可以广泛地引用于真伪鉴别、成分浅析、质量评价、新旧工艺或不同炮制方法比较、寻找代用品及扩大药用新资源等方面[16]。辛海量等[17]采用聚类分析,对不同来源的蔓荆子、黄荆子、牡荆子近红外漫反射指纹图谱进行分析,聚类分析结果与传统植物分类结果一致。李寒冰等[18]对不同批次的板蓝根抗病毒效价值进行聚类分析,聚类结果与常规质量等级分类一致,结果表明应用抗流感病毒效价检测方法,可以实现对板蓝根药材的质量控制。鄢丹等[19]采用生物热活性检测方法,以黄连道地优级药材为工作参照物、第一指数生长期生长速率常数(k1)为反应值,以量反应平行线(3・3)法设计试验,对7批不同产地的黄连样品的生物效应(效应谱和效应值)进行测定,并采用聚类分析对黄连的生物效价值进行分析,结果表明不同产地黄连的生物效应值存在差异,并以此划分的典型道地产区、一般道地产区和一般主产区,与传统对黄连的道地产区和主产区划分基本一致,生物效应值具有较强的产地专属性和指纹鉴定意义,生物热活性检测方法可作为传统生物效价检测方法的补充和提高。
2.4 判别分析 判别分析是根据一定量案例的1个分组变量和相应的其他多元变量的已知信息,确定分组与其他多元变量之间的数量关系,建立判别函数,然后便可以利用这一数量关系对其他未知分组类型所属的案例进行判别分组,主要包括距离判别、Fisher判别和Bayes判别分析等[6]。在实际应用中,当已知了类别的判别问题时,应选择判别分析;而当面对大量的数据,杂乱无章,而又需要分类时,应考虑聚类分析;二者有衔接之时,聚类分析可作为判别分析的预处理。白雁等[20]采用距离判别分析对来源于山东、山西和焦作的生地黄近红外漫反射指纹图谱进行分析,结果表明欧氏距离在0.6以上时生地黄被分为5类,其中山东因样品差异比较大,分成了3个区域,其他2个区域为山西和焦作样品,分类结果与实际基本一致,且15批验证集样品的预测集正确率为85%以上,为地黄产地鉴别方法提供1种新技术。吴文莉等[21]采用Fisher判别分析对105种中药中42种元素含量进行分析,以42种元素含量的百分位值,对依据全国大中专院校教材《中药学》查询的105味药物的寒、热、温、凉四性,建立4类Fisher判别方程,整体回判复合率为80.9%,研究表明通过分析测定中药中所含微量元素的量,能在一定程度上反映中药的性能,为进一步研究中药的物质基础提供指导。
2.5 典型相关分析 典型相关分析是对每组变量做1个线性组合,即为这组变量的综合变量,然后研究2组综合变量的相关,通过少数几个综合变量来反映2组变量的相关性质[7]。典型相关分析也是利用降维思想,主要对质量评价、成分浅析、新旧工艺或不同炮制方法比较、寻找代用品及扩大药用新资源等方面进行研究。王伽伯等[22]采用典型相关分析,对大黄炮制减毒机制和化学成分改变间的相关性进行探讨,结果表明炮制可降低大黄肝肾毒性,其机制与结合蒽醌和鞣质类成分的下降有关,其中与游离和结合态的芦荟大黄素及大黄素甲醚相关性最强;在肝肾生化功能指标中,血清谷丙转氨酶(ALT)和肌苷(CREA)对肝肾毒性较敏感,可作为临床监测指标,为大黄炮制工艺的优化及肝肾毒性临床监测指标的筛选提供了方法参考。卢林耿等[23]对利用典型相关分析,对中药复方制剂工艺因素和药物成分间的关系进行了分析,结果表明大黄素和羊藿苷受制剂工艺影响较大,而芍药苷几乎不受影响;煎煮时间越长,大黄素和羊藿苷含量越低;加水量越多,大黄素含量越低,而羊藿苷含量越高;浸泡时间与这3种成分的含量成反比,但其影响作用较小,典型相关分析在中药复方制剂工艺研究中的应用有其重要的价值。
2.6 多元统计的联合应用 近年来,不仅单一多元统计分析得到广泛应用,多种统计方法的联合运用也得到快速发展,它能够更客观地实现中药质量的全面控制。王海波等[24]利用因子分析、聚类分析对黄芪中的无机元素含量进行分析,因子分析和聚类分析法的研究都表明黄芪主要判别元素确定为K,Mg,Na,为从不同分析角度实现黄芪饮片的质量控制提供了依据。王晓燕[25]将寒性、热性各10味植物药所含的多糖成分水解成单糖,并测定单糖的HPLC图谱,利用主成分―线性判别对该HPLC图谱进行分析,20味中药判别结果与已知药性完全一致,表明中药寒热药性与所含的多糖成分存在明显相关性;主成分―线性判别可对中药药性进行判别,且判别准确率高。尹海波等[26]利用主成分分析和聚类分析,对10个不同产地的牛儿苗样品中24种无机元素的指纹图谱进行分析,以总方差贡献率为91.5%选取前5个因子,主成分分析得出其特征元素为铝(Al)、铊(Tl)、钡(Ba)、铁(Fe)、镧(La)、铈(Ce)、锂(Li)、镓(Ga)和钯(Pd),聚类分析将路边生长和山坡生长的牛儿苗样品聚为一类,结果表明元素的分布特征与牛儿苗的生态和产地呈一定的相关性。鄢丹等[27]利用相关分析对盐酸小檗碱和不同产地黄连样品的生物热动力学参数(包括生长速率常数、产热量、生长期最大产热功率和达峰时间),和常规抑菌活性评价指标抑菌圈直径进行分析,结果表明生物热动力学法可用于黄连抑菌活性的测定;对不同产地黄连药材的抑菌效价进行聚类分析,结果将不同产地的黄连聚为一类,为利用生物热动力学法和抑菌效价测定法共同实现黄连抑菌活性评价提供依据。
3 小结和思考
综上所述,多元统计分析能够用来进行中药资源的分类、优选、真伪鉴别、质量评价、成分浅析、新旧工艺或不同炮制方法比较、寻找代用品及扩大药用新资源等方面。虽然多元统计分析得到了广泛应用,但仍存在一定的不足,比如主成分分析在简化数据降低维数的过程中又有可能丢失信息;因子分析在采用的是最小二乘法计算因子得分时,此法有时可能会无效;典型相关分析是在原始变量服从多元正态分布,样本容量至少要大于原始变量个数,且原始变量组内要有一定的相关性等前提下进行的,在实际应用时要根据各种分析方法的优缺点和它们之间存在的内在联系及区别,选择合适的分析方法,以实现中药质量更客观有效的全面控制。
多元统计分析在鉴定中药的真伪和质量优劣方面的研究工作已取得了可喜的进展[28],但其研究尚未成体系。我们能否以常用的中药道地优级药材和其他产区的药材为模型进行研究,建立一个常用中药材真伪鉴别和质量优劣评估体系。即首先选取合适的分析方法如色谱、质谱或生物测定方法等,提取药材的特征数据如化学指纹图谱、生物效价或生物效应谱等;然后对其中一种或多种特征数据进行主成分分析、聚类分析或判别分析等,在分析结果与常规质量等级分类一致的基础上,利用该特征数据建立一个常用中药材真伪鉴别和质量优劣评估体系,再运用相应的分析方法对未知类别的样品进行归属判别,对中药的质量进行有效控制,以期早日实现中药的现代化和国际化。
[参考文献]
[1] 黄玉慧,郭力.中药质量控制方法研究进展[J]. 中药与临床,2012,3(4):54.
[2] 陶燕蓉,陈曦.中药质量评价技术的国内外研究现状及分析[J].中药与临床,2011,2(2):59.
[3] 何晓群.多元统计分析[M].北京:中国人民大学出版社,2000:168.
[4] 张润楚.多元统计分析[M].北京:科学出版社,2003:190.
[5] 朱小梅.多元统计分析方法在宏观经济分析中的应用[J].赤峰学院学报:自然科版,2013,29(20):5.
[6] 邓海燕.聚类分析与判别分析的区别[J].武汉学刊,2006,118(1):29.
[7] 赵峰.典型相关分析算法理论及其在模式分类中的应用[D]. 西安:西安电子科技大学,2005.
[8] 陈伟志,魏振军,王春迎.多元统计分析在数据挖掘中的作用[J].信息工程大学学报,2003,4(4):22.
[9] 薛伟,刘永久.浅谈《多元统计分析》课程教学[J].科技信息,2009(7):119.
[10] 马利,沈绍武,蔡晓红.多元统计方法在中医药研究中的应用[J].中医药信息,2009,26(1):46.
[11] 孔浩,郭庆梅,王慧慧,等.主成分分析法在中药质量评价中的应用[J].辽宁中医杂志,2014,41(5):890.
[12] 王劭华,曾金祥,朱玉野,等.车前子主成分分析研究[J].江西中医学院学报,2011,23(1):48.
[13] 王琴,龙启萍.枸杞多糖和金属元素的主成分分析[J].微量元素与健康研究,2013,30 (1):23.
[14] 朵兴红.主因子分析法用于中草药中微量元素含量的研究[J]. 微量元素与健康研究,2010,27(4):24.
[15] 多杰扎西,吴启勋.不同产地枸杞子中微量元素的因子分析[J]. 西南民族大学学报:自然科学版,2008,34(3):514.
[16] 李水福,胡清宇.试述聚类分析法在中药研究中的应用[J].基层中药杂志,1997,11(3):45.
[17] 辛海量,胡园,张巧艳,等.4种牡荆属植物来源生药的近红外漫反射指纹图谱聚类分析[J]. 时珍国医国药,2008,19(12):3037.
[18] 李寒冰,肖小河,鄢丹,等.中药质量生物控制模式和方法的研究――板蓝根抗病毒效价检测方法的建立[C].石家庄:2008年中国药学会学术年会暨第八届中国药师周,2008.
[19] 鄢丹,方艺霖,肖小河,等.基于生物热活性检测的不同产地黄连的生物效应评价研究[C].南昌:第九届全国中药和天然药物学术研讨会,2007.
[20] 白雁,李雯霞,谢彩霞,等.3种不同产地生地黄近红外图谱的判别分析[J].计算机与应用化学,2011,28(3):311.
[21] 吴文莉,马威,管竞环.中药寒凉温热四性的Fisher判别分析[J].中国中医药科技,2012,19(1):43.
[22] 王伽伯,马永刚,张萍,等.炮制对大黄化学成分和肝肾毒性的影响及其典型相关分析[J].药学学报,2009,44(8):885.
[23] 卢林耿,张宁,王中民,等.典型相关分析在中药复方制剂工艺研究中的应用[J].数理医药学杂志,1998,11(3):85.
[24] 王海波,邸学,杨欣欣,等.ICP-MS测定黄芪饮片无机元素因子分析和聚类分析[J].光谱实验室,2012,29(3):1523.
[25] 王晓燕.基于主成分-线性判别分析的植物药多糖HPLC图谱与寒热药性关系研究[J].山东中医药大学学报,2013,37(2):156.
[26] 尹海波,张囡,罗宏,等.不同产地儿苗无机元素的主成分分析和聚类分析[J].中国中药杂志,2010,35(15):1935.
[27] 鄢丹,肖小河.基于道地药材和生物测定的中药质量控制模式与方法研究――黄连质量生物测定[J].药学学报,2011(5):568.
[28] 于鹤丹.多元统计分析方法在中药质量评价中的应用[J].数理医药学杂志,2006,19(1):85.
Application of multivariate statistical analysis and thinking
in quality control of Chinese medicine
LIU Na, LI Jun, LI Bao-guo*
(Shandong University of Traditional Chinese Medicine, Ji′nan 250355, China)
[Abstract] The study of quality control of Chinese medicine has always been the hot and the difficulty spot of the development of traditional Chinese medicine (TCM), which is also one of the key problems restricting the modernization and internationalization of Chinese medicine. Multivariate statistical analysis is an analytical method which is suitable for the analysis of characteristics of TCM. It has been used widely in the study of quality control of TCM. Multivariate Statistical analysis was used for multivariate indicators and variables that appeared in the study of quality control and had certain correlation between each other, to find out the hidden law or the relationship between the data can be found, which could apply to serve the decision-making and realize the effective quality evaluation of TCM. In this paper, the application of multivariate statistical analysis in the quality control of Chinese medicine was summarized, which could provided the basis for its further study.
多元统计分析范文5
摘要:介绍了各种多元统计分析方法的基本原理及其在中药质量评价中的应用进展。
关键词:中药;质量评价;多元统计分析
我国中药材资源丰富,种类繁多,来源复杂,品种混乱,同物异名,同名异物现象多见。商品市场上除正品外,尚有代用品、伪品和混淆品,来源不同的药材,质量差异很大,势必影响临床的疗效,所以对中药质量的评价尤为重要。过去基本上是以传统的性状鉴定和显微鉴定确定真伪,以理化鉴定评价优劣。近年来发展起来一种新的技术――模式识别,它是根据物质所含的化学成分,利用TLC、UV、IR、HPLC、GC、MS等方法获得其化学数据,然后利用数学思想和方法对该类数据进行特征提取,对药材进行分析、决策和判断。此种方法迅速发展,逐渐取代了传统的中药材鉴定法。模式识别所用的方法较多,但最常用的为统计学方法,它是以数学上决策理论为基础,建立统计学识别模型,找出规律性认识。
1 多元统计分析方法在中药质量评价中的应用
11 聚类分析(Clustering analysis,简称CA)在中药质量评价中的应用
聚类分析法是数值分类学的新的分支,它是对一组尚无明确分类的样本,根据它们所表现的变量特征,按相似程度的大小加以归类,其目标是在模式空间中找到客观存在的类别。按聚类目的不同,可将聚类分析法分为R型聚类法和Q型聚类法。
其原理为:对任一含m个指标的样本,可定义为m维空间的点,在m维空间中的任意两点其相似性可用“距离”度量,定义为“dij”,若将任一样本看作一类,其类间相似性可用欧氏距离DE表示: DE=dij=[∑m
i=1(xil-xjl)2]1/2,式中:l=1,2,… m,表示样本的指标数;i,j表示样本序号;xil,xjl表示样本各指标。系统聚类法即对n个样本计算出两两间的距离dij,并从中找出距离最小的两类Gp与Gq,合并成一个新类Gr,重新计算新类与其他各类间的距离,再将距离最小的两类合并,重复以上过程至所有样本聚为一类为止。定义类Gk与Gr的距离Drk有以下递推公式:D2rk =αpD2pk+αqD2qk+βD2pq+γ|D2pk-D2qk|,式中参数αp,αq,β,γ取值不同对应不同的系统聚类方法。
该法除常用于中药系列品种的分类外,还可以广泛的引用于真伪鉴别、成分浅析、质量评价、新旧工艺或不同炮制方法比较、寻找代用品及扩大药用新资源等方面[1~7],使中药研究跨进现代电脑量化分析的新阶段。
马英丽等[8]用甲醇回流提取黄芪中的皂苷类成分,以氯仿甲醇水(65:30:10)为展开剂,采用双波长薄层扫描法,在λs=390nm,λr=590nm下,对18个产地的黄芪样品进行了定量分析,以黄芪甲苷为指标成分,选用中位数法进行聚类,用余弦法计算样品间的相似性程度。结果系统聚类分析将样品分为3类,大多数产地的黄芪被聚为1类或2类,即质量较好或一般。表明,蒙古黄芪和膜荚黄芪被列为优质品,该结果与《中华人民共和国药典》2000年版将蒙古黄芪和膜荚黄芪列入正品相一致。王继国等[9]建立了10种中药血竭样品的HPLC指纹图谱,并把HPLC指纹图谱信息进行数据化及数据标准化处理,用重叠率与相关系数两个参数,从两个方面定量的对这10种样品的HPLC指纹图谱进行了相似性评价;在此基础上用系统聚类分析法定性的对这10种样品进行了分类和鉴别,从而建立了一种相对完善的中药血竭的化学模式识别技术,为中药血竭的质量评价和分类鉴别提供了一个很好的方法和思路。田兰等[10]采用HPLC对32个白术样品进行测定,将样品分析中所获得的32个样品的45个特征,采用系统聚类分析和逐步判别分析,进行白术的化学模式识别的研究。将32个样品分为优等品、一般品和伪品3个等级,优质品集中于浙江、湖南、四川一带,而北方的白术质量一般。这样就建立了评价白术真伪优劣的新方法。徐永群等[11]以赤芍的红外指纹图谱为依据,采用主成分分析法对来自18个产地的赤芍进行了聚类分析。可将18个产地大致分为6类,这一分类与地理位置有较明显的对应关系,同一区域内赤芍的性能较为相似,可作为传统中医界对赤芍药材质量评价的依据。刘谦光等[12] 运用模糊动态聚类分析法对来源于美国、加拿大及我国的共14种不同产地的西洋参样品质量进行了模糊识别研究。结果与权威部门认定的具有法定地位的西洋参产地进行验证、核对,取得了较为一致的结果。
12 判别分析(Discriminant analysis,简称DA)在中药质量评价中的应用
判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类,而聚类分析是在一批给定样品要划分的类型事先并不知道,正需要通过聚类分析来给以确定类型。正因为如此,判别分折和聚类分析往往联合起来使用,所以判别分析是要求先知道各类总体情况才能判断新样品的归类,当总体分类不清楚时,可先用聚类分析对原来的一批样品进行分类,然后再用判别分析建立判别式以对新样品进行判别。
于承浩等[13]对六味地黄丸及其模拟样品在290nm下进行薄层扫描分析,将所得特征数据利用聚类分析方法进行分类,用逐步判别分析方法优选特征数据、建立判别函数,并对分类结果进行检验。结果表明,样品及模拟品被分为4类,分类合理,判别函数回判准确率为100%。从而说明了聚类判别分析方法可较好地评价六味地黄丸的质量。张亮等[14]采用反相HPLC法对六味地黄丸缺味药模拟方的浸出物进行分析,选取9个色谱峰的峰面积与内标峰面积之比值作为样本特征变量,通过169个训练集样本建立了其中3种缺味药的Bayes法和PRIMA法判别分析数学模型。结果3种缺味药4种模式的平均正确识别率Bayes法和PRIMA法均为100%,对169个预示集样本的平均预示率Bayes法为100%,PRIMA法为99.6%。表明Bayes法和PRIMA法能对六味地黄丸3种缺味药进行准确识别。
13 主成分分析法(Principal components analysis,简称PCA)在中药质量评价中的应用
根据在初选的特征量间可能存在的相关性,找到一种空间变换方式,通过对原始特征(经标准化后的)变量进行线性组合,形成若干个新的特征矢量,要求它们之间相互正交,它既保留了原始指标的主要信息,且又互不相关。这样一种从众多原始指标之间相互关系入手,寻找少数综合指标以概括原始指标信息的多元统计方法成为主成分分析。其数学模型为:设有m个指标X1,X2,…,Xm,欲寻找可以概括这m个指标主要信息的综合指标Z1,Z2,…,Zm。从数学上讲,就是寻找一组常数ai1,ai2,…,aim(i=1,2,…,m),使这m个指标的线性组合:Z1=a11 X1+a12 X2+…+a1m XmZ2=a21 X1+a22 X2+…+a2m Xm Zm=am1 X1+am2 X2+…+amm Xm能够概括m个原始指标X1,X2,…,Xm的主要信息(其中,各Zi(i=1,2,…,m)互不相关)。这些矢量即称为主成分。该方法就是根据样本特点,选取与问题最相关的特征来参与分类的。近年来主成分分析法在中药质量鉴别分析中应用比较广泛[15-17]。
张耀奇等[18]运用气相色谱法结合主成分分析对16种苍术及类似品、30种相关成药(二妙丸、三妙丸、四妙丸等)进行了研究。该方法是将气相色谱分离得到去除杂质峰的整个色谱图化分成237个时间通道,凡在时间通道内不出峰就以“0”表示,出峰的以实际峰面积表征。由此,每一样本均可用一个237维的向量表示,采用shannon信息量方程计算每一时间通道的信息量,最后选取信息量最大的十几个通道作为分类特征。结果显示,苍术和白术有明显区别;茅苍术和北苍术虽为药典规定的正品苍术,但就挥发性化学成分来看,两者有明显区别;北苍术和关苍术区别不大。三种相关成药,以三妙丸较有特征,有别于其它两种。孙红祥等[19]从常用的10种天南星药材中选取与抗肿瘤、镇咳祛痰作用相关的13种成分作为评价指标,并运用主成分分析方法从这13个指标中提取了4个主因子,其累积贡献率达91.4%,能较近似的代表原始数据所反映的信息,得到权重系数较大的X1、X2、X4、X7、X8、X11和X12等7个指标,然后再采用模糊数学的方法对这些药材的质量进行综合评价。结果表明,一把伞南星最佳,其次为象头花和掌叶半夏,粗序南星质最劣。因此,应用主成分分析和模糊数学方法建立的数学模型进行中药材的质量评价是可行的。马龄等[20]采用气相色谱法对中药吴茱萸脂肪酸进行了分析测定,根据测定的数据用主成分分析法进行特征压缩、提取,将代表诸样品特征的点即“星”显示在半圆形极坐标上构成星座图,根据“星”所属的星座和所走的路径,对18种不同品种、不同产地的吴茱萸进行自然分类,为中药吴茱萸的品种鉴别和质量优选提供了依据。张亮等[21]利用主成分分析法对32个不同品种来源的中药石斛样品质量进行了研究,该法直接用药材粉末的氯仿浸出液的紫外光谱数据进行分析,以每一波长与特定波长的吸光度比值作为分类指标,用Shannon信息理论对全部样品计算每一波长通道的信息量,选取信息量最大的10个通道用作分类特征,取得了满意的分类结果,为从化学角度研究中药质量提供了一种新的方法。曾明等[22]应用主成分分析法对来源于不同产地的野葛及葛属的其它8种植物进行了化学模式识别研究,为葛属植物的药材质量评价及分类提供了依据。王秀坤等[23]运用主成分分析法及非线性映射技术,对来源于全国各地的40份苦参药材质量进行了化学模式识别研究,取得了与传统鉴定较为一致的结果。
14 逐步回归分析(Stepwise regression,简称SR)在中药质量评价中的应用
逐步回归分析[24]是进行双向筛选的一种方法,当引入一个自变量进入方程后,要对方程中的每一个自变量作基于偏回归平方和的F检验,看是否需要剔除一些退化为“不显著”的自变量,以确保每次引入新变量之前方程中只包含有“显著”作用的自变量。这一双向筛选过程反复进行,直到既没有自变量需要引入方程,也没有自变量从方程中剔除为止,从而得到一个局部最优的回归方程。
到目前为止,此种方法在中药质量评价中应用的比较少。张汉明等[25]为了考察化学成分与药理活性之间的内在联系,建立合理的化学模式识别方程,因此选择了葛根的有效成分总黄酮、葛根素、大豆苷元、大豆苷、3′甲氧基葛根素及多糖的含量和葛根清热解表功效有关的抗内毒素活性强度为化学和药理指标,运用逐步回归法建立了回归方程,同时采用Bayers判别分析法对来自全国不同产地的葛根及同属的其它植物进行了模式识别研究。结果黄酮类成分未进入方程,而多糖与抗内毒素活性呈显著的负相关;6因素和单因素的判别正确率分别为94.12%、88.24%。本研究也为中药材质量评价提供了一个新的依据。
15 典型相关分析(Canonical correlation analysis,简称CCOR)在中药质量评价中的应用
典型相关分析是研究变量之间相关关系的一种统计分析方法,它揭示两组随机变量之间的线性相关情况。是从整体上把握两组指标之间的相互关系,分别在两组变量中提取有代表性的两个综合变量U1、V1(U1、V1分别是两个变量组中各变量的线性组合),利用这两个综合变量之间的相关性在一定程度上反映了原来两组指标之间的整体相关性。
孙立新等[26]收集不同科属、不同产地的板蓝根样品27个、大青叶样品5个。对样品的化学成分进行高效液相色谱分析,获得反映样品整体化学特征的数据,同时选择体外抑菌药理指标进行药理活性测定。用典型相关分析揭示了化学信息和药理指标之间的相关关系,寻找与药理指标密切相关的化学成分,用ISODATA聚类分析技术将32个样品划分为5类。结果用此方法评价板蓝根、大青叶的质量,结果良好,正确率为90.6%。
2 小结
多元统计分析方法运用在中药质量评价中,具有较强的科学性,在鉴定中药的真伪和质量优劣方面的研究工作已取得了可喜的进展,但现在多以单一方法为主,这样不容易把样品的特征信息完全表现出来。所以应该使多种统计方法联合运用,从而更可观的反映中药的质量,以达到中药质量全面控制的目的。相信多元统计方法会成为中药质量评价的一种科学的、全面地、准确的方法。
参考文献
1 马英丽, 赵怀清, 王学娅, 等. 不同产地黄芪的系统聚类分析. 中医药学报, 2003,31(2):20~21.
2 崔淑芬, 蒋轶伦, 王小如. 甘草药材薄层扫描指纹图谱研究. 沈阳药科大学学报, 2004,21(5):367~370.
3 王玺, 周密. 气相色谱数据的聚类分析法评价中药厚朴的质量. 沈阳药学院学报, 1990,7(1):5~7.
4 戴荣华, 马英. 牛膝质量评价方法研究中的化学模式识别. 计算机与应用化学, 2002,19(3):255~256.
5 徐永群, 孙素琴, 冯学峰, 等. 黄芩产区红外指纹图谱和聚类分析法的快速鉴别研究. 光谱学与光谱分 析, 2003,23(3): 502~505.
6 刘荣霞, 周婷婷, 董婷霞, 等. 建立评价当归质量的HPLC指纹图谱分析方法. 中国药学杂志, 2003,38(10):757~760.
7 王艳华, 李莉. 中药半夏的化学模式识别研究. 黑龙江医药, 2004,17(5):342~343.
8 马英丽, 赵怀清, 田振坤, 等. 黄芪质量的化学模式识别研究. 中草药, 2003, 34(5):460~462.
9 王继国, 雍克岚, 陈旭, 等. 中药血竭的化学模式识别研究. 上海大学学报(自然科学版), 2004,10(1):75~78.
10 田兰, 毕开顺, 孙稳健, 等. 白术的化学模式识别. 中国中药杂志, 2003,28(2):143~146.
11 徐永群, 黄昊, 周群. 红外指纹图谱和聚类分析法在赤芍产域分类鉴别中的应用. 分析化学. 2003,31(1):5~9.
12 刘谦光, 陈战国, 张尊听, 等. 西洋参质量的化学模式识别. 中草药, 1999,30(11):852~853.
13 于承浩, 吕青涛, 王晶. 聚类判别分析方法评价六味地黄丸质量的研究. 山东中医药大学学报, 2002,26(5):375~378.
14 张亮, 刘展鹏, 杨春. 六味地黄丸缺味药的Bayes法和PRIMA法定性识别研究. 中国中药杂志, 2000,25(1):29~32.
15 周永治, 郭戎. 主成分分析法在中药鉴别中的应用. 生物数学学报, 1995, 10(3):200~204.
16 苏薇薇, 梁仁, 黄韬. 黄芩中微量元素的模糊数学处理及正品黄芩的识别. 广东微量元素科学, 1997, 4(2):60~63.
17 苏薇薇. 主成分分析法评价中药材黄芩的质量. 现代应用药学. 1990, 7(4):9~11.
18 张耀奇, 潘扬, 王天山, 等. 术类中药及其相关成药质量的主成分分析. 南京中医药大学学报, 1997, 13(3): 149~150.
19 孙红祥, 叶益萍. 天南星类药材的综合质量评价. 生物数学学报, 2003, 18(2): 243~248.
20 马龄, 王玺. 中药吴茱萸中脂肪酸气相色谱数据的化学模式识别. 计算机与应用化学, 2000, 17(1):123.
21 张亮, 马国祥, 张正行, 等. 中药石斛质量的化学模式识别. 药学学报, 1994, 29(4):290~295.
22 曾明, 张汉明, 郑水庆, 等. 中药葛根及同属植物的化学模式识别. 中草药, 1998, 29(10):652~654.
23 王秀坤, 李家实, 魏璐雪, 等. 苦参质量的化学模式识别. 中国中药杂志, 1996, 21(4):198~200.
24 孙振球. 医学统计学. 第1版. 北京: 人民卫生出版社, 2002, 249~251.
25 张汉明, 曾明, 郑水庆, 等. 中药葛根及同属植物的模式识别研究(Ⅱ). 中草药, 2001,32(3):253~254.
多元统计分析范文6
论文关键词:R软件,聚类分析,主成分分析,典型相关分析
引言:多元统计分析是统计学的一个重要分支,也称多变量统计分析;在现实生活中,受多种指标共同作用和影响的现象大量存在,多元统计分析就是研究多个随机变量之间相互依赖关系及其内在统计规律的重要学科,由于多元统计分析方法一般涉及复杂的数学理论,一般无法用手工计算,必须有计算机和统计软件的支持。
在统计软件方面,常用的统计软件有SPSS、SAS、STAT、R、S-PLUS等。R软件是一个自由、免费、开源的软件,是一个具有强大统计分析功能和优秀统计制图功能的统计软件,现已是国内外众多统计学者喜爱的数据分析工具。本文结合实例介绍了R软件在多元统计分析中的应用,具体内容包括R软件在聚类分析、主成分分析、对应分析等方面的应用。
一 在聚类分析教学中的应用
聚类分析又称群分析,它是研究(样品或指标)分类问题的一种多元统计方法,所谓类,通俗地说,就是指相似元素的集合。在社会经济领域中存在着大量分类问题,比如若对某些大城市的物价指数进行考察聚类分析,而物价指数很多,有农用生产物价指数、服务项目价指数、食品消费物价指数、建材零售价格指数等等。由于要考察的物价指数很多,通常先对这些物价指数进行分类。总之,需要分类的问题很多,因此聚类分析这个有用的工具越来越受到人们的重视,它在许多领域中都得到了广泛的应用。
聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等,具体详见参考文献[3]。
R软件及其相关包提供了各种聚类方法,主要是系统聚类方法、快速聚类方法、模糊聚类方法,常用的是系统聚类方法。
R软件实现系统聚类的程序如下:
Hclust(d,method=“complete”)
其中d是由“dist”构成的距离结构,具体包括绝对值距离、欧氏距离、切比雪夫距离、马氏距离、兰氏距离等,默认为欧氏距离;method包括类平均法、重心法、中间距离法最长距离法最短距离法、离差平方和法等,默认是最长距离法。
例1 下表是山东省2008年各市居民家庭平均每人全年消费性支出,利用所给数据对各市进行系统聚类。
山东各市居民家庭平均每人全年消费性支出 元/人
地区
食品
衣着
居住
设备用品
交通通讯
文化教育
医疗保健
其它
济南
1628.16
252.86
790.11
285.64
634.83
355.54
394.37
43.9
青岛
1999.61
523.76
901.56
297.76
595.34
618.12
260.17
106.42
淄博
1691.6
372.21
844.44
300.46
494.67
580.6
370.84
102.16
枣庄
1370.59
272.95
614.3
227.52
454.73
245.93
220.88
84.2
东营
1580.86
234.17
813.58
253.12
532.19
432.05
275.3
39.1
烟台
1673.19
337.92
719.28
201.3
414.08
497.57
286.03
77.11
潍坊
1516.36
299.67
1327.72
243.72
583.04
494.65
269.82
92.95
济宁
1375.4
287.17
722.05
282.16
380.68
412.42
218.11
56.94
泰安
1412.44
225.66
567.66
257.96
411.98
450.57
177.02
70.07
威海
1684.64
517.59
759.36
227.12
424.41
565.75
444.31
77.48
日照
1451.12
351.21
562.91
208.81
457.2
332.16
182.2
37.69
莱芜
1516.22
198.94
624.72
207.03
464.06
469.35
256.53
36.33
临沂
1339.69
212.36
625.26
191.34
409.39
314.9
156.01
63.31
德州
1114.47
173.88
553.14
169.23
319.41
220.45
137.97
42.2
聊城
1146.53
182.53
566.92
186.05
317.48
332.64
155.94
54.31
滨州
1177.49
179.96
979.01
206.88
451.85
407.49
298.7
47.51
菏泽
1265.03
170.85
550.68
143.11
329.99
349.41