前言:中文期刊网精心挑选了数据分析的方法范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。
数据分析的方法范文1
关键词:粗糙集理论;数据分析方法;信息系统;决策表;属性约简
中图分类号:TP18 文献标识码:A文章编号:1009-3044(2007)06-11651-01
1 引言
粗糙集(Rough Set)理论[1]是波兰数学家Z.Pawlak于1982年提出的,它建立在完善的数学基础之上,是一种新的处理含糊性和不确定性问题的数学工具。其主要思想是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则[2]。由于粗糙集理论不需要任何预备或额外的有关数据信息,使得粗糙集理论成为研究热点之一,被广泛应用与知识发现、机器学习、决策分析、模式识别、专家系统和数据挖掘等领域。
属性约简是粗糙集理论中核心研究内容之一[3]。在众多的属性约简算法中,大致可以分为两类:一类是基于信息熵的启发式算法[4],这类算法往往不能得到系统的所有约简.另一类是基于区分矩阵和区分函数构造的算法[5],这种算法直观,易于理解,能够计算出所有约简。但在区分矩阵中会出现大量的重复元素,造成时间和空间的浪费,从而降低了属性约简算法的效率。
本文基于数据分析方法[6]的属性简约算法是在保持分类能力不变的前提下,逐个约去冗余的属性,直到不再有冗余的属性,此时得到的属性集是最小属性集,即为约简。该算法简单,能够求出所有约简,不会出现区分矩阵中大
量的重复元素,从而提高了属性约简的效率。
2 粗糙集概念
定义2.1设U为所讨论对象的非空有限集合,称为论域;R为建立在U上的一个等价关系族,称二元有序组S=(U,R)为近似空间。
定义2.2令R为等价关系族,设P?哿R,且P≠?I,则P中所有等价关系的交集称为P上的不可分辨关系,记作IND(P),即有:[x] IND(P)= ∩ [x]R,显然IND(P)也是等价关系。
定义2.3称4元有序组K=(U,A,V,f)为信息系统,其中U为所考虑对象的非空有限集合,称为论域;A为属性的非空有限集合;V=∪Va,Va为属性a的值域;f:U×AV是一个信息函数,?坌x∈U,a∈A,f(x,a)∈Va。对于给定对象x,f(x,a)赋予对象x在属性a下的属性值。信息系统也可简记为K=(U,A)。若A=C∪D且C∩D=?I,则S称,为决策表,其中C为条件属性集,D为决策属性集。
显然,信息系统中的属性与近似空间中的等价关系相对应。
定义2.4设K=(U,A,V,f)为信息系统,P?哿A且P≠?I,定义由属性子集P导出的二元关系如下:
IND(P)={(x,y)|(x,y)∈U×U且?坌a∈P有f(x,a)=f(y,a)}
则IND(P)也是等价关系,称其为由属性集P导出的不可分辨关系。
定义2.5称决策表是一致的当且仅当D依赖于C,即IND(C)?哿IND(D),否则决策表是不一致的。一致决策表说明:在不同个体的条件属性值相同时,他们的决策属性值也相同。
定义2.6设K=(U,A)为一个信息系统。若P?哿A是满足IND(P)=IND(A)的极小属性子集,则称P为A的一个约简,或称为信息系统的一个约简。
定义2.7设K=(U,CUD)为一个决策表,其中C为条件属性集,D为决策属性,若P?哿C为满足POSC(D)=POSP(D)的极小属性子集,则称P为决策表K的一个约简。其中POSC(D)表示决策D关于属性集C的正域。
定义2.8数据分析方法对于信息系统K=(U,A),逐个移去A中的属性,每移去一个属性即刻检查新得到的属性子集的不可分辨关系,如果等于IND(A),则该属性可被约去,否则该属性不可被约去;对于决策表K=(U,CUD),逐个移去C中的属性,每移去一个属性即刻检其决策表,如果不出现新的不一致,则该属性可被约去,否则该属性不可被约去。
3 基于数据分析方法的属性简约算法
3.1 算法思路
利用函数的递归调用,逐个判定信息系K=(U,A)中属性a(a∈A),若IND(A)=ND(A-{a}),则a可以约去,A‘=A-{a},否则a不可以约去,继续检查A‘中的每个属性是否能被约去,此过程一直进行下去,直到出现某一属性子集中的每个属性都不可约去为止,此时该属性子集即为所求的属性简约。对于决策表,每次检查是否增加了不一致的决策规则,作为是否约去属性的依据。
算法如下:
输入:信息系统K=(U,A)。
输出:K的属性约简。
Match(A') // A’=A-{a}//
begin
for i=1to|U|-1 //|U|表示U的基数//
for j=i+1to|U|
begin
r=|R|//|R|表示属性个数//
if((f(ui,a1)= f(uj,a1))∧(f(ui,a2)= f(uj,a2))∧….∧(f(ui,ar)= f(uj,ar)))
then a不可被约去,return0
end
a可以被约去return1
end
Reduce (A)
begin
flag=1
for i=1 to |R|//|R|表示属性个数//
begin
a=ai
A'=A-{ai}
if match(A')thenflag =0 , reduce (A’)
if (flag且A未被输出)then
输出A中所有元素//flag≠0,说明A中所有元素不可移去,且不会被重复输出//
End
end
以上给出的函数是求解信息系统的属性约简算法;对于决策表,只要将Match(A’)函数中的if语句的条件换成(f(ui,a1)= f(uj,a1))∧(f(ui,a2)= f(uj,a2))∧….∧(f(ui,ar)= f(uj,ar))∧(f(ui,ag)≠f(uj,ag)),r=|C|是条件属性个数,ag是决策属性。Reduce (A)函数中|R|换成|C|即可。该算法适用于一致决策表,对非一致决策表,算法类似,也就是逐个移去属性并检查决策表是否出现新的不一致,作为约去此属性的依据。
4 举例
文献[7]中决策表1,a,b,c,d,e是条件属性,g是决策属性,求出的约简是{a,b,d}
应用本算法,求得的属性约简为{a,e}和{a,b,d},得到决策简化表2和表3。
表1 决策表表2简化表表3简化表
如果将决策表表1看作一信息系统,运用本算法,求得的属性约简有{c,d,e,g}, {b,e,g}, {a,c,d,g}, {a,c,d,e}, {a,b,g}, {a,b,e}h和{a,b,d}
5 结束语
本文通过数据分析方法讨论了属性约简问题。该算法是基于不可分辨关系的,具有直观、易于理解和完备性的特点。当属性和对象都较少时,效率较高,但当属性和对象较多时,计算的复杂度较高。实例表明,该算法是有效的。
参考文献:
[1]PAWLAK z.Rough set[J].International jom:ua ofcomputer and information science,1982,(11):341―356.
[2]张文修,吴伟志,梁吉业等.粗糙集理论与方法[M].北京:科学出版社,2001.
[3]Pawlak Z.Slowinski R.Rough set approach to muhiattribute decision analysis.Ivited Review[J].European Journal of Operational Research.1994,72:443-459
[4]王国胤,于洪,杨大春.基于条件信息熵的决策表约简[J].计算机学报,2002(7):760―765.
[5]Skowron A,Rauszer C.The Discernibility Matrices and Functions in Information Systems[A].I Slowinsk R.ntelligent Decision Support― Handbook of Applications and Advances of the Rough Sets Theory[c].1991,331-362.
[6]刘请.Rough集及Rough推理[M].北京:科学出版社,2001.
数据分析的方法范文2
关键词 自组织映射 组织特异性基因 管家基因 基因表达谱
一、SOM算法介绍
由Kohonen提出的自组织映射(SOM)的神经网络是神经网络中适合用于对数据进行分类的有效方法。SOM神经网络包含一个输入层和一个输出层,组织成一个二维的网格结构(图1.1)。该网络能够从任意一个随机选择输入的结点开始最终形成一个拓扑结构的映射,这个映射反映了输入模式的内在的关系。但是运用SOM有一些参数的限制,首先需要指定类别数目,对映射空间结点进行权值的初始化等。如(图1.1)所示,SOM网络是一个的映射,如果这个神经元被安排在一个平面网格上面的话,这个神经网络就称为二维神经网络,因为这个网络将一个高维的输入向量映射到一个二维的平面上面。给定一个网络,输入向量是一个维的向量,相应的第个突触向量的第个元素与输入向量的第个元素相连,这样,一个维的突触向量就和第个神经元实行连接。
图1.1 SOM网络的基本结构
SOM算法描述如下:
(1)令网络学习次数,赋予初始化权值向量一个小的随机向量值,对拓扑邻域()、学习率()进行初始化,设置网络总的学习次数()。
(2)当学习次数()小于总的学习次数()时,重复步骤3至步骤6。
(3)随机选一个输入向量进入网络进行训练。
(4)确定获胜神经元,相应的权值向量为与输入向量距离最短的向量,成为获胜神经元,输入向量与获胜神经元的最短距离为,定义如下:
(1.1)
(5)按照下式更新获胜神经元及其邻域内神经元权值向量:
(1.2)
与函数定义如下:(1.3)
(6)令,如果,回到第(3)步继续训练,否则结束训练。
二、数值模拟计算
本文以HUGEindex数据库中人7000多条基因在19个正常组织中的表达情况这19个组织中表达的基因为样本对其进行分析。不同组织下的全基因表达数据构成了一个7070x59的数据矩阵,其中每一个元素表示第个基因在第个组织中的表达水平值,行向量代表基因在19个人组织中的表达水平,成为基因的表达谱,列向量代表某一组织的各基因的表达水平。
(1.4)
本文运用SOM方法对人基因19个组织的59个样本进行聚类,SOM网络的拓扑结构见(图1.2)及参数选择见表(表1.1)。
图1.2 样本聚类SOM网络结构图
上图中,根据Genechip得到的人体19个组织的59个微阵列数据所得到的信息,我们采用4x5的二维拓扑结构的SOM网络对人体组织样本进行分类(其中第(4,5)个结点为空),图中每个结点的位置(结点位置用与输入模式维数相同的向权值向量表示,初始权值由系统自动产生)为各个结点权值尺度化之后所得到的位置。
三、结论
通过分类可以将芯片实验的59个样本按照人体组织类别分为19个类别,并且与采用层次聚类法所得结果进行比较,可以看出自组织映射的聚类方法与层次聚类方法比较,可以看出采用SOM网络聚类方法比层次聚类得到的结果更为明确,其分类正确率达到了92.2%,证明了SOM方法是有效的。
参考文献:
[1]孙啸,陆祖宏,谢建明.生物信息学基础[M].北京:清华大学出版社,2005:282-285.
[2]许东,吴铮.基于matlab6.x的神经网络系统分析与设计[M].西安电了科技大学出版社,2002.
[3]阎凡平,张长水.人工神经网络与模拟进化计算[M].北京:清华大学出版社,2005.:11-34,360-395.
作者简介:
数据分析的方法范文3
【关键词】大数据分析;电网调度能力;方法;应用
0.引言
为了评测区域内电网调度能力,根据调度能力评测结果,调整输变电调度方案,提高变压器等主要设备的可靠运行,合理利用电网中各项资源和设备。本发明的目的是提供一种基于计算机实现的评测电网调度能力的方法,该方法通过对电压、有功功率、无功功率的分析,保持各个变压器都处于最佳工作状态,提高设备使用寿命,降低设备故障率,降低设备运行的电能损耗,提高电网运行的可靠性,提升电网调度水平。
1.大数据分析评测电网的现状
随着我国城市化的发展逐渐加快,我国对电力的需求也在逐渐的增多,未来十几甚至几十年,电力需求的增长主要集中在城市地区。这也就对我国的电网带来很大的挑战,城市电网是城市的重要基础设施,也是电力网的重要组成部分。建设好城市电网对满足城市经济发展、人民生活水平提高具有重大意义。但是,由于我国长期以来收着“重主网、轻配网”的思想,导致我国很长一段时间内,对电网的投资非常的少,城市的电网发展普遍落后于高压电网[1]。导致我国在很长一段时间内,处于用电不平衡的情况,很多的地方在年前或者重大节日之前就会出现的停电的现象。
2.大数据分析评测电网调度能力的具体方法
2.1获取两卷变或三卷变高低压侧的监控数据
该方法主要是用根据变压器端的终端设备,来获取的,首先通过各地市部署的调度EMS系统,将变电站中各变压器的运行情况准确的监控,通过变压器内的监控元件,对变压器的的运行情况、采集电压、有功负荷、无功负荷等检测数据,按指定频率采集。然后将采集的数据通过生产区的专用网络进行传输,通过生产区的安全交换机制放置到电力系统信息内网,开始清洗、筛选,去除设备检测的异常数据,保留有效数据用于负载率分析该评测电网调度能力工具通过在信息内网中载入电网运行的监控数据[2]。
2.2得到变压器实际功率与额定功率的比值
通过对变压器内高低压侧的检测数据,计算变压器实际功率与额定功率的比值,负责率分析,接下来对采集的调度EMS系统的电网运行数据进行计算,负载率有两种计算方法,一是根据选定的地区、时间段,使用公式二“有功负荷与无功负荷平方根/容量”计算每个时点该地区各个变压器的负载率;二是根据选定的地区、时间段,使用公式“有功负荷/(容量*0.95)”计算每个时点该地区各个变压器的负载率[3]。
2.3计算各个变压器的平均负载率以及平均负载率的平均值
首先要通过选定的地区、时间段,得到该地区在本时间段内各个变压器的平均负载率以及平均负载率的平均值。然后再计算各个变压器平均负载率的均方差,由变压器的均方差,判断选定区域在该时间段的调度运行能力。主变不均衡度分析,根据选定地区和时间段,统计负载率分析结果,得出平均负载率[4]。根据平均负载率计算各个变压器平均负载率的均方差,作为变压器的不均衡度,将结果逐级放大,能够得出变压器、变电站、县公司、市公司乃至网省公司在该时间段的调度健康情况,从而有效的调整调度策略和计划,改善电网运行情况。
3.大数据分析评测电网调度能力的应用
3.1调度EMS数据采集
要对EMS数据采集,首先要制定EMS系统监控数据的格式,然后加载指定格式的调度数据,其中指定数据额格式要求主要为:(1)按“变电站+地区+变电站电压等级+主变名称+时间”的顺序排序,每小时记录一次,主要记录每个整点、时点的有功、无功负荷该数据容量的单位是MVA,负荷的单位是MW。(2)时间,变电站,地区,变电站电压等级,主变名称,绕组电压,容量,有功负荷值,无功负荷值。(3)变电站的数据采集按照一定的顺序进行,不可以同时多个变电站的数据进行采集。
在这个过程中还要对数据进行“清洗”。清洗的流程为:(1)使用8个逗号作为数据的分隔符,分别隔开不同字段的数据。如果有多余逗号或缺逗号或两个逗号中间为空的行,则该行数据无效。(2)在计算的过程中除了容量、有功负荷值及无功负荷值外,其他各字段如数据超长,则页面抛出提示错误,结束导入。(3)厂站电压等级为110kV的变压器容量小于等于100MVA(系统用户可以在管理端修改此值大小),否则该行数据无效。
3.2负载率计算
负载率计算有两种情况,分别是近似计算和精确计算,其中近似计算效率高,能够很快得到近似结果。但是在常规检查时可使用本公式计算;精确计算算法相对复杂、比较耗时,但是计算准确,通常用于分析调度情况时使用。
简便公式为:
计算要求:
1、选定地区、场站或主变和时间段;
2、根据选定的地区、时间段,使用公式计算每个时点该地区各个变压器的负载率;
3、使用意义在于根据负载率大小得出各变压器负载率的最高或最低时点,从而判断当前电网的负荷情况。
精确公式:
计算方法:
1、选定地区、场站或主变和时间段;
2、根据选定的地区、时间段,使用公式二计算每个时点该地区各个变压器的负载率;
3、使用意义在于根据负载率大小得出各变压器负载率的最高或最低时点,从而判断当前电网的负荷情况。
4.结语
该发明可及时调整调度方案,从而均衡电网的运行负荷,保持各个变压器都处于最佳工作状态,提高设备使用寿命,降低设备故障率,降低设备运行的电能损耗,提高电网运行的可靠性,提升电网调度水平,对提高大数据分析电网调度能力具有显著的作用。
参考文献
[1]李庚银,罗艳,周明,等.基于数学形态学和网格分形的电能质量扰动检测及定位[J].中国电机工程学报,2012,26(03):25-30.
[2]贺仁睦,王卫国,蒋德斌,等.广东电网动态负荷实测建模及模型有效性研究[J].中国电机工程学报,2015,22(03):78-82.
数据分析的方法范文4
1 传媒行业进入大数据时代
大数据是一种时代现象,目前主要是商业概念。还未形成严谨的学术定义。过去,大数据通常用来形容一个公司创造或手机的大量非机构化和半结构化的数据,如网络日志、社会关系网络上的用户活动数据、互联网搜索引擎上的详细搜索记录等等。对于传媒行业,大数据指跨媒体或全媒体数据,如电视机顶盒的回路数据、电脑或移动终端收看视频的数据、社交媒体上对于收看节目的相关评论等。
当下我们提及大数据,还指一种解决问题的方法,即通过手机、整理生活中的方方面面的海量数据,并对其进行分析挖掘,从中获得有价值的信息,这种对大数据的应用与实践已经演化出一种新的商业模式,即公司的核心竞争力在于其拥有的数据规模以及它运用这些数据解决问题的能力。这种解决问题的方法在于对各领域情况进行量化分析:信息准确描述,使我们认知不清晰的方面变得清晰,帮助我们去判断现状和趋势、确定未来战略,在记录、表述、分析、重组后让它带来效益。
传媒业本身就是生产和传播信息的产业,大数据时代,传媒业大有可为:信息源更加丰富,传媒机构可利用数据资源,量化分析,更好地把握信息;对受众需求的把握更加准确,传媒机构可根据受众需求确定传播内容和传播策略,实现精准传播;传播效果的反馈对于不断调整内容和策略,赢得受众,提示品牌形象有很大帮助。首先数字化,让电脑处理这些数据即建立数据库;在数字化基础上进行数据化,变成软件可以识别的数据化文本:智慧地使用已有的理论和方法,让这些数据发挥价值——内容提取、分享、互动,让它们更好地服务于使用者,挖掘其中的商业性创新价值。然而大数据在中国传统媒体中的影响目前并未实现,虽然中国少数传统媒体已经实践或正在实践中,对于互联网媒体,这个领域的实践已经走在了传统媒体的前面。
2 借力大数据进行电视受众分析
2.1 过去的受众分析方法
其一,过去的人员测量仪,一种可以记录受众收看或收听时间的专门仪器,可以定时反馈给数据中心。其二,日记卡,由受访者填写特定格式的表格,记录自己的收视行为。其三,面访,通过上门或拦问了解受众的收视行为。其四,电话访问,由访员向目标受众打电话了解受众的收视行为。首先,记录受众观看行为的仪器是抽样的形式安装到用户家中的,这种仪器的安装行为本身对受众观看心理有一定影响,从而导致记录仪器的不准确。其次,观众观看行为的复杂性,这些信息资料庞大,不是简单的受众回访、记录就能得到准备的数据,需要更高的技术来测量。由此可见,这种简单的受众行为分析显然不能适应当下受众复杂的行为变化趋势,也不能够为电视媒体提供精准可靠的分析数据,我们需要借助大数据进行信息分析。
2.2 利用大数据分析电视受众行为
首先,海量电视收视样本监测。利用海量数据收集技术,获得传统的电视收视信息、数字电视、智能电视受众收视行为。目前大部分用户使用数字机顶盒,通过数字机顶盒可以实现信息的传送和反馈,而且这些数据包括内容丰富,有电视直播频道、网络视频资源库、付费点播频道、特色频道等等。数字电视的推广使受众点播回看、增值业务等行为纳入受众观看行为内,这是传统的收视监测难以监测到的。例如在北京市场,北京卫视(高清)、CHC动作频道等都是传统收视率监测很难监测到的频道,而在海量样本监测中均属于常规可监测频道。其次,整合网络视频、移动终端视频观看行为,量化分析受众观看行为。虽然新媒体时代下,互联网声称取代传统的电视媒体,但调查分析,互联网视频观看内容大部分还是传统的电视媒体提供的。媒体受众的行为变迁、跨媒体使用行为的增长,也要求对媒介受众行为监测更加精细化和综合化——如何在新媒体环境下更好地把握受众行为偏好,拓展电视媒体的经营空间,成功实现节目创新和经营创新?成为新时期电视媒体发展的关键议题。这就需要借助网络视频网站、移动终端视频观看数据,精准分析受众的观看行为。具体实施方面,需要电视媒体与网络视频网站合作,在为其提供视频资源的同时,电视媒体需要借助网络视频网站受众观看数据,加上从数字机顶盒获取的量化信息,进行深入分析,精准把握受众对节目内容的关注焦点、对节目发展的心理期待、对节目环节的个性意见、对节目品牌的情感归属等一系列重要问题,对电视节目的生产编排以及成长发展提供有力支持。再者,利用数据收集加工处理平台,挖掘受众喜好,为电视生产制作提供量化信息。大数据之大,重点并不是它的容量大,而在与其强大的数据收集加工处理能力,深入数据分析提取有效信息的能力,这才是大数据的真正价值,谁做到了这一点,就能在市场中获胜。
目前做电视媒体受众详细数据收集与分析的公司是基本上由尼尔森垄断的,中国并没有监管收视率调查的行政机构,做电视媒体受众分析的都是市场调查公司。目前尼尔森、央视索福瑞等调查数据较为权威,虽然价格不菲,但是大多数电视行业数据分析都是这几家做的。尼尔森根据客户的具体需求来定制调查方案,对于一般性的调查需求,尼尔森拥有一套在全球范围内得到认可的专有调查产品和方法,为客户提供最有力的可比性标准化数据。有少量传媒集团着手于专业调查机构合作,深入开发大数据的潜在功能,如2012年2月广东佛山传媒集团与尼尔森公司合作,寄希望于记住尼尔森大数据分析的平台,通过对数据的整合、分析、管理,为他们的转型发展提供战略性的策略依据。
对于电视媒体的受众调查分析,尼尔森采用第四代收视测量海量样本回路数据收视研究,这是全球最新的收视率测量解决方案:受众观看行为通过机顶盒的升级,使得机顶盒能够对观众开关机顶盒时间、转换频道、使用增值业务等具体操作行为进行精确到秒的准确记录,被机顶盒记录的数据通过有线数字电视网络,在一个高度安全的封闭通路中,传输至监测服务器进行多层加密,再通过互联网回传至数据处理中心,整个过程遮蔽了认为干扰的可能性,最大限度报纸了数据采集和传输的安全性,在理论上达到全样本测量。因为这些数据量大几乎达到全样本测量,需要进行量化分析,这就是大数据的应用。
广电行业目前处于三网融合的大环境 中,在这个过程中不可避免地相互渗透和交叉,经营上互相合作、互相竞争,内容上出现了融合,内容的融合意味着数据的融合。目前电视媒体对受众调查分析的意识开始增强,但在实践中电视媒体并没有全面应用数据融合带来的海量受众数据信息。而IT、家电等外行将利用技术进入广电领域对电视媒体有一定的警示意义,但是对于拥有优质精心制作的媒资的电视媒体,若能抓住受众行为在大数据时代下的变化,将是大赢家。
参考文献:
[1] 王建磊.互联网电视机顶盒发展现状及趋势[J].
数据分析的方法范文5
[关键词] 单核苷酸多态性;聚类分析;基因;数据挖掘
[中图分类号] R181.2+3 [文献标识码] A [文章编号] 1673-7210(2015)09(a)-0036-06
[Abstract] Statistical methods currently used for single nucleotide polymorphisms (SNPs) data cluster analysis are explained, and select five kinds of representative statistical methods, make specific analysis to each method separately. In the discussion process for each method, all divided into 5 parts: principle of the method, calculation methods, formulas, advantages and defects. In the discussion section of the article, all the methods are summarized, and propose future development direction of the cluster method for SNPs data.
[Key words] Single nucleotide polymorphisms; Cluster analysis; Gene; Data mining
在人类的基因组中存在各种形式的变异,其中,单核苷酸多态性(single-nucleotide polymorphisms,SNPs),即单个的核苷酸变异所引发的DNA链序列的多态性,是这些变异中最普遍的形式。根据数据统计,在人类含有不低于30亿个含氮碱基对数量的基因组中,SNP出现的概率在1/1000左右[1]。如何利用这些信息,建立数字模型,探索这些基因与位点和疾病的关联,成为了摆在科学家面前的一个富有挑战意义的课题[2]。
科学家们在长期的研究中,根据“物以类聚”的原始思想,衍生出了对复杂数据或者试验对象等进行归类的一种多元统计学分析方法,即现在归属于统计学分支的聚类分析(cluster analysis),又称其群分析。这种统计方法的核心思想从诞生之日起就未更改,即在没有任何可用来参考的或者依从的规范下(即先验知识准备程度为零),按照被研究对象或者样品本身的特点或者性状,进行最大程度合理的分类。通过聚类分析的计算过程,不仅可以保证在最终所分的类别情况下,同一类别中的对象或者样品,能够具有最大程度的相似性,而且使不同类别中的对象或者样品,拥有最大程度的相异性。以大量相似为基础,对收集数据来分类,成为了聚类分析计算本身的最终目标[3]。从统计学的观点看,聚类分析计算是通过数据建模简化原有数据复杂程度的一种方法,而从实际应用的角度看,聚类分析计算亦是数据挖掘的主要任务之一。高维度高通量SNPs数据聚类分析,是近现代聚类分析中一个非常活跃的领域,同时也是一个非常具有挑战性的工作。
目前用于高维度SNPs数据聚类分析的方法有很多种,常用的几大类有Logistic回归、潜在类别分析(latent class analysis,LCA)模型、结构方程模型分析(structural equation modeling,SEM)、以决策树为基础的分类回归树(classification and regression trees,CART)和随机森林(random forest,RF)算法的分析[4]、基于贝叶斯网络(Bayesian networks,BNs)模型的分析、基于神经网络(neural networks,NNs)模型的分析和支持向量机(support vector machine,SVM)的方法等,上述种类的方法各有其适用性,在聚类计算的效能方面也广泛存在争议。本文从以上几类方法中,遴选出应用较广泛、理论相对成熟的潜在类别分析、分类回归树模型、贝叶斯网络潜变量模型、BP神经网络模型和支持向量机5种具体方法进行比较,阐述其在SNPs数据聚类分析中的意义。
1 潜在类别分析
诞生于20世纪50年代的LCA方法,其基本原理是通过引入潜变量概念,建立潜在类别模型(latent class model,LCM),在保证维持各个显变量的数据局部独立性的基础上,力图用少数的潜变量与各个显变量建立关系,然后以数量相对较小的潜变量进行对象关系解释。而争取利用最少数量的且关系上互相排斥的潜变量对各个显变量的概率分布进行最大程度的解释,就是潜在类别分析的基本假设,这种假设的思想倾向于各种显变量对其类别进行解释的潜变量都有反应的选择性[5]。潜在类别分析的统计原理建立在概率分析的基础之上。一个潜在类别模型是由一个(或多个)潜在变量和多个外显变量组成的Bayes网[6]。
完整的LCM分析过程包括数据概率变换参数化、模型参数估计与识别、模型评价指标选择、分类结果解释等[7-10]。
1.1 概率参数化
潜在类别概率和条件概率构成了潜在类别模型概率参数化过程中的两种参数。假设某数据集含有三个彼此之间不相互独立的外显变量,以A、B、C表示,而且每一个显变量分别具有的水平数为I、J、K。按照假设,若寻找到合适的潜变量X,则X需满足一下条件:首先,要求合理解释A、B、C的关系;第二,在潜变量的各个类别之中所有显变量维持最大的局部独立性,则为潜在类别分析,如果潜变量X中含有T个潜在类别的话,用数学模型表达就为:
在上式中,LCM的组合概率,用πijkABC表示,相应的,潜在类别概率,以πtX表示,其意义可以解释为:在观察变量处于局部独立的条件下,潜变量X在第t个水平的概率,即从样本中随机选取的观察对象属于潜在类别t的概率。容易证明,各个潜在类别的概率总和永远为100%即1,用公式表达为:
条件概率,用πitAX表示,其意义可以解释成:外显变量A的第i个水平更倾向于划归到第t个潜在类别的个体的概率。由于各个潜变量的各个水平处于相互独立的状态,所以各外显变量的条件概率总和为1,即:
1.2 参数估计与模型拟合
在潜在类别模型的参数估计过程中,最大似然法(maximum likelihood,ML)是被最广泛使用且计算软件中默认的方法。EM(expectation-maximization)、NR(Newton Rapson)算法在计算迭代过程中为最常用的方法,而其中前者更为常用。在潜在类别模型评价方面,AIC评分(akaike informationcriterion)和BIC评分(bayesian information criterion)成为使用最为广泛的拟合评价指标。两者共同点为:其计算理论基础都为似然比χ2检验,对于模型对应的参数限制不一致的情况下,也可以用来横向比较,且结果简单直观,都是数值越小表示模型拟合越好。Lin与Dayton曾经指出,当研究的样本数量级达到或者超过千位级时,BIC指标更可靠,否则AIC更佳[11]。
1.3 潜在分类
完成最优化模型的确定之后,就可以利用模型进行计算,将每个外显变量的数据值分配到判定的潜在类别之中,通过这个过程,完成数据的后验类别分析,即潜在聚类分析。上述分类的理论依据是著名的贝叶斯理论,分类的计算公式为:
潜在类别分析虽然理论建立时间较早,但是一直依靠着自身的优势在聚类分析领域有一席之地,其计算思想中融合了结构方程模型与对数线性模型的构思。该算法的目的明确,即数量众多的显变量之间的关系,可以用最优化的组合模式,使用最少的潜变量来解释。结构方程模型只能够对连续型潜变量处理的缺陷,在潜在类别模型问世后得到了相当程度的弥补,特别在设计思想范围中,使得研究者以概率论为基础,能够通过数据对分类结果之后所隐藏的因素做更为深刻的了解,这些都要归功于分类潜变量的引入这一有效提高分类效果的方法[12]。
但是,由于该方法的分析原理比较简单,只是脱胎于贝叶斯概率理论的概率参数化,所以使得该方法在聚类分析过程中,如果SNPS数量较少,则表现出不错的聚类效果,但如果SNPS数据维度过高,则有失水准。具体表现在高维度高通量的SNPS数据聚类分析过程异常复杂,时间消耗过长,而最终得到的聚类结果也容易在解释时发生阻碍。
2 分类回归树模型
CART[13]不仅可以在已经获得的数据库中通过一定的规则提炼出关联,而且是对隐藏在各种指标中的分类属性进行量化计算成为可能,其作为数据挖掘技术中的经典聚类分析方法,为高通量SNPs数据的聚类分析制造了一个科学而准确的平台。分类回归树的基本原理为:如果对于已经给定的待分类对象X,已知其可以进行Y个不同属性的分类,那么该模型将模拟把X逐级递归的分解为多个数据子集,并且认为Y在子集上的分布状态,是均匀并且连续的,而分解的方法为二叉树分类法。该方法如同自然界中的树木一样,数据集X由根部向叶部逐步分解移动,每一个划分点即树木分叉点的原因,由分支规则(splitting rules)确定,最终端的叶子表示划分出的最终区域,而且每一个预测样本,只能被分类到唯一的一个叶子,同时Y在该点的分布概率也被确定下来。CART的学习样本集结构如下:
L={X1,X2,…,Xm,Y}
其中,X1~Xm可以称之为属性变量,Y可以称之为标签变量。但在样本集中无论是X或是Y,其变量属性可以容许多种形式,有序变量和离散型变量都可以存在。若Y处于有序变量的数值情况时,模型被称为回归树;若情况相反,称之为分类树。
2.1 分类回归树的构建
将给定的数据集L转化成与其对应的最大二叉树,这个过程称之为构建树Tmax[14]。为了寻找到对应数据集的最优分支方法,最大杂度削减算法被运用到构建过程之中。在进行分支时,数据中每个值都要纳入计算范围,只有这样才能计算出最佳的分支点进行分叉。CART的构建离不开Gini系数的使用。若数据集L中,含有记录的类别数量为N,Gini系数的表达式就为:
其中,Pj表示T中第N个分类数据的划分频率。对于任意的划分点T,如果该点中所包含的样本量非常集中,那么该点的Gini(T)值越小,从分类图上显示为该节点分叉角度越钝。欲构建最终的Tmax,就要重复操作,将根节点分支为子节点,而这种递归分类的计算,最好利用统筹学中的贪心算法。
2.2 树的修剪
当Tmax建造好之后,下一步需要对其进行所谓的修剪操作,就是去掉那些可能对未知的样本分类计算精度上,没有任何帮助的部分,其目标是处理掉对给定数据集中的噪音干扰的问题,以便形成最简单最容易理解的树。通常对树进行修剪的方法是以下两种,先剪枝方法(prepruning)与后剪枝(postpruning)方法,两者都有助于提高已经建成的树,脱离开训练数据集后,能够正确地对未知数据进行分类的能力,而修剪方法都是通过统计计算,将理论上最不可信的分枝去掉。
2.3 决策树评估
测试样本评估法(test sample estimates)与交叉验证评估法(cross-validation estimates)[15]是通常被用来对CART模型进行评估的方法,而前者的使用率更高。该评估方法的原理与多因子降维法有些类似,而且即时效率比较高,在学习数据集囊括的样本量比较大的情况下,该方法的优越性就更加突出,其原理可以解释为:将原始的数据集L随机分成两部分,分别为测试集L2与样本集L1,利用L1生成一系列的Tmax,而且按照序列T1>T2>T3>…>Tn,将测试集L2放到序列中的树模型之中,TK为L2中的每个样本逐个分配类别,因为L2中每个样本的原始分类是事先已经知道的,则树TK在L2上的误分情况可以利用公式(6)计算:
式中,Nij(2)代表L2中j类样本划归至i类的数量,c(i|j)为把j类误分到i类的代价,Rts(TK)表示TK针对L2的误分代价,则最优化树的条件为:Rts(TK0)=minK(Rts (TK)。
作为一种经典的通过数据集进行训练并有监督学习的多元分类统计模型,CART以二元分叉树的形式给出所构建出的分类的形式,这种方式非常容易解释,也非常容易被研究者理解和运用,并且这种方法与传统意义上的统计学聚类分析的方法构建完全不一样[16]。
但是CART方法对主效应的依赖程度很高,无论是每个分支的根节点还是后续内部的子节点,其预测因子都是在主效应的驱动下进行,并且每个节点都依赖于上一级的母节点分支的情况。而且CART方法对结果预测的稳定性上也有缺陷,具体表现在,如果所给数据集中的样本有小范围的更改,那么所产生的蝴蝶效应就会导致最终所构建的模型与原始模型的差别很大,当然分类结果也就难以一致。
3 贝叶斯网络潜变量模型
BNs是一种概率网络,它用图形的形式来对各种变量间的依赖概率联系做描述,经典的图形中,每一个随机变量利用节点的方式表达,而变量之间的概率依存关系则利用直线表达,直线的粗细表示依赖的强度。在BNs中,任何数据,当然也可以是高通量SNPs数据,都能够成为被分析的变量。BNs这种分析工具的提出,其原始动力是为了分析不完整性和概率性的事件,它可以从表达不是很精准的数据或信息中推理出概率结果。
网络的拓扑结构和条件概率分布作为构成BNs的两大核心组件,如果再将潜变量概念引入BNs,则成为了BNs潜变量模型。被包含在BNs中的潜变量数量,决定着这个模型的复杂程度,因为一般来讲,在实际工作中,研究者常常利用潜变量来进行聚类计算,所以BNs潜变量模型也成为了一个经典的潜结构模型(latent structure model)或潜类模型(latent class model)。
3.1 模型参数
在满足一定的假定条件下,才能对BNs模型进行参数学习的过程。根据文献记载,这些条件分别为:所有的样本处于独立状态;无论全局和局部,均处于独立状态;变量不能为连续变量,只能是分类变量。在上述条件得到满足的情况下,该模型可以利用数据,计算出网络拓扑结构中各个节点的条件概率θ,且服务于制订的BNs模型结构η和数据集D。计算的方法有最大似然估计法等[17]。
3.2 模型选择
与LCA方法类似,BNs模型也利用函数来对模型的拟合优劣程度进行评价,衡量标准也是BIC、AIC、BICe等的评分,一般来说,分数低的模型更加优化。
3.3 模型优化
在通过评分的方法来确定BNs潜变量模型后(需综合考量BIC、AIC、BICe三者的得分),该模型下一步就转化成了如何去搜索符合所给数据集的最优模型的过程。由于该网络的拓扑结构,使得该模型结构的数目的增长速度非常快,与纳入模型的变量数的增长呈指数级别比例,能够适应这种数量级的搜索算法是启发式的,其过程是比较不同的模型的评分,其中最常被使用的是爬山算法(hill climbing)[18]。
利用BNs模型进行高通量SNPs数据聚类,其优点之一就是在该模型中,所有遗传的模式都可以被忽略,无论是对SNPs的二分类变异赋值,还是三分类变异赋值,只要纳入模型中,就转变成纯粹的数学问题。正是由于这种优势的存在,使得该方法对原始数据的类型容许程度很高,由此扩展了此种模型的使用范围。BNs模型计算的过程虽然复杂,但是结果解读起来却是十分的简单直观。只要将各个类别的概率直方图呈现出来,那所有重要的且有意义的高维度SNPs的整体效应,就能直观的展现出来。BNs模型一旦被建立起来,就可以被用来对新纳入的患者进行分类,其过程如下:输入新加入样本的SNPs的状况,并且将这些状况进行数学化处理即赋予其数据值,并带入模型开始运行。模型会通过新加入样本的SNPs的状况,根据概率理论,将其归入相应类别。
但是BNs模型的理论比较抽象,公式比较复杂,如果让医学工作者去理解其中的数学机制,可能不太现实,若再要求对模型进行深刻解释,则更困难。该模型在优化过程中的搜索算法也有硬伤,爬山算法从出现开始,就一直受到一定程度的诟病,因为其有使模型偏离到局部最优的倾向。
4 BP神经网络模型
BP(back propagation)神经网络在所有的神经网络模型系列中,是被使用最多的模型之一,其核心原理为按照误差逆传播算法,对所给数据集进行多层的正向的反馈拟合,而这些层则包括输入层(input layer)、隐层(hide layer) 和输出层(output layer)。
BP神经网络模型对于已经给定的数据集的训练过程可以解释为:各种数据由输入层负责接收,并且向内层进行传递,传递过程中需经过一定的中间层级,信息在隐层部分进行计算处理,处理完毕后向输出层传递,输出层的神经元接收到后,即完成了一次完整的训练信息的传播,其结果由输出层向外面释放。如果输出的结果与期望值差距没有达到要求,则进入信息的反方向运动过程,将误差信息通过输出层、隐层、输入层的顺序反向传递。在上述正向和反向的两种信息传递过程中,为了使整个BP神经网络模型的误差的平方和达到最小,就需要对各个层级的权重和反应阈进行相应调整,在一定次数的迭代过程中达到符合设定的要求范围内[19]。
BP神经网络模型建立流程:①建立高通量SNPs足够而可靠的数据信息样本数据库。②把SNPs样本数据进行处理,变成BP神经网络模型可以纳入的形式。③建造BP神经网络初级雏形,进行数据训练。首先确定神经网络所需层的数量,还有隐藏节点的数量,接下来完成各连接权值的初始化过程,将样本数据代入。④开始BP神经网络的迭代过程,按照误差逆传播算法,对所给数据集进行多层的正向的反馈拟合,最终确定各个层的权重。⑤利用训练好的BP神经网络测试样本。将样本输入训练好的BP神经网络,并输出结果[20]。
非线性问题的解决能力是BP神经网络模型区别于其他的能够自我学习、自我训练的模型的特点之一,该模型以简单的结构模仿神经组织的构成和信号传导通路,根据提供的数据进行学习和自适应,最后可以对复杂的问题求解[21]。该模型的运行模式也很简单,一旦模型建立,则直接将数据带入,BP神经网络就可以对诸多影响因素和结果之间的复杂关系进行统计,超越传统聚类模型,也有能力提供更多的信息量[22]。
但是BP神经网络模型的缺陷也十分明显,首先该种聚类方法迭代次数比较多,计算收敛的速度比较慢;标准的BP神经网络算法各个层的权重值的确定是完全随机性的,容易形成局部最优化;在模型建立的初始阶段,各个节点的确定也没有确凿的理论支持[23]。
5 支持向量机
1995年Comes等[24]提出了一种新型机器学习方法,该方法的数学理论基础雄厚,被称之为SVM。这种方法问世之后,就以其在小样本、高维度数据方面处理的独特优势,被迅速推广到数据聚类分析领域的各个方面[25]。SVM的基本原理如下:利用非线性映射的方法φ(x):RnH,将待聚类数据集首先映射到高维空间H中,试图在高维空间中寻找最优化的一个超平面,此超平面的作用为对数据进行分类。达到最优超平面的要求为:对于数据来说,要求分类的间隔最大而且置信区间最窄;达到最少的数据样本错分数量,以上两条的原则为分类风险最低。
SVM的计算流程为:
在高维空间中,如果被映射数据具有二维线性且可分时,则一定存在一个分类超平面:
其中αi≥0称为拉格朗日系数,该函数对?X和b最小化,对αi最大化。将该问题转化为其对偶形式,求得最优分类函数为:
其中,K(x,xi) =φ(xi)・φ(xj)被称之为核函数,其作用是将原始数据集映射到高维H空间。而核函数有很多种形式,多项式形式、径向基形式等等。但是如果原始数据集经过转换后,确实为线性不可分时,方法会不可避免的产生错分点,此时非负松弛变量ξi≤1,i=1,…,l被引入,而式(8)、(9)合并为:
在上述条件下,求下式目标函数的最小值:
在式(13)中,用C来作为惩罚因子,对错分点来进行一定程度的惩罚,当然是人工定义的,其主要作用是在限制数据集偏差和该方法的推广范围两者间,维持一个平衡。
SVM模型作为一种经典的处理小样本的自我学习、自我组织的分类方法,虽然其基础理论依然与神经网络模型类似,均为通过对给定样本的统计学习,建造模型,而且对非线性数据的处理能力很强,但是很大程度上避免了陷入局部最优化,维度过高限制,拟合过度等缺陷,拥有更广阔的发展空间[26]。虽然该方法出现时间比较晚,但是研究者已经在包括预测人口状况[27]、婴儿死亡率前瞻[28]、金融产业[29]和工业产业[30]前景推断等方面进行了有效使用,当然也包括在高通量SNPs数据聚类,均取得了不错的效果。
但是SVM一样存在短处,由于其分类过程是基于对原始数据集的再次规划来寻找超平面,而再次规划的计算就有n阶矩阵(n为样本个数),如果n的数量很大,则电脑的内存将难以承受巨大的矩阵信息。而且原始的SVM模型只能对数据集进行二分类计算,有一定的局限性,由于在实际工作中,很多情况下分类数量要大于二,为了解决这个问题,只能去在其他方面想相应的解决方法。
6 讨论
不仅上述5种具体方法,而且在前文中所提出的几大种类中的具体聚类分析方法都各有其优缺点,研究者们已经针对上述几类聚类方法的缺陷进行了深入的研究,并提出了许多改进方法,提高了在高通量SNPs数据聚类分析时的计算效能。董国君等[31]提出了将仿生学算法中的退火算法引入到神经网络模型中,能够有效地避免该模型收敛到局部最优的状态。胡洁等[32]更是经过改进,建造了一种能够快速收敛而且全局最优的神经网络模型算法,将BP神经网络的计算效率大为提高。而Leo Breiman在2001年提出的随机森林(random forest)算法,本质上就是对分类回归树算法的一种组合改进,其计算原理为:利用多个树的模型对数据进行判别与分类,其在对数据进行处理的同时,还可以给出各个变量的重要性得分,评估变量在分类中所起的作用[33]。2012年提出了混合潜变量模型(structural equation mixture modeling,SEMM),本质上是一种结构方程模型衍生出的改进版,其设计思想中汇合了潜在类别分析、潜在剖面分析以及因子分析的因素,将潜变量分析与结构方程进行协调组合,创造出的一种新型SNPs分析方法。这种新的方法,将结构方程的缺点――只能分析连续潜变量和潜在类别分析的缺点――只能分析分类潜变量,进行有效的补充,而且把一种全新的探索式的思路引入了高维数据分析的领域。在实际进行聚类分析时,也可以将几种方法结合使用,分别在计算的不同阶段利用效能最高的方法,做到优势互补。现已经出现基于神经网络算法和蚁群算法进行结合使用的报道。
尽管用于高通量SNPs数据聚类分析的方法有多种,但目前没有任何一种方法可以适用于所有的情况。因此,研究者们依旧没有停下寻找更为合适的方法的脚步。不可否认,在基因组相关研究中,SNPs数据的分析对于研究复杂性疾病和遗传因素的联系是一项挑战,但也是机遇。如果能正确合理地运用各种复杂的统计学方法,就可以提高聚类分析的效能,提示研究者们未来应在寻找更适用的高通量SNPs数据聚类分析方法方面付出更多努力。
[参考文献]
[1] Jakobsson M,Scholz SW,Scheet P,et al. Genotype,haplotype and copy-number variation in worldwide human population [J]. Nature,2012,451: 998-1003.
[2] 马靖,张韶凯,张岩波.基于贝叶斯网潜类模型的高维SNPs分析[J].生物信息学,2012,10(2):120-124.
[3] 张家宝.聚类分析在医院设备管理中应用研究[J].中国农村卫生事业管理,2014,34(5):510-513.
[4] 袁芳,刘盼盼,徐进,等.基因-基因(环境)交互作用分析方法的比较[J].宁波大学学报:理工版,2012,25(4):115-119.
[5] 张洁婷,焦璨,张敏强.潜在类别分析技术在心理学研究中的应用[J].心理科学进展,2011,18(12):1991-1998.
[6] 曾宪华,肖琳,张岩波.潜在类别分析原理及实例分析[J].中国卫生统计,2013,30(6):815-817.
[7] Kaufman L,Rousseeuw PJ. Finding groups in data: an introduction to cluster analysis [M]. New York:Wiley,2015.
[8] Hagenaars JA. McCutcheon AL. Applied latent class analysis [M]. New York:Cambridge University Press,2012.
[9] 邱皓政.潜在类别模型的原理与技术[M].北京:教育科学出版社,2011.
[10] 张岩波.潜变量分析[M].北京:高等教育出版社,2011.
[11] Lin TH,Dayton CM. Model selection information criteria for non-nested latent class models [J]. J Educ Behav Stat,2012,22(3):249-264.
[12] 裴磊磊,郭小玲,张岩波,等.抑郁症患者单核苷酸多态性(SNPs)分布特征的潜在类别分析[J].中国卫生统计,2010,27(1):7-10.
[13] 邵峰晶,于忠清.数据挖掘原理与算法[M].北京:中国水利水电出版社,2013.
[14] 王立柱,赵大宇.用分类与回归树算法进行人才识别[J].沈阳师范大学学报:自然科学版,2014,23(1):44-47.
[15] 温小霓, 蔡汝骏.分类与回归树及其应用研究[J].统计与决策,2010,(23):14-16
[16] 符保龙,陈如云.分类回归树在高校计算机联考数据分析中的应用[J].计算机时代,2011,(1):33-34.
[17] Dempster AP,Laird NM,Rubin DB. Maximum likelihood from incomplete data via the Em algorithm(with discussion)[J]. J Royal Stat,2012,39(1):1-38.
[18] José A,Gámez,Juan L,et al. Learning Bayesian networks by hill climbing: efficient methods based on progressive restriction of the neighborhood [J]. Data Min Knowl Disc,2012,22:106-148.
[19] 张凡,齐平,倪春梅.基于POS的BP神经网络在腮腺炎发病率预测中的应用[J].现代预防医学,2014,41(11):1924-1927.
[20] 张晶.BP神经网络在图书馆信息处理中的应用研究[J].图书情报,2014,(9):132-133.
[21] 徐学琴,孙宁,徐玉芳.基于BP神经网络的河南省甲乙类法定报告传染病预测研究[J].中华疾病控制杂志,2014,18(6) :561-563.
[22] 马晓梅,隋美丽,段广才,等.手足口病重症化危险因素BP神经网络模型预测分析[J].中国公共卫生,2014,30(6):758-761.
[23] 任方,马尚才.基于条件对数似然的BP神经网络多类分类器[J].计算机系统应用,2014,23(6):183-186.
[24] Comes C,Vapnik V. Support vector networks [J]. Mach Learn,1995,20:273-297.
[25] 张学工.关于统计学习理论与支持向量机[J].自动化学报,2011,26(1):32-42.
[26] 解合川,任钦,曾海燕,等.支持向量机在传染病发病率预测中的应用[J].现代预防医学,2012,40(22):4105-4112.
[27] 刘崇林.人口时间序列的支持向量机预测模型[J].宁夏大学学报:自然科学版,2013,27(4):308-310.
[28] 张俊辉,潘晓平,潘惊萍,等.基于支持向量回归的5岁以下儿童死亡率预测模型[J].现代预防医学,2014,36(24):4601-4603,4605.
[29] 陈诗一.非参数支持向量回归和分类理论及其在金融市场预测中的应用[M].北京:北京大学出版社,2014:104-106.
[30] Li P,Tan ZX,Yan LL,et al. Time series prediction of mining subsidence based on a SVM [J]. Min Science Technol,2014,21(4):557-562.
[31] 董国君,哈力木拉提.基于随机退火的神经网络算法及其应用[J].计算机工程与应用,2013,46(19):39-42.
[32] 胡洁,曾祥金.一种快速且全局收敛的BP神经网络学习算法[J].系统科学与数学,2014,30(5):604-610.
数据分析的方法范文6
关键词:牛顿环; 逐差法; 线性回归法; 加权平均法
中图分类号:Q4361;TP274文献标识码:A
文章编号:1004-373X(2010)08-0141-04
Analysis of Data Processing in Lens Curvature Radius Measured by Newton′s Ring
LI Xiao-li
(School of Science, Xi’an Shiyou University, Xi’an 710065, China)
Abstract: The methods and procedures of using interative differential method, linear recursive analysis, and weighted average method to process the data of lens curvature of Newton′s Rings are introduced in detail, three experimental dada processing methods are compared. The weighted average method can overcome the experimental systematic distortions, and make a nonprecision measurement according to processing priuciple, and build on the basis of mathematical statistical theory. This method mainly compared the corresponding rights, and then found out the weighted average, used Matlab software processing. It is proved that the weighted average method is optimal for this experiment by theoretic analysis.
Keywords: Newton′s rings; interative differential method; linear recursive analysis; weighted average method
0 引 言
“牛顿环”是牛顿在1675年制作天文望远镜时,偶然把一个望远镜的物镜放在平板玻璃上发现的。牛顿环属于用分振幅法产生干涉现象,亦是典型的等厚干涉条纹。它为光的波动提供了重要的实验证据。光的干涉现象广泛地应用于科学研究、工业生产和检验技术中,如利用光的干涉法进行薄膜等厚、微小角度、曲面的曲率半径等几何量的精密测量,也普遍应用检测加工工件表面的光洁度和平整度及机械零件的内力分布等。
为了获得真实可靠的数据,需要对实验的全过程进行误差控制。如果实验原理、方法和采用的实验装置不同,实验结果的精度也不同,这是因为采用了不同的物理模型和实验条件[1]。即使当实验原理、方法和采用的实验装置相同,如果采用不同的数据处理方法(如最小二乘法、逐差法等),也会带来精度不同的结果,这是因为采用了不同的数学模型。甚至对同一组实验数据采用同一种数据处理方法,如果处理方式不同,其精度也会有很大的不同,这是因为采用了不同的算法。因此,如何利用有限的测量数据,发挥其最大效用,选择适当的数据处理方法和算法,有效地减少误差,在实验结果的分析中就显得非常重要。
牛顿环属于用分振幅法产生干涉现象,它是典型的等厚干涉条纹。下面以牛顿环干涉实验为例,对实验数据分别用逐差法、线性回归法、加权平均法三种方法进行分析,然后比较三种方法的优劣,并对结果进行讨论。
1 实验部分
1.1 实验原理
最常见的牛顿环干涉结构如图1所示\,把一块曲率半径相当大的平凸镜放在一块平板玻璃片上,在单色光的垂直照射下,用读数显微镜可观察到以接触点为中心的一系列干涉圆环。其中亮暗环纹交替出现,随着半径增大而由稀变密,直至模糊一片。
设入射单色光的波长为λ,第k级干涉条纹的半径为rk,该处空气膜的厚度为e,通过数学推导,产生明暗环的干涉条件为[3]:
明条纹:
И
δk=2ek+λ/2=kλ, k=1,2,3,…(1)
暗条纹:
И
δk=2ek+λ/2=(2k+1)λ, k=1,2,3,…(2)
根据图1的几何关系可知,R2=r2k+(R-ek)2,则r2k=2ekR-e2k,R为透镜的曲率半径。由于Rek,上式近似表示为:
И
ek=r2k/(2R)(3)
将式(3)代入式(1)、式(2)中,则:
明环半径:
И
r2k=(2k-1)R(λ/2), k=1,2,3,…(4)
暗环半径:
И
r2k=kλR, k=1,2,3,…(5)
若用两个暗环或明环半径和的平方差进行计算,可以消除因附加光程差产生的误差,д馐钡m环暗环半径为r2m=mλR,第n环明环半径为r2n=nλR,Я绞较嗉醯们率半径为:
И
R=r2m-r2n(m-n)λ=D2m-D2n4(m-n)λ(6)
И
式中:D为牛顿环直径。所以实验中只要测量出第m环和第n环的直径,根据上式就可以算出透镜的曲率半径R。
图1 牛顿环装置
1.2 实验数据分析
实验中测量牛顿环干涉条纹的数据记录如表1所示。
表1 牛顿环干涉条纹的原始测量数据
k
51015202530
D左 /mm30.52231.27831.88032.38532.83233.240
D右 /mm26.32125.55724.96224.46924.01923.612
下面分别用逐差法、线性回归法和加权平均法对实验中测量牛顿环干涉条纹的数据进行分析。
1.2.1 逐差法
由于牛顿环装置中玻璃接触处的弹性形变会引起系统误差,因而不能直接用牛顿环的直径D(k)计算平凸透镜的曲率半径。可以假设干涉条纹为均匀分布,采用逐差法,在计算机上利用Matlab软件中的数值插值法处理实验数据,处理结果如表2所示。
表2 采用逐差法分析实验数据
kD左/mmD右/mmkD左/mmD右/mmD2(k+15)-D2(k)/mm2
130.52226.3211432.19224.65945.015
230.68826.1521532.29024.56345.058
330.84725.9911632.38524.46945.056
430.99825.8391732.47824.37645.058
531.14125.6941832.56924.28545.056
631.27825.5571932.65924.19545.026
731.40925.4262032.74624.10644.984
831.53425.3022132.83224.01944.939
931.65425.1842232.91623.93444.899
1031.76925.0712332.99923.85044.869
1131.88024.9622433.08123.76944.850
1231.98724.8582533.16123.68944.843
1332.09124.7572633.24023.61244.840
注:光源为钠光灯λ= 589.3 nm
算术平均值的标准偏差为:
И
σ[D2(k+15)-D2(k)]=0.019 mm2
И
则曲率半径的平均值为:
И
R1=D2(k+15)-D2(k)4mλ=1 271.0 mm
相对标准偏差为:
И
σR1R1=σ[D2(k+m)-D2(m)]D2(k+m)-D2(m)=0.04%,
平凸透镜的曲率半径的标准偏差为:
И
σR1 = 0.5 mm
所以实验结果为:
И
R1=R1±σR1=(1 271.0±0.5) mm
И
1.2.2 线性回归法
根据牛顿环实验的基本原理,设第m条暗纹的干涉级次为(m+j),则D2k = 4Rλ(m+j),可以看出D2k与m成线性关系,只要测量得到各m级(自变量x)所对应的D2k(应变量y),用最小二乘法拟合线性函数(直线)可以得到[4]:y=A+Bx。
所以要确定R,只需要确定系数B即可,依据最小二乘法处理实验数据,数据整理后用Matlab软件计算线性拟合系数B为[5]:
И
B=n∑i(xiyi)-∑ixi∑iyin∑ix2i-(∑ixi)2=2.999 0 mm
И
式中:xi=m,yi=D2m。
为了检验直线拟合的好坏,并确定测量的不确定度,求出相关系数[6]:
И
r=xy-xy(x2-x2)(y2-y2)=0.999 984 57
平凸透镜的曲率半径为:
И
R2=B/(4mλ)=1 272.7 mm
相对不确定度为:
И
ur(R2)=u(R2)R2=u(B)B=1/r2-1n-2=0.000 8
平凸透镜的曲率半径的不确定度为:
И
u(R2)=0.000 8×1 272.7=1.0 mm
所以实验结果为:
И
R2 =R2 ±u(R2 )=(1 272.7±1.0) mm
И
1.2.3 加权平均法
实验中,牛顿环的直径为D(k)=D左(k)-D右(k),其中D左(k),D右(k)是第k级牛顿环左、右两端位置坐标。由于D左(k),D右(k)只做单次测量,其精度为仪器精度,而读数装置最小刻度为0.01 mm,则有σ=0.01 mm=D左(k)=D右(k),в晌蟛畲递知牛顿环直径的测量精度为[7]:
И
σ2D(k)=σD2左(k)+D2右(k)=2σ2(7)
从而m个相邻牛顿环直径平方差的测量精度为:
σ2[D2(k+m) -D2(k) ]=[σD2(k+m) ]2+[σD2(k)]
=σ2D2(k+m)+σ2D2(k)
= 4D2(k+m)σ2D(k+11)+4D2(k)σ2D(k)
=8σ2\(8)
所以:
И
σ2[D2(k+m) -D2(k)]=0.000 8[D2(k+m)+D2(k)](9)
令yk=D2(k+m)-D2(k),相应的权\为ωk=1σ2(yk),Р捎眉尤ㄆ骄法分析测量数据如表3所示。
表3 加权平均法分析实验数据
kyk/mm2精度/mm2权ωk/mm-2ωkyky-yk/mm2ωk(y-yk)2/ mm2
145.0150.064 215.56700.62-0.071 20.078 9
245.0580.069 014.50653.21-0.114 80.190 9
345.0560.073 813.56610.75-0.112 30.171 1
445.0260.078 612.72572.84-0.082 60.086 8
544.9840.083 511.98539.01-0.040 90.020 0
644.9390.088 311.32508.830.004 30.000 2
744.8990.093 210.73481.860.044 90.021 6
844.8690.098 010.20457.730.074 50.056 6
944.8500.102 99.72436.050.093 40.084 9
1044.8430.107 79.29416.510.100 80.094 4
1144.8400.112 48.89398.770.103 80.095 8
计算可得加权平均值为:
И
y=∑11i=1ωiyi/∑11i=1ωi=44.957 mm2
标准偏差为:
И
σy=∑11i=1(y-yi)2〗/(n-1)∑11i=1ωi=0.078 mm2
И
从而得曲率半径的平均值为:
И
R3=y/(4mλ)=1 271.1 mm
相对标准偏差为:
И
σR3R3=σyy=0.02%
И
则实验结果的测量精度为:
И
σR3=0.2 mm
所以实验结果为:
И
R3=R3±σR3=(1 271.1±0.2) mm
И
1.3 实验结果与讨论
对于实验数据分别用逐差法、线性回归法和加权平均法进行处理后,实验结果可分别表示为:
逐差法:
И
R1 = R1 ±σR1 =(1 271.0±0.5) mm
线性回归法:
И
R2 =R2 ±σR2 =(1 272.7±1.0) mm
加权平均法:
И
R3=R3±σR3=(1 271.1±0.2) mm
下面对这三种数据处理方法进行检验,选择最优的数据处理方法,检验方法较多,现选择采用t分布检验[9]:
t=x1-x2(n1-1)σ21+(n2-1)σ22ν(1/n1+1/n2)(10)
式中:n1和n2分别为凸透镜球面的上、下两面的折射率,由于凸透镜球面周围都为空气薄膜,故n1=n2,则令ν=n1+n2-2=2(n-1),Т佣有:
И
t=\-R2)\〗/(σ2R1+σ2R2)(11)
方法1与方法2比较计算,可得:t1=0.350;方法2与方法3比较计算,可得:t2=0.340。
若取显著水平σ=10%,则置信率p=90%,ν=18,查t分布表可得[10]tζ=1.734,则|t1|=0.354
若取σ= 50 %,则p=50%,ν=18,查表得tζ=0.688,则|t1|=0.354
通过上面分析可以看出三种数据处理方法有如下特点:
(1) 逐差法主要是围绕如何克服实验的系统误差来进行的,是建立在算术计算的基础上,但并不满足非等精度测量实验数据处理的条件,而牛顿环干涉实验是非等精度测量,故逐差法对于牛顿环实验来说并不是一种理想的数据处理方法。
(2) 线性回归法主要是为了避免非等精度测量的困难,但未考虑该次实验中的系统误差,所以线性回归法对于牛顿环实验来说也不是理想的数据处理方法。
(3) 加权平均法既考虑了如何克服实验的系统误差,又能按照处理原则去对待非等精度测量,且建立在数理统计理论基础上,所以加权平均法是处理牛顿环实验数据的最佳方法。
2 结 语
本文对牛顿环实验数据分别采用逐差法、线性回归法和加权平均法进行分析。逐差法在牛顿环干涉实验中是一种常用的实验处理方法,其原理简单且便于理解,对它的实验原理不用再做过多的叙述,但由于逐差法不满足非等精度测量实验数据的条件,而牛顿环干涉实验就是一种非等精度测量,故该方法对于牛顿环干涉实验并不是一种理想的实验处理方法;线性回归法先利用数值插值法对实验数据进行处理,再利用最小二乘法将实验数据拟合成一条直线函数,最后用Matlab软件计算出线性拟合系数B及相关系数r,进而算出凸透镜的曲率半径R和测量的相对不确定度;加权平均值法主要是比较相应的权,进而求出加权平均值,利用Matlab软件处理较为方便,在优化模型中应用较广。经过分析与讨论可知应用加权平均值法为牛顿环实验数据处理的最佳方法。
参考文献
[1]刘才明, 许毓敏. 对牛顿环干涉实验中若干问题的研究[J]. 实验室研究与探索, 2003(6): 1314.
[2]王德新. 牛顿环实验非等精度分析之我见\. 物理实验, 1993, 13(4): 184-185.
[3]王纪龙. 大学物理[M]. 北京: 科学出版社, 2002.
[4]沈元华, 陆申龙. 基础物理实验[M]. 北京: 高等教育出版社, 2001.
[5]张德启, 李新乡. 物理实验教学研究[M]. 北京: 科学出版社, 2005.
[6]邹进和. 应用“逐差法”处理实验数据[J]. 大学物理实验, 2003(3): 51-52.
[7]滕坚. 牛顿环实验数据处理方法分析[J]. 物理通报, 2006(6): 3436.
[8]虞仲博, 屠全良. 牛顿环实验等精度测量及其不确定度的评定与表示[J]. 物理实验, 2000, 20(5): 1719.
[9]刘智敏. 不确定度与分布合成[J]. 物理实验, 1999, 19(5): 5860.