前言:中文期刊网精心挑选了统计学变量的定义范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。
统计学变量的定义范文1
关键词:统计学;地质工程;应用分析
地质统计学是20世纪六七十年展起来的一门新兴的数学地质学科的分支,是随着采矿业的发展而兴起的一门交叉学科。地质统计学是以区域化变量理论为基础,以变异函数为主要工具,研究那些在空间分布上既有随机性又有结构性,或空间相关和依赖性的自然现象的科学。国内外地质统计学的理论、方法及应用均达到了成熟的阶段,并形成了具有较好应用价值的软件。具有代表性的有:法国巴黎高等矿院地质统计学研究中心研制的ISATIS;美国斯坦福大学应用地球科学系C.v.Deutsch和A.G.Journel共同编写的GSIJB程序包,等等;北京科技大学地质系也编写出地质统计学方法研究程序集。
近年来,克里金技术在石油勘探开发中的应用日益广泛深入,效果也越来越明显。主要应用包括:储层预测,即估计地层的埋深、层厚、孔隙度、渗透率和含油饱和度等地质和地球物理参数的空间分布,这些变量在空间既存在一定的空间分布规律(结构性),又存在局部的变异性(随机性),这些变量都属于区域化变量,因此可以用地质统计学方法对这些变量进行研究绘制各种地质图件;利用地质统计学的变差函数研究储层的非均质性及各向异性;数据整合,即整合地震、测井、钻井和露头等各种信息并进行建模。除此以外,随机模拟方法和油藏数值模拟相结合,可以预测油藏的动态特征,为制定和调整开发方案并提高采收率提供依据。
一、地质统计学研究方法的基本理论
(一)基本原理
当一个变量呈现为空间分布时,就称之为区域化变量。这种变量常常反映某种空间现象的特征,用区域化变量来描述的现象称之为区域化现象。区域化变量,亦称区域化随机变量,G.Matheron(1963)将它定义为以空间点x的三个直角坐标为自变量的随机场。区域化变量具有两个最显著,而且也是最重要的特征,即随机性和结构性。区域化随机变量之间的差异,可以用空间协方差来表示(见图1)。
(二)变差函数
一维变差函数的定义:假设空间点x只在一维x轴上变化,把区域化变量Z(x)在x,x+h两点处的数值之差的方差之半定义为区域化变量Z(x)在x方向上的变差函数,记为:
r表示变差函数;E表示数学期望;Var表示方差。也就是说变差函数依赖于x和h两个自变量。在本征假设条件下,变差函数仅依赖于分割它们的距离h和方向a。而与所考虑的点x在待估域内的位置无关,因此变差函数更明确定义为:变差函数是在任一方向a,相距h的两个区域化变量Z(x)和Z(x+h)的增量的方差之半。
变差函数是一个距离的函数,描述不同位置变量的相似性,r值越大,相关越差。通常情况下,r值随着距离矢量h的增大而增大,直到h到达一定值时,r达到极大值,而后保持这个常数值不变。
(三)克里金方法
当随机变量X的数学期望对整个区域都为已知时,采用的克里金方法就是简单克里金方法。在进行简单克里金估计时,我们假设整个区域的均值是已知的。然而储层物性的均值是随着局部区域的不同而变化的,上述假设在绝大部分的情况下是不成立的,普通克里金解决了这一问题。当随机变量X(u)的数学期望是一个和u无关的常数,但这个常数未知时,导出的克里金方法就是普通克里金方法。
(四)协克里金
1.协克里金方法的原理及其公式。协克里金方法要求主变量与二级变量之间具有良好的相关性。以整合两个变量为例,协克里金估计的主变量和二级变量的线性组合形式如下:
公式中,是位置的估计值,是在位置上的主变量采样值;是对应于该采样点的加权系数。
协克里金有其不足之处,需要建立两个变差函数(主变量、二级变量的变差函数)和一个互变差函数(主变量与二级变量之间的互变差函数)。不仅运算的数据量显著增大了,而且拟合这些变差函数比较困难。在协克里金的计算过程中,相关性较好的数据对相关性较差的数据存在屏蔽效应。由于这些原因,这种完全协克里金在实际应用方面受到限制。于是,人们发展了配置协克里金,这种方法保留了协克里金的优点,又不用同时建立三个变差函数。
2.协克里金算法中几个关键的步骤。在使用协克里金方法时,要求两组数据之间具有良好的相关性。图1是工区井点处单位厚度旅行时差与孔隙度的交汇图,计算单位厚度旅行时差与孔隙度的相关系数为0.880655,具有良好的相关系数。
相关函数的计算与拟合。由于实际数据测量点个数的不足,我们需要对相关函数进行计算并拟合,绘制出完整的相关函数图形,通过变差函数计算方法和线性规划拟合方法,计算拟合相关函数。
选择合适的搜索半径。协克里金方法至少使用两种数据,一般叫做硬数据和软数据,通过实际资料处理,认为这两种数据不宜用相同的搜索半径。对于硬数据,应采用与硬数据的变程相当的搜索半径,原则是尽可能地应用精确的硬数据;对于软数据,搜索半径不宜过大,因为软数据本身不够精确,会把自身的偏差带到估计值中。
处理加权系数。最后一步是处理加权系数,由于负的加权系数会导致奇异的估计值,因此需要采用线性规划方法处理加权系数。
二、地质统计学方法的应用
(一)储层预测
对储层参数进行科学有效的预测,一直是石油地质学的热点和难点。最初采用传统的数理统计方法,但这种纯数学的方法不考虑储层参数之间的空间连续性和相关性,不带任何地质意义,对储层参数预测具有很大的局限性。而地质统计学方法以区域化变量理论为基础,充分考虑了地质参数空间变化的趋势、方向性及2样点参数的相互依赖性,利用克里金方法的插值和外推功能,求出比较符合地质规律的地质统计模型和方法,来表征各种储层参数的变化规律,然后用这种规律,对参数(如孔隙度和渗透率等)的空间展布进行比较合理而有效的预测。
(二)储层的非均质性及各向异性研究
储层非均质性研究是油藏描述的重要内容,其参数的空间分布不仅具有随机性,而且具有结构性。从地质统计学关于变差函数的基本理论出发,在综合分析的基础上,构造了一种定量表征储层平面非均质性的数学模型,计算结果所反映的各类储层的平面非均质特征符合沉积的基本规律,说明这一表征模型用于储层平面非均质性定量评价中是可行的。
(三)不确定性描述
静态、动态的确定性模型,很难反映油藏的复杂变化,只有通过不确定性描述,从地质统计观点概括和综合地质模型,才能真实地反映复杂的油藏模型。近几年来,地质统计学越来越广泛地用于储层表征,诸如估计孔隙度的空间分布,模拟渗透率的数值连续性,定量估计油藏模型的不确定性,取样设计,流动模拟过程中的敏感性分析和风险分析,等等。它的最大优点就在于能够方便地综合应用各种资料,如地质、地震、测井、生产等各方面的信息,这对岩心取样十分稀疏的油藏的准确描述是关键的。而且不确定性描述能为油藏工程师提供多个可选择的开发方案,有利于综合分析,获得合理的开发决策。
参考文献:
[1]何琰,殷军.储层非均质性描述的地质统计学方法[J].西南石油学院学报,2001,23(3).
[2]李黎,王永刚.地质统计学应用综述[J].勘探地球物理进展,2006,(6).
[3]王自高,何伟,高才坤,卢杰.工程勘察新技术应用与发展思路[J].水力发电,2006,(11).
[4]GUNTER,HOLDER.StatisticsinPreclinicalPharmaceuticalResearchandDevelopment[J].JournaloftheAmericanStatisticalAssociation,2000,95(449).
统计学变量的定义范文2
0引言
妊娠高血压综合征(简称妊高征)是发生于妊娠中晚期的特有疾病,可导致胎儿发育迟缓、胎盘早剥、早产、产后出血等严重后果,是孕产妇和围产儿死亡的重要原因之一. 尽管国内外学者[1-2]对该病的发病原因进行了许多有益的探索,但迄今为止,其病因仍不是很明确. 我们采用病例对照研究方法,探讨妊高征的影响因素,为有针对性地做好孕前及孕期保健、提高监测和干预效果、减少妊高征的发生风险提供科学依据.
1对象和方法
1.1对象取吉安市多家市级和县级医院200401/200506 2121名孕妇的病历资料,年龄18~46(平均26.4±3.9)岁. 其中妊高征患者147例,总患病率为6.9%. 在所有妊高征患者中,轻度妊高征82例,占55.8%,中度38例,占25.8%,重度27例,占18.4%. 按是否有妊高征分成病例组和对照组,妊高征的诊断均须符合200012乐杰主编的《妇产科学》第5版所制定标准[3].
1.2方法采用成组设计的病例对照研究方法,采集病例组和对照组研究因素的暴露情况. 资料收集完成后,对所有变量进行编码定义,若为多分类变量则在分析时预处理为哑变量. 利用电脑统计软件SPSS10.0作单因素Logistic回归分析,筛出具有统计学意义(P
2结果
2.1单因素分析以是否有妊高征为因变量(有定义为1,无定义为0),各研究因素为自变量分别引入单因素Logisitc回归方程. 由于季节为无序多分类变量,分析时以冬季为参照,形成4个哑变量. 结果显示,孕妇为国家干部、子女数、孕妇体质量、Hb,多胎妊娠、死胎死产史以及季节与妊高征之间存在关联,具有统计学意义(P<0.05,表1).
表1妊高征影响因素的单因素Logistic回归分析结果(略)
2.2多因素分析为排除混杂因素的影响,将单因素分析中具有显著意义的变量同时引入多因素非条件Logistic回归模型,采用前进法的最大似然比检验,选入变量的概率标准为0.05,剔除标准为0.10. 最终进入主效应模型的变量为死胎死产史和季节(表2). 随后对这两个变量的交互作用进行分析,未引出交互作用项(P>0.05),即这两个变量为妊高征的独立影响因素,其中死胎死产史为危险因素,而秋季为保护因素.
表2妊高征影响因素的多因素Logistic回归分析结果(略)
3讨论
从单因素分析可以看出,孕妇为国家干部、孕妇体质量较大、多胎妊娠、有死胎死产史者较易发生妊高征,而子女数较多、Hb大以及秋季为妊高征的保护性因素. 随后的多因素分析显示,最终进入多因素主效应模型的变量为死胎死产史和季节,是妊高征主要独立影响因素.
死胎死产史与妊高征的发生正相关,其发生风险远高于其他孕妇. 多因素分析显示其A值达21.903,可见要有效防止妊高征,有死胎死产史的孕妇应是重点监测对象之一,须注意加强产前检查. 但该A值95%可信区间有些偏宽,因此该值尚不够稳定,其原因可能是有死胎死产史的孕妇例数偏少所致,这有待于今后扩大样本作进一步的研究. 本研究表明,季节对于妊高征的发生有明显影响. 本研究的结果是以冬季为参照的,显然在秋季妊高征的发生率较低,与冬季有显著差异(P<0.05). 为进一步了解其它三季之间的关系,再以春季为参照,分析结果显示春、夏、冬三季之间差别不明显(P>0.05). 一般认为[3],全身小动脉痉挛是妊高征的病变基础,冬春季节天气寒冷,小血管容易出现痉挛紧张,血压升高,从而诱发妊高征. 而夏季气温高,出汗多,血液及尿液浓缩,尤其中暑时,肾血流量减少,肾小球滤过率下降,出现蛋白尿,因此也是妊高征的诱发因素之一. 相对而言,秋季气候凉爽,既不特别寒冷,也不特别炎热,,血管较少出现剧烈应激,从而有利于降低妊高征的发生风险.
【参考文献】
[1] 赵伟,王建华. 妊娠高血压综合征的筛检及相关危险因素的研究[J]. 中华流行病学杂志,2004,25(10):845-847.
[2] Chappell LC, Seed PT, Briley AL, et al. Effect of antioxidants on the occurrence of preeclampsia in women at increased risk: A randomized trial[J]. Lancet, 1999,354:810-816.
统计学变量的定义范文3
关键词:二分类变量;logistic回归模型;职业农民;培育意愿;分析
中图分类号:G725 文献标志码:A 文章编号:1673-9094-C-(2013)12-0048-03
随着中国农业现代化进程的不断推进,职业农民在农业生产和经营过程中必将发挥更大的作用,将更多的农民培育成为职业农民是促进农业持续健康发展的必由之路。[1]课题组对658位江苏农民进行了抽样调查,讨论其接受职业农民培育的意愿,旨在为职业农民的培育提供参考依据。
一、样本选择与变量定义
课题组共发放调查问卷658份,涉及江苏省姜堰市、沭阳县、滨海县、兴化市、盐城亭湖区、盱眙县等6个县(区、市),收回有效样本问卷600份,形成600份基本样本资料,在此基础上进行统计分析。
根据调查问卷中涉及的相关内容,定义自变量和因变量含义与标示,确定其取值区间。由于统计的趋向目标是农民接受职业农民培育意愿,因变量y为二分类变量,即无意愿和有意愿,分别定义为y=0和y=1,设定因变量区间范围(0,1),根据其概率预测培育价值。[2]自变量的定义与标识见表1。
二、模型选择
二分类变量回归模型应用Binary logistic过程实现,logistic回归函数为:
P:意愿概率,是关于参数β0、β1…βn的非线性函数,符合一个标准的logistic分布;
Xi:影响因素。[3]
与最小二乘法不同的是,这里参数估计不存在精确解,只能通过迭代法获得估计的数值解。
三、自变量对因变量影响趋向预测
据实践经验,在自变量Xi正向取值条件下,预测因变量y变化趋向,具体见表3。
四、结果与分析
应用SPSS13.0,顺次执行Analyze/Regression/BinaryLogistic命令,生成表4-6。
表6为logistic回归模型的拟合结果,表格从左至右含义依次是,系数值(B)、标准误(S.E.)、卡方值(Wald)、自由度(df)、相伴概率值(Sig.)、系数(B)返回e的n次方值Exp(B)。在Step 3后进入模型的自变量包含6个,分别是:受教水平(X2 sjsp)、培训期望(X4 pxqw)、培训主体(X6 pxzt)、培训时间(X7 pxsj)、培训地点(X8 pxdd)、培训费用(X9 pxfy)、常数项(Constant),其p(Sig.)﹤0.05,说明各自变量及常数项的系数都具有统计学意义。另外4个自变量未进入模型,说明对培训意愿模型的贡献率不显著。6个自变量对因变量的影响趋向符合经验预期,其中培训费用(pxfy)的系数值为0.591,比其他各项系数绝对值都高,说明其对培训意愿的影响最为明显。
五、模型确定与意义解释
根据表6的统计结果,确定二分类变量logistic回归模型下农民接受职业农民培育意愿概率模型为:
选取20个样本的6个自变量对上模型进行检验,结论符合经验理论,可以利用该模型估计农民的意愿概率。对于培训过程中农民培训价值的群体性衡量,可根据培训总量择概率相对较高的群体作为培训对象,也就是说模型只给出了概率相对值。若以概率水平为基础确定培训标准,可随机确定一个样本的自变量取值,以此作为衡量标准。如取一样本,其X2=4(初中),X4=4(提高技能),X6=4(政府培训),X7=2(培训7天),X8=1(在村培训),X9=3(政府负担费用),其p=0.7943,群体中p≥0.7943的样本认为具有培育意愿,可作为培育对象。
参考文献:
[1]吉文林.倾力培植江苏职业农民[N].新华日报(思想版),2011-09-06(B07).
统计学变量的定义范文4
关键词:计量经济学;定义;科学性;不精确性;局限性
一、计量经济学的含义
1.计量经济学的早期含义
在17世纪时期,计量经济学第一次在戴夫南特和金的研究中出现,但当时,计量经济学这个专业术语并未出现,直到挪威的一位名叫弗里希的经济学家在其发表的论文中提出了计量经济学的概念。计量经济学表示经济学和数学以及统计学的有机统一。在研究中发现在统计学和数学以及经济学的相互关系中存在着一种规律,发现这个发现的发现者将其命名为计量经济学。计量经济学是对理论政治以及纯经济学的主观抽象法则进行试验和数据检验并由此来将纯经济学最大化的成为严格意义上的科学。1933年,计量经济学会将计量经济学定义为:通过经济学与数学以及统计学的有机统一,以实现经济问题理论定量与经验定量相统一的目标。这个定义表现了计量经济学是由统计学数学以及经济学共同组成的,缺一不可。我们不能简单地理解为是数学在经济理论领域的应用,也不能笼统得以为是经济理论问题的简单统计,只有将三者构建在一起才能发挥出特定的效力。
2.计量经济学的现代含义
由于计量经济学的早期目的在于科学化经济理论研究,因此在随后的经济理论研究方法的不断拓展完善中,计量经济学的含义也随之发生了改变。其定义变的更加具体也更加具有内涵。第一种定义认为:“计量经济学是利用统计学和数学的方法来分析经济学理论数据,将经济学的经验理论包含在内一起分析,通过分析来证明经济理论的正确与否。”第二种定义认为:“计量经济学的目标是建立经济模型来分析经济学中的变量之间的相互关系。通过模型来确定当一个变量发生变化时对其他变量会造成多大影响。使用数学和统计学的方法工具来解决发生在经济和社会中的变量变化问题,并引导人们对此类问题分析和了解并解决。小结:发展至今,计量经济学已经成为经济学的重要分支学科,但其基础和目标并未有多大改变。还是将经济学和数学以及统计学三者合一共同解决和推断经济理论假设的实证研究。不管是哪一门学科都可分为理论和应用两个方面。因此,计量经济学也可分为理论计量经济学和应用计量经济学。自2008年爆发的经济危机,其后果影响至今。作者认为这不一定是计量经济学的理论研究问题,其可归结于应用计量经济学的问题。由于人们对计量经济学的滥用和理解的不透彻所以才无法从理论计量经济学中找到问题的解决办法。
二、计量经济学的特性
计量经济学是经济学的重要分支学科。可以说计量经济学是经济学的独特一面。计量经济学科学性的标志在于其严谨的数学方法逻辑性和正确指向性的统计推断。当然,对于计量经济学科学性的质疑也从未间断过。凯恩斯认为计量经济学是“统计的炼金术”,“蹩脚的魔术”。他认为计量经济学到目前为止还算不上科学的研究方法。为此作者统计出了科学标准并表现了计量经济学的科学性。
1.计量经济学的科学性
首先,科学哲学标准为:逻辑实证主义科学标准:其核心是事物的可证实性。包括维也纳学派的逻辑实证主义和柏林学派的逻辑实证主义以及“亨善尔”逻辑主义。证伪主义科学标准。这种证伪主义的基本出发点是证实和证伪之间的逻辑不对称。凡是可以被证伪的那就不是科学的。其次,我们可以在计量经济学中发现逻辑实证主义的特性:重视证实,观测,反对因果关系的存在,反对理论实体。从计量经济学中我们更能找到证伪主义科学标准的影子,计量经济学的作用就在于对原有的经济理论或问题进行模式分析,不断假设推断,通过证实和证伪发掘出解决实际问题的方法。在这一方面充分体现了在计量经济学中证伪主义科学标准的存在。
2.计量经济学的不确定性和局限性
首先,计量经济学具有不精确性。其实这是一件无可厚非的事。从基础来源上来看,庞大的经济数据本身就具有不精确性,通过计量经济学的研究也只能得到一个近似的结果。通过计量经济学的方法研究,我们能得到一个理想的世界,但未来是否真是如此还有待商榷。统计学也是计量经济学的构建者之一,这决定了计量经济学的研究结果是一个随机事件,是否得到想要的结果还需要共同的努力,这与计量经济学的科学性并未冲突。其次,与其它学科一样,在计量经济学的科学性和不精确性之外还有其局限性。从研究方法上而言,计量经济学的研究方法是经验实证的模型方法。这既是计量经济学的科学性和不精确性所在也是其局限性所在。从经济学的语言层面而言,以统计学和数学为基础的计量经济学的经验实证的模型语言有着其自带的局限性。计量经济学中证伪主义科学标准的存在的气息太重,这种以不平衡的逻辑为出发点的方法论决定了计量经济学的局限性。
三、结论与展望
时代在进步,人民富有了,消费提高了,伴随的经济危机也爆发了。经济危机的爆发更加重对计量经济学的质疑。无法准确预测经济危机的到来,在解决经济危机上的能力不足都存在于人们疑惑中。从上文的分析中我们可以得到这样的结论:“计量经济学的研究方法为解决经济问题提供了模型,在此模型中我么能够看到理想的世界,能够正确预测经济的走向,但是计量经济学中的统计学成分决定了其理想结果之外还存在其他结果。我们应当做的事理解透彻计量经济学并不滥用。计量经济学的科学性证明其是科学的方法。如果我们能够理解经济领域中变量的变化以及影响的大小并知道如何避免这种情况的发生或有制定对策,那么应该会有效的应用计量经济学。
参考文献:
[1]洪永激.计量经济学的地位、作用和局限.经济研究,2007(5):139-156.
[2]Frisch,1993,editorialEconometrica,pl.
统计学变量的定义范文5
一、基于SPSS的统计学课程框架
传统统计学课程框架是典型的学科中心课程,其特征是将课程内容按知识的逻辑结构关系组织在一起,追求知识的完整性、系统性,强调知识的传授、信息获得和记忆,忽视对学生的技能训练,难以达到将理论用于实践的目的。SPSS在教学上的应用,给我们改革统计学课程提供了契机。新课程教学模式可概括为:以统计软件SPSS作为教学平台,以数据收集+统计学基本原理和思路+数据处理软件为核心。课程理念凝炼为“略去证明、讲清原理、依托软件、突出实用”十六字方针。具体表现在:(1)理论讲授着重“讲清基本原理,略去繁难的证明”,可分为数据搜集、数据整理、描述统计、统计指数、相关与回归等模块。统计学理论的讲授以“必需够用”为原则。(2)上机实践环节强调“依托SPSS,突出实用”,要求学生熟悉SPSS的操作基本流程:打开数据文件、确定统计程序、指定统计变量、解释统计结果。采用多媒体教学手段,以计算机软件为主要教学工具。着重培养学生的实践操作技能,突出体现职业教育的技能性、应用性。课程改革目标是培养学生在专业领域中的数据分析能力,具体包括两个方面的内容:在掌握统计基本原理的基础上,培养学生的理性;以统计软件为依托,以专业典型数据分析任务为载体,培养学生的应用性。课程框架的特点不是介绍理论统计学的数学原理,而是侧重阐述统计方法的思路与思想,并辅以大量经济与管理的实例,通过SPSS统计软件实现具体统计步骤。SPSS软件是教学平台,整合各方面因素以有利于学生数据分析能力的培养。
二、统计学课程载体的选择和实现
有人认为课程载体是:“只要它能为你的教学目标服务,能承载你的教学内容,具体的存在物,载体是一个可望又可及的目标,在它被完成后,学生往往会有强烈的成就感。”选择课程载体有六个原则:承载课程教育目标;涵盖完整工作过程;涵盖后续岗位所需的职业素质要求;涵盖技术文档制作;涵盖成本核算;涵盖过程考核与综合考核。我们认为统计学课程载体就是承载一定职业能力的任务或项目,学生通过完成任务或项目,养成数据分析能力。课程载体的选择必须在专业典型工作任务或项目中寻觅。不同专业的统计学课程基本理论可以一样,但其课程载体必须体现不同的专业性。以会计专业统计课程为例,学习描述性统计分析时,以上市银行一些重要财务指标的会计信息与股票价值相关性研究为载体。
第一步,搜集数据。学生分小组搜集20~30家上市的金融银行类股票一定时刻的股票价格、流动比率、净资产负债比率、固定资产比率等财务指标。
第二步,数据录入。打开SPSS软件,进入“变量视图”,定义好变量。切换到“数据视图”中输入变量的具体取值。
第三步,确定统计程序。点击“分析”、“描述统计”、“描述”,打开“描述性”对话框。第四步,指定统计变量。将“流动比率”、“净资产负债比率”等选入“变量”列表。单击选项按钮进入“描述:选项”对话框,如图1所示。第五步,结果解释。结合统计学知识和专业知识,学生可从平均股价、净利润等统计指标看我国银行业经营状况。会计专业学生通过SPSS完成上述任务,加深对描述统计理论知识的认识,也与未来工作中的典型任务相结合,体现了统计学课程的技能性、应用性。区别于传统模式,改革后的统计学课程由不同的任务或项目组成,用SPSS加以实现。
三、SPSS对统计学课堂学习的影响
1.产生了新的教学要素
应用SPSS软件以前,学生需要直接面对各种数据,至多借助计算器完成计算。SPSS为统计学课程提供前所未有的技术支持,在人和数据之间产生了一个“新界面”。SPSS的作用不仅仅是工具意义,它其实作为一个新的教学要素参与教学。SPSS引起了教学方式和教学价值观的深层变革。SPSS与统计学课程的整合营造出信息化教学环境,在此环境里,形成“自主、探究、合作”为特征的教与学方式,极大激发了学生的主动性、积极性、创造性。
2.促进了学生自主学习
何克抗教授曾强调,“建构主义的教学设计主要有两大部分:一是学习环境的设计,二是自主学习策略的设计”。SPSS极大改善了统计学的学习环境,也为学生自主学习策略的设计提供更广阔的空间和可能性。采用SPSS平台学习统计学,可有效简化统计过程。数据输入、整理、选择统计功能、结果解释、预测、图形输出等对学生都不是难事。而且,计算机特有的模拟和动态演示功能,使统计学的抽象理论变得直观、具体、形象,从而增强学生对概念的理解。建构主义坚持“做中学”的学习观,其实可区分为两种类型:“学中做”的自主学习和“做中学”的自主学习。在统计学课程学习初期为“学中做”,教师“教”的比重要大一些,课程载体的选择要有一定的广度;学习后期为“做中学”,学生“学”的比重要大一些,课程载体的选择要有一定的深度。
3.出现了新的问题
首先,提高统计学课程的师资水平。授课教师应该熟悉所教专业的典型工作任务,开发适合统计课程的合适载体,根据社会需求调整统计知识内容范围。受课程标准的限制,当前讲授的统计知识内容主要围绕描述统计和推断统计,一些多元统计方法(聚类分析、主成分分析、因子分析等)在课堂上很少涉及。
统计学变量的定义范文6
1变量聚类结果的统计学含义
在麻氏等[2]分析的胆病数据中,症状变量全部是二值的。分析所得的变量类之一如下。
类1:发热寒战、右上腹压痛拒按、黄疸、恶心呕吐、右上腹疼痛、大便秘结、小便色黄、苔黄、苔腻、脉滑、脉弦、口苦。
本节以这个类为例,剖析系统变量聚类结果的含义。要准确把握这个类的含义,需要考虑3个因素,即“变量”与“事件”这两个概念的区别、变量间相似系数的定义以及变量类间相似系数的定义。下面逐一讨论这3个因素。
1.1变量与事件
变量是刻画事物某方面特征的指标,它的每一个取值对应一个事件。先拿概率论中常用的抛掷硬币试验为例来解释这两概念。抛掷硬币试验可以从多个方面来看:使用的硬币是否质地均匀、抛掷方式如何、抛掷结果是什么等等。“抛掷结果”这个指标刻画试验一个方面的特征,因此它是一个变量。这个变量有两个可能的取值,即“正面朝上”和“反面朝上”。于是有两个事件,即“抛掷结果正面朝上”和“抛掷结果反面朝上”。
接下来看一个中医的例子。“有无口苦”是反映患者身体一个方面特征的指标,因此它是一个变量,称为症状变量。它有两个可能的取值,即“有”和“无”。于是有两个症状事件,即“(患者)有口苦”和“(患者)无口苦”。如果要考虑不同轻重程度,相应的变量是“口苦程度”。一般情况下,程度变量有4个可能的取值,即“无”、“轻”、“中”和“重”。于是有4个症状事件,即“无口苦”、“有轻度口苦”、“有中度口苦”和“有重度口苦”。为了统一二值和多值情况下症状变量的称谓,可以用“口苦情况”来替代“有无口苦”和“口苦程度”。
“有口苦”这个词通常被简化为“口苦”。同时,“口苦情况”也被简化为“口苦”。这样,“口苦”时而指“口苦情况”这个变量,时而又指“有口苦”这个事件。在下一节读者将会看到,这种歧义性造成了对变量聚类结果之含义的误解。
顾名思义,变量聚类的对象是变量而不是事件,其结果是变量的类而不是事件的类。所以,类1的成员是“口苦情况”等症状变量,而不是“有口苦”等症状事件。为了避免误解,我们把类1的定义改写如下。
类1:发热寒战情况、右上腹压痛拒按情况、黄疸情况、右上腹疼痛情况、恶心呕吐情况、大便秘结情况、小便色黄情况、苔黄情况、苔腻情况、脉滑情况、脉弦情况、口苦情况。
1.2变量类相似系数
“口苦情况”等12个症状变量为什么会被聚成一类呢?它们被聚成一类这件事的含义是什么?一个粗略的回答是,这意味着“口苦情况”等12个症状变量之间的相似度高。如果要准确回答这个问题,则需要考虑如何基于变量之间的相似系数定义类之间的相似系数。
常用的方法有最大相似系数法、最小相似系数法和平均相似系数法。在计算两个类A和B间的相似系数时,考虑A中变量与B中变量间的相似系数。最大相似系数法取其最大者,最小相似系数法取其最小者,而平均相似系数法取平均数[2]。
如果类1是用最大相似系数法获得的,那么对类中任意一个变量V,类中有另外一个变量U使得V和U间的相似系数不低于某个阈值。如果类1是用最小相似系数法获得的,那么类中任意两个变量间的相似系数不低于某个阈值。如果类1是用平均相似系数法获得的,那么类中变量间的相似系数的平均值不低于某个阈值[2]。
上面提到阈值是怎样决定的呢?在获得类1的过程中,需要合并多对变量类,而每对类之间都有一个相似系数。这些相似系数的最小者就是上面说的阈值。一般说,最大相似系数法的阈值最大,平均相似系数法的阈值次之,最小相似系数法的阈值最小。
1.3变量相似系数
变量间相似系数的高低的直观含义是什么?这个问题的答案依赖所选用的相似系数是什么。相似系数有各种各样的类型[2]。作为例子,这里只讨论Jaccard相似度和相关系数。
Jaccard相似度只适用于二值变量。下面用一个例子来说明它的定义和直观含义。用d记脉弦和口苦同时出现的样本数,b记脉弦出现而口苦不出现的样本数,c记脉弦不出现而口苦出现的样本数。“脉弦情况”和“口苦情况”这两个变量的Jaccard相似度定义为d/(b+c+d)。Jaccard相似度的取值在0~1之间,可以视为是症状出现的“同步率”。它的值越高,脉弦和口苦出现时的“同步率”就越高,即脉弦和口苦的出现更接近如下情况:要么两者都不出现,要么两者都出现。
相关系数是统计学中用来度量数字变量间关联程度的一个指标。如果把症状的出现表示为1,不出现表示为0,那么就可以定义“脉弦情况”和“口苦情况”间的相关系数。相关系数的取值在0~1之间。当两个变量的可能取值相同时,它们之间的相关系数也可视为是一种“同步率”。“脉弦情况”和“口苦情况”间的相关系数越高,脉弦和口苦同时出现或同时不出现的次数也就越多,反之亦然。
1.4类1的含义
在分析数据时,麻氏等[1]用的是SAS软件。由于他们未提及软件设置,所使用的变量相似系数应该是SAS默认的Jaccard相似度,而所使用的变量类相似系数应该是SAS默认的平均相似系数。所以,类1是一个由口苦情况等12个症状变量组成的集合,其含义是这12变量两两之间的Jaccard相似度平均不低于某个阈值,即口苦等12个症状两两同步出现的频率平均不低于某个阈值。
2证候的含义
证候是一个具争议性的概念。但是,在诠释变量聚类结果时人们所使用的证候其意义基本是统一的、清楚的。例如,在把类1诠释为肝胆湿热证时,“肝胆湿热证”对应由口苦等12个症状(事件)组成的症状群,其意义如下:①如果这些症状全部(或其大多数)在某患者身上同时出现,那么该患者有肝胆湿热证;②如果这些症状中许多不在一患者身上出现,那么该患者无肝胆湿热证。
3变量聚类结果的诠释
现在我们以类1为例来讨论变量聚类的诠释问题。在文献[1]中,类1被诠释为肝胆湿热证。这是由于类1被认为是由“有口苦”等12个症状事件组成的集合,进而其意义被理解为口苦等12个症状同时出现。在把类1诠释为肝胆湿热之后,进一步得出结论:肝胆湿热证是肝胆病中的中医证候之一。这就是说,肝胆湿热证存在于研究涉及的739个样本中,即有一部分样本同时包含口苦等12个症状或其大多数。为方便讨论,我们将这一段文字涉及的几件事按逻辑顺序整理如下:①把类1认为是由“有口苦”等12个症状事件组成的集合;②把类1的意义理解为口苦等12个症状同时出现,从而把它诠释为肝胆湿热证。③在②的基础上,得出肝胆病中有肝胆湿热证的结论,即有一部分样本同时包含“口苦”等12个症状或其大多数。
根据第2节的结论,类1是症状变量的集合而不是症状事件的集合。所以,上述第1步是不正确的。再根据第2节的结论,类1的意义不是口苦等12个症状同时出现。实际上,句子“口苦等12个症状同时出现”本身是一个病句。显然,口苦等12症状不可能在每一个样本中都同时出现。那么它们究竟在哪些样本中出现呢?句子没有指明,因此意义不清。所以,第2步也是错误的。最后,第3步从“口苦等12个症状同时出现”这个含义不清的命题推出“有一部分样本同时包含口苦等12个症状或其大多数”。这是不合逻辑的。
上述三步都有问题。那么有没有可能不通过它们,而直接从类1的含义出发得出“有一部分样本同时包含口苦等12个症状或其大多数”这个结论呢?回答是否定。类1的含义只是说口苦等12个症状两两以一定频率在样本中同时出现。这并不意味12个症状同时出现在某些样本中。在逻辑上,从两两双边关系是无法推出多边关系的。打一个比方:青年A与一对好朋友B和C谈三角恋爱,A和B常常一起出现,A和C常常一起出现,B和C常常一起出现,但这些并不意味着他们三人会同时出现。
上面的讨论以文献[1]为例。但是,所指出的问题是其它用变量聚类研究证候分布工作共有的。问题的根源在于研究目的与研究方法不匹配。这些工作是要通过分析一组关于西医某病种的样本,揭示该病种中中医证候的分布规律,这其实是揭示该组样本中中医证候的分布情况。简而言之,这就是要揭示样本某方面的特征和性质。变量聚类方法只考虑变量间的关系,完全不分析样本的特征和性质。既然如此,它又怎么能揭示样本中中医证候的分布规律呢?
4结束语
变量聚类所得到的不是症状事件的类,而是症状变量的类,其含义不是一些症状同时出现于一些患者,从而不能诠释为证候。变量聚类不分析样本的特征和性质,从而不可能揭示证候在样本中的分布规律。
参考文献: