统计学变量的分类范例6篇

前言:中文期刊网精心挑选了统计学变量的分类范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。

统计学变量的分类

统计学变量的分类范文1

本书共有10章:1.简要介绍了本书的读者对象、使用方法、组织架构等;2.统计基础,对统计方面的基础理论知识展开详细描述,包括统计思维、数据格式、绘图方式、概率分布等;3.统计推断,讲述了参数点估计、假设检验、总体样本、人口分布的概率图和测试及蒙特卡罗模拟等;4.统计模型,包括模型简介、回归模型和实验设计分析等;5.多变量统计的基础,主要包括多变量随机抽样、多变量数据可视化、样品几何形状、广义方差等;6.多变量统计推断,包括平均向量推论、两个总体的均值矢量比较、方差-协方差矩阵的推论等;7.主成分分析,主要讲解其定义和性质、停止规则、残差分析、统计推断等;8.典型相关分析,描述数学公式、实际应用、典型相关回归等理论;9.判别和分类,主要包括两个或几个总体分类和空间平滑的分类分析;10.聚类分析,包括相似和非相似方法、层次和非层次聚类算法等。

本书强调几何直观的概念理解,所有的例子都比较简单,并提供背景解释。贯穿全书的习题集和解决方案包含部分数值计算结果,读者可以方便地确认自己方法的准确性。

本书是成像科学多变量统计学课程中一本非常优秀的图书,适合本科和研究生阅读。该书也可为从事成像、光学和光电子学领域每天需要进行数据处理分析的专业人士提供有价值的参考。

Peter Bajorski博士是罗切斯特理工学院统计学系的副教授,他在统计学研究领域包括回归技术、多变量分析、实验设计、非参数方法和可视化方法等,成像研究包括光谱图像目标检测等。

聂树真,

助理研究员

(中国科学院光电研究院)

统计学变量的分类范文2

关键词:生态消费;城市居民;识别

中图分类号:F713.55文献标识码:A文章编号:1001-8409(2013)01-0074-06

“生态消费”作为可持续消费、绿色消费、适度消费等术语的同义语,其所倡导的理念及行动准则已成为包括我国在内的世界各国和地区的核心政策目标,而实现这一目标在实践上的具体要求就是提高居民的生态消费水平。寻找一个真正有效的提高生态消费水平的办法,首先要做的基础工作是将消费者进行识别分类,研究哪些消费者更趋向于进行生态消费,并对各类消费者的社会人口统计学特征、心理学特征、社会价值观和环境价值观、家庭内部生活习惯等各方面特征加以对比分析,找出其差异性,才能有针对性地提出对策建议,有效地提高居民生态消费的整体水平。

一、文献回顾

学术界对生态消费的关注源于对环境主义者消费模式的研究,这一领域的研究主要是从消费者的环境和社会价值观、社会人口统计学特征及心理学变量等方面因素对消费模式的影响展开的[1,2]。长期以来,国内外许多学者从社会人口统计学特征对生态消费行为做过大量的研究,包括年龄、性别、收入、教育、职业等变量[3~5]。尽管研究所得出的结论不同,但社会人口统计学特征却是研究并识别生态消费者的重要变量之一[6]。已有的研究多侧重于对消费者生态消费行为的影响因素进行实证研究,而鲜有对生态消费者的识别及其特征进行系统研究。本文研究的主题是城市居民生态消费者的识别。利用对哈尔滨市居民的问卷调查获得的数据,本文分3个步骤开展研究:第一步,通过因子分析确定生态消费行为识别的依据;第二步,通过聚类分析对消费者进行分类并识别生态消费者;第三步,分别从社会人口统计学特征、社会和环境价值观、心理学特征3个方面分析不同类型消费者的特征。

二、数据来源

本文的数据来自于对哈尔滨市居民的问卷调查,调查时间是2009年5月。调查人员在哈尔滨中心城区(包括南岗区、道里区、香坊区和道外区)的百货商店、超市、建材市场、居民小区等人流密集区对单个消费者随机发放调查问卷,共发放调查问卷1000份,全部收回后获得有效问卷952份,问卷有效率为95.2%。

统计学变量的分类范文3

关键词:客户流失 扩展RFM模型 人口统计变量 二元logistic模型

一、引言

随着外资银行的进入以及网上银行和电子金融的发展,银行面临着来自国内外同行业以及非同行业更加激烈的竞争,客户忠诚度越来越低,进而导致客户流失率越来越高。客户流失直接关系到银行的发展前景和市场竞争力的强弱。因此,综合相关因素来分析如何减少客户流失对于银行来说有着重大的意义,直接关系到商业银行在本行业中竞争的优势地位。当前,众多学者对客户流失进行了研究。徐草、李敏(2010)针对移动用户的情况,在传统的贝叶斯分类器的基础上通过模糊算子法,将用户满意度转换成模糊数,再通过相关计算化为精确数,提高了模型预测的正确性。翟顺平、朱美林(2008)利用神经网络错误率低对数据的噪音有很强的承受能力等特点建立起SOM客户流失预测模型,为客户保持提供决策支持。钱苏丽、何建敏、王纯麟(2007)在建立支持向量机模型的客户流失预测模型的时候由于考虑到代价敏感学习理论,并对模型进行改进,改进之后的模型与原来的相比预测的正确性以及稳定性都得到了提高;蒋国瑞、司学峰(2009)通过与传统的SVM和ANN对比分析,最终得出基于代价敏感SVM的电信客户流失预测研究在精确度、命中率、覆盖率上均有所改善,并且解决了数据集的非平衡性的问题,是有效的预测方法。Chih-Fong Tsai, Yu-Hsin Lu(2009)通过合并比较两种不同的神经网络混合模式,对所测试的数据集进行筛选并对模型验证,得出人工神经网络和人工神经网络模型与其他混合模型相比表现出明显的优势。Cataldo Zuccaro(2010)通过人口统计学特征,比较二元logistic回归分析、人工神经网络、决策树等方法,分析结构性特征对各种模型的分类以及正确率的影响。本文的目的在于通过分析现有的客户的历史数据,对客户的交易特征和人口统计特征进行分析,并利用数据挖掘技术中logistic回归分析的方法,通过相关软件预测出流失的群体,从大量的客户数据中找出内在规律性,预测出将来流失的客户,从而根据分析得出的结论,采用针对性的措施针对目标客户进行挽留。

二、研究设计

(一)变量选取 传统的RFM指标体系主要是依据客户的最近交易日、交易频率、交易金额来判断该客户是企业的黄金客户还是潜在客户或是即将流失的客户。RFM模型由于其思想比较简单,又能刻画客户的交易行为,因此很早就在许多公司中获得了应用。但是,理论界对此的关注却大大晚于实务界,直到信息技术的发展使得数据库营销技术得到大力发展的时候,该模型才开始得到广泛的研究和应用。考虑到RFM模型较为简单,本文采用RFM模型并结合人口统计变量作为商业银行客户流失预测指标。样本数据中的因素包括离上次购买的时间间隔、每月的消费金额、购买的次数、是否有小孩、性别、年龄。在模型建立前因变量与各个自变量之间的关系还不确定,所以首先将各个变量都看成是因变量的影响因素,通过软件计算出各变量的偏回归系数,以及显著性检验水平检验剔除那些不符合模型的变量。剔除那些没有统计学意义的变量之后再用逐步回归的方法,得出自变量与因变量之间的关系。例如根据常识,客户去某一银行的频率越多那么他流失的可能性较小;再如客户是否有小孩对客户流失有何影响,假设有小孩的客户他们一般不会轻易地改变,选择某一家银行服务之后长时间内不会改变他们的选择,那他们流失的可能性就比较小。假设的自变量和因变量之间的关系如图(1)所示。其中"+"表示自变量和因变量之间是正相关的关系,“—”则表示因变量和自变量之间是负相关的关系。在上文中,只是各个自变量于因变量之间关系的一种假设,所以相互间的关系仍然存在疑问,其间的关系还有待模型的检验。

(二)预测模型构建 根据上述原理建立基于 ERFM和二元logistic客户流失预警模型如下

根据上文建模的原理,P为客户是否流失的概率的大小,?茁i是各自变量对因变量的回归参数,可以用来判断自变量和因变量之间是正相关还是负相关的关系。Recency:最近购买时间间隔;Amount:交易的金额总数;Frequency:交易频率;Has_Child:是否有小孩,有几个小孩;Gender:性别;Age:年龄。

(三)样本选取和数据来源 模型建立以及检验中所涉及的数据来自《基于多元统计和DM的商业银行客户价值管理体系研究》(项目编号:09SJD630006),客户数据主要包含如下信息:客户身份证号、上次购买的时间间隔、购买的次数、消费总额、性别、年龄、客户的反应。客户的反应(流失)是一个二分类的变量,分别为0和1,1代表客户未流失,0表示客户流失。样本数据中包括的其他因素用于构建模型,通过模型确定它们各自对客户流失的影响。数据集中一共包括4500个样本数据,删除年龄有缺失的客户数据。符合要求的共有3334个数据,用于模型的建立和检验。其中有2000份数据将用于构建logistic模型,其余的约1334份数据则会用来检验模型的正确率。

三、实证检验

(一)描述性统计 具体数据描述性统计如表(1)所示。样本中包括3334个数据,其中包括最大值、均值、标准差、偏度等分析。以购买次数(频率)为例:在观察期间内,极差、最小值、最大值分别为99,2,101,均值为11.10,标准差为9.387,偏度系数和峰度系数分别为11.265,0.085,由此可以得到,所有客户购买次数的平均值为11.10,购买的次数范围在2次至101次之间变动,标准差为9.387。由于性别只分为男性和女性,它不同于其他的变量因为它不是连续的,在这里将它和客户是否流失一样视为二分类变量。表(2)为每个性别在总样本中的数据所占的比例,观察可得男性人数为2394人占总数比例的71.8%,女性占其余的940为女性。

(二)回归分析 将数据输入在SPSS软件中,进行初步分析其结果如表(3)所示。可以发现:(1)检验各个自变量有无统计学意义。由表中可得到在0.05检验水准下,Recency、Frequency、Gender、Age具有统计学意义,而Amount(其偏回归系数为0)、Has_Child(0.671>0.05)则无统计学意义。也就是说离上次购买的时间间隔、去银行的频率、性别、年龄具有统计学意义;每月的消费金额和是否有小孩则无统计学意义。(2)根据每个自变量对应的exp(z)以及OR的意义,可以计算各个自变量的变动对模型的结果的影响程度。例如,是否有小孩的OR估计值=exp(b)=0.997,也就是说,也就是在其他自变量值固定的情况下,客户有小孩时,相应的客户流失优势比的自然对数值为0.998。但是经检验的P=0.671>0.05,说明这种统计趋势无统计学意义。再如Frequency对应的OR估计值exp(b)=1.051,95%置信区(1.046,1.055),也就是说在其他因变量的值固定时,Frequency不频繁的客户流失率约是频繁客户优势的1倍。通过以上的分析得到了每个变量和因变量之间的关系,前文假设离上次购买的时间间隔(Recency)、性别(男)(Gender(1))以及年龄(Age)与客户流失呈负相关的关系,购买的频率(Frequency)、是否有小孩(Has-Child)和购买的金额(Amount)与客户流失呈正相关的关系。根据所建立的模型,由于每月的消费金额(Amount)的回归系数为零,同时模型在0.05显著性水平检验下是否有小孩(Has-Child)与客户流失之间并不存在着对应的逻辑关联,即无统计学意义。同时,结合exp(z)优势比这一列可以粗略地观察出每个自变量的变动对客户流失的影响大小。最后,将购买金额(Amount)和是否有小孩(Has-Child)排除在模型之外,并且对回归方法进行选择,即采用逐步回归方法进行分析,具体操作就是将原来的回归方法由“进入”改为“向前:LR”,将Recency、Frequency、Gender、Age选入模型,从而简化最终的模型。逐步二元logistic回归分析分析结果如表(4)所示。

根据表(5)中分析可得,逐步回归模型的拟合优度比较。在第四个模型中即将Recency、Frequency、Gender(1)(女性)、年龄考虑在内的模型检验的卡方值为234.510最小,说明模型的拟合优度比较好,实际的观察值与预测值之间误差较小,正确率较高。根据逐步回归过程最终分析和模型检验的结果,将有统计学意义的变量纳入模型,无统计学意义的变量排除在模型之外,最终得到的一次模型为:

在本文中,模型检验的具体原理为:将抽取的数据在excel进行转化运算,其运算的公式就是在统计软件中计算所得的logistic回归模型。计算所得的概率P与0.6024相比较,若P>0.6024则为客户为流失;反之则是客户流失的。其检验的结果如表(6)所示。一共1334个数据被用于检验模型预测的正确率。预测未流失的客户的总数是437个,其余的897个则为流失的客户。按照P>0.6024为标准,则有315个预测的概率值大于目标值,而有100个预测值和实际的结果不同。在预测1019个流失的客户中有222个预测的情况和实际情况相反。最终计算预测模型的概率为■×100%=95.11%。由此可见该模型预测正确率比较好,能够用于未知的客户资料分析客户的行为特征。

四、结论与建议

(一)结论 本文主要是通过对客户的历史信息进行分析,对客户流失数据进行挖掘,分析隐藏在这些数据后,各种因素与客户行为之间的关系。根据logistic模型,输入客户的历史资料就可以据此预测将来流失的客户。本文的分析主要是针对人口统计特征的客户资料对于客户流失影响的研究与预测。性别、年龄、教育程度等都对客户是否选择转换银行起到不同程度的影响。根据建立的模型以及对模型验证的结果来看,logistic流失预测模型能够很好地利用客户的历史数据信息对客户行为进行预测。从最后得到的模型总结出自变量和因变量的相互关系。前文的一些假设也得以成立,例如购买的时间间隔、男性以及年龄这些自变量的偏回归系数均为负值,也就意味着它们与因变量之间呈负相关的关系。购买频率的偏回归系数为正值,与因变量之间呈现正相关的关系。其他的变量是否有小孩和每月消费的总额在模型显著性水平的检验下,与因变量之间不存在统计学意义而被剔除在模型之外。同时,也可以计算出各个变量对因变量的影响程度的大小。由于回归模型中的自变量是以不同的尺度测量的,比如:购买的次数单位是次,年龄的单位是岁。因此某个自变量中的一个单位的变化并不等于另一个自变量上一个单位的变化的影响程度,可以通过采用标准化系数比较各个自变量的影响程度。交易频率、最近交易时间、年龄、性别标准化后的系数分别为:1.85,0.032,0.00088,0.00076。即频率、购买的时间间隔、年龄、性别对客户流失的影响程度呈现递减的趋势。本文所建立的logistic回归模型,得出了自变量与因变量之间的相互关系,通过这种方法能够预测出那些易流失的客户,从而为客户流失管理工作提供有参考价值的指导意见。

(二)建议 上文根据模型得到了最终各个变量之间的关系,对于更深一步地了解客户流失提供了依据。从部门合作、部门更新措施以及从客户本身考虑现在提出如下建议:(1)开通移动银行,满足客户的需要。随着网络技术的发展,网上交易变得更加便利。因而人们增加对于信用卡功能的需求。除了传统的存取款之外还需要开通移动银行,能够在手机进行实时支付功能。例如网上购物的兴起,方便了人们购物的同时也给银行提供了创造新的金融服务的机会(开通手机银行)。在大学校园中也可以看到各大银行针对大学生群体开通手机银行这类服务,这从长远来看获得客户资源,因为他们将来也会成为信贷的主体,房贷、车贷等理财计划也将是他们未来关心的重点。(2)改善客服呼叫中心服务质量。银行一般都会设置客服呼叫中心,方便与客户进行直接的交谈。客户打电话到呼叫中心时都是遇到了一些问题,这时能否及时地解决客户的遇到的问题在很大程度上影响到银行与客户之间的关系。当这些问题出现时,要对投诉或者打过客服的客户进行及时的回访,让他们感觉到银行对于他们的问题是予以重视的,并给出确切的问题解决时间。同时还需要加强与客户的主动交流,例如VIP客户则会有自己的客户经理,客户经理定期访问客户他们遇到的问题,在客户过生日的给予适当的祝福,比较实际例如鲜花、小礼品等等,并且向客户征求他们对某些服务上的改进的意见或建议。(3)合理设置客户退出的门槛。客户流失的过程中不仅上述因素影响到客户的行为。客户在选择另外的银行服务的时候会考虑到自己的成本,除了在刚刚入行时所享受到的优惠外还有其他的奖励计划。例如开通网上银行时邮局的年费为30元/年,工行的年费为2元/月。同时客户在选择其他银行的服务时,还会考虑到新的选择能否给他带来比现在更多的收益等等,例如各家银行推出的积分回报策略,以客户消费的金额为基准,消费一元累计一个积分点。客户的每月消费金额达到一定数额时客户等级将会升级,办理业务时可以享受到更加便捷的服务。这就提高了客户退出的成本。

参考文献:

[1]徐草、李敏:《模糊贝叶斯网在通信行业客户流失预测中的应用研究》,《合肥工业大学学报》2010年第10期。

[2]翟顺平、朱美林:《基于SOM的移动通讯客户流失研究》,《现代管理科学》2008年第2期。

[3]钱苏丽、何建敏、王纯麟:《基于改进支持向量机的电信客户流失预测模型》,《管理科学》2007年第1期。

[4]蒋国峰、司学峰:《基于代价敏感SVM的电信客户流失预测模型》,《计算机应用研究》2009年第2期。

统计学变量的分类范文4

关键词: 心理统计学 哲学 方法论

一、引言

哲学是关于世界观和方法论的学说,研究自然、社会和思维的最一般的规律,在人们认识世界和改造世界的过程中发挥了重要的作用[1]。哲学在发展过程中,不仅在自身领域的研究中取得了重大进展,而且推动了其他的一些学科的诞生,如天文学、数学、教育学、美学等。统计学也当然可以归于哲学的发展框架下。因此,可以从某种程度上来讲,哲学可称为“万学之母”,抑或“元科学”。

统计学作为一门研究客体特征和规律的方法论学科,有很强的数学基础做支撑。它不但可以作为一门基础学科创造和发展理论,完善学科结构,而且可以作为一种应用型很强的学科,为人们认识世界和改造世界,进行量化研究提供强有力的工具手段。掌握好统计学,对进行科学研究,尤其是量化的科学研究必将大有裨益。然而正是由于其要求较强的数学基础,因此对于缺乏数学训练的人,尤其是文科学生来说,对统计学的掌握就可能成为一件比较让人头疼的事情,有的甚至是“谈‘统计’色变”。即使不从理论研究的深度来学习,哪怕只是在统计学的应用层面上来掌握,强调实用性,也需要费些心思,再加上没有适当的方法,就可能更加懊恼了。但是,由于哲学对统计学起指导作用,为统计科学研究和统计工作提供一般指导原则和思维方法,因此如果能将哲学中的一些方法论知识运用到统计学习中,可能会起到事半功倍的效果。

二、哲学思想的运用

哲学的众多原理和方法论都可以作为统计学习的有力指导,本文选择三方面加以阐释。

1.“从一到多”的思想,也可以称为“从简单到复杂”的思想。事物的状态有繁有简,有的表现在量的层面上,有的则表现在质的层面上。单从量的层面上来讲,就可以看到从1个、2个到3个乃至多个的变化。比如,线性回归中,从最初的回归模型中只包含一个自变量的最简单模型到后来的回归模型中包含2个甚至更多个自变量的情况,是一种从自变量的角度来观察模型由简单到繁琐的过程[2]。再比如,从t检验到方差分析的变化。t检验可以有三种情况,即单样本t检验,独立样本t检验和配对样本t检验(后两者均可以检验两个总体的均值是否有差异,只是在具体的操作过程中有些差别)。但是对于三个及以上的均值是否存在显著差异的检验,t检验则显得力不从心了(多次两两比较可能增大一类错误的概率),而方差分析则会很好地解决这一问题,因为其不仅可以处理独立样本的问题,还可以处理重复测量的问题,在很大程度上弥补了t检验的不足[3]。不难看出,从t检验到方差分析,又是一个针对平均数个数从简单到繁琐的过程。回顾上面的例子,可以对这一形式的统计方法有一个比较性的认识。首先,它们都是从一个向多个的变化过程。“多”个的发展是以“一”个的发展为前提的,换句话说,多个变量的模型要想发展,必须满足一个变量的单个模型发展所需要的假设条件。比如,多元回归要想进行就必须满足一元回归所要求的一系列条件(如正态性、连续性和方差齐性)。而方差分析若要进行也必须满足独立t检验所需要的条件(方差齐性)。如果不能满足,那么即使统计方法再先进,其科学性差的结果也是不容置疑的。其次,还要看到“多”与“一”的不同。这表现在:一方面,从前提假设方面来讲,“多”除了要满足“一”所需要的基本前提条件外,还有自己的额外要求。比如,多元回归中的多重共线性检验、多元正态分布及方差分析中的协方差分析。另一方面,从功能上讲,“多”的功能与“一”的功能既存在一致性,又存在区别,比如一元回归所能解决的问题运用多元回归也能解决,但是一个含有两个自变量的二元回归的功能却不能由分别以每个自变量作一次回归的两个简单回归的功能之和。对于方差分析,如前所述,亦不能分别进行多次两两比较的t检验来完成。了解这一思想后,在处理类似的情况时,便可以通过比较分清异同之处,查找前提条件,选用适当的方法。

2.“整体与部分的关系”的思想。整体是由部分组成的,整体是部分的整体,离开部分,整体即不会存在;部分是整体的部分,离开整体谈部分,部分也会丧失其原来的意义。这一思想要求我们要正确处理好整体与部分之间的关系。由于统计研究中经常会涉及处理多个变量的数据的情况,多变量及多层关系的情况,或是为了更好地分析事物之间的关系,通过假设将多个数据变为一个(如利用平均数来代表整组数据的信息),将几个变量合并为一个(如某一概念的结构分为了几个维度),将多个相互复杂的关系合并为一个(如结构方程及利用多元线性模型处理嵌套关系)。这就会使某些变量为了满足统计分析的需要而临时组成一个小的整体。比如,多层线性模型中,就会出现一个由不同层次的回归模型而组成的层次结构,每一层的回归模型均可看做是这一多层模型中的一部分,而且是必不可少的一部分;而由多个层次的单个模型所组成的模型又很好地囊括了每一个层次的部分[4]。然而,各个部分所组成的整体可能有各个部分单独所不具有的功能,亦即整体的功能并不是各个部分的简单相加。比如,多层线性模型中就存在每个单层的回归模型所不具有的拟合特性,能够充分发挥其模型的整体拟合优度来实现对各个层次的信息的最大限度的完美组合,而作为部分的每个层次的单一回归模型,则只能依据下一层的回归结果来考虑本层次的信息,并在一定程度上为更上一层的分析提供一定的信息基础。但就单一层次来讲,虽然可能会与相邻层次发生关系,但是绝对不可能够表现出所有层次的整体效果,即使是在层级次数很少的情况下。此外,对于模型的好坏程度的检验也是如此[5]。对于整个模型的评价,既要有整个模型的拟合优度的指标,又要求其所组成的各个部分均达到显著性水平;而对于各个部分的考察,则更多地只考察其自身的显著性即可。这一点除了多层线性模型,在结构方程处理一般概念结构时也有所体现。一般认为,如果想要证明所建构的概念(如自尊)的结构效度比较好的话,除了要使整体的结构方程的各项指标(如NFI,GFI)符合要求外,还要保证模型(概念)的各个维度也都要符合要求,甚至于对于每一层的各个项目的各项测量学指标(四度)也要符合通行的标准,因为一旦一个不符合要求的题项进入模型之中,将直接影响到维度的各项指标的要求,进而影响整个模型。而当仅仅对某一个维度或题项进行考察时,一般只对于其自身的数据所包含的信息进行分析,很少涉及其他的部分。整体与部分的思想要求我们在处理涉及模型的统计分析时,一要分清整体界限,认清整体的模型到底是什么;二要通过理论分析和数据验证,认清整体模型相对于各个部分模型的独特之处,即整体的优越性,通过模型的拟合最大限度地利用数据所蕴含的统计信息。此外,还不应忽视的一点是,对模型的整体检验,既要有对模型的整体的检验,又要包含对局部的评估,将两者综合考虑,通过比较选择出最适合的模型。

形式逻辑的研究表明[6],类属关系和整体与部分的关系是不同的。类属关系中的属相具有类项所具有的全部功能,而各类的功能则没有其属的很多功能。而整体与部分关系中的部分则不可能具有整体的全部功能,但是部分所组成的整体则具有各个部分所不具有的功能。比如,在前面谈到的回归中,一元回归与多元回归都归属于“回归分析”这一类,当然无论一元回归还是多元回归都具有探索自变量与因变量的因果关系的倾向性这一回归分析的特性,但是如果因为一元回归和多元回归乃至于其他的回归类型归属了回归分析这一类从而就使回归分析增加了很多的其他功能(如真正确定因果关系),这显然是不合适的。另一方面,由各个维度所组成的结构方程会有比各个部分更加优越的功能,但各个部分却不能够拥有这些功能(因为其分析只是基于自身数据)。弄清楚了这一点,就能够很好地区分开类属关系和整体与部分的关系,也就不至于遇到多个变量的统计分析时不知道该以何种方法论来进行指导。这样,无论是对于统计的技术分析,还是基于研究假设对技术理论的解说,都是使人受益匪浅的。

3.具体问题具体分析的方法论。统计学作为一门学科,其必有自己的知识体系。心理统计学也必然是如此。所谓的知识体系,通俗来讲,就是知识组成的方式与结构,或称“知识树”。知识体系的把握对于学好一门课程来说至关重要。当前国内外有关统计方法的书目中对统计知识体系的呈现不尽相同。有按照“从事物属性上的排他性”来安排的,比如,讲到平均数的检验时,就把三种平均数(单样本、两样本独立和相关)的检验全部呈现出来,依次讲完。也有按照东方思维方式的“功能性分类”来展现,比如当讲到方差分析时,最先侧重讲一元(one way)方差分析,之后是更复杂的两个自变量的方差分析,之后进入“析因设计”(factorial design)的方差分析,从此采用多变量方差分析(MANOVA),以考察交互作用为首要任务[7],而不是一气呵成地把各种多变量的方差分析全部讲完。诚然,每种体系具有各自的特点,不同书目有不一样的体系,甚至于对于同一本书不同章节的知识可能适合于不同的知识体系。因此,要针对不同的内容采用不同的呈现方式来构建各具特色的知识体系。

三、结语

其实,从科学的整体结构来看,哲学是处在统计学之上层的,而统计学也可以追根于哲学这一母体。因此,哲学中所蕴含的方法论思想理论理应适合于统计学这一学科的发展的指导。正如哲学中的“对立统一”观点、“质量互变理论”、“矛盾的偶然性与必然性”等理论在统计学中得到了广泛的应用一样[8],哲学的其他方法论思想也理应被吸纳到统计学学习的方法中,并将其很好地运用到实际中去。这样一来,统计学的学习就如同有了前进的探照灯,即使数学基础不扎实,在统计学学习的道路上也会存在诸多的平坦。

参考文献:

[1]王振龙.统计哲学研究.[博士学位论文].东北财经大学,2001,(5).

[2]何晓群,刘文卿.应用回归分析(第二版).北京:中国人民大学出版社,2007,(7):18-63.

[3]Barry H.Cohen..Explaining Psychological Statistics(Third Edition).上海:华东师范大学出版,2008.

[4]张雷,雷厉,郭伯良.多层线性模型应用.北京:教育科学出版社,2002.

[5]侯杰泰,温忠麟,成子娟.结构方程模型及其应用.北京:教育科学出版社,2002.

[6]金岳霖.形式逻辑.北京:人民出版社,2005,(1).

统计学变量的分类范文5

哲学是关于世界观和方法论的学说,研究自然、社会和思维的最一般的规律,在人们认识世界和改造世界的过程中发挥了重要的作用[1]。哲学在发展过程中,不仅在自身领域的研究中取得了重大进展,而且推动了其他的一些学科的诞生,如天文学、数学、教育学、美学等。统计学也当然可以归于哲学的发展框架下。因此,可以从某种程度上来讲,哲学可称为“万学之母”,抑或“元科学”。

统计学作为一门研究客体特征和规律的方法论学科,有很强的数学基础做支撑。它不但可以作为一门基础学科创造和发展理论,完善学科结构,而且可以作为一种应用型很强的学科,为人们认识世界和改造世界,进行量化研究提供强有力的工具手段。掌握好统计学,对进行科学研究,尤其是量化的科学研究必将大有裨益。然而正是由于其要求较强的数学基础,因此对于缺乏数学训练的人,尤其是文科学生来说,对统计学的掌握就可能成为一件比较让人头疼的事情,有的甚至是“谈‘统计’色变”。即使不从理论研究的深度来学习,哪怕只是在统计学的应用层面上来掌握,强调实用性,也需要费些心思,再加上没有适当的方法,就可能更加懊恼了。但是,由于哲学对统计学起指导作用,为统计科学研究和统计工作提供一般指导原则和思维方法,因此如果能将哲学中的一些方法论知识运用到统计学习中,可能会起到事半功倍的效果。

二、哲学思想的运用

哲学的众多原理和方法论都可以作为统计学习的有力指导,本文选择三方面加以阐释。

1.“从一到多”的思想,也可以称为“从简单到复杂”的思想。事物的状态有繁有简,有的表现在量的层面上,有的则表现在质的层面上。单从量的层面上来讲,就可以看到从1个、2个到3个乃至多个的变化。比如,线性回归中,从最初的回归模型中只包含一个自变量的最简单模型到后来的回归模型中包含2个甚至更多个自变量的情况,是一种从自变量的角度来观察模型由简单到繁琐的过程[2]。再比如,从t检验到方差分析的变化。t检验可以有三种情况,即单样本t检验,独立样本t检验和配对样本t检验(后两者均可以检验两个总体的均值是否有差异,只是在具体的操作过程中有些差别)。但是对于三个及以上的均值是否存在显著差异的检验,t检验则显得力不从心了(多次两两比较可能增大一类错误的概率),而方差分析则会很好地解决这一问题,因为其不仅可以处理独立样本的问题,还可以处理重复测量的问题,在很大程度上弥补了t检验的不足[3]。不难看出,从t检验到方差分析,又是一个针对平均数个数从简单到繁琐的过程。回顾上面的例子,可以对这一形式的统计方法有一个比较性的认识。首先,它们都是从一个向多个的变化过程。“多”个的发展是以“一”个的发展为前提的,换句话说,多个变量的模型要想发展,必须满足一个变量的单个模型发展所需要的假设条件。比如,多元回归要想进行就必须满足一元回归所要求的一系列条件(如正态性、连续性和方差齐性)。而方差分析若要进行也必须满足独立t检验所需要的条件(方差齐性)。如果不能满足,那么即使统计方法再先进,其科学性差的结果也是不容置疑的。其次,还要看到“多”与“一”的不同。这表现在:一方面,从前提假设方面来讲,“多”除了要满足“一”所需要的基本前提条件外,还有自己的额外要求。比如,多元回归中的多重共线性检验、多元正态分布及方差分析中的协方差分析。另一方面,从功能上讲,“多”的功能与“一”的功能既存在一致性,又存在区别,比如一元回归所能解决的问题运用多元回归也能解决,但是一个含有两个自变量的二元回归的功能却不能由分别以每个自变量作一次回归的两个简单回归的功能之和。对于方差分析,如前所述,亦不能分别进行多次两两比较的t检验来完成。了解这一思想后,在处理类似的情况时,便可以通过比较分清异同之处,查找前提条件,选用适当的方法。

2.“整体与部分的关系”的思想。整体是由部分组成的,整体是部分的整体,离开部分,整体即不会存在;部分是整体的部分,离开整体谈部分,部分也会丧失其原来的意义。这一思想要求我们要正确处理好整体与部分之间的关系。由于统计研究中经常会涉及处理多个变量的数据的情况,多变量及多层关系的情况,或是为了更好地分析事物之间的关系,通过假设将多个数据变为一个(如利用平均数来代表整组数据的信息),将几个变量合并为一个(如某一概念的结构分为了几个维度),将多个相互复杂的关系合并为一个(如结构方程及利用多元线性模型处理嵌套关系)。这就会使某些变量为了满足统计分析的需要而临时组成一个小的整体。比如,多层线性模型中,就会出现一个由不同层次的回归模型而组成的层次结构,每一层的回归模型均可看做是这一多层模型中的一部分,而且是必不可少的一部分;而由多个层次的单个模型所组成的模型又很好地囊括了每一个层次的部分[4]。然而,各个部分所组成的整体可能有各个部分单独所不具有的功能,亦即整体的功能并不是各个部分的简单相加。比如,多层线性模型中就存在每个单层的回归模型所不具有的拟合特性,能够充分发挥其模型的整体拟合优度来实现对各个层次的信息的最大限度的完美组合,而作为部分的每个层次的单一回归模型,则只能依据下一层的回归结果来考虑本层次的信息,并在一定程度上为更上一层的分析提供一定的信息基础。但就单一层次来讲,虽然可能会与相邻层次发生关系,但是绝对不可能够表现出所有层次的整体效果,即使是在层级次数很少的情况下。此外,对于模型的好坏程度的检验也是如此[5]。对于整个模型的评价,既要有整个模型的拟合优度的指标,又要求其所组成的各个部分均达到显著性水平;而对于各个部分的考察,则更多地只考察其自身的显著性即可。这一点除了多层线性模型,在结构方程处理一般概念结构时也有所体现。一般认为,如果想要证明所建构的概念(如自尊)的结构效度比较好的话,除了要使整体的结构方程的各项指标(如NFI,GFI)符合要求外,还要保证模型(概念)的各个维度也都要符合要求,甚至于对于每一层的各个项目的各项测量学指标(四度)也要符合通行的标准,因为一旦一个不符合要求的题项进入模型之中,将直接影响到维度的各项指标的要求,进而影响整个模型。而当仅仅对某一个维度或题项进行考察时,一般只对于其自身的数据所包含的信息进行分析,很少涉及其他的部分。

整体与部分的思想要求我们在处理涉及模型的统计分析时,一要分清整体界限,认清整体的模型到底是什么;二要通过理论分析和数据验证,认清整体模型相对于各个部分模型的独特之处,即整体的优越性,通过模型的拟合最大限度地利用数据所蕴含的统计信息。此外,还不应忽视的一点是,对模型的整体检验,既要有对模型的整体的检验,又要包含对局部的评估,将两者综合考虑,通过比较选择出最适合的模型。

形式逻辑的研究表明[6],类属关系和整体与部分的关系是不同的。类属关系中的属相具有类项所具有的全部功能,而各类的功能则没有其属的很多功能。而整体与部分关系中的部分则不可能具有整体的全部功能,但是部分所组成的整体则具有各个部分所不具有的功能。比如,在前面谈到的回归中,一元回归与多元回归都归属于“回归分析”这一类,当然无论一元回归还是多元回归都具有探索自变量与因变量的因果关系的倾向性这一回归分析的特性,但是如果因为一元回归和多元回归乃至于其他的回归类型归属了回归分析这一类从而就使回归分析增加了很多的其他功能(如真正确定因果关系),这显然是不合适的。另一方面,由各个维度所组成的结构方程会有比各个部分更加优越的功能,但各个部分却不能够拥有这些功能(因为其分析只是基于自身数据)。弄清楚了这一点,就能够很好地区分开类属关系和整体与部分的关系,也就不至于遇到多个变量的统计分析时不知道该以何种方法论来进行指导。这样,无论是对于统计的技术分析,还是基于研究假设对技术理论的解说,都是使人受益匪浅的。

3.具体问题具体分析的方法论。统计学作为一门学科,其必有自己的知识体系。心理统计学也必然是如此。所谓的知识体系,通俗来讲,就是知识组成的方式与结构,或称“知识树”。知识体系的把握对于学好一门课程来说至关重要。当前国内外有关统计方法的书目中对统计知识体系的呈现不尽相同。

有按照“从事物属性上的排他性”来安排的,比如,讲到平均数的检验时,就把三种平均数(单样本、两样本独立和相关)的检验全部呈现出来,依次讲完。也有按照东方思维方式的“功能性分类”来展现,比如当讲到方差分析时,最先侧重讲一元(oneway)方差分析,之后是更复杂的两个自变量的方差分析,之后进入“析因设计”(factorialdesign)的方差分析,从此采用多变量方差分析(MANOVA),以考察交互作用为首要任务[7],而不是一气呵成地把各种多变量的方差分析全部讲完。诚然,每种体系具有各自的特点,不同书目有不一样的体系,甚至于对于同一本书不同章节的知识可能适合于不同的知识体系。因此,要针对不同的内容采用不同的呈现方式来构建各具特色的知识体系。

统计学变量的分类范文6

一、矿山地质统计学的原理

在相关矿山地质统计学原理的定义上,是以基础为研究区域化变量的学科,研究工具为变异函数,是一项在在空间上具有随机性、结构性的自然现象科学。

1.区域化变量

区域化变量是矿山地质统计学核心理论的基础,在矿山地质工程中起着重要的作用。在实际矿山地质工程的实施中,其钻孔位置(样品的选择)在大多数情况下是不随机的,因此,两个钻空位置距离相近,从而造成样品之间的相似性较强;反之,当两个样品之间距离较远时,两者之间的相似性就会有所降低,或不存在。样品与样品之间往往存在着某种联系,而这种联系的取决性因素正是受样品之间得到相对位置所影响。并且该种联系不仅仅在空间上具有随机性,并且其在位置上同样存在着某种联系。

2.半变异函数

在区域化变量中,能够将其变化规律的准确描述的实用性函数,我们将它称之为半变异函数,在常规的半变异函数中,一般将其定义为以下函数:

在上述式中相应的代表意义如下:两者样品之间的距离用h表示;两者样品之间的相距对数用n(h)表示;X(Zi+h)是在与Zi相距h处的样品值;X(Zi)则代表Zi处的样品值。

3.半变异函数的数学模型

在一般的矿山地质工程中,其样品容易受到取样、实验误差或矿化等作用的影响,导致样品结果不准确,影响矿山工程的实施。一般情况下,在短距离内,比最小取样间距较小。发生变化时,大多半变异函数其处于原点时不等于零,此现象称之为块金效应。基于此,在实际矿山地质工程中具有块金效应的球状模型使用次数最多、应用较广,其模型表达式具体如下:

二、数理方法在矿山地质工程中的具体应用

在实际的矿山地质变量中,其不仅仅具有单纯的随机变量,并且在地质变量的本身存在一定的随机性以及结构性,在空间上还存在相关性,稳定性也不尽相同。较传统统计理论,独立样本有所不同,因此造成统计方法在实际地质工程的的运用中存在一定的局限性。尽管如此,统计方法其作为数据分析的有效方式,在地质工程数据的处理上仍然具有一定的指导意义,数理统计法大致存在以下用途:

1.为事物提供其表示特征的?稻荩?如:平均值、极差、百分率、标准差等;

2.将事物与事物之间的差异准确比较,如:将两者事物或产品之间,其质量、数据上显著性差异是否存在;

3.将事物变化的影响因素进行分析,如:将产品与产品之间的质量差异程度以及造成差异的因素进行分析;

三、推动统计方法在矿山地质工程中应用的对策

1.普及统计教育,树立统计观念

在目前的矿山地质工程中,员工对统计方法的了解程度不够,进而导致统计法的应用推广较困难。对于员工统计方法知识的缺乏,矿山地质工程应当对其员工尽心系统性的教育知识普及,而从提高员工的统计观念。在统计观念的提高过程中,相关研究人员应当适当借鉴西方的经验以及做法,例如:将统计教育系统性的纳入到学校的教育中,使统计知识长期性的存在于每个人的思想观念中,进而达到在思考问题时,能够基于统计进行思考。基于此,对于目前的矿山地质工程人员,必须对其进行必要的知识普及,将统计技术在地质工程中进行广泛推广。

2.及时更新知识,创新管理方法

近年来,随着科技的发展,社会的进步,高新产业也随之应用广泛,例如:计算技术。计算机技术的广泛应用,同样在统计学科中,不断有新型学科出现,例如:地质统计学科,近年来,地质统计学科作为边缘学科逐渐发展。据不完全统计,大多数矿山工程管理者,因事业繁忙等原因,缺乏对自身的知识储备,进而造成地质统计学不能很好地在矿山企业中进行利用,导致矿企生产经营错失科学管理的良机,更有矿山企业因经验不善,导致亏损甚至破产。基于此,无论是矿山企业经营者,还是地质工程人员要想不被时代所淘汰,便要不断地对自己的知识进行及时更新,以优胜劣汰的方式对现有管理方式进行及时更新,以确保在不断发展的过程中得到进步。