数据分析统计学方法范例6篇

前言:中文期刊网精心挑选了数据分析统计学方法范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。

数据分析统计学方法

数据分析统计学方法范文1

关键词:大数据;统计学;数据分析;抽样理论;理论

重构随着信息科学技术的高速度发展,当代获取和储存数据信息的能力不断增强而成本不断下降,这为大数据的应用提供了必要的技术环境和可能.应用大数据技术的优势愈来愈明显,它的应用能够帮助人类获取真正有价值的数据信息.近年来,专家学者有关大数据技术问题进行了大量的研究工作[1],很多领域也都受到了大数据分析的影响.这个时代将大数据称为未来的石油,它必将对这个时代和未来的社会经济以及科学技术的发展产生深远的意义和影响.目前对于大数据概念,主要是从数据来源和数据的处理工具与处理难度方面考虑,但国内外专家学者各有各的观点,并没有给出一致的精确定义.麦肯锡全球数据分析研究所指出大数据是数据集的大小超越了典型数据库工具集合、存储、管理和分析能力的数据集,大数据被Gartner定义为极端信息管理和处理一个或多个维度的传统信息技术问题[23].目前得到专家们认可的一种观点,即:“超大规模”是GB级数据,“海量”是TB级数据,而“大数据”是PB及其以上级别数据[2].

一些研究学者把大数据特征进行概括,称其具有数据规模巨大、类型多样、可利用价值密度低和处理速度快等特征,同时特别强调大数据区别于其他概念的最重要特征是快速动态变化的数据和形成流式数据.大数据技术发展所面临的问题是数据存储、数据处理和数据分析、数据显示和数据安全等.大数据的数据量大、多样性、复杂性及实时性等特点,使得数据存储环境有了很大变化[45],而大部分传统的统计方法只适合分析单个计算机存储的数据,这些问题无疑增加了数据处理和整合的困难.数据分析是大数据处理的核心过程,同时它也给传统统计学带来了巨大的挑战[6].产生大数据的数据源通常情况下具有高速度性和实时性,所以要求数据处理和分析系统也要有快速度和实时性特点,而传统统计分析方法通常不具备快速和实时等特点.基于大数据的特点,传统的数据统计理论已经不能适应大数据分析与研究的范畴,传统统计学面临着巨大的机遇与挑战,然而为了适应大数据这一新的研究对象,传统统计学必须进行改进,以继续和更好的服务于人类.目前国内外将大数据和统计学相结合的研究文献并不多.本文对大数据时代这一特定环境背景,统计学的抽样理论和总体理论的存在价值、统计方法的重构及统计结果的评价标准的重建等问题进行分析与研究.

1传统意义下的统计学

广泛的统计学包括三个类型的统计方法:①处理大量随机现象的统计方法,比如概率论与数理统计方法.②处理非随机非概率的描述统计方法,如指数编制、社会调查等方法.③处理和特定学科相关联的特殊方法,如经济统计方法、环境科学统计方法等[7].受收集、处理数据的工具和能力的限制,人们几乎不可能收集到全部的数据信息,因此传统的统计学理论和方法基本上都是在样本上进行的.或者即使能够得到所有数据,但从实际角度出发,因所需成本过大,也会放弃搜集全部数据.然而,选择最佳的抽样方法和统计分析方法,也只能最大程度还原总体一个特定方面或某些方面的特征.事实上我们所察觉到的数据特征也只是总体大量特征中的一小部分,更多的其他特征尚待发掘.总之,传统统计学是建立在抽样理论基础上,以点带面的统计分析方法,强调因果关系的统计分析结果,推断所测对象的总体本质的一门科学,是通过搜集、整理和分析研究数据从而探索数据内部存在规律的一门科学.

2统计学是大数据分析的核心

数的产生基于三个要素,分别是数、量和计量单位.在用数来表示事物的特征并采用了科学的计量单位后,就产生了真正意义上的数据,即有根据的数.科学数据是基于科学设计,通过使用观察和测量获得的数据,认知自然现象和社会现象的变化规律,或者用来检验已经存在的理论假设,由此得到了具有实际意义和理论意义的数据.从数据中获得科学数据的理论,即统计学理论.科学数据是通过统计学理论获得的,而统计学理论是为获得科学数据而产生的一门科学.若说数据是传达事物特征的精确语言,进行科学研究的必备条件,认知世界的重要工具,那么大数据分析就是让数据最大限度地发挥功能,充分表达并有效满足不同需求的基本要求.基于统计学的发展史及在数据分析中的作用,完成将数据转化为知识、挖掘数据内在规律、通过数据发现并解决实际问题、预测可能发生的结果等是研究大数据的任务,而这必然离不开统计学.以大数据为研究对象,通过数据挖掘、提取、分析等手段探索现象内在本质的数据科学必须在继承或改进统计学理论的基础上产生.

统计数据的发展变化经历了一系列过程,从只能收集到少量的数据到尽量多地收集数据,到科学利用样本数据,再到综合利用各类数据,以至于发展到今天的选择使用大数据的过程.而统计分析为了适应数据可观察集的不断增大,也经历了相应的各个不同阶段,产生了统计分组法、大量观察法、归纳推断法、综合指标法、模型方程法和数据挖掘法等分析方法,并且借助计算机以及其他软件的程度也越来越深.300多年来,随着数据量以指数速度的不断增长,统计学围绕如何搜集、整理和分析数据而展开,合理构建了应用方法体系,帮助各个学科解决了许多复杂问题.现在进入了大数据时代,统计学依旧是数据分析的灵魂,大数据分析是数据科学赋予统计学的新任务.对于统计学而言,来自新时代的数据科学挑战有可能促使新思想、新方法和新技术产生,这一挑战也意味着对于统计学理论将面临巨大的机遇.

3统计学在大数据时代下必须改革

传统统计学是通过对总体进行抽样来搜索数据,对样本数据进行整理、分析、描述等,从而推断所测对象的总体本质,甚至预测总体未来的一门综合性学科.从研究对象到统计结果的评判标准都是离不开样本的抽取,完全不能适应大数据的4V特点,所以统计学为适应大数据技术的发展,必须进行改革.从学科发展角度出发,大数据对海量数据进行存储、整合、处理和分析,可以看成是一种新的数据分析方法.数据关系的内在本质决定了大数据和统计学之间必然存在联系,大数据对统计学的发展提出了挑战,体现在大样本标准的调整、样本选取标准和形式的重新确定、统计软件有待升级和开发及实质性统计方法的大数据化.但是也提供了一个机遇,体现在统计质量的提高、统计成本的下降、统计学作用领域的扩大、统计学科体系的延伸以及统计学家地位的提升[7].

3.1大数据时代抽样和总体理论存在价值

传统统计学中的样本数据来自总体,而总体是客观存在的全体,可以通过观测到的或经过抽样而得到的数据来认知总体.但是在大数据时代,不再是随机样本,而是全部的数据,还需要假定一个看不见摸不着的总体吗?如果将大数据看成一个高维度的大样本集合,针对样本大的问题,按照传统统计学的方法,可以采用抽样的方法来减少样本容量,并且可以达到需要的精度;对于维度高的问题,可以采取对变量进行选择、降维、压缩、分解等方法来降低数据的复杂程度.但实际上很难做得到,大数据涵盖多学科领域、多源、混合的数据,各学科之间的数据融合,学科边界模糊,各范畴的数据集互相重叠,合成一体,而且大数据涉及到各种数据类型.因此想要通过抽样而使数据量达到传统统计学的统计分析能力范围是一件相当困难或是一件不可能的事.大量的结构数据和非结构数据交织在一起,系统首先要认清哪个是有价值的信息,哪个是噪声,以及哪些不同类型的数据信息来自于同一个地址的数据源,等等,传统的统计学是无法做到的.在大数据时代下,是否需要打破传统意义的抽样理论、总体及样本等概念和关系,是假设“样本=总体”,还是“样本趋近于总体”,还是不再使用总体和样本这两个概念,而重新定义一个更合适的概念,等等.人们该怎样“安排”抽样、总体及样本等理论,或人们该怎样修正抽样、总体、样本的“公理化”定义,这个问题是大数据时代下,传统统计学面临改进的首要问题.

3.2统计方法在大数据时代下的重构问题

在大数据时代下,传统的高维度表达、结构描述和群体行为分析方法已经不能精确表达大数据在异构性、交互性、时效性、突发性等方面的特点,传统的“假设-模型-检验”的统计方法受到了质疑,而且从“数据”到“数据”的统计模式还没有真正建立,急切需要一个新的理论体系来指引,从而建立新的分析模型.去除数据噪声、筛选有价值的数据、整合不同类型的数据、快速对数据做出分析并得出分析结果等一系列问题都有待于研究.大数据分析涉及到三个维度,即时间维度、空间维度和数据本身的维度,怎样才能全面、深入地分析大数据的复杂性与特性,掌握大数据的不确定性,构建高效的大数据计算模型,变成了大数据分析的突破口.科学数据的演变是一个从简单到复杂的各种形式不断丰富、相互包容的过程,是一个循序渐进的过程,而不是简单的由一种形式取代另一种形式.研究科学数据的统计学理论也是一样,也是由简单到复杂的各种形式相互包容、不断丰富的发展过程,而绝不是完全否定一种理论、由另一种理论形式所代替.大数据时代的到来统计学理论必须要进行不断的完善和发展,以适应呈指数增长的数据量的大数据分析的需要.

3.3如何构建大数据时代下统计结果的评价标准框架

大数据时代下,统计分析评价的标准又该如何变化?传统统计分析的评价标准有两个方面,一是可靠性评价,二是有效性评价,然而这两种评价标准都因抽样而生.可靠性评价是指用样本去推断总体有多大的把握程度,一般用概率来衡量.可靠性评价有时表现为置信水平,有时表现为显著性水平[8].怎么确定显著性水平一直是个存在争议的问题,特别是在模型拟合度评价和假设检验中,因为各自参照的分布类型不一样,其统计量就不一样,显著性评价的临界值也就不一样,可是临界值又与显著性水平的高低直接相关.而大数据在一定程度上是全体数据,因此不存在以样本推断总体的问题,那么在这种情况下,置信水平、可靠性问题怎么确定?依据是什么?有效性评价指的是真实性,即为误差的大小,它与准确性、精确性有关.通常准确性是指观察值与真实值的吻合程度,一般是无法衡量的,而精确性用抽样分布的标准差来衡量.显然,精确性是针对样本数据而言的,也就是说样本数据有精确性问题,同时也有准确性问题.抽样误差和非抽样误差都可能存在于样本数据中,抽样误差可以计算和控制,但是非抽样误差只能通过各种方式加以识别或判断[910].大多数情况下,对于样本量不是太大的样本,非抽样误差可以得到较好的防范,然而对于大数据的全体数据而言,没有抽样误差问题,只有非抽样误差问题,也就是说大数据的真实性只表现为准确性.但是由于大数据特有的种种特性,使得大数据的非抽样误差很难进行防范、控制,也很难对其进行准确性评价.总之,对于大数据分析来说,有些统计分析理论是否还有意义,确切说有哪些统计学中的理论可以适用于大数据分析,而哪些统计学中的理论需要改进,哪些统计学中的理论已不再适用于大数据统计研究,等等,都有待于研究.所以大数据时代的统计学必是在继承中求改进,改进中求发展,重构适应大数据时代的新统计学理论.

4结论

来自于社会各种数据源的数据量呈指数增长,大数据对社会发展的推动力呈指数效应,大数据已是生命活动的主要承载者.一个新事物的出现,必然导致传统观念和传统技术的变革.对传统统计学来说,大数据时代的到来无疑是一个挑战,虽然传统统计学必须做出改变,但是占据主导地位的依然会是统计学,它会引领人类合理分析利用大数据资源.大数据给统计学带来了机遇和挑战,统计学家们应该积极学习新事物,适应新环境,努力为大数据时代创造出新的统计方法,扩大统计学的应用范围.

参考文献:

[1]陈冬玲,曾文.频繁模式挖掘中基于CFP的应用模型[J]沈阳大学学报(自然科学版),2015,27(4):296300.

[3]卞友江.“大数据”概念考辨[J].新闻研究导刊,2013,35(5):2528.

[5]靳小龙,王元卓,程学旗.大数据的研究体系与现状[J].信息通信技术,2013(6):3543.

[6]覃雄派,王会举,杜小勇,等.大数据分析:Rdbms与Mapreduce的竞争与共生[J].软件学报,2012,23(1):32-45.

[7]游士兵,张佩,姚雪梅.大数据对统计学的挑战和机遇[J].珞珈管理评论,2013(2):165171.

[8]李金昌.大数据与统计新思维[J].统计研究,2014,31(1):1017.

数据分析统计学方法范文2

【论文关键词】统计学;统计思想;认识

【论文摘要】所谓统计思想,就是在统计实际工作、统计学理论的应用研究中,必须遵循的基本理念和指导思想。统计思想主要包括均值思想、变异思想、估计思想、相关思想、拟合思想、检验思想等思想。文章通过对统计思想的阐释,提出关于统计思想认识的三点思考。

1关于统计学

统计学是一门实质性的社会科学,既研究社会生活的客观规律,也研究统计方法。统计学是继承和发展基础统计的理论成果,坚持统计学的社会科学性质,使统计理论研究更接近统计工作实际,在国家和社会得到广泛发展。

2统计学中的几种统计思想

2.1统计思想的形成

统计思想不是天然形成的,需要经历统计观念、统计意识、统计理念等阶段。统计思想是根据人类社会需求的变化而开展各种统计实践、统计理论研究与概括,才能逐步形成系统的统计思想。

2.2比较常用的几种统计思想

所谓统计思想,就是统计实际工作、统计学理论及应用研究中必须遵循的基本理念和指导思想。统计思想主要包括:均值思想、变异思想、估计思想、相关思想、拟合思想、检验思想。现分述如下:

2.2.1均值思想

均值是对所要研究对象的简明而重要的代表。均值概念几乎涉及所有统计学理论,是统计学的基本思想。均值思想也要求从总体上看问题,但要求观察其一般发展趋势,避免个别偶然现象的干扰,故也体现了总体观。

2.2.2变异思想

统计研究同类现象的总体特征,它的前提则是总体各单位的特征存在着差异。统计方法就是要认识事物数量方面的差异。统计学反映变异情况较基本的概念是方差,是表示“变异”的“一般水平”的概念。平均与变异都是对同类事物特征的抽象和宏观度量。

2.2.3估计思想

估计以样本推测总体,是对同类事物的由此及彼式的认识方法。使用估计方法有一个预设:样本与总体具有相同的性质。样本才能代表总体。但样本的代表性受偶然因素影响,在估计理论对置信程度的测量就是保持逻辑严谨的必要步骤。

2.2.4相关思想

事物是普遍联系的,在变化中,经常出现一些事物相随共变或相随共现的情况,总体又是由许多个别事务所组成,这些个别事物是相互关联的,而我们所研究的事物总体又是在同质性的基础上形成。因而,总体中的个体之间、这一总体与另一总体之间总是相互关联的。

2.2.5拟合思想

拟合是对不同类型事物之间关系之表象的抽象。任何一个单一的关系必须依赖其他关系而存在,所有实际事物的关系都表现得非常复杂,这种方法就是对规律或趋势的拟合。拟合的成果是模型,反映一般趋势。趋势表达的是“事物和关系的变化过程在数量上所体现的模式和基于此而预示的可能性”。

2.2.6检验思想

统计方法总是归纳性的,其结论永远带有一定的或然性,基于局部特征和规律所推广出来的判断不可能完全可信,检验过程就是利用样本的实际资料来检验事先对总体某些数量特征的假设是否可信。

2.3统计思想的特点

作为一门应用统计学,它从数理统计学派汲取新的营养,并且越来越广泛的应用数学方法,联系也越来越密切,但在统计思想的体现上与通用学派相比,还有着自己的特别之处。其基本特点能从以下四个方面体现出:(1)统计思想强调方法性与应用性的统一;(2)统计思想强调科学性与艺术性的统一;(3)统计思想强调客观性与主观性的统一;(4)统计思想强调定性分析与定量分析的统一。

3对统计思想的一些思考3.1要更正当前存在的一些不正确的思想认识

英国著名生物学家、统计学家高尔顿曾经说过:“统计学具有处理复杂问题的非凡能力,当科学的探索者在前进的过程中荆棘载途时,唯有统计学可以帮助他们打开一条通道”。但事实并非这么简单,因为我们所面临的现实问题可能要比想象的复杂得多。此外,有些人认为方法越复杂越科学,在实际的分析研究中,喜欢简单问题复杂化,似乎这样才能显示其科学含量。其实,真正的科学是使复杂的问题简单化而不是追求复杂化。与此相关联的是,有些人认为只有推断统计才是科学,描述统计不是科学,并延伸扩大到只有数理统计是科学、社会经济统计不是科学这样的认识。这种认识是极其错误的,至少是对社会经济统计的无知。比利时数学家凯特勒不仅研究概率论,并且注重于把统计学应用于人类事物,试图把统计学创建成改良社会的一种工具。经济学和人口统计学中的某些近代概念,如GNP、人口增长率等等,均是凯特勒及其弟子们的遗产。

3.2要不断拓展统计思维方式

统计学是以归纳推理或归纳思维为主要的逻辑方式的。众所周知,逻辑推理方式主要有两种:归纳推理和演绎推理。归纳推理是基于观测到的数据信息(尤其是不完全甚至劣质的信息)去产生新的知识或去验证一个假设,即以所掌握的数据信息为依据,归纳得出具有一般特征的结论。归纳推理是要在数据信息的基础上透过偶然性去发现必然性。演绎推理是对统计认识能力的深化,尤其是在根据必然性去研究和认识偶然性方面,具有很大的作用。

3.3深化对数据分析的认识

任何统计研究都离不开数据分析。因为这是得到统计研究结论的必要环节。虽然统计分析的形式随时代的推移而变化着,但是“从数据中提取一切信息”或者“归纳和揭示”作为统计分析的目的却一直没有改变。对统计数据分析的原因有以下三个方面:一是基于同样的数据会得出不同、甚至相反的分析结论;二是我们所面对的分析数据有时是缺损的或存在不真实性;三是我们所面对的分析数据有时则又是海量的,让人无从下手。虽然统计数据分析已经经历了描述性数据分析(DDA)、推断性数据分析(IDA)和探索性数据分析(EDA)等阶段,分析的方法技术已经有了质的飞跃,但与人类不断提高的要求相比,存在的问题似乎也越来越多。所以,我们必须深化对数据分析的认识,围绕“准确解答特定问题并且从数据中获取一切有效信息”这一目的,不断拓展研究思路,继续开展数据分析方法技术的研究。

新晨

参考文献:

[1]陈福贵.统计思想雏议[J]北京统计,2004,(05).

[2]庞有贵.统计工作及统计思想[J]科技情报开发与经济,2004,(03).

数据分析统计学方法范文3

关键词:统计测度;统计学;大数据;数据科学;

作者简介:李金昌,男,50岁,浙江义乌人。浙江财经大学校长,统计学教授,博士生导师。研究方向为经济统计学,统计理论与方法,抽样技术,政府统计等。

最近两年,统计学界对大数据问题所进行的理论探讨逐渐增多,视角也各有千秋,引起了一些共鸣。围绕大数据问题,由统计学、计算机科学、人工智能、数学等学科共同支撑的数据科学开始形成。但大数据毕竟是一个新课题,因此远未达到对其有一个系统完整的认识,仍然需要从不同的方面加以研究,其中有一个重要但又容易被忽视的问题,即统计测度问题,值得去探讨。

一、什么是统计测度

汉语上,测度是指猜测、揣度、估计。数学上,测度是一个函数,它对一个给定集合的某些子集指定一个数,这个数可以比作大小、体积、概率等等。通俗地说,测度把每个集合映射到非负实数来规定这个集合的大小:空集的测度是0;集合变大时测度至少不会减小(因为要加上变大的部分的测度,而它是非负的)。

除了数学角度的测度论,查阅国内文献资料,带有测度这个词汇的文献不少,但专门针对统计测度(或测度)内涵的讨论几乎没有。一些对社会经济现象进行分析测度的文献,例如新型工业化进程测度、货币流动性测度、全面小康社会发展进程测度、收入分配公平性测度、技术效率测度、人力资本测度、金融风险测度、产业关联测度等等,所做的测度都是再测度,均不对测度本身进行讨论。查阅国外文献资料(关键词:measurement),也同样存在这样的问题,只能收集到一些比较零散的表述。LudwikFinkelstein(1975)[1]认为,在我们对事物或现象进行描述时,测度可以被定义为对现实世界中某一现象的个体属性或特征进行量化的过程。JamesT.Townsend和F.GregoryAshby(1984)[2]认为,如果按照极端的观点,那么统计分析中的基本测度理论的含义仍然是存在争议的。LudwikFinkelstein(2003)[3]指出,测度在那些原来尚未得到卓有成效或广泛应用的领域,也已取得了明显的进步,社会、政治、经济和行为科学正在更大程度地利用定量技术;测度是现代思维的一种实际有效的工具,是我们借以描述世界的一种方法。GiovanniBattistaRossi(2007)[4]认为,用以表示测度结果的,是数字或者数字符号。LucaMari(2013)[5]认为,测度的基础特征是被公认为世界上获取并正式表达信息的基本方法,这让它成为一种跨学科的工具。LudwikFinkelstein(2014)[6]指出,在自然科学技术中,测度的重要性不可否认,它是科学调查和发现必不可少的工具,它可将宇宙中的复杂现象用精确、简洁和普遍的数学语言来描述。

那么,到底什么是统计测度呢?目前没有一个统一的定义。本文认为,统计测度具有不同于测度的意义,并且大大超越数学上的界定,即它具有数学定义的一般属性,但又不受制于函数表现形式,因为统计测度所要面对的是现实世界,实际问题要比理论上可以定义的问题复杂得多。按照我们的理解,统计测度就是用一定的符号和数字,用一定的形式和载体,对所研究的现象或事物的特征进行量化反映,表现为可用于统计分析的数据的过程。它应该具有这样一些属性:以实际现象为测度对象,测度结果具有实际意义;以量化为目的,把信息转化为数量,提供人们容易理解的定量结论;个体特征的测度符合形成总体定量结论的要求,同时能够体现个体差异。可以发现,统计测度需要借用数学工具,但更重要的是对具体测度现象本质特征的认识和掌握。

统计测度可以从若干不同角度进行分类。邱东教授(2012)[7]曾在“宏观测度的边界悖律及其意义”一文中,从边界的角度对宏观测度进行了分类:一是因事物本身可测度性而形成的边界,即本体论意义上的测度边界;再一是由人的认知能力而形成的边界,即认识论意义上的测度边界;第三则是由统计相关性偏好和投入约束而形成的边界,即操作意义上的测度边界。这三条测度边界,应该以本体论意义的测度边界最大,认识论意义的测度边界次之,而操作意义的测度边界最小。这样的分类,对于我们正确理解统计测度的内涵很有帮助。受此启发,笔者认为统计测度还可以有如下分类:

1.从测度的实现形式看,可以分为原始测度和再测度。原始测度也可以称为直接测度,它通过对测度对象进行直接测度来获取数据,例如清点库存物品数量、丈量作物播种面积、观察培育细菌数目、检测药物成分等获得的数据,以及各种登记、记录的原始数据等等。再测度也称为间接测度,它以其他已知的测度数据为基础去计算、推算或预测所需的未知数据,例如根据GDP和人口数测度人均GDP、根据人口普查分年龄人口数据测度老龄化系数和社会负担系数、根据相关指标数据测度CPI的变化等等。复杂的再测度则需要借助相应的统计模型作为工具,因为它实际上是对相关变量之间的关系进行定量反映。从两者关系上看,原始测度是基础,是根本,没有科学的原始测度就不会有可靠的再测度;再测度则是测度功能提升的必然要求,以解决原始测度不能解决的问题。

2.从测度的计量方式看,可以分为自然测度、物理测度、化学测度、时间测度和价值测度。自然测度是利用现象的自然属性所进行的一种统计测度,例如人口规模、企业数量等的测度,采用自然计量单位;物理测度是利用现象的物理属性所进行的一种统计测度,例如公路长度、作物播种面积、天然气产量等的测度,采用物理计量单位;化学测度是利用现象的化学属性所进行的一种统计测度,例如医学、生物学中化学合成物的成分结构测度,采用百分数、千分数或特定标识为计量单位;时间测度是利用现象的时间属性所进行的一种统计测度,例如劳动用工、闲暇时间等测度,采用时间计量单位;价值测度是利用现象的价值属性所进行的一种统计测度,例如劳动报酬、经济活动成果等测度,采用货币计量单位。在这些测度计量方式中,价值测度因最具有综合功能而应用最为广泛。

3.从测度的方法看,可以分为计数测度、测量测度、实验测度、定义测度和模型测度。计数测度是一种通过观测计数来获得数据的方法,最为简单,一般用于自然测度或时间测度;测量测度是一种根据物理或化学规制对现象进行测量、测算来获得数据的方法,一般用于物理测度或化学测度;实验测度是一种按照科学实验原理、通过观察实验对象在既定条件下的反应来获得数据的方法,一般与测量测度相结合,用于获取科学研究数据;定义测度也可以称之为指标测度,是一种通过探究现象的本质特征和活动规律、归纳出表现其数量特征的范畴、给出统计指标定义(包括内容、口径、计算方法和表现形式等)来获取数据的方法,最常用于价值测度,也用于其他形式的测度。可以说,定义测度方法应用最为广泛,但也最为困难。模型测度是一种根据现象与现象之间的内在联系关系、或者现象自身的发展变化规律,通过建立一定的方程模型来获取数据的方法。前面三种统计测度方法基本上都属于直接测度,定义测度既可能是直接测度、也可能是间接测度,而模型测度都属于间接测度方法。

4.从测度的维度看,可以分为单一测度与多维测度。单一测度是指采用单一的方式方法对所研究现象或事物进行单一角度的测度,获得单一的数据。多维测度是指对所研究现象或事物进行多角度的测度,测度过程中可能需要采用多种测度方法和计量方式,例如多指标综合评价就需要借助统计指标体系对评价对象进行多角度的测度。显然,单一测度是多维测度的基础。

二、统计测度是统计学的立足之本

首先,从统计学的发展历史看,是统计测度使统计学破茧而出。为什么主流观点认为政治算术是统计学的起源而不是国势学?正是因为威廉·配第首次采用统计测度的方式进行了国家实力的统计分析和有关推算,得出了令人信服的结论。威廉·配第在1693年出版的《政治算术》[8]中写道“因为和只使用比较级或最高级的词汇以及单纯作思维的论证相反,我却采用了这样的方法(作为我很久以来就想建立的政治算术的一个范例),即用数字、重量和尺度的词汇来表达我自己想说的问题,只进行能诉诸人们的感官的论证和考察在性质上有可见的根据的原因”,这一观点在统计学的发展过程中产生了非常重要的影响。他的这段话虽然没有出现测度一词,但却道出了测度的本质,即让事物变得明白、变得有根据,因为“数字、重量和尺度”就是测度、就是根据,用“数字、重量和尺度的词汇来表达想说的问题”就是一种测度的思想,尽管测度的方式方法还很简单。相反,国势学虽然提出了归纳法这一统计学的基本方法并首创了统计学一词,但由于没有采用统计测度的方式进行国势问题的研究而难以修成正果。正如邱东教授[7]所说:“在配第之前,统计学的研究对象虽然是国家的态势,但它在方法论上只是定性言说。一个国家的财富总量在本体论意义上是可以测度的。然而只是到了配第时期,人类才想到了要测度它,并发明了如何测度的基本方法。政治算术,即开创期的经济统计学,实现了从无到有的转变,大大扩展了宏观测度的认识论边界,因而才具有了统计学范式创新的革命性意义。”同样,格朗特的《关于死亡表的自然观察和政治观察》也是人口统计测度方面的经典之作,无论是原始测度还是再测度,都给后人留下了宝贵的财富。之后,统计学就是沿着如何更加科学、准确测度世界这一主线而发展的。笔者曾在“从政治算术到大数据分析”一文[9],对数据的变化与统计分析方法的发展进行了粗浅的归纳,其主题实际上就是统计测度问题。

其次,从统计学的研究对象上看,统计测度是体现统计学数量性特征的前提条件。统计学的研究对象是现象的数量方面,或者说统计学是关于如何收集和分析数据的科学。统计数据从何而来?从统计测度中来。数据不同于数字,数字是统计测度的符号,数据是统计测度的结果,这也正是统计学区别于数学之处。所以说,数据的本质问题就是统计测度问题,故此统计测度是统计学的基本问题。这里重点讨论两个问题:一是统计测度与统计指标的关系,二是统计测度面临的新问题。关于第一个问题,本文认为统计测度与统计指标是一个事物的两个方面,这个事物就是数据。统计指标法是统计学的基本方法之一,尽管前面对统计测度从方式方法上进行了分类,但从广义上说所有统计测度都是定义测度,都表现为指标。也就是说,任何统计测度———不论是直接测度还是间接测度,最终目的是获得能够让人明白的数据,而表现数据的最主要形式就是统计指标,其他表现数据的形式都是派生出来的。所以,统计测度就是根据所设定的统计指标去获得所需的数据。关于第二个问题,与后文所要论及的大数据有关,就是定性测度问题。在统计学中,数据可以分为两类———定性数据与定量数据,其中定性数据又包括定类数据与定序数据两种,它们属于非结构化或半结构化数据。相应地,统计测度也可分为定性测度与定量测度。很显然,只有定性测度与定量测度方法得到同步发展,统计学才能更加完善。总体上看,定量数据的统计测度已经比较完善,但定性数据的统计测度还有很多问题尚待解决,难点就在于测度的切入点———如何提取有效的信息、如何最终转化为统计指标。尽管关于定性数据分析的论著已经不少,但还没有从理论方法上建立起定性数据统计测度的体系,因此统计学在这方面的任务依然很重。

第三,从统计学的永恒主题看,通过科学的数据分析、得出有效的结论是其不变的追求,而数据分析过程就是综合的统计测度过程。获得数据的目的是为了发现隐含其中的有价值的信息,即发现数据背后的数据,让数据再生数据,从而满足人们认识事物、掌握规律、科学决策的需要。除了总量、结构等基本信息外,更重要的是通过数据分析来呈现现象的变化规律与相互关系。不难发现,这种数据分析的过程,就是不断进行各种统计测度的过程,所以最终的统计分析结果实际上就是各环节、各方面的各种类型的统计测度的叠加结果,或者说是统计测度不断放大的过程。大量针对社会经济现象进行分析研究的文献(不论是否冠以“测度”两字),只要有数据分析,都是如此。可以说,统计测度贯穿于统计数据分析的全过程。但是,为什么很多统计数据分析并没有得出有效的结论呢?本文认为原因就出在统计测度上,尤其是没有首先解决好原始统计测度问题。应该说,围绕数据分析已经建立起一整套比较完整的统计方法体系,很多方法也都身经百战、行之有效,但一旦原始统计测度有问题、数据不准确或不真实,那么任何方法都只是摆设。仔细研读很多所谓的实证分析文献,其重点均在于构建什么样的模型或运用什么样的方法,虽然有的文献也必须要讨论选择什么样的变量(指标)这个问题,但并不是系统地从测度的角度进行阐述,因此所用的模型越来越复杂,但所得的结论却离实际情况越来越远。学界总是有这样一种观念:变量越多、符号越新奇、模型越复杂的文章才越有水平,似乎这样分析所得的结论才越可靠。殊不知,不以科学可靠的原始统计测度为基础,任何数据分析都会成为无源之水、无本之木,所得的结论也只是更精确的错误而已。本文认为,任何脱离科学统计测度的统计分析都是毫无意义的,充其量是一种数字游戏而已。应该树立这样一种观念:科学的统计数据分析首先取决于科学的统计测度,而不是首先取决于什么样的分析模型,虽然模型也很重要。这也再一次证明,统计测度问题是统计学的根本问题。其实,归根结底看,在统计数据分析过程中,每一步分析都以前一步的测度为原始测度,每一步所用的方法都是统计测度方法,因此所有的统计分析方法都是统计测度方法。甚至可以说,统计学方法体系就是统计测度方法体系。

当然,在实际的统计分析中,统计测度往往遇到一些困难,即有些指标数据由于各种原因无法获得,这就不得不采用替代这种途径。例如,绿色GDP核算的概念已经提出很多年,但为什么还没有哪个国家真正公布绿色GDP数据,原因就是自然资源价值、生态环境价值等的统计测度目前还面临着很大的困难,其背后存在着一系列有待进一步研究和解决的理论与实践问题,因此不少学者进行了替代测度的探讨。这一方面说明统计测度的重要性,另一方面说明统计测度替代的无奈性。但是,替代测度必须遵守相应的规则与逻辑,要经得起推敲。有的文献明明知道有关变量无法测度、有关数据无法获得,却随意地、不符合逻辑地进行所谓的替代,结果是最后的结论不知替代成什么样了,很难理解它的意义。关于替代测度的有效性问题,邱东教授[7]已有精辟的论述,在此不再展开讨论。

三、统计测度是数据科学的基础

笼统地讲,数据科学就是以大数据为研究对象的科学,需要多学科交叉融合、共同支撑。由于大数据是快速增长的复杂数据,因此大数据分析仅有统计思维与统计分析方法是不够的,还需要强大的数据处理能力与计算能力。只有把统计思维、统计方法与计算技术结合起来,才有可能真正挖掘出大数据中的有价值信息。本文认为统计思维、统计方法与计算技术相结合的基础就是科学的统计测度。

首先,大数据技术不能自行解决其计算和分析应从何处着手的问题。现代信息技术与互联网、物联网技术的快速发展,使人类进入大数据时代,也有人说进入到数联网时代,这意味着我们一方面被各种越来越多、越来越复杂的数据所包围,另一方面又被数据中巨大的信息价值所吸引,想从中挖掘出可供决策之用的信息。如何挖掘大数据?人们已经进行了艰苦的探索,发展了很多专门的方法技术,并已尝到了不少甜头,但远未达到充分利用大数据中有效信息的目的,因为已有的大数据分析研究主要集中于计算机科学与技术、软件工程、计算数学等领域,重点是计算能力与算法研究,而很少从统计学的角度进行有针对的探讨,还没有真正进入数据分析的深层。这里面实际上忽略了最基础的统计测度问题。如果说,计算技术的发展能够解决数据储存与计算的能力问题,算法模型的改进能够解决大数据分析的综合能力问题,那么它们仍然不能解决对谁进行计算与分析的问题,也即从何处着手的问题。无论是传统的结构型数据,还是现在的包含大量非结构型数据的大数据,要对它们进行分析都必须找到正确的切入口,即分析的基本元素是什么,或者说需要测度什么。当然,还有如何测度的问题。然后,才能进行分组、综合和构建模型,否则大数据分析不会达到人们的预期。

其次,大数据之所以催生数据科学,就是为了通过多学科交叉融合来共同解决大数据分析中存在的问题,其中包括统计测度问题,这一点对于非结构化数据尤为突出。实际上,大数据的本质就是非结构化数据,一是体量大、比重高(超过95%),二是变化快、形式多,三是内容杂、不确定。通过各种社交网络、自媒体、富媒体,以及人机对话和机器感应记录等产生的各种非结构化数据,例如各种文字、各种表情符号、各种声音、各种图像,到底表示什么?综合在一起能体现什么规律?如何综合各种信息?存在着大量有待研究的问题。其实,文字的长短、用词、表达形式(叙述式、议论式、散文式、诗歌式,等)甚至字体大小与颜色,表情类型与偏好,声音高低、频率与情绪,图像颜色等等,都是有特定意义的,即在特定环境条件下的反应。所以,一句话或一段声音的意义并非文字本身的意思,一个表情符号的意义并非符号表征的意思,一个图像的意义并非图像内容与色彩本身的意思,因为背后有太多的未知。人们浏览检索各种信息的习惯、收看与回复邮件等信息的习惯、参与信息网络的习惯、购物习惯与支付习惯等等,也是如此。更何况,同样的网络词汇在不同的时间代表着不同的语义。这背后隐藏着的是人们的行为与社会关系,既具有个性又具有共性,极其复杂。所以对这样的数据进行分析,首先绝非是计算问题,也不是用什么模型问题,而首先是从何处着手、如何选取关键词、如何选定关联词、可以用什么样的指标来综合、可以用什么样的表式来表现等问题,一句话就是统计测度问题。非结构化数据的统计测度将主要是定义测度,这些问题不解决,分析模型也是难以构建的,或者难以得出令人信服的结论。

例如,关于《红楼梦》前80回与后40回是否同一作者的争论,韦博成[10]进行了综合性的比较研究并提出了自己的观点,他指出已有美国威斯康辛大学华裔学者陈炳藻教授(1980)[11]、我国华东师范大学陈大康教授(1987年)[12]和复旦大学李贤平教授(1987年)[13]等学者从统计学的角度进行过专门的研究,但却得出了不同的结论:陈炳藻教授认为前80回与后40回均是曹雪芹所著;陈大康教授认为前80回与后40回为不同人所著;李贤平教授认为前80回是曹雪芹根据《石头记》增删而成,后40回是曹雪芹亲友搜集整理原稿加工补写而成。此外,还有其他一些学者进行过类似的研究,也有一些不同的结论。为什么都通过提取关联词和统计的方法却得出不同的结论?原因就在于用以分析的关联词不同,即统计测度的切入点不同,当然也有统计方法上的差异,但前者是根本。至少存在几个统计测度上的问题:提取单一维度的关联词还是多维度的关联词?提取什么类型的关联词(例如:关联词是名词、形容词还是动词;是花卉、树木、饮食、医药还是诗词)?这些关联词可以综合为什么样的指标?等等。由此可见,原始统计测度代表着数据分析的方向。

相比《红楼梦》,大数据分析要复杂得多、困难得多。所以,数据科学除了需要数学、统计学、计算机科学与技术、人工智能等学科的交叉融合外,还需要与行为科学、语言学、社会学、经济学等学科相结合,以便能很好地解决作为数据分析之前提的统计测度问题。

第三,数据科学将进一步拓展统计测度的边界,并提出更高的要求。伴随着人类认识世界的范围的不断拓展,统计测度的范围也不断扩大,从自然现象统计测度到人口现象、经济现象统计测度,再到社会现象、环境现象、政治现象等统计测度,几乎已经渗透到了所有可以想象到的领域。相应地,统计数据分析也从少量数据的分析进入到了大数据分析。大数据的复杂性、不确定性和涌现性(王元卓等,2013)[14],意味着统计测度的内容大大增加,原来一些不能测度的数据被纳入到了统计测度的范围,按照邱东教授的说法就是统计测度的边界大大扩展了。统计测度边界的扩大,必须以统计测度能力的提升为前提,即要求统计学借助现代信息技术进一步提升处理和分析数据的能力———对大数据“化繁为简”、“变厚为薄”的能力,这就必须以科学准确的大数据统计测度为前提,既改变统计思维,又创新统计分析方法,其中就包括统计测度思维、统计测度方法与统计测度标准。面对大量繁杂的数据,如果没有更好的统计测度思路与方法,包括个体标志定义方法、最小数据细胞分组与聚类方法、关联词含义的时间影响计量方法、定性测度指标筛选方法、再测度路径与方法、大数据统计测度评价标准等,那么统计学在数据科学发展过程中就难以发挥应有的作用,数据科学也将裹足不前。这就是统计学迈向数据科学的重要挑战之一。

综上所述,统计测度的基础性问题从统计学延伸到了数据科学,是两者的共同基础,并且对于数据科学而言显得更为重要。大数据的复杂性、不确定性和涌现性导致了统计测度的难度猛增,亟需建立面向大数据分析的统计测度理论与方法。要通过研究大数据的复杂性、不确定性和涌现性特征的基本因素,以及这些因素之间的内在联系、外在指标和测度方法,进而研究基于先进计算技术的大数据度量模型,构建寻找面向计算的数据内核或者数据边界的基本方法。总之,建立有效易行的数据表示方法,即科学的统计测度方法,是数据科学必须解决的基础问题之一。

四、创新与完善大数据统计测度方法

如前所述,统计学研究对象已经从结构化数据延伸到了包括非结构化数据在内的一切数据,统计测度边界得到了大大的扩展。按照邱东教授[7]曾经引用过的海德格尔的话:“界限并不表示某一事物的发展到此为止,而是像希腊人所认知的那样,界限是某种事物开始展现的地方”,预示着统计学在数据科学发展阶段的新起点已经展现在我们面前。新的统计测度边界催生统计测度方法的创新,统计测度方法的创新促进统计测度边界的拓展,两者相辅相成,共同推动统计学与数据科学的发展。为此,我们要系统梳理统计测度方法的发展历程,面对大数据提出的新挑战,大胆探索统计测度的新思路、新理论和新方法,为数据科学奠定坚实的统计学基础。为此提出如下几点建议:

首先,要紧密结合现象的本质去探求更科学的统计测度方法。本质决定一切,既然统计测度的目的是获得客观反映现象本质的数据,那么深入到现象本质、认识和掌握现象的本质,是科学统计测度的关键,也是探求新的统计方法的出发点。换句话说,科学的统计测度方法能够体现出数据的真正意义。例如,要探求社交网络数据的统计分析和测度方法,就必须了解社交网络的产生背景、构成要素、表现形式与基本特征,既要研究它的共性问题,又要研究它的个性问题与差异性,同时还要研究它的变化趋势。只有这样,才能掌握社交网络数据的构成要件或元素,才能建立起科学的、能有效体现社交网络数据意义的统计测度方法。再如,要分析研究电子商务数据,也必须先弄清楚什么是电子商务,尤其是弄清楚它与传统的商业模式有什么不同(包括物流、资金流与信息流)、有哪些新生事物(包括时空特征、法律监管)等等,否则统计测度无从下手或者抓不住要害。同时,作为一个新的研究领域,数据科学的理论基础将与计算机科学、统计学、人工智能、数学、社会科学等有关,离不开对相关学科领域知识与研究方法的借鉴,因此对相关领域的知识与研究方法的学习十分重要。否则,就会严重扭曲统计测度方法,胡乱设置测度标志,这需要引起高度关注。

其次,要紧密结合大数据的特点去创新统计测度方法。大数据的特点是复杂性、不确定性和涌现性并存,构成了多维的数据空间,里面蕴藏着丰富的信息资源,这是传统的统计数据不可比拟的。那么该从何处进入这样的数据空间?怎么进去?又怎么出来?这归根结底还是统计测度方法问题。因此,在开展大数据分析之前,首先要研究大数据的基础性问题,包括大数据的内在机理(包括大数据的演化与传播机制、生命周期),数据科学与社会学、经济学、行为科学等之间的互动机制,以及大数据的结构与效能的规律性等等,为创新统计测度方法提供导向。本文认为,再复杂的数据也有共性,再不确定的数据也有规律,再涌现的数据也有轨迹。网络大数据背后的网络平均路径长度、度分布、聚集系数、核数、介数等具有共性的特征与参数,是开展复杂网络数据分析的基础(李国杰、程学旗,2012)[15];大数据在时空维度上的分布形式、内在结构、动态变化和相关联的规律,是找到大数据分析切入口、进而简化大数据表征的前提;大数据的涌现性轨迹(包括模式涌现性、行为涌现性和智慧涌现性),是研究更多的社会网络模型和理解网络瓦解失效原因,理解人们网络行为涌现特征(例如人们发邮件数量的时间分布特征),以及探求大量自发个体语义融合连接形成有特定意义的通用语义之过程的路径(靳小龙等,2013)[16]。也就是说,这些共性、规律和轨迹就是统计测度的主要依据,也是重点内容。发展和创新能够准确发现大数据的共性、规律和轨迹的定量方法,其实就是发展和创新大数据统计测度方法。

第三,要紧密结合现代信息技术以完善统计测度方法。复杂、多变和不断涌现的大数据,不仅需要借助现代信息技术(包括硬件与软件)来解决极其复杂的分析计算问题,也需要利用现代信息技术来解决其繁杂多样的统计测度问题。对于大数据,不论是原始统计测度还是再测度,其复杂性或难度都不是传统的结构化数据所能相提并论的,哪怕是基本的关联词计数、分类与汇总,其工作量之大也超乎想象,不借用现代信息技术几乎是不可能完成的。而事实上,有些统计测度的内容与方法本身也是以数据处理能力的提升为前提的。可以说,脱离现代信息技术,人们难以承受大数据的统计测度与分析任务;要把统计测度思想变为可实现的统计测度方法,必须借助现代信息技术。为此,要充分利用各种信息技术和手段,把统计测度与数据清洗相结合、与数据分析模型相结合、与计算方法相结合,努力建立融自动搜索统计测度、动态演化统计测度和自主优选统计测度为一体的大数据统计测度方法体系。

数据分析统计学方法范文4

一、统计学中的几种常见统计思想

统计思想主要包括:均值思想、变异思想、估计思想、相关思想、拟合思想、检验思想等。统计思想不是天然形成的,需要经历统计观念、统计意识、统计理念等阶段。统计思想是根据人类社会需求的变化而开展各种统计实践、统计理论研究与概括,才能逐步形成系统的统计思想。作为一门应用统计学,它从数理统计学派汲取新的营养,并且越来越广泛的应用数学方法,联系也越来越密切,但在统计思想的体现上与通用学派相比,还有着自己的特别之处。其基本特点:

(1)统计思想强调方法性与应用性的统一;

(2)统计思想强调科学性与艺术性的统一;

(3)统计思想强调客观性与主观性的统一;

(4)统计思想强调定性分析与定量分析的统一。

1.均值思想。均值是对所要研究对象的简明而重要的代表。均值概念几乎涉及所有统计学理论,是统计学的基本思想。均值思想也要求从总体上看问题,但要求观察其一般发展趋势,避免个别偶然现象的干扰,故也体现了总体观。

2.变异思想。统计研究同类现象的总体特征,它的前提则是总体各单位的特征存在着差异。统计方法就是要认识事物数量方面的差异。统计学反映变异情况较基本的概念是方差,是表示“变异”的“一般水平”的概念。平均与变异都是对同类事物特征的抽象和宏观度量。

3.估计思想。估计以样本推测总体,是对同类事物的由此及彼式的认识方法。使用估计方法有一个预设:样本与总体具有相同的性质。样本才能代表总体。但样本的代表性受偶然因素影响,在估计理论对置信程度的测量就是保持逻辑严谨的必要步骤。

4.相关思想。事物是普遍联系的,在变化中,经常出现一些事物相随共变或相随共现的情况,总体又是由许多个别事务所组成,这些个别事物是相互关联的,而我们所研究的事物总体又是在同质性的基础上形成。因而,总体中的个体之间、这一总体与另一总体之间总是相互关联的。

5.拟合思想。拟合是对不同类型事物之间关系之表象的抽象。任何一个单一的关系必须依赖其他关系而存在,所有实际事物的关系都表现得非常复杂,这种方法就是对规律或趋势的拟合。拟合的成果是模型,反映一般趋势。趋势表达的是“事物和关系的变化过程在数量上所体现的模式和基于此而预示的可能性”。

6.检验思想。统计方法总是归纳性的,其结论永远带有一定的或然性,基于局部特征和规律所推广出来的判断不可能完全可信,检验过程就是利用样本的实际资料来检验事先对总体某些数量特征的假设是否可信。

二、对统计思想的若干思考

1.要改变当前存在的一些不正确的思想认识。英国著名生物学家、统计学家高尔顿曾经说过:“统计学具有处理复杂问题的非凡能力,当科学的探索者在前进的过程中荆棘载途时,唯有统计学可以帮助他们打开一条通道”。但事实并非这么简单,因为我们所面临的现实问题可能要比想象的复杂得多。此外,有些人认为方法越复杂,越科学。在实际的分析研究中,喜欢简单问题复杂化,似乎这样才能显示其科学含量。其实,真正的科学是使复杂的问题简单化而不是追求复杂化。与此相关联的是,有些人认为只有推断统计才是科学,描述统计不是科学,并延伸扩大到只有数理统计是科学、社会经济统计不是科学这样的认识。这种认识是极其错误的,至少是对社会经济统计的无知。比利时数学家凯特勒不仅研究概率论,并且注重于把统计学应用于人类事物,试图把统计学创建成改良社会的一种工具。经济学和人口统计学中的某些近代概念,如GNP、人口增长率等等,均是凯特勒及其弟子们的遗产。

数据分析统计学方法范文5

徐斌,苏州工业园区第二实验小学副校长。中学高级教师,江苏省数学特级教师,“江苏人民教育家培养工程”培养对象,教育部“国培计划”首批特聘专家。其教育事迹在《人民教育》“名师人生”栏目作专题报道,《中国教育报》曾七次连载了“徐斌教育教学艺术系列报道”。出版有专著《为学生的数学学习服务》及“中国名师”系列教学光盘。《大数据时代》一书的作者舍恩伯格指出,大数据导致的思维变革,使得人们对信息判断变得更多(不是随机抽样,而是全体数据)、更杂(不是精确性,而是混杂性)、更好(不是因果关系,而是相关关系)。可见,随着大数据时代的到来,人类的思维产生了巨大的变革,数据与人的关系变得密不可分,数据分析观念已经成为每个公民不可或缺的基本素养。同时,我们发现,义务教育阶段的“统计和概率”部分是数学课程标准修订后变化最大的内容领域。十多年的数学课程改革实验中,统计与概率的教学出现了哪些新问题?为什么核心概念中将“统计观念”修改为“数据分析观念”?什么样的统计与概率内容才是适合学生学习的?怎样让数据变得“亲切”起来?

问题1:数据分析观念的内涵是什么?

从“统计观念”到“数据分析观念”,不仅是概念名称的变化,更重要的是概念内涵的强化。统计的核心是数据分析,数据分析观念的内涵主要体现在以下三个方面:

首先,体会数据中蕴涵着信息。数据是什么?课标修订组组长、著名统计学家史宁中先生指出:“数据是信息的载体,这个载体包括数,也包括言语、信号、图像,凡是能够承载事物信息的东西都构成数据,而统计学就是通过这些载体来提取信息进行分析的科学和艺术。”统计学是建立在数据基础上的,本质上是通过数据进行分析和推断。数据分析观念的首要方面就是要让学生体会数据中蕴涵着信息,要让学生了解在现实生活中有许多问题应当先做调查研究,通过收集、分析数据做出判断。

其次,根据问题的背景选择合适的方法。统计学是通过数据来推断数据产生的背景,即便是同样的数据,也允许人们根据自己的理解提出不同的推断方法,给出不同的推断结果。在整理、描述和分析数据的过程中,首先让学生学会分类整理,并能用文字、图画和表格来呈现整理结果,重在让学生体会运用数据进行表达与交流的作用,感受数据蕴涵着信息;随着年级的升高,逐步让学生正式学习统计图表(条形统计图、扇形统计图、单式与复式统计表、单式与复式折线统计图等),并能够根据实际需要灵活选择统计方法。统计方法的选择不是唯一的,统计学对结果的判断标准没有对错之分,只有好坏之别。

第三,通过数据分析体验随机性。在推断性数据分析过程中,常常需要通过样本来推断总体,而在调查或实验之前,我们不可能知道数据的具体取值。也就是说,数据可以取不同的值,并且取不同值的概率可以是不一样的,这就是数据随机性的由来。数据的随机性有两层含义:一方面对于同样的事情每次收集到的数据可能不同,另一方面只要有足够的数据就可能从中发现规律。

问题2:怎样让数据变得“亲切”起来?

以往的统计与概率教学中,学生常常感到数据陌生、单调、繁杂、冰冷,这是因为教学过程中脱离了学生的生活实际,违背了学生的认知规律,偏离了统计的应用价值。要改变这样的状况,让数据变得“亲切”起来,可以从以下三方面做起:

首先,让学生对数据产生强烈的需要。小学生学习的统计不应是纯统计学意义上的统计,也不是纯数学知识意义上的统计,而应是联系生活实际初步体会数据中蕴涵着信息,选择合适的统计方法,做出合理的判断。因此,在统计与概率的教学中,要紧密联系学生的实际,从学生的生活出发,选择他们喜欢的事件,比如可以让学生统计他们喜欢的歌曲、食品、运动项目、课外读物等,也可以让学生统计同学的生日、属相、年龄、身高、体重等。

其次,让学生完整经历数据分析的过程。要让学生逐步建立对数据的亲切感,最好的办法莫过于让他们亲身经历调查、研究、分析数据以及做出判断的活动过程。在此过程中,学生将不仅仅学习一些必要的知识和方法,还将体会数据中蕴涵着信息,提高自己运用数据分析问题、解决问题的能力。数据分析的过程可以概括为:收集数据、整理数据、描述数据和分析数据。当然,在收集数据的过程中,一方面要让学生学会阅读和理解现成的数据,另一方面更为重要的是要让学生自己收集数据。学生自己收集数据时可以采用调查、体验、测量、查阅资料等方法。同时,要根据解决问题的需要灵活地选择统计图表。比如,想表达某部分数据在整个数据中所占比例的情况,用扇形图比较好;想比较各种数据之间的数量关系,用条形图或直方图比较好;如果数据随着时间而变化,想了解数据的变化情况,用折线图就比较好。

第三,让学生真切体验统计的价值。统计的核心是数据分析,统计的目的是发现信息、寻找规律、做出判断、解决问题,从这个意义上说,统计学是真正的应用数学。因此,对统计结果的恰当运用是完整的统计过程的必要组成部分。例如统计同学的身高和体重情况,不能单纯地为了数据而收集数据,而应该建立在解决实际问题的基础上,比如为了帮助同学订购校服或者了解同学的身体发育和健康情况而需要相关数据。这样,学生不仅对统计的过程感兴趣,更重要的是能够真切地体验到数据分析的实际作用,不惧怕数据,就有可能会主动去获取信息,逐渐亲近数据、喜欢数据,使得数据成为学生发现、提出、分析和解决问题的好伙伴。■

(作者单位:江苏省苏州工业园区第二实验小学)《义务教育数学课程标准(2011年版)》在核心概念中,将过去的“统计观念”修改为“数据分析观念”,从概念内涵和外延的变化给我们带来了新的思考。数据分析观念包括:了解在现实生活中有许多问题应当先做调查研究,收集数据,通过分析做出判断,体会数据中蕴涵着信息;了解对于同样的数据可以有多种分析的方法,需要根据问题的背景选择合适的方法;通过数据分析体验随机性,一方面对于同样的事情每次收集到的数据可能不同,另一方面只要有足够的数据就可能从中发现规律。数据分析是统计的核心。

同时,从“统计与概率”的内容领域修订调整来看,变化很大:第一学段中,对“统计与概率”的内容要求从过去的11条减为3条,删除了“不确定现象”“平均数”“条形统计图”(移到了第二学段)。第二学段中,删除了中位数和众数(移到了第三学段)。

针对这样的目标要求和内容调整,我们还可以延伸阅读以下资料,以便完整认识和实践参考。

1.《统计与真理――怎样运用偶然性》([美]C.R.劳著,李竹渝、石坚、白志东译,科学出版社)

2.《机会的数学》(陈希孺著,清华大学出版社)

3.《数学思想概论(第1辑):数量与数量关系的抽象》(史宁中著,东北师范大学出版社)

4.《小学数学课程标准研究与实践》(王林等著,江苏教育出版社)

5.《义务教育数学课程标准(2011版)解读》(教育部基础教育课程教材专家工作委员会编,北京师范大学出版社)

6.《“数据分析观念”的内涵及教学建议――数学教育热点问题系列访谈之五》(史宁中、张丹、赵迪,《课程・教材・教法》,2008年第6期)

数据分析统计学方法范文6

《义务教育教学课程标准(2011年版)》将原来的“统计观念”改为“数据分析观念”,并把“数据分析观念”作为数学学习的十个核心观念之一,指出了统计的核心就是数据分析。通过学习,我对数据分析观念的内涵有了更深刻的认识:使学生了解在现实生活中有许多问题应当先做调查研究,收集数据,通过分析做出判断,体会数据中蕴涵的信息;了解对于同样的数据可以有多种分析的方法,需要根据问题的背景选择合适的方法;通过数据分析体验随机性,一方面对于同样的事情每次搜集到的数据可能不同,另一方面说明只要有足够的数据就可能从中发现规律,数据分析是统计的核心。

如何发展学生的数据分析观念,培养他们对数据的分析与判断能力?下面谈谈我个人的粗浅看法。

一、让学生参与数据搜集的全过程

统计学的一个核心就是数据分析。不论是统计还是概率,都要基于数据,基于对数据的分析;在进行预测的同时,为了使预测更合理,也需要搜集更多的数据。培养“数据分析观念”最好的办法是让学生经历数据的搜集、整理、描述、分析的全过程,让学生亲身体验进行数据分析的必要性。学生通过大量重复试验,在头脑中再现知识的形成过程,避免单纯地记忆,使学习成为一种再创造的过程,数据分析观念也得到了初步培养。

例如,“组织比赛”的情境,学生在操场上讨论:“组织什么比赛好呢?”“去问一问同学,他们最喜欢什么活动?”这就使学生认识到统计对决策的作用,引起学生进行调查的愿望。教材紧接着安排小调查,“调查你们班的部分同学,他们最喜欢什么活动,在下图中涂一涂。”这就要组织学生搜集数据、整理数据,用在方格纸上涂一涂的方式呈现数据。最后安排学生说一说:

(1)一共调查了几个同学?喜欢什么比赛的同学最多?喜欢什么比赛的同学最少?

(2)喜欢足球的同学比喜欢跳绳的同学多多少个?

(3)如果你们班有一名同学没来,猜一猜他(她)最有可能喜欢什么活动。

(4)你认为你们班最好组织什么比赛?

(5)根据统计图,你还能提出什么数学问题?

这就是引导学生分析数据,做出合理的决策。上面的例子就是根据低年级儿童的特点,组织学生经历统计活动的全过程,发展学生的数据分析观念。

二、引导多角度分析数据

义务教育阶段的统计学习要让学生有意识地、正确地运用统计来解决实际问题,并理智地分析他人的统计数据,以作出合理的判断。稻莘治龅墓程应该把重点放在怎样分析数据上。教师要启发学生自己想办法,多角度全方位分析数据,让学生感悟到我们做统计的目的是解决问题。

案例:《认识中位数》教学中有以下环节:

(课件出示)例题5,出示场景图,同学们正在进行跳远比赛,看看他们的成绩:

五年级(2)班7名男生的跳远成绩如下表。

(1)分别求出这组数据的平均数和中位数。

(2)用哪个数代表这组数据的一般水平更合适?

(3)如果 2.89m以上为及格,有多少名同学及格了,超过半数了吗?

(4)如果再增加一个同学杨冬的成绩 2.94m,这组数据的中位数是多少?

首先让学生分组讨论: ①表格中的数据有什么特点,有几位同学的成绩,最高是多少,最低是多少?②求数据的平均数和中位数,看看几位学生的成绩与平均数和中位数之间的大小有何关系? ③选择哪两个统计表示数据的一般水平比较合适呢?

(5)学生汇报:7名男生跳远成绩的平均数是2.96,中位数是2.89,有5名男生的成绩低于平均值,这说明在这里用平均数来代表该组成绩不太合适,应选用中位数。

强调:①中位数的求解方法,首先将数据按照大小顺序排列好;②找到最中间位置的数据2.89;③矛盾:当数据增加一个后,一共有偶数个数,中间位置出现两个数据:2.89和2.90,最中间的数找不到怎么办?学生展开讨论。讨论结论:一组数据中有偶数个数的时候,中位数是最中间的两个数的和除以2计算出中位数来。也就是需要求两个数的平均数,即这组数据的中位数。

数据分析应该把重点放在怎样分析数据上。因此,我们要启发学生自己想办法,让学生感悟到我们是为了解决问题而来做统计的。通过数据分析,学生从中提取相关信息,根据不同的背景,选择不同的方法,从而培养学生思维的灵活性。学生从中发现问题,并且思考解决问题的办法。

三、体验数据分析的随机性

数据的随机性主要有两层含义:一方面对于同样的事情每次搜集到的数据可能会不同;另一方面只要有足够的数据就可能从中发现规律。

史宁中说:“统计与概率领域的教学重点是发展学生的数据分析意识,培养学生的随机观念,难点在于,如何创设恰当的活动,体现随机性以及数据获得、分析、处理进而作出决策的全过程。”

如二年级有这样一个课堂教学片段:

组织小组活动:盒子里有3个黄球、3个白球。每次摸出1个,摸之前先猜猜你会摸到什么颜色的球,每次你都猜对了么?

活动结束时,老师询问:有没有每次都猜对的同学?(全班只有2人举手)

师:为什么我们那么多的同学都没有猜对呢?(此时,两个猜对的同学急于向大家介绍方法)

生1:黄球和白球摸在手里的感觉不一样!

师:(饶有兴趣地问)真的吗?让我们见识一下!

生1:(摸出一球,没看前猜测)黄色!(拿出后是白色,生1低头坐了下去)

师:怎么不试了?

生1:没有信心了。

师:怎么就没有信心了?

生1:摸在手里分辨不出来。

生2:我发现了,如果第一次摸出来的是黄球,第二次就猜是白球,是交错出现的。

师:你刚才就是这样猜的,结果都对了吗?

生2:连连点头。

师(半信半疑):还有这个规律?摸1个!

(生2摸出1个白球,放回)

生2:第二次一定是黄球。

(第二次生2果真摸出一个黄球)

师:看来,下次……

生2:第三次该是白球了!

(第三次生2摸出个黄球)

师:这个规律还成立么?

学生直摇头。

师:通过刚才的摸球游戏,你发现了什么?

生:盒子里有黄球又有白球,摸出一个球,可能是黄球,也可能是白球。

通过学生操作实验,用实验获得数据,再对数据进行分析,这种通过对数据进行分析处理,让学生体会了数据的随机性,从而发展了学生的数据分析观念。