前言:中文期刊网精心挑选了数据统计分析范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。
数据统计分析范文1
随着市场竞争的日益激烈,倡导所有的企业“以用户为中心、以市场为导向、以效益为目标”,企业的发展都面临着前所未有的挑战,要想在竞争中立于不败之地,就有必要不断增强企业的精确化管理和精确化营销。报表广泛应用于各行各业,不仅是整理和分析数据的有效的手段之一,也是企业单位决策的重要依据,在企业单位中有着重要的地位,也是信息化的最重要的组成部分。但是由于报表的种类繁多、形式复杂多变,给计算机的实现带来一定的麻烦。为了适应不断变化的格式,需要重新改写程序,通常需要为每一格式的报表定制编程,使得成本很高并且不具有灵活性。所以企业单位中数据统计分析报表系统的设计一直是研究开发人员的重点研究的问题。
报表情况概述
(一)报表的定义理解。报表,就是将内容信息(一般是数据、文字、图片等)以某种形式组织起来,并将组织结果呈现出来的文件。只要是做数据的呈现,无论数据存在于文本文件内、Excel文件或者是在数据库之内,只要可以将它呈现出来,打印输出格式化的数据信息,就是一份报表。报表作为一种信息组织和分析的有利手段,在各行各业都应用广泛,是信息浏览、分析、打印的有利工具,也是企业信息系统重要组成部分之一。
(二)报表的分类。按格式可以分为静态格式和动态格式。静态格式报表是由政府等管理组织制定的,格式固定而且复杂,格式与数据来源在开发时就已经固定,在使用时不需要改动,通过开发环境的自带报表组件、应用程序、第三方控件实现,比如财务报表等。动态格式报表数据量较大,数据和格式需要经常变动,用户需要自由定义,所以要有变通性和通用性,比如统计报表等。
(三)报表的构成。无论是静态的还是动态的报表都是由表头区、标题区、表体区及表尾区四个区域组成的。
(四)报表的内容。报表的内容包括两个方面,一个是静态不变的框架结构,即表头区、标题区、及表尾区,这些结构在一段时间内是不会改变的。另外一个是动态的数据,指将数据库内容,经过计算、查询及综合动态的操作,写入到表格中的相应位置。
数据统计分析报表的重要性
向企业的领导和决策部门提供高质量的、准确的、及时的数据统计分析报表是企业数据管理部门的职能。提供高水平的数据统计分析报表是数据经过深加工的最终产品,是统计数据、分析研究的有机结合,为企业领导和决策部门提供优质的服务,是他们分析经济运行态势,制定宏观决策和长远规划必不可少的重要依据。在计算机辅助技术迅速发展,世界市场动态多变,竞争日益激烈的世界经济环境下,企业的生存环境发生着巨大的变化,各种新概念新模式不断涌现,企业开始朝着全球化、敏捷化、智能化、信息化和个性化的方向发展。
传统数据统计分析报表中存在的问题
常规的数据统计分析报表主要通过纸质报表、Excel报表及专门定制的软件来呈现。而纸质的报表是最为常见的,大多企业的生产自动化的程度不高,计算机的应用不够广泛,工作人员接受创新事物的能力差等原因,所以大多的企业采用的是纸质的报表,数据的统计部门,根据需求手绘制定报表的格式,下发到其他的部门或者是生产的车间内,由部门的负责人或者是车间的管理人员按照要求填写所要的数据或者其他的指标性文字,再返回到数据统计部门。
Excel报表是在纸质报表上的一大进步,简化了纸质报表的很多程序。统计部门可以根据数据的要求在计算机上绘制电子表格,定义要求。通过网络下发到各部门和车间。数据的计算工作可以通过在计算机上引入公式完成。但是这种报表的统计分析工作还得通过统计人员手动汇总计算,统计分析形成最终的报表。
还有就是专门定制的软件,这样的软件并不是通用于所有的部门的,他们有着许多使用的局限性,例如制造企业的管理和设计软件能实现各生产部门的数据统计分析、形成制造业通用的报表,而不能灵活的完成其他形式的报表。
数据统计分析报表系统的设计
数据统计分析报表的设计最关键的环节就是报表的模板和报表的输出,下面就Excel报表模板及利用DDE通信、ACCESS数据库、OLE几种报表的输出方式探讨了数据统计分析报表系统的设计。
(一)利用Excel制定报表模板。通过运用Excel的制表功能,制定出不同的报表模板,不管是检定结果还是鉴定证书等样式的报表,每个报表的模板可以按照不同的数据需求,制定不同的结构,有报表格式、表头、表尾、框架等固定的部分。在制表的过程中由于计算机的智能会自动完成一些简单的合并、对齐、字号、字体等工作。但是对于某些非常复杂的表格编程,上述的自动化程序不起太大的作用,这时我们可以在制表之前就对表格的格式及公式定义做一些设定。这样,不仅减轻了编程与维护的工作量,还提高工作的效率。
(二)利用DDE通信来实现报表输出。Excel是办公必备的软件,也是人们最常用的表格、计算及统计的软件,它不仅查询、浏览的功能强大,而且其中内置的运算函数十分丰富,使用非常便捷。Excel在报表中应用,应用人员得心应手。动态数据交换是Windows平台中能够彼此进行交换数据与发送指令,是完整的通信协议之一。DDE方式的应用,使计算机中的各种程序通过动态数据交换的方式和MCGS来进行数据交换,是实现利用计算机中的资源对MCGS的功能进行扩充的方式,通过动态数据交换使程序读取MCGS数据库的数据,再依据要求把所读取的数据在Excel中显示出来,完成报表的输出。
(三)利用ACCESS数据库来实现报表输出。报表的制作通常是通过报表设计器或利用第三方的Activex的报表控件来实现。但是这两种方法都存在着这样那样不足:报表设计器只适用于制作一些不带有表格的报表,同时它必须与vB所提供的设计器进行结合使用,异常的麻烦;而利用第三方的Activex的报表控件来实现的,虽然相对简便,可以通过套用应用于多种的报表格式中,但是实用性较差,在实际应用中某些功能难以满足实际项目的要求。然而利用ACCESS数据库能解决上述的问题,利用MCGS数据库的访问功能,把采集到的现场数据输Access的数据库中,然后通过MCGS内部函数来调用已有程序,把Access数据库中的数据输入到的Excel的报表中,从而实现报表输出。
(四)利用OLE实现报表输出。它是一种对象连接和嵌入技术,是一种集成应用程序,是一种能够让用户共享各种不同程序的信息资源的技术。OLE技术可以将声音、图像、文字、影像结合于一体的。MCGS组态软件其本身的OLE功能可帮助用户在数据统计程序中十分方便地操作并读取组态软件所采集到的实时数据,从而制成报表。
数据统计分析范文2
【关键词】:污水处理;检测数据;统计分析
中图分类号:P628+.1文献标识码:A
在污水处理厂中,常常需要对检测数据进行统计分析,主要应用了统计学中的方差分析、回归分析等方法来研究和分析水质和数据之间的关系,以此确定检测数据的有效性。在污水处理厂中主要对PH值、COD、氨氮、硝氮、亚硝氮、总磷等进行检测,确定其数据的有效性和水质之间的关系。
一、污水处理厂中的相关处理方法简介
对于污水处理厂来说水质就是是水与水中杂质共同表现的综合特征,其中水中杂质的尺度就被称之为水质指标。在污水处理中常常需要考虑多种监测指标,简单可以分为物理指标、化学指标、生物指标。同时也可以按照检测过程进行分类,可以分为运行前监测指标、运行中监测指标、出水监测指标,这些分类方法可以按照不同的需要进行恰当的分类。
在我国污水处理厂要进行四级处理的方法,即初级处理、一级处理、二级处理和三级处理的方式。其中一级处理主要是水中的悬浮固体物、浮油或重油、胶状物等进行分离,可以使用水质水量调节、上浮、自然沉淀、隔油等方法来实现[1]。二级处理主要是去除胶状污染物和可进行生物降解的有机溶解物,减少水的CDD和BOD,常用生物化学的方法。对于环境标准要求高而且水质污染比较严重的情况,或者BOD和CDD比值非常小(小于0.2~0.25),则用三级处理的方法。三级处理是去除生物难降解的有机污染物和溶解在废水中的无机污染物,常用化学氧化和活性炭吸附的方法,也可以使用膜分离技术或离子交换等方法。针对不同的污水可以根据具体情况,选择不同组合的处理方法[2]。
二、对检测数据常用的统计方法分析
化学需氧量(COD)的测定是污水处理厂主要的监测项目,对COD的测定可以掌握构筑物的实际情况,通过对COD的数据分析,可以随时调整构筑物的运行情况,以保证污水处理的效果。对污水厂出水来说,COD也是是必须监测的项目,其出水的水质应当达到国家的相关标准。污水中的CODCr由可以进行降解所需要的氧气含量CODB和不可以进行降解的有机物所需要的氧气含量CODNB组成,在可以用以下式子所组成[3]:
CODCr=CODB+CODNB (1)
假设m= CODB/BOD5,(1)式可以表示为
CODCr=m BOD5+CODNB(2)
或者 BOD5=1/m CODCr-1/m CODNB (3)
当实验条件相同,水质一定时,m和CODNB为某个常数,可以通过最小二乘方法将检测到的CODCr、BOD5数据进行回归处理。在置信度为95%的情况下,r的取值氛围为r0.05n-2≤r≤1,(2)式子所确定的方程才有意义。当r接近1的时候,其线性相关程度也越高,其中回归方程的置信区间为BOD5=1/m CODCr-1/m CODNB±2S,式子S表示剩余标准差,可以用下式来计算
通过此式可以确定在测量氛围的每个CODCr都有95%的BOD5值落在置信带内。
在污水处理厂中常常得到大量的检测数据,如果对所得到的一组数据进行分析时会经常发现某个数据和其它数据之间的差距比较大,这些数据被称为离群数据。在污水处理厂中通常要判断检测的数据是否满足排放的保证,以及不同的方法和工作人员对检测结果的影响,常常需要对数据进行离群值检验,然后才能进行其它的判断。在离群值检验中又常常分为两种情况,如标准差未知和已知的情况。
在大部分的情况下,标准差都是未知的,需要对检验组中的数据进行分析来判断离群值数据是否进行保留,常用的有统计学中的Q检验法、极差法、t检验法、格拉布斯法等方法。在标准偏差已知的情况下,可以用一些公式来进行检验[4],
其中Xd表示被检验数据的离群值,表示测定值的算术平均值,σ表示有不含异常值的其它实验测定值。如果计算所得到了T值大于表中的临界值,则Xd应当作为异常值而舍去。
t检验法是检测污水排放是否达标中的一项重要的数学方法,通过对检测数据进行分析,判断检测结果是否小于标准值。建设现在有小于20个检测数据,它们分别为x1、x2、x3……一共n个这样的数据,其中不包含离群值。可以用以下方法判断其是否小于标准值[5]:
首先应当计算其算术平均值和标准偏差,
;;
其次选择经验显著水平α,通过查表可以得到自由度为n-1时的t1-α;
然后计算;
最后如果(X-C)>μ,则可以判断其检测结果大于标准值。
三、结束语
当不考虑人为因素对检测数据的影响,那么检测数据就能够恰当的表现了环境状况的变化,常常出现以下几种检测结果:(1)如果算术平均值低于标准值,但是S值比较大,说明了环境质量不容乐观,可以采用显著检验的方法进一步分析,判断其数据是否达标;(2)如果算术平均值低于标准值,S值非常小,说明水质质量比较稳定,超标的概率不是很大;(3)如果算术平均值高于标准值,S值非常大,说明水质质量不够稳定,而且其中有很多不确定因素,可以采用显著检验的方法进一步分析,判断其数据是否达标;(4)如果算术平均值高于标准值,S值非常小,说明水质质量不够稳定,而且超标。
【参考文献】:
[1]赵玉林,徐蕾.污水处理厂检测数据统计分析的研究[J].环境科学与管理,2009,34(12):25-30.
[2]赵玉林,徐蕾.污水处理厂检测数据统计分析的研究[J].新疆环境保护,2009,31(02):11-16.
[3]陈传星,康孝友.城市污水处理在线监测管理系统的研究与应用[J].中国高新技术企业,2009,(14):4-6.
数据统计分析范文3
为了进一步了解馆藏图书的利用情况,现从社科类、自科类及综合类的角度对2008年—2012年5年数据进行结构划分,其中社科类包含《中图法(第四版)》中的A-K类,自科类包含N-X类,综合类指Z类。综合类每年的购置量很少,此次在表2中体现,仅供参考,重点将社科与自科类图书进行分析。从馆藏册数方面,由表2的数据统计得知自科类图书占据主导地位,分别占到55%,54.5%,56%,54.5%,56.2%,这与图书馆每年制定的自科社科6:4的图书入藏比例基本相符,也表明了图书馆的馆藏结构符合学校以工为主的办学特色。流通比例是指图书的借阅量与总的借阅量的比例,可以从很多方面进行划分,时间段内读者对各类图书的整体需求比例,从类别结构划分流通比例就可以客观的反映出来。由表2的数据统计得知,2008年—2012年,社科类的流通比例每年都高于自科类,分别占到了56%,58%,60%,57%,66%。
入藏比例与流通比例的分析比对
取自科与社科的入藏比例和流通比例的差值Z,以数值0为分界点,分为正负两个区间,如果Z值落在同区间内,则表示馆藏图书与读者需求在整体上保持一致,反之,若Z值落在不同的区间,则表示馆藏图书与读者需求存在矛盾。计算公式Z=X-YX:入藏比例Y:流通比例如图1所示,图书馆5年内的Z值均分布于两个不同的区间,从而说明,入藏的图书与读者的需求存在出入,没有达到一致。那么,为了使图书更好的被利用,是应该继续按照图书馆原有的采购比例继续采购,还是要改变采购方向迎合读者的需求,就要进一步的了解利用率较高的几大类图书。
文献的利用率衰减对文献采购的影响
1图书利用率的分类排名
通过统计,借阅率排名前10位的有文学(I)、哲学(B)、艺术(J)、语言、文字(H)、社科总论(C)、历史、地理(K)、经济(F)、工业技术(T)、政治法律(D)、数理科学和化学(O)。以2008年入藏的中文图书作为统计对象,以2008年—2012年5年作为5个借阅时间段,前10位的借阅率统计结果如表3。表3的统计结果清晰表明,在每年的借阅率排名前10类中,社科类占到了80%,而自科类只占到了20%,社科类中文学(I)的借阅率更是高居榜首,文学类图书受到读者的欢迎,在其他各个高校中的借阅率排名亦是居高不下。社科类更是占据了借阅率排行的前6位。自科类排名中T大类遥遥领先,这是由于工业技术本身就涵盖了TB、TD、TM等众多类别,受众面较为广泛,但与社科类的图书利用率进行比较,自科类的图书利用率还是有一定的差距。一个图书情报机构是为某一个或几个专业研究、教育培训服务,还是为一般参考咨询或娱乐欣赏服务,这是设计藏书结构的基本出发点和目标[2]。西安理工大学属于理工院校,以工为主亦应该在图书馆馆藏结构中得以体现。
2文献利用率的衰减分析
文献可看作是一种信息,信息有其时效性,文献的价值也会随着时间的流逝而逐渐降低(特种文献除外)[3],图书的利用率也符合这种规律逐年衰减。这一点可从表3的各类图书的年利用率中清晰看到。文学(I)从91.19%降至47.70%,其它各类图书都有不同程度的降低。如果用U来表示图书利用率的衰减程度,那么U就应该等于同样的入藏图书大类在不同时间段内的借阅率之差。U的值越大,说明该类图书利用率的衰减程度大,利用价值损耗大,反之,说明该类图书的利用价值时间长,采购图书时应加以考虑。2008年入藏的图书,在2008年的借阅率与2012年的借阅率之差结果如图2所示。其中U值较小的为T类与O类,I类排在第4位。自科类的图书利用率虽然较低,但是,随着时间的推移,自科类的图书利用率衰减值小,所以利用价值可持续的周期比较长,可供读者的参考价值也较高。社科类的图书借阅率较高,但是时效性低,而且衰减值高,图2中显示,J类,H类,C类,F类的借阅率之差相当,而且数值较高,I类图书借阅率最高,但是属于非专业图书,应控制采购比例。2008年入藏的图书,5年之后,2012年的利用率排名前3位的分别为文学(I)47.70%、哲学(B)47.62%、工业技术(T)40.90%。T与O大类的借阅率排名分别从第8位与第10位上升为第3位与第6位。这说明自科类的图书保值期比社科类图书时间长,例如2008年购置的自科类《电子线路CADProtel99SE》一书,在2008年流通量为6次,2012年仍然流通量4次,而社科类《经济学的分析方法》一书,2008年的流通量为11次,在2012年就只流通了1次。
数据统计分析范文4
[关键词]建筑业;统计分析;利用;大数据
前言
数据统计是国家进行市场监控和企业进行内部管理的重要依据,对建筑行业的影响十分巨大。面对呈现出多元化的投资主体、承包方式,以及极具弹性的建筑业统计方法和数据整理分析,在建筑行业进行数据统计分析时利用好大数据,成为提高建筑业统计分析质量的有效方法。
一、建筑业统计分析的重要性
在建筑业运行过程中进行统计分析,其统计数据能够为政府进行市场监管提供直观可靠的理论依据,同时能够给企业相关管理者提供内部管理和改造的参考依据。对建筑行业进行统计分析能够直观反映生产运作的真实情况,从而帮助决策者根据实际情况的不断发展对企业的生产规划作出改进。建筑企业做出合理的发展规划是与数据统计分析密切相关的,统计分析能够起到一个总结工作成果和指明发展方向的作用。对建筑业进行统计分析,是以建筑企业为主体展开的,包括企业的从业人员,企业的可用设备,固定资产原价以及固定资产净值等部分。只有对生产过程中相关的各项数据进行整合与分析,才能切实得到企业在这一阶段的发展过程中进行了哪些消耗,这些消耗为企业带来了哪些利润,并将各项消耗与企业的利润进行对比,才能更直观的看到企业的利润最大来自于哪方面,而哪些消耗是可以减少或者避免的。统计分析能够在整体上反映建筑业的发展情况,并引导政府、企业管理者进行监控与调控。
二、建筑业统计分析利用大数据的方法
(一)完善立法,加强执法
建筑业的统计分析需要一个良性的社会环境。在进行统计时要严格遵循《统计法》和《统计法实施细则》,有理有据的进行统计分析。同时,由于现阶段建筑业的统计分析需要加入大数据,这就要求我国相关部门参照大数据的特点,制定针对于大数据环境和发展情况的统计法规,为建筑业在新时代的统计分析提供一个更加安全的环境。
(二)完善统计体系和评价制度
国家应该制定针对于建筑业的完善的统计体系,规范建筑行业进行统计分析的方法,从而更好地对建筑业进行监督与调控。制定好的统计体系要符合中国经济发展的实际,与建筑业的现状密切相关,这个统计体系还要能够随着社会的发展作出改进,并遵循科学发展观的要求。从而减少建筑业统计分析过程中的不确定性,才能在新的时期利用好大数据,减少大数据给建筑业的统计分析带来的工作量,并使统计分析更加规范和具有权威性。在一种科学的方法中利用好大数据做好对建筑业的统计分析,推动整个建筑业的发展。建筑业的统计分析是讲究质量的,随意要求在系统的统计体系的基础之上建立起来一个完善的统计数据质量评价制度。
一个完善的评价制度能够对建筑业得出的各类数据进行审核与监督,从而保证统计数据的真实性,为下一步的数据统计分析工作提供正确的数据,保证统计分析的顺利进行,并得出有效的结论。大数据是多元化的、具有实时性的,这就要求相关人员在进行数据统计时根据评价制度选取有价值的数据进行整合和分析,才能得到真正反映建筑企业运行状况的数据,从而根据这些数据进行下一步的工作安排,做到事半功倍。
(三)构建系统的统计网络
大数据的利用是离不开网络的,这就需要建筑行业吸收掌握先进网络技术的人才,为建筑业的统计分析构建一个系统的统计网络,为建筑业统计分析利用大数据提供可能。这个统计网络不是字面意义上的构建一个专门用来进行数据统计的系统,而是包括从管理人员到员工的整个建筑企业在内,建设一个包含整个企业各环节的内部统计网络。首先要安排专门的企业领导者负责进行数据统计和分析工作,并由其指定相关人员进行各部门、各环节的统计工作。从高层到低层,每一环节都要将数据统计的管理者落实到实处,并让其真正对这一工作负责,定期将统计结果上报给上一级统计人员。并最终选择三至五人对收集好的数据进行整合和分析,提供给建筑企业的领导者,让其根据数据做出最后的决断,并最终作出企业发展的规划。做好相关人员的人事统计网络之后,再建立好利用网络技术进行数据处理的真正意义上的统计网络。这个统计网络也能技术收录本企业各部门的发展概况,并对其运行过程中出现的各项数据进行统计。每个部门都设定为一个独立的统计单元,各统计单元之间也要相互联系,将各项数据进行整合。并制定专门的统计分析功能,让系统自动将数据进行统计分析,提供给管理者,从而减轻相关统计人员的工作压力。有特殊需要的情况下还可以将各项数据制成统计图,更直观的观察各项指标的变化。各建筑企业之间还可以通过统计网络进行数据的交流,让各企业之间能够互相借鉴,从而做出更好的推动建筑业向前发展的决策。这样在两个方面构建系统的统计网络,才能在建筑业进行统计分析的过程中真正利用好大数据,更直观更系统的监控建筑企业的发展状况,并作出及时地调整。
(四)提高统计人员的素质
建筑业数据分析利用大数据,不仅仅是少部分人的工作,是需要整个建筑行业的从业人员进行关注的。这就要求建筑行业的从业人员特别是专注于统计工作的工作人员提升自身素质,紧随时展步伐,学会使用新兴的网络技术对数据进行整理与分析。首先要求建筑企业的统计人员要具备专业的统计技能,能够敏锐的发现各部门运行过程中发生的变化,并从中整合出数据,进行分析。而现代建筑企业的统计分析需要利用到大数据,这就要求统计人员在掌握了原有的统计技能的基础之上学会运用网络技术、计算机技术进行出具的整合与分析,并通过观察其他建筑企业的各项数据,发现本企业各部门在运行过程中存在的问题,及时反映给相关管理人员。网络技术的应用还为统计人员更多的接触到国外一些高端建筑企业的运行模式提供了便利条件,让我国的建筑企业在借鉴中得到成长。企业管理者要定期对员工进行统计技能的培训,这些培训还应加入对现代高科技的使用,让统计人员掌握紧随时展步伐的新技能,加强员工的职业道德明确员工责任心。从而为建筑业统计分析利用好大数据提供一个有利的环境,让大部分员工能够在进行统计时主动利用大数据,让建筑企业内部管理与时代接轨。
结语
综上所述,建筑业的数据统计在整个建筑业的发展过程中处于一个十分重要的位置,统计分析的好坏直接影响着建筑业的发展方向。在进行建筑业的统计分析时,完善立法,加强执法,建立系统的统计体系和评价制度,构建系统的统计网络并提高统计人员的素质,从而更好地利用大数据,推动建筑业的飞速发展。
参考文献
[1]应佩君.提高建筑业统计数据质量方法探讨[J].统计科学与实践,2012,03:58-59.
数据统计分析范文5
【关键词】信息化;医疗统计数据;控制
一、前言
紧跟着我国目前信息化水平的不断发展,医院医疗建设也迈入了一个新台阶。目前来看,我国大多数医院都是利用数字化和信息化这两个方式进行管理,这样的管理措施不单单会使得医院医疗统计数据质量得到提高,而且还能够在目前的医院医疗卫生改革下完成医院工作,因此,有关工作是具有非常大的意义。除此之外,在目前医院医疗卫生产业不断前进下,全方位的进行医院医疗统计数据工作,亦是当今发展的关键项目,面对有关数据信息的处理不单单还需要关注质量,还要重视成本的计算,关注对目前医院所面临的问题分析。因此,加强医院医疗统计数据的管理与控制,是现在医院工作的关键部分。
二、目前我国医疗统计数据所面临的问题
(一)标准化层次低
医疗统计数据需要把医院的具体运行状况和患者的具体健康情况准确地进行描述,将客观、全方位、高效和真实的信息进行展现出来。然而,利用调查分析得出,现在我国医疗计量和评价标准都是没有满足其要求的。紧跟着社会化的持续发展,我国已经逐渐进入到了一个信息化的时代,医院也迈向信息化和数字化的朝向发展。然而,在具体的医疗操作中,医院对医疗数据的统计是没有给予过多的关注的,使其变成了医疗数据来源中的盲区。对于医院医疗管理的中,不一样的科室和不一样的病种的医疗质量分析以及研究等,都是远远无法满足数据统计要求的。除此之外,在处理医疗数据过程中,常常会产生新的数据指标,然而在具体统计工作是没有把这样的数据信息进行反映的,往往表现为滞后以及缓慢。另一方面,医院数据统计在再设计这个层面上是欠缺的,计算机管理人员因为不理解医院在数据收集、分析、应用等方面都是无法切实反映出医院的真实情况,致使医院医疗统计数据的标准化层次较低,使得同级医院数据信息很难实施对比分析等。
(二)业务能力较薄弱
依据有关信息资料表示,在外国的一些医疗单位中,其统计人员与医院床位数的比例大概是1:12,而我国医疗单位的比例为1:100,在一些基层医院其比例甚至更低。在具体的管理中,其统计者本身能力是比较低的,其调查与取样缺少针对性和专门性,致使统计工作只可以依据报表来进行管理工作,其得到的统计数据信息不够真实可靠,而且相较于日常医疗管理工作来说,其数据信息是具有滞后的。虽然医院在相关的部门制定了相应的专门人员进行统计活动,然而因为其专业的根基并不是很高,大部分从业人员都是从医院和其它相关部门转过来的,很多都是没有通过正统的专业统计训练的,致使目前这种信息化的驱使下,其统计管理工作运行的并不是很顺畅,严重阻碍了数据统计的质量和效率。
三、提升医疗统计数据质量的措施
(一)实施监控评估
如果想要在根本上提升医疗统计数据信息的质量,第一,就是要建立一个完善的监控评估措施。就监控来说,需要扩大其统计监督执行力度、进行相应的奖惩考核手段、设立和完善相关的管理机制,这样都是提升提医疗统计数据质量的保障。就技术来说,在医院管理体系上实施跟踪软件的设置以及安装,设定对应的在线监测体系,进而可以使得数据统计有关信息得到收集,保证行为的切实性,切实检查出相关不满足标准的数据信息。与此同时,在管理和控制上,需要按期向上级对其所面临的有关数据信息质量问题实施汇总,且对这样的信息误差实施改正,合理有效的衡量这些数据信息的规范和标准。除此之外,在进行评估之前,需要把这些分散的数据信息进行汇总,依据医院的需要,和医院的具体状况进行结合,建立相关的统计指标系统,进而促进医院内部管理和发展,对医院资源实施优化配置,发展不一样的指标综合评价形式,推动其评价可以把将医院医疗统计数据的完整性得以表现。
(二)健全其法律法规制度
真实性和客观性是信息化医疗统计数据中的两个重要特点。如果在统计管理中,产生数据误差不单单会影响到大众的身体健康,更有甚者会危害到大众的生命财产安全。所以,在收集和管理统计数据的过程中,需要严格依据有关的法律法规制度的要求实施工作。通过建立有效合理的法律法规,使得医院医疗统计数据避免受到不良的信息进行干扰和作用,保证数据的真实性以及客观性。例如:在门诊数据统计当中,需要科学合理分类指标系统,进而避免在就诊中产生混乱的现象,与此同时,还需要合理管理病患,使得病患可以对号入座,用这个来节省就诊时间。合时宜的补充新增加的指标,依据实际所遇到的问题进行具体分析,采用科学合理的管理举措以及控制措施。紧跟着医院医疗建设的发展,其统计工作也有了对应的改善,在其产生改变的同时,应切实更新其原有的含义和概念。与此同时,上级主管人员需要对基层员工的实际工作实施相关的培训和指导,进而防止最终结论产生较大的判断偏差。
(三)建立科学合理的统计分析系统
对于医院的经营管理程序中,综合统计分析是其主要的构成部分之一。所以,在具体的管理中,可以将医院的经验管理实际状况和管理水平进行结合。第一,要建立一整套科学合理的统计分析系统,使其对比分析的结果能够实现预期的目标。第二,对医院不一样时期的统计指标进行分析和比较,且从中找到其差距,和同级医院实施对比和分析,将其结果和完成状况实施仔细地研究和分析,把影响到医院医疗统计工作的有关因数寻找出来,给出相应科学合理的建议。第三,通过因数比较,将不同因数的变化影响因素实施测量,实施投入产出的比较,对医院的经济利益实施综合评价,进行动态分析,正确把握住医院发展的趋势,对医疗格局实施科学合理地调节,有效配置医院内部中的财力、人力和物力等,重视其工作重心,提高医院医疗服务质量,进而得到更好的经济利益和社会利益。
(四)人员的管理
通过管理的过程中,其信息化发展无论多么先进,机器设备多么发达,都是需要人工进行操作的。在收集、分析、保存和比较医院医疗数据信息时,人都是最为活跃的因素。紧跟着医院信息化的推动作用,要逐渐的发展和健全医院的医疗统计工作,提升工作人员的素质能力和专业知识技能。而这样也要求了在管理与控制中,其工作人员一定要理解和把握相关的计算机技术,而且对医学、统计专业知识、计算机技术、疾病分类防御、医学管理和信息技术等有所相关的认识,全面、全方位地来监管以及处理这些统计数据信息资料。与此同时,医院本身还需要扩大对统计部门的投入,按期实施各个层面的专业知识培训,建造一支专业技知识强的统计队伍,利用不同的形式以及渠道来实施业务能力培训,尽可能为不同的员工提供交流以及进修的机会。除此之外,还需要加强管理计算技术层面的培训,进而提升管理人员道德素质和专业能力。
四、总结
总而言之,紧跟着信息化的发展和医院管理的具体要求,以前的医疗统计数据的对策已经无法适应时代的发展。本文从实施监控评估,健全其法律法规制度,建立科学合理的统计分析系统以及人员的管理这四个方面提升医疗统计数据质量。通过分析能够有效的统计信息,在现今社会下推动医院统计工作的完善。
参考文献
[1]毛云鹏,冯昌琪,方诗伟,等.卫生统计直报数据共享的研究[J].中国卫生信息管理杂志,2012,9(6):87-91.
[2]王丛梅.信息化医疗统计数据质量管理与控制[J].吉林医学,2010,31(3):425-426.
数据统计分析范文6
关键词:大数据;统计学;数据分析;抽样理论;理论
重构随着信息科学技术的高速度发展,当代获取和储存数据信息的能力不断增强而成本不断下降,这为大数据的应用提供了必要的技术环境和可能.应用大数据技术的优势愈来愈明显,它的应用能够帮助人类获取真正有价值的数据信息.近年来,专家学者有关大数据技术问题进行了大量的研究工作[1],很多领域也都受到了大数据分析的影响.这个时代将大数据称为未来的石油,它必将对这个时代和未来的社会经济以及科学技术的发展产生深远的意义和影响.目前对于大数据概念,主要是从数据来源和数据的处理工具与处理难度方面考虑,但国内外专家学者各有各的观点,并没有给出一致的精确定义.麦肯锡全球数据分析研究所指出大数据是数据集的大小超越了典型数据库工具集合、存储、管理和分析能力的数据集,大数据被Gartner定义为极端信息管理和处理一个或多个维度的传统信息技术问题[23].目前得到专家们认可的一种观点,即:“超大规模”是GB级数据,“海量”是TB级数据,而“大数据”是PB及其以上级别数据[2].
一些研究学者把大数据特征进行概括,称其具有数据规模巨大、类型多样、可利用价值密度低和处理速度快等特征,同时特别强调大数据区别于其他概念的最重要特征是快速动态变化的数据和形成流式数据.大数据技术发展所面临的问题是数据存储、数据处理和数据分析、数据显示和数据安全等.大数据的数据量大、多样性、复杂性及实时性等特点,使得数据存储环境有了很大变化[45],而大部分传统的统计方法只适合分析单个计算机存储的数据,这些问题无疑增加了数据处理和整合的困难.数据分析是大数据处理的核心过程,同时它也给传统统计学带来了巨大的挑战[6].产生大数据的数据源通常情况下具有高速度性和实时性,所以要求数据处理和分析系统也要有快速度和实时性特点,而传统统计分析方法通常不具备快速和实时等特点.基于大数据的特点,传统的数据统计理论已经不能适应大数据分析与研究的范畴,传统统计学面临着巨大的机遇与挑战,然而为了适应大数据这一新的研究对象,传统统计学必须进行改进,以继续和更好的服务于人类.目前国内外将大数据和统计学相结合的研究文献并不多.本文对大数据时代这一特定环境背景,统计学的抽样理论和总体理论的存在价值、统计方法的重构及统计结果的评价标准的重建等问题进行分析与研究.
1传统意义下的统计学
广泛的统计学包括三个类型的统计方法:①处理大量随机现象的统计方法,比如概率论与数理统计方法.②处理非随机非概率的描述统计方法,如指数编制、社会调查等方法.③处理和特定学科相关联的特殊方法,如经济统计方法、环境科学统计方法等[7].受收集、处理数据的工具和能力的限制,人们几乎不可能收集到全部的数据信息,因此传统的统计学理论和方法基本上都是在样本上进行的.或者即使能够得到所有数据,但从实际角度出发,因所需成本过大,也会放弃搜集全部数据.然而,选择最佳的抽样方法和统计分析方法,也只能最大程度还原总体一个特定方面或某些方面的特征.事实上我们所察觉到的数据特征也只是总体大量特征中的一小部分,更多的其他特征尚待发掘.总之,传统统计学是建立在抽样理论基础上,以点带面的统计分析方法,强调因果关系的统计分析结果,推断所测对象的总体本质的一门科学,是通过搜集、整理和分析研究数据从而探索数据内部存在规律的一门科学.
2统计学是大数据分析的核心
数的产生基于三个要素,分别是数、量和计量单位.在用数来表示事物的特征并采用了科学的计量单位后,就产生了真正意义上的数据,即有根据的数.科学数据是基于科学设计,通过使用观察和测量获得的数据,认知自然现象和社会现象的变化规律,或者用来检验已经存在的理论假设,由此得到了具有实际意义和理论意义的数据.从数据中获得科学数据的理论,即统计学理论.科学数据是通过统计学理论获得的,而统计学理论是为获得科学数据而产生的一门科学.若说数据是传达事物特征的精确语言,进行科学研究的必备条件,认知世界的重要工具,那么大数据分析就是让数据最大限度地发挥功能,充分表达并有效满足不同需求的基本要求.基于统计学的发展史及在数据分析中的作用,完成将数据转化为知识、挖掘数据内在规律、通过数据发现并解决实际问题、预测可能发生的结果等是研究大数据的任务,而这必然离不开统计学.以大数据为研究对象,通过数据挖掘、提取、分析等手段探索现象内在本质的数据科学必须在继承或改进统计学理论的基础上产生.
统计数据的发展变化经历了一系列过程,从只能收集到少量的数据到尽量多地收集数据,到科学利用样本数据,再到综合利用各类数据,以至于发展到今天的选择使用大数据的过程.而统计分析为了适应数据可观察集的不断增大,也经历了相应的各个不同阶段,产生了统计分组法、大量观察法、归纳推断法、综合指标法、模型方程法和数据挖掘法等分析方法,并且借助计算机以及其他软件的程度也越来越深.300多年来,随着数据量以指数速度的不断增长,统计学围绕如何搜集、整理和分析数据而展开,合理构建了应用方法体系,帮助各个学科解决了许多复杂问题.现在进入了大数据时代,统计学依旧是数据分析的灵魂,大数据分析是数据科学赋予统计学的新任务.对于统计学而言,来自新时代的数据科学挑战有可能促使新思想、新方法和新技术产生,这一挑战也意味着对于统计学理论将面临巨大的机遇.
3统计学在大数据时代下必须改革
传统统计学是通过对总体进行抽样来搜索数据,对样本数据进行整理、分析、描述等,从而推断所测对象的总体本质,甚至预测总体未来的一门综合性学科.从研究对象到统计结果的评判标准都是离不开样本的抽取,完全不能适应大数据的4V特点,所以统计学为适应大数据技术的发展,必须进行改革.从学科发展角度出发,大数据对海量数据进行存储、整合、处理和分析,可以看成是一种新的数据分析方法.数据关系的内在本质决定了大数据和统计学之间必然存在联系,大数据对统计学的发展提出了挑战,体现在大样本标准的调整、样本选取标准和形式的重新确定、统计软件有待升级和开发及实质性统计方法的大数据化.但是也提供了一个机遇,体现在统计质量的提高、统计成本的下降、统计学作用领域的扩大、统计学科体系的延伸以及统计学家地位的提升[7].
3.1大数据时代抽样和总体理论存在价值
传统统计学中的样本数据来自总体,而总体是客观存在的全体,可以通过观测到的或经过抽样而得到的数据来认知总体.但是在大数据时代,不再是随机样本,而是全部的数据,还需要假定一个看不见摸不着的总体吗?如果将大数据看成一个高维度的大样本集合,针对样本大的问题,按照传统统计学的方法,可以采用抽样的方法来减少样本容量,并且可以达到需要的精度;对于维度高的问题,可以采取对变量进行选择、降维、压缩、分解等方法来降低数据的复杂程度.但实际上很难做得到,大数据涵盖多学科领域、多源、混合的数据,各学科之间的数据融合,学科边界模糊,各范畴的数据集互相重叠,合成一体,而且大数据涉及到各种数据类型.因此想要通过抽样而使数据量达到传统统计学的统计分析能力范围是一件相当困难或是一件不可能的事.大量的结构数据和非结构数据交织在一起,系统首先要认清哪个是有价值的信息,哪个是噪声,以及哪些不同类型的数据信息来自于同一个地址的数据源,等等,传统的统计学是无法做到的.在大数据时代下,是否需要打破传统意义的抽样理论、总体及样本等概念和关系,是假设“样本=总体”,还是“样本趋近于总体”,还是不再使用总体和样本这两个概念,而重新定义一个更合适的概念,等等.人们该怎样“安排”抽样、总体及样本等理论,或人们该怎样修正抽样、总体、样本的“公理化”定义,这个问题是大数据时代下,传统统计学面临改进的首要问题.
3.2统计方法在大数据时代下的重构问题
在大数据时代下,传统的高维度表达、结构描述和群体行为分析方法已经不能精确表达大数据在异构性、交互性、时效性、突发性等方面的特点,传统的“假设-模型-检验”的统计方法受到了质疑,而且从“数据”到“数据”的统计模式还没有真正建立,急切需要一个新的理论体系来指引,从而建立新的分析模型.去除数据噪声、筛选有价值的数据、整合不同类型的数据、快速对数据做出分析并得出分析结果等一系列问题都有待于研究.大数据分析涉及到三个维度,即时间维度、空间维度和数据本身的维度,怎样才能全面、深入地分析大数据的复杂性与特性,掌握大数据的不确定性,构建高效的大数据计算模型,变成了大数据分析的突破口.科学数据的演变是一个从简单到复杂的各种形式不断丰富、相互包容的过程,是一个循序渐进的过程,而不是简单的由一种形式取代另一种形式.研究科学数据的统计学理论也是一样,也是由简单到复杂的各种形式相互包容、不断丰富的发展过程,而绝不是完全否定一种理论、由另一种理论形式所代替.大数据时代的到来统计学理论必须要进行不断的完善和发展,以适应呈指数增长的数据量的大数据分析的需要.
3.3如何构建大数据时代下统计结果的评价标准框架
大数据时代下,统计分析评价的标准又该如何变化?传统统计分析的评价标准有两个方面,一是可靠性评价,二是有效性评价,然而这两种评价标准都因抽样而生.可靠性评价是指用样本去推断总体有多大的把握程度,一般用概率来衡量.可靠性评价有时表现为置信水平,有时表现为显著性水平[8].怎么确定显著性水平一直是个存在争议的问题,特别是在模型拟合度评价和假设检验中,因为各自参照的分布类型不一样,其统计量就不一样,显著性评价的临界值也就不一样,可是临界值又与显著性水平的高低直接相关.而大数据在一定程度上是全体数据,因此不存在以样本推断总体的问题,那么在这种情况下,置信水平、可靠性问题怎么确定?依据是什么?有效性评价指的是真实性,即为误差的大小,它与准确性、精确性有关.通常准确性是指观察值与真实值的吻合程度,一般是无法衡量的,而精确性用抽样分布的标准差来衡量.显然,精确性是针对样本数据而言的,也就是说样本数据有精确性问题,同时也有准确性问题.抽样误差和非抽样误差都可能存在于样本数据中,抽样误差可以计算和控制,但是非抽样误差只能通过各种方式加以识别或判断[910].大多数情况下,对于样本量不是太大的样本,非抽样误差可以得到较好的防范,然而对于大数据的全体数据而言,没有抽样误差问题,只有非抽样误差问题,也就是说大数据的真实性只表现为准确性.但是由于大数据特有的种种特性,使得大数据的非抽样误差很难进行防范、控制,也很难对其进行准确性评价.总之,对于大数据分析来说,有些统计分析理论是否还有意义,确切说有哪些统计学中的理论可以适用于大数据分析,而哪些统计学中的理论需要改进,哪些统计学中的理论已不再适用于大数据统计研究,等等,都有待于研究.所以大数据时代的统计学必是在继承中求改进,改进中求发展,重构适应大数据时代的新统计学理论.
4结论
来自于社会各种数据源的数据量呈指数增长,大数据对社会发展的推动力呈指数效应,大数据已是生命活动的主要承载者.一个新事物的出现,必然导致传统观念和传统技术的变革.对传统统计学来说,大数据时代的到来无疑是一个挑战,虽然传统统计学必须做出改变,但是占据主导地位的依然会是统计学,它会引领人类合理分析利用大数据资源.大数据给统计学带来了机遇和挑战,统计学家们应该积极学习新事物,适应新环境,努力为大数据时代创造出新的统计方法,扩大统计学的应用范围.
参考文献:
[1]陈冬玲,曾文.频繁模式挖掘中基于CFP的应用模型[J]沈阳大学学报(自然科学版),2015,27(4):296300.
[3]卞友江.“大数据”概念考辨[J].新闻研究导刊,2013,35(5):2528.
[5]靳小龙,王元卓,程学旗.大数据的研究体系与现状[J].信息通信技术,2013(6):3543.
[6]覃雄派,王会举,杜小勇,等.大数据分析:Rdbms与Mapreduce的竞争与共生[J].软件学报,2012,23(1):32-45.
[7]游士兵,张佩,姚雪梅.大数据对统计学的挑战和机遇[J].珞珈管理评论,2013(2):165171.
[8]李金昌.大数据与统计新思维[J].统计研究,2014,31(1):1017.