前言:中文期刊网精心挑选了医学统计学范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。
医学统计学范文1
生物信息学融合了生物技术、计算机技术、数学和统计学的大量方法,已逐渐成为发现生命过程中所蕴涵知识的一门重要学科。其基本问题主要包括:DNA分析、蛋白质结构分析、分子进化。医学统计学作为医科院校的基础课程之一,长期以来其理论和方法就广泛应用于临床医学、基础医学的各类研究中。随着生物新技术的诞生,在推动生物信息学发展的同时,医学研究对象也由宏观的病人、生物组织拓展到微观的基因领域,所面对的实验数据在性质和结构上也都有所不同,这对医学统计学的应用提出了新的更高的要求。
目前,医学统计学的很多原理和方法已成功地应用于这些新研究之中,并在此基础之上有了新的发展和改进。如概率分布的知识与序列相似性分析、蛋白质分类等技术密切相关;方差分析、非参数检验方法经改进和结合后在基因表达数据的前期分析中发挥了较好的作用;而聚类分析、判别分析、相关分析这些大家所熟知的统计学方法更是在基因分类和调控网络的建立中得到了广泛的应用。在进行医学统计学课堂教学时加入生物信息学方面的应用实例,不仅可以使学员了解本学科研究的前沿和医学、生物信息学研究的新发展,还可以提高学员对于医学统计学理论学习的兴趣,掌握先进的生物实验数据分析方法,提高今后从事医学科研的能力。下面,本文在回顾医学统计学授课主要内容的基础上,就医学和生物信息学中的可能应用举例如下:
一、概率分布
概率分布(probabilitydistribution)是医学统计学中多种统计分析方法的理论基础。授课内容一般包括:二项分布、Possion分布、正态分布、t分布、F分布等。
借助概率分布常常可以帮助我们了解生命指标的特征、医学现象的发生规律等等。例如,临床检验中计量实验室指标的参考值范围就是依据正态分布和t分布的原理计算得到;许多医学试验的“阳性”结果服从二项分布,因此它被广泛用于化学毒性的生物鉴定、样本中某疾病阳性率的区间估计等;而一定人群中诸如遗传缺陷、癌症等发病率很低的非传染性疾病患病数或死亡数的分布,单位面积(或容积)内细菌数的分布等都服从Poisson分布,我们就可以借助Poisson分布的原理定量地对上述现象进行研究。
在生物信息学中概率分布也有一定应用。例如,Poisson分布可以用于基因(蛋白质)序列的相似性分析。被研究者广泛使用的分析工具BLAST(BasicLocalAlignmentSearchTool)能迅速将研究者提交的蛋白质(或DNA)数据与公开数据库进行相似性序列比对。对于序列a和b,BLAST发现的高得分匹配区称为HSPs。而HSP得分超过阈值t的概率P(H(a,b)>t)可以依据Poisson分布的性质计算得到。
二、假设检验
假设检验(hypothesis)是医学统计学中统计推断部分的重要内容。假设检验根据反证法和小概率原理,首先依据资料性质和所需解决的问题,建立检验假设;在假设该检验假设成立的前提下,采用适当的检验方法,根据样本算得相应的检验统计量;最后,依据概率分布的特点和算得的检验统计量的大小来判断是否支持所建立的检验假设,进而推断总体上该假设是否成立。其基本方法包括:u检验、t检验、方差分析(ANOVA)和非参数检验方法。
假设检验为医学研究提供了一种很好的由样本推断总体的方法。例如,随机抽取某市一定年龄段中100名儿童,将其平均身高(样本均数)与该年龄段儿童应有的标准平均身高(总体均数)做u检验,其检验结果可以帮助我们推断出该市该年龄段儿童身高是否与标准身高一致,为了解该市该年龄段儿童的生长发育水平提供参考。又如,医学中常常可以采用t检验、秩和检验比较两种药物的疗效有无差别;用2检验比较不同治疗方法的有效率是否相同等等。
这些假设检验的方法在生物实验资料的分析前期应用较多,但由于研究目的和资料性质不同,一般会对某些方法进行适当调整和结合。
例如,基于基因芯片实验数据寻找差异表达基因的问题。基因芯片(genechip)是近年来实验分子生物学的技术突破之一,它允许研究者在一次实验中获得成千上万条基因在设定实验条件下的表达数据。为了从这海量的数据中寻找有意义的信息,在对基因表达数据进行分析的过程中,找到那些在若干实验组中表达水平有明显差异的基因是比较基础和前期的方法。这些基因常常被称为“差异表达基因”,或者“显著性基因”。如果将不同实验条件下某条基因表达水平的重复测量数据看作一个样本,寻找差异表达基因的问题其实就可以采用假设检验方法加以解决。
如果表达数据服从正态分布,可以采用t-检验(或者方差分析)比较两样本(或多样本)平均表达水平的差异。
但是,由于表达数据很难满足正态性假定,目前常用的方法基于非参数检验的思想,并对其进行了改进。该方法分为两步:首先,选择一个统计量对基因排秩,用秩代替表达值本身;其次,为排秩统计量选择一个判别值,在其之上的值判定为差异显著。常用的排秩统计量有:任一特定基因在重复序列中表达水平M值的均值;考虑到基因在不同序列上变异程度的统计量,其中,s是M的标准差;以及用经验Bayes方法修正后的t-统计量:,修正值a由M的方差s2的均数和标准差估计得到。
三、一些高级统计方法在基因研究中的应用
(一)聚类分析
聚类分析(clusteringanalysis)是按照“物以类聚”的原则,根据聚类对象的某些性质与特征,运用统计分析的方法,将聚类对象比较相似或相近的归并为同一类。使得各类内的差异相对较小,类与类间的差异相对较大1。聚类分析作为一种探索性的统计分析方法,其基本内容包括:相似性度量方法、系统聚类法(HierarchicalClustering)、K-means聚类法、SOM方法等。
聚类分析可以帮助我们解决医学中诸如:人的体型分类,某种疾病从发生、发展到治愈不同阶段的划分,青少年生长发育分期的确定等问题。
近年来随着基因表达谱数据的不断积累,聚类分析已成为发掘基因信息的有效工具。在基因表达研究中,一项主要的任务是从基因表达数据中识别出基因的共同表达模式,由此将基因分成不同的种类,以便更为深入地了解其生物功能及关联性。这种探索完全未知的数据特征的方法就是聚类分析,生物信息学中又称为无监督的分析(UnsupervisedAnalysis)。常用方法是利用基因表达数据对基因(样本)进行聚类,将具有相同表达模式的基因(样本)聚为一类,根据聚类结果通过已知基因(样本)的功能去认识那些未知功能的基因。对于基因表达数据而言,系统聚类法易于使用、应用广泛,其结果——系统树图能提供一个可视化的数据结构,直观具体,便于理解。而在几种相似性的计算方法中,平均联接法(AverageLinkageClustering)一般能给出较为合理的聚类结果2。
(二)判别分析
判别分析(discriminantanalysis)是根据观测到的某些指标的数据对所研究的对象建立判别函数,并进行分类的一种多元统计分析方法。它与聚类分析都是研究分类问题,所不同的是判别分析是在已知分类的前提下,判定观察对象的归属3。其基本方法包括:Fisher线性判别(FLD)、最邻近分类法(k-NearestNeighborClassifiers)、分类树算法(ClassificationTreeAlgorithm),人工神经网络(ANNs)和支持向量机(SVMs)。
判别分析常用于临床辅助鉴别诊断,计量诊断学就是以判别分析为主要基础迅速发展起来的一门科学。如临床医生根据患者的主诉、体征及检查结果作出诊断;根据各种症状的严重程度预测病人的预后或进行某些治疗方法的疗效评估;以及流行病学中某些疾病的早期预报,环境污染程度的坚定及环保措施、劳保措施的效果评估等。
在生物信息学针对基因的研究工作中,由于借助了精确的生物实验,研究者通常能得到基因(样本)的准确分类,如,基因的功能类、样本归结于疾病(正常)状态等等。当利用了这些分类信息时,就可以采用判别分析的方法对基因进行分类,生物信息学中又称为有监督的分析(SupervisedAnalysis)。例如,基因表达数据分析中,对于已经过滤的基因,前三种方法的应用较为简单。而支持向量机(SVMs)和人工神经网络(ANNs)是两种较新,但很有应用前景的方法。
(三)相关分析
相关分析(correlationanalysis)是医学统计学中研究两变量间关系的重要方法。它借助相关系数来衡量两变量之间的关系是否存在、关系的强弱,以及相互影响的方向。其基本内容包括:线性相关系数、秩相关系数、相关系数的检验、典型相关分析等。
我们常常可以借助相关分析判断研究者所感兴趣的两个医学现象之间是否存在联系。例如,采用秩相关分析我们发现某种食物中黄曲霉毒素相对含量与肝癌死亡率间存在正相关关系;采用线性相关方法发现中年女性体重与血压之间具有非常密切的正相关关系等等。
生物信息学中可以利用相关分析建立基因调控网络。如果将两个不同的基因在不同实验条件下的表达看作是两个变量,相关分析所研究的正是两者之间的调控关系。如采用线性相关系数进行两基因关系的分析时,其大小反应了基因调控关系的强弱,符号则反应了两基因是协同关系(相关系数为正),还是抑制关系(相关系数为负)。
四、意义
医学统计学范文2
关键词:医学院校 统计学教学
统计学作为医药卫生类学生的一门必修的基础课程,针对不同的学生群体,教师应当采用不同的教学方法。医学院校应以实践为主,强调学生学有所用,在分析医学院校统计学教学的一些特点以及应该采用的教学方法进行实践教学。
1. 教学用通俗简洁的语言
医学统计学是一门对医学临床实践进行调查、分析和研究,找出医学科学发展规律,并在此基础上做出预测或决策的学科。它作为医药卫生类基础课程之一,一直被学生认为是枯燥而难学的课程。传统的教学过于注重统计指标的计算统计理论的演绎,使学生深陷繁复的计算中,对于如何运用统计方法和统计工具解决实际问题则讲得很少。教师在授课过程中一般都基于统计学基本概念的阐述和统计公式的推导,使用的语言都非常专业化、学术化。语言一定要简洁、通俗,只有这样才符合学生的实际情况,而且这种语言形式要贯穿讲课的始终,不管是讲授统计思想、统计概念还是讲授统计公式,都可以把内容具体化,删繁就简,挑选重点有代表性地着重讲解,而没有必要针对对每一个公式都推导演算,可以通过不断地举实例来说明统计概念的意义,能使学生活学活用。教师在上课过程中应该多用些提问句、疑问句,引导学生发现问题、提出问题,培养学生提问问题的能力。教师还要和学生互动, 一起探讨问题、解决问题,这样可以激发学生的学习积极性,提高教学效率。所以教师在讲课时要与学生熟知或学过的课程联系,更加便于他们理解、掌握所学的统计学知识,并且能把所学过的知识融会贯通其学科之中。
2.案例教学
案例教学就是教师通过分析案例,激发学生参与讨论、分析,让学生从自己的亲身体验中理解理论知识。
2.1准备工作
要做好准备工作,就是精心选择适当的临床案例。所谓的适当是指:一要和所讲述的理论知识联系密切;二要难度适中,但要有综合性,不能只针对某个具体定义而编写,因为案例太容易就没有挑战性,不深入讨论就学不到东西,太难就会让一部分学生知难而退,不参与讨论;三是尽量选择学生感兴趣的题材,所选的案例必须是真实发生过的事件,而不能是一个虚构的故事。
2.2课堂教学
要组织好案例教学的课堂教学。教师的角色需要发生变化,要从教师的角色转化为一个普通学生,让自己参与其中,充分调动学生的积极性、主动性和自觉性,放手让学生自由讨论。当学生提出问题时,不要直接作答,而是引导学生互答问题和辩论,让学生通过讨论、分析,自觉地运用所学的理论知识,自觉地归纳总结。
2.3课后总结
还要注意在案例课结束以后,要让同学们写总结,把课上所运用的理论知识,在讨论中领悟到的知识点,以及自己归纳总结的知识书面化,只有这样才能达到好的教学效果。
3.多媒体教学
利用多媒体教学就可以把授课重点转向过去传统教学顾及不到但实际上更加重要的方面,即从过去主要针对统计学概念和方法的理解转向使学生深入理解和掌握各种统计方法的实际应用。
3.1多媒体技术教学使内容形象生动
多媒体教学可以内容变得生动、形象、具体。能使学生的注意力很快集中到课堂的教学目标中去,并使学生的学习状态由被动变为主动,使学生们在轻松愉悦的氛围中学到知识。
3.2多媒体技术教学更能加深学生的记忆
由于多媒体教学具有声色兼备的优势,我们可以通过播放视频,向学生讲述各种临床实践及数据统计,这样即加深了印象也做到了了解,比起枯燥的讲解,多媒体更有助于学生记忆。
3.3多媒体技术教学提高课堂教学效率显著
多媒体教学具有大容量的特点,通过图片、视频使学生在课堂有限的45分钟内,接触到大量的知识,能够打破教育的时空界限,拉近了学生与临床实践及数据统计之间的距离,即减轻了教师的劳动强度,又节省了教学时间,起到了事半功倍的效果。
3.4多媒体技术教学应用
在教学实践中,还可以选择一些分析软件,例如Excel办公软件。Excel 是《计算机文化基础知识》中的一部分,医学院校的课程普遍把《计算机文化基础知识》这门课程安排在大一上学期, 而《医学统计学》这门专业基础课则安排在大一下学期或大二开设。所以在学习《医学统计学》时,学生都已对Excel的使用比较熟悉,在具体授课时教师只需把其中的统计分析功能介绍给学生,再演示一些实例,学生一般很快就能掌握,另外,还可以通过让学生操作来检查教学效果。
4.实践训练
教师还要充分利临床实训基地,让学生真正地接触现实,了解所学的知识在实际工作中的运用。还可以就具体问题,模拟问卷调查,从得到的调查数据里运用统计知识、统计方法进行分析,得出结论。例如:在教学过程中组织过学生就生活费的花费问题做过调查,在具体调查过程中考查学生都是用了哪些统计方法,效果很好。
参考文献:
[1]张海燕.多媒体课堂教学设计探析[J].沈阳教育学院学报,2008,(6):95-97.
[2]刘仿.谈多媒体教学中的利与弊[J].河南水利与南水北调,2007,(8):59.
[3]彭玲玲.多媒体在高校教学中应用的利与弊[J].黑龙江教育,2006,(2):157-158.
医学统计学范文3
1.1单因素方差分析(ANOVA)两两比较误用独立样本t检验单因素方差分析设计3组以上的均数比较,如果总体比较有差异,需进行两两比较,一般用SNK法或LSD法。但部分研究者却将资料进行拆分,应用独立样本t检验进行两两比较,导致第Ⅰ类统计学错误发生率(假阳性率)增加,从而掉进了一个常见的“统计陷阱”,使所得结论可信度大大降低甚至得出错误结论。SNK法与LSD法虽然并非等价,实质是一致的。SNK法一般用于经方差分析结果具有统计学意义时才决定进行的两两事后比较,而LSD法可用于方差分析不足以具有统计学意义时也能进行两两比较[1]。比较两种方法在SPSS的输出结果形式,SNK是“分堆”比较,一目了然,对于组别数较多的研究更为好用,但没有具体P值,而LSD是在进行“两两”比较时,能给出具体的P值。
1.2两两比较时检验水准的重新调定χ2检验或秩和检验3组以上整体比较有差异时,需应用分割法进行两两比较,这时检验水准应由原0.05调定为0.0167,否则会增加第Ⅰ类统计学错误的发生率。特别当P值处于0.0167~0.05时,按照P<0.0167的标准,差异无统计学意义,而按照P<0.05的标准,却有意义,与事实相悖,出现假阳性,很容易得出错误结论。这种分割法有时很保守,当行列表资料分组多且为有序时可用Mantel-Haenszel卡方检验,也称线性趋势检验(testforlineartrend)或定序检验(Linear-by-Lineartest)[2]。统计路径:用SPSS进行计数资料的趋势检验,在输出结果中读取线性关联检验统计量(Linear-by-LinearAssociation,LLA),如P<0.05可得出随着病种级别的升高,检测指标逐渐升高的趋势。
1.3临床诊断试验中的统计学方法应用在临床诊断试验研究中,经常选取单项计量指标或者联合计量指标以诊断某种疾病,若仅用初级统计学方法如t检验、单因素方差分析等往往不能有效挖掘信息,此时应采用受试者工作特征曲线(ROC)对检测结果进行分析评价。ROC曲线分析基本原理是通过诊断界点的移动[3],获得多对灵敏度和误诊率(1-特异度),以灵敏度为纵轴、误诊率为横轴,连接各点绘制曲线,然后计算曲线下的面积,面积越大诊断价值越高。ROC曲线很直观,能根据敏感性与特异性之和最大化原则自动产生最有效的诊断临界点。具体路径可以参考相关统计专著[3]。统计学处理一般描述为:采用SPSS(版次)统计软件分析数据,对单项及联合检测结果作图绘成ROC曲线,计算曲线下面积(AUC)和标准误,其中联合检测结果变量即预测概率由Logistic回归产生(也可以用判别分析得出)。计量资料应用-x±s表示,运用独立样本t检验及单因素方差分析,两两比较采用SNK及LSD法,计数资料采用χ2检验。检验水准为0.05。具体内容可据情而定。
1.4重复测量资料的方差分析误用拆分文件的t检验或方差分析如研究共设3组,每位患者在3个时间点均查某项血指标,部分作者在处理此类数据时,常误将纵向(同一时间点3组的比较)与横向(同组3个时间点的比较)数据均应用拆分文件的t检验或单因素方差分析来处理,结果导致统计学第Ⅰ类错误发生。此组数据实质是重复测量资料,应采用重复测量资料的方差分析。SPSS中的统计路径:数据-分析-一般线性模型-重复度量。研究者可以参考相关书籍进行处理[3]。
1.52×2析因设计及析因方差分析实验是2×2析因设计时,分组有两个因素,A与B,故分组为A、B、O、A+B,这个设计在析因设计研究中很常用,但常会出现分组设计正确,却没有用析因设计方差分析。析因设计与单因素方差分析不同[4],它不但能分析治疗效果中处理因素的单独效应和主效应,还能分析因素间的交互效应,并能提高检验效能。非统计专业的研究者进行析因分析可能稍有难度,可参考相关统计学书籍提供的统计步骤进行此类分析[3]。
1.6Meta分析Meta分析是循证医学系统评价常用的方法[5],应用时需注意统计学处理中计数资料采用比值比(OR)作为效应变量。具体路径:先进行异质性检验,当P>0.05时,认为同质,选择固定模型;P≤0.05时,不同质,此时可采用敏感性分析或分层分析等异质性处理,使之达到同质后再选择固定模型;若采用异质性处理仍未达到同质,则采用随机模型,以上统计路径均需交代清楚。Meta分析的结果是以“森林树”体现的,审校中我们经常遇到作者绘制的“森林树”左上角“文献、对比、结果名称”等内容显示为“?”,这是由于部分版本的RevMan软件不能输入中文,此时可以考虑省去,或用Photo-shop软件添加相应中文。Meta分析作为一种高级统计方法,专业性要求较高,作者可参考循证医学类权威杂志上的文章格式,如《中国循证医学杂志》中“论著•二次研究”栏目的循证文章。
2科技论文中统计学处理的相关表述
2.1资料与方法中具体统计路径的描述“统计学处理”的内容常位于论文资料与方法的最后一段,一般来说包括统计软件名称及版次、统计描述、统计方法、检验标准等内容,亦可细致交待每个表格的具体统计方法。经典例子如下,“统计学处理:采用SPSS(版次)统计软件分析数据。计量资料用均数±标准差表示,采用单因素方差分析,两两比较采用SNK法及LSD法。检验水准为0.05”。上述内容包括了大致的统计方法,即具体的统计路径。此部分内容,没有绝对统一的规定[6]。常见的问题有:统计学方法描述不全、内容过于简单、存在粘贴抄写痕迹等。如部分论文的统计学处理中提及“以α=0.05为检验水准,P<0.05为差异有统计学意义”这句话,这在统计学上实质是一个重复句,保留其一即可。
医学统计学范文4
一、样本与总体
前面已提及,医学研究中实际观测或调查的一部分个体称为样本,研究对象的全部称为总体。如作水质检验时从井水或河水中采的水样,临床化验中从病人身上采的血液或其它活体组织标本,是样本;而整个一口井或一条河的某一段所有的水,某病人全身所有的血液或某个组织器官,则是总体。这类总体是具体存在的,但另有些总体却是假想的,只是理论上存在的一个范围。例如试验某一治疗流感新药的疗效,最初接受治疗的一批流感患者,不论数量多少,都只是一个样本。若该药疗效得到肯定,从而加以推广,那么此后凡在相同条件下接受该药治疗的所有流感患者,都属于这个总体。可是当初试用时,这个总体还并不存在,是假想的。
总体包含的观察单位通常是大量的甚至是无限的,在实际工作中,一般不可能或不必要对每个观察单位逐一进行研究。我们只能从中抽取一部分观察单位加以实际观察或调查研究,根据对这一部分观察单位的观察研究结果,再去推论和估计总体情况。如上述某新药治疗流感例子,试验治疗的只是少数有限的病人,而结论却要推广到全体,得出一个该药对所有流感患者之疗效的规律性的认识。所以说,观察样本的目的在于推论总体,这就是样本与总体的辩证关系。
为了使样本能够正确反映总体情况,对总体要有明确的规定;总体内所有观察单位必须是同质的;在抽取样本的过程中,必须遵守随机化原则;样本的观察单位还要有足够的数量。
二、概率
又称机率,是用以描述某事件发生的可能性大小的一个数值。
在自然界和人类社会中,存在着两类不同的现象:①在一定条件下,肯定发生的事件叫做必然事件,肯定不发生的事件叫做不可能事件。如在适当温度湿度下经一定时间孵化,正常受精鸡蛋必然会孵出小鸡来,而石头是不可能孵出小鸡来的。必然事件与不可能事件虽然形式相反,但两者在发生某种结果与否都是确定的,故统称确定性现象。②在基本条件不变的情况下,可能发生的结果有多种,究竟发生哪种结果,事先不能肯定,这类现象叫做随机现象。随机现象的表现结果称为随机事件。如任意抛掷一枚硬币,可能徽花向上也可能币值向上,抛掷前不能肯定,这是一个随机现象,而结果出现“徵花向上”则是一个随机事件。
(一)古典概率 是最简单的随机现象的概率计算。这类随机现象具有两个特征:①在观察或试验中它的全部可能结果只有有限个,譬如为n个,记为E1,E2,…,En,而且这些事件是两两互不相容的,即任何两个事件不能同时发生;②事件E1,E2,…,En的发生或出现是等可能的,即它们发生的概率都一样。古典概率的大部分问题都能形象地用摸球模型来描述。有利于直观地理解概率论的许多基本概念;而且它有着多方面的重要应用,例如工业产品的抽样检查等。
(二)统计概率 上述“事件”是指不能再进行分解或不能由其它事件构成的基本事件。在实际工作中,基本事件的发生并不总是等可能的,而且有时为无穷多个。这样就有必要把古典概率的定义加以推广,从事后经验的角度来理解概率的意义。实践证明,虽然个别随机事件在某次试验或观察中可以出现也可以不出现,但在大量重复试验中它却呈现出明显的规律性。假设在相同条件下,独立地重复做n次试验,某随机事件A在n次试验中出现了m次,则比值m/n称为随机事件A在n次试验中出现的频率。当试验重复很多次时,随机事件A的频率m/n就会在某个固定的常数P附近摆动,而且n愈大摆动的幅度愈小。这种规律性称之为统计规律性。频率的稳定性说明随机事件发生的可能性大小是随机事件本身固有的、不随人们意志为转移的客观属性,所以在医学科研中,当n充分大时,就以频率作为概率的近似值,记住P(A)即
由此可见,频率是就样本而言的,而概率总是从总体的意义上说的。这样,概率就为预计某一事件发生的可能性大小,提供了衡量的尺度。
例如:某病患者40名,用某疗法治疗后,其中35人痊愈,治愈者占治疗人数的35/40,这是频率。因为数量少,这个频率可能波动较大。假如经过长期的大量观察,比如数百、数千例,得到治愈率为70%,我们就可以说,该疗法治愈某病的概率近似值为70%。
又如:某院妇产科在一个月内出生婴儿30名,其中男婴18名,占新生儿数的18/30,这叫频率。大量统计表明,人口中男女的比例基本上是1:1。这是个较稳定的常数,即概率的近似值。于是,在婴儿分娩前,我们就可用它作为尺度,预计是男的概率为1/2(0.5或50%),是女的概率也为1/2(0.5或50%)。
通过以上讨论,可以知道:如果某事件是必然事件,则有m=n,所以必然事件的概率等于1;如果某事件是不可能事件,则有m=0,所以不可能事件的概率等于0;如果某事件是随机事件,则有0
三、随机变量
简单地说,是指随机事件的数量表现。例如一批注入某种毒物的动物,在一定时间内死亡的只数;某地若干名男性健康成人中,每人血红蛋白量的测定值;等等。另有一些现象并不直接表现为数量,例如人口的男女性别、试验结果的阳性或阴性等,但我们可以规定男性为1,女性为0,则非数量标志也可以用数量来表示。这些例子中所提到的量,尽管它们的具体内容是各式各样的,但从数学观点来看,它们表现了同一种情况,这就是每个变量都可以随机地取得不同的数值,而在进行试验或测量之前,我们要预言这个变量将取得某个确定的数值是不可能的。
按照随机变量可能取得的值,可以把它们分为两种基本类型:①离散型随机变量,即在一定区间内变量取值为有限个,或数值可以一一列举出来。例如某地区某年人口的出生数、死亡数,某药治疗某病病人的有效数、无效数等。②连续型随机变量,即在一定区间内变量取值有无限人’或数值无法一一列举出来。例如某地区男性健康成人的身长值、体重值,一批传染性肝炎患者的血清转氨酶测定值等。
四、误差
误差是指实际观察值与客观真值之差、样本指标与总体指标之差。误差可分为系统误差和随机误差。
(一)系统误差 在实际观测过程中,由于仪器未校正、测量者感官的某种障碍、医生掌握疗效标准偏高或偏低等原因,使观察值不是分散在真值两侧,而是有方向性、系统性或周期性地偏离真值。这类误差可以通过实验设计和技术措施来消除或使之减弱,但不能靠概率统计办法来消除或减弱。
(二)随机误差 或称偶然误差,是指排除了系统误差后尚存的误差。它受多种因素的影响,使观察值不按方向性和系统性而随机地变化。随机误差服从正态分布,可以用概率统计方法处理。
在随机误差中,最重要的是抽样误差。我们从同一总体中随机抽取若干个大小相同的样本,各样本平均数(或率)之间会有所不同。这些样本间的差异,同时反映了样本与总体间的差异。它是由于从总体中抽取样本才出现的误差,统计上称为抽样误差(或抽样波动)。抽样误差在医学生物实验中最主要的来源是个体的变异。所以这是一种难以控制的、不可避免的误差。但抽样误差是有一定规律的。研究和运用抽样误差的规律’是根据样本估计总体时所必须领会的基本概念之一,也是医学统计学的重要内容之一。
随机误差中还包括重复误差。它是由于对同一受试对象或检样采用同一方法重复测定时所出现的误差。如用天平称同一个烧杯的重量,重复测定多次,其结果会有某些波动。控制重复误差的手段主要是改进测定方法,提高操作者的熟练程度。重复是摸清实验误差大小的手段,以便分析和减少实验误差。
五、假设检验
亦称显著性检验,其基本原理是先对总体的特征作出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受作出推断。
医学统计学范文5
1资料与方法
1.1一般资料在学期开始前,由学校教务处通过“本科教务系统”把各个班的教学任务分配给任课老师(本课题的研究者之一),研究者在被分配到的班上开展调查研究。因此,理论上各个班级均有相同的概率纳入本研究。本研究样本为2013级临床专业某班医学生,共86名学生,其中男46名,女40名。
1.2教学方式改进方法本研究所采用的教学方法与学生课程成绩考核制度相关联,以增加学生配合新教学方法的积极性。课程成绩考核办法为:平时成绩与期末考试成绩各占50%。其中,平时成绩包括:完成作业的认真程度(40%)+主动分享(10%)+参与“翻转课堂”实践(50%)。完成作业的认真程度中包含有对预习任务的考查,主动分享则包括了课堂主动发言及课程中心论坛参与。
1.2.1改革考核方式,培养学生主动预习与思考的习惯本研究通过在学生课后作业中加入预习内容来促进学生养成预习的习惯。对学生完成作业认真程度的考查包含有对预习作业完成情况的考查,此部分成绩占平时成绩的40%。通过增加预习作业占期末成绩的比重来激励学生预习,从而培养学生养成课前预习与思考的习惯。为了使该方法能够得以实际应用,本研究在课程开始时便与学生沟通成绩考核方式,强调了预习工作的重要性,并且设计了符合学生学习能力的预习作业。
1.2.2改进教学方法,培养学生抽象思维与科研思维能力本研究创新性地应用了PBL学习法[1-2],即“以问题为导向的学习方法”来鼓励学生参与课堂学习。在引导学生学习的过程中,以问题为载体,鼓励学生以单独或小组合作的形式去探究和解决问题,在这个过程中,学生们步步深入,逐步发掘问题背后所隐含的信息,从而获得知识,其科学思维方式也得到锻炼。
在开展PBL教学法时利用了“四川大学课程中心”医学统计学论坛,鼓励同学们在论坛上提问并勇于提出个人见解供大家探讨。另外,同学们也可以在论坛里跟帖讨论。该论坛建立后,同学们将课后产生的问题以发帖的形式在论坛进行提问,大家纷纷在复习课程内容、查阅相关资料后在论坛进行相互讨论。从论坛访问量可看出该方法初有成效,同学们对该方法参与度较高。例如:
动物疫病监测主要是在指定时间内,对动物疫病的发生、流行以及分布等因素进行调查。同时,对所采集的样本采用国家规定的标准方法进行疫病的诊断,使我国动物防疫人员能了解该疫病的发生、流行趋势以及变化规律。当防疫人员了解这些信息资料后,就能提出相应的解决对策。在动物疫病防控工作中,动物疫病监测极其关键,只有相关部门切实提高动物疫病的监测水平,才能为后期的疫病防治工作打下基础。
同学乙回答:“我个人觉得系统误差能不能被消除不是一个绝对的概念,我们可以通过很多手段来降低系统误差,当系统误差被降到极小极小时可以认为系统误差已被消除。类似于9≈1这种情况。”
同学丙回答:“系统误差不能完全避免。”
在同学们针对问题进行复习、查阅资料后,老师在论坛为大家做出了解答
1.2.3实施翻转课堂,提高学生团队协作能力与解决实际问题的能力本研究通过设计“翻转课堂”课程实践[3],其目的一方面为提高学生团队协作能力,另一方面为培养学生统计思维和科研能力,同时也以科研课题为导向,引导同学们更深入地理解统计学知识,提高学习的积极性,改善学习态度。该实践提供3个板块的课题:“教学相长”、“牛刀初试”和“脑洞大开”,分别侧重于知识理解、知识运用和创新能力。在学期开始时将全班同学分成若干组,每组同学可根据自己的兴趣爱好和学习情况确定一个研究课题,并指定一位课外专家作为顾问,根据课外专家指导开展研究。每周的理论课和实习课结束后,由授课老师和助教回答学生的问题并作指导。每组同学分别在课程中期及结束时进行课题的中期汇报和结题报告,展示研究成果。
例如:某一小组以“成都市噪音污染与心血管疾病相关性究方案设计”为题,以某专家为顾问进行翻转课堂课程实践,在文献阅读、研究目的和内容的确定等研究过程后,在指导老师指导下设计了成都市社区噪音与心血管患病率相关性的调查表,完成了方案设计。通过参与此次课程实践,学生在结题报告中得出总结“本课题范围大,要求严,难度高。从这次的方案设计过程中,我们认识到团体协作和交流的重要性,团体内分工明确,与其他团队共同交流学习,能够更有效率地完成工作。另外,对横断面研究的过程和思路有了一个更为明确的了解,这为我们将来进行其他的临床研究打下了基础。最重要的是,从本次的方案设计中,我们对于统计学和流行病学的知识有了更为深刻的理解,能够初步将所学到的书本知识应用于科学研究,如设计科学合理的问卷并能进行统计分析、推断。”由此可见通过开展“翻转课堂”课程实践,学生不仅意识到团队协作能力的重要性,也在实践过程中锻炼了团队协作能力;另一方面,学生在统计思维和科研能力方面均有所进步。
1.3教学方式效果评估方法
1.3.1问卷调查法本研究在借鉴已开发的学习效果评价量表[4]的基础上改进设计了学生自评调查量表,在课程开始前和课程结束时分别对学习《医学统计学》的学生开展问卷调查,对学习态度、学习能力、知识掌握情况、合作技能4个维度做出评估。经信效度检验[5],问卷的Cronbach′sα为0.896,表明内部一致性较好。
1.3.2学习效果客观评价主要指标包括4个方面,分别是(1)网络课程中心的使用情况:课程中心的登陆人次数、附件的下载量和发帖留言量;(2)“翻转课堂”9个科研小组课题完成情况;(3)学期前、后行学生自评调查量表调查;(4)开放题关键词分析结果。
1.4统计学处理采用SPSS20.0软件分析数据,计量资料用width=38,height=17,dpi=110表示,比较采用t检验,计数资料用频数表示,以P<0.05为差异有统计学意义。
2结果
2.1课程参与情况在课堂讨论过程中,大部分学生都积极主动地参与讨论,思维活跃,逻辑清晰。在网络课程中心使用方面,课程中心的登陆人次数共计1896次、表1为互动栏目中的论坛版块的部分内容。
2.2“翻转课堂”完成情况学生积极参与实践,每个小组都在课程结束时完成了科研内容,在期末结题汇报时顺利展示了一个学期的科研成果,并撰写了结题报告。
2.3学生自评调查量表调查结果
表1课程中心论坛部分帖子展示
width=733,height=176,dpi=110
2.3.1学期前、后学生自评调查量表各维度自评分比较学期前、后两次调查结果比较分析显示,课程结束时学习态度、学习能力、知识掌握情况及合作技能4个维度的自评分平均值较课程开始时有所提高,差异有统计学意义(P<0.05,P<0.01)。见表2。
表2课程前后自评量表各维度得分比较width=41,height=17,dpi=110分)
width=369,height=129,dpi=110
2.3.2开放题关键词分析结果为了对教学方式的改进效果做更深入的分析,学生自评调查量表采用了定性与定量相结合方式,将问卷第5题设计为开放问题,问题如下:“你觉得今后的教学应该如何改进?”。对86份问卷整理后,对关键词提取并做了频次的统计,见图1。从图1可以看到,超过50%的同学对《医学统计学》教学方式改进的感受较好,并认为课程安排能够有效调动学习的积极性。另外,对此次教学改革的意见和建议中,反馈频次较多的有以下几点:“增加上机操作”“增加习题的讲解”“作业中增加SPSS读图题”“课堂中增加随机抽讲”,以及“进一步改进翻转课堂”等。
width=324,height=220,dpi=110
图1开放题关键词频数分析
3讨论
本研究显示,在教学方式改进之后,学生在学习态度、学习能力、知识掌握情况、合作技能4个维度均有所改善,表明本研究所做的教学方式的改进和探讨,有效改善了教学效果,提高了学生学习兴趣,学习态度与团队协作能力,更重要的是培养了学生的科学思维方式。
3.1改善了学生的学习态度在学期开始前的调查中,医学生对于学习态度部分的自评分是4个维度中最低的。对此,一方面,本研究采用在作业中加入下一次课程内容、增加平时成绩占比的方法。课程开始前、课程结束后学习态度的自评分差异有统计学意义(P<0.05),可以认为此项方法在提高学生课堂积极性,改善学生学习态度方面是有效的。另一方面,从作业完成质量(作业上交的及时率、每次作业的成绩)上可以看出,课前预习可以加深同学对知识的掌握程度,在一定程度上解决了《医学统计学》“学生学习累”的问题。本研究采用PBL教学模式,鼓励学生参与课堂内容。在这个过程中,学生们步步深入,逐步发掘问题背后所隐含的信息,从而获得知识。从课程中心的访问量可以充分表明此模式的应用调动了学生积极性、激发了同学的探索欲、做到了让学生学以致用。
医学统计学范文6
关键词:大数据;医学统计学;教学
Suggestions on Medicostatistics Teaching in the Age of Biomedical Big Data
Li Shenghui Xu Zhiwei Zheng Zhijie
(School of Public Health affiliated with Shanghai Jiaotong University,Shanghai 200027,China)
Abstract:With the development of electronization, informatization, digitalization, and intelligentization in residents’ health records management system, along with the increasing accumulation of biomedical research data, a large amount of biomedical data (Big data) has been and will be generated. Consequently, there is an increasing need to better understand and mine the data to further knowledge on health management stratege and health policy making. This article discusses the challenges of big data on statistical theory and methods, furthermore, attempts to give some suggestions on how to adjust medicostatistics teaching strategy in the age of biomedical big data.
Key words:big data;medicostatistics;teaching
所谓大数据(Big Data),是指具有4V特征且用目前的管理、处理技术手段难以进行有效管理和分析的数据。4V的含义是数据量大(Volume Big),数据量级扩大至PB以及ZB级别;数据产生、输入和处理快速化(Velocity Fast);数据结构和类型多样化(Variable Type)及数据价值密度低(Value LowDensity)。大数据的目的是将数据转化为知识,探索数据的产生机制和过程,进行预测和政策制定。随着医学健康档案“电子化、信息化、数字化、智能化”的管理,随着物联网在医学健康领域的应用,医疗、护理、康复、保健工作流程中产生的数据存储量呈指数增长。如何有效地利用这些海量信息为健康管理、临床治疗、医院决策及卫生政策制定提供支持,是大数据时代医学信息化带来的挑战。美国国家卫生研究院(NIH)为此特设立生物医学大数据研究中心及专项基金。在我国,科技部、国家自然科学基金委、国家社会科学基金委陆续酝酿和启动了“大数据的处理与应用”系列重大研究项目。
统计是一门数据科学,医学统计学是关于医学健康数据的收集、整理、分析和解释的方法论学科。“大数据”处理对统计学的发展提出了新的命题,如何将“医学信息大数据”处理技术融入相关统计学课程教学以促进现代医学信息分析技术的发展?本了相关的分析,并提出应该思考的一些问题。
一、大数据对统计学原理和方法提出的挑战
1.统计数据产生由“问题导向”到“数据驱动”
目前,统计数据的产生主要是基于所要研究的问题而主动进行的“数据收集”,落脚点在于如何获取数据。在大数据时代,海量数据随处可得,由数据驱动而进行问题研究将非常普遍。那么,获得数据的关键点不在于如何获得,而在于如何识别与选择。由“问题导向”产生的结构数据是经过严格抽样设计获取的,具有系统误差小、总体代表性好的优势,但是信息量有限,且数据获取周期长。大数据流环境下,海量数据中有价值的数据可能并不多,即数据的价值密度低,且难以避免和判断数据获取的误差和偏倚。在很多情况下,统计数据不需进行抽取,而是“数据样本即总体”;同时,也要研究如何从源源不断的数据中抽取足以满足统计目的和精度的样本,这需要研究新的序贯性和动态性的抽样方法。
2.数据格式和结构复杂多样化
目前统计数据都是结构化数据,如疾病空间分布和时间序列数据等,可使用二维表格表示,可以方便地被常规统计软件读取和进行分析。在大数据背景下,除少量数据具有结构化特征外,更多的是半结构和非结构化数据,如各种格式的文档、图片、网页、图像、音频和视频等。目前,这些半结构和非结构化的大数据仅能做到初步的实时业务应用。如在研究气候变化与人类健康相关的命题时,需要处理庞大的气象数据,而80%以上的气象数据均为非结构化的大数据,如何将这些非结构化的大数据做到降维、分解和长时间序列储存无疑是统计学面临的新命题。
3.大数据的整合及跨库分析方法亟待建立
传统上,数据集的合并和拆分都是利用关系数据库技术,如共同的编码或关键字进行操作。在大数据环境,很多数据集不再有标识个体的关键字,关系数据库链接方法不再适用,需要探讨利用数据库之间的重叠项目来结合不用的数据库。此外,还可以改变分析思路,如直接利用局部数据进行推断,然后整合这些数据集的统计结论。
4.大数据对于统计学核心理论的冲击
一个新生事物的出现将必定导致传统理论和技术的变革。大数据对传统统计学原理和方法的冲击是划时代的。传统的统计学方法和理论立足于应用抽样技术在总体中抽取小样本进行分析,通过样本统计量推断总体的参数和性质。在大数据背景下,我们更关心的不是数据量的大小,而是数据所蕴含的信息量及信息的识别和选择。因此,大数据的预处理如数据清洗、纠偏完全跳出了传统小样本研究的范畴。同时,大数据充满了各种随机的、非随机的误差和偏倚,很难满足小样本数据精度和分布的要求。在大数据时代,需要进一步拓展统计思维,丰富现有统计学的理论和方法,赋予统计学新的生命力。
二、在大数据时代对统计学教学的几点思考
《“十二五”时期统计发展和改革规划纲要》中明确提出,“建立现代统计体系就是建立以现代信息技术为支撑的统计系统”。根据这个纲要,计算机技术、互联网系统、多媒体等现代信息技术在统计技术中将发挥更重要的作用。在医学信息大数据时代背景下,医学统计学教育是否能够与时俱进,迎接大数据带来的机遇与挑战?为此,笔者谈几点思考:
1.补充和加强数学基础和计算机应用课程
在大数据背景的冲击下,统计学教育首先要面临两大冲击。一是大数据背景下的统计模型将会跳出原有的传统统计模型框架,需要更广泛的学习一些数学概念,如拓扑、几何和随机场,这些数学知识将会在庞大数据分析的背景下扮演重要的角色。二是算法和计算机上的实现是传统教育面对的更大挑战,大数据环境下的数据是海量的,同时又是结构化、半结构化、非结构化的混合数据,处理这些技术需要先进的计算机技术平台。在大数据和信息化的时代背景下,在目前医学生的通识教育中,是否应该加强数学基础及计算机应用等相关课程的教育?值得思考。
2.渗透大数据基本知识和统计思维
统计思维的培养,是提高学生处理数据和运用数据分析实际问题能力的重要一环。在大数据时代,并非所有的医学健康问题都通过大数据方式去处理,基于小样本的分析仍然是最基本和最有效的实现方式。因此,传统统计学基础和原理仍然为医学统计学教育的核心和重点。与此同时,结合大数据技术的特点,对统计学的基本知识进行拓展教育,有计划地将大数据的统计分析思维渗透在教学工作中。将大数据的基础知识,如数据来源、数据结构和格式、收集和筛选,在教学中进行适当补充。引导学生将已有的统计学基本原理和方法运用到大数据处理中。
3.扩充实验教学内容,夯实基本软件操作
统计学是一门处理数据的方法学科,重在应用。因此,在系统统计原理教学的基础上,更加侧重实践性和应用性的训练。在目前的统计学教学中,学生普遍比较缺乏的不能将医学实际问题正确的转化为统计学问题,不能根据资料根据资料的设计类型、性质和分析目的灵活选用合适的统计分析方法。通过综合性的实际案例,将医学科研中的实际问题纳入教学,使学生虚拟的置身于科研一线,去感受和完成科学研究中的统计学应用。大数据时代,数据、资料的产生方式发生了很大变化,因此,需要增加部分大数据方面的数据、资料收集和整理方法的训练内容。大数据背景下,数据中除了一些结构性数据外,更多的是半结构和非结构化数据,很难用传统的二维数据表显示方式予以直观化。因此,除了目前常用的统计图、统计表外,还应该逐步补充一些比较复杂的数据透视化技术方面的教学,如探索性可视化描述工具、Tableau、TIBCO和QlinkView以及叙事可视化工具等。
在大数据时代,在统计学的教与学中,不应要求死记有关概念、定理和计算公式,而应加强统计学基础性原理与知识的教学,凸出统计学理论与方法的应用性,建立起大数据统计思维。学习统计学是为了应用和解决实际问题。对教师来说,教好医学统计学的标志是教会学生运用统计思维思考问题和选择合适的统计方法解决实际健康决策及健康管理问题。对学生来说,学好统计学的标志是建立统计思维,能够以问题为导向,在统计思想的引导下,选择合适或最优的统计方法,或者通过创新统计方法,有效地解决实际问题。
参考文献:
[1]Fan J,Han F,Liu H.Challenges of Big DataAnalysis[J].Natl Sci Rev,2014 Jun,1(2):293-314.
[2]Ohno-Machado L.NIH'sBig Data to Knowledge initiative and the advancement of biomedical informatics[J]. J Am Med Inform Assoc,2014 Mar-Apr,21(2):193.
[3]Margolis R,Derr L,Dunn M,Huerta M,Larkin J,Sheehan J,Guyer M,Green ED.The National Institutes of Health's Big Data to Knowledge(BD2K)initiative:capitalizing on biomedical big data[J].J Am Med Inform Assoc,2014 Nov,21(6):957-8.
[4]Zhang Z.Big data and clinical research:focusing on the area of critical care medicine in mainland China[J].Quant Imaging Med Surg,2014 Oct,4(5):426-9.
[5]耿直.大数据时代统计学面临的机遇与挑战[J].统计研究,2014,31(1):1-9.
[6]Kaplan RM,Chambers DA,Glasgow RE.Big data and large sample size:a cautionary note on the potential for bias [J]. Clin Transl Sci.2014 Aug,7(4):342-6.
[7]沈文海.气象数据的“大数据应用”浅析――<大数据时代>思维变革的适用性探讨[J].中国信息化,2014,6(235):20-31.
[8]张学敏.大数据时代的数据分析[J].探索与观察,2014,8(16):5.
基金项目:上海市高校一流学科建设(公共卫生与预防医学);上海市公共卫生优秀学科带头人培养计划(编号:GWDTR2012