统计学路径分析范例6篇

前言:中文期刊网精心挑选了统计学路径分析范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。

统计学路径分析

统计学路径分析范文1

〔论文关键词〕中学生;同伴支持;类型;学习成绩 

 

与小学相比,中学生与同伴共度的时间显著增加,同伴关系的重要性也随之上升。同伴关系在中学生的发展中具有成人无法替代的独特作用,其影响甚至超过了父母。同伴关系的好坏直接或者间接地影响着中学生的学习成绩。有研究表明,不受欢迎的儿童学习成绩普遍低于受欢迎的儿童,并且其缺勤率和中途辍学率也很高(杨光艳,陈清萍,2006)。同伴支持作为同伴关系的一种特殊形式对中学生的学习成绩有着极其重要的作用。这里的同伴支持主要是指中学中同龄人之间或者心理发展水平相当的个体之间在交往过程中建立和发展起来的一种支持关系。它以情感、信息和工具支持等直接或间接地对中学生的学习成绩产生作用。 

 

一、中学生同伴支持的类型 

 

根据同伴的类型以及提供支持的形式,可以将中学生同伴支持大致分为四类:自由支持、网络支持、同伴服务以及同伴雇佣。这些类型的同伴支持直接或者间接地影响着中学生的学习成绩。 

1.自由支持 

这类同伴支持主要表现在中学生的日常学习生活中,当面临困难时,个体主动地或不由自主地向同伴寻求帮助和支持,或者个体积极主动地向需要帮助的同伴提供援助。这种支持往往建立在友谊或同学友好关系的基础之上,更多的在于关注成长、自我需要和人格发展等,是出于自愿的,常常以一对一的自由支持形式表现出来。 

2.网络支持 

随着网络的普及,中学生常常通过网络方式,如电子邮件或信息交流平台等向同龄人传递信息,寻求或者提供支持,这类支持更多地表现为情感和信息支持。这种方式具有匿名性,这一点受到学生的欢迎,但这种方式不利于建立稳固的支持关系。 

3.同伴服务 

这类同伴支持是由具有相同的心理知识水平,并且面临共同问题的中学生组成的支持小组,如具有相同学习困难的个体聚在一起相互交流、相互支持。他们具有相同的话题,共同探讨,共同寻求发展。 

4.同伴雇佣 

在学校中,教师常常指定一部分学生充当其他学生的同伴,以帮助他们提高。如安排学习成绩好的或者相对较好的学生帮助学习成绩较差者以提高他们的成绩。这部分“被充当”同伴的学生往往具有较高的“地位”,并接受教师的指导和安排。这些学生被指定为同伴的角色,类似于雇佣充当同伴。 

 

二、同伴支持直接影响中学生的学习成绩 

 

直观上来看,中学生的学习成绩直接受到学生知识储备、学习技能和学习方法等的影响。同伴支持也主要是通过影响这三个方面来直接对中学生的学习成绩产生作用。在学习过程中,同伴之间相互关心,互相传递学习信息,交流学习经验,直接地给予学习上的支持和帮助。这种支持关系可能是自由形成的,也可能是教师指导安排的。 

在众多的支持形式中,同伴辅导对学习成绩的直接作用最明显。这里的同伴辅导主要是指同伴之间开展的学习上的辅导。在学习过程中,同伴辅导作为同伴支持关系的一个系统,包含了学生互助学习和通过辅导来自我学习(topping,1996)。根据moust and schmidt(1994)的研究,同伴辅导中,同伴“辅导员”的作用超越了教师,他们比教师更好地理解学生的学习问题,因为他们具有相似的学习经历。同伴辅导可以使被辅导者的学习更加有效,同时也有利于自身的学习提高(jones,1995),因为同伴支持具有交互性,在给予他人支持的同时,个体也得到他人的支持而从中获益。同伴辅导通过同伴之间的学习经验交流、方法探讨以及技能培训等方式拓宽各自的学习方式和思维,使学生们更加系统地多角度地思考问题,提高问题解决的能力,从而更加深入地学习,提高学习成绩。 

此外,同伴支持具有认知发展功能,良好的同伴支持可以使个体的“最近发展区”得到开发(周宗奎,2007)。中学生在同伴的支持和辅导下其学习水平将会大大地提高,这必然会使个体的学习成绩得以提升。 

 

三、同伴支持通过调节作用间接对中学生学习成绩产生影响 

 

中学生的学习成绩不仅受到智力因素的影响,同时也受到非智力因素的影响。同伴支持能够通过调节中学生的非智力因素,如自我效能感、自尊、学习动机、情绪等间接地对其学习成绩产生影响。 

1.同伴支持通过自我效能感影响学习成绩 

研究表明,同伴支持通过四个方面改变个体的自我效能感,即个体先前的成就表现、替代性经验、言语说服以及心理状态(cindy,2003)。中学生来自同伴的支持也是通过这四个方面对自我效能感发生作用:(1)中学生先前的成绩表现是自我效能感最有力的资源,而这些表现会受到同伴评价的影响,来自同伴的积极评价会增强个体的自我效能感。(2)在学习过程中,通过观察同伴的榜样行为来获得间接经验。当个体看到与自己水平相似的同伴在学习上取得成功时,就会增强自我效能感,认为自己也可以成功。(3)在中学生的学习过程中,同伴常常以建议和劝说来对个体加以引导,以在学习上取得进步,这种劝说通常由具有影响力(如学习成绩好)的同伴来实施。劝说的根据越可信,就越能影响个体的自我效能感。(4)在学习生活中,中学生的学习效能感会受到当时的心理情绪状态的影响,积极的心理状态会增强自我效能感,而消极的心理状态则会降低效能感。来自同伴的情感支持可以使个体保持良好的心理状态,减少个体的消极情绪,从而改变效能信念。 

许多研究都已经表明,自我效能感与学习成绩之间的关系十分密切(coutinho s,2008; friedel et al,2007),且自我效能感对学习成绩有直接的影响作用(magogwe and oliver,2007)。培养良好的自我效能感有助于学习成绩的提高。同伴支持可以调节自我效能感,而自我效能感又与学习成绩有密切联系,因而同伴支持可以通过改变中学生的自我效能感来间接地对学习成绩产生作用。 

2.同伴支持通过自尊影响学习成绩 

中学阶段是个体自尊的快速发展阶段。自尊对中学生的发展有着极其重要的作用,它不仅影响其人格的发展,而且对其学习成绩也有重要作用。不少研究已经发现,学生的学业成绩与自尊之间存在着密切关系。shavelson和bolus(1982)的研究甚至证明了学生的自尊和学习成绩之间存在着因果决定关系。covington(1989)研究发现,自尊水平增强或者降低时,学业成绩会随之发生相应的变化,据此他认为自尊的改变会引起学业成绩的起伏。自尊除了直接影响中学生的学习成绩外,还可以通过影响学习倦怠、学习适应、学习动机等间接对学习成绩发生作用。 

同伴关系的研究表明,同伴关系直接对青少年自尊产生重要影响(张丽华,2009),那些与同伴关系密切、同伴接受性高或对同伴关系较为满意的个体往往具有较高水平的自尊,良好的同伴关系有利于自尊的发展。社会支持的研究也指出,来自朋友的肯定和支持与青少年的学业自尊有较高的相关(刘春梅,邹泓,2007)。同伴支持建立在良好的同伴接纳的基础之上,由此我们可以推论,良好的同伴支持必然对中学生的自尊产生影响。另外,同伴支持环境可以给中学生带来安全感和归属感,而安全感和归属感作为自尊形成的要素必然对其产生重要的影响。中学生的自尊具有不稳定性,同伴支持可以调整个体的自尊水平,使其保持在一个稳定的状态。同伴支持正是通过调整中学生的自尊水平来对学习成绩产生影响。 

3.同伴支持通过学习动机影响学习成绩 

学习动机直接影响中学生的学习成绩,这已经是毋庸置疑的了。同伴支持除了直接影响学习成绩外,还可以通过学习动机间接影响学习成绩。社会支持的研究已经证明了这一点(石学云,2005)。 

cindy(2003)指出,良好的同伴支持能够促进积极的个人动机。kathryn et al.(2010)的研究表明,在一些学校中同伴支持以积极的方式影响学生的学业动机。当学生感知到同伴向自己提供学业期望、帮助、建议和情感支持并为自己创造一个安全的学习环境时,更倾向于展示学习的积极方面。同伴支持对学习动机的影响主要表现为: 

(1)学生的个人价值观是影响学习动机的重要因素。同伴之间相互交流对于学习成绩的价值观和期望将会对个体的价值观产生影响,同时也会影响个体的学习兴趣,从而影响学习动机。(2)同伴为发展个体的学业能力(竞争力)提供帮助。中学生同伴之间会经常相互澄清和解释关于教师的指导,如他们应该做什么以及他们应该如何做。同时,同伴也以榜样或相互比较的形式向个体传递信息,提高个体竞争力。(3)同伴支持环境为学生提供了一个安全的学习环境,在这样的环境中个体可以轻松、愉快地进行学习。良好的学习环境对学习动机的激发和培养具有重要的作用。另外,中学生具有较强的亲和内驱力,希望获得他人的关心、爱护和支持,希望在同伴中获得一定的地位,得到同伴的尊重。而良好的学习成绩是满足学生这一需要的最好方式。 

4.同伴支持通过情绪影响学习成绩 

积极而稳定的情绪对中学生的学习具有促进作用,可以使个体更好地适应学习,保持良好的学习状态,同时还可以激发和维持个体的学习动机,使个体更加专心于学习;而消极不稳定的情绪会使学生烦躁不安,思维混乱,注意力不集中,这将严重干扰学习。 

同伴支持具有情绪功能。同伴关系对青少年情绪的发展非常重要,当个体进入青春期时,他们越来越依靠其同伴以获得情感支持,特别是在遇到麻烦或困惑时。而青少年的情绪极不稳定,常常受到消极情绪的影响。他们应对消极情绪的能力取决于他们能否与同伴建立起新型的支持关系。同伴的关心、爱护和鼓励可以帮助个体走出消极情绪的阴霾,且良好的同伴支持环境可以使个体长期保持良好的情绪状态。同伴支持可以通过其情绪功能间接对中学生的学习成绩产生影响。 

 

四、中学生同伴支持的反向作用 

 

通常意义上所说的同伴支持是指积极的同伴支持,它积极影响个体的行为结果。事实上同伴支持也存在消极的一面,对个体的发展具有一定的反向作用。 

1.错误认知的误导 

在中学生的学习过程中,尽管同伴之间相互支持和帮助,但不同的个体具有不同的认知和价值观念,而这些认知或观念不一定都是正确的。同伴的错误认知或观念可能会在学习过程中误导个体,尽管支持者并不是有意的。另外,也存在这样的支持群体,这种群体中的成员都持有错误的观念和认知,但他们共同以一种错误的认知来相互支持和引导对方,进而将整个群体成员引入歧途。如群体中成员都认为学习成绩无用,并且相互认同这种观点,就很可能导致整个群体出现厌学状态。因而在学习生活中,教师应该充分发挥其指导作用,树立学生正确的认知观念,并且尽量使支持双方在认知和行为上做到匹配,从而使学生在同伴支持过程中以正确的方式相互引导和支持。 

2.过度依赖 

统计学路径分析范文2

【关键词】 生存质量;大学生;人格特征;网络成瘾;路径分析

doi:10.3969/j.issn.1000-6729.2009.02.014

中图分类号:C913.5,R749.91 文献标识码:A 文章编号:1000-6729(2009)002-0138-05

生存质量又称生命质量、生活质量(Quality of Life,QOL),是指个体生理、心理、社会功能以及物质生活条件各方面的客观状态和主观感受[1-2]。大学生是网络使用的高频率人群,也是网络成瘾(亦称网络过度使用)的高发人群之一[3-4]。国内外研究表明,网络过度使用对大学生的身心健康有严重的影响[3-5],但很少有研究评估网络过度使用大学生的生存质量状况。研究还表明,人格特征对大学生过度使用网络存在影响[4,6-7],但人格特征、网络使用程度与生存质量之间的关系尚不清楚。本研究采用路径分析探讨不同网络使用程度大学生人格特征与生存质量的关系,为改善和提高大学生的生存质量提供依据。

1 对象与方法

1.1对象

2006年11月方便选取湖南省长沙市某综合性大学。该大学共有在校本科生近20000人,覆盖理科、工科和文科57个专业4个年级。其中理科学生7500人,工科学生9000人,文科学生3500人。一年级学生约5500人,二、三年级学生各5000人左右,四年级学生约4500人。采用分层整群抽样方法,先按专业(理科、工科和文科)分层,然后按年级(一、二、三、四年级)分层,用随机数字表法从每一层抽取3~4个班(要求每一层学生人数在100人左右)。共计抽样32个班1350人,其中44人因问卷缺省条目超过5%,予以剔除,最终获得有效问卷1306份。受试学生平均年龄为(19.5±2.1)岁,男女生比例分别为56.3%和43.7%。

1.2工具

1.2.1 一般情况调查表

该表包括①社会人口学指标(年龄,性别,是否独生子女,生源地,所在年级,所学专业);②家庭情况(父母亲年龄,职业,受教育程度,家庭人均月收入);③人际关系(对父母亲关系的评价,与同学、老师相处情况,对学校生活的适应情况,对所学专业的满意度);④网络使用情况[上网时间,上网的目的,每月上网费用(元),对网络使用的态度]。

1.2.2 网络成瘾诊断量表 (Internet Addiction Test,IAT)[8]

该量表为自评量表,由20个条目组成,每个条目有5种选择,赋值1~5分,总分为100分。根据总分判定测试者是否网络成瘾及其程度,总分49分及以下为正常使用网络,50~79分判定为网络成瘾倾向,80~100分判定为网络成瘾。该量表目前国内使用较多,未见信度、效度指标报告。本研究中,该量表的内部一致性系数α达到0.9234,各条目间的相关系数在0.35~0.87之间,均有统计学意义。

1.2.3 艾森克人格问卷(Eysenck Personality Questionnaire, EPQ)(成人版)[9]

该问卷共有85个条目,包括四个分量表三个维度:P量表测量精神质维度、E量表测量内外倾维度、N量表测量神经质维度、L量表测量受试者的“掩饰”倾向和纯朴性。每个条目分“是”与“否”两种选择,其中一部分条目答“是”记“1”分,答“否”记“0”分,另一部分条目记分方式则相反,分别统计各分量表原始总分,再将各分量表原始总分换算成标准分。经验证该量表的信度和效度较好,各分量表间隔 1个月重测,其相关系数为0.83~0.90,内部一致性系数为0.68~0.81[9]。

1.2.4世界卫生组织生存质量量表简表中文版(World Health Organization Quality of Life Brief Scale,WHOQOL-BREF)[10]该量表由26个条目组成,包括总的生存质量和总的健康状况(共2个条目)及生理领域、心理领域、社会关系领域、环境领域4个维度(共24个条目),每个条目分别按1~5级计分,得分越高,说明生存质量越好。该量表已被证实具有较好的信度和效度[10]。考虑到量表的第21条“您对自己的性生活满意吗?”不适合大学生,胡国清等[11]采用相同量表对高中生调查时将该条目改为“您对自己青春期的变化适应吗?”,考虑到大学生与高中生具有相似之处,本次调查也将该条目作相同替换处理。

将被调查的学生集中在教室,由经过培训的调查人员讲解问卷的正确填写方法后,要求学生在30~40分钟时间内独立完成,所有问卷填写后当场收回。在调查结束后第14天随机抽取1 个班的学生(共30人)进行重复测量,将两次调查结果进行一致性分析。

1.3统计方法

经调查人员核实评分后,用Epi Data3.0建立数据库,采用双录入检错。采用SPSS13.0软件进行描述性分析和方差分析(F检验),对方差分析有统计学差异者再用最小极差法(LSD)作两两比较。另外,采用结构方程模型分析软件Amos (Analysis of Moment Structures)7.0作路径分析。

2结果

2.1大学生网络成瘾情况

网络成瘾诊断量表评分结果显示,1306名大学生中有1129名大学生属于正常使用网络(占86.45%),有169人属于网络成瘾倾向(占12.94%),有8人属于网络成瘾(占0.61%)。

2.2 不同网络使用程度大学生艾森克人格问卷、生存质量量表评分比较

方差分析结果显示,三组学生的神经质、精神质和掩饰维度得分差异有统计学意义。进一步两两比较显示,正常网络使用组学生的神经质、精神质维度得分低于网络成瘾倾向组和网络成瘾组学生,而掩饰维度得分高于网络成瘾倾向组和网络成瘾组学生;三组学生在生存质量的生理、心理和社会关系领域得分差异有统计学意义;经两两比较,正常使用网络组学生生理、心理和社会关系领域得分均高于网络成瘾倾向组和网络成瘾组学生(见表1)。

2.3 人格特征对网络使用大学生生存质量影响的路径分析

该分析以艾森克人格问卷的内外倾、神经质、精神质、掩饰性得分为外生显变量,以网络成瘾诊断量表总分、生存质量量表的生理、心理、社会关系和环境领域得分为内生显变量,建立路径分析模型。模型通过最大似然法(Maximum Likelihood Estimates, ML)不断拟合,最终得到拟合较好的路径分析修正模型[ χ2=5.595,df=6,P=0.428;GFI(拟合优度指数)=0.993,AGFI(调整拟合优度指数)=0.982;RMSEA(近似误差均方根)=0.035](图1)。内外倾对生存质量的4 个领域均有直接正向效应,神经质、精神质对生存质量的4 个领域均有直接负向效应,神经质、精神质对网络成瘾分有直接正向效应,掩饰性对网络成瘾分有直接负向效应,神经质、精神质、掩饰性还可通过影响网络成瘾分间接影响生存质量的3个领域(环境领域除外);网络成瘾分对生存质量的3个领域(环境领域除外)有直接负向效应。

艾森克人格问卷 4个分量表得分高低对网络成瘾分及生存质量4 个领域的影响效应大小(包括总效应、直接效应和间接效应)见表2 。

3 讨论

本研究结果表明,大学生网络成瘾倾向及网络成瘾的比率为13.55%。曾瑾等[12]采用相同量表报告成都市大学生网络成瘾比率(网络成瘾倾向+网络成瘾)为5.8%,中学生网络成瘾比率(网络成瘾倾向+网络成瘾)为20.3%,提示大学生网络成瘾率存在时间、地点、人群差异。本研究单因素分析显示,网络成瘾倾向大学生与网络成瘾大学生生存质量的3个领域(环境领域除外)得分均低于正常使用网络大学生,提示网络成瘾倾向大学生及网络成瘾大学生有较低的生存质量,与Ferraro 等[13]的研究基本一致。网络成瘾倾向大学生及网络成瘾大学生有较低的掩饰性得分以及较高的神经质得分和精神质得分,与金宇等[14]、CAO等[15]对青少年的研究结论基本一致,国外学者的研究[6-7]也支持这一结论。提示网络成瘾倾向大学生及网络成瘾大学生在人格特征方面与正常使用网络大学生存在差异。

根据艾森克人格理论,神经质维度得分高的人容易焦虑、担忧, 常郁郁不乐, 忧心忡忡, 有强烈的情绪反应;精神质维度得分高的人具有性格孤僻, 对他人漠不关心, 不近人情, 与人不友好的特点, 具备这些人格特征基础的人群正性情感体验都较低,容易在虚幻的世界中寻求自我,因而也易于沉溺于网络之中[16-17]。 Kim 等[6]研究沉溺于在线网络游戏青年的人格特征,表明具有攻击和自恋性人格特征及自我控制力低的青年容易沉溺于在线网络游戏。Neimz 等[18]的研究表明,沉溺于互联网的学生容易出现社会、人际关系方面的问题,具有较低的自尊和较强的社交性去抑制(sociallydisinhabited)。张翠红等[4]用SCL-90量表比较正常使用网络大学生与网络成瘾大学生的心理健康状况,也显示网络成瘾倾向大学生有较多的心理问题。可见,神经质、精神质维度分高的学生有较低的生存质量,也易于沉溺于网络,进一步降低其生存质量。研究还显示,内外倾维度分高的学生有较高的生存质量,可能与内外倾分高的人具有外向性格、爱交际、朋友多的特点,能获得较多的社会支持并有较多的正性情感体验有关[19]。

本研究通过横断面研究发现人格特征对网络使用程度不同大学生的生存质量可能具有直接和间接的影响。但为了建立人格特征与网络使用程度不同大学生生存质量之间的因果关系,需要进一步采用队列研究方法,同时将其他可能相关的因素如个人因素(性别、年龄、学习成绩)、家庭情况(经济状况、教养方式)、学校因素(人文环境)等结合起来进行研究。

参考文献

[1]Orley J, Kuyken W. Quality of life assessment:International Perspectives[M]. Springer Verlag, Berlin,1994:36-37.

[2]WHO. The development of the WHO quality of life assessment instrument[M].Geneva.1993.

[3]朱克京, 吴汉荣.大学生网络成瘾的心理社会因素[J].中国心理卫生杂志, 2004, 18 (11):796-798.

[4]张翠红,刘国伟,谢正,等.大学生网络成瘾与人格特征及心理健康状况分析[J].中国心理卫生杂志,2006,20(11):761.

[5]Ozcan NK, Buzlu S. Internet use and its relation with the psychosocial situation for a sample of university students[J].Cyberpsychol Behav, 2007,10(6):767-72.

[6]Kim EJ, Namkoong K, Ku T, et al.The relationship between online game addiction and aggression, self-control and narcissistic personality traits[J]. Eur Psychiatry, 2008 ,23(3):212-8.

[7]Ko CH, Yen JY, Chen CC, et al. Tridimensional personality of adolescents with internet addiction and substance use experience[J]. Can J Psychiatry, 2006,51(14):887-94.

[8]师建国. 成瘾医学(第1 版) [M]. 北京:科学出版社, 2003,205-206.

[9]陈仲庚. 艾森克人格问卷的项目分析[J]. 心理学报,1983,15(2):211-218.

[10]方积乾.生存质量测定方法及应用[M].北京:北京医科大学出版社,2000,1:118-122.

[11]胡国清,孙振球,黄正南,等.高中生生存质量评定量表的研制与考评[J].中国卫生统计,2002,19(2):71-75.

[12]曾瑾, 陈希宁. 成都市大、中学生网络成瘾行为的比较研究[J]. 现代预防医学,2006,33(10):1790-1791.

[13]Ferraro G,Caci B,D'Amico A,et al.Internet addiction disorder:An Italian study[J]. Cyberpsychol Behav, 2007,10(2):170-175.

[14]金宇,苏林雁,曹枫林,等.网络过度使用倾向中学生的人格特征[J].中国心理卫生杂志,2007,21(12):832-836.

[15]Cao F, Su L. Internet addiction among Chinese adolescents:prevalence and psychological features[J]. Child Care Health Dev, 2007,33(3):275-81.

[16]郑日昌. 大学生心理诊断[M]. 济南:山东教育出版社.第1 版.1996:186-189.

[17]唐洁, 孟宪璋. 大中学生主观幸福感的比较研究[J].中国临床心理学杂志, 2002, (4) :316-320.

[18]Niemz K, Griffiths M, Banyard P. Prevalence of pathological Internet use among university students and correlations with self-esteem, the General Health Questionnaire (GHQ), and disinhibition[J]. Cyberpsychol Behav,2005, 8(6):562-570.

统计学路径分析范文3

【关键词】医学生;社会责任心;人格;自我意识

1对象与方法

1.1研究对象

采用问卷法对某医学院学生进行调查,发放问卷1550份,回收有效问卷1497份。对问卷信息进行整理合并,结果如下:男548人、女949人;年龄16-25岁,平均19.89±1.36岁;大一447人、大二491人、大三385人、大四174人;临床医学546人、医学护理430人、医学社会学521人;户籍地城市542人、乡镇955人;健康状况为疾病或较差203人、良好689人、健康605人;家庭结构为大家庭341人、核心1071人、单亲71人、其它14人;家庭人均收入1000元以下335人、1000-2999元708人、3000-4999元268人、5000元以上186人;父母最高教育小学(或以下)226人、初中743人、高中(中专)355人、大学(或以上)173人;独生子女592人、非独生子女905人。

1.2研究方法

1.2.1一般情况调查表收集年级、专业、性别、年龄、同胞数、户籍地、健康状况、家庭结构、家庭经济、父母教育、学生干部、参加社团、参加公益等资料。1.2.2大学生社会责任心问卷该问卷由赵兴奎[4]编制,共36个条目,分物质责任心(12条)、文化责任心(10条)和群体责任心(14条)等三个维度。采用1-5五级评分,分数越高,反映其社会责任心越强。1.2.3中国大五人格问卷简式版该问卷由王孟成等编制[10],共40个条目,分神经质、外向性、严谨性、开放性和宜人性等五个维度。每个条目采用1-6六级评分,分数高低代表某种维度倾向性高低。1.2.4自我意识量表该问卷由蒋灿等人修订[11],含23个条目,分公我意识、私我意识和社会焦虑等三个维度。每个条目采用0-4五级评分,得分越高自我意识水平越高。

1.3统计分析

采用SPSS18.0统计软件和AMOS21.0软件对数据进行分析,包括χ2检验、F检验、t检验、多元逐步回归分析和路径分析。

2结果

2.1医学院校学生社会责任心水平

与测验编制者赵兴奎的数据相比,医学院校学生社会责任心总分没有统计学差异(P0.05),物质责任心和群体责任心相对较高、文化责任心相对较低(P0.01);与冉汇真一般本科院校学生数据相比,医学院校学生社会责任心总分和三个维度分均高于普通高校学生(P0.01)。

2.2医学院校不同专业学生社会责任心差异分析

方差分析结果显示:医学院校不同专业学生社会责任心存在差异(P0.01);两两比较(LSD检验)显示:医学护理专业责任心相对较低、医学社会学专业相对较高、临床医学专业居中,组间差异具有统计学意义(P0.05)。

2.3社会责任心影响因素的逐步回归分析

以社会责任心总分为因变量,社会人口学资料和心理学指标为自变量,进行逐步回归分析(进入水准α=0.05,剔除水准β=0.10),结果显示(表3):专业(1=医学护理,2=临床医学,3=医学社会学)、性别(1=男,2=女)、家庭经济(1=1000元以下/人,2=1000-3000元,3=3000-5000元,4=5000元以上)、健康状况(1=较差,2=一般,3=较好)、宜人性(测量值)、开放性(测量值)、严谨性(测量值)、外向性(测量值)、自我意识(测量值)等9个变量进入回归方程,可解释社会责任心总分49.5%的变异。

2.4心理社会因素影响社会责任心的路径分析

回归分析发现的影响因素可归为三类:社会人口学变量(性别、专业、家庭经济、健康状况)、人格变量(宜人性、开放性、严谨性、外向性)和自我意识(私我意识、公我意识、社交焦虑)。采用结构方程分析这三类变量影响社会责任心的路径,结果显示:模型拟合指标(CMIN/DF=4.45,RMSEA=0.05,GFI=0.98,AGFI=0.96,NFI=0.96,RFI=0.94,IFI=0.97,TLI=0.95,CFI=0.97,PGFI=0.59,PNFI=0.68,PCFI=0.69)基本达到模型适配标准,能共同解释社会责任心57.2%的变异;人格直接影响社会责任心(效应值=0.76),自我意识(效应值=0.36)和社会人口学变量(效应值=0.45)均经人格间接影响社会责任心。图1心理社会因素影响社会责任心的路径分析

3讨论

目前国内关于大学生责任心方面的理论研究多于实证研究,在有限的实证研究中,研究对象多为综合性大学学生,针对医学院校学生责任感的研究极少。本研究对医学院校学生的社会责任心状况及影响因素做了调查,现就有关研究结果做简要分析讨论。

3.1医学院校学生社会责任心状况

首先,医学院校学生社会责任心与赵兴奎[4]的大学生常模数据相比,总体水平没有明显差异,物质责任心和群体责任心相对较高、文化责任心相对较低;与冉汇真[5]一般本科院校学生相比,医学院校学生社会责任心相对较高。其次,医学院校不同专业学生社会责任心存在差异,即医学社会学专业社会责任心相对较高、临床医学专业居中、医学护理专业相对较低,以往研究也发现不同专业大学生责任心存在差异,如艺体类和经贸类大学生社会责任心相对较低,文科类学生相对较高[3-5]。这些结果表明医学院校学生同其它大学生一样具有较强的社会责任感、集体意识、职责和义务的责任意识,更加关注人类基本生存环境和生命价值;任何群体的社会责任感都受多种因素的影响,使不同群体责任感各具特色,临床医学和护理专业学生将肩负救死扶伤的职责,他们把更多的精力投入专业学习中,更加关注能力和技术的发展。

统计学路径分析范文4

关键词:PLS路径模型;综合评价;审视

一、 引言

PLS路径模型(PLSPM)是指基于偏最小二乘方法的结构方程模型,该方法最初提出是为了克服基于协方差分析结构方程模型(CB-SEM)很强的分布假定(R?nkk?. M and Evermann. J,2013)。在实际应用中,该方法在综合评价中也有不少应用,特别是在满意度综合评价方面应用广泛,在商学、管理学等社会科学中有重要地位。以致部分文献将顾客满意度模型等同于PLS路径模型(梁燕和金勇进 2007)。近年来,我国学术界对于该方法的应用在综合评价的研究也如雨后春笋一般出现了不少文献(如:王惠文和付凌晖,2004;林盛,刘金兰和韩文秀,2005;阮敬和纪宏,2006;邹树梁等,2008;刘旭华,2008;莫一魁和沈旅欧,2009;关子明等2009;叶明和张磊,2010;鲜思东和彭作祥,2011;区晶莹等,2011;杨威和张拓红,2012;王庆丰,2013)。根据这些文献和综合评价理论,可以将PLS路径模型进行综合评价的步骤归纳为:第一,确定评价目标,建立指标体系,收集数据;第二,实施综合评价,具体为:①用迭代(包括一系列最小二乘回归,线性运算和抽取平方根)得到潜变量的表达式,它们是可测变量的加权平均;②用通常的最小二乘得到潜变量之间的线性关系;③用通常的最小二乘得到潜变量与对应可测变量间的线性关系;④利用潜变量的估计值得到各种指数,进行综合评价。第三,检验与评估综合评价的结果。笔者查阅了近年来的相关文献发现,多数文献指出PLS路径模型进行综合评价有着其他方法没有的优势,具体可以归纳为四点:第一,克服多重相关性和共线性的影响;第二,相比CB-SEM,分布假定很弱;第三,样本容量要求没有CB-SEM高,适合小样本情形;第四,是一种客观的综合评价方法。但是,目前没有文献在综合评价框架下对这些优点做出进一步的细致说明。笔者认为,PLS路径模型并非为综合评价专门设计的方法,并且这些优点基本上是相对CB-SEM比较得出的,将它们直接移植到综合评价领域,不甚严格,需要推敲。事实上,用于综合评价的统计模型很多,但是很多学者对这些模型在综合评价框架下的适用性进行了研究,例如,仅关于主成分分析就有很多文献,如苏为华(2000),王学民(2007),林海明和杜子芳(2013)等。为此,本文将对上述四大优点在综合评价框架下进行审视,提出并解答四个问题,即利用PLS路径模型进行综合评价时:

(1)有没有样本量的要求?

(2)有没有针对样本的分布假定要求?

(3)没有多重共线性的影响了吗?

(4)客观性体现在哪里?

二、 问题的研究

为了对上述问题进行研究,我们首先概述PLS路径模型的算法,然后根据概述回答问题。

1. PLS路径模型算法概述。利用PLS路径分析进行综合评价,首先要分划好可测变量的归属,一个潜变量对应一组可测变量。为此假设有Q个潜变量?孜1,…,?孜Q,第j个潜变量对应的可测变量为Xj=(xj1,…,xjpj)′,j=1,…,Q。则有xjh=?姿jh?孜1+?着jh(h=1,2,…,pj)或者?孜j=?撞■■wjh+?着j,前者为反映型(Reflective),系数为载荷;后者为反映型(Formative),系数为权重,选择何种形式需要根据实际问题决定,这种反映可测变量与潜变量关系的模型为测量模型。其次要设定好潜变量与潜变量之间的关系结构,即?孜i=?撞■■?茁ij?孜j+vij。这部分模型称为结构模型,模型中的系数为路径系数。潜变量的得分(即潜变量的估计值)是进行综合评价的关键,对其估计通过迭代实现。由三大步骤组成:

外部逼近:

Yj∝■wjhxjh

Yj是?孜j的外部逼近估计量,∝表示左边是右边的标准化,Wj=(wj1,…,wjpj)′是外部权重。

内部逼近:

zj∝■ejiYi

其中,i:i?圮j表示与第j个潜变量直接有关的潜变量的下标。eji是内部权重,有三种不同的形式(Tenenhaus M,2005)。

更新权重:

内部权重由潜变量间的结构决定,迭代过程中需要更新的是外部权重,当测量模型为反映型时,对于xjh,其新权重为以Zj为自变量,xjh为因变量的一元线性回归系数,但由于Zj被标准化,因此有wjh=cov(xjh,Zj),当测量模型为构成型时,新的权重以Zj为因变量,与之对应的可测变量xjh为自变量的多元线性回归的回归系数,即

Wj=(Xj′Xj)-1Xj′Zj

上述步骤反复迭代,直到权重变化不大,就认为收敛,得到最终的权重估计值,潜变量的得分就是可测变量的加权平均值。

下面给出前面四个问题的解答。

2. 问题解答。

(1)问题1的解答。通过算法概述可以看出,PLS路径模型的最终目的虽然是得到潜变量得分,但是其本质是得到权重的估计。而权重的估计通过一系列的最小二乘方法反复迭代得到,即迭代过程中本质上涉及到一系列的线性回归模型。目前已有一些学者讨论了PLS路径模型的最小样本量,这些研究的主要依据是算法中涉及最大回归方程需要的样本量作为PLS路径模型的最小样本量。例如,Chin. W.W(1998)认为其最小样本量应该为最大结构方程中自变量个数的10倍。梁燕和金勇进(2007)从最大回归方程、准确估计参数、准确估计R2三个角度研究认为,样本量至少需要100,最好在230以上。但是这些研究都是从PLS路径模型作为统计方法出发的。不能回答综合评价需要的样本量。

根据综合评价的理论,综合评价的目的在于科学决策(杜栋等,2008),首先要求评价结果能够客观反映世界的真实情况。这就要求样本需要能够具有普遍性,因此样本量是否足够不仅需要考虑PLS路径模型本身,还需要考虑样本是否具备代表性,过小的样本量将带来较大的误差。其次,要求参与建模的统计模型能够客观地挖掘总体信息,达到样本推断总体的效果。这样才能针对总体情形进行科学决策。为此,需要首先回答PLS路径模型挖掘样本的何种信息,可以证明(Dijkstra. T,1983),PLS路径模型的权重估计是一个不动点估计问题,具体为:

反映型:Wj∝?撞i:i?圮jeji・SjiWi,其中Wj′SjjWj=1;

构成型:Wj∝S-1jj?撞i:j?圮ieji・SjiWi,其中Wj′SjjWj=1

其中,Sji为第j组可测变量与第i组可测变量的样本协方差矩阵,Sjj是第j组可测变量的样本方差矩阵。上述等式说明了两点事实:

①对于权重估计的信息来自可测变量的样本协方差矩阵,权重可以看成是样本协方差矩阵的函数;

②PLS路径模型挖掘样本信息,是一种非参数方法。

这就意味着PLS路径模型进行综合评价、科学决策的前提是样本协方差矩阵与总体协方差矩阵足够接近,这与CB-SEM对样本量的要求是相同的。因此,本文认为,在综合评价框架下,所谓PLS路径模型适合小样本的说法并不合适,为了进行科学决策,样本量越大越好。从样本协方差矩阵接近总体协方差矩阵的角度考察,PLS路径模型的样本量要求不低于CB-SEM的样本量要求。

(2)问题2的解答。由于PLS路径模型的估计问题实质上是一个不动点问题,且估计方法为基于最小二乘的迭代算法,因此该方法本质上是一种非参数方法,从数学上而言,样本是不需要分布假定的。目前文献中通用的算法仅对其一阶矩有约束(Vinzi.V.E et al.,2010),

E(?孜jh|?孜j)=E(?孜j|xj1,…,xjpj)=0

E(?孜i|?孜j)=■?茁ij?孜j

(3)问题3的解答。关于PLS路径分析进行综合评价可以消除多重共线性(多重相关性)的提法首见于王惠文和付凌晖(2004),其后又有若干文献有类似提法。根据这些文献的说法,“系统评估指标体系往往被分为若干个变量组,由每个变量组表达一个主题概念。在这种情形下,所建立的评估指数应能够反映指标体系的层次性”,利用PLS路径模型可以解决这些问题。事实上,这样的做法类似层次分析法,不同的是前者利用可测变量间的线性关系结构作为赋权依据,后者依赖专家评分(宁禄乔,2006)。但是这不意味着利用PLS路径模型就能解决多重共线性问题。我们指出,如果测量模型仅为反映型模型,且不考虑路径系数,那么多重共线性确实可以得到解决。除此之外,还存在其他的多重共线性问题。

①测量模型中可测变量的多重共线性。这种情况发生在测量模型为构成型,或者混合型(构成型和反映型的混合)时。原因在于,同一组可测变量都刻画一个潜变量,这些可测变量必然相关。

②结构模型中的多重共线性。当需要考察路径系数时,如果结构模型中解释变量多于一个,这种情况就需要引起注意。原因在于,得到潜变量得分估计后,需要通过最小二乘方法估计路径系数,如果解释变量多于一个,本质上就是潜变量之间的多元线性回归。这时就会面临多元线性回归的多重共线性问题。

为了解决这些问题,需要对算法进行修正。Vinzi.V.E et al.,(2010)建议在迭代过程的权重更新阶段和路径系数估计阶段用PLS回归方法代替OLS方法。

(4)问题4的解答。由于PLS路径模型进行综合评价是通过对可测指标赋权,得到潜变量得分,从而进行综合评价。因此讨论其客观性本质上关注的是权重的客观性。在综合评价框架下,计算权重大致可分为两类,一是主观权重,由专家判断得到;另一类是客观权重,由实际数据产生(杜栋等,2008)。通过其算法和评价步骤,我们认为PLS路径模型并非完全的客观评价方法。原因在于对可测变量的分组是主观的。其客观性体现在权重基于可测变量的方差-协方差结构,这是由权重的不动点性质决定的。根据数理统计知识,方差-协方差结构与变量间的线性关系有密切的联系,因此可以认为PLS路径模型挖掘了各变量间完全的线性关系(吴喜之,2013)。

同时需要指出,可测变量间的方差-协方差结构对权重关系密切,对可测变量的量纲处理将影响权重的客观性。如果对可测变量进行标准化,使其均值为0,方差为1,则可测变量的方差-协方差矩阵退化为相关系数矩阵。这样,可测变量本身的变异信息将不能被权重反映出来,权重仅反映变量之间的相关关系信息。为此,在对可测变量进行去量纲处理时,应该保留其本身的变异信息。可以采用孟胜旺(1992)的处理办法。

三、 结论和建议

本文对PLS路径模型应用于综合评价时的几个“优点”进行了审视,指出①在综合评价框架下,PLS路径模型适合小样本不能作为优点看待,进行综合评价时,样本越大越好,使得样本方差-协方差矩阵与总体方差-协方差矩阵充分接近。关于样本量的要求,可以参考CB-SEM;②从数学上而言,PLS路径模型确实不需要分布假定,只需要满足几个一阶矩的约束即可;③对于测量模型为反映型时,如果仅考察潜变量得分,PLS路径模型确实可以克服多重共线性。但是当测量模型为构成型或者混合型时,或者需要考察路径系数时,该方法并不能克服多重共线性,需要对算法进行改进;④PLS路径模型不是完全的客观评价方法,需要对可测变量主观分组,其客观性体现在权重估计基于样本的方差协方差信息。

对于使用该方法,除了已有文献(如Tenenhaus M 2005)给出的建议之外,本文提出如下建议:

(1)应该根据实际问题,对可测变量合理分组,确定测量模型的类型,确定结构模型形式;

(2)在数据处理阶段,应该保留可测变量本身的变异,例如可以用原始变量除以均值代替标准化;

(3)样本量越大越好,不建议对小样本进行综合评价,从理论上而言,没有意义;

(4)当需要考察路径系数时,以及测量模型为构成型和混合型时,需要注意多重共线性的影响。

参考文献:

1. 杜栋,庞庆华,吴炎.现代综合评价方法与案例精选(第二版).北京:清华大学出版社,2008.

2. 关子明,常文兵,王薇.基于结构方程模型的银行员工绩效考核方法.经济论坛,2009,(2):108-109.

3. 梁燕,金勇进.顾客满意度模型的样本量研究.统计研究,2007,(7):68-74.

4. 刘旭华.基于PLS通径分析的上市公司财务指标综合评价.数理统计与管理,2008,(4):695-700.

5. 林海明,杜子芳.主成分分析综合评价应该注意的问题.统计研究,2013,(8):25-31.

6. 林盛,刘金兰,韩文秀.基于PLS-结构方程的顾客满意度评价方法.系统工程学报,2005,(6):653-656.

7. 孟生旺.用主成份分析法进行多指标综合评价应注意的问题.统计研究,1992,(4):67-68.

8. 莫一魁,沈旅欧.城市公交系统公众评价的偏最小二乘通径模型.深圳大学学报(理工版),2009,(4):436-440.

9. 宁禄乔.PLS算法研究.天津大学学位论文,2006.

10. 区晶莹,张淞琳,俞守华.基于偏最小二乘通径模型的农民工信息能力综合评价.农业系统科学与综合研究,2011,(4):495-501.

基金项目:国家自然科学基金(项目号:11361019);广西自然科学基金重点项目(项目号:2013GXNSFDA019001);中国人民大学科学研究基金项目“纵向边际化随机效应模型应用研究”(项目号:13XNF058)。

统计学路径分析范文5

[关键词]医疗资源;配置;空间要素;管理;优化;GIS

doi:10.3969/j.issn.1673 - 0194.2017.04.102

[中图分类号]R197.1 [文献标识码]A [文章编号]1673-0194(2017)04-0-01

1 基于空间要素的医疗资源配置重构优化模型研究背景

看病难是当前医院管理遇到的重大问题,是国家医疗改革中急需解决的问题之一。造成看病难的原因是多方面的,但是医疗资源配置不合理是其中重要的原因之一。当前,医院在设计门诊大楼,配备门诊医疗资源时,更多的是从业务管理、行政管理等方面出发。目前,有部分研究者对医疗资源设置合理性进行了初步探索,比如:将重症监护室同手术室以及输血科临近设置,保证手术病人能够在最短时间内送达监护室,并且一旦有用血需求时能够在最短时间内从输血科取得血制品等。

目前,很少有医疗机构能够从患者就诊角度出发,设计门诊流程及配备医疗资源,导致患者进入医院后,在各个就医节点上花费大量的时间,将大部分时间浪费到排队等待以及多部门的往返移动上,特别是行动不便者,更是身心疲惫。

医院加强了标志的设置,提供了多种多样的预约挂号、缴费结算手段,但是由于医疗活动的特殊性,医生与患者需要面对面的沟通、诊疗,以及必需的医技检查检验等,导致患者不能完全脱离医院完成就诊流程。因此,利用信息化手段仅仅能够将院前的时间尽可能减少,但是对于整个在院期间的时间减少并没有太明显的效果。

从本质上来说,在当前医疗就诊流程情况下,优化调整医院医疗资源的配置,利用多种多样的信息化系统,是在我国当前医疗环境下解决看病难、等候时间长这一难题的办法之一。

2 基于空间要素的医疗资源配置重构优化模型的研究区域

本研究区域是河北省某所大型三甲综合医院的门诊区域。为了保证空间数据的准确性,本研究将大楼图纸的CAD文件导入ARCGIS系统中,构建了包含移动路径的空间模型。

在此研究中,笔者选取了门诊患者量较大的外科、内科诊区、超声、内镜及检验科等医技科室作为研究目标,收集了门诊的诊室数量、出诊医生、医技科室一线窗口人员数量及科室检查设备数量等信息,将其空间化导入空间数据库中。患者数据的收集则采用门诊随机抽取并全程跟随的方式,记录患者前往特定区域,如门诊、检查检验科室的路径花费时间、等候时间、医疗服务接受时间等数据,根据患者移动路径创建患者移动模型。

使用蒙特卡洛多次模拟方法,按照挂号―就诊―缴费―检查―取药的就诊流程,得出患者移动到特定环节的平均花费时间,最终可以得到特定患者一个标准就诊流程的时间。模型可以得到患者在各个环节花费的时间和总体在医院就诊花费的时间。

在空间模型中,研究者可以调整任意空间要素的位置,比如:将一个包含了就诊医生等信息的外科诊室作为一个空间要素,由原来的二层位置调整到其他位置,并利用路径分析及蒙特卡洛模拟计算出患者移动到新位置的平均时间。

通过与真实数据时间花费进行比较,研究者能够评估调整后位置对于减少患者就诊时间是否有改善。利用本模型,管理者能够探索多种医疗资源配置模式,从而找出最佳的配置方案。先在模型上充分模拟,减少了对临床一线的影响,也提高了管理决策的合理性,帮助医院投入最少的资源实现资源最优化配置。

3 结 语

在国家不断深化医疗体制改革,要求医院不断提升管理水平,提高患者就诊满意度的背景下,优化门诊医疗资源配置是医疗管理者关注的问题之一。现有的医疗资源配置方案,大多根据经验来实施。方案的出发点往往从医疗行政管理方面出发,比如:将同类诊室聚集到一个区域,医技科室聚集到另一个区域。但是这样的配置方式对于患者就诊来说并不方便,例如:前往本次研究的内科就诊的患者,往往需要到某个特定的医技科室去就诊,而此科室距离内科诊区较远,患者需要花费许多时间到指定区域。

通常调整医疗资源配置是一项花费时间、金钱、涉及科室协调的复杂工程,特别是一旦投入使用后进行更改非常困难。因此,许多医院的管理者即使发现了不合理的配置,也很难下定决心进行调整,因为管理者不清楚如何配置才是当前情况下最优的方案。

利用统计学的方法和空间分析技术,能够将医疗资源变化为空间要素,从而能够发现任意要素的调整变化对于整个门诊就诊流程的影响。通过计算机技术和统计学方法,可以椭医院管理者以更低的成本和代价,获得可信的,有数据支持的配置方案,帮助医院管理者作出符合医院自身实际情况的决策,从而使患者有更好的就诊体验。

主要参考文献

[1]王昕,郑昂.新医改进程中的公立医院管理面临的挑战[J].医学与哲学,2012 (15).

[2]侯捷,倪虹,李颖晖.关于某医院门诊就诊满意度调查与分析[J].数理医药学杂志,2016(1).

统计学路径分析范文6

关键词:Web 挖掘;数据挖掘

引 言

近年来,Internet在不断地普及,WWW在迅速地发展,人们可以通过网络方便地得到自己需要的信息,但是网上信息的大量涌现使得用户经常感到束手无策,甚至常常不知道如何查找自己所需要的信息,用户为此苦恼万分。Web数据挖掘技术提供一个很好的解决方法,它不但可以为访问用户提供方便,而且对提高站点效率、吸引客户等都有很大的帮助。

在现实当中人们常常将Web挖掘与Web信息检索或信息抽取等同起来。实际上它们不是等同的,并且是有区别的:一、信息检索只能以关键词去查找与关键字匹配的简单目标,如果用户给出的不是关键字,而是信息样本,这时信息检索就无法满足用户的要求,但是挖掘系统是可以满足用户要求的,它能够从文本中提取出目标信息的特征,然后根据目标特征在网络中有目的地进行搜索,最后将搜索结果返给用户。二、信息检索实际上是在一定的领域内对特定的信息进行查找和检索,在某种程度上可以看作是Web挖掘中文档分类的一种特殊情况。三、信息检索只是一部分使用到了数据挖掘技术,正是因为这样,在信息检索中在一般情况下是很难发现隐式的数据联系,而Web挖掘却不同,它能从大量看似无关的数据中发现数据联系和知识,并对于决策给予支持。

1 Web挖掘

Web挖掘是利用数据挖掘技术从Web页面内容、页面之间的关系与结构、用户的访问记录等Web数据中提取满足用户目标的有用知识、有用信息,以便为Web用户的访问提供方便或为网站经营者改善站点结构提供决策支持等[1]。Web挖掘不是一个单一的技术,涉及互联网技术、统计学、信息学等多个领域[2]。Web挖掘过程可分为多个处理阶段:确定挖掘目标、准备源数据、数据选择及数据预处理、数据挖掘及模式识别、分析评价等阶段。

传统数据库中的数据都是结构化的数据,而Web上的数据是半结构化的,半结构化是相对于数据库中的结构化数据而言的。由于Web的异构性、动态性与开放性等特点,要从这些分散的、没有统一管理的、异构的大量数据中准确、迅速地获取信息是Web挖掘要解决的问题,这也决定了在进行Web挖掘时不能完全依赖于数据库的挖掘技术。面向Web的数据挖掘比面向数据库的数据挖掘要复杂很多,进行Web挖掘要考虑很多问题[3]。

1.数据来源分析。进行Web挖掘时所需要的数据主要来自于三个方面:Web服务器上记录的访问日志、Web服务器上的页面所包含的信息以及客户的相关资料信息。用户访问Web 站点时,站点会记录其访问记录。借助一些工具可以处理和分析Web服务器上的日志文件从而得到有意义、有价值的信息。Web服务器还可以记录用户其他的访问信息,例如:Cookie和用户提交的查询信息等。与此同时,服务器也记录文件的相关属性,例如文件的创建者、修改时间等。而注册用户的资料信息存储在资料数据库中,内容如:客户的姓名、年龄,对于产品的看法,顾客的个人偏好等。Web挖掘的一个难点就是如何从非结构化数据信息中进行有效地信息和数据挖掘。

2.异构数据库环境。从数据库角度来看,Web网站上的信息也可以被当作一种特殊的、复杂的数据库。互联网上的任何站点都是数据源,而且都是异构的数据源,因而站点之间的信息和组织都是有差别的,这就构成了一个巨大的异构数据库环境。如果想在这个巨大的异构数据库上进行数据挖掘必须解决几个问题。第一,必须要想办法把这些分布的数据集成起来,只有将这些不同站点的数据都集成在一起,提供给用户一个统一的视图,才有可能从巨大的数据资源中获取所需的信息或知识。第二,还要解决Web上的数据查询问题,如果不能快速、准确地查找这些数据,就不能对这些数据进行分析、集成和处理。

3.半结构化的数据结构。数据库中的数据和Web上的数据有着很大的不同,数据库中的数据都是根据一定的数据模型来进行具体描述的。而Web上的数据则不同,它没有特定的数据模型来描述,各Web站点的数据是独立设计出来的,之间的差异很大,并且在自述性和动态性上也表现得相当的大的差异。因而,Web上的数据的结构性不是很强,只能说有一定的结构性,同时因自述层次的存在,Web上的数据是一种非完全结构化的或者是半结构化数据。半结构化是Web上数据的最大特点。

4.半结构化的数据源问题的解决。由于数据源的特殊性,要进行Web数据挖掘第一步就建立半结构化数据源模型和半结构化数据模型,解决其中的集成和查询难题。这就必须要建立一个模型来来对Web上的数据进行描述。Web上的半结构化的数据需要定义一个半结构化的数据模型和模型的抽取技术来对现有数据自动地的抽取半结构化模型。面向Web数据挖掘的前提条件就是半结构化模型和半结构化数据模型抽取技术这种技术。

Web挖掘的基本构架如下图所示:

2 Web数据挖掘中的常用技术

常用的Web数据挖掘中技术包括:路径分析技术,关联规则挖掘技术、序列模式挖掘技术和聚类分类技术等[3]。下面对它们进行简单的分析:

1.路径分析技术

对Web数据挖掘时,路径分析技术比较常用的是运用图的方法。因为我们可以用一个有向图来表示Web站点,即:G=(P,I),P代表了页面的集合,每一个顶点就是一个页面,I表示的事页面之间的超连接的集合,有向图中的边被定义为页面之间的超链接。以顶点v为头的边来表示对v的引用,以顶点v为尾的边定义为v引用了其他的页面值,这样形成网站结构图[4]。