前言:中文期刊网精心挑选了心理测量学范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。
心理测量学范文1
论文摘要:事件相关电位测谎是在对信息加工脑活动的电生理显示的基础上,通过直接读取案件相关的脑电位变化,来判别被测人是否与案件有关的心理测试方式。文章从心理测量学的角度分析此种测试方式的科学性、客观性并认为该测试方式的指标选择具有代表性,可测性和可接受的信度和效度。
事件相关电位测谎是在对信息加工脑电活动的电生理显示的基础上,通过直接读取案件相关的脑电位变化,即得到无法伪装和隐藏的脑电位的波幅、波的正负极性、潜伏期等参量变化为检测依据的结果。这些参量的变化更不易伪装的原因在于,当人的大脑辨认出重要信息的时候,比如说嫌疑人所看见的图片刺激,与存储在他大脑中的犯罪细节部分相吻合时,大脑就会产生一种异常的脑电图反应具体来说也就表现出异常的P300,只有嫌疑人参与到这个案件当中,并且知道关于犯罪案件过程的特定细节,才会异常P300波的出现。如果他没有参与到案件中,不掌握有关的信息,记忆中就不会存储案件相关信息,也就不会产生异常的P300波,所以根据被测人是否出现异常的P300波,就可以证明其是否与案件有关。但该测试结论能否作为诉讼证据使用一直存在诸多的争议,其根源就在于测试的客观性一直受到质疑,所以本文拟从心理测量学的角度来探讨事件相关电位测谎的客观性和科学性。
美国心理测量专家阿娜斯塔西给心理测量所下的定义被广泛接受,即测验是对行为样本的客观和标准化的测量。这个定义构成了心理测量的五个要素:行为样本、标准化、难度的客观测量、信度、效度。故本文将从这五个方面进行分析。
一、行为样本分析(sample of behavior)
(一)事件相关电位测谎的行为样本一P300
事件相关电位测试主要是通过播放图片刺激来引发被试者与犯罪行为有关的多参量脑电图反应并加以记录,而记录下来的多参量脑电图即为事件相关电位测谎的行为样本。而在测谎过程中的多参量脑电图就是指靶与非靶刺激所引发的P300,它是一种重要的ERP成分,是指在被试者或检查对象辨认“靶刺激”时在其头皮记录到的潜伏期约为300ms的最大晚期正向波,其主要测量指标是潜伏期(ms)和波幅(LV)。P300是记录头皮振幅分布的正向波,在颅顶骨处达到最高峰,在前额骨处达到最低峰值,取顶骨的中间值。从刺激开始,它的波峰有一个典型300—1000毫秒的潜伏期,并且这个潜伏期会随着刺激加工时间的不同而有所不同,这通常是由刺激的复杂性决定的。在给出记录位置的P300波的振幅或大小是和刺激呈现的频率呈反比,也就是说越是小概率出现的刺激越容易诱发较明显的P300,此外有意义的刺激也容易诱发明显的P300。
(二)P300的可测性
P300作为事件相关电位测谎的行为样本具有可测量的属性,主要表现在三个方面:首先,实验研究的刺激设置大都是采用的oddball刺激序列,也就是需要两种或两种以上的刺激,按照一定的概率比例排列,通过对靶刺激和非靶刺激诱发的脑电波的对比分析来探测当靶刺激呈现时,被试的大脑皮层是否存在特异性反应,据此判断被试大脑中是否储存有目标信息、被试的反应是否为诚实反应。其次,在各种研究模式中,研究者将P300的波幅和波面积当作测量指标,并且认为在Pz这个头皮电位上记录到的P300是经典波形并能达到最大值。第三,电子科学技术的发展以及事件相关电位测谎仪的研制成功,使得P300的波幅和波面积测量成为可能。
(三)P300的代表性
1、指标的代表性
对于事件相关电位测谎来说,指标的代表性就是指P300波的波幅和波面积的数值变化能够反应被测人对所测主题的认知情况。
国内外的诸多学者通过实验研究已经证明了P300作为测谎指标的代表性,例如1987年,Rosen,feld首次报道了利用P300进行成功测谎的结果,他令受试者从装有九件物品的盒子中任意取走一件,以所取物品名和其它物品组成刺激序列,结果前者引出P300波幅高,以此判定受试者所取物品。杨文俊等通过被试者熟悉和不熟悉的人物和环境照片为刺激,P300的波幅和波面积为指标进行测谎,获得95~98%的阳性率,初步证明P300测谎的可行性。所以说P300作为事件相关电位测谎的行为样本指标具有很强的代表性。
2、研究群体的代表性
在进行事件相关电位测谎的模拟研究时,一般在控制实验条件下,由志愿者扮演犯罪嫌疑人的角色,按照设定好的情境进行模拟犯罪,然后再对犯罪者和无辜者进行事件相关电位测谎,通过比较被测人在P300波上的差异来认定犯罪人。此种研究方式与现场研究截然不同,其结果也不十分可信。Carroll指出,模拟研究中的无辜被试与现场研究中的无辜嫌疑人,相同的问题,对其在情感上有着完全不同的意义。而对实验室研究得出的数据进行分析,从无辜者的角度,可能会显著地过高估计事件相关电位测谎的准确性。从这个意义上来说,实验室模拟研究的样本群体,并不能典型地代表真正的实际犯罪群体,也就是说模拟研究中的群体样本选择并不具备代表性。
在进行现场研究时,也就是在实际的犯罪情境审讯过程中使用心理测试技术,此种研究方法更贴近现实,更具有实践意义,因为可以直接将研究成果应用于真正的刑事犯罪侦查程序中。事件相关电位测谎由于起步晚,关于测谎的研究还停留在实验室阶段,很少见现场研究成果的相关报道,而笔者以犯罪嫌疑人作为样本群体进行的部分现场研究证明,以犯罪嫌疑人作为被试取得了较高的阳性率,证明了事件相关电位测谎的准确性,从而说明以犯罪嫌疑人作为行为样本群体具有一定的代表性。
(四)P300的稳定性
任何测量指标作为心理测量行为样本的先决条件就是要具有一定的稳定性,而P300的稳定性使其可以成为事件相关电位测谎的指标。听觉oddball序列记录的P300,其潜伏期在不同时间的重复测试中保持有良好的一致性。Sklare比较了正常人听觉P300的稳定性,结果发现立即重复的第2次测试P300得的潜伏期较第一次测试,平均缩短了4.7-+0.8毫秒,2~4周之后的重复测试P300的潜伏期缩短了6.3+-3.9毫秒。虽然重复测试使得P300的潜伏期缩短,但是这种变化甚小,与个体差异比较,不足以影响实验结果。
为了证明P300的稳定性,美国六个实验室以相同的仪器和记录方法,以相同的听觉刺激序列分别记录了15名正常男性被试者的P300,结果发现不同实验室记录的P300在波幅、潜伏期和分布上并无明显的差异。
所以说P300的稳定性足以用于成组的研究,并成为事件相关电位测谎的测量指标。
二、事件相关电位测谎的标准化分析
标准化是指测验的编制、实施、评分及测验结果的解释程序都按照统一标准进行,并且这些程序对所有的被试都保持一致。标准化的实质是指测验中通过对无关变量的控制,使所要测量的心理特质成为影响测验分数的唯一自变量,标准化涉及到测验的全过程。
(一)测试内容和物理形式的标准化
对于事件相关电位测谎来说,测试内容和物理形式的标准化就是指测试方法和程序的标准化,包括靶刺激与非靶刺激的选择、刺激序列的安排和播放以及测后的评分都要遵循一定的规则,一般来说在选择靶刺激时要选择能够给被测人留下深刻印象的情节或事物,而不能选择被测人注意盲点的事物,否则将不会收到预期的效果。在刺激序列中,靶刺激的比例为30%,非靶刺激的比例为70%,它们随机排列并播放给被测人看。然而笔者在已进行的研究中发现,靶刺激的选择虽遵循一定的规则,但是在实际案例测试过程中,靶刺激的选择是很难完全符合要求的,也就是说我们按照既定的规则和标准去选择测试内容——靶刺激和非靶刺激,结果发现许多案例并不适合进行事件相关电位测试,即使勉强进行测试,也是有些方面并不满足要求,所以说测试内容的所谓标准化也只是相对的标准化。
(二)测试实施的标准化
测试实施的标准化主要是指在进行测试的时候要遵从指导语的严格规定,指导语应对主、被试的行为及测试的时间、地点有统一要求。在进行事件相关电位测谎的时候,我们要对被测人宣读测试指导语:“您好!您参与的是有关您所涉嫌案件的测试,测试员将根据您看一组照片后的脑波反应,判定您是否真正参与到本案件中。本测试对您无任何伤害,亦无痛苦,仅要求您:1、注意看由计算机控制,间歇一定时间出现在荧光屏上的照片;2、在实验过程中尽量放松,不要动,不要眨眼;3、每当出现您曾经见过事物的照片时,请尽快按鼠标左键,其余照片不按键。”在被测人明确以上要求后,按测试要求给被测人接上测试电极,设定有关的参数。所以说在事件相关电位测谎实施过程中有明确的标准可以遵循,在这一点上具有较高的标准化程度。
(三)测验的评分要按照事先规定的统一标准
对于事件相关电位测谎来说,目前的测谎仪还没有给出一个自动评分系统,因此测后评分更需要丰富的经验,虽然测谎软件会自动计算出P300的潜伏期、波幅和波面积的数值,但是前提是要选准哪一个波形是我们赖以得出结论的P300,否则所有的数值都毫无意义;在选定波形之后,我们在对结果进行判定的时候主要依据靶刺激和非靶刺激所诱发的P300波幅和波面积的数值比是否超过50%,如果超过则判定结果为阳性,反之则为阴性。但是这个标准也是根据实验室研究结果得出来的大致概率,并不是绝对的标准,所以说波形的选定和波幅、波面积的计算需要丰富的经验,目前还没有一个严格、统一的标准。
(四)测试结论的标准化
在实施心理测试技术之后,要给委托单位出具测试结论,也就是依靠心理测试报告的格式与文书内容来体现整个测试结果。而心理测试技术作为一种典型的过程测试,测试结果和专业表述是不同的实体,需要分别对待。测试结果是根据原始数据产生的,当个体的反应数据被记录下来之后,测试结果也就形成了。而专业表述是对测试结果的说明,它代表了测试人员的能力和水平,因为专业表述除了依赖于测试结果,还必须对测试的整个过程进行说明,这对测试人员的综合能力提出了很高的要求,也可以说专业表述能力的强弱,是测试人员能力水平高低的一个标志。
但是长期以来,国内对心理测试技术的结果报告形式并没有认真对待,一般的情形是,测试结果出现之后,测试人员很快以口头表述的方式将其传达给委托部门,而委托部门会根据结果立即进行审讯或开展其它工作。如果案件有所突破,测试技术也仅是侦查过程中的一个环节,如果没有突破,委托部门会寻找其他的线索或手段,而测试结果也就被搁置在一旁。而此种情形导致了对专业表述的要求不强,进而造成了目前在国内描述测试结果不统一的局面,有的称为鉴定结论,有的称为检测报告等。而这样的情形无疑导致了事件相关电位测试技术在结果表述上的不太规范。
另外,由于事件相关电位心理测试技术在实践中应用得比较少,所以测试结论的出具还没有明确规定的格式,而本研究在进行完测试之后,是以《事件相关电位测谎登记表》的形式向委托单位出具测试结论,在登记表中列出了测试所使用的靶刺激和非靶刺激以及测试结果。
三、测试难度的客观测量
测试的客观性往往与标准化密不可分,它涉及了测验编制、实施和解释的全过程。但测验客观性最重要方面是测验项目难度水平的确定必须客观,而难度确定的客观方法又不同于其他的由命题者评估测题难度的主观方法,而是通过试测并根据被试的答题情况而确定。这是测谎在心理测量学上遇到的最大问题。因为测谎可以说是一种最具个体化特征的研究,针对不同的被试,虽然在测试程序上可以保持一致,甚至评分标准上都可以保持相同的标准,但在激发被试生理反应的提问方面却要具有鲜明的个体化,必须针对每个被试的特征设计不同的问题类型,而所测验项目的难度就是根据被试的反应来进行评估的。
对于事件相关电位测谎来说,由于所设计的测试题目是以图片刺激的形式播放给被测人,需要被测人能够准确识记并做出按键反应,所以表面上看关于测试题目的难度测量比较简单,甚至可以说没有难度。但其实不然,正如上文所分析的那样,在激发被试生理反应的图片刺激选择上存在相当的难度,到底哪些图片可以适度地激发被试的生理反应,这对于测谎员来说是一个不小的挑战。而且在测试刺激编制完成之后,到底在多大程度上发挥作用还取决于被试者的反应,也就是说要根据被试者的反应来评估测试刺激的成功与否。
因此说,根据被测人的文化水平和理解能力来评估问题的难度,就会在很大程度上受到测试者主观因素的影响,很难做到完全依据被试的反应来进行评判,从而导致测试难度的测量很难做到客观化。
四、事件相关电位测谎的信度分析
信度是指测验的可靠性,即同一测验多次测量同一团体所得结果之间的一致性程度。由于测量的是被试所有行为样本中的一个,所选择的测验情景也只是所有可能的情景中的一种,因此测验误差的存在难以避免。
对于事件相关电位测谎来说,同一测验对同一被试的测量一般只进行一次,最多两次,所以按照上文信度定义,是无法衡量其信度的,根据前文的分析,我们知道如果被试者确实经历过我们所调查的事件,就会在大脑中留下有关的痕迹,当再一次看到与该事件有关的情节图片时,就会有相应的脑电反应。如果从来没有经历过此事件就不 会有相应的反应。因此我们对被测人一般只进行一次测试,如果进行多次,就可能使无辜者因为多次接触与犯罪情节有关的图片而在大脑中留下痕迹,从而在下次测试时表现出异常的脑电反应,造成测试结果的误差。所以对于事件相关电位测谎来说,上述的统计学信度对其并不适用。但并不是说事件相关电位测谎的信度就无法检验,笔者在进行研究时主要采用相同检测者用相同方法对相同结果图谱2次评定是否一致来探讨其信度。结果发现前后结果的差异并不大。Barland和Raskin研究了多道心理测试中,相同检测者在隔了6个月之后,对相同结果图谱的重评,两次评定间的相关在0.80至0.92之间。这个结果对于事件相关电位测谎来说是一个很好的参考。
五、事件相关电位测谎的效度分析
效度是指测验结果的准确性和有效性,是一个测验确实地测量到它所欲测量的心理特质的程度。很显然,效度对一个心理测验是最为关键的,因为它回答了测验是否及在多大程度上达到了测验的最终目的。
证明测验存在效度的资料需要经过多次研究来收集,效度证据通常来自三个方面:与内容有关的证据、与效标有关的证据和与构念有关的证据,而关于测谎的效度研究多从内容方面开展。
由于测谎并不是经典的心理测量,所以在其效度的研究中存在许多问题。甚至Saxe等认为测谎、尤其是多道心理测试中的CQT缺乏结构效度,测谎所检测的并不是谎言本身,而是引出并测量恐惧和焦虑,但由于没有办法确定被试恐惧或焦虑的原因,所以测谎的效度不可能测量。虽然此观点过于偏激,但也指出了测谎效度测量中存在的问题。不过测谎作为一项刑事技术已广泛应用于刑事案件的侦查过程中,有时对案件的侦破起着至关重要的作用,所以还是非常有必要研究测谎的效度,只有有效的测量方式才能得到不断的改进和应用,否则就会逐渐萎缩。而为了研究测谎的效度就必须寻找合适的研究方法,分析对照标准并探讨影响效度的因素。
(一)研究方法
目前研究测谎效度的方法主要有两种:模拟研究和现场研究。本文将从这两个方面来分析事件相关电位测谎的效度
1、模拟研究
在事件相关电位测谎的模拟研究中,杨文俊等人利用被试者熟悉和不熟悉的人物和环境照片为刺激,P300的波幅和波面积为指标进行测谎,获得95~98%的阳性率,初步证明P300测谎的可行性。周亮等人设计模拟盗窃案件对20名被试进行事件相关电位测谎,在结果判别方面应用Fisher判别方法,以P300潜伏期波幅和波面积为指标建立判别方程,将模拟组和对照组每个受试者的数据代入方程,正确判别率为100%。所以说通过模拟研究证明事件相关电位测谎具有较高的准确性和有效性。
2、现场研究
当一项技术在模拟研究阶段证明了其有效性和准确性之后,就要转入现场研究,因为任何的刑事技术最终的目的还是为了服务于实践工作。由于目前国内关于事件相关电位测谎的实验研究报告还鲜有见到,所以笔者通过自己在实践中已经开展的事件相关电位研究所得出的结论,证明了事件相关电位测谎在认定犯罪事实方面的准确性已经达到了95%以上,所以说在现场研究方面,事件相关电位测谎具有较高的准确性和有效性。
(二)比对标准
Patrick等认为测谎效度研究中样本偏倚是一个潜在问题,事后的交待常作为说谎与否的标准,但这是一个缺乏独立性的标准。因为被测人事后的交待也不一定就是真实的,也可能是他出于某种原因而做出来的虚假供述,所以这个比对标准并不具备唯一性。在这点上,事件相关电位测谎与多道心理测试是共同的,也就是说缺乏一个独立的、客观的对照标准。所以笔者认为将对照标准改成最终的司法审判结果可能会更具客观性、独立性,因为就目前的司法体制而言,法院的最终宣判是证实犯罪嫌疑人有罪与否的唯一客观标准,在法院没有宣判之前,没有任何指标可以确定犯罪嫌疑人就是实施犯罪的人,从而提高对照标准的唯一性和独立性。
(三)影响因素
测谎作为一项特殊的心理测试,其有效性总会受到各种因素的影响,而对于事件相关电位测谎来说,各种影响因素在影响测谎效度方面所发挥的效力是不同的,主要表现在如下几个方面:
1、是否要求被试完成某项任务。在引出P3的实验中,一般要求被试者执行某种任务,如对靶刺激作按键或计数反应,例如Polich J.曾经就任务效应对P3的影响效果进行了研究。结果表明任务难度可影响P3波幅,难度大者P3波幅明显,反之P3波幅下降。所以在本研究中要求被试者做出按键反应,也就是“YES”或“NO”的按键,并在程序设定上将其每一次按键作为下一张图片播放的指令,目的在于让被测者对刺激的内容进行辨别,以引出较高的P3波幅。如果没有给被测者任务,也就是不需要按键的话,就会使P3的波幅降低,影响测试结果以及对结果的评判。
2、靶与非靶刺激的出现概率
P3波幅与靶刺激出现概率有关,概率越低,P3波幅越大。ERP测谎时可以通过设定对照刺激克服概率影响因素。选定某一种非靶刺激为对照刺激,其出现概率与靶刺激相同。进一步研究发现P3波幅还受主观概率的影响,与被试者对某一未来事件的期待心理有关。测试过程中被测者分散注意力,对刺激“漠不关心”将使P3波幅下降,甚至会使测试无法进行下去。我们在进行测试过程中,碰到一个被测人,眼睛有意地不注意屏幕所播放的图片刺激,导致靶与非靶刺激产生的波形都没有叠加。
3、电生理的干扰
进行事件相关电位测试时,受试者必须接受声、光等形式的刺激,同步记录其脑电。要求受试者配合测试,防止肌电干扰。如果受试者不配合,颈部肌肉紧张或者频繁眨眼、身体乱动,将因为巨大肌电干扰而无法进行脑电的平均叠加。这一点对事件相关电位测试的影响是非常致命的,所以说取得被测人的配合是进行测谎的大前提,笔者在进行事件相关电位测谎研究时发现,一被测人过分紧张以至于按键的手都在发抖,导致脑电波根本无法叠加。
4、刺激内容的选择和设置
根据实际情况设置不同内容的刺激物是事件相关电位测试的关键。除了刺激的信息内涵和容量外,刺激本身所带有的情感性内容也会影响P3的波幅。Lang SF等发现,愉快或生气的面部表情作刺激,引出较大幅值的P3波。因此以作案现场、工具、受害者的照片等作为靶刺激,容易引起被测者恐惧、忧虑、紧张等情感反应,将提高测谎的准确率。但对于情感反应强烈的无辜者来说它也可能引出较大幅值的P3波,可能会提高假阳性率。非靶刺激如果是被测者所熟悉的内容,可能会引出较高幅值的P3波,降低分辨率;相反,如果靶刺激是无辜者所熟悉的内容,则会导致假阳性。故必须综合两方面的因素,根据案情和被测者的不同情况,选择适当的刺激物。
5、被试者记忆的影响
对事件相关电位测谎来说,目前脑电的分析技术有限,获得满意的P3波形必须经过多次的叠加,因此必须长时间的重复刺激。对照刺激的重复出现有可能造成被测者对此刺激的学习及强化记忆,多次反复之后其在脑内必然会形成一定的表征,场合更新过程将与靶刺激的接近,引出的P3波与靶刺激的相近,降低了分辨率。随着脑电分析技术的发展,单扫描ERP提取已获得成功,即从单个刺激引出的脑电中提取P3,若将其用于测谎可避免重复刺激的不良影响。
6、反测谎措施
心理测量学范文2
关键词:计算机自动化项目生成,认知设计系统法,项目模型法,构念效度。
分类号:B841
随着心理测验在招聘选拔情境中的应用越来越普遍,测验项目的曝光问题也逐渐引起人们的重视。测验项目的曝光不仅会影响测验的公平性,也可能会影响测验的心理测量学属性。计算机自动化项目生成被许多研究者认为是应对测验项目曝光问题的很具前景的一项技术。自动化项目生成是指在测验过程中,计算机根据项目编制者或者自适应施测程序的要求,在项目生成算法的指导下,即时自动生成符合指定项目参数的项目。尽管这个项目先前并不存在,也没有经过试测,但项目参数可以通过基于项目刺激特征与项目属性之间关系的心理测量学模型进行预测。因而自动化项目生成可以看作是认知心理学、心理测量学以及计算机技术三者有机结合的产物,是对传统项目编制方法的革新。这种技术已经被应用到能力和成就测验领域,还被用于对复杂技能的评估,如问题解决、临床诊断和教学技能,因项目编制效率高、结构效度好而受到欢迎。
1 理论基础
尽管早在20世纪70年代已经有研究者提出项目生成的思想,但真正利用项目生成方法编制测验的实践则是从80年代中期才开始的。其间Embretson对构念效度的重新阐述对促进自动化项目生成的发展起着关键作用。Cronbach和Meehl提出的构念效度已经指导能力测验几十年了,但Embretson认为他们的提法混淆了构念本身的含义以及与其他类似构念的关联。由于相关数据的累积只能通过测验编制完成之后的施测获取,因此传统的构念效度概念只能用来描述测验当前的构念,却不能为测验设计提供指导。
为了将测验设计结合进构念效度概念,Embretson提出一个两部分分离的构念效度:构念表征(construct representation)和规则广度(nomothetic span)。构念表征涉及鉴别任务表现潜在的认知成分,而规则广度则关注测验分数与其他构念之间的详细关系。Embretson认为传统构念效度的方法只包含后者,通过和其他测量相关联给测验分数赋予意义(规则广度):而认知心理学的新进展表明测量的意义也可以直接获得,即通过对在单个项目的问题解决行为中所涉及的过程、策略和知识的理解来确立(构念表征)。构念表征的研究范式包含运用认知心理学的方法为测量任务建立心理加工模型,如操纵测量任务的刺激特征,从而改变对假定认知过程的影响。
这种两部分分离的构念效度对测验编制来说有很大优势。最重要的是可以用认知理论指导测验编制。因为测验分数的意义在构念表征阶段已经确立,因此可以设计测验项目来反映特定的认知结构,进而根据那些已经得到实证性支持的影响目标过程、策略和知识结构的刺激特征来选择项目;同时,规则广度也受目标认知过程与重要外部变量之间关系的影响,对问题解决过程的认知分析可有助于它的提高。
2 具体方法
根据认知理论在项目生成中的影响过程和作用,Embretson等认为可将目前主要的自动化项目生成方法分成两种:认知设计系统法和项目模型法。这两种方法分别对应于Bejar等所提出的强理论(strong theory)和弱理论(weak theory)。强理论通过问题解决过程中隐含的心理学原理来精细地控制组成测验的模型或生成模型的实例的难度,如Embretson的矩阵完成测验和Beiar的心理旋转测验;弱理论以一组内容和难度上有广泛代表性的校准好的测验项目为起点,依据最佳实践原则(best-practice guideline)而非心理学原理生成模型,如GRE数学测验。这种分类方法对项目自动生成具有实践指导意义,因此下面将对两种方法的基本思想、步骤以及应用条件进行详细介绍。
2.1 认知设计系统法
认知设计系统法的基本思想是通过实验研究,发现项目刺激特征中的基本成分和随机成分。基本成分或控制成分(radicals or controlling elements)是指对项目心理测量学特性(如难度)有显著影响的项目刺激特征;随机成分或非控制成分(incidentals or non-controlling elements)被定义为对项目的心理测量学特性(如难度)没有显著影响的项目刺激特征。一般认为,基本成分主要有以下两类:第一类与工作记忆操作有关,如矩阵推理测验项目中规则的数量,阅读理解测验中的单词转换等;第二类与知识操作有关,如阅读理解测验中的词频等。随机成分都是些表层特征,如数学题目中涉及人物或物品的名称等。
2.2 项目模型法
项目模型法,也称模版法(template),是指以具有良好心理测量学指标的项目为基准(原型或框架),通过替换那些被认为与问题解决过程无关的特征,如物体名称、具体数字等,形成多个新项目。虽然这些新项目看起来与原来的项目不同,但实质却是类似的。实际上项目模型法也可看作是生成同构异形题多个实例的过程,这些项目在实质内容和心理测量学属性上都相一致。如果正如假设的那样,新项目继承了项目模板的特性,在心理测量学特性上与原先模板的特性非常接近,则可以直接通过这些新项目估计测试者的能力,而不需要进行试测。
2.3 两种方法的比较
这两种方法的根本差别在于对认知心理学研究成果的倚重程度,认知设计系统法对认知心理学的依赖程度更高些。
对项目模型法来说,认知心理学的影响主要体现在两个方面:(1)必须要限定那些与测量构念相关的变量允许替换的范围,以免在很大程度上改变认知加工过程。如替代的速度和距离需要更复杂的计算,以改变问题的难度。(2)利用语义网络来确定什么样的替代变量的组合是有意义的。比如在交通方式及其相应的动词上,飞机对应飞行,汽车对应行驶。项目模型法是期望通过最小限度地替换现存项目中的部分成分,去生成与原模板特性类似的大量项目。项目模型法因应用范围广、花费比较适中等优点,受到ETS等考试服务机构的青睐,如用于GRE中的数学测验、数量推理测验的项目生成。然而这样的项目因变动较小,重复曝光,容易被测试者记住,进而导致心理测量学属性的显著差异。
对认知设计系统法来说,认知心理学的研究起重要作用,它直接影响项目类型的认知加工分析和
解决过程中认知模型的建立。这个模型对项目解决过程、刺激特征对过程的影响以及过程对成绩的影响进行了详细说明。因此,基于认知设计系统法建构的项目,允许替换所有项目表层特征,只是基本成分的隐蔽性要求更好些。通过这种比较,我们可以看出对于那些有坚固认知研究基础的项目类型来说,认知设计系统法显然是更合理的选择。目前这种方法已经被用于非言语能力倾向测验,如矩阵推理项目、图形类推、空间折叠以及空间物品排列;正试图应用于其他类型的项目,如言语类推、言语分类、字母序列、段落理解以及数学问题解决。
3 具体步骤
下面介绍认知设计系统法的具体步骤。其实在具体实施中,项目模型法也秉承类似的做法,只是对实验控制和认知心理学实验的倚重程度上有所不同。根据Embretson等的做法,认知设计系统法指导下的自动化项目生成主要包括以下4个阶段:
3.1 为现存项目建立认知模型
在项目生成研究的最初阶段,认知设计系统法需要为现存的能力测验项目建立认知模型,目的是从整体上了解项目变异的来源。首先从文献综述出发,考察潜在的认知加工过程以及影响项目变异的刺激特征,即哪些刺激特征可能会对项目的难度、区分度等属性产生影响。一般而言,实验室研究中使用的任务通常会比真正的能力测验上的项目更简单,因此需要假设一个更复杂的模型来充分表征能力问题解决中的认知加工过程。然后采用多种研究手段(如眼动、计算机模拟)对所识别出的、可能影响项目属性的刺激特征进行实验验证,求这些刺激特征与项目属性之间的相关,或者比较操纵这些刺激特征引起项目属性的变化来确定它们的影响。尽管一般而言,项目难度是研究者最关注的项目属性,但反应时数据对认知加工模型的支持也很必要。
3.2 根据规则生成项目并修正认知模型
在项目生成研究的第二阶段,认知设计系统法主要关注项目编制和测验设计的问题,即项目刺激特征能否被单独操纵来影响加工难度,这些项目刺激特征是基于上一步建立的认知模型中的变量。为操纵项目刺激特征,根据认知模型变量建构一套项目编制说明(项目生成算法),然后在据此手工编制一批新项目进行试测,确定项目刺激特征是否影响项目难度以及被试在这些项目上的表现。虽然通过试测可以估计项目和被试参数,但这一阶段的主要关注点仍是项目刺激特征。对于认知模型来说,项目刺激特征应当能充分预测项目难度、反应时以及其他一些心理测量学指标。另外,从实证的角度来说,具有相同刺激特征组合的项目在心理测量学指标上应该高度接近。
3.3 计算机自动化生成项目
在项目生成研究的第三阶段,需要编制计算机程序实现项目自动化生成,即计算机自动化项目生成器。尽管编制出项目生成和呈现机制方面的程序很重要,然而为特定项目类型发展出项目结构则是成功的关键。项目结构基于第二阶段修正的认知模型,是对所有影响项目认知复杂性的各种项目刺激特征特定组合的详细说明。这样,具有相同项目结构的项目携带有相同来源和水平的认知复杂性,并相应地具有相同的心理测量学指标。其他一些未纳入认知模型的刺激特征,对项目认知复杂性不造成显著的影响,是可以变动的。需要注意的是,不同项目类型(如测量空间能力与测量推理能力的项目)在项目结构上可能存在质的差异。
3.4 实证性地检验自动生成的项目
在这最后阶段,还需要收集些实证数据来评估项目生成器的稳定性以及自动生成项目的质量。项目生成器的稳定性主要是检视自动化生成的项目外观上是否符合预期的设定。自动化生成项目的质量通过比较项目生成算法预测出的参数与项目的实际参数进行评估,若两者非常接近,则表明设立的认知模型以及项目生成算法是有效的。
4 相关IRT模型
正如前面所提及的,自动化项目生成需要合适的心理测量模型以及实质性研究(认知基础)。实质性研究很大程度上依赖于认知心理学,从而通过预测取代估计项目参数,而心理测量学模型则依赖于项目反应理论的发展。随着测量模型和认知心理学理论的发展,研究者提出多种能将认知心理学理论和测量模型连接起来的拓展项目反应理论模型,如线性逻辑斯蒂模型(LLTM,Linear Logistic TestModel)、约束两参数逻辑斯蒂模型(2PL-constrainedmodel)和项目结构的多层次IRT模型(HierarchicalIRT model for item structure)。其中前两种模型特别适用于认知设计系统法,最后一种特别适合于项目模型法。这些模型的共同特征是将影响项目认知复杂性的变量进行量化,纳入到测量模型,从而为项目自动化生成的参数预测奠定基础。
5 优缺点评述
Embretson对自动化项目生成的优缺点进行了总结。她认为,与传统项目编制方法相比,自动化项目生成有如下几点优势:(1)编制新的项目更容易,从而更好满足自适应测验对大量项目的需求;(2)生成指定难度水平与合适心理测量学特性的项目,避免了传统测验编制时有大量项目因试测中品质不合格而被抛弃;(3)如果项目生成算法足够精准,则可不必经过试测而将新生成项目放入题库;(4)结构效度存在于项目水平,即每个项目认知复杂性的具体来源都可以通过给模型变量赋以特定权重来确定;(5)可以重新设计测验来表征项目难度的特定来源,即认知复杂性的某些来源的影响可以直接加以控制。而自动化项目生成的局限性主要体现在:(1)这种方法需要实质心理学的支持,即为特定的项目类型发展出合理的认知模型需要一些实证性研究来支持。然而对某种特定的测验来说是否实际,还得在最初的研究花费与可以生成无限个的新项目的成果之间权衡。(2)尽管这种方法可以应用于新的项目类型,但还是对已经发展出来的项目类型最有效。因为对新项目类型来说,它们结构效度中的规则广度还需要通过从该项目类型获得分数的相关的研究来证实。
6 研究展望
从20世纪80年代中期开始,心理和教育测量领域的一些研究者对很多项目类型进行了认知分析并应用到新项目的编制,探讨如何将认知理论结合到测验编制中。到现在为止,已经在多个方面取得进展,如GRE的数量推理、分析性推理等。对于自动化项目生成,目前国外最新的研究趋势主要集中在以下4个方面:
6.1 原有模型的修正
尽管先前的研究已经找到影响认知复杂性的一些因素,但随着认知心理学研究的深入,一些研究者认为过去的认知模型不能覆盖所有这些重要的影响因素,因此需要对以往的模型进行修正,以建立解释率更高的认知模型来拟合相关问题解决过程,如Diehl在项目生成算法中纳入干扰项的特性。
6.2控制机制的引入
对于自动化项目生成,如何在研究者不干预的情形下产生符合要求的测验?Embretson自动化生成的抽象推理测验项目,从知觉角度分析,大约有7%的项目不符合要求。将自动生成的这些项目直接呈现给测试者,这在高利害关系的测验中显然是不允许的。因此有必要引入项目质量控制机制,如Arendasy等人建议加入基于Rasch模型的校准机制。
6.3 内容领域的扩展
过去计算机自动化项目生成的一些测验主要集中于有坚固认知基础的领域(如心理旋转、隐蔽图形和抽象推理测验),很容易通过操纵相关刺激特征控制加工难度。言语测验的自动化项目生成则涉猎较少。自然语言机制研究的进展,逐渐为言语测验的自动化项目生成提供技术支持,如GRE的分析性推理测验项目的生成。
6.4 测验技术的革新
心理测量学范文3
关键词:高校学生 英语学习误区 心理因素 正确心理的构建
在经济发展的全球化趋势下,各国之间的合作越来越紧密。英语作为一门重要的国际化语言,在各种交流中的地位不断上升。高校学生是我国进行社会主义现代化建设的接班人,要更好的与国际接轨就必须拥有一定的英语水平。但是,目前我国高校英语学习还存在着一定的滞后性,学生学习英语的热情基本不高与学生的内心需求形成很大的反差。
1.高校学生英语学习中心理构建的必要性
从某种角度上讲,一种良好的心理学习方法,与个人乃至于社会的健康发展息息相关,同时,这也是对我国当前大学生英语学习的巨大考验。因此,我们必须要认清不同心理在英语学习中的意义及其重要性,加强其在学习中的学习和应用。这样,既可以充分发挥学生的积极性,便于大学生对积极的心理认知,使得他们永远保持乐观向上的积极学习态度,以乐观的心态去面对学习中的困难和不足,以健康的心态面对生活的难题;也可以让大学生清楚的认识到当前中国高校英语学习中的不足之处,引起学生及有关部门的共同关注,强化高校英语学习心理学建构的急迫性,利于学生进行自我心理调适,增强大学生心理承受能力,让大学生在学习英语方面得到更多的关注,使得高校生能够树立良好的自信心和应有的学习积极性,用更加平和的心态去面对英语的学习。
2.高校学生英语学习中存在的误区分析
2.1 误区之一:认为大学的学习比高中轻松
2.1.1学生认知误区
在高中学习期间,为了参加高考,为了能在高考中取得更好的成绩,大多是采用“被动式”学习方式。只是一味的学习,有些根本没想过怎样去消化,也不知自己到底学到了什么,有着做不完的练习与作业。而到了大学,老师不留作业了,学生们便觉很轻松。到了期末考试才发现,自己的英语能力不但没提高,反而下降了很多,有些最基本的单词也忘了该怎样拼写。这是大一学生普遍存在的问题,等到大二要认真学了,却又因大一时的贻误而影响了学习效率,以至于很多高校学生到了大学毕业,最后英语四级还是没有通过[1]。
2.1.2教师误导
经历过高考的我们都知道,在高中的时候老师总是对我们说“高中三年是最苦最累的,只要大家努力拼搏一下考上大学就轻松了”在这种诱导下,年轻的准大学生们对此也都深信不疑,当然老师的出发点还是好的。另外一方面,大学教师一般课后也都不布置作业,也似乎验证了高中老师们的说法。此后,大学生的学习热情也不再那么的高涨了。大一新生往往都是以放松的心态对待英语的学习。这也是各高校普遍存在大一新生英语考试不及格,挂科率较高的主要原因之一。
2.2 误区之二:平时不注重积累,考试前搞突击
2.2.1学习态度不端正
学习态度不端正,是指有些学生学习英语不是为了更好地掌握和应用这一语言,而是怎么用最简单的方法通过英语四、六级考试,这种思想是很危险的。我们将之称为,急功近利的英语应试学习思想所产生的“病患”。
2.2.2方法不当
在上述态度支配下,有相当一部分高校生平时浪费时间、不抓紧时间学习,不注重基础的积累,而是等到期末考前的一个月突击狂背英语单词,其考试结果自然就可想而知了。考试说明中要求通过四级有几千个单词的词汇量,对于很多高校学生来说,只能说他们认识这些单词,却不能充分地理解和应用这些单词。有很多学生反映,在做阅读理解题时,所有的单词几乎都认识.但回答问题时总答错。拼命的背英文单词,在看到单词的时候都认识,可是面对文章的理解却是一头雾水不知所以然。其实,他们所说的“认识”,只能说是简单的认识这个单词表面词义,并不知道该单词在此文章中的真实作用,所以茫然了……
3.高校学生影响英语学习的不良心理因素
3.1爱国心理
曾过一些英语学习差的学生做过调查,当和他们提及英语学习的时候,他们给我的理由既然是“爱国”。我一下子就茫然了,也许,这只是不想学习英语的借口,但我们有理由相信,还是有很多大学生会这么的认为的。这个所谓的爱国心理便成了他们的“护身符”,愚昧的思想也就成了他们埋葬英语的“理想”之所。而这种无知的思想是阻碍大学生英语学习的重要因素。
3.2害羞心理
众所周知,大部分的大一新生,在高中的学习都是应对考试型,老师极少让学生真正的开口去“秀”英语。怕说错也是害羞的一种表现。追求完美,怕犯错误,让大学生开不了口。害羞的心理会使得一个人越来越孤僻,是一种极其不健康的心理问题。
3.3应付心理
有些个别学生对英语不重视,没有明确的学习动机,丧失自信心与进取心,当其他学生使用英语对话、做英语练习时,他们就处于观望状态,把自己当成局外人,一轮到自己说话、做题,要么抄袭别人,要么敷衍了事,把英语学习当成应付差事,不去用心。时间越久就对英语的学习越没有兴趣。
3.3 缺乏自信
对自己的价值和能力缺乏应有的信心也是一个很重要的心理因素。爱默生曾说:自信是成功的第一秘诀。由此可见,自信,在英语学习中的地位是不可忽视的。有很多人相信“语言天分”这回事。是不是必须拥有特殊的才能才可以流利运用一门外语呢?答案是否定的。没有天生的天才也没有天生的蠢材,只要有足够的自信就可以翱翔于英语的殿堂。
3.4 自负自卑心理
自负就是自己过高地估计自己。人的自我意识主要包括三个方面,自我认知,自我意志,自我情感体现。一个人评价自己,要靠自我认知,有的人过高地评价自己,就表现为自负;有的人过低地评价自己,就表现为自卑。过于自负的人会产生自恋人格,而过于自卑的人往往贬低了自己。这些都是不可取的,也是英语学习中的一种弊病。
4.高校英语学习中心理学建构的方法
4.1 构建和完善心理机制:所谓心理机制的构建和完善,就是强化在校学生面对英语学习危机的意识,并对其进行正确的引导,便于大学生进行自我总结、反思及缓冲,从而进行有效的心理治疗。站在专业心理学的角度进行分析,所谓的心理问题,其主要就是通过对心理学知识和方法的运用来实现心理教育、心理疏导和思想教育的有机结合。只有清楚的认识心理学在英语学习中的重要性,才能更好的提高大学生的英语学习激情。并且,在高校英语学习中,针对学习过程中学生的心理问题,需进行心理辅导、心理健康教育,有意识地提升大学生的心理承受能力,为学生建立心理机制奠定一个良好的基础,避免不良心态的产生及其恶化,更好的学习、突破英语[2]。
4.2 了解自己真正的需求,大学生学习英语不是简单的考四级、六级这么简单的,更重要的是要面对这个多变的世界,更好的完善自己。未来的世界就像一个多彩的缤纷桶,不可能一成不变的。所以要正确的了解自己真正需求。这在自我认知的过程尤为重要。而合理、正确的学习心理是学好英语基础、也是更好应用英语的必备前提。
4.3 正确的认识自己,明确认识学习的目的。没有一劳永逸的方法,我们都相信好记性不如烂笔头,爱迪生曾说,“天才是百分之一的灵感加上百分之九十九的汗水”说的就是这个道理。明白学好英语在今后发展道路上的重要性,使其增强克服学习中的心理障碍及消极心理,提高学习的主动性。做到大胆、大方、自信……(作者单位:1.莆田学院医学院药学系;2.莆田学院医学院临床医学系)
参考文献:
心理测量学范文4
追求一个美好的梦想,激发教师工作的激情
所有的青园人都拥有一个共同的朴素的教育理想:六年服务一生,为每一个孩子的幸福人生奠基。让这六年的小学生活为每一个孩子奠定下一生幸福的基础!让青园小学成为中国未来人才的摇篮!十年后,百年后,将有无数优秀的青园学子会深情回顾说:青园小学的六年是我这一生最重要的六年!青园小学的老师是我人生中遇到的最棒的老师!
为了这个理想,我们一起制定学校的发展规划,共同憧憬学校的发展蓝图和美好未来。在制定规划的过程中,每一个老师都把自己的梦想倾注在了对学校发展的憧憬之中。我们一起读了很多书,同读的第一本书是《走进钱学森》,共同感受书中钱学森对北师大附中六年的深情回顾,深入了解那些令钱学森毕生难忘的教师!感悟什么样的教育才是六年服务一生的教育,激励所有的老师都努力去成为孩子一生中最重要的人!老师们纷纷写下了《做孩子生命中的贵人》(万爱群)、《做中国的安妮莎利文》(彭莎)、《心怀大爱做小事,胸有责任做大事》(曾婵姣)等文章,所有的老师都凝聚在了同样的教育理想之下。我们一起创办校刊《成长》,让这一本《成长》成为我们追求梦想的见证!我们憧憬的不仅仅是青园五年后、十年后的发展与跨越,我们谈得更多的是:当青园百年荣耀之时,我们的后来者翻阅《成长》,翻阅青园成长的历史,他们将以多么崇拜的眼神来瞻仰我们这些创业者,我们为青园的发展做了多么了不起的事情!
在对百年青园的美好憧憬中,在同一个梦想的激励下,每一位老师都更有使命感,更加充满激情地工作!
搭建一个成长的舞台,激发教师成功的自信
我们首先构建起有活力的教师发展制度。引领教师在自身成长中找到坐标,燃起自主发展的激情,让他们得到成长的激励。我们搭建了“三格”培养层次:新教师“入格”培养,青年教师“升格”培养,骨干教师“风格”培养。实施蓝青工程, 为新青教师配备骨干师傅,为骨干教师请来专家师傅,促进每一位教师尽快升格。我们构架了专业发展“三维空间”:学习空间,实践空间,展示空间。学校的各级开放活动、“青园杯”赛课、“德泽讲坛”、“青园夜校”、校刊《成长》等,给教师提供了学习、实践和展示的舞台,为青园教师卓越文化的形成营造了氛围,打下了基础。
同时通过特色活动推动文化建设。我们倡导读书文化,丰富教师专业知识:各种形式的读书活动、读书沙龙,掀起了一轮又一轮的读书热潮,读书文化的兴起,让老师们漫步书林,与圣贤牵手、与经典为伴,用优秀的文化充盈自己的心灵,丰厚人文底蕴。我们营造学堂文化,厚实教师专业素养:“青园教师学堂”系列活动的开展在学校里营造了浓郁的学堂文化,全体教师积极参与的“德泽讲坛”、针对新青教师素质提升的“青园夜校”、寒暑假的“专家讲坛”、 提升国际化视野的“教师英语社团”、关注教师身心健康的“心灵瑜伽”“篮球俱乐部”“羽毛球俱乐部”等,让教师在“学堂文化”的引领下实现专业发展,快乐工作,优雅生活。
以制度精细管理,用文化润泽心灵,使得读书、学习和创造性的工作成为了老师们的一种习惯,一种自觉的行为。文化以它特有的同化作用让青园变成了一个快乐成长的大摇篮,新加入团队的老师迅速地融入到集体中,都变得积极进取,勤奋好学,乐于创新。
给予一份真诚的欣赏,激发教师创造的潜能
秋季开学上班的第一天,四位新调入的教师结伴而来找我报到,我微笑着叫出她们的名字。看着她们讶异的表情,我说:“你们早已在我的心里。”近三年来,学校每年都要调入和聘用几十位教师,不管是聘用还是调入,对于每一位即将加入的新成员,我都会事先做深入的了解,并为他们找到最适合的岗位。学校180余名教职员工,每一个我都能准确地叫出名字,熟知他们的家庭状况、个性特长,因为只有深入的了解才会产生真诚的欣赏。
体育教师刘老师历经周折调入青园小学,他的桀骜不驯我早有耳闻,但我也知道有个性的人必有所长。于是我大胆地将体育组的“金刚”交到了他手里。担任组长的他精神焕发,充满激情地带领一帮小伙子埋头苦干,用他原来同事的话说,刘老师到青园是脱胎换骨了。他很快就用优异的成绩回报了我对他的信任和欣赏,省体委羽毛球训练基地挂牌了,省体委足球训练基地挂牌了,长沙市田径传统运动项目学校申报成功了,区冬运会团体第一,长沙市八运会少年组团体第一……各种运动赛事捷报频传。
校聘的美术教师小璐,因为入编的问题,心理压力很大。我非常欣赏她的创意手工,多次在老师们当中对她大加赞赏,并请她给青园夜校的青年教师们上手工课。没想到小璐呈现给学校一个巨大的惊喜:在五周年校庆之际,她带领青园夜校的全体学员,整整一个星期晚上连续加班,一针一线地缝制出了一个巨大的精美生日蛋糕!这个凝聚着心血与热爱的蛋糕成了五周年校庆最隆重的献礼和最闪亮的饰物!也让小璐在赞美声中找到了自信,看到了自己的价值!她跟美术组的老师们一起经营创意美劳社团,带领着一帮孩子进行创作,挖空心思琢磨各种可用的材料,纸卷筒、废报纸、扣子、袜子、热缩片……在他们手里都成了精美的工艺品。孩子们的思 维能力、动手能力、审美能力都得到了发展,在本届全国DI大赛中,她指导的参赛队获得了全国一等奖的好成绩!
这样的例子在青园不胜枚举。
我们所期望的是,在青园这个团队里,每一位老师都感受到自己是重要的;每一位老师都能相互欣赏,随时都能听到鼓励与赞美;每一位老师都感受到学校因他的成长而骄傲。实际上每一位老师都有相当大的潜能,这个潜能最大程度上的发挥,取决于校长对每一位老师的态度。我们的老师是淳朴的,如果我们心里能时时装着他们,在乎他们,遇到困难帮助他们,取得成绩欣赏他们,他们就会发挥出最大的潜能,不待扬鞭自奋蹄。
赋予一份主人翁的责任,激发教师创新的热情
一个人一旦有了主人的感觉,他的态度就会积极许多,潜能就会被激发出更多。我们很多时候会强调执行力,而我现在更喜欢跟老师们谈管理,谈领导力。在行政例会上我们开展“头脑风暴”,畅谈治校理念;在教师例会上,我跟老师们讲“微笑的魔力”,教老师们用情感管理的方式引领孩子和家长;在教研组长、年级组长和办公室主任中间,我把他们领导的集体比作学校,称赞他们能像校长一样思考问题,带好队伍。在某种程度上说,培养执行力的最好方法是培养他的领导力,让老师们主动地、积极地、创造性地把他自己感兴趣的工作做得出色,在工作的过程中享受乐趣和成果。
在不违反基本原则的基础上,我把管理的权力尽可能地交到老师们手里。
在学校的行政管理上,责任下放,民主管理。学校的重大事件、重要决策职代会共同商讨,集体决策;学校文化建设、设施设备的完善添置、评优评先,方案都由各部门自己拿;外出培训人选、活动经费安排、学科奖励计划、个人年度考核,教研组自己定。学校民主之风催开了和谐之花。
在学科课程管理中,划分责任区,“我的地盘我做主”。语数外学科教师按年级学科分组,办公室与班级教室相邻,功能教室都与该学科教师办公室相邻或者相连,让所有的老师都便于打理自己的教室,使教室真正成为老师们的工作室。这里的设计摆放、功能使用、设备添置都凝聚了老师们的心血,老师们就像经营自己的家一样经营自己的教室。学校到处都闪烁着青园人创造性思维的火花,每一处都在诠释着青园人苦心经营、倾心奉献的教育情怀,他们是青园真正的主人!
陶行知先生说:“国家把整个的学校交给你,要你用整个的心去做整个的校长。”我用这句话鞭策自己,也用它来激励每一位老师成为学校的主人。校长一旦把学校交给了老师,老师也就把整个的心交给了学校。
培育一份家的情怀,激发教师生活的热忱
我认为学校就是一个大家庭,她应该具备“家”的特质:安全、温暖、包容,让每一个身处其中的成员都更有幸福感。在这个家园里,他的精力能够很好地集中在他喜欢的工作上,并在工作中感受到快乐与价值,他能够很好地享受这里的一切。这样,老师就能对生活充满热忱,智慧与潜能就能得到充分发挥。
在青园,大家都以兄弟姐妹相称,不论工作多忙,我总是鼓励学校行政走进老师中间,倾听老师的声音,解决老师的困难。每一周我会轮流跟一个办公室的老师共进晚餐,在融洽的氛围里,谈工作,谈生活,在如家的温馨氛围中增进了解,加强沟通。我们为女教师开设“心灵瑜伽课程”,请来专业瑜伽教练,调节身心,追寻健康与美丽;为男教师成立“篮球俱乐部”,挥洒青春的活力,每当有校际赛事,美女老师们就成了球场旁最靓丽的风景,让老师们的业余生活七彩斑斓。三月三的地菜煮鸡蛋,冬至香甜的糯米饭,元旦包裹着惊喜的新年饺子……都飘出青园家的味道。三八妇女节,男教师为我们精心准备的大餐,全情投入的表演,和那浪漫温情的点点烛光,处处洋溢着家的情感。校庆日,全校教职工和家属欢聚一堂,真情流露,感恩工作,感恩生活,人人都为青园大家庭倍感骄傲!
我一直认为学校管理的核心就是激发,以情感带动情感,以心灵触动心灵,像我们的老师在文章中所抒发的那样:
在青园这样一个家园中,即便是累了,困了,倦了,也有真善美筑就的温暖的栖息之所,牵引着高尚灵魂沿着美梦成真的方向不断地前行。
在青园这样一个家园中,我们每个老师都过得非常的充实、快乐而幸福。即便有时真的可能很累,也是累并快乐着!即便是流泪,当泪水滑进嘴里,也能品出幸福的滋味。
青园——早已成为我们心灵的依靠……
心理测量学范文5
关键词 Raseh模型;潜在特质模型;客观测量
分类号 B841
Rasch模型(Rasch,1960)是由丹麦数学家和统计学家Georg Rasch(1901~1980)提出的一个潜在特质模型。这一模型以自然科学领域内的客观测量为标杆,为社会科学领域内的测量建立起一套客观标准,以确保测量所提供的信息更为客观和可靠(Bond&Fox,2007)。经过半个世纪的发展,Rasch模型已在心理科学领域得到了广泛应用(例如,Merrell&Tymms 2005;Mok,Cheong,Moore,&Kennedy,2006;Waugh,2002,2003;Weave,2005)。在国内,虽然早在上世纪80年代就已经有了关于Rasch模型的介绍和研究,但很长一段时间内,这一领域并未赢得学术界足够的重视。笔者作过一个简单的统计,在“中国知网”(1915至2008年)和“中国期刊全文数据库”(1915至2009年)中以“Rasch”为主题进行搜索,总共只找到93篇非重复中文文献(搜索日期为2009年11月10日)。文献数量按年份分布如表1。
在2000年之后,尤其是最近5年,Rasch模型得到了越来越多的重视,研究也日益增多,研究所涵盖的领域包括心理、教育、考试研究、统计、医学、康复等学科。但在已发表的文献中,系统性介绍Rasch模型特点以及其发展趋势的仍然很少。少数几篇综述文章多发表于上世纪90年代初(例如,Keats,陈富国,1990;罗冠中,1992),并未反映出Rasch模型在近20年的发展。基于此,本文将从基本理论、数学表述、以及主要特点几个方面对Raseh模型的进行了讨论,探讨其如何帮助心理科学研究者实现客观测量,并介绍其最新的发展趋势。
1 Rasch模型的基本理论
作为一种潜在特质模型,Raseh模型通过个体在题目上的表现(通常表示为原始分数)来测量不可直接观察的、潜在的变量。根据Rasch模型原理,特定的个体对特定的题目作出特定反应的概率可以用个体能力与该题目难度的一个简单函数来表示。个体回答某一题目正确与否完全取决于个体能力和题目难度之间的比较。
IRT模型或其他统计方法倾向于使用不同的参数来以适应数据的特点,而Rasch模型则要求所收集的数据必须符合模型的先验要求(Andrich,2004)。这正是Rasch模型所强调的“客观测量”的一个关键点。我们可以举一个例子来看一看用参数来适应数据这种方法的不足。有不少研究对体能测验结果进行了因子分析,试图确定体能这一潜在变量的结构(例如,Fleishman,1964;Marsh,1993;Ponthieux&Barker,1963)。而无论是探索性因子分析,还是验证性因子分析,在试图建立客观测量时均有明显缺陷。Marsh(1993)指出,探索性因子分析使研究人员无法控制最终所得出的因子结构。研究人员无法测试任何先验因子结构,数据所产生的结果便是最终结果。至于验性因子分析,尽管它可以让研究人员测试其先验因子结构,并提供指标来判断先验因子结构与实证因子结构之间匹配的程度,但也未能达到客观标准。因为数据作为一个“现实”,而因子模型只是用来“解释”这些数据。当模型无法正确地解释数据时,就必须对模型进行修改,对参数进行修订,直到修订后的模型和参数可以很好地解释数据。因此,在上述以数据为本的研究中,要想取得一个稳定的体能因子结构几乎是不可能的,因为各研究中体能测试的样本不同,所使用的体能指标也不同。从这个意义上讲,如果没有建立起一个独立于数据的、客观的尺度,在不同情境所得到的测量结果就不可能进行有意义的比较。有鉴于此,Rasch模型设定了客观测量中数据必须满足的先验要求。如果数据不适合Rasch模型,首先应该做的是审视数据本身可能存在的问题,而不是改变模型自身参数设置来适应不同的(可能存在问题的)数据。在Rasch模型下,不同的研究结果(因子结构、测验量尺等等)可以适用到其他情境下,因此,在不同情境下进行的测量可以在一个稳定和一致的框架内进行解读和沟通。有研究者(Al-Owidha,2007)比较了Rasch模型和三参数IRT模型在同一套学业测验数据上的表现。结果发现,虽然三参数IRT模型对数据的拟合度高于Rasch模型(这不难理解,因为三参数模型的方法是使用更多参数去使“模型适应数据”,而Rasch模型却要求“数据符合模型”),但Rasch模型却能提供更稳定、更精确的题目难度参数,以及更好的题目和测验信度。
4 Raseh模型的主要特点
4.1个体和题目共用同一把尺
Rasch模型通过对数转换,将个体和题目在同一单维度尺上进行标定(Wright&Masters.1982)。基于各自在此单维度连续体上的位置,个体与个体之间、题目与题目之间、个体与题目之间可以方便地进行直接比较。这是Rasch模型区别于传统测量方法的一个显著特征,也是实际应用当中最有意义的一个方面。例如:在传统测量方法下,如果A题目没有对某学生施测,那么即使该学生回答过类似的另一题目B,也很难预测其在A题目上的表现。然而,Rasch模型可以解决这一问题。依据各自的能力或难度水平,个体和题目被标定在同一量尺的不同位置上。根据这种相对位置所提供的信息,即使没有真正施测,也可以预测学生在该题目上的表现。
4.2数据的线性特质
任何观测值都来源于原始数据,但原始数据所提供的却往往并非有效的“量度”,因为从原始数据人们很难作出有价值的推论(Wright,1997;Wright&Mok,2000)。Bond和Fox(2007)指出,原始数据很多时候表示的仅仅是个体或题目的次序,而并非是关于“多少”的问题,也就是说,无法得知不同分数之间的距离,更无法提供分数在比例上的意义,而这恰恰是有效测量的关键所在。心理测验经常使用李科特量表(例如:非常不同意,不同意,同意,非常同意)。学生在此类量表上的原始分数看起来是等距的,但这并不意味
着原始分数所代表的心理特质水平也具有等距的意义。因为等距的量度意味着分数每增加一个单位,所代表的特质水平也相应地有一个同等大小的增量。然而事实并非如此。“非常不同意”与“不同意”之间的距离,未必等于“不同意”与“同意”之间的距离。
数据的线性是任何统计方法――比如因子分析――的一个基本假设(Wright&Masters,1982)。然而,很多数据,就象学业考试的原始分数,实质上并不符合线性数据的要求。因此,严格来讲,大部分统计方法并不适用于这种非线性(或非等距)数据。只有将这种数据转换为线性的、等距的数据,才可应用统计方法(Wright,1997)。Rasch模型可以将非线性数据转换成为具有等距意义(对于所测量特质而言)的“logit scale”数据,从而使客观的测量成为可能(Linacre,2006)。有些学者(例如,Fischer,1995)甚至认为Rasch模型是唯一可行的将次序数据转换为线性数据的方法。
4.3参数分离
由于个体所得到的原始分数依赖于所施测的题目,而对分数的解读又依赖于特定施测样本,因此传统测量方法很难用来比较或预测个体在不同测验之间的表现。这是传统测量理论的一个重大缺陷。假设有两份测量同一心理特质的心理测验问卷A和B,一名学生在A卷中得到80分,那么他在B卷中可以得到多少分?很难预测。即使是同一学生,题目测量的是同一特质,只要题目不同,分数也可能有不同。再举一例:学生甲在A卷中得到80分,学生乙在B卷中也得到80分。哪一位学生所对应的心理特质水平更高?很难直接作出判断,因为虽然他们分数相同,但却是在不同测验中得到的,其分数所代表的含义也不同。
为了避免直接对原始分数进行解读所造成的困难,有时会用标准化分数(如z分数和t分数)代替原始分数来比较在不同测试上的得分。然而,标准分数的计算依赖于所选取的样本。由于不同样本的平均数和标准偏差都不同,意味着基于标准分数的比较只适用于来自同一样本的个体。百分数也有类似的问题。相同的成绩,在不同的常模中所对应的百分数也会不同。
Wright和Stone(1979)指出了客观测量两个相辅相成的要求。一个是题目难度的标定必须独立于被试样本的分布,另一个要求是对个体能力的测量必须独立于题目的难度分布。此一特点称为“参数分离”或“参数恒定”(Embretson&Reise,2000;Wright&Masters,1982;Wright&Mok,2000)。在前文述及之方程(1)中,正确反应的概率只由个体的能力(θm)和题目的难度(δi)所决定。这意味着Rasch模型所提供的个体能力和题目难度参数,是完全独立样本分布或题目难度分布的。因此,Rasch模型符合客观测量对于参数分离的要求。
然而,需要特别指出的是,在实际应用当中,运用Rasch模型对个体能力和题目难度进行标定时,其数值往往会随着题目难度和个体能力的不同组合而改变。这岂不是和“参数分离”的要求不一致吗?其实不然,“参数分离”并非要求每次标定的绝对估值都一样,而是要求个体与题目之间的差异(在潜在特质量尺上的相对位置)保持不变,也就是保持一种相对的恒定。从这个意义上来说,Rasch测量提供的是关于个体能力和题目难度的等距分数,而不是等比分数。
5 Rasch模型拟合度
如前所述,Rasch模型是一个理想的数学模型,在现实的测量中不大可能得到完美的实现。因为再简单的测试,都可能受到无关因素的干扰。例如数学考试,学生的表现除了受数学能力影响之外,还有可能受学生的阅读理解能力(能否读懂题目)的影响。心理测验的成绩主要由所测特质决定,但也可能受施测当时学生的身体状况和意愿,以及其他不可预测的因素影响。虽然测量的复杂性和不完善性是客观存在的,但测量工具开发者和使用者应该知道所收集的数据在何种程度符合测量模型要求。Rasch分析提供的拟合度指标可以检验实证数据与Rasch模型的拟合程度。题目的拟合度指标不好,说明可能存在目标特质之外的其他变量,或者对所测量特质的定义不恰当。
很多运行Rasch分析的计算机程序(例如,WINSTEPS,ConQuest)提供两种形式的卡方拟合指标:Outfit Mean Square(Outfit MNSQ)和InfitMean Square(Infit MNSQ)。这些拟合指标都是由残差计算而来。Outfit MNSQ是残差的均方。InfitMNSQ则是加权(以方差为加权系数)后的残差均方。Outfit MNSQ对极端值(异常数据)比较敏感,因为极端值会产生的较大的残差。而Infit MNSQ对题目难度与个体能力水平相当的数据较为敏感,因为此类数据方差(加权系数)较大(smith,2002)。Outfit MNSQ和Infit MNSQ的取值范围介于0到正无穷大。理想值为1,意味着实际数据完全与Rasch模型相拟合。大于1(underfit)表示实证数据的变异数多于Rasch模型的预期;小于1(overfit)表示实证数据的变异数少于Rasch模型的预期。从测量的角度来看,underfit(大于1)的数据对测量客观性的负面影响要大过overfit(低于1)的数据。Underfit是由杂乱无章的答案所造成,会直接损害测量的质量。而overfit虽然可能会降低测量的效率,但对测量质量的影响反而不大(Bond&Fox,2007)。Infit MNSQ和Outfit MNSQ可接受的取值范围在很大程度上取决于研究目的。Linacre(2006)建议取0.5至1.5的范围,但很多研究选取了更为严格的标准,例如,0.7至1.3(Mok et al.,2006;Zhu&Cole,1996)或0.8至1.4(Wolfe&Chiu,1999)。Infit和Outfit指标也有标准化的形式,分别表达为Infit ZSTD和Outfit ZSTD。Infit ZSTD和Outfit ZSTD服从t分布,理想值为0,标准差为1。
不过,在Rasch分析中对于拟合指标的使用必须谨慎。Wright和Panchapakesan(1969)指出,在测验发展过程中,简单地删除拟合指标不好的题目并非值得提倡的做法。测验设计者应该仔细审查这些拟合指标不好的题目,找出可能对其产生影响的其他因素,如区分度和猜测效应的影响。Bond和Fox(2007)也建议利用拟合度指标来查找表现异常的题目和个体,而不是将它们作为决定是否删除某个题目的简单标准。smith(2002)指出,应该把实证数据对测量模型的拟合程度看作是一个连续体,而不是一个简单是或否的问
题。换句话说,“拟合”与“不拟合”之间并没有森然的壁垒,应该根据不同情况选择合适的标准。
6 Rasch模型的发展趋势
如何真正实现测量的客观性一直是困扰心理科学,乃至所有社会科学研究者和实践者的问题。Rasch模型在解决这个问题上实现了很大的突破,其坚实的理论基础,简单的数学表述也确保了它广泛的应用前景。Rasch模型在诸多方面与IRT模型相类似,但却从根本上避免了多参数IRT模型在应用上所固有的缺陷。除了心理科学领域,关于Rasch模型的研究和应用还大量出现于教育领域(例如,Ito,Sykes,&Yao,2008;Liu&Wilson,2009;Tong & Kolen,2007),卫生和医学领域(例如,Hsueh,Wang,Sheu,&Hsieh,2004;Strong,Kahler,Ramsey,&Brown,2003;Tesio,2003)。体育和运动科学领域(例如,Bowles&Ram,2006;Hands&Larkin,2001;Heesch,Masse,&Dunn,2006;Zhu,200 1;Zhu&Cole,1996),等等。
Rasch模型从产生至今已有半个世纪,但仍保有旺盛的生命力,并处于持续不断的发展之中。多维度Rasch模型(Multidimensional Rasch Model)是其中一个很重要的趋势。比如运用多维度Rasch模型对“国际学生评价项目”(Programme for International Student Assessment,PISA)数据的分析(例如,Liu&Wilson,2009);对包含不同分量表的测验数据进行分析(例如,Cheng,Wang,&Ho,2009);等等。这里的多维度并不是对Rasch模型单维度要求的一种颠覆,而是一种发展。在多维度Rasch模型里,对同一维度的个体能力和题目难度的标定仍然固守单维度原则,但与此同时,它充分利用相关维度特质(或相关分量表)所提供的有用信息,以提高测验的效率和对目标特质测量的精确度。多维度Rasch模型在某种程度上解决了单维度模型分析多维度测验数据时遇到的信、效度问题(Rost&Carstensen。2002;Yao&Schwarz,2006),也使测验在涵盖较为广阔范围内容的同时,也有较高的测验精确度(cheng et al.,2009),从而极大地延伸了Rasch模型的应用空间和前景。
测验的等值和链接(Test equating and linking)是Rasch应用的另一个热点研究领域。测验的等值与链接是指将不同测验中取得的分数转化为可以互相替换或比较的分数的统计过程。等值主要处理内容相同而难度不同的测验,而链接则用来处理内容和难度都不相同的测验(Kolen&Brennan,2004)。越来越多的研究着眼于运用Rasch模型建立一把垂直量尺(vertical scale)(例如,Custer,Omar,&Pomplun,2006;Hanson&Beguin,2002;Ito et al.,2008;Pomplun,Omar,&Custer,2004;Tong&Kolen,2007)。比如,常识告诉我们小学二年级学生的数学能力应该比一年级学生高,但要想确切知道他们之间的数学能力差距,却很困难。因为不同年级的考卷题目所测量的内容和,或题目的难度水平不同,因此所得到的分数无法直接比较。如果构建一把可以测量不同年级水平的数学能力的垂直量尺,将在不同试卷上得到的分数放在同一把量尺上进行比较,就可以知道不同年级学生的数学能力差异,跟踪学生在数学能力上的发展。然而,构建这种垂直量尺的尝试受到许多因素的影响,比如数据收集方案(通用题目设计或逐级共用题目设计)、建尺方法(同时标定或分级标定)、甚至所使用的电脑程序(WINSTEPS、BILOG-MG、或其它程序)。是否存在所渭“最佳方法”,还没有达成一致。
基于Rasch模型的计算机自适应性考试(Computer Adaptive Testing,CAT)已成为当今教育测量研究与实践的一个重要发展方向。传统考试方法要求所有考生作答完全一样的题目。背后的一个假设是,任何题目对全体考生提供的评价信息是一样的。而事实并非如此,对某一水平考生有用的题目,对另一水平的考生来说可能完全没有意义。CAT则根据考生不同的能力水平,提供不同的测验题目,以一种最有效、最经济的方法来标定考生的能力。Rasch模型在实现CAT的各个方面,包括试题库的建设,测验题目难度的标定,题目或测验之间的等值,对“作弊策略”的侦测,以及最后的评分,都扮演着重要角色(例如,Gershon&Bergstrom,1995;Scalise,2004;Styles&Andrich,1993)。
心理测量学范文6
【关键词】 认知情绪调节;大学生;信度;效度;心理测量学研究
中图分类号:B842.1 文献标识码:A 文章编号:1000-6729(2008)004-0281-04
情绪调节是决定个体幸福和成功的一个重要因素[1]。情绪调节是指所有减少、维持或增强情绪的策略。它包括各种有意识和无意识的生理、行为和认知过程[2]。研究表明,个体运用不同的情绪调节方式会影响其具体的情感、认知和社会功能,继而影响到其积极情绪、良好人际关系以及主观幸福感的发展[3,4]。对情绪调节起关键作用的在于个体的认知,因此,如何从认知的角度关注情绪调节成了近年来情绪调节研究的一个热点。
认知情绪调节,也可称为认知应对,是指个体在处理来自内部或外部的、超过自身资源负担的生活事件时,所做出的认知上的努力[5]。荷兰学者加尼弗斯蒂(Garnefski N)从情绪调节和应对两个研究领域对认知情绪调节进行了深入的研究[6],并于2001年编制了认知情绪调节量表(Cognitive Emotion Regulation Questionnaire,CERQ),独立地考察个体在经历负性生活事件之后倾向于运用的不同于“行为”应对的“认知”应对策略,以及它如何影响个体在经历负性生活事件之后的情绪发展进程。CERQ是以青少年和成年人为被试进行修订的,现有荷兰、英语、法语等版本,都显示出良好的心理测量学特征[7]。
本研究旨在修订中文版本的CERQ,为研究我国大学生的认知情绪调节策略运用及其与情绪、行为问题的关系提供科学的工具,同时为更好地开展大学生情绪调节策略训练提供依据。
1 对象和方法
1.1对象 整群选取长春4所高校的在校本科大学生。共发放问卷800份,获得有效问卷744份。男、女生分别占总人数的45.7%和54.3%,文、理科学生分别占总人数的55.9%和44.1%,大一至大四学生分别占总人数的32.1%、29.9%、22.7%、15.3%。被试的年龄16-26(20±1)岁。间隔3个月后对其中的260名被试进行CERQ后测。
1.2工具
1.2.1认知情绪调节量表(CERQ)中文版
加尼弗斯蒂(N.Garnefski)的CERQ [6]是专门用于测量个体经历负性事件之后的感受与想法,包括36个项目的自我报告量表,分9个维度:自责(Selfblame)、接受(Acceptance)、沉思默想(Focus on thought/rumination)、积极调整(Positive refocusing)、关注计划(Refocus on planning)、积极重评(Positive reappraisal)、自我安慰(Selfcomfort)、灾难化(Catastrophizing)及责备他人(Blame others)。采用5点记分法,从1(从不)-5(总是)。各子量表得分即为相应维度的4个项目之和。子量表的得分越高,表示个体越经常采用此种认知情绪调节策略。该量表在荷兰施测,Cronbach α系数大多数超过0.70,有的子量表甚至超过0.80,且具有良好的结构效度。
认知情绪调节中文版量表的翻译先由4位精通英文的心理学工作者,将量表项目由英文版译为中文,然后再请4位精通英文的心理学工作者,将中文回译成英文,修改后确定CERQ的中文版问卷,并征得CERQ编制者加尼弗斯蒂(N.Garnefski)的同意。
1.2.2 Rosenberg自尊量表(SES)[8]
自尊量表是对个人总体自尊情况的自我报告。由10个项目组成,采用4点记分法(1很不同意,2不同意,3同意,4很同意)。分值越高,自尊程度越高。在本研究中,自尊量表的α系数为0.88。
1.3统计方法 进行探索性因素分析、验证性因素分析、描述性统计、信效度检验及Pearson分析。
2 结果
2.1 探索性和验证性因素分析
将总样本随机分成两样本,对样本一的368名被试数据进行探索性因素分析。首先利用项目分析剔除不能较好反映心理特征的19和25两个项目,对剩下的34个项目进行探索性因素分析。采用主成分分析中的方差最大化正交旋转,结果显示,Bartlett球形检验显著(χ2=4428.34,P=
对样本二的376个数据进行验证性因素分析,结果显示,8因素模型的拟合指数良好:χ2/df=3.28,GFI=0.81,NNFI=0.90,CFI=0.92,RMSEA=0.08。
2.2 信度、效度检验
2.2.1 内部一致性信度与重测信度
认知情绪调节量表总分及其自责、容忍、沉思默想、积极调整、积极设想、自我安慰、灾难化和责备他人8个子量表的Cronbach α系数分别为:0.89、0.72、0.68、0.70、0.66、0.81、0.60、0.81、0.76。3个月后总量表及其8个维度上的重测信度分别为:0.82、0.69、0.72、0.68、0.79、0.60、0.71、0.76、0.67。表明问卷的内部一致性及稳定性较好。
2.2.2效标关联效度
认知情绪调节方式与心理健康关系密切,而自尊又是心理健康的核心因素,国内学者李虹的研究表明,Rosenberg的自尊量表更有效[9]。因此,本研究使用自尊量表作为指标,考察CERQ的效标关联效度。CERQ与自尊量表之间的相关见表2。结果显示,CERQ量表除自我安慰维度外与自尊量表评分均有相关性,其中灾难化策略与自尊总分和自我肯定维度呈负相关,与自我贬低量表呈正相关;积极设想与自尊总分和自我肯定维度呈正相关,与自我贬低量表呈负相关,且相关均有统计学显著性。
表3显示男、女大学生的积极设想策略评分均较高,灾难化、责备他人评分均较低。女大学生的自责与灾难化评分低于男大学生,积极调整评分高于男生。
3 讨论
CERQ主要测量个体在经历负性生活事件之后的想法和感受,即个体所运用的认知情绪调节策略。CERQ可用于诊断和预测个体是否存在抑郁症状[6,7],并为抑郁的预防与干预训练提供有价值的参考。荷兰版CERQ共36个题项,9个维度。本研究结果表明,剔除不能较好反映心理特征的2个题项,以及存在双负荷的2个题项,中文版CERQ共有32个题项;修订之后的中文版CERQ包括自责、容忍、沉思默想、积极调整、积极设想、自我安慰、灾难化和责备他人8个维度,这与荷兰版的9因素结构稍有不同。以早期青少年、晚期青少年、成人、老年人和临床病人为被试,荷兰版CERQ都发现“关注计划”和“积极重评”这两个因子的题项有些是重叠的,但加尼弗斯蒂(Garnefski N)认为两者的概念是不同的,“关注计划”主要是指为了应对负性生活事件采取何种行动的想法,而“积极重评”主要是指根据个人的发展经历给负性生活事件赋予积极的含义,因而坚持将其划分为两个维度[6]。而在本研究中,上述两个维度中的各题项很好地聚合在一个因子上,因此将其划分为一个维度,并命名为“积极设想”,它包含着对负性生活事件积极计划与重新评价两层含义。这可能是中西方文化差异造成的,也可能是样本抽样误差所造成的,有待进行深入的研究。8因素模型的验证性因素分析结果表明,各项拟合指数均达到心理测量学的要求。显示中文版CERQ的32个项目,8维度结构对于中国大学生是适用的。
CERQ在荷兰、法国都具有良好的心理测量学特性。中文版信度分析显示,CERQ的内部一致性及稳定性较好。此外,本研究以自尊量表来推断CERQ的效标关联效度,并预期,积极调整、积极重评将与自尊总分、自我肯定量表呈正相关,而沉思默想、灾难化、责备他人、容忍、自我安慰和自责将与自尊总分和自我贬低分维度呈负相关。本研究结果符合预期,中文版的CERQ具有良好的心理测量学特性。
此外,值得注意的是,本研究结果显示,我国男、女大学生较不常运用灾难化、责备他人的认知情绪调节策略,这与加尼弗斯蒂(Garnefski N)研究结果一致[6]。但在自责、积极调整与灾难化策略的运用上存在着显著的性别差异,与以往的研究结果不一致[10,11]。加尼弗斯蒂(Garnefski N)等学者的研究显示:对于18-65岁的成年人,女性始终是比男性更经常地运用除自责之外的大多数策略;男性比女性更经常地运用自责策略。这在某种意义上显示出认知情绪调节策略在性别表现方面存在着文化差异。可能的解释是,在中国的文化背景下,个体的情绪比较内隐、含蓄,而且爱面子,羞耻心较强。与女大学生相比,男大学生承载着来自社会及家庭较高的期望,因而其所承受的心理与社会压力更大,当其在学业及活动中遇到负性生活事件或挫折时,男大学生在观念上可能会表现出更多的灰心丧气、一蹶不振及自我挫败、自我遣责等,表现为较多地运用自责及灾难化等认知情绪调节策略。据社会对性别角色的期望研究[12]表明:多数人认为适合女性的人格特质多与情感、人际关系有关,女性比男性情感细腻、敏感,拥有更多的情绪知识和更敏锐的情绪调节技巧,以适应社会环境的变化,因而,在成长过程中女大学生比男大学生更好地发展、形成了更有效的认知情绪调节策略。
本研究仅以大学生为被试,因此,上述结果是否适用于其他成人群体及临床病人,还有待进一步证实。
参考文献
1 Thompson RA. Emotion regulation and emotion development. Educ Pschol Rev, 1991,3: 269-307.
2 Gross JJ. Emotion regulation in adulthood: Timing is everything. Curr Direct Psychol Sci, 2001, 10(2):348-362.
3 Parkinson B, Totterdell P. Classifying affectregulation strategies. Cogn Emot, 1999,13: 277-303.
4 Gross JJ. Individual Differences in Two Emotion Regulation Processes: Implications for Affect, Relationships, and WellBeing. J Pers Soc Psychol, 2003, 85(2):348-362.
5 Garnefski N, Kraaij V,Spinhoven Ph. Negative life events, cognitive emotion regulation and emotional problems. Pers Individ Differ, 2001,30:1311-1327.
6 Garnefski N, Kraaij V,Spinhoven P. CERQ: manual for the use of the cognitive emotion regulation questionnaire. Leiderdorp, The Netherlands: DATEC,2002.
7 Garnefski N, Kraaij V. Cognitive emotion regulation Questionnaire: Development of a short 18item version (CERQshort).Pers Individ Differ, 2006,41:1045-1053.
8 季益富.Rosenberg. 自尊量表(The selfEsteem Scale,SES). 见:汪向东,王希林,马弘,编著. 心理卫生评定量表手册.中国心理卫生杂志,1999,(增刊):318-320.
9 李虹.心理健康的测量:自尊量表和情感量表的比较.心理发展与教育.2004,(2):75-79.
10 Kraaij V, Garnefski N, de Wilde EJ, et al. Negative life events and depressive symptoms in late adolescence: Bonding and cognitive coping as vulnerability factors? J Youth Adolesc, 2003,32(3), 185-193.
11 Garnefski N, Kraaij V. Relationships between cognitive emotion regulation strategies and depressive symptoms:A comparative study of five specific samples. Pers Individ Differ, 2006,40:1659-1669.