一、 效度的表示方法
1、 相关法:效度系数是最常用的效度指标,尤其是效标效度。它是以皮尔逊积差相关系数来表示的,主要反映测验分数与效标测量的相关。当测验成绩是连续变量,而效标资料是二分变量时,计算效度系数可用点二列相关公式或二列相关公式;当测验分数为连续变量,效标资料为等级评定时,可用贾斯朋多系列相关公式计算。
2、 区分法:是检验测验分数能否有效地区分由效标所定义的团体的一种方法。算出t值后,便可知道分数的差异是否显著。若差异显著,说明该测验能够有效地区分由效标定义的团体,否则,测验是无效的。重叠百分比可以通过计算每一组内得分超过(或低于)另一组平均数的人数百分比得出;另外,还可以计算两组分布的共同区的百分比。重叠量越大,说明两组分数差异越小,即测验的效度越差。
3、 命中率法:是当测验用来做取舍的依据时,用其正确决定的比例作为效度指标的一种方法。命中率的计算有两种方法,一是计算总命中率,另一种是计算正命中率。
4、 预期表法:是一种双向表格,预测分数排在表的左边,效标排在表的顶端。从左下至右上对角线上各百分数字越大,而其它的百分数字越小,表示测验的效标效度越高 ;反之,数字越分散,则效度越低。
二、 效度的应用
1、 预测误差:效度系数的平方,统计学上称这种指标为决定系数,表示测验正确预测或解释的效标的方差占总方差的比例。另一种表达方式是估计的标准误,简写为Sest,它是指所有具有某一测验分数的被试其效标分数(Y)分布的标准差,也即预测误差大小的估计值, (公式4-9)估计的标注误可如同其他标准误一样解释。真正效标分数落在预测效标分数±1Sest的范围内,有68%的可能性;落在预测效标分数±1.96Sest的范围内,有95%的可能性;落在预测效标分数±2.58Sest的范围内,有99%的可能性。
2、 预测效标分数:如果X与Y两变量呈直线相关,只要确定出二者间的回归方程,就可以从一个变量推估出来另一个变量。在测验工作中,人们感兴趣的是从测验分数预测效标成绩。
3、 预测效标指数:公式4-9中的 又称作无关系数,以K表示之,K值大小表明预测源分数与效标分数无关的程度。(1-K)可作为预测效率的指数,用E表示:E=100(1-K) (公式4-15)E值大小表明使用测验比盲目猜测能减少多少误差。
第四节 影响效度的因素
一、 测验本身的因素
1、 测验题目的质量
2、 测验的长度。(一般而言,增加测验的长度通常可以提高测验的信度,而信度又制约着效度,因此增加测验的长度也能提高测验的效度。)
二、测验实施中的干扰因素
1、主试的影响因素。测验实施过程中主试的因素会影响效度。对于效标效度,测验与效标二者实施时间间隔时间越长,测验与效标越容易受到很多机遇因素的影响,因此所求的相关必然很低。测验情镜,如场地的布置、材料的准备、测验场所有无噪音和其他干扰因素等也会影响到测验的效度。
2、被试的影响因素。被试在测验时的兴趣、动机、情绪、态度和身心状况、健康状态等都会影响测验的效度。(被试的反应定势也会降低测验的效度。)
三、样本团体的性质
1、样本团体的异质性。与信度系数一样,如果其它条件相同,样本团体越同质,分数分布范围越小,测验效度就越低;样本团体越异质,分数分布范围越大测验效度就越高。(1)只以选拔上的被试为样本团体参加效度研究,降低了测验的效度。(2)选拔标准太高,样本团体的同质性增高,降低了测验的效度。
2、干涉变量。样本团体的性质对效度的影响还表现在:对于同性质的团体,同一测验的效度会有很大的不同。这些样本团体的特质包括:年龄、性别、教育水平、智力、动机、职业和任何有关的特征。由于这写特征的影响,使得测验对于不同的团体具有不同的预测能力,故测量学上称这些特征为干涉变量。
吉赛利提出的如何找出干涉变量的一套方法:
①用回归方程求得每个人的预测效标分数,将该分数与实际效标分数想比较,获得差异分数D.如果D的绝对值很大,说明测验中可能存在干涉变量。
②根据样本团体的组成分析,找出对照组,分别计算效度,从而象上述关于出租汽车司机的例子一样,找出干涉变量。
③对于欲测团体,根据某些易见的干涉变量将其区分为预测性高和预测性低的两个亚团体。对于预测性高的团体,获得的测验效度会有所提高。
三、 效标的性质
(1) 效标与测验分数之间的关系是否线性关系是一个很重要的因素。皮尔逊剂差相关系数的前题是假设两个变量的关系是线性的分布。
(2) 效标测量本身的可靠性如何亦是值得考虑的一个问题。
第五章 项目分析
一般来说,测验的项目分析包括定性分析和定量分析两个方面。
第一节 难度分析
难度是指项目的难易程度。在能力测验中通常需要一个反映难度水平的指标,在非能力测验(人格测验)中,类似的指标是“通俗性”,即取自相同总体的样本中,能在答案方向上回答该题的人数。(名词解释)
一、 难度的指标: 难度的指标通常以通过率表示,即以答对或通过该题的人数百分比来表示。
(公式5-1)
二、难度的计算
1、二分法记分的项目:心理测验的项目大多为选择题,通过记1分,不通过记0分。当被试人数较多时,可根据测验总成绩将被试分为三组:分数最高的27%被试为高分组( ),分数最低的27%被试为低分组( )中间46%的被试为中间组。分别计算高分组和低分组的通过率,以两组通过率的平均值作为每一题的难度。
由于选择题允许猜测,所以通过率可能因机遇作用而变大。备选答案的数目越少,机遇的作用越大,越不能真正反映测验的难度。为此,吉尔福特提出了一个P值校正公式。
例题:假定某题有75%的被试通过,若该题有5个备选答案,则校正后的通过率为:
(当有4个备选答案时,CP=0.67;有3个,CP=0.63;有2个,CP=0.54)
2、非二分记分的项目:如果人为地明确通过每一题的分数线,也可以用公式5-2计算难度。但此种方法的缺点在于,采用不同的分数线会得到不同的难度值,因此不常用。
三、难度水平的确定
1、项目难度的确定:进行难度分析的主要目的是为了筛选项目,项目的难度多高合适,取决于测验的目的、性质以及项目的形式。为了使测验具有更大的区别力,应选择难度在0.50左右的试题比较合适。但是在实际各种中并得非如此简单。在选择题目时,最好使试题的平均难度接近0.50,而各题难度在0.50 0.20之间。当测验用于选拔或诊断时,应该比较多地选择难度值接近录取率的项目。对于选择题来说,P值一般应大于概率水平。
2、测验难度的确定:测验的难度直接依赖于组成测验的项目的难度。通过考察测验分数的分布,可以对测验的难度做出直观检验。
第二节 项目的区分度
一、 项目区分度的概念:也叫鉴别力,是指测验项目对被试的心理特性的区分能力。(名词解释)
二、项目区分度的估计方法
1、鉴别指数:首先分别计算高分组与低分组在该项目上的通过率,然后用高分组在该项目上的通过率减去低分组在该项目上的通过率。 (公式 5-7) 项目鉴别指数与评价标准
鉴别指数 项目评价
0.40以上 很好
0.30-0.39 良好,修改后会更佳
0.20-0.29 尚可,但需修改
0.19以下 差,必须淘汰
2、相关系数:①点二列相关:适用于一类变量为二分称名变量,另一类变量为连续变量的成对变量的相关计算。
②二列相关:适用于两个连续变量,但其中一个变量被人为分成两类。
③ 相关:适用于两个变量均为二分称名变量。
3、 区分度与难度的关系
(1) 假如样本中通过某一项目的人数比率为1.00或0,说明高分组与低分组在通过率上不存在差异,因此D为0;假如项目的通过率为0.50,则可能是高分组的所有人都通过了,而低分组却无人通过,这样D的最大值可能达到1.00.
(2) 为了使整个测验项目的潜在区分度最大,似乎应该使每个项目的难度处于0.50水平,但事实并非如此简单。如果每一个项目的难度均处于0.50,由于项目难度相同,有可能大多趋向于有关的内容或技能,结果造成项目同质性提高。在极端情况下,有可能50%的被试全部通过各项目得满分,另外50%的被试全部为0分,形成U形分布,这样反而降低总分的区分能力。如果测验的所有项目都是中等难度,只有项目的内在相关为0时,整个测验才能产生常态分布。考虑到一般测验项目之间具有某种程度的相关难度的分布要广一些,梯度多一些,是合乎需要的。
第三节 项目分析的特殊问题
1、 项目特征曲线:是项目特征函数或项目反应函数的图解形式,它反映了被试对某一测验项目的正确反应概率与该项目所对应的能力或特质的水平之间的一种函数关系。
(1)项目特征曲线可图解测验的鉴别力,项目鉴别力的高低主要在于其曲线的倾斜度,曲线坡度越陡,鉴别能力越好,预测的误差越小。
(2)项目特征曲线可以图解项目难度。
(3)项目特征曲线还可以图解选择题的诱答反应。(简答、名词解释)