实施教学评价,离不开一定的评价工具,如试题、问卷、检核表等。因 此,教学评价工具的编制与使用,也是教学评价工作的一项重要内容。
一、有效测验的必备条件
设计和编制任何一种测验,都必须使其在效度、信度、难度和区分度方 面达到一定要求,即起码达到有效、可信,具有一定难度和区分度。
(一)效度 效度是指一个测验或测量工具能真实地测量出所要测量的事物的程度。
一次测验是否有效,主要看其是否准确测量了它所要测量的东西。效度是评价工具最重要的必备条件,一个缺乏效度的评价工具是没有什么使用价值 的。效度是个相对概念,任何一种评价工具只是对一定的目的来说才是有效 的。例如,智力测验用来测学生智力是有效的,但用来测学生体力则无效。 因此,我们不能笼统地说某测验有没有效,而应当说它对测量什么有没有效。 测验的效度有多种类型,主要有内容效度、构想效度和预测效度。根据不同 的需要,一个测验可以采用一种或几种效度。
1.内容效度。测验的内容效度是指它从需要测验的教材中提取样本的适当程度。内容效度的高低,取决于测验题目的代表性,要看选出的题目能否 包含所测内容范围的主要方面,并使各方面题目比例适当。
2.构想效度。测验的构想效度是指一个测验能够测量理论上的构想或内在心理特性的程度。例如,某智力测验测得的结果,如果与该测验所依据的 智力理论关于智力的一些假设相符,那么这个智力测验就具有构想效度。构 想效度对心理测量来说意义重大,但对于成绩测验来说则无关紧要。
3.预测效度。测验的预测效度指一个测验能够预测学生将来某种特定行为或表现的程度。预测得越准,效度就越高。例如,用入学考试预测学生入 学后的学习成绩,用职业测验预测工作能力等。
(二)信度 信度是表明评价工具质量的又一重要指标,它主要指测验结果的前后一致性程度。例如,如果一个学生多次参加某种测验都得到相近的分数,那么就可以认为该测验稳定可靠,信度是较高的。 前面提到的效度是对测量的准确性程度的估计,而信度则是对测量的一致性或可靠性程度的估计。研究表明,效度和信度是交迭的,即有时一个测 量工具对于某一个目的具有一定的信度,但并不一定是有效的;而一个测量 工具如果对于某一个目的是有效的,那么它一定是可信的。这正如拿一把米 尺去量身高是有效的,也是可信的。如果拿它量体重,尽管每次量得的结果 是一致的,即信度是较高的,但效度却几乎没有。根据影响信度的不同因素, 可以把信度分为以下几类,信度指标通常用相关系数表示。
1.再测信度:用同一种测验在不同时间里两次测验同一组学生,然后统 计两次测试成绩的相关,求得的相关系数即为再测信度系数。信度系数的最 大值为 1,表示再测信度最高,最小值为 0,表示再测信度最低。再测信度高, 说明测验成绩稳定,反之,则测验不稳定,需修订。
2.分半信度:将一个测验分为等质量的两半,求这对半分的两半测验所得分数的一致性程度,即为分半信度。分半信度是反映测验内在一致性的一 个重要指标。求分半信度的基本方法是用一种测验对学生进行测试,在计算 分数时把试题分为等质量的两半(通常以试题的奇数为一组,偶数为一组), 分别计算总分,再以统计相关求得分半试卷成绩的相关系数,便为分半信度 系数。
3.评分者信度:把相同的测验结果提供给不同的评分者打分,若不同评 分者给的分数大致相同,说明该测验有较高的信度。客观性测验评分标准客 观、准确,评分者信度一般较高。非客观性测验要想提高信度,就应当尽可 能使评分标准达到客观、准确。
(三)难度 难度指测题的难易程度。在教学测量中,通常用答对或通过测验的人数比例作为难度值。
难度值(P)
答对人数(R)
被试总人数(N)
×100%
P 值越大,难度越低,P 值越小,难度越高。一般来说,难度值平均在0.5 最佳,难度值过高或过低,都会降低测验的信度。当然,在实际的评价 过程中,测验的难度水平多高才合适,也还要取决于测验的目的。如果教师 要对学生的知识准备状况进行一次诊断性测验,为了真实、准确地了解学生 的知识掌握情况,测验难度大一点也是正常的。
(四)区分度 区分度有时也称鉴别力,它主要指测验对于不同水平的被试加以区分的能力。它反映着测验与被试实际水平的相符合程度,如果在某道题上得分高就意味着学生的实际水平高,得分低就意味着实际水平低,那么该测验就有 较高的区分度。区分度与难度紧密相关,测验过难或过易,会造成被试都通 不过或都通过的结果,这样,测验也就无鉴别力可言了。
二、测验的设计与编制
测验是教学评价的主要手段,它对整个教学活动具有激励、调控等再组 织作用。在我国中小学实际教学过程中,教师自编教学测验题是一项十分普 遍而重要的工作。从一定意义上说,设计和编制教学测验题是教师一项重要 的基本技能,也是教师教学水平的标志之一。测验的题型很多,但人们通常 依据试题的客观性程度将测验分为客观式测验和论文式测验。
(一)客观式测验的编制 测验的试题可以客观地记分,即评分不受评卷者的主观因素影响,无论是人工评分还是计算机评分,所得结果都是相同的,这样的测验叫客观式测验。
客观式测验的试题形式很多,主要为再认式,如选择题、是非(正误) 题、配对题、排序题等;有时也有回忆式的,但答案很简单,只写一两个字 或一两句话,如填空题、简答题和改错题等。客观式测验的优点是测题编制 容易标准化,试题覆盖面大,评分客观、准确、省时、省力。其缺点是不能 很好考核学生的文字表达能力、创造能力和组织材料的能力。也有可能给受 试者以猜测的机会。下面分别对客观式测验的几种常用试题形式的编制要求作些介绍。
1.正误题。正误题又叫是非题或判断题,它的基本形式是对一个命题的 正确与否作出判断,它只提供正确和错误两种答案,没有模棱两可或中间答 案。题例:放在箱子里的卫生球变小或消失了,这是一种扩散现象。
编制正误题时应注意:(1)每题只应包含一个重要的概念,表达应明确, 避免两个以上概念同时出现在同一题中造成题目含义不清或半对半错。(2) 避免在题目中提供答案的暗示或线索,避免使用具有暗示性的特殊的词。(3) 正题与误题的题数大致相等,并且要随机排列,以防学生猜测。(4)每题必 须肯定正确或肯定错误,不能模棱两可。(5)论点要简明扼要,各题的句子 结构也就应相似。(6)不要照搬教科书上的词句,避免反面陈述或双重否定 的词句。
正误题的优点是编题容易,在有限的时间内能回答较多的问题,评分客 观。不足是猜中的可能性有 50%,可靠性差,缺乏教育诊断的作用。因而近 年来,逐渐出现选择题取而代之的趋势。
2.选择题。选择题一般是由一个题干(常常是一个问句或不完全的陈述 句)和三个以上的选项(通常是数字、符号、字词短语或简单句)组成的。 选项中必须至少有一个正确答案或最佳答案,其余的带有迷惑性的错误或似 是而非的答案叫诱答,答题时要求学生根据要求选择其中最正确、最合适的 答案或剔除错误的答案。题例:鸦片战争后,首先侵略台湾的是①荷兰②法 国③美国④日本选择题的明显优点是:(1)适用范围广,选择题能较好地考核各个层次的教学目标,适用于文字、数字和图形等不同性质的材料,可考核学生的记 忆、分析、鉴别、推理和应用知识的能力。(2)经济有效,在单位时间内可 以施测很多项目,能保证取样的广泛性,保证测验的有效性。(3)有多项答 案备选,可减少学生猜测的机会。(4)可通过改变选项中错误答案的迷惑性 来调整题目的难度,并从中诊断学生的不同错误,了解他们的学习困难,以 利及时补救。(5)评分客观,阅卷方便。
选择题的不足是设计难度较大,尤其是几个备选答案不容易设计好,另外,由于答案是固定的,测不出学生的创造力和组织材料的能力。 设计选择题时应注意:(1)根据测验的目的和内容来选择最适当的题型。
(2)题干要围绕一个中心并能构成一个特定的问题。(3)各选项在形式上应协调一致,如或者都是地名,或者都是数字,文字结构也应大致相同。(4) 正确答案的位置排列应随机。(5)各个诱答应有基本相同的迷惑作用。
3.配对题。配对题提供若干个题意和答案,要求学生将每个题意配上他 认为正确的答案。配对题一般由三部分组成:即解答试题的指导语、问题(题 意)、配对选项。它的结构常包括两栏或三栏,要求学生将第一栏中的项目 同第二栏、第三栏中的适当项目相互匹配。配对题最好有四个以上的配对, 它可以是完全配对,即问题数与选项数相等,也可是不完全配对,即问题数 与选项数不等,以避免凭猜测作答,增加可靠性。
配对题可同时考核许多相关事物和知识的内容联系,例如,许多学科学 习中,都要求学生能够把名词与定义相联,地名与地理位置相联,人名与事 件或作者与著作相联,概念、方法与它们的用途相联,等等。要考核学生对 这样一些平行关系的掌握,配对题是一种非常有效的试题。
配对题的设计应注意以下几点:(1)指导语应清晰、明确。(2)各栏项目的性质应相同,如一栏都是时间,另一栏都是事件。(3)配对项目的数 量要适当,以 4—10 项为宜。(4)有特殊配对要求时应加以说明,如选项可 被选两次,问题数与选项数不等,等等。
4.填空题与简答题。填空题与简答题均属“补缺型”试题,它们通常都 只要求一个词、一句话、一个数字或一个符号就能作答。填空题是略去一些 关键词或数字的留有空白的不完全句子,简答题是一个简单的问句,例如, 中华人民共和国成立于年。又如,一年有哪几个季节?
填空题和简答题编写容易,特别适合于考核学生对术语、事实、方法、 原理和程序等实际知识的记忆和理解,学生凭猜测作答的机会也比较少,不 足之处是评分不够便利和客观。编写这两类试题时应注意:(1)提出的问题 要明确,并有确切的回答范围。(2)填空题的省略部分应是关键词。(3) 每题的空白不宜过多,以免影响句子的完整性,干扰学生的判断。(4)试题 中不要露出答案线索。(5)填写的正确答案只能有一个,如还有其他可能正 确的答案,则要给予特殊规定。
(二)论文式测验的编制 论文式测验即传统的问答式测验,学生可以根据测验提出的问题自由作答,不受格式的限制。它包括论述题、问答题、说明题和作文题等基本形式。
论文式测验的优点是试题编写容易,被试可以充分发挥自己的见解,可 以有效测量学生的转述、组织、表达、应用和分析综合等多方面能力。其最 大的缺点是试题覆盖面小,取样缺乏代表性,答卷、阅卷费时费力,评分难 以标准化和客观化。特别是评分主观误差大,是论文式测验受到批评的最主 要的原因。例如,美国教育家斯太克(R.E.Stake)曾做过一项著名的实验, 他把同一语文试卷分别请 142 位本科毕业的中学教师评阅,结果对这份卷子 的给分有 35 种,从 50 分到 98 分不等。他又把一份几何答卷分请 116 位本科 毕业的教师评阅,结果有 60 多种分数,最低 28 分,最高 92 分。①我国的有 关研究也得出类似结果,将五份高考语文试卷在全国各地评阅,其结果如下 表:②五份高考语文试卷在全国各地的评分结果
考卷
A
B
C
D
E
最高分
45
87
92
85
83
最低分
26
55
64
56
50
最大差异
19
32
28
29
33
论文式测验尽管有以上明显的缺陷,但由于它同时又有着客观式测验不 具备的优点,所以在实际评价过程中还不能简单排斥或取消这类测验,而应 在不断改进试题及提高命题质量的基础上,将论文式测验与客观式测验很好 地结合起来。取长补短,共同使用。为有效提高这类测验的命题质量,国外 的有关研究提出了论文式试题的十条评价标准,并规定如果一道试题从这十 条标准中获得七条以上“肯定”的评价,就可以认为是优良的试题,否则应
① 李秉德主编《教学论》,第 349 页。
加以修改或重新拟定。这十条标准是:①(1)该问题是否是这一科目的重要 部分?(2)问题着重的细节是否与该学科的主要事实、观念理论有密切联系?
(3)该问题是否着眼于评论或对关系的探讨?(4)该问题能否引起学生的 兴趣而激发其思考?(5)该问题难易程度是否符合学生的水平?(6)该问 题是否要求学生用自己的语言来表达思想?(7)该问题是否能促使学生依照 已有的知识背景尽量发挥?(8)该问题是否允许学生有独特见解?(9)该 问题是否要求学生从各种不同来源所得到的事实中加以整理和组织?(10) 该问题是否有明确而适当的范围,使学生在限定的时间内充分表达出来?
以上所谈是编制、设计客观式测验和论文式测验的一般性要求与技术, 如何编出一份好的测验,在很大程度上还要取决于教师对教学实际情况的把 握和对学生学习特点的了解。离开了教学实际,是难以编出真正有效的评价 工具的。
三、测验结果的分析与解释
测验学生学业成绩的主要目的,在于客观了解学生学习的基本状况,及 时调整或改进教学策略,提高教学效率。要达到这一目的,必须认真统计分 析和解释测验的结果。
教学测验的结果,一般都以分数的形式加以报道。评分的类型一般分为绝对评分和相对评分两类。我国中小学在日常教学测验中主要采取绝对评分 的方式打分,即根据学生对测验所要求的全部知识掌握的程度给出分数,全 答对了就给满分,全错了给零分。绝对评分的记分办法有两种,一种是常用 的百分制,另一种是五级记分制。相对评分法主要根据考生与他人比较的结 果,即考生在某个群体中所处的相对位置确定分数。相对评分的具体办法也 有两种:一是标准分数,一是等级分数。
在具体统计、分析和解释教学测验结果时,以下几个概念是最常用的,必须加以了解和掌握。
(一)算术平均数 算术平均数是教学测验结果统计中应用最广泛的一种量数,它代表着分数的集中趋势。算术平均数的计算方法是将各个变量相加求和再除以变量个数,其计算公式如下:
x + x + x + x
M
1 2 3 n
N
求算术平均数时,由于每个原始分数都加入了计算,因而每个原始分数 的值对平均数都有影响。另外,如果一组数据中出现极端数据,则求得的平 均数就很难代表这组数据的平均水平。例如,六名学生的考试成绩分别是100、95、75、60、23、20,平均成绩为 62.2,这个平均成绩就很难反映这 六名学生的平均水平。由此看来,算数平均数虽然反映了一组数据的集中趋 势,但不能反映该组数据的其他特征,如数据的离散程度。因此,除算术平 均数外,还必须进一步了解另一个统计量数——标准差。
(二)标准差
① 《教学论新编》,第 434— 435 页。
标准差是描述一组数据的变异情况或每个数据彼此离散程度的统计量, 也是一切推论统计方法的基础。标准差的计算方法为:X 2
S
N
这里 S 代表标准差,∑表示“把 相加”,X 代表分数和平均数之间 的差,即 X=X—M。例如,假设一组分数为 12、9、7、16、4、17、2,
其平均分:M = 12 + 9 + 7 + 16 + 4 + 17 + 2
7
其标准差为:
X 2
= 9.57
S
N
(12
9.57 )2
(9
9.57 )2
(7
9.57 )2
(2
9.57) 2
7
5.31
(三)标准分数
标准分数也称 Z 分数,它是以标准差为单位来衡量某一分数与平均分之 差的,是反映个人在团体中相对位置以及对不同学科的测验结果进行比较的 最好统计量。标准分数由原始分数转化而来,其转化公式如下:X
X
Z
S
其中,Z为标准分数,X为原始分数,X为平均数,S为标准差。
当 Z 值为零(正好在平均数的位置)时,说明成绩一般;Z 为正值,表 明成绩高于一般;Z 为负值,则低于一般。
Z 分数的优越性是有很强的可比性,这种分数不仅对同一科目的两次考试的得分可以比较,不同科目的考试得分也可进行比较。例如,一个学生第 一次数学考试得 75 分,第二次数学考试得 60 分,这两个原始分数不宜比较。 因为两次考试的题目不同,全体平均分数、标准差也不同。如果将它们转化 为 Z 分数,就可以比较出两个成绩的差异。又如,一个学生语文成绩 80 分, 数学成绩 70 分,这两个原始分数也不宜直接比较,因为它们并未反映出学生 在这两个学科的整体中处于什么位置。如果将它们转换成 Z 分数,比较就有 了共同的逻辑基础。
当然,Z 分数也有缺点,主要问题是有负值,使用起来不方便。因此, 人们一般习惯使用 T 分数。T 分数是 Z 分数的变形,其计算公式如下:T=10Z+50
T 分数以 50 为普通,50 以上越高者越好,50 以下则越低越劣。下表是 通过 T 分数对甲、乙两学生数、理、化三科成绩的比较,尽管两名学生的总 分、平均分都相同,但通过 T 分数的比较,仍可看出二者成绩上的差异。
甲、乙两学生数理化三科成绩比较①
① 《学与教的心理学》,第 347 页。
考试科目
学 生
X
(平均数)
S
(标准差)
T 分数
甲
乙
甲
乙
数 学
57
3
65
4
30
70
物 理
76
86
74
6
53
70
化 学
96
70
71
12
71
49
总分数
229
154
189
平均分数
76.3
51
63