特殊教育中使用的评分标准和评分方法
发布日期:2019-02-08   作者:特教研究所   

沈泓

 

在特殊教育中应该使用什么样的评分标准和评分方法是个颇有争议的问题。且不谈评分方法,评分标准就很难定下来。一部分人认为特殊教育和普通教育应该使用同一个评分标准。比如,一名残疾学生和一名正常学生参加了同一门考试,考出了同一个水平,理应得到同一个分数。残疾学生如果考得不好,不能因残疾的缘故得到加分。否则,岂不是不平等或者不公平吗?另一部分人则认为,特殊教育和普通教育使用同一个评分标准是行不通的。假如是这样,残疾学生们考得都不及格,丧失了学习的信心,特殊教育还搞得下去吗?不过,尽管存在争议,长期以来特教和普教还是用了各自不同的评分标准。这种鸡犬相闻、老死不相往来的局面之所以存在,其主要原因在于残疾学生和正常学生并不在同一处接受教育,他们的评分标准没有受到互相的干扰。然而,这种分而治之的作法正在受到的冲击。越来越多的残疾学生进入普通班或普通学校同正常学生一起学习。随班就读迫使我们对传统的“两套标准”进行重新评估,才能跟上教育事业的发展。

本文的目的在于清晰地阐述评分标准、测试和评分方法等几个基本概念和它们之间的联系,讨论和分析一些在这方面经常混淆的问题,对照国外一些比较先进的做法,提倡在特教领域内用公平和科学的方法进行测试和评分。

“不平等”不等于“不公平”

残疾学生随班就读后,我们应该用什么标准对他们进行评分,普教的,还是特教的?为此,美国在上世纪九十年代做了一系列研究。一项研究在调查了一个大城市中9所高中的476名随班就读学生后发现,他们绝大多数得了“D(相当于5分制中的2)和“F”(相当于5分制中的1分或0分)(唐纳侯和希格蒙,1990)。这种评分制度使残疾学生产生了无论怎样努力学习都不会及格的想法,导致他们在完成义务教育前就缀学。那么,如果用降低的标准评分,正常学生是否有意见呢?肖姆和冯恩(1994)调查了3000名中小学生后发现,学生们对评分制度很敏感。他们总体上都认为无论是考试还是平时作业,教师对学生应该一视同仁。考虑到残疾学生的学习困难,教师对他们的作业和考试作点修改或多给点时间参加考试是可以接受的。但评分应该用同一个标准。否则,就是“不平等”和“不公平”。这项研究表明,该不该用两个标准来评分的争论焦点在于是否“平等”和“公平”。必须指出的是,目前社会上许多人,包括教师、学生和家长都把“不平等”和“不公平”两个不同的概念混淆起来了。他们不明白这样一个道理,即“不平等”不等于“不公平”。如果要讲“平等”,特殊教育本身就是“不平等”的,因为不是每位学生都接受特殊教育。但特殊教育对全体学生来说都是“公平”的,因为残疾学生有这个需要,而正常学生没这个需要。我们可以用下面的例子说服和教育广大的教师、学生和家长:

1.如果因一名学生断了手臂,要求全班学生都绑上石膏是平等的,但是不公平的。

2.如果因一名学生需要坐轮椅,要求全班学生都用轮椅是平等的,但是不公平的。

3.如果因一名学生需要补课,要求全班学生都补课是平等的,但是不公平的。

4.用两个不同的标准评分是不平等的,但有时是公平的。

5.作为一个特殊教育教师,你可以明确地告诉班上的每一名学生,你对待学生不会每次都平等,但你这样做是公平的。

 

随班就读在美国已实行多年,目前大多数残疾学生已在普通学校或普通班级同正常学生一起学习。特教用自己的评分标准并未引起很大争议。笔者认为,随着社会的文明建设和对残疾人尊重程度的提高,绝大多数人会理解和接受这种做法。但这并不等于说残疾学生每次都应当享受特殊的评分标准。在美国,学生要毕业必须通过统一的离校考试(Exit Exam),残疾学生如果没有通过这个考试,他们获得是结业证书,而不是毕业文凭。不过,残疾学生可以有更多的时间复习,也允许再考。但评分标准只有一个,这是绝对的。这种做法普遍被认为既是平等的,也是公平的。由此看来,特教用普教的评分标准,还是用自己的评分标准,要根据需要,必须视具体情况而定,不能一概而论。随着我国特殊教育和高等教育的迅速发展,一部分有残疾的学生应该有权利和机会进入大专或大学深造,而且不应该只局限于盲、聋和肢体残疾的学生。在美国,接受特殊教育的残疾学生中有一半(51%)有学习困难(Learning Disability),学习困难属于轻度残疾。如果得到学校残疾学生办公室的认可,他们可以享受特殊教育服务。这些服务包括在课堂上录音,听课时由别人代做笔记,延长考试时间,有更多的时间完成作业,额外的写作辅导,免费的心理咨询等。笔者在大学从事特教师资培训,就遇到不少这样的学生。学校采用的是同一个评分标准。而这些学生经过努力学习,不但取得了教师证书,有的还获得了硕士学位。

评分的基本方法

明白了普教和特教应该用同一个标准还是分开的标准,我们可以具体谈谈评分方法。一般认为测试的目的在于了解学生对某门学科的知识或者对某项技能的掌握程度;分数则是对学生学习质量的评估。所谓“质量”,涉及到两个方面:一是“质”(Quality),二是“量”(Quantity)。因此,评分方法尽管多种多样,但是基本上可以分为三类:一是用数量来评分(如100分制,5分制等)。用数量来评估的优点是便于操作,尺度分明。缺点是有时不加说明,令人费解,因为数字本身很难说明问题。第二类是以“质”来评分,实际上所谓以“质”来评分就是使用文字来描述学生的掌握程度。其优点是比较能说明学生的实际掌握情况。缺点是费时,不容易表达级别,有时评分还会不够客观。第三类是取长补短,“质”和“量”同时使用。这一种评分方法相对说是很理想的,因为它能比较全面和准确地说明学生的成绩,但也存在费时的缺点。

无论用哪一种评分方法,我们都应当力求做到准确、客观和公正。此外,在写测试报告和为学生的作业写评语时,要尽可能用正面的、建设性的语言。同一种情况下,用正负两种不同的表达方法起到的效果会完全不同。比如“这个学生能背出50%的乘法口诀表”和“这个学生50%的乘法口诀表背不出”听起来感觉就不同。研究表明,学生的作业如果经常得到老师的表扬,他们就会增加对做作业的兴趣,提高学习的积极性。反之,太多的负面指责或批评性的语言,会造学生心理上的反感,降低他们学习的热情。因此,如果评分的目的是激励学生奋发学习,教师还须指出学生应改进的地方以及今后努力的方向(见附录:学生作业改进计划表,学习合同和学习改进计划)。

前面讲了三种不同的评分方法,下面我们来谈谈测试。因为先有测试才会有评分。选择哪一种评分方法,要根据测试工具的性质与目的来决定。尽管测试的种类千差万别,内容包罗万象,但在教育领域里归纳起来不外乎三大类:(1)以标准为依据的测试,(2)以常模为依据的测试,(3)以学生取得多少进步为依据的测试。用通常的话来解释,第一类测试是同标准比,看学生的成绩是否符合标准。第二类测试是同别人比,看某位学生的成绩与普通学生的水平相比是否有差距。第三类测试是同学生本人比,对照学生过去的成绩,看这个学生是否取得了进步。

一、以标准为依据的测试

这种测试的目的是检查学生的成绩是否符合标准或是否合格。不符合标准,就是不合格。因此,测试的结果无非有两种可能,即合格或不合格。这种测试在社会上运用相当广泛。几乎所有的级别考核、证书考核都属于这一类。比如英语考级、钢琴考级以及会计师证书考核等。那么,这些考级的标准又是怎么定出来的呢?一般来说,这些标准是由各行业的专家们组成专业小组,利用他们的专业知识制定出来的。比如《业余钢琴考级标准》就由钢琴考级委员会制定的。其实,我国在基础教育中“中考”和“高考”也属于这一类以标准为依据的测试。合格者升学,不合格者被陶汰,是符合择优录取原则的。这些年来,这两项考试,特别是高考,为国家选拔了大批人才,功不可没。但付出的代价也是沉重的。正是这两项考试引发了全国范围内的“应试教育”。

那么,是否有一种测试工具既能像高考一样,由专家们出题,检验学生是否合格,又没有严重的副作用呢?有的,而且一些发达国家已经开发并运用了许多年。

首先,这种测试工具与中考和高考一样,是以基础教育课程为依据而编写的。以美国的《布里根思基本技能测试》为例,它侧重于语文和数学,把它们分解成150种技能来检查学生是否达到了预设的课程标准。与中考和高考不同的是,这种测试不是在小学毕业或中学毕业时才用,而是用在从幼儿园到中学的任何阶段。用这种测试,学校可以随时检查一名学生是否掌握了在某个年级应该掌握的知识。因此,这种测试有利于学校层层把关,发现问题并及时解决,而不是等到学生毕业时再去检查学生成绩是否合格。这种测试还有以下几个特点:

1)试题对学校公开,由出版公司受教育部门的委托研制发行。当然,最后由教育部门审定。由于技术方面的问题已经解决,测试有较高的信度和效度,广大中小学教师拿来便可以直接使用,还可以作为自编测试的参考材料。需要说明的是,这种测试不像中考和高考那样是大规模的,由于它的内容分得很细,因此可以直接融合到平时的小测验、单元测验、期中和期末考试中去。目前不少教师缺少测试经验,不能正确地评估学生的成绩。笔者认为,教育部门应该紧急组织力量,开发统一的、规范化的测试工具供广大中小学教师在教学中使用。这种以课程为依据的测试工具之所以值得开发,是因为它可以长期使用,不像中考、高考的试题只能用一次。如果这项工作能引起重视,凭我国在中考和高考中长期积累起来的经验,开发这一测试工具是完全不成问题的。这项任务并不困难,只是把规范化的测试扩大到各个年级。这种作法是符合教育评估法的原则的,即我们不但要用终结评估(Summative Evaluation),还要有经常性的评估(Formative Evaluation),这样才能保证教育质量,培养合格的学生。

2)这种测试操作简便,因为每个技能测试都有使用说明。所以,教师不需经过专门培训就可以使用。另外,它既可以用于一对一的个别测试,也可用于班、年级甚至以学校为单位的集体测试。比如,要检查学生的四则运算能力是否达到课程标准,就可以运用这种测试。

3)这种测试着眼于全接受基础教育的学生,而不仅是想进大学的学生。由于种种原因,我国大多数学生进不了大学。但他们也应该被培养成合格的中小学毕业生。使用这种测试可以使他们的问题及时得到发现并解决。目前,尽管有国家颁布的课程标准,社会上还是有不少人,甚至包括一些学校的校长把升学率或高考录取率作为实际使用的教育质量评估的标准,一些学区为了提高升学率或高考录取率而进行“统考”或“联考”,更加重了学生的负担。因此,如果我们把学校的重点从提高升学率或高考录取率转移到提高学生合格率来评估学校的质量,开发这种统一的、规范化的测试工具供广大中小学教师在日常教学中使用,是会有帮助的。

4)这种测试对接受特殊教育的学生特别有用,因为所有的测试内容都是以课程标准为依据的。教师可以根据学生的测试成绩制订个别化教育计划中的长期目标和短期目标。以美国的《布里根思基本技能测试》为例,每个技能测试的最后部分都附有教学目标的样版,教师只需填入学生姓名和日期就成了个别化教育计划中需要的长期目标和短期目标。

二、以常模为依据的测试

所谓以常模为依据的测试就是把常模作为标准,常模实际上指的是平均值或平均分(Mean)。一个学生成绩的好坏,要看他的得分是高于常模,相当于常模还是低于常模。如果不把学生的成绩与常模相比,就看不出这个学生的实际表现。常言道:“没有比较就没有鉴别”,说的就是这个道理。目前有许多测试工具是根据常模来评分的,常用的智力测验就是一个典型的例子。智力测验的平均分为100分,标准差为15。如果一个人的智商在70–130之间,就属于智力正常;如果高于两个标准差,也就是在130以上,那就是智力超常;低于70就是智力低下或弱智。根据常模评分是最简单的,也是广大教师常用的评分方法之一。因为大家都会计算平均分或把学生的成绩和常模比较。然而一个地区的常模不等于一个国家的常模。因此,不用同一个常模就无法判断水平的高低。要解决这个问题,关键是要建立一个全国范围的大常模。用这个大常模才能开发一部适用于全国的、以中小学课程为基础的测试工具。这部测试工具必须具备:(1)全国性的常模,〔2〕标准化的测试方法和(3)标准化的评分方法。

要制定一个全国范围的常模并不是一项简单的任务。它需要在全国范围内,从不同地区、不同年龄、不同性别以及不同民族的学生中用随机抽样的方法来得到。目前国内有许多测试工具都是从国外引进的,经过反复修改后在全国范围内广泛使用,如一些智力测验、心理测验等。但是令人遗憾的是,迄今为止,我国尚不具备一部有中国常模的、以中小学基础教育课程为基础的测试工具。这与我国近年来经济高速发展很不协调,为了我们的下一代,建议国家有关教育部门要尽快组织人力、物力来填补这一空白。这样一部测试工具还有以下特点:

1)以课程为基础,测试范围包括中小学所有学科。其测试结果可以清楚地表明一个学生各门学科的年龄水平和年级水平。与同龄人相比,该学生是高于、低于还是相当于平均水平。与同年级的学生相比,该学生是高于、低于还是相当于平均水平。这对发现一个学生的长处和短处,进行因材施教有很大的帮助。

2)所有试题都以常模为依据,有很高的效度和信度。测试方法和评分方法完全标准化。测试人员必须严格按照使用说明施测。而且需经过专门培训才可上岗。

3)可以在较短时间(一、两个小时)内,基本了解一名学生的学习情况。

4)成为诊断天才和残疾儿童的主要测试工具。教育部门可以根据测试结果来决定是否需要提供天才教育或特殊教育。家长可以根据测试结果来决定是否需要请家教。在美国,如果只用智力测验来鉴定学生是否需要接受特殊教育是非法的。由于智力测验在文化上存在偏见或歧视性,学生一般需接受这种以常模为依据的学业测试,如果他们的实际成绩至少低于常模两个年级以下,就被确定为有学习困难,有资格接受特殊教育。

5)附有计算机测试软件。只要输入原始分,计算机就能自动分析和评分并写出测试的结果报告。

三、以学生取得多少进步为依据的测试

这种测试方法与前两种有所不同。它既不与标准比,又不与常模比,而是与学生本人比,看他取得了多少进步。这种做法是很有意义的。对教师来说,学生是否取得进步和取得多少进步是他们最关心的问题。一个学生虽然基础较差,但是经过一番努力,取得了不少进步。用他原来的成绩和现在的相比,可以鼓励学生更加努力学习。反之,如果一个学生已经超过一般水平,但是不再努力,他现在的成绩和原来的相比,只有相同甚至低于原来的水平。这就可以引起这名学生老师警觉。这种以学生取得多少进步为依据的测试工具,不需另外设计,前面所说的第一和第二种测试工具都可以使用,不过以课程标准为依据的测试方法用得比较多。一是这类测试工具可以用来进行前测和后测,便于比较。二是操作简单,本身又比较短小,不费时。相比之下,以常模为依据的测试尽管也可以用来检查学生是否有进步,但由于操作和评分严格,一学年一般只用一次,所以用得较少。但是,无论用哪一种测试方法,有一点必须特别注意:同一套试题不能在短时期内反复使用,以免学生记住题目,失去测试的信度。一般规范化的以课程标准为依据的测试或以常模为依据的测试都有A卷和B卷两套题目。尽管考题不一样,但是其范围和难度是一样的,有较高的信度。如果现存的试题没有AB卷,我们可以用一个简单的方法解决,就是把所有的试题从易到难排列起来,再用数字按顺序编上号。然后把单号编入A卷,把双号编入B卷。这样这个测试就有了两套难度一样的试题。前测用A卷,后测可以用B卷。

 

总而言之,尽管测试和评分方法多种多样,但归纳起来不外乎以下几种:

评分方法:

1.以质(Quality)评分                           2.以量(Quantity)评分

3.质和量(Quality & Quantity)并用评分

测试种类:

1.以标准为依据的测试                    2.以常模为依据的测试

3.以取得的进步为依据的测试

为了帮助读者理解评分等级和测试目的之间的关系,笔者制作了以下表格供参考(《评分等级和测试目的关系对照表》)。读者可以看出由于测试目的不同,评分标准也不同。而且,每个评分等级有着不同的含义。

评分等级和测试目的关系对照表

评分级别

以标准为依据的测试

以常模为依据的测试

以进步多少为依据的测试

A优秀

出色地掌握了教育目标所规定要理解的概念和原则。在考试或完成作业时表现的水平很高,为高一级学习作好了非常充分的准备。

远远超过了班级的平均水平。

进步很明显,大大超过老师的要求。

B 

牢固地掌握了教育目标所规定要理解的概念和原则。掌握程度超过最低要求,但并不出色。在考试或完成作业时,大多数技能发挥得不错,为高一级学习作好了准备。

超过了班级的平均水平。

进步不小,超过老师的要求。

C 

基本上掌握了教育目标所规定要理解的概念和原则。在考试或完成作业时显示出学到的基本技能。对下一阶段的学习有了一些准备,但不完全。

达到或接近班级的平均水平。

有进步,达到老师的要求。

D 

没有掌握教育目标所规定要理解的一些概念和原则。在考试或完成作业时,没有显示出学到的最基本技能。对下一阶段的学习缺少必要的准备。

在班级的平均水平之下。

有一些进步,但未达到老师的要求。

F  失败

没有掌握教育目标所规定要理解的大部分概念和原则。没有学会最基础的技能。对下一阶段的学习没有做好必要的准备。

远远低于班级的平均水平。

没有进步,离老师的要求有很大差距。

     

由此可见,无论用哪一种方法测试,或用哪一种方法评分,都有它的优点和缺点,都是不完美的,都只能反映一名学生对某个学科的知识或者对某个技能掌握程度的一个方面。只有用上所有种类的测试和评分方法才可能全面地评估一个学生的成绩,但一般不需要,除非需要对学生进行全面的评估。一般来说,在鉴定一个学生是否有残疾或者在制订个别化教育计划前,就需要这样的全面性评估。所以,作为一个教师,我们必须:

1)根据学生实际需要和评估目的,选择最能反映学生真正成绩的测试种类和评分方法。

2)了解测试工具的性质,然后再决定评分方法和标准。大多数由专业人员编写的测试工具和评分方法是配套的,要严格按照说明评分。

3)对于教师自编的测试材料,要采取谨慎的态度。如果学生的成绩不够理想,不要因此责怪学生,很可能是试题缺乏信度和效度。要细心检查,认真改进。

特殊教育中常用的几种评分方法

除了上面提到的三种既适用于普教又适用于特教的评分方法外,这里再介绍几种在特殊教育中常用的评分方法。这几种评分方法在美国被称为替换性评分方法(Alternative Grading),意思是可以用来替换传统方法的评分手段。

1)通过或失败(Pass or Fail

使用这种评分方法需要建立一个最低评分标准。学生成功地通过了最低标准就给“通过”(Pass),通不过的就给“失败”(Fail)。这种评分方法虽然简单,但可以减轻对残疾学生的压力。虽然它也有两个评分级别:通过和失败,但没有像其他ABCDF,百分制或五分制那样等级森严。残疾学生只要过了最低评分线,就可以获得和正常学生一样的分数。他们的感觉也会好些。

2)努力评分(Grading for Effort

对一些能力非常低、不可能通过最低标准的学生,老师可以考虑给一个努力分,以肯定该学生为考试或完成作业所作出的努力,鼓励他们继续努力学习。不过,教师给努力分时要谨慎,避免学生并不努力而得了努力分。比如,有的学生不遵守课堂记律,教师怕他们惹麻烦,只要他们安静地坐着做作业就给分,实际上这样助长了不良习气。克服这种现象的关键要是调动学生学习的积极性,并使学生明确学习目的。

3)合同评分(Contract Grading)

合同评分是学生和教师签一个合同,让学生有机会在一段明确的时间内完成一项任务。根据任务完成的多少和质量,学生可以得到ABCDF。比如,要得A,学生必须完成额外的作业。合同订在教学开始以前。教师和学生共同监督履行合同,最后由教师打分。实践证明这是一种很好的评分方法。如果加上奖励品,效果会更佳。

4)个别化教育计划评分(IEP Grading

这种方法根据学生完成了多少个别化教育计划中的教育目标来评分。教师根据个别化教育计划中每一个教育目标的评估标准,检查学习进度,然后评分。这种以学生完成了多少个别化教育计划中的教育目标为依据的评分被认为是比较理想和合理的。

由此可见,教师在评分时要找到一种合适的评分方法有不少选择。有时还可以把两个或更多的评分方法合起来使用。选择时要考虑学生的能力、兴趣、行为和教育目标。最后,随班就读学生的老师要注意以下三点:

一、在选择使用评分标准和评分方法时,普通教育老师和特殊教育老师要共同决策,互相配合。

二、选择何种评分标准和评分方法,以及由谁负责评分必须在教学开始就决定,而且写入个别化教育计划。

三、标准和评分方法必须因人而异,不要一刀切,才能满足残疾学生的特殊需要。

          

附录

学生作业改进计划表

学生姓名:

老师姓名:

作业名称:

日期:

作业的长处:

(由老师填写)

需要改进的地方:

(由老师填写)

学生本人想法:

(由学生填写)

完成情况

(由老师填写)


学习合同

我(姓名              )决心认真学习,争取完老师(姓名                  )布置的考试。 

 

              老师同意在以下几个方面帮助我:

 

1                                                                                                                          

2                                                                                                                          

3                                                                                                                           

 

在老师的帮助下,我决心做到以下几点:

1                                                                                                                         

2                                                                                                                          

3                                                                                                                           

 

                老师会经常和我一起检查我的进步情况,并把我的情况及时和我的家长交流。 

 

我将在(日期)                  达到我的目标。

 

签名:

学生                                                       老师                    家长               

 

学习改进计划

学生姓名                       

学习目标                                                          

 

阅读

好的方面                                                              

需加强的方面                                                         

 

数学                

平均分数:                考试                    平时作业             

好的方面                                                                 

需加强的方面                                                            

其他目标                                                                 

 

个人行为和其他兴趣爱好:                                                    

 

您的孩子有以下优点:                                                                                                 

 

尚需加强的方面                                                                                                              

                                                                                                                                         

 

我们需要您在家里从以下几方面帮助您的孩子:

                                                                                                                                         

                                                                                                                                          

 

测试工具参考

以标准为依据的测试:

1Brigance Diagnostic Inventory of Early Development-Revised (Birth to age 7)

2Brigance Diagnostic Inventory of Essential Skills (1981) (Grade 6 to adult       education).

3Brigance Diagnostic Comprehensive Inventory of Basic Skills-Revised (1999)  (Pre-K to Grade 9).

 

以常模为依据的测试:

1.    Woodcock-Johnson III Test of Achievement (2001) ((Ages 2 to 90, Grades K to 12, college).

2.Keymath Revised 3 (2007) (Grades K-12, Ages 5 to 21).

 

(作者沈泓一九九一年赴美国伊利诺斯大学攻读特殊教育,获得硕士博士学位。一九九九年起任教于美国加利福利亚州立大学佛来斯诺分校,培训特殊教育教师,聘为终身教授。