为什么测试的可靠性和有效性很重要?
测试可靠性的定义
简单地说,信度是指如果对同一个学生进行同样的测试,他/她会得到同样的分数。要做到这一点并不容易。对于计算机评分的阅读和听力试题(项目),测试开发人员需要对项目进行统计分析。这一过程称为心理测量分析。这种分析是根据一些应试者的数据进行的,这些应试者最好具有不同的技能水平。如果该项目是一个好项目,那么分析结果就会证实,它能始终如一地辨别出应试者的准确水平。换句话说,如果这是一个中等偏低的项目,那么新手水平的应试者就会一直做错,而中等及以上水平的应试者就会一直做对。一个项目的这种表现越稳定,它在区分应试者语言技能方面的能力就越强。分析将把每个项目放在一个从易到难的频谱上。分析结果表明,并非所有的中低级题目都是一样的,同一级别中的某些题目要比其他题目难。在编制测验时,需要考虑到同一等级中的难易程度。如果计算机评分测验是由一套精心设计的、经心理测量学认定为优秀的项目组成,那么它就应该是对这些技能的高度可靠的测验。
测试评分员为何重要
尽管有一些由计算机评分的写作和口语测试,但一般来说,要创建一个可靠的口语和写作测试,需要非常一致的人工评分。首先,需要有几个评分者对测试进行评分,这样才能测量评分的可靠性。评分的一致性程度是通过计算所谓的 "评分者间信度"(IRR)来确定的。换句话说,就是不同评分者之间评分的可靠一致性。如果 IRR 高,则说明测试的可靠性高,可以信赖测试分数的准确性。
测试有效性的定义
有效性则不那么精确或科学。简单地说,如果一个测试所测量的东西与它的用途相符,那么它就是有效的。如果教师想知道学生是否记住了他们的法语单词作业,他会给他们出一套关于作业的问题。他(她)不会问他们有关中国历史的问题。如果你想衡量学习者的语言水平,你应该向他们提出他们没有专门准备的、不同程度的实际问题,以了解他们的语言能力。 这才是衡量应试者完成实际任务能力(=熟练程度)的有效方法。
关于Avant 评估
单击此处,开始您的熟练之路