为什么测试的可靠性和有效性很重要?

"测试的可靠性 "和 "有效性 "是语言测试中最容易被误解的两个术语。这两个词对于确定某一测试在特定情况下是否合适非常重要。

测试可靠性的定义

简单地说,信度是指如果对同一个学生进行同样的测试,他/她会得到同样的分数。要做到这一点并不容易。对于计算机评分的阅读和听力试题(项目),测试开发人员需要对项目进行统计分析。这一过程称为心理测量分析。这种分析是根据一些应试者的数据进行的,这些应试者最好具有不同的技能水平。如果该项目是一个好项目,那么分析结果就会证实,它能始终如一地辨别出应试者的准确水平。换句话说,如果这是一个中等偏低的项目,那么新手水平的应试者就会一直做错,而中等及以上水平的应试者就会一直做对。一个项目的这种表现越稳定,它在区分应试者语言技能方面的能力就越强。分析将把每个项目放在一个从易到难的频谱上。分析结果表明,并非所有的中低级题目都是一样的,同一级别中的某些题目要比其他题目难。在编制测验时,需要考虑到同一等级中的难易程度。如果计算机评分测验是由一套精心设计的、经心理测量学认定为优秀的项目组成,那么它就应该是对这些技能的高度可靠的测验。

测试评分员为何重要

尽管有一些由计算机评分的写作和口语测试,但一般来说,要创建一个可靠的口语和写作测试,需要非常一致的人工评分。首先,需要有几个评分者对测试进行评分,这样才能测量评分的可靠性。评分的一致性程度是通过计算所谓的 "评分者间信度"(IRR)来确定的。换句话说,就是不同评分者之间评分的可靠一致性。如果 IRR 高,则说明测试的可靠性高,可以信赖测试分数的准确性。

测试有效性的定义

有效性则不那么精确或科学。简单地说,如果一个测试所测量的东西与它的用途相符,那么它就是有效的。如果教师想知道学生是否记住了他们的法语单词作业,他会给他们出一套关于作业的问题。他(她)不会问他们有关中国历史的问题。如果你想衡量学习者的语言水平,你应该向他们提出他们没有专门准备的、不同程度的实际问题,以了解他们的语言能力。 这才是衡量应试者完成实际任务能力(=熟练程度)的有效方法。

关于Avant评估

Avant’s mission is to improve the teaching and learning of language in the US and around the world through effective language proficiency testing and professional development. Our products are not only for educators but also for business and government agencies that see the significant positive impact from bilingual team members.

单击此处,开始您的熟练之路

您可能喜欢的文章