什么是计分制?

当测验开发者向最终用户(学校管理者、教师、家长、考生本人或其他潜在的分数使用者)报告测验分数时,重要的是所报告的数字分数的含义要清晰易懂。否则,测试分数还有什么意义?

考试成绩有很多种。

例如,有些测验的分数是以正确人数或正确百分比来报告的。当每个考生都参加完全相同的测验时,这种报告方式就很有用,比如线性固定形式测验。

然而,Avant STAMP(基于标准的 能力 测评)测评采用了更现代的心理测量和测试开发方法,不是 线性测试。所有 STAMP 阅读和听力测试都是计算机自适应的,这意味着测试的难度会根据每个应试者的估计语言能力进行实时调整。这样就能更准确地测量应试者的语言水平,并为应试者提供比线性测试更愉快的体验,因为应试者不会遇到大量大大低于或高于其实际水平的题目。只有通过一种叫做 "项目-反应理论(IRT)"的心理测量技术,才能实现这种强大的测试组装和部署方法。在 IRT 中,每一个测试项目(又称测试问题)都与经过科学测量的难度水平相关联。就 STAMP 而言,测试中每个项目的难度都是通过对数百名(在许多情况下是数千名)有代表性的应试者的回答进行 IRT 分析计算出来的。这样,我们就可以对题目的难度进行校准,确保每次 STAMP 测试都只使用最好的题目。     

STAMP 计分算法也会利用这些题目难度信息,根据应试者在测验中尝试的题目、他们对每个题目的反应,以及应试者为达到 STAMP 各等级所需的能力(后者是通过一个称为标准设定的过程来确定的),计算出每个应试者的最终 STAMP 等级。 因此,考虑到 STAMP 评估的适应性,以及每个项目都有一定的统计难度,用正确率(如 30 分中的 23 分)或正确率(76.6%)来报告 STAMP 分数既没有意义,也不恰当。

正如我们即将讨论的那样,构成 Avant STAMP 测验开发和评分统计基础的项目反应理论(IRT)所使用的评分量表,对 STAMP 测验的最终用户来说并不十分直观。例如,IRT 量表既有负值,也有正值。如果在分数报告上告诉受测者,他们在德语 STAMP 4S 测试中的阅读能力是-1.4,这对受测者是没有帮助的,而且也违反了上述关于分数要清晰易用的要求。因此,有必要将基于 IRT 的 STAMP 分值转换为更有意义、更易于解释的分数等级。分值表基本上是一个潜在测量值的范围,测试开发人员在报告分数之前,必须确定分值表的参考点。

了解比例尺的参考点

读者可能熟悉的三种温标是摄氏温标、华氏温标和开尔文温标。虽然这三个都是温标,但它们的参照点和解释却大相径庭。用于报告语言能力分数的不同标度也是如此。

在摄氏度表中,0 ℃ 表示水在海平面上结冰的测量点,而摄氏度表中可能的最低测量值是 -273.15 ℃,即物质中没有任何分子活动的测量点。然而,在华氏度表上,海平面上水结冰的测量点是 32 华氏度,而不是0 华氏度。在华氏度表上,-459.67 华氏度表示物质中没有分子活动时的最小测量值。我们可以看到,无论是摄氏度还是华氏度,零实际上都不意味着完全没有任何东西。它只是一个参考点,只有在完整的刻度及其可能的、可达到的值中才有意义。

在温标中,唯一有真正零点的标度是开尔文标度。在开尔文标度中,0 K 测量点实际上意味着完全没有分子活动,0 标志着开尔文标度中可能存在的最小值。因此,在开尔文标度中,负值是不可能存在的,这一点与摄氏和华氏温度标度(以及我们即将看到的 IRT 温度标度)不同。 这三种温标的最大值都没有实际限制,因为没有已知的热度限制。

现在,我们真的能说一种比另一种更好吗?其实不然。这三种量表本身都是完全有效的,并且在不同的环境中被广泛使用,根据具体环境的不同,用户会认为某些量表更合适。不过,有一点将这三种刻度联系在一起,并使它们完全适用于精确测量,那就是刻度中任何两个测量点之间的距离都表示相同的温差。换句话说,35 ℃ 和 37 ℃ 之间的分子活度差与 89 ℃ 和 91 ℃ 之间的分子活度差完全相同。Avant 公司认为,这一特性是良好测量的核心,当然,我们也将其用于 STAMP 评分。

尽管我们可以通过观察上述三个熟悉的温度量表,来了解它们在特定情况下是如何适合于测量诸如温度这样的构念的,但重要的是要明白,它们所具有的一些特征使它们不适合于测量诸如语言熟练程度这样的构念。例如,人们几乎不可能解释什么是语言能力,也不可能解释一个人的语言能力怎么可能为零;即使是一个以前从未学习过或接触过某种语言的人,至少也会对该语言的借词有一些(尽管是最低限度的)了解。任何语言能力测试都不能声称某人的语言能力为零,因为特定的测试不可能评估一个人在所有可能的情况下对语言中的某个单词或短语表现出一些理解,哪怕是非常基本的理解。所有的语言测试都受到测试项目及其所能测量的范围的限制,这就意味着语言测 试可能没有测量的零点,但可能有测量的最低点,即测试不能提出任何要求的最低点。这同样适用于测试的最高参考点;无论测试包含多少项目,它都不可能测出一个人的全部语言能力。因此,像 STAMP 测试这样的语言能力测试的有效量表将有一个最低参考点(用于答错所有测试项目的应试者),没有零参考点,也有一个最高参考点(用于答对所有测试项目的应试者)。

IRT 测量和 STAMP 分数

如上所述,重要的是,用于报告语言能力测试分数的量表中的等间隔表示语言能力的相同差 异。如下所示,STAMP 测试的所有级别(1 - 9 级)都与 ACTFL 能力级别(从低级到高级)一致:

尽管 STAMP 的等级与 ACTFL 的能力等级一致,尽管 ACTFL 的能力等级可以用来说明应试者的语言能力的总体水平,但是 ACTFL 的等级本身并不符合我们所寻求的数字标度分数的类型。首先,ACTFL(因此也是 STAMP)等级中的区间差异的含义与量表上的点数不同 。例如,从中级高分(STAMP 6 级)升至高级低分(STAMP 7 级)所需的语言能力比从新手高分(STAMP 3 级)升至中级低分(STAMP 4 级)所需的语言能力要高。正因为如此,能力等级被描绘成倒金字塔形,而不是正方形或长方形。其次,尽管能力水平等级可以说明某个语言学习者所处的语言能力水平,但在 STAMP 测试中,得分在同一水平的学生的语言能力实际上可能略有不同,他们在 STAMP 测试中答对的题目数量也可能不同,即使他们碰巧通过 STAMP 自适应算法看到了完全相同的题目。因此,尽管 STAMP 和 ACTFL 水平对于了解应试者的语言水平非常有用,但这些水平并不像我们测试成绩的某些最终用户所希望的那样精细。

例如,一所学校的法语阅读特别荣誉班可能只有 10 个名额。如果有 14 名学生的阅读能力达到 STAMP 9 级,该怎么办?学校如何从 14 名学生中挑选 10 名进入荣誉班?随机抽取 10 名学生可能被认为是一个可以接受的解决方案,但在这种情况下,Avant Assessment 可以提供更好、更准确的帮助。如上所述,Avant Assessment利用一种名为 "项目反应理论"(Item Response Theory )的统计测量技术来校准(自适应)STAMP测试中阅读和听力部分的所有项目,将应试者在其特定测试路径中做对的题目数量与STAMP水平相匹配,并因此与ACTFL水平相匹配,最后生成标度分数,为分数使用者提供对每个应试者语言能力的更精细的衡量,而如果只报告STAMP水平,则无法做到这一点。

按比例计算 STAMP 分数

一旦STAMP测试特定部分的所有项目都通过IRT校准,我们就可以根据每个学生在STAMP测试的阅读和听力部分的特定路径中做对或做错的项目,为他们分配一个IRT能力估计值(在IRT术语中也称为theta )。有了这个值之后,我们就可以对这个值进行缩放 (因此称为 "分数缩放"),这样我们就可以报告更精细的分数,以补充报告所达到的 STAMP 水平。通过对 IRT 分数进行缩放,我们可以确保所有的缩放分数都是正值(没有负值),即使学生的 STAMP 水平恰好相同,分数使用者(如上述假设的法国学校)也能更深入地了解学生的能力。

每项 STAMP 测试的阅读和听力部分都必须单独计分。因此,西班牙语阅读的标度分数不能直接与西班牙语听力的标度分数或中文阅读的标度分数进行比较。换句话说,STAMP 标准分是针对特定语言和部分的。

我们通过简单的线性变换对每项测试的阅读或听力部分的 IRT 分数进行缩放,如下式所示:

上述比例尺确保了 STAMP 测验中某一部分的所有可能的标度分数都是不带小数点的正数,这比 IRT 更为典型的从 - 4 到 + 4 的分数要直观得多。上式中的线性标度也确保了任何两个标度分数之间的距离都表明在标度的任何一点上存在相同的能力差异。

比例分数的解释

假设有以下学生参加了日语 STAMP 4S 测试的听力部分:

  • 学生 A比例分数:589
  • 学生 B的比例分数:612
  • 学生 C的比例分数:677
  • 学生 D的比例分数:700

学生 A 学生 B的日语听力水平差异(23 分)与学生C 学生 D的日语听力水平差异(23 分)相同。如果两名学生的日语听力达到了相同的 STAMP 水平(例如,STAMP 水平 4 - 中低级),但其中一人的标度分比另一人高出 20 分,那么我们就有充分的理由相信,标度分较高的学生比标度分较低的学生的日语听力水平更高。他们的标度分之间的差异越大,我们就越有信心认为这种差异是有意义的,这两个学生的能力确实不相上下。如果学生经过一年的学习似乎没有进步,"停留 "在同一水平上,那么标度分数也是有用的。将他们一年前的标度分数与本次考试的标度分数进行比较,可能会发现他们的熟练程度略有提高,即使这种提高不足以使他们进入下一个 STAMP 等级。

但有一点必须牢记: 所有评估的分数都有一定的测量误差。例如,ETS 报告的托福 iBT 听力部分的标准测量误差(SEM)为 2.38 分(Educational Testing Services, 2018),其分数范围为 0 - 30 分。而 SAT 部分的分数范围为 200 - 800,测量的标准误差为 30 分(College Board,2018)。由于不可能在许多不同的日子里对每个学生进行评估,也不可能对数百个考试项目进行评估,因此每次考试成绩都是特定考生在参加考试的特定日子里所能维持的水平的缩影,也是他们在考试过程中所回答的特定项目的缩影。自然,像 STAMP 4S 这样的测试,其阅读和听力部分是计算机自适应的,其中包括大量针对每个应试者实时估计水平的项目,并且是按照严格的定性和定量标准开发的,因此其测量误差往往较小,比不遵循同样严格标准的短小、非自适应、线性测试更有效、更高效(Schultz, Whitney, & Zickar, 2014)。STAMP 测试中阅读和听力部分的标度分数的平均测量标准误差为 10 分。我们在 Avant 采用的 IRT 软件很容易得出这一统计结果。

鉴于我们测试的心理测量严格性和适应性,与 STAMP 比例分数相关的测量误差非常小。尽管我们建议主要根据所达到的 STAMP 水平来进行测验分数分析,但 Avant 公司建议,在根据 STAMP 测验分数做出更高的决定的非常特殊的情况下,例如,当 STAMP 分数被用来授予国家双语印章(SSB)或通过考试授予学分(CBE)时,可以考虑比例分数。在这种高风险的情况下,如果应试者的阅读或听力的标度分数恰好与使他们有资格获得 SSB 或 CBE 的最低标度分数相差 10 分或更少,Avant 的立场是,学校或学区可以自行决定让这些应试者重新参加 STAMP 考试(鉴于其适应性,应试者很有可能不会看到与上一次考试完全相同的项目)。如果在第二次施测中,应试者的标度分数使 STAMP 水平达到了 SSB 或 CBE 的要求,Avant 的立场是,可以用第二次施测的分数代替第一次施测的分数。

上面讨论的两种情况属于高风险情况,在这种情况下,可能需要考虑测试的微小误差 (请记住,所有 测试有误差范围)。

我们建议,将 STAMP 标度分数用于传统用途,如用于持续的年度分析或学生的成长以及计划评 估,通常是合适的。

要查看 STAMP 评估目前可用的比例分数表,请单击此处

参考资料

美国大学理事会(2018 年)。SAT:了解分数。取自https://collegereadiness.collegeboard.org/pdf/understanding-sat-scores.pdf

美国教育考试服务中心(2018 年)。托福 iBT 成绩的可靠性和可比性。TOEFL Research Insight Series (vol. 3). 取自www.ets.org/s/toefl/pdf/toefl_ibt_research_s1v3.pdf

Schultz, K. S., Whitney, D. J., & Zickar, M. J. (2014).测量理论在行动。案例研究与练习》(第 2 版)。伦敦/纽约:Routledge.College Board (2018).SAT:Understanding Scores.取自https://collegereadiness.collegeboard.org/pdf/understanding-sat-scores.pdf

美国教育考试服务中心(2018 年)。托福 iBT 成绩的可靠性和可比性。TOEFL Research Insight Series (vol. 3).取自www.ets.org/s/toefl/pdf/toefl_ibt_research_s1v3.pdf

Schultz, K. S., Whitney, D. J., & Zickar, M. J. (2014).测量理论在行动。案例研究与练习》(第 2 版)。伦敦/纽约:Routledge.

已更新: