摘要

STAMP 4S 和 STAMP WS 测评是 STAMP(基于标准的能力测评)系列的一部分,包括写作和口语部分。可靠而准确的分数对于验证这些测试的预期用途至关重要。

本文介绍了最近对五种 STAMP 4S 语言(阿拉伯语、西班牙语、法语、简体中文和俄语)和三种 STAMP WS 语言(阿姆哈拉语、海地克里奥尔语和越南语)在写作和口语部分的评分进行分析的结果。

该分析包括 23,000 多份答卷,显示写作和口语部分的评分准确性和可靠性都很高,有力地支持了这些分数在预期目的上的有效性。

STAMP 的写作和口语部分

STAMP系列测试评估真实世界的语言技能。

STAMP 4SSTAMP 4S 评估四种语言技能,并获得美国教育委员会 (ACE) 认证,目前有 15 种语言可供选择 15语言。

STAMP WSSTAMP WS 也通过 ACE 认证,测试写作口语技能,提供以下语言版本 37语言。

验证测试结果的两个关键因素是可靠性准确性。本文研究了 STAMP 测试中写作和口语部分评分的可靠性和准确性,这些评分由训练有素的评分员按0(无能力)8(中高级)的等级进行评分。

在写作和口语部分,考生要回答三个真实世界的提示,旨在展示他们的语言技能。每个回答都由经过严格培训和持续监控的认证评分员独立评分,以确保一致性和质量。

通常情况下,80% 的回复由一名评分员评分,其分数即为正式分数。在 20% 的情况下,至少有两名评分者对一个回答进行评分,如果出现分歧,则由经理介入。评分是独立进行的,对其他回答或分数一无所知,从而确保结果公正。

考生写作或口语的最终分数取决于他们在三项提示中的两项所能持续表现出的最高水平。

STAMP 精确度评分程序表。
图 1.得出考生写作和口语部分 STAMP 最终等级的系统规则

如图 1 所示,应试者的正式 STAMP 等级是由他们在三次作答中至少有两次能够持续表现出的最高等级决定的。例如,如果应试者的第一个回答是"中级新手",第二个回答是 "高级新手",第三个回答是 "高级新手",那么他们的最终 STAMP 等级就是STAMP 3(高级新手)。另一种情况是,如果他们的第一次答卷得分是中低,第二次答卷得分是 ,第三次答卷得分是中中,那么他们的最终等级就是中低,因为这是他们两次(第一次和第三次答卷)维持的最高等级。

在 STAMP 的写作和口语部分使用三个独立的提示有两大好处:

  1. 主题覆盖面更广:对不同主题的考生进行评估,可确保所评定的能力水平更有可能适用于其他实际情况。
  2. 尽量减少评分者偏差:与评分方法相结合,使用多重提示有助于减少个别评分者可能出现的评分偏差。

接下来,我们将讨论可靠性和准确性的定义。

可靠性

信度是指测量的一致性(Bachman & Palmer, 1996)。简单地说,它是指如果考生在不同时间再次参加测试或参加不同版本的测试,假定他们的能力没有改变,我们对测试分数保持不变的信任程度。

例如,如果受测者今天的得分是中低,明天的得分是中高,而他们的知识或精神状态却没有任何变化,这表明测验的可靠性可能不高。同样,如果受试者在某一版本的测验中得分为高级-低级,而在另一版本的测验中得分为中级-中级,这就表明测验缺乏一致性,存在可靠性问题。

影响测验可靠性的一个因素是测验的计分方式。在STAMP考试中,阅读听力部分由多项选择题组成,由计算机自动评分。这就确保了如果考生在不同的场合提供了相同的答案,他们将始终得到相同的分数。

但是,写作口语部分由人工评分员评分。这意味着分数会因评分者的不同而不同。如果评分人员训练有素,我们预计分数差异会很小,从而减少宽松、严格或潜在偏见的影响。

准确性

应试者希望他们的分数只反映他们在所测结构(在 STAMP 中为每个语言领域的熟练程度)中的熟练程度。

准确性是指所给分数在多大程度上代表了考生的真实能力。例如,如果应试者提交的口语答辩达到中高级水平,但从两位评分者那里得到的分数却是中低级,那么这个分数就是不准确的。即使两个月后另外两名评分员给出了中低分,该分数虽然可靠(因为它在不同评分员和不同时间段内都是一致的),但仍然是不准确的。

图 2说明了可靠性和准确性之间的区别。理想情况下,测验应该既可靠又准确,因为这样才能确保分数的有效性及其预期用途。

带说明的高级图像
精确与可靠的改进图表

图 2:可靠性和准确性(来源:Matrix Education)

常用于评估评分者评分可靠性和准确性的统计数据

当答卷由人工评分员进行评分时(如STAMP 的情况),确保评分反映答卷本身的质量而不是评分员的特点至关重要。换句话说,分数应完全取决于应试者表现出的熟练程度,而不是取决于评分者的宽松、严格或偏见。

语言测试提供者经常使用统计数据来说明评分者的不同会导致分数的差异。通常情况下,这需要比较两个不同评分者对同一答案的评分。理想情况下,评分者的意见应尽可能一致,这表明评分过程是可靠的。

然而,可靠性还必须伴随着准确性。两个评分者可能会给出相同的分数,但也可能都不正确。在一个完善的测验中,评分者的目标是在评分时始终保持一致和准确。

人类评定者之间的完全一致并不总是现实的。尽管接受过培训并具备专业知识,但即使是合格的评分员有时也会出现分歧--就像医生、工程师或科学家一样。我们的目标是实现高度的一致性,同时考虑到评分的预期用途,这种一致性是站得住脚的。

以下是Avant Assessment用来评估评级人员提供的评级质量的统计指标。虽然许多公司只报告精确一致和相邻一致,但我们评估了其他措施,以全面了解评级质量。本文报告的衡量标准包括

确切协议:

该指标以百分比的形式报告,表示在所分析的整个数据集中,评分者 1 对给定答卷的评分等级与评分者 2 对给定答卷的评分等级完全相同时所占的百分比。例如,如果评分者 1 对某一反应评定了 STAMP 5 级,而评分者 2 也对同一反应评定了 STAMP 5 级,这将被视为完全一致的情况。Feldt 和 Brennan(1989 年)建议,在使用两名评分员时,精确一致度至少应达到 80%,70% 的精确一致度在实际操作中是可以接受的。

该指标以百分比的形式报告,显示在整个数据集中,评分者 1 和评分者 2 给出相同等级的频率。例如,如果两个评分者都将STAMP 级别定为 5,则算作完全一致。根据 Feldt 和 Brennan(1989 年)的说法,精确一致度至少应达到80%,在实际操作中,70%是可以接受的。

精确 + 相邻协议:

该指标以百分比的形式报告,显示在整个数据集中,评分者 1 和评分者 2 对某一回答给出相同或相邻等级的频率。

例如,STAMP 5 级4 级6 级相邻。如果评分者 1 给出了第 4级,评分者 2 给出了第 5 级,由于这两个级别相邻,因此也算在这一测量中。根据 Graham 等人(2012 年)的研究,当一个评分量表有超过5-7 个等级时,如STAMP量表,精确+相邻的一致性应接近90%

二次加权卡帕(QWK)

Cohen's kappa (𝜅)衡量两个评分者之间的可靠性,同时考虑到偶然一致的可能性。例如,在STAMP 9 分量表(从0 级到 8 级)中,两个评分者在评分上达成一致的概率为11.11%。在 Avant在计算 kappa 时,我们还使用了二次加权法,即分数之间的差异越大,惩罚越重。例如,STAMP 3 级7 级之间的差异比3 级4 级之间的差异问题更大。

Williamson 等人(2012 年)建议二次加权卡方值(QWK)应≥0.70,而Fleiss(2003 年)则指出,高于0.75 的值表示超出偶然的极佳一致性。QWK值为0意味着完全出于偶然的一致,而值为1则表示完全一致。

标准化平均差 (SMD)

该指标显示两个评分者使用评分量表的相似程度。它比较的是两组分数(评分者 1 与评分者 2)的平均值之差,并以这些分数的集合标准差进行标准化。理想情况下,两位评分者都不应偏好或回避量表中的某些等级(例如,回避STAMP 0STAMP 8)。换句话说,两位评分者都应使用量表的全部范围(STAMP 0 - STAMP 8),分数应反映出回答中表现出的熟练程度。该指标的建议值为 ≤0.15(Williamson 等人,2012 年),表明两组分数的分布相似度可以接受。

斯皮尔曼等级相关性 (ρ)

这一指标显示了两个变量之间的关联强度:评定者 1 评定STAMP 等级评定者 2 评定的等级。如果评分者训练有素,并且理解评分标准,我们就会期望两位评分者给出相似的等级--这意味着分数应该一起移动。换句话说,当评分者 1给出高分时,评分者 2也应给出高分,这反映了对同一结构的一致评价。

我们使用斯皮尔曼秩相关系数而非皮尔森 相关系数,是因为斯皮尔曼 相关系数更适用于序数数据,如STAMP 能力水平。在大多数领域,0.80或以上的相关系数被认为是强相关系数(Akoglu,2018)。

相差 2 个 STAMP 级别

该指标以百分比表示,显示对同一答复的两个评分相差两个 STAMP 等级的频率(例如,评分者 1给出的STAMP 等级为 4,而评分者 2给出的STAMP 等级6)。

Avant 不同语言评分员评分的可靠性和准确性

现在,我们将重点放在STAMP 4SSTAMP WS写作口语部分的评分质量上,并考虑上述几种代表性语言的统计数据。下面,我们将根据两组不同的比较结果进行介绍:

评分者 1 与评分者 2

在至少由两名评定者评定的众多答卷中,我们将评定者1评定的STAMP 等级与评定者2评定的STAMP 等级进行了比较。这种比较证明了两名随机分配的评分者所做评分的可靠性。 Avant评分者的评分的可靠性。如前所述,两名评分员可能会在评分上达成一致,但两人的评分仍可能不正确。因此,我们不包括评分者 1评分者 2 之间的精确一致性测量。相反,我们将重点放在精确+邻近一致上,并将评分者 1(80% 的时间都是独自评分)的评分与官方评分进行比较,以报告准确度。

评分人 1 与官方评分

为了评估Avant 评分者所打分数的准确性,我们分析了由两名或两名以上评分者对一个答卷进行评 分的情况。我们将官方评分(由所有个人评分得出)与评分者 1单独给出的评分进行比较。这有助于说明当只有一名评分员参与评分时(80%的情况下都是如此),对某一答复的评分准确度如何。

表 1 和表 2列出了五种具有代表性的STAMP 4S语言的写作口语部分的统计量。

表 1

测量阿拉伯语西班牙法国简体中文俄罗斯
数据集中的回复数量n = 3,703n = 4,758n = 4,785n = 4,766n = 3,536
完全一致(评分人 1 与官方评分对比)84.8%84.15%83.66%88.46%92.17%
完全一致+相邻一致(评分人 1 与官方评分对比)96.78% (98.62%)99.09% (99.79%)99.22% (99.79%)99.79% (99.91%)99.71% (99.88%)
二次加权卡帕 (QWK)(评分者 1 与官方评分对比)0.93 (0.96)0.91 (0.95)0.91 (0.95)0.95 (0.96)0.95 (0.97)
标准化平均差 (SMD)(评分者 1 与评分者 2 的比较)0.00 (0.01)0.00 (0.00)0.00 (0.00)0.00 (0.00)0.00 (0.00)
斯皮尔曼秩相关性 (R)(评分者 1 与官方评分对比)0.94 (0.96)0.90 (0.95)0.91 (0.95)0.95 (0.97)0.94 (0.97)
相差 2 个 STAMP 等级(评分人 1 与评分人 2)2.80% (1.24%)0.90% (0.20%)0.77% (0.20%)0.00% (0.00%)0.28% (0.11%)
表 1.五种具有代表性的 STAMP 4S 语言写作部分的评分者信度和准确度统计。

表 2

测量阿拉伯语西班牙法国简体中文俄罗斯
数据集中的回复数量n = 3,363n = 4,078n = 4,530n = 4,651n = 3,392
完全一致(评分人 1 与官方评分对比)84.96%80.37%80.19%82.24%88.30%
完全一致+相邻一致(评分人 1 与官方评分对比)96.07% (98.13%)98.13% (99.29%)98.54% (99.47%)99.31% (99.76%)98.99% (99.94%)
二次加权卡帕 (QWK)(评分者 1 与官方评分对比)0.92 (0.95)0.92 (0.96)0.91 (0.95)0.94 (0.95)0.92 (0.96)
标准化平均差 (SMD)(评分者 1 与评分者 2 的比较)-0.02 (0.01)0.00 (0.00)-0.01 (0.02)0.00 (0.00)-0.01 (-0.01)
斯皮尔曼秩相关性 (R)(评分者 1 与官方评分对比)0.93 (0.96)0.91 (0.95)0.92 (0.95)0.94 (0.96)0.91 (0.95)
相差 2 个 STAMP 等级(评分人 1 与评分人 2)3.27% (1.42%)1.74% (0.00%)1.39% (0.00%)0.00% (0.00%)1.01% (0.00%)
表 2.五个具有代表性的 STAMP 项目口语部分的评分者信度和准确度统计

表 3 和表 4 显示了三个
具有代表性的 STAMP WS 语言的写作和口语部分的统计量。

表 3

STAMP 精确度表 3.
表 3.三种具有代表性的 STAMP WS 语言写作部分的评分者信度和准确度统计。

表 4

STAMP 精确度表 4
表 4.三种具有代表性的 STAMP WS 语言口语部分的评分者信度和准确度统计。

讨论

高水平的可靠性和准确性是测验分数的有效性及其预期用途的基础。然而,在可靠性和准确性方面,什么是可接受的最低限度,将取决于具体领域(医学、法律、体育、法医、语言测试等)、对特定考生的一系列回答给予不准确等级的后果以及等级量表本身。例如,评分量表的类别越多,一致程度就越低。换句话说,如果两个评分者必须从十个可能的等级中选择一个来评分,那么他们之间的分歧就会比只从四个可能的等级中选择一个来评分的分歧要大。

上述 STAMP 4S 和 STAMP WS 中写作和口语部分的统计数据显示,这两个部分的信度(评分人 1 与评分人 2 的分数对比)和准确度(评分人 1 与官方分数对比)都很高。在所评估的八种语言中,评分者 1 和评分者 2 之间的精确+邻近一致所显示的信度总是最低的(通常要高得多),写作为 96.78%,口语为 96.07%。此外,很少出现两个评分者的评分相差两个 STAMP 等级以上的情况。从评分者 1 的评分和官方评分之间的精确一致统计来看,所有八种语言的准确度水平都很高,其中写作的精确一致率最低为 83.66%(但通常要高出很多),口语的精确一致率最低为 80.19%,写作的精确+邻近一致率最低为 98.62%,口语的精确+邻近一致率最低为 98.13%。二次加权卡帕(QWK)值显示,评分者 1 与评分者 2 之间以及评分者 1 与官方评分之间的一致性都非常高,而评分者 1 与评分者 2 之间以及评分者 1 与官方评分之间的相关性也非常高。最后,SMD(标准化均值差异)系数表明,Avant 评定员使用 STAMP 量表的方式非常相似。

上述统计数据证明,Avant Assessment 的评分员遴选和培训计划质量很高,也证明了我们在确定可能需要从评分员库中暂时删除并进行有针对性培训的操作评分员时所采用的方法。它表明,当任何两名评分员在给某一答卷指定的 STAMP 等级上可能存在差异时,这种差异很少会超过一个 STAMP 等级,在绝大多数情况下,两名评分员都会指定完全相同的等级。再加上考生在 STAMP 写作或口语部分的最终正式分数是基于他们在三个独立提示中的 STAMP 单项分数这一事实,本文的结果提供了有力的证据,证明考生在 STAMP 写作和口语部分的最终分数是可靠的,可以准确地反映他们在这两个领域的语言能力水平。

参考资料

Akoglu, H. (2018).相关系数用户指南》。土耳其急诊医学杂志》,18(3),91-93。

Bachman, L. F., & Palmer, A. S. (1996).Language Testing in Practice:Designing and developing useful language tests (Vol. 1).牛津大学出版社。

Feldt, L. S., & Brennan, R. (1989).Reliability.In R. L. Linn (Ed.), Educational measurement (3rd ed., pp. 105-146).New York:New York: Macmillan.

Fleiss, J. L., Levin, B., & Paik, M. C. (2003).率和比例的统计方法》。3rd ed. Wiley.

Graham, M., Milanowski, A., & Miller, J. (2012)。衡量和促进
教师和校长绩效评分的评分者之间的一致性。

Matrix Education (2022)。物理实践技能第二部分:实验的有效性、可靠性和准确性》。 2022 年 8 月 11 日检索(点击此处转至来源)。

Williamson, D. M., Xi, X., & Breyer, F. J. (2012).自动
评分的评估和使用框架。教育测量:问题与实践》,31(1),2-13。

已更新: