摘要
STAMP 4S 和 STAMP WS 测试属于 STAMP(基于标准的能力测评)系列测评,包括写作和口语部分。鉴于其预期用途和解释,这些部分分数的有效性的一个重要证据来自于这些分数在多大程度上可以被证明是可靠和准确的。
在本文中,我们展示了最近对五种具有代表性的 STAMP 4S 语言(阿拉伯语、西班牙语、法语、简体中文和俄语)和三种具有代表性的 STAMP WS 语言(阿姆哈拉语、海地克里奥尔语和越南语)的写作和口语部分的评分进行分析的结果。
根据对这八种语言 23,000 多份考生答卷的分析,结果表明 STAMP 的写作和口语部分都具有很高的评分准确性和可靠性,从而有力地证明了这些部分的分数在其预期的解释和用途方面的有效性。
STAMP 的写作和口语部分
STAMP 的写作和口语部分 STAMP 系列测试(基于标准的语言能力测量)评估真实世界的语言能力,并与 ACTFL 能力指南保持一致。STAMP 4S测试是由美国教育委员会 (ACE) 认可的四项语言能力测试,在撰写本报告时有 14 种语言版本。 STAMP WS 也得到了 ACE 的认可,是对写作和口语两种语言能力的测试,在撰写本报告时有 24 种语言版本。 考虑到一项测试所要测量的内容以及这些测试成绩的预期用途,在评估一项测试的 成绩在多大程度上可以说是有效时,有两个重要因素,即测试成绩的可靠性和准确性。
在这篇短文中,我们将讨论并研究 STAMP 写作和口语部分评分的可靠性和准确性。在这两个部分中,经过培训的人类评分员必须为受试者的语言成果评定 0(无水平)到 8(中高级)之间的 STAMP 等级。
在 STAMP 考试的写作和口语部分,考生必须回答三个基于真实场景的提示。考生被要求尽可能多地写作,并尽其所能 "展示 "自己的语言技能。
考生对该部分三条提示中每一条的作答都由Avant 认证的评分员进行评分。这些评分员必须通过全面严格的培训和认证计划,才能对 STAMP 作答进行评分。在这些评分员开始对真实的、可操作的 STAMP 写作和口语作答进行评分后,Avant 及其评分员经理会通过定性和定量措施密切关注每位评分员的表现,以确保我们的评分质量,并确保每位和所有Avant 评分员的评分都符合公司的既定标准。
在 80% 的情况下,口语或写作答卷由Avant 单个评卷人评定。评审员给该答卷指定的分数/STAMP 等级将成为该答卷在系统中的正式分数。在 20% 的情况下,一份答卷至少由两名Avant 评卷人评定。当两名评分员对 STAMP 分数达成一致时,该分数即成为该答卷的正式分数。如果两名评分员意见不一致,则由Avant 评分员经理对答卷进行评分。评分经理提供的评分将成为该答卷的正式分数。对每个作答的评分完全独立于考生对其他两个作答的评分。在对给定作答进行评分时,评分员无法获得任何与考生有关的信息、他们在该技能的其他作答中的得分,也无法获得任何其他评分员对该作答的评分,所有这些都会提高每个作答评分的有效性。
考生在写作或口语部分的 STAMP 最终分数是根据他们在回答三个提示中的每一个所获得的具体 STAMP 等级来计算的。该部分获得的正式 STAMP 等级是考生在三次回答中能够保持的最高熟练程度(即至少在两次回答中表现出熟练程度)。
如图 1 所示,如果一名考生的第一次答题得分是 "新手-中等",第二次答题得分是 "新手-高",第三次答题得分是 "新手-高",那么该考生在该部分的 STAMP 正式等级就变成了 STAMP 3(新手-高),因为这是他们至少在两次答题中能够维持的最高水平。另一种情况是,如果他们第一次答题获得了中低分,第二次答题获得了新高分,第三次答题获得了中中分,那么他们在该部分的最终 STAMP 等级就变成了中低分,这也是他们至少在两次答题中(本例中为第一次和第三次答题)所能达到的最高等级。
在 STAMP 的写作部分和口语部分分别使用三个独立的提示语有两个主要优点。第一个优点是,它允许考生就不同的主题接受评估,从而支持这样一个前提,即在该部分结束时授予的熟练程度将普遍适用于现实世界中的其他情景。第二个优点是,结合上述评分方法,它有助于最大限度地减少任何Avant 个评分者可能出现的评分偏差的影响。
我们现在来谈谈可靠性和准确性的定义。
可靠性
信度可以定义为 "测量的一致性"(Bachman & Palmer, 1996)。简单地说,它是指假定受测者对测试所测内容的熟练程度在此期间没有发生变化,那么受测者在不同场合再次参加该测试或参加不同形式的测试时,其分数在多大程度上可以信赖(依靠)保持不变。
例如,如果受测者今天参加语言水平测试,得到的分数是中等偏低,但明天又在同一测试中得到中等偏上的分数,那么,只要受测者的语言知识和心理状态没有发生变化,我们就可以认为该测试的可靠性可能不高。同样,如果某机构将某项测验制成多种平行形式(通常是为了提高测验的安全性),但受测者在其中一种形式上得到的分数是高级-低级,而在另一种形式上得到的分数是中级-中级,我们就可以再次假定该测验在测量上缺乏一致性,因而存在缺乏可靠性的问题。
影响测验可靠性的因素之一是测验的评分方式。在 STAMP 考试中,阅读和听力部分由多项选择题组成,考生的回答由计算机系统自动评分。这意味着,如果考生在不同的场合对相同的题目做出相同的回答,他们将始终得到相同的分数。
另一方面,STAMP 的写作和口语部分由人工评分员评分。因此,考生的回答完全相同,却可能因评分者的不同而得到不同的分数。当然,越是训练有素的评分员,我们就越不希望因评分员的宽严不同或任何可能的偏见而造成分数的差异。
准确性
应试者期望他们在测验中的得分只取决于他们对测验所测结构(就 STAMP 而言,是对每个语言领域的熟练程度)的掌握程度。准确性是指考生的答卷得分在多大程度上正确地反映了他们在该语篇方面的能力。因此,如果应试者提交的口语答卷为中高分,但给该答卷打分的两名评分员却给了中低分,我们就可以说这是一个不准确的分数。如果另外两名评分员在两个月后对同一回答进行评分,并将其定为中低级,那么尽管评分是可靠的(在不同场合或不同评分员之间没有变化),但分数仍会再次不准确。
图 2 描述了可靠性和准确性之间的区别。当然,我们希望测验既可靠又准确。这两个条件的满足为测验分数的有效性及其预期用途提供了强有力的支持。
常用于评估评分者评分可靠性和准确性的统计数据
当考生在测验中的答卷由评卷人评分时(如 STAMP 的情况),重要的是要确保分数能反映出答卷本身的质量,而不受(或只受很小的)评卷人的影响。换句话说,分数应该只取决于某个受测者在其答卷中可能表现出多少测试所测量的建构,而不是取决于评分者可能有多么宽松、严格或有偏见。
语言测试提供者通常会提供统计数字,以说明人类评分员对考生答卷的评分在多大程度上会受到评分者的影响。在语言测试文献中,这些统计数据通常是通过比较两个不同评分者对同一篇文章的评分来提供的。我们假定,任何两名评分员都应该尽可能多地给同一篇文章打出相同的分数,这将表明评分过程是高度可靠的。
然而,正如我们在上文所看到的,可靠性必须与准确性相辅相成,而且还应对后者进行调查。毕竟,两个随机的评分者可能会给一篇文章打出相同的分数,但也可能都错了。在一个开发完善、评分准确的测试中,理想的情况是评分者之间意见高度一致,而且他们给答卷的分数也恰好是正确(准确)的。
重要的是要明白,期望两个人类评定者之间始终保持完全一致是不可行的。尽管他们每个人都可能接受过各种培训,每个人都可能对所评估的结构(在我们的例子中,就是语言能力)拥有丰富的经验和专业知识,但即使是高素质的人类有时也会出现意见分歧。医生会这样。工程师会这样。科学家也会这样。因此,我们的想法是,在可行的情况下,争取尽可能高的一致性,并且在使用和解释该测试的分数时,证明这种一致性是站得住脚的。
以下是我们Avant Assessment 对 STAMP 测试进行的统计测量,以评估我们的人类评级员团队所提供的评级质量。虽然许多公司可能只报告精确和相邻的一致性,但我们也会通过其他措施来评估我们的评级员,因为任何特定的措施都只能提供评级员质量的部分信息。包含的衡量标准越多,我们就越能对结果进行三角测量,并得出结论性的决定。我们将在本文中报告的衡量标准有
确切协议:
该指标以百分比的形式报告,表示在所分析的整个数据集中,评分者 1 对给定答卷的评分等级与评分者 2 对给定答卷的评分等级完全相同时所占的百分比。例如,如果评分者 1 对某一反应评定了 STAMP 5 级,而评分者 2 也对同一反应评定了 STAMP 5 级,这将被视为完全一致的情况。Feldt 和 Brennan(1989 年)建议,在使用两名评分员时,精确一致度至少应达到 80%,70% 的精确一致度在实际操作中是可以接受的。
精确 + 相邻协议:
该指标以百分比的形式报告,表示在整个数据集分析中,评分者 1 对给定答卷给出的等级与评分者 2 给出的等级完全相同或相邻时所占的百分比。例如,STAMP 5 级与 STAMP 4 级和 STAMP 6 级相邻。因此,如果评分者 1 将 STAMP 级别定为 4 级,而评分者 2 将 STAMP 级别定为 5 级,那么由于这两个级别相邻,因此也将计入该测量。Graham 等人(2012)建议,当评分量表有 5-7 个以上的评分等级时(如 STAMP 量表),精确+相邻的一致性应接近 90%。
二次加权卡帕(QWK)
Cohen's kappa 或 𝜿,通过考虑偶然出现一致的可能性来衡量两个评分者之间的可靠性。例如,由于 "写作与口语 "中的 STAMP 数字量表是一个 9 分量表,从 STAMP 0 级到 STAMP 8 级,因此任何两个评分者在评分上完全一致的概率为 11.11%。在Avant 网站上,除了将这种偶然的一致考虑在内,我们在计算 kappa 时还使用了二次加权法,即对相差较远的分数给予较高的惩罚。换句话说,观察到 STAMP 级别 3 和 STAMP 级别 7 之间的差异,比观察到 STAMP 级别 3 和 STAMP 级别 4 之间的差异更有问题。Williamson 等人(2012 年)建议 QWK 必须大于等于 0.70,Fleiss(2003 年)指出,对于大多数目的而言,大于 0.75 的值显示出超越偶然性的极佳一致性。QWK 值为 0 表示两组评分之间的一致性仅为偶然水平,而值为 1 则表示完全一致。
标准化平均差 (SMD)
This measure shows the extent to which two raters may be using a rating scale in a similar way. It shows the difference of the mean of two sets of scores (i.e., Rater 1 vs. Rater 2) standardized by the pooled standard deviation of those two sets. Ideally, neither rater should prefer or avoid awarding levels at a certain point of a rating scale (for example, avoid giving either STAMP 0s or STAMP 8s). In other words, both raters should make equal use of the rating scale (STAMP 0 – STAMP 8) and the scores awarded should be dependent only on the level of proficiency shown in the response itself. It is recommended that the value for this measure should be <= 0.15 (Williamson et al., 2012), ensuring that the distribution of both sets of scores is acceptably similar.
斯皮尔曼等级相关性 (ρ)
这一指标显示了两个变量之间的关联强度,在本例中就是评分员 1 评定的 STAMP 等级和评分员 2 评定的 STAMP 等级。如果评分员团队训练有素,并清楚地理解评分标准,那么每当评分员 1 给出高分时,评分员 2 也会给出高分。换句话说,如果评分者确实是在评估同一结构,我们就会预期两组分数会一起移动(向上或向下)。我们使用斯皮尔曼等级相关系数,而不是皮尔逊乘积相关系数,因为前者更适用于等级为序的情 况,如 STAMP 熟练程度等级。0.80 或以上的相关系数在各个领域都被认为是强相关系数(Akoglu,2018 年)。
相差 2 个 STAMP 级别
该指标以百分比表示,表示对同一答复的两个评分相差 2 个 STAMP 等级的次数百分比(例如,评分者 1 对某一答复的评分为 STAMP 4 级,而评分者 2 的评分为 STAMP 6 级)。
Avant 不同语言评分员评分的可靠性和准确性
根据上述统计数据,我们现在将注意力转向 STAMP 4S 和 STAMP WS 中几种代表性语言的写作和口语部分的评分质量。下面我们将提供基于两组不同比较的结果:
评分者 1 与评分者 2
我们将评分者 1 评定的 STAMP 级别与评分者 2 评定的 STAMP 级别进行了比较,比较对象是大量至少由两名评分者评定的该语言的答卷。这证明了由两名随机分配的Avant 评定者所提供的评分的可靠性。如前所述,两名评分员可以对一篇作文给出完全相同的 STAMP 等级,但他们的评分仍有可能与该答卷的实际等级不符。因此,我们不包括评分者 1 和评分者 2 之间的精确一致度测量。相反,我们将重点放在精确+邻近一致上,同时报告评分者 1(80% 的时间都是独自评分)给出的分数与官方分数(见下文)之间的准确度。
评分人 1 与官方评分
為了評估Avant 評分員給予回覆等級的準確性,我們檢視了大量由兩位或以上評分員評分的回覆。然后,我们将系统中给该答复的正式评分(如前所述,该评分来自于对该答复的个人评分)与仅由评分员 1 给出的评分进行比较。这样我们就可以知道,当只有一名Avant 评卷人对一个答卷进行评分时(80% 的情况都是这样),该答卷的评分准确度如何。
表 1 和表 2 显示了五种具有代表性的 STAMP 4S 语言的写作和口语部分的统计量。
表 3 和表 4 显示了三个
具有代表性的 STAMP WS 语言的写作和口语部分的统计量。
讨论
高水平的可靠性和准确性是测验分数的有效性及其预期用途的基础。然而,在可靠性和准确性方面,什么是可接受的最低限度,将取决于具体领域(医学、法律、体育、法医、语言测试等)、对特定考生的一系列回答给予不准确等级的后果以及等级量表本身。例如,评分量表的类别越多,一致程度就越低。换句话说,如果两个评分者必须从十个可能的等级中选择一个来评分,那么他们之间的分歧就会比只从四个可能的等级中选择一个来评分的分歧要大。
上述 STAMP 4S 和 STAMP WS 中写作和口语部分的统计数据显示,这两个部分的信度(评分人 1 与评分人 2 的分数对比)和准确度(评分人 1 与官方分数对比)都很高。在所评估的八种语言中,评分者 1 和评分者 2 之间的精确+邻近一致所显示的信度总是最低的(通常要高得多),写作为 96.78%,口语为 96.07%。此外,很少出现两个评分者的评分相差两个 STAMP 等级以上的情况。从评分者 1 的评分和官方评分之间的精确一致统计来看,所有八种语言的准确度水平都很高,其中写作的精确一致率最低为 83.66%(但通常要高出很多),口语的精确一致率最低为 80.19%,写作的精确+邻近一致率最低为 98.62%,口语的精确+邻近一致率最低为 98.13%。二次加权卡帕(QWK)值显示,评分者 1 与评分者 2 之间以及评分者 1 与官方评分之间的一致性都非常高,而评分者 1 与评分者 2 之间以及评分者 1 与官方评分之间的相关性也非常高。最后,SMD(标准化均值差异)系数表明,Avant 评定员使用 STAMP 量表的方式非常相似。
上述统计数据证明,Avant Assessment 的评分员遴选和培训计划质量很高,也证明了我们在确定可能需要从评分员库中暂时删除并进行有针对性培训的操作评分员时所采用的方法。它表明,当任何两名评分员在给某一答卷指定的 STAMP 等级上可能存在差异时,这种差异很少会超过一个 STAMP 等级,在绝大多数情况下,两名评分员都会指定完全相同的等级。再加上考生在 STAMP 写作或口语部分的最终正式分数是基于他们在三个独立提示中的 STAMP 单项分数这一事实,本文的结果提供了有力的证据,证明考生在 STAMP 写作和口语部分的最终分数是可靠的,可以准确地反映他们在这两个领域的语言能力水平。
参考资料
Akoglu, H. (2018).相关系数用户指南》。土耳其急诊医学杂志》,18(3),91-93。
Bachman, L. F., & Palmer, A. S. (1996).Language Testing in Practice:Designing and developing useful language tests (Vol. 1).牛津大学出版社。
Feldt, L. S., & Brennan, R. (1989).Reliability.In R. L. Linn (Ed.), Educational measurement (3rd ed., pp. 105-146).New York:New York: Macmillan.
Fleiss, J. L., Levin, B., & Paik, M. C. (2003).率和比例的统计方法》。3rd ed. Wiley.
Graham, M., Milanowski, A., & Miller, J. (2012)。衡量和促进
教师和校长绩效评分的评分者之间的一致性。
Matrix Education (2022)。物理实践技能第二部分:实验的有效性、可靠性和准确性》。 2022 年 8 月 11 日检索(点击此处转至来源)。
Williamson, D. M., Xi, X., & Breyer, F. J. (2012).自动
评分的评估和使用框架。教育测量:问题与实践》,31(1),2-13。