我们如何评估书面和口语测试回应

谁对STAMP测试进行评级？

在Avant STAMP，PLACE，阿拉伯语熟练度测试(APT)以及西班牙语遗产语言测试中，人工评定的反馈由Avant认证的评定员进行评定，他们都是语言教育者/使用者，满足以下最低要求：

语言技能：评估员必须保持高级或更高级别的语言技能（通过电话面试或来自认可评估的测试成绩确定，即，STAMP4S，OPI， ILR面试，MOPI，或Praxis/州教师认证。)
教育： 评分员必须拥有学士学位或更高学历
培训与认证：评分员必须完成语言特定的Avant评分员培训计划并在认证评估中得分达到90%的一致性
可用性：评分员必须每周有时间评分一定数量的项目（学生回应）（由特定语言的评级经理和评分员确定）

Avant认证评估员是如何接受培训的？

所有评分员必须完成Avant评分员培训计划，并通过认证测试后，方可进行学生回应的评分。培训过程包括五个步骤，通常需要大约11-13小时的个人工作时间，以及大约2-3小时与评分员培训经理一起完成。

学术准备：评分员候选人学习Avant评分员培训材料，这些材料解释了基于美国国家熟练度标准和ILR熟练度描述符的熟练度级别，并了解Avant如何将这些级别应用于考生的回答。这一步的目标是使评分员候选人熟悉在评分构造性回答项目（口语和写作）中遇到的问题，并概述Avant的系统可以分配给考生回答的分数范围。步骤1是一个独立的学习阶段，预计需要投入3-5小时的时间。
指导性评审和介绍评分员连接系统（RC）：评分员候选人会与他们的指定评分员培训经理讨论并澄清培训材料的关键元素，包括熟练度级别和用于识别各种级别的详细信息。然后，评分员培训经理协助潜在的评分员访问Avant的在线评分员连接软件（参见步骤3），并引导他们浏览几个反应，展示如何使用评分员连接系统。步骤2通常作为评分员候选人和评分员培训经理之间的虚拟会议进行，预计需要投入2-3小时的时间。
使用评分员连接系统（RC）进行练习：Avant的RC允许评分员候选人对选定的训练/锚定反应进行评分，并对其对每个反应的评分立即得到反馈。这个训练过程阶段的目的是让评分员候选人接触到许多已经由Avant主评分员评分的考生反应。每个训练反应都包括一个详细的注解或解释，说明为什么该项目的得分是这样的。这个过程允许评分员候选人在所有级别上评估各种反应，并立即得到反馈，以便内化并应用评分标准。步骤3是一个独立的在线练习环节，预计需要投入4-5小时或更长的时间，如果必要的话，来完成反应的练习库。
评分员连接实践的引导分析：一旦评分员候选人在RC中完成了培训反馈，候选人会与他们的指定评分员培训经理会面，讨论并澄清在实践评分会议期间出现的问题。具体来说，未被准确评分的反馈会被重新审查，关于评分标准和级别描述以及它们如何应用于反馈的问题会得到解答。评分员培训经理能够看到潜在评分员在哪些标准上遇到困难，并能快速识别需要进一步支持或培训的领域。在这个时候，评分员培训经理可以决定让潜在的评分员重复Avant评分员培训计划的第3步，或者进入第5步进行认证。第4步通常作为评分员候选人和评分员培训经理之间的虚拟会议进行，预计需要投入一小时或更多的时间，具体取决于需要审查的领域数量。
认证：Avant评分员培训计划的最后一步是评分员候选人通过认证测试，与Avant主评分员的评分一致性达到90%或更高。为了完成这个测试，评分员候选人访问评分员连接系统，并对一个认证库的回应进行评分，这个过程模拟了他们在实际系统中评分学生回应的经验。认证库由Avant主评分员之前评过的回应组成，但没有在培训会议中提供的注释或评论。在认证测试结束时，评分员候选人会被通知他们的分数。然后，评分员培训经理会与评分员候选人会面，确定评分问题，并在必要时参与他们的再培训活动。那些与Avant主评分员达成90%或更高一致性的评分员候选人，将被指定为认证的Avant评分员，他们有资格对活动的STAMP测试回应进行评分。
LIVE RATING：在评分员候选人完成所有培训环节并通过认证测试后，他/她将获得进入评分员连接系统进行实时评分的权限。新认证的评分员被指示进入系统并评分一批（25个回应），在完成批次评分后通知他们的评分员经理。然后，评分员经理进入管理员网站，查看每一项由认证评分员打分的项目，以验证分数的准确性。当评分员经理对新认证评分员的回应评分的准确性满意时，评分员可以继续评分。在最初的几周评分期间，评分员经理会密切监控新认证的评分员。
这个Avant评分员项目已经被开发和磨练，以满足建立所有Avant评分员高质量和准确性的需求。Avant语言特定的评分员经理每天都会审查评分员间的可靠性和准确性统计，因此也会进行定点培训。STAMP评分系统方便了对评分趋势的持续监控，并向评分员经理发出评分问题和异常的警报，以便可以进行及时的再培训。

STAMP测试是如何评分的？

Avant STAMP 测试项目的人工评分是在评分员连接的在线环境中进行的。阅读和听力测试项目（多项选择）由计算机评分。由认证的Avant评分员通过基于网络的界面对构建的回答（口语和写作）进行评分。具体来说，Avant的在线分布式评分系统评分员连接系统管理所有学生的回答，并通过在他们登录系统时分发25个书面或口头回答的队列来促进评分。评分员按照逐步的向导过程对每个回答进行评分，仔细考虑四个评分元素或标准。

Avant语言熟练度测试的四个评分元素

响应是否可评价并且在任务中？
呈现出了什么类型的文本或特定级别的语言数量？
这段文字的整体可理解性的质量如何？
响应的整体准确性是什么？

评分系统跟踪并计算所有评级，然后根据这些评估标准为每个回应生成一个综合分数。

什么是评分者间的可靠性（IRR）以及如何监控它？

评分者间的一致性 (IRR)是衡量认证评分者如何一致地将Avant评分标准应用于学生回答的一种度量。Avant致力于通过持续比较评分和根据需要提供持续培训来维持高水平的评分者间的一致性。具体来说，系统中跟踪的评分者间的一致性是所有回答的20%，这些回答被送到第二个评分者那里进行盲目的二次评分。这意味着在每个包含25个回答的队列（一批次中评分的学生回答数量）中，有5个回答已经被另一个认证评分者评过分。然后系统监控第二个认证评分者如何评分这些回答。如果第一和第二个认证评分者之间的分配级别有差异，RC将该回答发送给第三个认证评分者，由他来仲裁分数。评分管理者能够看到哪些回答收到了两个分数，更重要的是，那些收到了三个分数的回答，并且可以跟踪每个回答在三个不同的评分者之间是如何评分的。评分管理者可以看到评分的趋势，并针对需要再培训的认证评分者进行即时培训。然后，评分管理者收集并使用这些“具有挑战性”的回答进行培训课程。

Avant如何测量评分者间的一致性（IRR）？

Avant使用两项标准来为口语和书面回答打分。如上所示，这两项标准是文本类型（语言量）和准确性（可理解性）。就我们而言，我们对1-6级（初级-低级到中级-高级）的文本类型标准给予更高的权重，然后对7和8级（高级-低级和中级）给予更平衡的权重。当认证评分员评估学生的口语和写作回答时，他们首先确定以下可能的选择的文本类型分数：...

无法评级 (0)
词语（1）
短语 (2)
简单句子（3）...
句子串（4）
连接的句子（5）
新兴段落（6）
段落结构 (7)
扩展段落（8）

一旦确定了文本类型的标准，RC便会指导评分人确定以下特定文本类型分数的响应的准确性/可理解性：低于平均水平，平均水平或高于平均水平。RC将这两个标准的分数结合起来，以确定该响应的最终分数/级别。然后，Avant能够审查每种语言中认证评分人的一致性，以确定任何语言在任何时间段内的IRR百分比。

Avant如何测量评级准确性并监控漂移？

与评分者间的一致性同样重要的是准确性的构造。理想的情况是所有的评分者都能达成一致，产生高度的IRR，但是如果有任何偏离标准的情况（评分过高或过低），我们需要知道这种情况。为了解决偏移问题，Avant将锚定项（由每个语言评分经理选择并预先评分的段落）注入评分队列，然后评分经理监控认证评分者如何评分这些特殊的反馈。就像IRR反馈一样，这些都是以盲目的方式交付给评分者的，以便评分者无法以任何方式识别这些反馈。然后，评分经理就能看到评分者是否偏离了标准。基于这些信息，评分经理可以通过再培训和支持会议来解决任何偏移。这是我们的评分连接系统的一个重要特性，可以设置为在预定的间隔时间内交付锚定项。

每个技能的最终水平是如何得出和报告的？

Avant STAMP 测试为每个被分配到该领域或阶段（即，口语或写作）的考生提供三个口语和三个写作提示。最后报告的分数是根据三个样本中的两个最高分计算的。因此，最后分配的级别考虑了由Avant认证评分员提交并评分的每个回应，并确定了考生在三个任务中能够保持的级别。

例如：

对于首次回应获得3级（初级-高级）的考生，其第二次回应获得4级（中级-低级），第三次回应再次获得3级（初级-高级），他/她在该领域的最终得分将为3级（初级-高级）。这表明至少学生能够保持3级（初级-高级）的熟练程度。然而，在这种情况下，有一次回应实际上被评为更高的级别，因此报告中包含了一个蓝色的条形图，以示这个学生可能接近下一个更高的级别，并鼓励教师查看那个特定的回应。由于最终得分或级别是由所有三次回应的结果推导出来的，所以系统能够处理任何可能被评分不准确或者考生可能无法回应并保持准确报告的单个回应，以维持对每个领域内总体考生能力的准确报告。

因此，采用两个最高的口语或写作分数来分配最终的学生口语或写作水平的过程被用来尽量减少对整体领域分数的假阴性或假阳性评级的报告。保留...的确切含义。