谁来评定 STAMP 检测?

Avant STAMPPLACE阿拉伯语水平测试(APT)和西班牙语传统语言测试中的人工评定答卷是由认证的 Avant 评卷员评定的,这些评卷员都是符合以下最低要求的语言教育工作者/讲演者:

  1. 语言技能:评分员必须保持高级或更高的语言技能水平(通过电话面试或经认可的测评,即 STAMP4S、OPI ILR Interview、MOPI 或 Praxis/州教师认证的考试成绩确定)。
  2. 教育:评级员必须持有学士或更高学位
  3. 培训与认证:评分员必须完成针对特定语言的Avant 评分培训计划,并在认证评估中取得 90% 的一致分数。
  4. 可用性:评分员每周必须能够对指定数量的项目(学生回答)进行评分(由具体的语言分级管理员和评分员决定)。

经过认证的 Avant Raters 是如何接受培训的?

所有评分员都必须完成 Avant 评分员培训计划并通过认证测试,才能为学生作答评分。培训过程包括五个步骤,一般需要约 11-13 个小时的个人工作时间和约 2-3 个小时的评分员培训经理工作时间才能完成。

  1. 学术准备:评分员候选人学习 Avant 评分员培训材料,这些材料解释了基于ACTFL 能力指南和 ILR 能力描述符的能力等级,并学习了 Avant 如何将这些等级应用于应试者的回答。这一步骤的目的是引导测评员候选人了解在对结构化答题项目(口语和写作)进行评分时所遇到的问题,并概述 Avant 系统可以对应试者的答题进行评分的范围。步骤 1 是独立学习阶段,预计需要 3-5 个小时。
  2. 在指导下复习和介绍考评员连接系统 (RC):考评员候选人与其指定的考评员培训经理会面,讨论并明确培训材料的关键要素,包括能力等级和用于确定不同等级的详细信息。然后,考评员培训经理会协助准考评员访问 Avant 的在线考评员连接软件(见第 3 步),并指导他们完成几个回复,演示如何使用考评员连接系统。步骤 2 通常是考评员候选人与考评员培训经理之间的虚拟会议,预计需要 2-3 个小时。
  3. 使用评分员连接系统 (RC) 进行练习:通过 Avant 的 RC,评分员候选人可以对选定的培训/锚点作答进行评分,并立即获得对每个作答的评分反馈。此阶段培训过程的目的是让评分员候选人接触到许多以前由 Avant 主评分员评分过的应试者作答。每份培训答卷都包含一份详细的注释或解释,说明该项目为何会被这样评分。通过这一过程,评分员候选人可以评估所有级别的各种答卷,并获得即时反馈,从而内化和应用评分标准。步骤 3 是独立的在线练习课程,预计需要 4-5 个小时或更长时间(如有必要)来完成答卷练习库。
  4. 评分员连接实践指导分析:一旦评分员候选人完成了 RC 中的培训回答,候选人将与其指定的评分员培训经理会面,讨论并澄清在实践评分过程中出现的问题。具体来说,对未准确评分的答卷进行审核,并回答有关评分标准和级别描述及其在答卷中的应用的问题。测评员培训经理能够了解准测评员在哪些标准上遇到困难,并能迅速确定需要进一步支持或培训的领域。此时,测评员培训经理可以决定让潜在测评员重复前卫测评员培训计划的第 3 步,或者进入第 5 步进行认证。第 4 步通常以虚拟会议的形式在考评员候选人和考评员培训经理之间进行,预计需要花费一个或多个小时的时间,具体取决于必须审查的领域的数量。
  5. 认证:Avant 评分员培训计划的最后一个步骤是评分员候选人通过认证测试,与 Avant 主评分员的评分一致性达到 90% 或更高。为完成该测试,评分员候选人将访问评分员连接系统,并在一个与他们在实时系统中对学生作答进行评分时的体验相同的过程中,对一个作答认证库进行评分。认证库由 Avant 主评分员之前评分的作答组成,但没有培训课程中提供的注释或评论。认证测试结束后,评分员候选人会收到分数通知。然后,评分员培训经理会与评分员候选人会面,找出评分问题,必要时让他们参加再培训活动。如果评分员候选人与 Avant 主评分员的一致性达到 90% 或更高,则被指定为认证 Avant 评分员,他们有资格对有效的 STAMP 测试答卷进行评分。
  6. 实时评分:测评员候选人完成所有培训内容并通过认证测试后,即可访问测评员连接系统中的实时答复。然后,新认证的考评员将按照指示进入系统,对一批试卷(25 份答卷)进行评分,并在完成该批试卷后通知其考评员经理。然后,评分员经理进入管理站点,查看认证评分员评分的每个项目,以核实评分的准确性。当评分员经理对新认证评分员的答卷评分准确性感到满意时,评分员就可以继续评分。在评分的最初几周,评分员经理将继续密切监控新认证的评分员。
  7. Avant 评测员计划的制定和完善是为了满足在所有 Avant 评测员中建立高水平质量和准确性的要求。在 Avant 语言专用评分员经理每天审查评分员间可靠性和准确性统计数据时,也会持续进行现场培训。STAMP 评分系统有助于持续监控评分趋势,并提醒评分员经理注意评分问题和异常情况,以便及时进行再培训。

STAMP 检验如何评级?

Avant STAMP 测试项目答案的人工评分是在 Rater Connection 的在线环境中进行的。阅读和听力测试项目(多项选择)由计算机评分。构思回答(口语和写作)则由经过认证的 Avant 评分员通过网络界面进行评分。具体来说,Avant 的在线分布式评分系统 "评分员连接系统 "可管理所有学生的作答,并在认证的 Avant 评分员登录系统时将 25 个书面或口语作答队列分发给他们,以方便评分。评分员通过一步一步的向导程序对每份答卷进行评分,并仔细考虑四个评分要素或标准中的每一个。

前卫语言能力测试的四个评分要素

  1. 答复是否符合评分标准和任务要求?
  2. 有哪些文本类型或数量的特定级别语言?
  3. 就整体可理解性而言,文本的质量如何?
  4. 答复的总体准确性如何?

评分系统跟踪并计算所有评分,然后根据这些评估标准为每个答复生成一个综合分数。

什么是评分者间可靠性 (IRR) 以及如何对其进行监控?

评分者之间的可靠性 (IRR) 是衡量认证评分者在对学生答卷应用 Avant 评分标准时的一致性程度。Avant 通过持续比较评分和提供必要的持续培训,努力保持高水平的评分者间可靠性。具体来说,系统会对评分者之间的可靠性进行跟踪,因为所有答卷中的 20% 都会交给第二名评分者对该答卷进行第二次盲评。这意味着,在每个 25 个答卷队列(批次中已评分的学生答卷数量)中,有 5 个答卷之前已由另一名认证评分员进行过评分。然后,系统会监控第二位认证评分员对这些答卷的评分情况。 如果第一位和第二位认证测评员的指定等级存在差异,RC 会将该答卷发送给第三位认证测评员,由其对分数进行仲裁。评审员经理可以查看哪些答卷获得了两次评分,更重要的是,可以查看获得三次评分的答卷,并跟踪三个不同评审员对每个答卷的评分情况。评分员经理可以查看评分趋势,并为任何需要再培训的认证评分员提供及时培训。然后,评分员经理会收集这些 "具有挑战性 "的答复,并将其用于培训课程。

Avant 如何测量评分者之间的可靠性 (IRR)?

Avant 采用双标准评分法对口语和书面答辩进行评分。如上所述,这两个标准是文本类型(语言量)和准确性(可理解性)。就我们的目的而言,我们对 1-6 级(新手-低级到中级-高级)的文本类型标准给予较高的权重,然后对 7 级和 8 级(高级-低级和中级)给予更均衡的权重。认证评分员在评估学生的口语和写作答卷时,首先会根据以下可能的选择确定文本类型分数

  • 不可更改 (0)
  • 字数 (1)
  • 短语 (2)
  • 简单句 (3)
  • 句子串 (4)
  • 关联句 (5)
  • 新出现的段落 (6)
  • 段落结构 (7)
  • 扩展段落 (8)

一旦确定了 "文本类型 "标准,评分员就会指导测评员确定答卷的 "准确性/可理解性",并为具体的 "文本类型 "评分提供以下选择:低于平均分、平均分或高于平均分。评分员将这两个标准的分数结合起来,以确定该答卷的最终分数/等级。然后,Avant 可以查看每种语言的认证评分员的一致意见,以确定任何语言在任何时间段内的 IRR 百分比。

翱文特如何测量评级精度并监控漂移?

与评分者间可靠性同样重要的是准确性。理想的情况是所有评分员的评分都一致,从而产生较高的 IRR,但如果出现偏离标准的情况(评分过高或过低),我们也需要了解这种情况。为了解决偏离问题,Avant 在评分队列中注入锚项目(由各语种评分员经理选择并预先评分的段落),然后由评分员经理监控认证评分员如何对这些特殊的作答进行评分。与 IRR 答卷一样,这些答卷也是以盲测方式提供给评分员的,因此评分员无法以任何方式识别这些答卷。这样,评分员经理就可以看到评分员是否偏离了标准。根据这些信息,测评员管理人员可以通过再培训和支持会议来解决任何偏离问题。这是我们的 "评分员连接系统 "的一项重要功能,可设置为在预定时间间隔内提供锚点项目。

如何得出和报告每项技能的最终等级?

Avant STAMP 测试为每位被分配到该测试领域或阶段(即口语或写作)的应试者提供三个口语提示和三个写作提示。 最终报告的分数是根据三个样本中最高的两个分数计算出来的。因此,最终分配的水平考虑了 Avant 认证评分员提交和评分的每个回答,并确定了应试者在三项任务中能够保持的水平。

例如

如果应试者第一次回答得分为 3 分(新高),第二次回答得分为 4 分(中低),第三次回答得分为 3 分(新高),则该领域的最终得分为 3 分(新高)。这表明该学生至少能够保持 3 级(新高)的熟练程度。然而,在这种情况下,有一个回答的等级实际上更高,因此报告中会出现一个蓝色条,以表明该学生可能接近下一个更高的等级,并鼓励教师查看该具体回答。由于最终分数或等级是根据所有三个回答的结果得出的,因此系统能够处理任何可能评分不准确或应试者可能无法做出回答的单个回答,并保持对每个领域的应试者总体能力的准确报告。

因此,使用两个最高的口语或写作分数来评定学生的最终口语或写作水平,是为了最大限度地减少领域总分的假阴性或假阳性评级报告。

关于Avant评估

Avant’s mission is to improve the teaching and learning of language in the US and around the world through effective language proficiency testing and professional development. Our products are not only for educators but also for business and government agencies that see the significant positive impact from bilingual team members.

单击此处,开始您的熟练之路

您可能也会喜欢的文章