谁来评定STAMP 测试?
中的人类评级反应 Avant STAMP, PLACE阿拉伯语水平测试(APT)和西班牙语传统语言测试由Avant 认证的评分员进行评分,这些评分员都是符合以下最低要求的语言教育工作者/讲演者:
- 语言技能:评分员必须保持高级或更高的语言技能水平(通过电话面试或经认可的测评,即 STAMP4S、OPI、 ILR Interview、MOPI 或 Praxis/州教师认证的考试成绩确定)。
- 教育:评级员必须持有学士或更高学位
- 培训与认证:评分员必须完成针对特定语言的Avant 评分员培训计划,并在认证评估中取得 90% 的一致分数。
- 可用性:评分员每周必须能够对指定数量的项目(学生回答)进行评分(由具体的语言分级管理员和评分员决定)。
Avant 认证评级员如何接受培训?
所有评分员都必须完成Avant 评分员培训计划并通过认证测试,才能为学生答卷评分。培训过程包括五个步骤,一般需要约 11-13 个小时的个人工作时间和约 2-3 个小时的评分员培训经理工作时间才能完成。
- 学术准备:测评员候选人学习Avant 测评员培训材料,这些材料解释了基于ACTFL 能力指南和 ILR 能力描述符的能力等级,并学习Avant 如何将这些等级应用于应试者的回答。这一步骤的目的是引导测评员候选人了解在对结构化答卷项目(口语和写作)进行评分时所遇到的问题,并概述Avant系统可以对应试者的答卷进行评分的范围。步骤 1 是独立学习阶段,预计需要 3-5 个小时。
- 在指导下复习和介绍考评员连接系统 (RC):考评员候选人与其指定的考评员培训经理会面,讨论并明确培训材料的主要内容,包括能力等级和用于确定不同等级的细节。然后,考评员培训经理会协助准考评员访问Avant的在线考评员连接软件(见第 3 步),并指导考评员回答几个问题,演示如何使用考评员连接系统。第 2 步通常是考评员候选人与考评员培训经理之间的虚拟会议,预计需要 2-3 个小时。
- 使用评分员连接系统 (RC) 进行练习: AvantRC 允许评分员候选人对选定的培训/锚点作答进行评分,并立即收到对每个作答的评分反馈。培训过程中这一阶段的目的是让评分员候选人接触许多以前由Avant 主评分员评分过的应试者作答。每份培训答卷都包括详细的注释或解释,说明项目评分的原因。通过这一过程,评分员候选人可以评估所有级别的各种答卷,并获得即时反馈,从而内化和应用评分标准。步骤 3 是独立的在线练习课程,预计需要 4-5 个小时或更长时间(如有必要)来完成答卷练习库。
- 评分员连接实践指导分析:一旦评分员候选人完成了 RC 中的培训回答,候选人将与其指定的评分员培训经理会面,讨论并澄清在实践评分过程中出现的问题。具体来说,对未准确评分的答卷进行审核,并回答有关评分标准和级别描述及其在答卷中的应用的问题。测评员培训经理能够了解准测评员在哪些标准上遇到困难,并能迅速确定需要进一步支持或培训的领域。此时,测评员培训经理可以决定让潜在测评员重复Avant 测评员培训计划的第 3 步,或者进入第 5 步进行认证。第 4 步通常以虚拟会议的形式在考评员候选人和考评员培训经理之间进行,预计需要花费一个或多个小时,具体取决于必须审核的领域数量。
- 认证: Avant 测评员培训计划的最后一步是测评员候选人通过认证测试,与Avant 主测评员的评分一致性达到 90% 或更高。為了完成此測試,評分員候選人會進入評分員連線系統,並對認證庫中的作答進行評分,此過程會複製他們在實際系統中對學生作答進行評分時的經驗。認證庫由Avant 主評定員之前評定的作答組成,但沒有培訓課程中提供的註釋或評語。认证测试结束后,评分员候选人会收到分数通知。然后,评分员培训经理会与评分员候选人会面,找出评分问题,必要时让他们参加再培训活动。如果评分员候选人与Avant 主评分员的一致率达到 90% 或更高,则会被指定为认证Avant 评分员,他们有资格对STAMP 测试中的作答进行评分。
- 实时评分:测评员候选人完成所有培训内容并通过认证测试后,即可访问测评员连接系统中的实时答复。然后,新认证的考评员将按照指示进入系统,对一批试卷(25 份答卷)进行评分,并在完成该批试卷后通知其考评员经理。然后,评分员经理进入管理站点,查看认证评分员评分的每个项目,以核实评分的准确性。当评分员经理对新认证评分员的答卷评分准确性感到满意时,评分员就可以继续评分。在评分的最初几周,评分员经理将继续密切监控新认证的评分员。
- Avant 评分员计划是为满足在所有Avant 评分员中建立高水平质量和准确性的要求而开发和完善的。Avant 各语种的评分员管理人员每天都会审查评分员之间的可靠性和准确性统计数据,并持续进行抽查培训。STAMP 评分系统有助于持续监控评分趋势,并提醒评分员经理注意评分问题和异常情况,以便及时进行再培训。
STAMP 测试如何评级?
Avant STAMP 测试项目的人工评分是在 Rater Connection 的在线环境中进行的。阅读和听力测试项目(多项选择)由计算机评分。建构式作答(口语和写作)由Avant 注册评分员通过网络界面进行评分。具体来说,Avant的在线分布式评分系统 "评分员连接系统 "可管理所有学生的作答,并在认证的Avant 评分员登录系统时将 25 个书面或口语作答队列分发给他们,以方便评分。评分员通过一步一步的向导程序对每份答卷进行评分,并仔细考虑四个评分要素或标准中的每一个。
Avant 语言水平测试的四个评分要素
- 答复是否符合评分标准和任务要求?
- 有哪些文本类型或数量的特定级别语言?
- 就整体可理解性而言,文本的质量如何?
- 答复的总体准确性如何?
评分系统跟踪并计算所有评分,然后根据这些评估标准为每个答复生成一个综合分数。
什么是评分者间可靠性 (IRR) 以及如何对其进行监控?
评分者之间的可靠性 (IRR) 是衡量认证评分者对学生作答应用Avant 评分标准的一致性程度的标准。Avant 通过对评分进行一致的比较和提供所需的持续培训,努力保持较高的评分者之间的可靠性。具体而言,系统会跟踪评分员之间的可靠性,因为所有答卷中的 20% 都会交给第二名评分员对该答卷进行第二次盲评。这意味着,在每个 25 个答卷队列(批次中已评分的学生答卷数量)中,有 5 个答卷之前已由另一名认证评分员进行过评分。然后,系统会监控第二位认证评分员对这些答卷的评分情况。 如果第一位和第二位认证测评员的指定等级存在差异,RC 会将该答卷发送给第三位认证测评员,由其对分数进行仲裁。评审员经理可以查看哪些答卷获得了两次评分,更重要的是,可以查看获得三次评分的答卷,并跟踪三个不同评审员对每个答卷的评分情况。评分员经理可以查看评分趋势,并为任何需要再培训的认证评分员提供及时培训。然后,评分员经理会收集这些 "具有挑战性 "的答复,并将其用于培训课程。
Avant 如何测量评分者之间的可靠性 (IRR)?
Avant 采用双标准评分法对口语和书面答辩进行评分。如上所述,这两个标准是文本类型(语言量)和准确性(可理解性)。就我们的目的而言,我们对 1-6 级(新手-低级到中级-高级)的文本类型标准给予较高的权重,然后对 7 级和 8 级(高级-低级和中级)给予更均衡的权重。认证评分员在评估学生的口语和写作答卷时,首先会根据以下可能的选择确定文本类型分数 :
- 不可更改 (0)
- 字数 (1)
- 短语 (2)
- 简单句 (3)
- 句子串 (4)
- 关联句 (5)
- 新出现的段落 (6)
- 段落结构 (7)
- 扩展段落 (8)
一旦确定了文本类型标准,RC 就会指导评分员确定答卷的准确性/可理解性,并为特定的文本类型评分提供以下选择:低于平均水平、平均水平或高于平均水平。RC 将这两项标准的分数合并,以确定该回答的最终分数/级别。然后,Avant 就可以查看每种语言的认证评分员的一致性,以确定任何语言在任何时间段内的 IRR 百分比。
Avant 如何测量评级精度并监控漂移?
与评分者间可靠性同样重要的是准确性。理想的情况是所有评分员的评分都一致,从而产生较高的 IRR,但如果出现偏离标准的情况(评分过高或过低),我们也需要了解这种情况。为了解决偏离问题,Avant 将锚项目(由各语种评分员经理选择并预先评分的段落)注入评分队列,然后评分员经理监控认证评分员如何对这些特殊的作答进行评分。与 IRR 答卷一样,这些答卷也是以盲测方式提供给评分员的,因此评分员无法以任何方式识别这些答卷。这样,评分员经理就可以看到评分员是否偏离了标准。根据这些信息,测评员管理人员可以通过再培训和支持会议来解决任何偏离问题。这是我们的 "评分员连接系统 "的一项重要功能,可设置为在预定时间间隔内提供锚点项目。
如何得出和报告每项技能的最终等级?
Avant STAMP 测试为每位被分配到该测试领域或阶段(即口语或写作)的应试者提供三个口语提示和三个写作提示。 最终报告的分数是根据三个样本中最高的两个分数计算出来的。因此,最终分配的等级考虑了Avant 认证评分员提交和评分的每份答卷,并确定了应试者在三项任务中能够保持的等级。
例如
如果应试者第一次回答得分为 3 分(新高),第二次回答得分为 4 分(中低),第三次回答得分为 3 分(新高),则该领域的最终得分为 3 分(新高)。这表明该学生至少能够保持 3 级(新高)的熟练程度。然而,在这种情况下,有一个回答的等级实际上更高,因此报告中会出现一个蓝色条,以表明该学生可能接近下一个更高的等级,并鼓励教师查看该具体回答。由于最终分数或等级是根据所有三个回答的结果得出的,因此系统能够处理任何可能评分不准确或应试者可能无法做出回答的单个回答,并保持对每个领域的应试者总体能力的准确报告。
因此,使用两个最高的口语或写作分数来评定学生的最终口语或写作水平,是为了最大限度地减少领域总分的假阴性或假阳性评级报告。
关于Avant 评估
单击此处,开始您的熟练之路