Avant STAMP의 신뢰성 및 정확성

초록

STAMP(표준 기반 능력 측정) 제품군의 일부인 STAMP 4S 및 STAMP WS 평가에는 쓰기 및 말하기 섹션이 포함되어 있습니다. 신뢰할 수 있고 정확한 점수는 이러한 시험의 용도를 검증하는 데 매우 중요합니다.

이 백서에서는 5개 STAMP 4S 언어(아랍어, 스페인어, 프랑스어, 중국어 간체, 러시아어)와 3개 STAMP WS 언어(암하릭어, 아이티 크리올어, 베트남어)의 쓰기 및 말하기 영역에 대한 최근 등급 분석 결과를 소개합니다.

23,000개 이상의 응답을 포함한 분석 결과, 쓰기와 말하기 영역 모두에서 높은 채점 정확도와 신뢰도를 보여줌으로써 이 점수의 목적에 맞는 유효성을 강력하게 뒷받침합니다.

STAMP의 쓰기 및 말하기 섹션

STAMP 테스트 제품군은 실제 언어 능력을 평가합니다.

STAMP 4S 는 네 가지 언어 능력을 평가하며 미국 교육위원회(ACE)의 인증을 받았습니다. 15 언어로 제공됩니다.

STAMP WS역시 ACE 인증을 받았으며 쓰기 및 말하기 능력을 테스트하며 다음에서 사용할 수 있습니다. 37 언어로 제공됩니다.

시험 결과를 검증하는 데 있어 두 가지 핵심 요소는 신뢰도와 정확도입니다. 이 백서에서는 훈련된 평가자가 0(숙련도 없음 )에서 8(고급-중급)까지의 레벨을 사용하여 채점한 STAMP의 쓰기 및 말하기 섹션의 평가의 신뢰도와 정확도를 조사합니다.

작문과 말하기 섹션에서 수험자는 언어 능력을 보여주기 위해 세 가지 실제 프롬프트에 응답합니다. 각 답변은 일관성과 품질을 보장하기 위해 엄격한 교육과 지속적인 모니터링을 거친 공인 평가자가 독립적으로 채점합니다.

일반적으로 응답의 80%는 한 명의 평가자가 평가하며, 이 평가자의 점수가 공식 점수가 됩니다. 20%의 경우 최소 2명의 평가자가 하나의 응답에 점수를 매기고, 의견 차이가 있을 경우 관리자가 개입합니다. 평가는 다른 응답이나 점수에 대한 지식 없이 독립적으로 이루어지므로 편향되지 않은 결과를 보장합니다.

수험생의 쓰기 또는 말하기 최종 점수는 세 개의 프롬프트 중 두 개에서 일관되게 보여줄 수 있는 가장 높은 수준을 기준으로 합니다.

스탬프 정확도 채점 절차 차트. — 그림 1. 쓰기 및 말하기 영역에서 수험생의 최종 스탬프 레벨에 도달하기 위한 시스템 규칙

그림 1에서 볼 수 있듯이, 수험생의 공식 스탬프 레벨은 세 개의 응답 중 최소 두 개에서 일관되게 보여줄 수 있는 가장 높은 레벨에 따라 결정됩니다. 예를 들어, 수험생이 첫 번째 응답에서 초급-중급, 두 번째 응답에서 초급-고급, 세 번째 응답에서 초급-고급을 받은 경우 최종 스탬프 레벨은 STAMP 3(초급-고급)이 됩니다. 또는 첫 번째 응답에서 중급-낮음, 두 번째 응답에서 초급-고급, 세 번째 응답에서 중급-중급을 받은 경우, 최종 레벨은 첫 번째와 세 번째 응답에서 두 번 받은 가장 높은 레벨이므로 중급-낮음입니다.

STAMP의 쓰기와 말하기 섹션에서 세 가지 독립적인 프롬프트를 사용하면 두 가지 주요 이점이 있습니다:

더 넓은 주제 범위: 다양한 주제에 걸쳐 수험생을 평가하면 수여된 숙련도 수준이 다른 실제 상황에도 일반화될 가능성이 높아집니다.
평가자 편향성 최소화: 채점 방법과 함께 여러 개의 프롬프트를 사용하면 개별 평가자의 잠재적인 평가 편향성을 줄일 수 있습니다.

다음으로 신뢰성과 정확성의 정의에 대해 설명하겠습니다.

신뢰성

신뢰도는 측정의 일관성을 의미합니다(Bachman & Palmer, 1996). 간단히 말해, 수험자의 실력이 변하지 않았다는 가정 하에 다른 시기에 다시 시험을 치르거나 다른 버전의 시험을 치를 경우 시험 점수가 동일하게 유지될 것이라고 얼마나 신뢰할 수 있는지를 의미합니다.

예를 들어, 수험생의 지식이나 정신 상태의 변화 없이 오늘 중급-낮은 점수를 받았는데 내일 중급-높은 점수를 받는다면 시험의 신뢰도가 높지 않을 수 있음을 의미합니다. 마찬가지로, 수험생이 한 버전의 시험에서 상급-하급 점수를 받고 다른 버전에서는 중급-중간 점수를 받는다면 일관성이 부족하여 시험의 신뢰성에 문제가 있음을 나타냅니다.

시험의 신뢰도를 결정하는 한 가지 요소는 채점 방식입니다. STAMP 시험에서 읽기 및 듣기 영역은 컴퓨터가 자동으로 채점하는 객관식 문제로 구성되어 있습니다. 따라서 수험자가 여러 번 동일한 답을 제출하더라도 항상 동일한 점수를 받을 수 있습니다.

그러나 쓰기 및 말하기 섹션은 사람이 채점합니다. 즉, 누가 응답을 평가하느냐에 따라 점수가 달라질 수 있습니다. 잘 훈련된 평가자를 사용하면 점수 편차가 최소화되어 관대함, 엄격함 또는 잠재적 편견의 영향을 줄일 수 있을 것으로 기대합니다.

정확성

수험생은 자신의 점수가 측정 대상 언어 영역의 숙련도(STAMP에서는 각 언어 영역의 숙련도)만 반영될 것으로 기대합니다.

정확도는 부여된 점수가 수험자의 실제 능력을 얼마나 잘 나타내는지를 나타냅니다. 예를 들어, 한 수험생이 중상급 수준의 말하기 응답을 제출했지만 두 명의 채점자로부터 중하급 점수를 받았다면 점수가 부정확한 것입니다. 두 달 후에 다른 두 명의 채점자가 중급-낮음을 부여하더라도 이 점수는 신뢰할 수 있지만(채점자 간 및 시간 경과에 따라 일관성이 유지되므로) 부정확한 점수로 남아 있습니다.

그림 2는 신뢰도와 정확도의 차이를 보여줍니다. 이상적인 테스트는 점수의 유효성과 의도된 용도를 보장하기 때문에 신뢰성과 정확성을 모두 갖춰야 합니다.

그림 2: 신뢰성 및 정확도(출처: Matrix Education)

평가자가 점수의 신뢰성과 정확성을 평가하는 데 일반적으로 사용하는 통계

STAMP의 경우처럼 사람이 채점하는 경우, 채점자의 특성이 아닌 응답 자체의 품질을 반영하여 점수를 매기는 것이 중요합니다. 즉, 점수는 평가자의 관대함, 엄격함 또는 편견이 아니라 오로지 응시자의 입증된 숙련도에 따라 달라져야 합니다.

언어 시험 제공업체는 종종 통계를 사용하여 채점자에 따라 점수가 얼마나 달라질 수 있는지 보여줍니다. 일반적으로 여기에는 동일한 응답에 대한 두 명의 개별 채점자의 평점을 비교하는 것이 포함됩니다. 채점자는 가능한 한 자주 일치하는 것이 이상적이며, 이는 신뢰할 수 있는 채점 프로세스를 의미합니다.

그러나 신뢰도에는 정확성도 수반되어야 합니다. 두 명의 평가자가 동일한 점수를 부여할 수 있지만 둘 다 틀릴 수 있습니다. 잘 개발된 테스트의 목표는 평가자가 일관되게 동의하고 정확한 점수를 매기는 것입니다.

평가자 간의 완벽한 합의가 항상 현실적인 것은 아닙니다. 훈련과 전문성을 갖춘 평가자라도 의사, 엔지니어, 과학자처럼 때때로 의견이 일치하지 않을 수 있습니다. 목표는 점수의 용도를 고려할 때 방어할 수 있는 높은 일치도를 달성하는 것입니다.

다음은 평가자가 제공한 평가의 품질을 평가하기 위해 Avant 평가에서 사용하는 통계적 측정값입니다. 많은 회사가 정확하고 인접한 동의만 보고하지만, 평가 품질을 종합적으로 파악하기 위해 추가 측정 항목을 평가합니다. 이 백서에서 보고된 측정 항목은 다음과 같습니다:

정확한 동의:

이 측정값은 분석된 전체 데이터 세트에서 평가자 1이 특정 응답에 부여한 레벨이 평가자 2가 부여한 레벨과 정확히 동일한 경우의 비율을 나타내는 백분율로 보고됩니다. 예를 들어, 평가자 1이 응답에 스탬프 레벨 5를 부여하고 평가자 2도 동일한 응답에 스탬프 레벨 5를 부여한 경우, 이는 정확히 일치하는 사례로 간주됩니다. 펠트와 브레넌(1989)은 두 명의 평가자를 사용하는 경우 최소 80%의 정확한 합의가 있어야 하며, 70%는 운영상 허용되는 것으로 간주한다고 제안합니다.

이 측정값은 백분율로 보고되며, 평가자 1과 평가자 2가 전체 데이터 세트에서 응답에 동일한 레벨을 부여한 빈도를 보여줍니다. 예를 들어, 두 평가자 모두 동일한 응답에 스탬프 레벨 5를 지정하면 정확한 일치 사례로 간주됩니다. 펠트와 브레넌(1989)에 따르면 정확한 일치도는 최소 80% 이상이어야 하며, 70%는 운영용으로 허용되는 것으로 간주합니다.

정확히 + 인접한 계약:

이 측정값은 평가자 1과 평가자 2가 전체 데이터 세트에서 응답에 동일한 수준 또는 인접한 수준을 할당하는 빈도를 백분율로 표시하여 보고합니다.

예를 들어, 스탬프 레벨 5는 레벨 4 및 레벨 6에 인접합니다. 평가자 1이 레벨 4를 부여하고 평가자 2가 레벨 5를 부여하면 레벨이 인접하므로 이 척도에 포함됩니다. Graham 등(2012)에 따르면, 평가 척도가 5~7단계 이상인 경우 STAMP 척도와 마찬가지로 정확도 + 인접도 일치율이 90%에 가까워야 한다고 합니다.

이차 가중 카파(QWK)

코헨의 카파(𝜅)는 두 평가자 간의 신뢰도를 측정하는 동시에 우연에 의한 일치 가능성을 고려합니다. 예를 들어 9점 스탬프 척도 ( 레벨 0에서 레벨 8까지)를 사용하면 두 평가자가 순전히 우연에 의해 점수에 동의할 확률은 11.11%입니다. 에서 Avant에서는 카파를 계산할 때 이차 가중치를 사용하므로 점수 간 불일치가 클수록 더 높은 페널티가 부여됩니다. 예를 들어, 스탬프 레벨 3과 레벨 7의 차이는 레벨 3과 레벨 4의 차이보다 더 문제가 됩니다.

윌리엄슨 외(2012)는 이차 가중 카파(QWK)가 0.70 이상이어야 한다고 권장하며, 플라이스(2003)는 0.75 이상의 값은 우연이 아닌 우수한 일치도를 나타낸다고 지적합니다. QWK 값이 0이면 순전히 우연에 의한 일치인 반면, 1이면 완벽한 일치를 의미합니다.

표준화 평균 차이(SMD)

이 측정값은 두 평가자가 평가 척도를 얼마나 비슷하게 사용하는지 보여줍니다. 두 세트의 점수(평가자 1과 평가자 2)의 평균 차이를 비교하여 해당 점수의 풀 표준 편차로 표준화합니다. 이상적으로는 두 평가자 모두 척도의 특정 수준을 선호하거나 피하지 않아야 합니다(예: 스탬프 0 또는 스탬프 8 피하기). 즉, 두 평가자 모두 응답에 나타난 숙련도를 반영하여 전체 범위(스탬프 0 - 스탬프 8)의 척도를 사용해야 합니다. 이 척도의 권장값은 ≤ 0.15 (Williamson et al., 2012)로, 두 점수 세트의 분포가 허용 가능한 수준으로 유사하다는 것을 나타냅니다.

스피어먼의 순위-순서 상관관계(ρ)

이 측정값은 평가자 1이 부여한 스탬프 수준과 평가자 2가 부여한 수준이라는 두 변수 간의 연관성의 강도를 나타냅니다. 평가자가 잘 훈련되어 있고 평가 루브릭을 이해한다면 두 평가자가 비슷한 레벨을 할당할 것으로 예상되며, 이는 점수가 함께 움직여야 함을 의미합니다. 즉, 평가자 1이 높은 레벨을 지정하면 평가자 2도 높은 레벨을 지정하여 동일한 구성에 대한 일관된 평가를 반영해야 합니다.

피어슨 상관계수 대신 스피어만 상 관계수를 사용하는 이유는 스피어만 상관계수가 STAMP 숙련도 수준과 같은 서수 데이터에 더 적합하기 때문입니다. 대부분의 분야에서 상관계수가 0.80 이상이면 강한 상관관계가 있는 것으로 간주됩니다(Akoglu, 2018).

2 스탬프 레벨 간격

백분율로 표시되는 이 측정값은 동일한 응답에 대한 두 평가가 얼마나 자주 두 개의 스탬프 레벨이 다른지 보여줍니다(예: 평가자 1은 스탬프 레벨 4를, 평가자 2는 스탬프 레벨 6을 할당).

다양한 언어에 걸친 Avant 평가자의 신뢰도 및 점수 정확도

이제 몇 가지 대표 언어에 대한 위의 통계를 고려하여 STAMP 4S 및 STAMP WS의 쓰기 및 말하기 영역의 평가 품질에 초점을 맞추고자 합니다. 아래에서는 두 가지 다른 비교 세트를 기반으로 한 결과를 제시합니다:

평가자 1 대 평가자 2

최소 두 명의 평가자가 평가한 수많은 응답에 대해 평가자 1이 부여한 스탬프 레벨과 평가자 2가 부여한 레벨을 비교합니다. 이 비교는 무작위로 배정된 두 명의 평가자가 부여한 평가의 신뢰성을 지원합니다. Avant 평가자. 앞서 언급했듯이 두 명의 평가자가 점수에 동의할 수 있지만 두 평가자 모두 틀릴 수 있습니다. 따라서 평가자 1과 평가자 2 간의 정확한 일치도 측정값은 포함하지 않습니다. 대신, 정확도 + 인접한 일치에 초점을 맞추고 평가자 1 (80%의 시간을 단독으로 평가)의 점수를 공식 점수와 비교한 정확도 측정값을 보고합니다.

평가자 1 대 공식 점수

Avant 평가자가 부여한 수준의 정확성을 평가하기 위해 두 명 이상의 평가자가 응답을 평가한 사례를 분석합니다. 모든 개별 평가에서 도출된 공식 점수를 평가자 1이 단독으로 부여한 점수와 비교합니다. 이를 통해 한 명의 평가자만 참여했을 때 응답이 얼마나 정확하게 평가되었는지를 알 수 있으며, 이는 80%의 경우에서 발생합니다.

표 1과 표 2는 대표적인 5개 STAMP 4S 언어의 쓰기 및 말하기 영역에 대한 통계적 측정치를 제시합니다.

표 1

측정	아랍어	스페인어	프랑스어	중국어 간체	러시아어
데이터 세트의 응답 수	n = 3,703	n = 4,758	n = 4,785	n = 4,766	n = 3,536
정확한 합의(평가자 1 대 공식 점수)	84.8%	84.15%	83.66%	88.46%	92.17%
정확한 + 인접한 합의(평가자 1 대 공식 점수)	96.78% (98.62%)	99.09% (99.79%)	99.22% (99.79%)	99.79% (99.91%)	99.71% (99.88%)
이차 가중치 카파(QWK)(평가자 1 대 공식 점수)	0.93 (0.96)	0.91 (0.95)	0.91 (0.95)	0.95 (0.96)	0.95 (0.97)
표준화 평균 차이(SMD)(평가자 1 대 평가자 2)	0.00 (0.01)	0.00 (0.00)	0.00 (0.00)	0.00 (0.00)	0.00 (0.00)
스피어맨의 순위-순서 상관관계(R)(평가자 1 대 공식 점수)	0.94 (0.96)	0.90 (0.95)	0.91 (0.95)	0.95 (0.97)	0.94 (0.97)
스탬프 레벨 2단계 차이(평가자 1 대 평가자 2)	2.80% (1.24%)	0.90% (0.20%)	0.77% (0.20%)	0.00% (0.00%)	0.28% (0.11%)

표 1. 대표적인 5개 STAMP 4S 언어의 쓰기 영역에 대한 평가자 신뢰도 및 정확도 통계.

표 2

측정	아랍어	스페인어	프랑스어	중국어 간체	러시아어
데이터 세트의 응답 수	n = 3,363	n = 4,078	n = 4,530	n = 4,651	n = 3,392
정확한 합의(평가자 1 대 공식 점수)	84.96%	80.37%	80.19%	82.24%	88.30%
정확한 + 인접한 합의(평가자 1 대 공식 점수)	96.07% (98.13%)	98.13% (99.29%)	98.54% (99.47%)	99.31% (99.76%)	98.99% (99.94%)
이차 가중치 카파(QWK)(평가자 1 대 공식 점수)	0.92 (0.95)	0.92 (0.96)	0.91 (0.95)	0.94 (0.95)	0.92 (0.96)
표준화 평균 차이(SMD)(평가자 1 대 평가자 2)	-0.02 (0.01)	0.00 (0.00)	-0.01 (0.02)	0.00 (0.00)	-0.01 (-0.01)
스피어맨의 순위-순서 상관관계(R)(평가자 1 대 공식 점수)	0.93 (0.96)	0.91 (0.95)	0.92 (0.95)	0.94 (0.96)	0.91 (0.95)
스탬프 레벨 2단계 차이(평가자 1 대 평가자 2)	3.27% (1.42%)	1.74% (0.00%)	1.39% (0.00%)	0.00% (0.00%)	1.01% (0.00%)

표 2. 5개 대표 스탬프의 말하기 영역에 대한 평가자 신뢰도 및 정확도 통계

표 3과 표 4는 세 가지 대표적인 STAMP WS 언어(
)의 쓰기 및 말하기 섹션에 대한 통계 측정값을 보여줍니다.

표 3

표 4

토론

높은 수준의 신뢰도와 정확성은 시험 점수의 유효성과 시험 점수의 용도에 있어 기본입니다. 그러나 신뢰도와 정확도 측면에서 최소한으로 허용되는 수준은 특정 분야(의학, 법률, 스포츠, 법의학, 언어 시험 등)와 특정 수험자의 응답 세트에 부정확한 등급을 부여했을 때의 결과 및 등급 척도 자체에 따라 달라질 수 있습니다. 예를 들어, 등급 척도에서 사용할 수 있는 범주의 수가 많을수록 동의도가 낮아지는 경향이 있습니다. 즉, 두 채점자가 응답에 10개의 가능한 수준 중 하나를 할당해야 하는 경우 4가지 수준 중 하나만 할당해야 하는 경우보다 두 채점자 간에 더 많은 의견 불일치가 발생할 수 있습니다.

STAMP 4S와 STAMP WS의 쓰기 및 말하기 영역에 대한 위의 통계는 신뢰도(평가자 1 점수 대 평가자 2 점수)와 정확도(평가자 1 점수 대 공식 점수) 모두 높은 수준을 보여줍니다. 평가된 8개 언어 중, 평가자 1과 평가자 2의 정확도 + 인접도 합의에 의한 신뢰도는 쓰기에서 96.78%, 말하기에서 96.07%로 항상 최소(그리고 종종 상당히 높은) 수준입니다. 또한 두 평가자의 평가가 두 스탬프 레벨 이상 차이가 나는 경우는 거의 관찰되지 않았습니다. 8개 언어 모두에 대한 정확도 수준은 각 응답에 대한 채점자 1의 점수와 공식 점수 사이의 정확한 일치 통계에서 볼 수 있듯이 쓰기에서 항상 최소 83.66%, 말하기에서 80.19%이며, 정확한 일치 + 인접 일치에서는 항상 쓰기에서 최소 98.62%, 말하기에서 98.13%입니다. 이차 가중 카파(QWK) 값은 평가자 1과 평가자 2, 평가자 1과 공식 점수 간의 일치도가 매우 높은 것으로 나타났으며, 평가자 1과 평가자 2 점수, 평가자 1과 공식 점수 간의 상관관계도 매우 높은 것으로 나타났습니다. 마지막으로, SMD(표준화 평균 차이) 계수를 보면 Avant 평가자가 STAMP 척도를 매우 유사한 방식으로 사용하고 있음을 알 수 있습니다.

위의 통계는 Avant 평가의 평가자 선정 및 교육 프로그램의 높은 품질과 평가자 풀에서 일시적으로 제거되어 목표 교육을 받아야 할 수 있는 운영 평가자를 식별하는 방법론에 대한 증거를 제공합니다. 평가자 두 명이 응답에 부여하는 스탬프 레벨이 다를 수 있지만, 그 차이는 거의 1스탬프 레벨을 넘지 않으며 대부분의 경우 두 평가자가 정확히 동일한 레벨을 부여하는 것으로 나타났습니다. STAMP의 쓰기 또는 말하기 영역에서 수험생의 최종 공식 점수는 세 개의 독립적인 프롬프트에 대한 개별 STAMP 점수를 기반으로 한다는 사실과 함께, 본 결과는 STAMP의 쓰기 및 말하기 영역에서 수험생의 최종 점수가 이 두 영역의 언어 능력 수준을 신뢰할 수 있고 정확하게 나타내는 것으로 신뢰할 수 있다는 강력한 증거를 제시합니다.

참조

Akoglu, H. (2018). 상관 계수에 대한 사용자 가이드. 터키 응급 의학 저널, 18(3), 91-93.

Bachman, L. F., & Palmer, A. S. (1996). 실제 언어 테스트: 유용한 언어 테스트 설계 및 개발 (1 권). 옥스포드 대학 출판부.

펠트, L. S., & 브레넌, R. (1989). 신뢰성. R. L. Linn (Ed.)에서 교육 측정 (3 판, 105-146 쪽). New York: Macmillan.

Fleiss, J. L., Levin, B., & Paik, M. C. (2003). 비율과 비율에 대한 통계적 방법. 3rd ed. Wiley.

Graham, M., Milanowski, A., & Miller, J. (2012).
교사 및 교장 성과 평가의 평가자 간 합의 측정 및 촉진.

매트릭스 교육(2022). 물리학 실무 기술 파트 2: 실험의 타당성, 신뢰성 및 정확성. 2022년 8월 11일에 검색됨 (출처로 이동하려면 여기를 클릭).

Williamson, D. M., Xi, X., & Breyer, F. J. (2012). 자동화된 평가 및 사용을 위한 프레임워크
채점. 교육 측정: 이슈와 실천, 31(1), 2-13.

업데이트되었습니다: 2024년 11월