초록
STAMP(표준 기반 능력 측정) 평가 제품군에 속하는 STAMP 4S 및 STAMP WS 시험에는 쓰기와 말하기 섹션이 포함되어 있습니다. 이러한 섹션의 점수의 유효성에 대한 중요한 증거는 의도된 용도와 해석을 고려할 때 점수가 얼마나 신뢰할 수 있고 정확한지를 보여주는 정도에서 비롯됩니다.
이 백서에서는 최근 5개 대표 STAMP 4S 언어(아랍어, 스페인어, 프랑스어, 중국어 간체, 러시아어)와 3개 대표 STAMP WS 언어(암하라어, 아이티 크리올어, 베트남어)의 쓰기 및 말하기 영역의 등급을 분석한 결과를 보여줍니다.
8개 언어에 걸쳐 23,000개 이상의 수험자 응답을 분석한 결과에 따르면 STAMP의 쓰기 및 말하기 영역 모두에서 높은 수준의 채점 정확도와 신뢰도를 보여주며, 이는 의도된 해석과 용도를 고려할 때 이 영역의 점수의 타당성을 강력하게 뒷받침합니다.
STAMP의 쓰기 및 말하기 섹션
STAMP의 쓰기 및 말하기 섹션 STAMP 시험군(표준 기반 언어 능력 측정 시험)은 실제 언어 능력을 평가하며 ACTFL 능력 가이드라인에 맞춰 제작되었습니다. STAMP 4S 시험은 미국 교육위원회(ACE)의 인증을 받은 4가지 언어 능력 시험으로, 이 글을 쓰는 시점에 14개 언어로 제공됩니다. 역시 ACE의 인증을 받은 STAMP WS는 쓰기와 말하기의 두 가지 생산적 능력에 대한 언어 능력 시험으로, 이 글을 쓰는 현재 24개 언어로 제공되고 있습니다. 시험의 측정 대상과 시험 점수의 용도를 고려할 때 시험 점수의 타당성을 평가하는 데 있어 중요한 두 가지 요소는 시험 점수의 신뢰도와 정확성입니다.
이 짧은 논문에서는 훈련된 인간 평가자가 응시자의 언어 산출물에 0(실력 없음)에서 8(고급-중급) 사이의 STAMP 레벨을 부여해야 하는 STAMP의 쓰기 및 말하기 영역에 대한 평가의 신뢰성과 정확성에 대해 논의하고 검토합니다.
STAMP 시험의 각 쓰기 및 말하기 섹션에서 수험생은 실제 시나리오에 기반한 세 가지 프롬프트에 응답해야 합니다. 수험생은 가능한 한 많은 글을 써서 자신의 언어 능력을 최대한으로 '과시'하도록 지시받습니다.
이 섹션의 세 가지 프롬프트 각각에 대한 수험자의 응답은 Avant-인증된 채점자가 채점하며, 이들은 철저하고 엄격한 교육 및 인증 프로그램을 통과해야만 STAMP 응답을 채점할 수 있습니다. 이러한 평가자가 실제 운영 중인 STAMP 쓰기 및 말하기 답안을 평가하기 시작하면 Avant 및 평가자 관리자는 평가의 품질을 보장하고 모든 Avant 평가자가 회사의 확립된 기준에 따라 평가하고 있는지 확인하기 위해 정성적 및 정량적 측정을 통해 각 평가자의 성과를 면밀히 주시합니다.
80%의 경우, 말하기 또는 쓰기 응답은 한 명의 평가자( Avant )가 평가합니다. 평가자가 해당 응답에 부여한 점수/스탬프 레벨이 시스템에서 해당 응답의 공식 점수가 됩니다. 20%의 경우, 최소 두 명의 Avant 평가자가 응답을 평가합니다. 두 평가자가 STAMP 점수에 동의하면 이 점수가 해당 응답에 할당된 공식 점수가 됩니다. 두 평가자가 동의하지 않는 경우에는 Avant 평가자 관리자가 참여하여 응답을 평가합니다. 평가 관리자가 제공한 평가 점수가 해당 응답에 부여된 공식 점수가 됩니다. 각 답안의 등급은 다른 두 답안에 대한 수험자의 응답과는 완전히 독립적으로 이루어집니다. 특정 답안을 평가할 때 채점자는 수험자, 해당 기술에 대한 다른 답안의 점수 또는 다른 채점자가 해당 답안에 부여한 점수에 대한 정보에 액세스할 수 없으므로 각 답안에 대한 평가의 유효성을 높일 수 있습니다.
쓰기 또는 말하기 영역에 대한 수험생의 최종 스탬프 점수는 세 개의 프롬프트 각각에 대해 받은 특정 스탬프 레벨에 따라 계산됩니다. 해당 섹션에 부여되는 공식 스탬프 레벨은 수험자가 세 개의 답안에서 유지할 수 있었던(즉, 최소 두 번의 사례에서 입증할 수 있었던) 가장 높은 숙련도 레벨이 됩니다.
그림 1과 같이 수험생이 첫 번째 응답에서 초급-중급, 두 번째 응답에서 초급-고급, 세 번째 응답에서 초급-고급을 받은 경우, 해당 영역의 공식 스탬프 레벨은 최소 두 번 이상 유지할 수 있었던 가장 높은 수준의 숙련도이므로 해당 영역의 공식 스탬프 레벨은 3(초급-고급)이 됩니다. 또는 첫 번째 응답에서 중급-낮음, 두 번째 응답에서 초급-고급, 세 번째 응답에서 중급-중급을 받은 경우, 해당 섹션의 최종 스탬프 레벨은 최소 두 번(이 경우 첫 번째와 세 번째)에서 유지할 수 있었던 가장 높은 레벨인 중급-낮음이 됩니다.
STAMP의 쓰기 영역에서 세 개의 독립적인 프롬프트를 사용하고 말하기 영역에서 세 개의 독립적인 프롬프트를 사용하는 것은 두 가지 주요 이점이 있습니다. 첫 번째 장점은 수험생이 다양한 주제에 대해 평가받을 수 있으므로 섹션 마지막에 부여된 능력 수준이 실제 세계의 다른 시나리오에도 일반화될 수 있다는 전제를 뒷받침한다는 것입니다. 두 번째 장점은 위에서 설명한 채점 방법론과 결합하여 개별 평가자( Avant )의 평가 편향의 영향을 최소화하는 데 도움이 된다는 것입니다.
이제 우리는 신뢰성과 정확성의 정의에 주목합니다.
신뢰성
신뢰도는 "측정의 일관성"으로 정의할 수 있습니다(Bachman & Palmer, 1996). 간단히 말해, 수험생이 그 동안 시험이 측정하는 내용에 대한 수험생의 숙련도가 변하지 않았다고 가정할 때, 수험생이 다른 기회에 다시 시험을 치르거나 다른 형태의 시험을 치를 때 주어진 시험의 점수가 동일하게 유지될 것이라고 신뢰할 수 있는 정도(신뢰도)를 말합니다.
예를 들어, 수험생이 오늘 언어 능력 시험을 치르고 중급-저 점수를 받았는데 내일 같은 시험에서 중급-고 점수를 받는다면, 수험생의 언어 지식과 정신 상태가 변하지 않았다면 시험의 신뢰도가 높지 않을 수 있다고 가정할 수 있습니다. 같은 맥락에서, 조직에서 시험을 다양한 병행 형태로 제공하는 경우(일반적으로 시험 보안을 강화하기 위해 수행됨) 수험자가 한 양식에서는 고급-낮은 점수를 받은 다음 다른 양식에서는 중급-중간 점수를 받는다면 다시 한번 해당 시험에 측정의 일관성이 부족하고 따라서 신뢰성 부족 문제가 있을 수 있다고 가정할 수 있습니다.
시험의 신뢰도에 영향을 미치는 요소 중 하나는 시험 채점 방식입니다. STAMP 시험의 읽기 및 듣기 영역은 객관식 문항으로 구성되며, 수험자의 답변은 컴퓨터 시스템에 의해 자동으로 채점됩니다. 즉, 수험자가 동일한 문항에 대해 여러 번 동일한 답변을 제공하더라도 항상 동일한 점수를 받게 됩니다.
반면, STAMP의 쓰기 및 말하기 영역은 채점자가 직접 채점합니다. 따라서 수험생의 응답을 채점하는 사람이 누구냐에 따라 동일한 응답에 대해 다른 점수를 받을 수 있습니다. 물론 평가자가 잘 훈련된 사람일수록 관대함이나 엄격함의 차이 또는 평가자의 편견으로 인해 점수가 달라질 가능성은 적습니다.
정확성
수험자는 시험 점수가 시험에서 측정하는 구성 요소(STAMP의 경우 각 언어 영역의 숙련도)를 얼마나 많이 또는 얼마나 적게 보유하고 있는지에 따라 달라질 것으로 기대합니다. 정확도는 수험자의 답변에 부여된 점수가 해당 구성 요소의 능력을 얼마나 정확하게 설명하는가와 관련이 있습니다. 따라서 수험생이 중상급 수준의 말하기 응답을 제출했는데 해당 응답에 등급을 부여한 두 명의 평가자가 중하급을 부여한 경우, 이는 부정확한 점수라고 할 수 있습니다. 두 달 후에 다른 두 명의 평가자가 동일한 응답을 평가하고 역시 중간-낮음을 부여한다면, 이 점수는 신뢰할 수 있음에도 불구하고 다시 한 번 부정확한 점수가 될 것입니다(한 번에서 다음 번으로 또는 한 평가자에서 다음 평가자로 바뀌지 않았음).
그림 2는 신뢰도와 정확도의 차이에 대해 설명합니다. 당연히 우리는 테스트가 신뢰성과 정확성을 모두 갖추기를 바랍니다. 이 두 가지 조건이 충족되면 테스트 점수의 유효성과 의도된 용도를 강력하게 뒷받침할 수 있습니다.
평가자가 점수의 신뢰성과 정확성을 평가하는 데 일반적으로 사용하는 통계
STAMP의 경우처럼 시험에 대한 수험자의 응답을 사람이 채점하는 경우, 점수는 응답 자체의 품질을 반영하므로 해당 응답을 평가하는 특정 평가자(또는 평가자)의 프로필에 영향을 받지 않거나 최소한의 영향만 받는다는 점을 확인하는 것이 중요합니다. 다시 말해, 점수는 특정 수험자가 응답에서 시험에서 측정한 구성 요소를 얼마나 많이 보여줄 수 있는지에만 의존해야 하며, 평가자가 얼마나 관대하거나 엄격하거나 편향되어 있는지에 따라 달라져서는 안 됩니다.
언어 시험 제공업체에서는 채점자가 누구인지에 따라 수험생의 답변에 부여하는 점수가 어느 정도 영향을 받을 수 있는지를 보여주기 위해 통계를 제공하는 경우가 많습니다. 언어 시험 문헌에서 이러한 통계는 종종 두 명의 개별 채점자가 동일한 에세이에 부여하는 점수를 비교하여 제공됩니다. 두 명의 채점자가 동일한 에세이에 가능한 한 동일한 점수를 부여하는 것이 매우 바람직하다고 가정하며, 이는 채점 프로세스의 신뢰도가 높다는 것을 보여줍니다.
그러나 위에서 살펴본 바와 같이 신뢰도에는 정확도가 수반되어야 하며 후자에 대해서도 조사해야 합니다. 결국, 두 명의 무작위 평가자가 동일한 에세이에 동일한 점수를 부여할 수 있지만 둘 다 틀릴 수 있습니다. 잘 개발되고 채점된 시험에서 가장 이상적인 시나리오는 채점자들이 서로 매우 동의하고 응답에 부여하는 점수가 일치하는(정확한) 경우입니다.
두 명의 평가자 간에 항상 완벽한 합의를 기대하는 것은 불가능하다는 점을 이해하는 것이 중요합니다. 각자가 받은 모든 훈련과 평가 대상에 대한 경험과 전문성(우리의 경우 언어 능력)에도 불구하고, 고도의 자격을 갖춘 사람들도 때때로 의견이 일치하지 않을 수 있습니다. 의사가 그렇습니다. 엔지니어도 마찬가지입니다. 과학자들도 마찬가지입니다. 따라서 가능한 한 높은 일치도를 목표로 하고, 해당 테스트 점수의 용도와 해석을 고려할 때 방어 가능한 것으로 판명되는 것을 목표로 하는 것이 좋습니다.
아래는 인간 평가자 팀이 제공하는 평가의 품질을 평가하기 위해 Avant 평가에서 실행하는 통계적 측정 방법입니다. 많은 회사가 정확하고 인접한 동의만을 보고할 수 있지만, 특정 측정값은 평가자의 품질에 대한 부분적인 정보만 제공할 수 있기 때문에 추가 측정값에 대해서도 평가자를 평가합니다. 더 많은 측정 항목이 포함될수록 결과를 삼각 측량하여 결론에 도달할 수 있습니다. 이 백서에서 보고할 측정 항목은 다음과 같습니다:
정확한 동의:
이 측정값은 분석된 전체 데이터 세트에서 평가자 1이 특정 응답에 부여한 레벨이 평가자 2가 부여한 레벨과 정확히 동일한 경우의 비율을 나타내는 백분율로 보고됩니다. 예를 들어, 평가자 1이 응답에 스탬프 레벨 5를 부여하고 평가자 2도 동일한 응답에 스탬프 레벨 5를 부여한 경우, 이는 정확히 일치하는 사례로 간주됩니다. 펠트와 브레넌(1989)은 두 명의 평가자를 사용하는 경우 최소 80%의 정확한 합의가 있어야 하며, 70%는 운영상 허용되는 것으로 간주한다고 제안합니다.
정확히 + 인접한 계약:
이 측정값은 분석된 전체 데이터 세트에서 평가자 1이 주어진 응답에 부여한 레벨이 평가자 2가 부여한 레벨과 일치하거나 인접한 경우의 비율을 나타내는 백분율로 보고됩니다. 예를 들어, 스탬프 레벨 5는 스탬프 레벨 4와 스탬프 레벨 6에 모두 인접합니다. 따라서 평가자 1이 응답에 STAMP 레벨 4를 부여하고 평가자 2가 해당 응답에 STAMP 레벨 5를 부여하는 경우, 이 두 레벨은 서로 인접하므로 이 측정값에 포함됩니다. Graham 등(2012)은 평가 척도에 5-7개 이상의 평가 수준이 있는 경우, STAMP 척도의 경우와 같이 정확도 + 인접도 일치율이 90%에 가까워야 한다고 제안합니다.
이차 가중 카파(QWK)
코헨의 카파(𝜿)는 우연히 발생할 수 있는 일치 가능성을 고려하여 두 평가자 간의 신뢰도를 측정합니다. 예를 들어, 쓰기와 말하기의 숫자 스탬프 척도는 스탬프 레벨 0에서 스탬프 레벨 8까지 9점 척도이므로, 두 평가자가 우연히 점수에 완벽하게 일치할 확률은 11.11%입니다. Avant 에서는 이러한 우연한 일치 확률을 고려하는 것 외에도 카파를 계산할 때 이차 가중치를 사용하므로 서로 거리가 먼 점수에 더 높은 벌점이 부여됩니다. 즉, 동일한 응답에 대한 두 등급 간에 STAMP 레벨 3과 STAMP 레벨 7의 차이를 관찰하는 것은 STAMP 레벨 3과 STAMP 레벨 4의 차이를 관찰하는 것보다 더 문제가 될 수 있습니다. 윌리엄슨 외(2012)는 QWK가 0.70 이상이어야 한다고 권장하며, 플레이스(2003)는 0.75 이상의 값은 대부분의 목적에 대해 우연 이상의 우수한 일치도를 나타낸다고 언급합니다. QWK 값이 0이면 두 평가 세트 간의 우연적 수준의 일치도를 나타내며, 1이면 완벽한 일치도를 나타냅니다.
표준화 평균 차이(SMD)
This measure shows the extent to which two raters may be using a rating scale in a similar way. It shows the difference of the mean of two sets of scores (i.e., Rater 1 vs. Rater 2) standardized by the pooled standard deviation of those two sets. Ideally, neither rater should prefer or avoid awarding levels at a certain point of a rating scale (for example, avoid giving either STAMP 0s or STAMP 8s). In other words, both raters should make equal use of the rating scale (STAMP 0 – STAMP 8) and the scores awarded should be dependent only on the level of proficiency shown in the response itself. It is recommended that the value for this measure should be <= 0.15 (Williamson et al., 2012), ensuring that the distribution of both sets of scores is acceptably similar.
스피어먼의 순위-순서 상관관계(ρ)
이 측정값은 두 변수(이 경우 평가자 1이 부여한 스탬프 수준과 평가자 2가 부여한 스탬프 수준) 간의 연관성을 나타냅니다. 평가자 팀이 잘 훈련되어 있고 평가 루브릭을 명확하게 이해하고 있다면 평가자 1이 응답에 높은 숙련도 수준을 할당할 때마다 평가자 2도 높은 수준을 할당할 것으로 예상할 수 있습니다. 다시 말해, 평가자가 실제로 동일한 구성을 평가하는 경우 두 세트의 점수가 함께 (위 또는 아래로) 움직일 것으로 예상합니다. STAMP 숙련도의 경우처럼 등급이 서수인 경우에는 Pearson 제품-모멘트 상관관계 대신 스피어만의 순위 상관관계 계수를 사용하기 때문에 전자가 더 선호됩니다. 상관계수가 0.80 이상이면 다양한 분야에서 강한 상관관계가 있는 것으로 간주됩니다(Akoglu, 2018).
2 스탬프 레벨 간격
백분율로 표시되는 이 측정값은 동일한 응답에 대한 두 개의 평가 등급이 2단계 차이가 나는 것으로 관찰된 횟수의 백분율을 나타냅니다(예: 평가자 1은 응답에 대해 평가 등급 4를 부여하고 평가자 2는 평가 등급 6을 부여하는 경우).
다양한 언어에 걸친 Avant 평가자의 신뢰도 및 점수 정확도
이제 위의 통계를 고려하여 몇 가지 대표 언어에 대한 STAMP 4S 및 STAMP WS의 쓰기 및 말하기 섹션에 대한 평가의 품질에 주목해 보겠습니다. 두 가지 다른 비교 세트를 기반으로 한 결과를 아래에 제공합니다:
평가자 1 대 평가자 2
최소 두 명의 평가자가 평가한 해당 언어의 수많은 응답에 대해 평가자 1이 부여한 스탬프 레벨과 평가자 2가 부여한 스탬프 레벨을 비교합니다. 이를 통해 무작위로 배정된 두 명의 평가자( Avant )가 제공하는 평가의 신뢰성을 뒷받침할 수 있습니다. 앞서 언급했듯이, 두 명의 평가자가 한 에세이에 똑같은 스탬프 레벨을 부여하더라도 두 평가자 모두 해당 응답에 대한 실제 등급과 다르게 평가할 수 있습니다. 따라서 평가자 1과 평가자 2 간의 정확한 일치도 측정값은 포함하지 않습니다. 대신, 정확한 + 인접한 일치에 초점을 맞추고 평가자 1이 부여한 점수(80%의 경우 단독 평가)와 공식 점수(아래 참조) 간의 정확도 측정에 대해서도 보고합니다.
평가자 1 대 공식 점수
Avant 평가자가 응답에 부여한 수준의 정확성을 평가하기 위해 두 명 이상의 평가자가 응답을 채점한 수많은 사례를 살펴봅니다. 그런 다음 시스템에서 해당 응답에 부여된 공식 점수(앞서 설명한 대로 해당 응답에 대한 개별 등급에서 파생됨)와 평가자 1이 부여한 점수만을 비교합니다. 이를 통해 한 명의 Avant 평가자만 응답을 평가했을 때 응답이 얼마나 정확하게 평가되었는지를 알 수 있습니다(80%의 경우).
표 1과 표 2는 대표적인 5개 STAMP 4S 언어의 쓰기 및 말하기 영역에 대한 통계적 측정값을 보여줍니다.
표 3과 표 4는 세 가지 대표적인 STAMP WS 언어(
)의 쓰기 및 말하기 섹션에 대한 통계 측정값을 보여줍니다.
토론
높은 수준의 신뢰도와 정확성은 시험 점수의 유효성과 시험 점수의 용도에 있어 기본입니다. 그러나 신뢰도와 정확도 측면에서 최소한으로 허용되는 수준은 특정 분야(의학, 법률, 스포츠, 법의학, 언어 시험 등)와 특정 수험자의 응답 세트에 부정확한 등급을 부여했을 때의 결과 및 등급 척도 자체에 따라 달라질 수 있습니다. 예를 들어, 등급 척도에서 사용할 수 있는 범주의 수가 많을수록 동의도가 낮아지는 경향이 있습니다. 즉, 두 채점자가 응답에 10개의 가능한 수준 중 하나를 할당해야 하는 경우 4가지 수준 중 하나만 할당해야 하는 경우보다 두 채점자 간에 더 많은 의견 불일치가 발생할 수 있습니다.
STAMP 4S와 STAMP WS의 쓰기 및 말하기 영역에 대한 위의 통계는 신뢰도(평가자 1 점수 대 평가자 2 점수)와 정확도(평가자 1 점수 대 공식 점수) 모두 높은 수준을 보여줍니다. 평가된 8개 언어 중, 평가자 1과 평가자 2의 정확도 + 인접도 합의에 의한 신뢰도는 쓰기에서 96.78%, 말하기에서 96.07%로 항상 최소(그리고 종종 상당히 높은) 수준입니다. 또한 두 평가자의 평가가 두 스탬프 레벨 이상 차이가 나는 경우는 거의 관찰되지 않았습니다. 8개 언어 모두에 대한 정확도 수준은 각 응답에 대한 채점자 1의 점수와 공식 점수 사이의 정확한 일치 통계에서 볼 수 있듯이 쓰기에서 항상 최소 83.66%, 말하기에서 80.19%이며, 정확한 일치 + 인접 일치에서는 항상 쓰기에서 최소 98.62%, 말하기에서 98.13%입니다. 이차 가중 카파(QWK) 값은 평가자 1과 평가자 2, 평가자 1과 공식 점수 간의 일치도가 매우 높은 것으로 나타났으며, 평가자 1과 평가자 2 점수, 평가자 1과 공식 점수 간의 상관관계도 매우 높은 것으로 나타났습니다. 마지막으로, SMD(표준화 평균 차이) 계수를 보면 Avant 평가자가 STAMP 척도를 매우 유사한 방식으로 사용하고 있음을 알 수 있습니다.
위의 통계는 Avant 평가의 평가자 선정 및 교육 프로그램의 높은 품질과 평가자 풀에서 일시적으로 제거되어 목표 교육을 받아야 할 수 있는 운영 평가자를 식별하는 방법론에 대한 증거를 제공합니다. 평가자 두 명이 응답에 부여하는 스탬프 레벨이 다를 수 있지만, 그 차이는 거의 1스탬프 레벨을 넘지 않으며 대부분의 경우 두 평가자가 정확히 동일한 레벨을 부여하는 것으로 나타났습니다. STAMP의 쓰기 또는 말하기 영역에서 수험생의 최종 공식 점수는 세 개의 독립적인 프롬프트에 대한 개별 STAMP 점수를 기반으로 한다는 사실과 함께, 본 결과는 STAMP의 쓰기 및 말하기 영역에서 수험생의 최종 점수가 이 두 영역의 언어 능력 수준을 신뢰할 수 있고 정확하게 나타내는 것으로 신뢰할 수 있다는 강력한 증거를 제시합니다.
참조
Akoglu, H. (2018). 상관 계수에 대한 사용자 가이드. 터키 응급 의학 저널, 18(3), 91-93.
Bachman, L. F., & Palmer, A. S. (1996). 실제 언어 테스트: 유용한 언어 테스트 설계 및 개발 (1 권). 옥스포드 대학 출판부.
펠트, L. S., & 브레넌, R. (1989). 신뢰성. R. L. Linn (Ed.)에서 교육 측정 (3 판, 105-146 쪽). New York: Macmillan.
Fleiss, J. L., Levin, B., & Paik, M. C. (2003). 비율과 비율에 대한 통계적 방법. 3rd ed. Wiley.
Graham, M., Milanowski, A., & Miller, J. (2012).
교사 및 교장 성과 평가의 평가자 간 합의 측정 및 촉진.
매트릭스 교육(2022). 물리학 실무 기술 파트 2: 실험의 타당성, 신뢰성 및 정확성. 2022년 8월 11일에 검색됨 (출처로 이동하려면 여기를 클릭).
Williamson, D. M., Xi, X., & Breyer, F. J. (2012). 자동화된 평가 및 사용을 위한 프레임워크
채점. 교육 측정: 이슈와 실천, 31(1), 2-13.