점수 확장이란 무엇인가요?

시험 개발자가 최종 사용자(학교 관리자, 교사, 학부모, 응시자 본인 또는 기타 잠재적 점수 사용자)에게 시험 점수를 보고할 때 보고된 수치 점수의 의미가 명확하고 사용하기 쉽도록 하는 것이 중요합니다. 그렇지 않다면 시험 점수의 의미는 무엇일까요?

시험 점수는 여러 가지 종류로 나올 수 있습니다.

예를 들어, 일부 시험의 점수는 정답 수 또는 정답률로 보고됩니다. 이러한 보고는 선형, 고정형 시험의 경우처럼 모든 응시자가 정확히 동일한 시험을 치르는 경우에 유용합니다.

그러나 Avant STAMP(표준기반 능력 측정) 평가는 보다 현대적인 심리 측정 및 시험 개발 접근법을 사용하며 선형적인 시험이 아닙니다 . 모든 STAMP 읽기 및 듣기 시험은 컴퓨터 적응형 시험으로, 시험의 난이도가 각 응시자의 예상 언어 능력에 따라 실시간으로 조정됩니다. 따라서 응시자의 언어 능력을 보다 정확하게 측정할 수 있으며, 응시자가 자신의 실제 실력보다 현저히 낮거나 높은 문항을 많이 접하지 않기 때문에 일반적인 선형 시험보다 응시자에게 더 즐거운 경험을 제공합니다. 이러한 강력한 시험 구성 및 배포 방식은 문항-응답 이론(IRT)이라는 심리 측정 기법을 통해서만 가능합니다. IRT에서는 모든 단일 시험 항목(일명 시험 문제)이 과학적으로 측정된 자체 난이도와 연관되어 있습니다. STAMP의 경우, 수백 명(많은 경우 수천 명)의 대표 응시자의 응답에 대한 IRT 분석을 통해 시험의 각 항목의 난이도를 계산합니다. 이를 통해 난이도 측면에서 문항을 보정하고 각 STAMP 시험에 가장 적합한 문항만 사용하도록 할 수 있습니다.     

또한 STAMP 채점 알고리즘은 각 응시자가 시험 중에 시도한 항목, 각 항목에 대한 응답, 각 STAMP 레벨에서 점수를 받기 위해 응시자가 입증해야 하는 능력(후자는 표준 설정이라는 과정을 통해 결정됨)을 기반으로 각 응시자의 최종 STAMP 레벨을 계산하기 위해 이 항목 난이도 정보를 사용합니다. 따라서 STAMP 평가의 적응형 특성을 고려하고 각 문항과 관련된 특정 통계적 난이도를 고려할 때, STAMP 점수를 정답 수(예: 30점 만점에 23점) 또는 정답률(76.6%)로 보고하는 것은 의미도 없고 적절하지도 않습니다.

곧 설명하겠지만, Avant STAMP 테스트의 개발과 채점의 통계적 근거가 되는 문항-반응 이론(IRT)은 최종 사용자에게 그다지 직관적이지 않은 점수 척도를 사용합니다. 예를 들어, IRT 척도에는 음수와 양수 값이 모두 있습니다. 응시자의 성적표에 독일어 STAMP 4S 시험의 읽기 능력이 -1.4라고 표시하는 것은 도움이 되지 않으며 위에서 설명한 명확하고 사용하기 쉬운 점수에 대한 요건을 위반하는 것입니다. 따라서 IRT를 기반으로 한 STAMP 점수 값을 보다 의미 있고 쉽게 해석할 수 있는 점수 척도로 변환할 필요가 있습니다. 척도는 기본적으로 잠재적인 측정값의 스펙트럼이며, 테스트 개발자는 점수를 보고하기 전에 점수 척도의 기준점을 결정해야 합니다.

척도의 기준점 이해하기

독자들에게 익숙한 세 가지 눈금은 섭씨, 화씨, 켈빈 온도 눈금입니다. 세 가지 모두 온도 척도이지만, 그 기준과 해석은 상당히 다릅니다. 언어 능력 점수를 보고하는 데 사용되는 다른 척도에도 동일하게 적용될 수 있습니다.

섭씨 눈금에서 0℃는 해수면에서 물이 얼어붙는 측정 지점을 나타내며, 섭씨 눈금에서 가능한 최소 측정값은 -273.15℃로 물질의 분자 활동이 전혀 없는 지점입니다. 그러나 화씨 눈금에서 물이 해수면에서 얼어붙는 측정 지점은 0도가 아니라 32도이며, 화씨 눈금에서 -459.67도는 물질의 분자 활동이 전혀 없는 최소 측정값을 나타냅니다. 보시다시피 섭씨나 화씨 눈금 모두에서 0은 실제로 무언가가 완전히 없다는 것을 의미하지 않습니다. 0은 완전한 눈금과 도달 가능한 값에 대해서만 의미가 있는 기준점일 뿐입니다.

온도 눈금의 경우, 진정한 영점이 있는 눈금은 켈빈 눈금뿐입니다. 켈빈 눈금에서 0K 측정점은 실제로 분자 활동이 전혀 없음을 의미하며, 0은 켈빈 눈금에서 가능한 최소값을 나타냅니다. 따라서 켈빈 눈금에서는 섭씨 및 화씨 눈금(그리고 곧 보게 되겠지만 IRT 눈금)과 달리 음수 값은 불가능합니다. 세 가지 온도 눈금 모두 최대값에 대한 실제 제한이 없는데, 이는 무언가가 얼마나 뜨거울 수 있는지에 대한 알려진 한계가 없기 때문입니다.

그렇다면 과연 한 저울이 다른 저울보다 낫다고 말할 수 있을까요? 그렇지 않습니다. 세 가지 척도 모두 그 자체로 완벽하게 유효하며 다양한 상황에서 널리 사용되고 있으며, 특정 상황에 따라 특정 척도가 더 적합하다고 판단되는 경우도 있습니다. 그러나 이 세 가지 눈금을 통합하고 정밀한 측정에 완벽하게 적합하게 만드는 한 가지는 눈금에서 두 측정 지점 사이의 거리가 동일한 온도 차이를 나타낸다는 사실입니다. 즉, 35℃와 37℃ 사이의 분자 활성도 차이는 89℃와 91℃ 사이의 분자 활성도 차이와 정확히 동일합니다. 이 특성은 Avant가 좋은 측정의 핵심이라고 생각하는 특성이며, STAMP 점수에 사용하는 특성입니다.

위의 세 가지 익숙한 온도 척도를 살펴보고 주어진 맥락에서 온도와 같은 개념을 측정하는 데 얼마나 적절한지 살펴보는 것이 유용하지만, 온도 척도가 가지고 있는 몇 가지 특성으로 인해 언어 능력과 같은 개념을 측정하는 데는 부적합하다는 점을 이해하는 것이 중요합니다. 예를 들어, 특정 언어를 전혀 공부하거나 접해 본 적이 없는 사람이라도 해당 언어에 대한 최소한의 지식은 가지고 있을 것이며, 언어 능력이 전혀 없는 사람이 어떻게 언어 능력이 0이 될 수 있는지 설명하는 것은 사실상 불가능할 것입니다. 언어 능력 시험은 해당 언어의 단어나 구문에 대해 아주 기초적인 수준의 이해도를 보일 수 있는 모든 가능한 시나리오를 평가하는 것이 불가능하기 때문에 어떤 언어 능력 시험도 언어 능력이 전혀 없다고 주장할 수 없습니다. 모든 언어 시험은 시험에 포함된 항목과 측정할 수 있는 항목에 의해 제한되므로, 언어 시험에는 영점 측정치가 없을 수도 있지만, 그 이하에서는 어떤 주장도 할 수 없는 최소 측정치가 있을 수 있습니다. 시험의 최대 기준점도 마찬가지이며, 시험에 아무리 많은 문항이 포함되어 있더라도 개인의 모든 언어 능력을 측정할 수는 없습니다. 따라서 STAMP 시험과 같은 언어 능력 시험에 유효한 척도에는 최소 기준점(모든 시험 항목을 틀린 응시자에게 사용)이 있고, 0점 기준점이 없으며, 최대 기준점(모든 시험 항목에 정답을 맞힌 응시자에게 사용)이 있습니다.

IRT 측정 및 스탬프 점수

위에서 언급한 바와 같이, 언어 능력 시험에서 점수를 보고하는 데 사용되는 척도의 동일한 간격은 언어 능력의 차이를 나타내는 것이 중요합니다. 아래에서 볼 수 있듯이 STAMP 시험의 모든 레벨(레벨 1 - 9)은 ACTFL 능력 수준(초급 낮음부터 고급 높음까지)에 맞춰져 있습니다:

STAMP 레벨이 ACTFL 능력 수준에 맞춰져 있고, 응시자의 일반적인 언어 능력 수준을 나타내는 데 ACTFL 능력 수준이 유용함에도 불구하고, ACTFL 레벨 자체는 우리가 찾고 있는 수치화된 점수 유형에 부합하지 않습니다. 첫째, ACTFL(따라서 STAMP) 레벨의 간격 차이의 의미는 척도의 점수에 관계없이 동일하지 않습니다. 예를 들어, 초급(STAMP 레벨 3)에서 중급(STAMP 레벨 6)으로 이동하는 것보다 중급(STAMP 레벨 7)으로 이동하는 데 더 많은 언어 능력이 필요합니다. 바로 이러한 이유로 숙련도 레벨은 정사각형이나 직사각형이 아닌 역피라미드로 표시되어 있습니다. 둘째, 특정 언어 학습자의 언어 능력 수준을 나타내는 데 있어 숙련도 레벨의 유용성에도 불구하고, 같은 STAMP 레벨에서 점수를 받은 학생이라도 실제로는 언어 능력이 조금씩 다를 수 있으며, STAMP 적응 알고리즘을 통해 정확히 같은 항목을 보았더라도 STAMP 시험에서 정답이 다른 수의 항목에 답했을 수 있습니다. 따라서 응시자의 언어 능력을 이해하는 데 있어 STAMP 및 ACTFL 레벨이 매우 유용함에도 불구하고, 이러한 레벨은 시험 점수를 사용하는 일부 최종 사용자가 원하는 만큼 세분화되어 있지 않습니다.

예를 들어, 한 학교에 프랑스어 읽기 특별 우등생 섹션의 정원이 10명뿐일 수 있습니다. 학생 중 14명이 읽기에서 스탬프 레벨 9에 도달했다면 어떻게 해야 하나요? 학교는 14명의 학생 중 10명을 어떻게 우등반으로 뽑을 수 있나요? 무작위로 10명을 뽑는 것도 괜찮은 해결책으로 간주될 수 있지만, Avant Assessment는 이 경우 더 정확하고 나은 방법을 제공할 수 있습니다. 위에서 언급한 바와 같이 Avant Assessment는 항목 반응 이론이라는 통계적 측정 기법을 사용하여 (적응형) STAMP 시험의 읽기 및 듣기 섹션의 모든 항목을 보정하고, 응시자가 특정 시험 경로에서 맞추는 문제 수를 STAMP 레벨과 그에 따른 ACTFL 레벨에 맞추고, 마지막으로 점수 사용자에게 각 응시자의 언어 능력을 STAMP 레벨만 보고할 때보다 더 세밀하게 측정할 수 있는 척도 점수를 생성합니다.

스탬프 점수 조정하기

STAMP 시험의 특정 섹션의 모든 문항이 IRT를 통해 보정되면, 각 학생이 STAMP 시험의 각 읽기 및 듣기 섹션에서 정답 또는 오답을 맞힌 문항을 기준으로 각 학생에게 IRT 능력 추정치(IRT 용어로는 세타라고도 함)를 할당할 수 있습니다. 이 값을 얻은 다음에는 이 값의 스케일링 (따라서 점수 스케일링이라는 용어를 사용함)을 통해 보다 세분화된 점수를 보고할 수 있어 달성한 STAMP 레벨의 보고를 보완할 수 있습니다. IRT 점수를 스케일링하면 모든 스케일링된 점수가 양수(음수 값 없음)가 되도록 할 수 있으며, 위의 가상의 프랑스어 학교와 같이 점수 사용자는 학생들이 동일한 STAMP 레벨에서 점수를 받았더라도 학생의 실력을 더 자세히 파악할 수 있습니다.

각 STAMP 시험의 각 읽기 및 듣기 영역은 개별적으로 채점되어야 합니다. 따라서 스페인어 읽기의 채점 점수를 스페인어 듣기의 채점 점수 또는 중국어 읽기의 채점 점수와 직접 비교할 수 없습니다. 다시 말해, STAMP 환산 점수는 언어 및 영역별로 다릅니다.

각 시험의 읽기 또는 듣기 영역의 IRT 점수는 아래 공식에서 볼 수 있는 간단한 선형 변환을 통해 배점합니다:

위의 배율은 STAMP 시험의 특정 영역에서 가능한 모든 배점 점수가 소수점이 없는 양수임을 보장하며, 이는 IRT의 일반적인 점수인 -4에서 +4까지의 점수보다 훨씬 더 직관적입니다. 또한 위의 공식에서 볼 수 있는 선형 척도는 두 척도 점수 사이의 거리가 척도의 어느 지점에서든 동일한 능력 차이를 나타내도록 합니다.

척도 점수 해석

일본어 STAMP 4S 시험의 듣기 영역에 응시한 학생이 다음과 같다고 가정해 보겠습니다:

  • 학생 A 척도 점수: 589점
  • 학생 B 척도 점수: 612
  • 학생 C 척도 점수: 677점
  • 학생 D 척도 점수: 700점

학생 A와 학생 B의 일본어 듣기 능력 차이(23점)는 학생 C와 학생 D의 일본어 듣기 능력 차이(23점)와 동일합니다. 두 학생이 일본어 듣기에서 동일한 STAMP 레벨(예: STAMP 레벨 4 - 중급 낮음)을 달성했지만 한 학생의 척도 점수가 다른 학생보다 20점 높은 경우, 척도 점수가 높은 학생이 낮은 학생보다 더 능숙하다고 믿을 수 있는 강력한 근거가 있습니다. 두 학생의 척도 점수 차이가 클수록 그 차이가 의미 있고 두 학생의 실력이 실제로 똑같지 않다는 확신을 가질 수 있습니다. 척도 점수는 학생이 1년 동안 공부한 후에도 진전이 없는 것처럼 보이고 동일한 숙련도 수준에 '고착'되어 있는 경우에도 유용할 수 있습니다. 1년 전의 척도 점수와 현재 관리의 척도 점수를 비교하면 다음 스탬프 레벨로 이동하기에 충분하지 않더라도 학생의 실력이 조금씩 향상되었음을 알 수 있습니다.

하지만 한 가지 명심해야 할 점이 있습니다: 모든 평가에는 점수와 관련된 일정한 측정 오차 범위가 있습니다. 예를 들어, 0~30점 범위의 점수 척도를 사용하는 TOEFL iBT의 듣기 영역에 대해 ETS가 보고한 표준 측정 오차(SEM)는 2.38점입니다(Educational Testing Services, 2018). 반면, 점수 범위가 200~800점인 SAT 영역 점수의 경우 표준 오차는 30점입니다(College Board, 2018). 여러 날, 수백 개의 시험 항목에 걸쳐 각 학생을 평가하는 것은 불가능하기 때문에 모든 시험 결과는 특정 응시자가 시험을 치른 특정 날과 시험 시행 중에 답한 특정 항목에 걸쳐 어느 정도의 수준을 유지할 수 있었는지를 보여주는 스냅샷입니다. 당연히 읽기 및 듣기 영역이 컴퓨터 적응형이고, 각 응시자의 예상 수준을 실시간으로 측정하는 수많은 문항이 포함되어 있으며, 엄격한 질적 및 양적 기준에 따라 개발된 STAMP 4S와 같은 시험은 동일한 엄격함을 따르지 않는 짧은 비적응형 선형 시험보다 측정 오차가 작고 효과적이고 효율적인 경향이 있습니다(Schultz, Whitney, & Zickar, 2014).STAMP 시험의 읽기 및 듣기 영역의 척도 점수에 대한 평균 표준 오차는 10점입니다. 이 통계는 Avant에서 사용하는 IRT 소프트웨어의 유형에서 쉽게 도출할 수 있습니다.

STAMP 척도 점수와 관련된 측정 오차는 심리측정학적 엄격성과 시험의 적응적 특성을 고려할 때 매우 작습니다. 시험 점수 분석은 주로 달성한 STAMP 레벨을 기준으로 하는 것이 좋지만, 국가 문해력 인증(SSB) 또는 시험별 학점 부여(CBE)와 같이 STAMP 시험 점수를 기반으로 더 높은 수준의 결정을 내려야 하는 매우 특별한 경우에는 환산 점수를 고려할 수 있다고 Avant는 권장합니다. 이러한 고난도 시험의 경우, 응시자의 읽기 또는 듣기 척도 점수가 SSB 또는 CBE 자격을 얻을 수 있는 최소 척도 점수에서 10점 이하인 경우, 학교 또는 학군은 재량에 따라 해당 응시자에게 STAMP 시험에 다시 응시하도록 할 수 있다는 것이 Avant의 입장입니다(적응형 시험의 특성상 응시자가 이전 시행과 동일한 항목을 보지 못할 가능성이 큽니다). 이 두 번째 시험에서 응시자의 척도 점수가 SSB 또는 CBE 요건을 충족하는 STAMP 레벨에 도달하는 경우, Avant의 입장은 이 두 번째 시험의 점수가 첫 번째 시험의 점수 대신 사용될 수 있다는 것입니다.

위에서 설명한 두 가지 시나리오는 테스트의 작은 오차 또는 오차를 고려해야 할 수 있는 위험도가 높은 시나리오입니다( 모든 테스트에는 오차 범위가 있다는 점을 기억하세요).

일반적으로 연도별 분석 또는 학생의 성장과 같은 전통적인 용도와 프로그램 평가에는 STAMP 척도 점수를 사용하는 것이 적절합니다.

현재 STAMP 평가에 사용할 수 있는 척도 점수 표를 보려면 여기를 클릭하세요.

참조:

College Board (2018). SAT: 점수 이해. 에서 가져온 것 https://collegereadiness.collegeboard.org/pdf/understanding-sat-scores.pdf

교육 시험 서비스 (2018). TOEFL iBT 점수의 신뢰성 및 비교 가능성. TOEFL 연구 인사이트 시리즈(3권). 에서 가져온 것 www.ets.org/s/toefl/pdf/toefl_ibt_research_s1v3.pdf

Schultz, K. S., Whitney, D. J., & Zickar, M. J. (2014). 실제 측정 이론. 사례 연구 및 연습 (2nd ed.). 런던/뉴욕: Routledge. College Board (2018). SAT: 점수 이해. 에서 가져온 것 https://collegereadiness.collegeboard.org/pdf/understanding-sat-scores.pdf

교육 시험 서비스 (2018). TOEFL iBT 점수의 신뢰성 및 비교 가능성. TOEFL 연구 인사이트 시리즈(3권). 에서 가져온 것 www.ets.org/s/toefl/pdf/toefl_ibt_research_s1v3.pdf

Schultz, K. S., Whitney, D. J., & Zickar, M. J. (2014). 실제 측정 이론. 사례 연구 및 연습 (2nd ed.). 런던/뉴욕: Routledge.

업데이트되었습니다: