테스트 신뢰성과 유효성이 중요한 이유
테스트 신뢰성 정의
간단히 말해서, 신뢰도란 같은 학생에게 같은 시험을 치르면 같은 점수를 받는다는 것을 의미합니다. 이는 달성하기 쉽지 않습니다. 읽기 및 듣기 영역의 컴퓨터 채점 문항(문항)의 경우, 시험 개발자는 문항에 대한 통계적 분석을 수행해야 합니다. 이 과정을 심리측정 분석이라고 합니다. 이 분석은 이상적으로는 다양한 수준의 실력을 갖춘 여러 응시자의 데이터로 수행됩니다. 문항이 좋은 문항이라면, 분석은 응시자의 정확한 수준을 일관되게 식별하는 것을 확인합니다. 즉, 중하위권 문항인 경우 초급 수준의 응시자는 지속적으로 틀릴 것이고 중급 이상의 응시자는 정답을 맞힐 것입니다. 이러한 방식으로 문항이 일관되게 출제될수록 응시자의 언어 능력을 더 잘 구분할 수 있습니다. 분석을 통해 각 문항은 쉬운 문항부터 어려운 문항까지 스펙트럼에 따라 분류됩니다. 이러한 노력의 결과로 모든 중저 난이도 문항이 동일하게 만들어지는 것은 아니며, 같은 레벨의 일부 문항이 다른 문항보다 더 어렵다는 것을 알 수 있습니다. 시험을 만들 때는 레벨 내 난이도를 고려해야 합니다. 심리측정학적으로 좋은 문항으로 확인된 잘 배치된 문항으로 구성된 컴퓨터 채점 시험은 해당 기술을 매우 신뢰성 있게 테스트할 수 있어야 합니다.
테스트 평가자가 중요한 이유
컴퓨터로 채점하는 말하기 및 쓰기 시험도 있지만, 일반적으로 신뢰할 수 있는 말하기 및 쓰기 시험을 만들려면 매우 일관성 있는 사람의 채점이 필요합니다. 우선, 채점의 신뢰도를 측정할 수 있는 방법이 있으려면 여러 명의 평가자가 시험을 채점해야 합니다. 채점의 일관성 정도는 '평가자간 신뢰도(IRR)'라는 것을 계산하여 결정됩니다. 즉, 서로 다른 평가자 간의 점수가 얼마나 신뢰성 있게 일치하는지를 의미합니다. IRR이 높으면 시험의 신뢰도가 높으며 시험 점수가 정확하다고 믿을 수 있습니다.
테스트 유효성 정의
유효성이란 정확성이나 과학성이 훨씬 떨어지는 개념입니다. 간단히 말해, 시험의 용도에 적합한 것을 측정하고 있다면 그 시험은 유효하다고 할 수 있습니다. 교사가 학습자가 프랑스어 어휘 숙제를 암기했는지 알고 싶다면 숙제에 대한 몇 가지 질문을 던질 것입니다. 중국의 역사에 대해서는 묻지 않을 것입니다. 학습자의 숙련도를 측정하려면 학습자가 특별히 준비하지 않은 실제적인 질문을 다양한 수준에서 던져 학습자가 실제로 해당 언어로 무엇을 할 수 있는지 확인해야 합니다. 이는 응시자의 실제 작업 수행 능력(=숙련도)을 측정하는 데 유효한 접근 방식이 될 수 있습니다.
Avant 평가 정보
숙련도를 향한 여정을 시작하려면 여기를 클릭하세요.