Co to jest skalowanie wyników?

Gdy twórcy testów przedstawiają wyniki testów użytkownikom końcowym (administratorom szkół, nauczycielom, rodzicom, samym zdającym lub innym potencjalnym użytkownikom wyników), ważne jest, aby znaczenie przedstawionych wyników liczbowych było jasne i łatwe w użyciu. W przeciwnym razie, jaki jest sens wyników testów?

Wyniki testów mogą przybierać różne formy.

Na przykład wyniki niektórych testów są podawane w postaci liczby poprawnych odpowiedzi lub procentu poprawnych odpowiedzi. Takie raportowanie jest przydatne w przypadkach, gdy każdy uczestnik testu przystępuje do dokładnie tego samego testu, jak w przypadku testów liniowych o stałej formie.

Testy Avant STAMP (STAndards-based Measurementof Proficiency) wykorzystują jednak bardziej nowoczesne podejście do psychometrii i opracowywania testów i nie są testami liniowymi. Wszystkie testy STAMP z czytania i słuchania są adaptacyjne komputerowo, co oznacza, że trudność testu dostosowuje się w czasie rzeczywistym do szacowanych umiejętności językowych każdego uczestnika testu. Skutkuje to dokładniejszym pomiarem biegłości językowej uczestników testu i zapewnia im przyjemniejsze doświadczenie niż w przypadku testu liniowego, ponieważ uczestnicy testu nie napotkają dużej liczby zadań znacznie poniżej lub powyżej ich rzeczywistego poziomu biegłości. To potężne podejście do tworzenia i wdrażania testów jest możliwe tylko dzięki technice psychometrycznej zwanej teorią odpowiedzi na pozycje (IRT). W IRT każda pojedyncza pozycja testowa (inaczej pytanie testowe) jest powiązana z własnym, naukowo zmierzonym poziomem trudności. W przypadku STAMP, poziom trudności każdego elementu testu jest obliczany na podstawie analizy IRT odpowiedzi setek (a w wielu przypadkach tysięcy) reprezentatywnych uczestników testu. Pozwala nam to skalibrować elementy pod względem ich trudności i upewnić się, że tylko najlepsze elementy są używane w każdym teście STAMP .     

Algorytm punktacji STAMP wykorzystuje również te informacje o trudności poszczególnych elementów, aby obliczyć ostateczny poziom STAMP każdego uczestnika testu, w oparciu o to, które elementy próbował rozwiązać podczas testu, jego odpowiedź na każdy element oraz umiejętności, które uczestnicy testu muszą wykazać, aby uzyskać wynik na każdym z poziomów STAMP (ten ostatni jest określany w procesie zwanym ustalaniem standardów). W związku z tym, biorąc pod uwagę adaptacyjny charakter ocen STAMP i biorąc pod uwagę, że każdy element ma pewien statystyczny poziom trudności z nim związany, raportowanie wyników STAMP pod względem liczby poprawnych odpowiedzi(np. 23 na 30) lub procentu poprawnych odpowiedzi (76,6%) nie jest ani znaczące, ani właściwe.

Jak wkrótce omówimy, teoria item-response theory (IRT), która stanowi statystyczną podstawę rozwoju i punktacji testów Avant STAMP , wykorzystuje skalę punktową, która nie jest zbyt intuicyjna dla użytkowników końcowych testów STAMP . Na przykład skala IRT ma zarówno wartości ujemne, jak i dodatnie. Poinformowanie uczestnika testu na raporcie wyników, że jego biegłość w czytaniu w niemieckim teście STAMP 4S wynosi -1,4 nie byłoby pomocne i naruszałoby wymóg jasnych i łatwych w użyciu wyników omówionych powyżej. Z tego powodu konieczne jest, aby wartości punktowe STAMP oparte na IRT zostały przekształcone w bardziej znaczącą i łatwą do interpretacji skalę punktową. Skala jest zasadniczo spektrum potencjalnych wartości pomiarowych, a twórcy testów muszą zdecydować o punktach odniesienia skali wyników, zanim wyniki będą mogły zostać zgłoszone.

Zrozumienie punktów odniesienia skali

Trzy skale, które czytelnicy prawdopodobnie znają, to skala Celsjusza, Fahrenheita i Kelvina. Chociaż wszystkie trzy są skalami temperatury, ich punkty odniesienia i interpretacja znacznie się różnią. To samo może dotyczyć różnych skal używanych do raportowania wyników biegłości językowej.

W skali Celsjusza stopień 0 ℃ oznacza punkt pomiarowy, w którym woda zamarza na poziomie morza, podczas gdy minimalna możliwa wartość pomiaru w skali Celsjusza wynosi -273,15 ℃, co jest punktem, w którym nie ma żadnej aktywności molekularnej w substancji. Jednak w skali Fahrenheita punkt pomiarowy, w którym woda zamarza na poziomie morza, wynosi 32 stopnie F, a nie 0 stopni F. W skali Fahrenheita - 459,67 F oznacza minimalną możliwą wartość pomiaru, gdy w substancji nie ma żadnej aktywności molekularnej. Jak widać, ani w skali Celsjusza, ani w skali Fahrenheita zero nie oznacza całkowitego braku czegoś. Jest to po prostu punkt odniesienia, który ma sens tylko w odniesieniu do całej skali i jej możliwych, osiągalnych wartości.

W przypadku skali temperatury, jedyną skalą, która ma prawdziwy punkt zerowy jest skala Kelvina. W skali Kelvina punkt pomiarowy 0 K w rzeczywistości oznacza brak jakiejkolwiek aktywności molekularnej, a zero oznacza minimalną możliwą wartość w skali Kelvina. Dlatego też w skali Kelvina wartości ujemne nie są możliwe, inaczej niż w skalach Celsjusza i Fahrenheita (i jak wkrótce zobaczymy, w skali IRT). Wszystkie trzy skale temperatury nie mają rzeczywistego limitu maksymalnych wartości, ponieważ nie jest znany limit tego, jak gorące może być coś.

Czy naprawdę możemy powiedzieć, że jedna skala jest lepsza od drugiej? Nie do końca. Wszystkie trzy skale są doskonale ważne same w sobie i są szeroko stosowane w różnych kontekstach, przy czym niektóre skale są uważane za bardziej odpowiednie przez użytkowników w zależności od konkretnych kontekstów. Jednak jedną rzeczą, która łączy te trzy skale i która sprawia, że doskonale nadają się do precyzyjnych pomiarów, jest fakt, że odległość między dowolnymi dwoma punktami pomiarowymi na skali wskazuje tę samą różnicę temperatur. Innymi słowy, różnica w aktywności molekularnej między 35 ℃ a 37 ℃ jest dokładnie taka sama jak między 89 ℃ a 91 ℃. Jest to cecha, którą w Avant uważamy za sedno dobrego pomiaru, a na pewno taka, którą wykorzystujemy w naszych wynikach STAMP .

Pomimo przydatności spojrzenia na trzy znane powyżej skale temperatury i zobaczenia, jak odpowiednie są one w danym kontekście do pomiaru konstruktu takiego jak temperatura, ważne jest, aby zrozumieć, że niektóre z cech, które posiadają, sprawiają, że są one nieodpowiednie do pomiaru konstruktu takiego jak biegłość językowa. Na przykład, praktycznie niemożliwe jest wyjaśnienie, co oznacza ujemna biegłość językowa lub w jaki sposób ktoś może mieć zerową umiejętność posługiwania się językiem; nawet osoba, która nigdy wcześniej nie uczyła się ani nie miała kontaktu z danym językiem, będzie miała pewną (choć minimalną) znajomość przynajmniej zapożyczonych słów w tym języku. Żaden test biegłości językowej nie może twierdzić, że ktoś ma zerową biegłość językową, ponieważ byłoby niemożliwe, aby dany test ocenił wszystkie możliwe scenariusze, w których dana osoba może wykazać się pewnym, nawet jeśli bardzo podstawowym, zrozumieniem słowa lub frazy w danym języku. Wszystkie testy językowe są ograniczone elementami obecnymi w teście i tym, co są w stanie zmierzyć, co oznacza, że testy językowe mogą nie mieć zerowego punktu pomiaru, ale mogą mieć minimalny punkt pomiaru, reprezentujący punkt, poniżej którego test nie jest w stanie sformułować żadnych twierdzeń. To samo dotyczy maksymalnego punktu odniesienia w teście; bez względu na to, ile elementów zawiera test, nigdy nie będzie w stanie zmierzyć całej biegłości językowej danej osoby. W związku z tym prawidłowa skala dla testu biegłości językowej, takiego jak testy STAMP , będzie miała minimalny punkt odniesienia (używany dla zdających, którzy otrzymali wszystkie elementy testu, które widzieli niepoprawnie), nie będzie miała zerowego punktu odniesienia i będzie miała maksymalny punkt odniesienia (używany dla zdających, którzy odpowiedzieli na wszystkie elementy testu, które widzieli poprawnie).

Pomiar IRT i wyniki STAMP

Jak wspomniano powyżej, ważne jest, aby równe przedziały w skali używanej do raportowania wyników testu biegłości językowej wskazywały tę samą różnicę w biegłości językowej. Wszystkie poziomy z testu STAMP (poziomy od 1 do 9) są dostosowane do poziomów biegłości ACTFL (od Novice Low do Advanced High), jak widać poniżej:

Pomimo dopasowania poziomów STAMP do poziomów biegłości ACTFL i pomimo przydatności poziomów biegłości ACTFL do wskazania ogólnego poziomu umiejętności osoby przystępującej do testu w języku, same poziomy ACTFL nie są zgodne z typem liczbowych wyników skalowanych, których szukamy. Po pierwsze, znaczenie różnicy przedziałów w poziomach ACTFL (a zatem STAMP) nie jest takie samo niezależnie od punktu na skali. Na przykład, przejście z poziomu Intermediate High (STAMP poziom 6) do Advanced Low (STAMP poziom 7) wymaga większej ilości umiejętności językowych niż przejście z poziomu Novice High (STAMP poziom 3) do Intermediate Low (STAMP poziom 4). Z tego właśnie powodu poziomy biegłości są przedstawiane jako odwrócona piramida, a nie jako kwadrat lub prostokąt. Po drugie, pomimo przydatności poziomów biegłości w celu wskazania, gdzie znajduje się dana osoba ucząca się języka pod względem biegłości językowej, uczniowie zdobywający punkty na tym samym poziomie STAMP mogą w rzeczywistości mieć nieco inne umiejętności językowe i mogą odpowiedzieć poprawnie na różną liczbę elementów w teście STAMP , nawet jeśli zdarzyło się, że widzieli dokładnie te same elementy za pomocą algorytmu adaptacyjnego STAMP . Dlatego też, pomimo istotnej przydatności poziomów STAMP i ACTFL w zrozumieniu biegłości językowej uczestników testu, poziomy te nie są tak szczegółowe, jak chcieliby tego niektórzy użytkownicy końcowi wyników naszych testów.

Na przykład, szkoła może mieć tylko dziesięć miejsc w specjalnej, wyróżnionej sekcji francuskiego czytania. Co jeśli czternastu uczniów osiągnęło poziom STAMP 9 w czytaniu? Jak szkoła może wybrać 10 z 14 uczniów do klasy z wyróżnieniem? Losowy wybór dziesięciu może być uznany za akceptowalne rozwiązanie, ale my na Avant Assessment możemy zapewnić lepszy i dokładniejszy sposób pomocy w tym przypadku. Jak wspomniano powyżej, Avant Assessment wykorzystuje statystyczną technikę pomiarową zwaną Item Response Theory , aby skalibrować wszystkie elementy w sekcjach czytania i słuchania (adaptacyjnych) testów STAMP , aby dopasować liczbę pytań, które zdający uzyskał poprawnie w swojej konkretnej ścieżce testowej do poziomów STAMP , a tym samym poziomów ACTFL, do których są one dopasowane, a na koniec, aby uzyskać skalowane wyniki, które zapewniają użytkownikom wyników bardziej szczegółową miarę umiejętności językowych każdego zdającego niż byłoby to możliwe, gdyby zgłaszane były tylko poziomy STAMP .

Skalowanie wyników STAMP

Gdy wszystkie elementy w określonej sekcji testu STAMP zostaną skalibrowane za pomocą IRT, jesteśmy w stanie przypisać szacunkową zdolność IRT (określaną również jako theta w terminologii IRT) każdemu uczniowi w oparciu o elementy, które uzyskał dobrze lub źle w określonej ścieżce, którą podążał w każdej z sekcji czytania i słuchania testu STAMP . Po uzyskaniu tej wartości jesteśmy w stanie przeskalować tę wartość (stąd termin skalowanie wyników), aby móc zgłaszać bardziej szczegółowe wyniki w celu uzupełnienia raportowania osiągniętego poziomu STAMP . Skalując wyniki IRT, jesteśmy w stanie zapewnić, że wszystkie skalowane wyniki są dodatnie (bez wartości ujemnych), a użytkownicy wyników, tacy jak hipotetyczna szkoła francuska powyżej, są w stanie bardziej przybliżyć biegłość uczniów, nawet jeśli uczniowie uzyskali wynik na tym samym poziomie STAMP .

Każda z sekcji czytania i słuchania każdego testu STAMP musi być skalowana oddzielnie. Dlatego też wyniki skalowane dla czytania w języku hiszpańskim nie mogą być porównywane bezpośrednio z wynikami skalowanymi dla słuchania w języku hiszpańskim lub z wynikami skalowanymi dla czytania w języku chińskim. Innymi słowy, skalowane wyniki STAMP są specyficzne dla języka i sekcji.

Skalujemy wyniki IRT w sekcjach Czytanie lub Słuchanie każdego z naszych testów za pomocą prostej transformacji liniowej, widocznej w poniższym wzorze:

Powyższe skalowanie zapewnia, że wszystkie możliwe wyniki skalowania dla danej sekcji testu STAMP są liczbami dodatnimi bez miejsc po przecinku, co jest znacznie bardziej intuicyjne niż wyniki w zakresie od - 4 do + 4, które są bardziej typowe dla IRT. Liniowe skalowanie widoczne w powyższym wzorze zapewnia również, że odległość między dowolnymi dwoma skalowanymi wynikami wskazuje na tę samą różnicę w umiejętnościach w dowolnym punkcie skali.

Interpretacja wyników skalowanych

Wyobraźmy sobie, że mamy następujących uczniów, którzy wzięli udział w części Listening japońskiego testu STAMP 4S:

  • Wynik punktowy ucznia A: 589
  • Wynik punktowy ucznia B: 612
  • Wynik punktowy ucznia C: 677
  • Wynik punktowy ucznia D: 700

Różnica w biegłości w słuchaniu języka japońskiego między uczniem A i uczniem B w języku japońskim (23 punkty w skali) jest taka sama jak różnica w biegłości w słuchaniu języka japońskiego między uczniem C i uczniem D (23 punkty). Jeśli dwóch uczniów osiągnęło ten sam poziom STAMP w słuchaniu japońskiego(np. STAMP poziom 4 - średniozaawansowany niski), ale jeden z nich uzyskał wynik skalowany o 20 punktów wyższy od drugiego, mamy mocne podstawy, by sądzić, że uczeń z wyższym wynikiem skalowanym jest bardziej biegły niż uczeń z niższym wynikiem skalowanym. Im większa różnica między ich wynikami skalowanymi, tym bardziej możemy być pewni, że różnica jest znacząca i że obaj uczniowie rzeczywiście nie są równie biegli. Wyniki skalowane mogą być również przydatne w przypadkach, gdy uczeń może wydawać się nie robić postępów po roku nauki i "utknąć" na tym samym poziomie biegłości. Porównanie jego wyniku skalowanego sprzed roku i wyniku skalowanego z bieżącego badania może wykazać niewielki przyrost biegłości, nawet jeśli taki przyrost nie był wystarczający, aby przenieść go na następny poziom STAMP .

Należy jednak pamiętać o jednej rzeczy: wszystkie oceny mają pewien margines błędu pomiaru związany z ich wynikami. Przykładowo, standardowy błąd pomiaru (SEM) podany przez ETS dla sekcji Listening egzaminu TOEFL iBT, który wykorzystuje skalę punktową od 0 do 30, wynosi 2,38 punktu (Educational Testing Services, 2018). Z kolei dla wyników sekcji SAT, z zakresem wyników 200 - 800, standardowy błąd pomiaru wynosi 30 punktów (College Board, 2018). Ponieważ nie jest wykonalne ocenianie każdego ucznia przez wiele różnych dni i na podstawie setek elementów testowych, każdy wynik testu jest migawką poziomu, jaki dany zdający był w stanie utrzymać w tym konkretnym dniu, w którym przystąpił do testu, oraz w odniesieniu do konkretnych elementów, na które odpowiedział podczas administrowania testem. Naturalnie, test taki jak STAMP 4S, którego sekcje czytania i słuchania są adaptowane komputerowo, który zawiera dużą liczbę elementów ukierunkowanych na szacowany poziom każdego zdającego w czasie rzeczywistym i który został opracowany zgodnie ze ścisłymi standardami jakościowymi i ilościowymi, będzie miał tendencję do mniejszego błędu pomiaru i będzie bardziej skuteczny i wydajny niż krótsze, nieadaptacyjne, liniowe testy, które nie podlegają tym samym rygorom (Schultz, Whitney i Zickar, 2014).Średni standardowy błąd pomiaru dla skalowanych wyników w sekcjach Czytanie i Słuchanie testów STAMP wynosi 10 punktów. Statystykę tę można łatwo wyprowadzić z rodzaju oprogramowania IRT, z którego korzystamy na stronie Avant.

Błąd pomiaru związany z wynikami skalowanymi STAMP jest dość mały, biorąc pod uwagę rygor psychometryczny i adaptacyjny charakter naszych testów. Chociaż zalecamy, aby analizy wyników testów były przeprowadzane głównie w oparciu o osiągnięty poziom STAMP , na stronie Avant sugerujemy, że wyniki skalowane mogą być brane pod uwagę w bardzo szczególnych przypadkach, gdy decyzje o wyższej stawce mają być podejmowane na podstawie wyników testu STAMP , na przykład gdy wyniki STAMP są wykorzystywane do przyznawania państwowych pieczęci dwujęzyczności (SSB) lub do przyznawania punktów na podstawie egzaminu (CBE). W takich przypadkach o wyższej stawce, jeśli skalowany wynik zdającego w czytaniu lub słuchaniu mieści się w granicach 10 punktów lub mniej od minimalnego skalowanego wyniku, który może kwalifikować go do SSB lub CBE, Avantstoi na stanowisku, że szkoła lub okręg może, według własnego uznania, zlecić takim zdającym ponowne przystąpienie do testu STAMP (biorąc pod uwagę jego adaptacyjny charakter, istnieje duża szansa, że zdający nie zobaczą dokładnie tych samych elementów, co w poprzedniej administracji). Jeśli w tym drugim podaniu skalowany wynik zdającego prowadzi do poziomu STAMP , który spełnia wymagania dla SSB lub CBE, Avantstoi na stanowisku, że wyniki z tego drugiego podania mogą być wykorzystane zamiast wyników z pierwszego podania.

Dwa scenariusze omówione powyżej to scenariusze o wyższej stawce, w których uzasadnione może być uwzględnienie niewielkiego marginesu błędu testu (należy pamiętać, że wszystkie testy mają margines błędu).

Zalecamy, aby generalnie właściwe było korzystanie ze skalowanych wyników STAMP do tradycyjnych zastosowań, takich jak bieżąca roczna analiza lub rozwój uczniów oraz do oceny programu.

Aby zobaczyć tabele skalowanych wyników dostępnych obecnie dla ocen STAMP , kliknij tutaj.

Referencje:

College Board (2018). SAT: Zrozumienie wyników. Retrieved from https://collegereadiness.collegeboard.org/pdf/understanding-sat-scores.pdf

Educational Testing Services (2018). Wiarygodność i porównywalność wyników TOEFL iBT. TOEFL Research Insight Series (vol. 3). Retrieved from www.ets.org/s/toefl/pdf/toefl_ibt_research_s1v3.pdf

Schultz, K. S., Whitney, D. J., & Zickar, M. J. (2014). Teoria pomiaru w działaniu. Studia przypadków i ćwiczenia (2nd ed.). London/New York: Routledge. College Board (2018). SAT: Understanding Scores. Retrieved from https://collegereadiness.collegeboard.org/pdf/understanding-sat-scores.pdf

Educational Testing Services (2018). Wiarygodność i porównywalność wyników TOEFL iBT. TOEFL Research Insight Series (vol. 3). Retrieved from www.ets.org/s/toefl/pdf/toefl_ibt_research_s1v3.pdf

Schultz, K. S., Whitney, D. J., & Zickar, M. J. (2014). Teoria pomiaru w działaniu. Studia przypadków i ćwiczenia (2nd ed.). London/New York: Routledge.

Aktualizacja: