Streszczenie
Oceny STAMP 4S i STAMP WS, należące do rodziny STAMP (Standards-Based Measurement of Proficiency), obejmują sekcje pisania i mówienia. Wiarygodne i dokładne wyniki mają kluczowe znaczenie dla walidacji zamierzonych zastosowań tych testów.
Niniejszy artykuł przedstawia wyniki niedawnej analizy ocen w sekcjach Pisanie i Mówienie dla pięciu języków STAMP 4S (arabski, hiszpański, francuski, chiński uproszczony i rosyjski) oraz trzech języków STAMP WS (amharski, kreolski haitański i wietnamski).
Analiza, która obejmowała ponad 23 000 odpowiedzi, wykazała wysoką dokładność i rzetelność punktacji zarówno w części Pisanie, jak i Mówienie, zdecydowanie potwierdzając ważność tych wyników zgodnie z ich przeznaczeniem.
Sekcje STAMP dotyczące pisania i mówienia
Rodzina testów STAMP ocenia rzeczywiste umiejętności językowe.
STAMP 4S ocenia cztery umiejętności językowe i jest akredytowany przez American Council on Education (ACE), obecnie dostępny w 15 językach.
STAMP WS, również akredytowany przez ACE, sprawdza umiejętności pisania i mówienia i jest dostępny w następujących wersjach 37 językach.
Dwa kluczowe czynniki w walidacji wyników testu to rzetelność i dokładność. Niniejszy artykuł analizuje rzetelność i dokładność ocen w sekcjach Pisanie i Mówienie testu STAMP, ocenianych przez przeszkolonych sędziów na poziomach od 0 ( brak biegłości) do 8 (zaawansowany-średni).
W sekcjach Pisanie i Mówienie zdający odpowiadają na trzy rzeczywiste pytania, starając się zaprezentować swoje umiejętności językowe. Każda odpowiedź jest oceniana niezależnie przez certyfikowanych sędziów, którzy przechodzą rygorystyczne szkolenie i stały monitoring w celu zapewnienia spójności i jakości.
Zazwyczaj 80% odpowiedzi jest ocenianych przez jednego oceniającego, którego wynik staje się oficjalny. W 20% przypadków co najmniej dwóch oceniających ocenia odpowiedź, a w przypadku różnicy zdań wkracza menedżer. Oceny są dokonywane niezależnie, bez wiedzy o innych odpowiedziach lub wynikach, co zapewnia bezstronne wyniki.
Końcowy wynik egzaminatora za pisanie lub mówienie opiera się na najwyższym poziomie, jaki może on konsekwentnie prezentować w dwóch z trzech podpowiedzi.
Jak pokazano na rysunku 1, oficjalny poziom STAMP egzaminowanego jest określany przez najwyższy poziom, jaki może on konsekwentnie wykazywać w co najmniej dwóch z trzech odpowiedzi. Na przykład, jeśli egzaminowany otrzyma Novice-Mid za pierwszą odpowiedź, Novice-High za drugą i Novice-High za trzecią, jego ostateczny poziom STAMP to STAMP 3 (Novice-High). Alternatywnie, jeśli otrzymają Intermediate-Low za pierwszą odpowiedź, Novice-High za drugą i Intermediate-Mid za trzecią, ich ostateczny poziom to Intermediate-Low, ponieważ jest to najwyższy poziom, który utrzymali dwukrotnie (w pierwszej i trzeciej odpowiedzi).
Korzystanie z trzech niezależnych podpowiedzi w sekcjach STAMP dotyczących pisania i mówienia ma dwie główne zalety:
- Szerszy zakres tematyczny: Ocenianie egzaminatorów z różnych tematów zapewnia, że przyznany poziom biegłości jest bardziej prawdopodobny do uogólnienia na inne sytuacje w świecie rzeczywistym.
- Minimalizowanie stronniczości oceniających: W połączeniu z metodą punktacji, korzystanie z wielu podpowiedzi pomaga zmniejszyć potencjalną stronniczość poszczególnych oceniających.
Następnie omówimy definicje niezawodności i dokładności.
Niezawodność
Rzetelność odnosi się do spójności pomiaru (Bachman & Palmer, 1996). Mówiąc prościej, jest to stopień, w jakim możemy ufać, że wyniki testu pozostaną takie same, jeśli egzaminowany podejdzie do testu ponownie w innym czasie lub weźmie udział w różnych wersjach testu, zakładając, że jego umiejętności nie uległy zmianie.
Na przykład, jeśli egzaminowany uzyska dziś wynik średnio-niski, a jutro średnio-wysoki, bez żadnych zmian w swojej wiedzy lub stanie psychicznym, sugeruje to, że test może nie być wysoce wiarygodny. Podobnie, jeśli egzaminowany uzyskuje wynik na poziomie Advanced-Low w jednej wersji testu i Intermediate-Mid w innej, oznacza to brak spójności, wskazując na problem z wiarygodnością testu.
Jednym z czynników wpływających na wiarygodność testu jest sposób jego oceniania. W teście STAMP sekcje czytania i słuchania składają się z pytań wielokrotnego wyboru, które są automatycznie oceniane przez komputer. Gwarantuje to, że jeśli egzaminowany udzieli tych samych odpowiedzi przy różnych okazjach, zawsze otrzyma ten sam wynik.
Jednak sekcje Pisanie i Mówienie są oceniane przez osoby oceniające. Oznacza to, że wyniki mogą się różnić w zależności od tego, kto ocenia odpowiedź. W przypadku dobrze wyszkolonych oceniających spodziewamy się, że różnice w wynikach będą minimalne, zmniejszając wpływ pobłażliwości, surowości lub potencjalnej stronniczości.
Dokładność
Egzaminatorzy oczekują, że ich wyniki będą odzwierciedlać jedynie ich biegłość w mierzonym konstrukcie (w STAMP, biegłość w każdej domenie językowej).
Dokładność odnosi się do tego, jak dobrze przyznany wynik odzwierciedla rzeczywiste umiejętności zdającego. Na przykład, jeśli zdający przedstawi odpowiedź na poziomie Intermediate-High, ale otrzyma wynik Intermediate-Low od dwóch oceniających, wynik jest niedokładny. Nawet jeśli dwaj inni oceniający przyznają ocenę Intermediate-Low dwa miesiące później, wynik pozostaje niedokładny, chociaż jest wiarygodny (ponieważ jest spójny między oceniającymi i w czasie).
Rysunek 2 ilustruje różnicę między rzetelnością a dokładnością. W idealnej sytuacji testy powinny być zarówno wiarygodne, jak i dokładne, ponieważ zapewnia to ważność wyników i ich zamierzone zastosowanie.
Statystyki powszechnie stosowane do oceny wiarygodności i dokładności wyników przez oceniających
Gdy odpowiedzi są oceniane przez osoby oceniające, tak jak w przypadku STAMP, kluczowe jest zapewnienie, że wyniki odzwierciedlają jakość samej odpowiedzi, a nie charakterystykę osoby oceniającej. Innymi słowy, wyniki powinny zależeć wyłącznie od wykazanej biegłości egzaminowanego, a nie od pobłażliwości, surowości lub stronniczości oceniającego.
Dostawcy testów językowych często używają statystyk, aby pokazać, jak bardzo wyniki mogą się różnić w zależności od oceniającego. Zazwyczaj polega to na porównaniu ocen dwóch różnych osób oceniających tę samą odpowiedź. Idealnie byłoby, gdyby oceniający zgadzali się tak często, jak to możliwe, co wskazuje na wiarygodny proces oceniania.
Jednak niezawodności musi również towarzyszyć dokładność. Dwóch oceniających może przypisać ten sam wynik, ale obaj mogą być niepoprawni. W dobrze opracowanym teście celem jest, aby oceniający konsekwentnie zgadzali się i byli dokładni w swoich ocenach.
Idealna zgodność między oceniającymi ludźmi nie zawsze jest realistyczna. Pomimo szkolenia i wiedzy specjalistycznej, nawet wykwalifikowani oceniający mogą czasami się nie zgadzać - podobnie jak lekarze, inżynierowie lub naukowcy. Celem jest osiągnięcie wysokiej zgodności, którą można obronić, biorąc pod uwagę zamierzone wykorzystanie wyników.
Poniżej znajdują się miary statystyczne, których używamy w Avant Assessment do oceny jakości ocen dostarczanych przez naszych oceniających. Podczas gdy wiele firm zgłasza tylko dokładną i przyległą zgodność, my oceniamy dodatkowe miary, aby uzyskać kompleksowy obraz jakości ocen. Miary przedstawione w niniejszym dokumencie obejmują:
Dokładna umowa:
Miara ta jest podawana jako wartość procentowa, która wskazuje odsetek przypadków, w całym analizowanym zbiorze danych, gdy poziom przyznany danej odpowiedzi przez Rater 1 jest dokładnie taki sam jak poziom przyznany przez Rater 2. Na przykład, jeśli Rater 1 przyzna odpowiedzi poziom STAMP 5, a Rater 2 również przyzna tej samej odpowiedzi poziom STAMP 5, zostanie to uznane za przypadek dokładnej zgodności. Feldt i Brennan (1989) sugerują, że gdy wykorzystywanych jest dwóch oceniających, dokładna zgodność powinna wynosić co najmniej 80%, przy czym 70% uważa się za akceptowalne do użytku operacyjnego.
Ta miara jest zgłaszana jako wartość procentowa, pokazująca, jak często Rater 1 i Rater 2 przypisywali ten sam poziom do odpowiedzi w całym zbiorze danych. Na przykład, jeśli obaj oceniający przypiszą poziom STAMP 5 do tej samej odpowiedzi, liczy się to jako przypadek dokładnej zgodności. Według Feldt i Brennan (1989) dokładna zgodność powinna wynosić co najmniej 80%, przy czym 70% uważa się za akceptowalne do użytku operacyjnego.
Dokładna + sąsiadująca umowa:
Ta miara jest podawana jako wartość procentowa pokazująca, jak często Rater 1 i Rater 2 przypisywali ten sam lub sąsiedni poziom do odpowiedzi w całym zbiorze danych.
Na przykład poziom 5 STAMP sąsiaduje z poziomami 4 i 6. Jeśli Rater 1 przypisuje poziom 4, a Rater 2 przypisuje poziom 5, liczy się to do tej miary, ponieważ poziomy sąsiadują ze sobą. Według Graham et al. (2012), gdy skala ocen ma więcej niż 5-7 poziomów, tak jak w przypadku skali STAMP, dokładna + sąsiadująca zgodność powinna być bliska 90%.
Kwadratowa ważona kappa (QWK)
Współczynnik kappa Cohena (𝜅) mierzy wiarygodność między dwoma oceniającymi, uwzględniając możliwość przypadkowego porozumienia. Na przykład w przypadku 9-punktowej skali STAMP (od poziomu 0 do poziomu 8) istnieje 11,11% szans, że dwóch oceniających zgodzi się co do wyniku wyłącznie przez przypadek. Przy Avantprzy obliczaniu kappa stosujemy również wagi kwadratowe, co oznacza, że większe rozbieżności między wynikami są karane wyższymi karami. Na przykład, różnica między poziomem 3 STAMP a poziomem 7 jest bardziej problematyczna niż różnica między poziomem 3 a poziomem 4.
Williamson et al. (2012) zalecają, aby ważony kwadratowo współczynnik kappa (QWK ) wynosił ≥ 0,70, podczas gdy Fleiss (2003) zauważa, że wartości powyżej 0,75 wskazują na doskonałą zgodność wykraczającą poza przypadek. Wartość QWK równa 0 oznacza, że zgodność jest czysto przypadkowa, podczas gdy wartość 1 oznacza doskonałą zgodność.
Standaryzowana średnia różnica (SMD)
Ta miara pokazuje, jak podobnie dwóch oceniających używa skali ocen. Porównuje różnicę w średniej dwóch zestawów wyników (Rater 1 vs. Rater 2), znormalizowaną przez łączne odchylenie standardowe tych wyników. W idealnej sytuacji żaden z oceniających nie powinien faworyzować lub unikać pewnych poziomów na skali (np. unikać STAMP 0 lub STAMP 8). Innymi słowy, obaj oceniający powinni używać pełnego zakresu skali(STAMP 0 - STAMP 8), z punktacją odzwierciedlającą biegłość wykazaną w odpowiedzi. Zalecana wartość dla tej miary wynosi ≤ 0,15 (Williamson i in., 2012), co wskazuje, że rozkłady obu zestawów wyników są akceptowalnie podobne.
Korelacja rang Spearmana (ρ)
Ta miara wskazuje siłę związku między dwiema zmiennymi: poziomem STAMP przypisanym przez oceniającego 1 i poziomem przypisanym przez oceniającego 2. Jeśli oceniający są dobrze wyszkoleni i rozumieją rubrykę oceny, spodziewamy się, że obaj oceniający przypiszą podobne poziomy - co oznacza, że wyniki powinny przesuwać się razem. Innymi słowy, gdy Rater 1 przypisuje wysoki poziom, Rater 2 powinien również przypisać wysoki poziom, odzwierciedlając spójną ocenę tego samego konstruktu.
Używamy współczynnika korelacji rang Spearmana zamiast Pearsona, ponieważ współczynnik Spearmana lepiej nadaje się do danych porządkowych, takich jak poziomy biegłości STAMP. Współczynnik korelacji na poziomie 0,80 lub wyższym jest uważany za silny w większości dziedzin (Akoglu, 2018).
2 poziomy STAMP Apart
Ta miara, wyrażona w procentach, pokazuje, jak często dwie oceny tej samej odpowiedzi różnią się o 2 poziomy STAMP (np. ocena 1 przypisuje poziom STAMP 4, a ocena 2 przypisuje poziom STAMP 6).
Wiarygodność i dokładność wyników ocenianych przez Avant w różnych językach
Skupiamy się teraz na jakości ocen w sekcjach Pisanie i Mówienie w STAMP 4S i STAMP WS, biorąc pod uwagę powyższe statystyki w kilku reprezentatywnych językach. Poniżej przedstawiamy wyniki oparte na dwóch różnych zestawach porównań:
Rater 1 vs Rater 2
Porównujemy poziom STAMP przyznany przez oceniającego 1 z poziomem przyznanym przez oceniającego 2 w wielu odpowiedziach ocenianych przez co najmniej dwóch oceniających. To porównanie potwierdza wiarygodność ocen od dwóch losowo przydzielonych Avant losowo przydzielonych oceniających. Jak wspomniano wcześniej, dwóch oceniających może zgodzić się co do wyniku, ale obaj mogą nadal być niepoprawni. Dlatego też nie uwzględniamy dokładnych miar zgodności między Rater 1 i Rater 2. Zamiast tego skupiamy się na dokładnej + sąsiadującej zgodności i zgłaszamy miary dokładności porównujące wyniki od Ratera 1 (który ocenia solo w 80% przypadków) z oficjalnymi wynikami.
Rater 1 vs oficjalny wynik
Aby ocenić dokładność poziomów przypisanych przez oceniającychAvant , analizujemy przypadki, w których odpowiedź została oceniona przez dwóch lub więcej oceniających. Porównujemy oficjalny wynik (uzyskany ze wszystkich indywidualnych ocen) z wynikiem przyznanym tylko przez Rater 1. Pomaga to wskazać, jak dokładnie oceniana jest odpowiedź, gdy zaangażowany jest tylko jeden oceniający, co ma miejsce w 80% przypadków.
Tabele 1 i 2 przedstawiają miary statystyczne dla sekcji pisania i mówienia w pięciu reprezentatywnych językach STAMP 4S.
Tabela 1
Pomiar | arabski | Hiszpański | Francuski | Chiński uproszczony | Rosyjski |
---|---|---|---|---|---|
Liczba odpowiedzi w zestawie danych | n = 3,703 | n = 4,758 | n = 4,785 | n = 4,766 | n = 3,536 |
Dokładna zgodność (ocena 1 vs. oficjalny wynik) | 84.8% | 84.15% | 83.66% | 88.46% | 92.17% |
Dokładna + sąsiadująca zgodność (Rater 1 vs. oficjalny wynik) | 96.78% (98.62%) | 99.09% (99.79%) | 99.22% (99.79%) | 99.79% (99.91%) | 99.71% (99.88%) |
Quadratic Weight Kappa (QWK) (Rater 1 vs. oficjalny wynik) | 0.93 (0.96) | 0.91 (0.95) | 0.91 (0.95) | 0.95 (0.96) | 0.95 (0.97) |
Standaryzowana średnia różnica (SMD) (Rater 1 vs. Rater 2) | 0.00 (0.01) | 0.00 (0.00) | 0.00 (0.00) | 0.00 (0.00) | 0.00 (0.00) |
Korelacja rang Spearmana (R) (ocena 1 vs. wynik oficjalny) | 0.94 (0.96) | 0.90 (0.95) | 0.91 (0.95) | 0.95 (0.97) | 0.94 (0.97) |
2 poziomy STAMP (Rater 1 vs. Rater 2) | 2.80% (1.24%) | 0.90% (0.20%) | 0.77% (0.20%) | 0.00% (0.00%) | 0.28% (0.11%) |
Tabela 2
Pomiar | arabski | Hiszpański | Francuski | Chiński uproszczony | Rosyjski |
---|---|---|---|---|---|
Liczba odpowiedzi w zestawie danych | n = 3,363 | n = 4,078 | n = 4,530 | n = 4,651 | n = 3,392 |
Dokładna zgodność (ocena 1 vs. oficjalny wynik) | 84.96% | 80.37% | 80.19% | 82.24% | 88.30% |
Dokładna + sąsiadująca zgodność (Rater 1 vs. oficjalny wynik) | 96.07% (98.13%) | 98.13% (99.29%) | 98.54% (99.47%) | 99.31% (99.76%) | 98.99% (99.94%) |
Quadratic Weight Kappa (QWK) (Rater 1 vs. oficjalny wynik) | 0.92 (0.95) | 0.92 (0.96) | 0.91 (0.95) | 0.94 (0.95) | 0.92 (0.96) |
Standaryzowana średnia różnica (SMD) (Rater 1 vs. Rater 2) | -0.02 (0.01) | 0.00 (0.00) | -0.01 (0.02) | 0.00 (0.00) | -0.01 (-0.01) |
Korelacja rang Spearmana (R) (ocena 1 vs. wynik oficjalny) | 0.93 (0.96) | 0.91 (0.95) | 0.92 (0.95) | 0.94 (0.96) | 0.91 (0.95) |
2 poziomy STAMP (Rater 1 vs. Rater 2) | 3.27% (1.42%) | 1.74% (0.00%) | 1.39% (0.00%) | 0.00% (0.00%) | 1.01% (0.00%) |
Tabele 3 i 4 przedstawiają miary statystyczne dla sekcji pisania i mówienia w trzech reprezentatywnych językach STAMP WS
.
Tabela 3
Tabela 4
Dyskusja
Wysoki poziom rzetelności i dokładności ma fundamentalne znaczenie dla ważności wyników testów i ich zamierzonych zastosowań. To, co jest uważane za minimalnie akceptowalne pod względem rzetelności i dokładności, będzie jednak zależeć od konkretnej dziedziny (medycyna, prawo, sport, kryminalistyka, testy językowe itp.), a także od konsekwencji przyznania niedokładnego poziomu zestawowi odpowiedzi konkretnego egzaminowanego oraz od samej skali ocen. Na przykład, zgoda będzie miała tendencję do bycia niższą, im wyższa liczba kategorii dostępnych w skali ocen. Innymi słowy, można oczekiwać większej różnicy zdań między dwoma oceniającymi, jeśli muszą przypisać jeden z dziesięciu możliwych poziomów do odpowiedzi, niż jeśli muszą przypisać jeden z zaledwie czterech możliwych poziomów.
Statystyki przedstawione powyżej dla sekcji Pisanie i Mówienie zarówno w STAMP 4S, jak i STAMP WS pokazują wysoki poziom zarówno niezawodności (wyniki Rater 1 vs. Rater 2), jak i dokładności (wyniki Rater 1 vs. wyniki oficjalne). Spośród ośmiu ocenianych języków, wiarygodność zaobserwowana przez Exact + Adjacent Agreement pomiędzy Rater 1 i Rater 2 jest zawsze na minimalnym poziomie (i często znacznie wyższa) 96,78% dla Writing i 96,07% dla Speaking. Ponadto bardzo rzadko obserwowano przypadki, w których oceny dwóch oceniających różniły się o więcej niż dwa poziomy STAMP. Poziom dokładności dla wszystkich ośmiu języków, widoczny w statystykach dokładnej zgodności między wynikiem Ratera 1 a oficjalnym wynikiem dla każdej odpowiedzi, zawsze wynosi co najmniej 83,66% (ale często znacznie więcej) w przypadku pisania i 80,19% w przypadku mówienia, przy czym dokładna + sąsiadująca zgodność zawsze wynosi co najmniej 98,62% w przypadku pisania i 98,13% w przypadku mówienia. Wartości Quadratic Weighted Kappa (QWK) wskazują na bardzo wysoki poziom zgodności zarówno między Rater 1 i Rater 2, jak i między Rater 1 i Official Scores, podczas gdy korelacja między wynikami Rater 1 i Rater 2, a także między wynikami Rater 1 i Official Scores, okazała się bardzo wysoka. Wreszcie, współczynniki SMD (znormalizowane średnie różnice) pokazują, że skala STAMP jest używana w bardzo podobny sposób przez osoby oceniające Avant .
Powyższe statystyki dostarczają dowodów na wysoką jakość programu selekcji i szkolenia oceniających na stronie Avant Assessment oraz naszej metodologii w identyfikowaniu oceniających operacyjnych, którzy mogą wymagać tymczasowego usunięcia z puli oceniających i odbycia ukierunkowanego szkolenia. Pokazuje, że gdy dwóch oceniających może różnić się poziomem STAMP przypisanym do odpowiedzi, różnica rzadko będzie większa niż 1 poziom STAMP, przy czym obaj oceniający przypisują dokładnie ten sam poziom w zdecydowanej większości przypadków. W połączeniu z faktem, że ostateczny, oficjalny wynik egzaminowanego w sekcji pisania lub mówienia STAMP opiera się na jego indywidualnych wynikach STAMP w trzech niezależnych podpowiedziach, wyniki te dostarczają mocnych dowodów na to, że ostateczny wynik egzaminowanego w sekcjach pisania i mówienia STAMP może być wiarygodnym i dokładnym odzwierciedleniem jego poziomu biegłości językowej w tych dwóch dziedzinach.
Referencje
Akoglu, H. (2018). Przewodnik użytkownika po współczynnikach korelacji. Tureckie czasopismo medycyny ratunkowej, 18(3), 91-93.
Bachman, L. F., & Palmer, A. S. (1996). Testy językowe w praktyce: Projektowanie i opracowywanie użytecznych testów językowych (Vol. 1). Oxford University Press.
Feldt, L. S., & Brennan, R. (1989). Rzetelność. In R. L. Linn (Ed.), Educational measurement (3rd ed., pp. 105-146). New York: Macmillan.
Fleiss, J. L., Levin, B., & Paik, M. C. (2003). Metody statystyczne dla wskaźników i proporcji. 3rd ed. Wiley.
Graham, M., Milanowski, A., & Miller, J. (2012). Measuring and Promoting Inter-Rater Agreement of
Teacher and Principal Performance Ratings.
Matrix Education (2022). Praktyczne umiejętności z fizyki, część 2: Ważność, wiarygodność i dokładność eksperymentów. Retrieved on August 11, 2022 (kliknij tutaj, aby przejść do źródła).
Williamson, D. M., Xi, X., & Breyer, F. J. (2012). A framework for evaluation and use of automated
scoring. Educational measurement: issues and practice, 31(1), 2-13.