Niezawodność i dokładność

Przegląd

Dokładne i wiarygodne wyniki są niezbędne w testach biegłości językowej. Sekcje Czytanie i Słuchanie testu STAMP są wielokrotnego wyboru, co pozwala na automatyczną punktację. Sekcje Pisanie i Słuchanie pozwalają na odpowiedzi otwarte, co wymaga oceny przez człowieka.

Automatycznie punktowane

Human Rated

Z tego powodu Avant dokłada wszelkich starań, aby dokładność naszych ocen była jak najwyższa.

Niedawna analiza 23 000 odpowiedzi na oceny pisania i mówienia w pięciu językach STAMP 4S (arabskim, hiszpańskim, francuskim, chińskim uproszczonym i rosyjskim) oraz trzech językach STAMP WS (amharskim, kreolskim haitańskim i wietnamskim) wykazała, że osoby oceniające Avantwykazały się wysoką dokładnością i niezawodnością punktacji, co czyni je doskonale dopasowanymi do zamierzonego celu.

Jak oceniana jest biegłość w pisaniu i mówieniu?

W badaniu przeanalizowano sekcje STAMP dotyczące pisania i mówienia, oceniane przez przeszkolonych sędziów przy użyciu poziomów od 0 ( brak biegłości) do 8 ( zaawansowany-średni).

Egzaminowani odpowiadają na trzy rzeczywiste podpowiedzi, prezentując swoje umiejętności. Certyfikowani sędziowie niezależnie oceniają każdą odpowiedź, wspierając się rygorystycznym szkoleniem i ciągłym monitorowaniem w celu zapewnienia spójności.

W przypadku 80% odpowiedzi oficjalny jest wynik jednego oceniającego. W przypadku pozostałych 20%, co najmniej dwóch oceniających ocenia odpowiedź, a kierownik rozstrzyga spory. Oceniający pracują niezależnie, zapewniając bezstronne wyniki. Ostateczny wynik za pisanie lub mówienie odzwierciedla najwyższy poziom konsekwentnie prezentowany w dwóch z trzech podpowiedzi.

Poniższy wykres ilustruje ten proces:

Rysunek 1. Zasady systemowe dotyczące ustalania ostatecznego poziomu STAMP zdającego w sekcjach Pisanie i Mówienie

Tabela procedur punktacji dokładności STAMP. — Rysunek 1. Zasady systemowe dotyczące ustalania ostatecznego poziomu STAMP zdającego w sekcjach Pisanie i Mówienie

Jak pokazano na rysunku 1, oficjalny poziom STAMP egzaminowanego jest określany przez najwyższy poziom, jaki może on konsekwentnie wykazywać w co najmniej dwóch z trzech odpowiedzi. Na przykład, jeśli egzaminowany otrzyma Novice-Mid za pierwszą odpowiedź, Novice-High za drugą i Novice-High za trzecią, jego ostateczny poziom STAMP to STAMP 3 (Novice-High). Alternatywnie, jeśli otrzymają Intermediate-Low za pierwszą odpowiedź, Novice-High za drugą i Intermediate-Mid za trzecią, ich ostateczny poziom to Intermediate-Low, ponieważ jest to najwyższy poziom, który utrzymali dwukrotnie (w pierwszej i trzeciej odpowiedzi).

Korzystanie z trzech niezależnych podpowiedzi w sekcjach STAMP dotyczących pisania i mówienia ma dwie główne zalety:

Szerszy zakres tematyczny: Ocenianie egzaminatorów z różnych tematów zapewnia, że przyznany poziom biegłości jest bardziej prawdopodobny do uogólnienia na inne sytuacje w świecie rzeczywistym.
Minimalizowanie stronniczości oceniających: W połączeniu z metodą punktacji, korzystanie z wielu podpowiedzi pomaga zmniejszyć potencjalną stronniczość poszczególnych oceniających.

Następnie omówimy definicje niezawodności i dokładności.

Niezawodność a dokładność

Rysunek 2: Różnica między rzetelnością a dokładnością. W idealnej sytuacji testy powinny być zarówno rzetelne, jak i dokładne, ponieważ zapewnia to ważność wyników i ich zamierzone zastosowanie.

Niezawodność

Rzetelność odnosi się do spójności pomiaru (Bachman & Palmer, 1996). Mówiąc prościej, jest to stopień, w jakim możemy ufać, że wyniki testu pozostaną takie same, jeśli egzaminowany podejdzie do testu ponownie w innym czasie lub weźmie udział w różnych wersjach testu, zakładając, że jego umiejętności nie uległy zmianie.

Na przykład, jeśli egzaminowany uzyska dziś wynik średnio-niski, a jutro średnio-wysoki, bez żadnych zmian w swojej wiedzy lub stanie psychicznym, sugeruje to, że test może nie być wysoce wiarygodny. Podobnie, jeśli egzaminowany uzyskuje wynik na poziomie Advanced-Low w jednej wersji testu i Intermediate-Mid w innej, oznacza to brak spójności, wskazując na problem z wiarygodnością testu.

Jednym z czynników wpływających na wiarygodność testu jest sposób jego oceniania. W teście STAMP sekcje czytania i słuchania składają się z pytań wielokrotnego wyboru, które są automatycznie oceniane przez komputer. Gwarantuje to, że jeśli egzaminowany udzieli tych samych odpowiedzi przy różnych okazjach, zawsze otrzyma ten sam wynik.

Jednak sekcje Pisanie i Mówienie są oceniane przez osoby oceniające. Oznacza to, że wyniki mogą się różnić w zależności od tego, kto ocenia odpowiedź. W przypadku dobrze wyszkolonych oceniających spodziewamy się, że różnice w wynikach będą minimalne, zmniejszając wpływ pobłażliwości, surowości lub potencjalnej stronniczości.

Dokładność

Egzaminatorzy oczekują, że ich wyniki będą odzwierciedlać jedynie ich biegłość w mierzonym konstrukcie (w STAMP, biegłość w każdej domenie językowej).

Dokładność odnosi się do tego, jak dobrze przyznany wynik odzwierciedla rzeczywiste umiejętności zdającego. Na przykład, jeśli zdający przedstawi odpowiedź na poziomie Intermediate-High, ale otrzyma wynik Intermediate-Low od dwóch oceniających, wynik jest niedokładny. Nawet jeśli dwaj inni oceniający przyznają ocenę Intermediate-Low dwa miesiące później, wynik pozostaje niedokładny, chociaż jest wiarygodny (ponieważ jest spójny między oceniającymi i w czasie).

Ocena wiarygodności i dokładności wyników testerów

Gdy odpowiedzi są oceniane przez osoby oceniające, tak jak w przypadku STAMP, kluczowe jest zapewnienie, że wyniki odzwierciedlają jakość samej odpowiedzi, a nie charakterystykę osoby oceniającej. Innymi słowy, wyniki powinny zależeć wyłącznie od wykazanej biegłości egzaminowanego, a nie od pobłażliwości, surowości lub stronniczości oceniającego.

Dostawcy testów językowych często używają statystyk, aby pokazać, jak bardzo wyniki mogą się różnić w zależności od oceniającego. Zazwyczaj polega to na porównaniu ocen dwóch różnych osób oceniających tę samą odpowiedź. Idealnie byłoby, gdyby oceniający zgadzali się tak często, jak to możliwe, co wskazuje na wiarygodny proces oceniania.

Jednak niezawodności musi również towarzyszyć dokładność. Dwóch oceniających może przypisać ten sam wynik, ale obaj mogą być niepoprawni. W dobrze opracowanym teście celem jest, aby oceniający konsekwentnie zgadzali się i byli dokładni w swoich ocenach.

Idealna zgodność między oceniającymi ludźmi nie zawsze jest realistyczna. Pomimo szkolenia i wiedzy specjalistycznej, nawet wykwalifikowani oceniający mogą czasami się nie zgadzać - podobnie jak lekarze, inżynierowie lub naukowcy. Celem jest osiągnięcie wysokiej zgodności, którą można obronić, biorąc pod uwagę zamierzone wykorzystanie wyników.

Poniżej znajdują się miary statystyczne, których używamy w Avant Assessment do oceny jakości ocen dostarczanych przez naszych oceniających. Podczas gdy wiele firm zgłasza tylko dokładną i przyległą zgodność, my oceniamy dodatkowe miary, aby uzyskać kompleksowy obraz jakości ocen. Miary przedstawione w niniejszym dokumencie obejmują:

Dokładna umowa:

Miara ta jest podawana jako wartość procentowa, która wskazuje odsetek przypadków, w całym analizowanym zbiorze danych, gdy poziom przyznany danej odpowiedzi przez Rater 1 jest dokładnie taki sam jak poziom przyznany przez Rater 2. Na przykład, jeśli Rater 1 przyzna odpowiedzi poziom STAMP 5, a Rater 2 również przyzna tej samej odpowiedzi poziom STAMP 5, zostanie to uznane za przypadek dokładnej zgodności. Feldt i Brennan (1989) sugerują, że gdy wykorzystywanych jest dwóch oceniających, dokładna zgodność powinna wynosić co najmniej 80%, przy czym 70% uważa się za akceptowalne do użytku operacyjnego.

Ta miara jest zgłaszana jako wartość procentowa, pokazująca, jak często Rater 1 i Rater 2 przypisywali ten sam poziom do odpowiedzi w całym zbiorze danych. Na przykład, jeśli obaj oceniający przypiszą poziom STAMP 5 do tej samej odpowiedzi, liczy się to jako przypadek dokładnej zgodności. Według Feldt i Brennan (1989) dokładna zgodność powinna wynosić co najmniej 80%, przy czym 70% uważa się za akceptowalne do użytku operacyjnego.

Dokładna + sąsiadująca umowa:

Ta miara jest podawana jako wartość procentowa pokazująca, jak często Rater 1 i Rater 2 przypisywali ten sam lub sąsiedni poziom do odpowiedzi w całym zbiorze danych.

Na przykład poziom 5 STAMP sąsiaduje z poziomami 4 i 6. Jeśli Rater 1 przypisuje poziom 4, a Rater 2 przypisuje poziom 5, liczy się to do tej miary, ponieważ poziomy sąsiadują ze sobą. Według Graham et al. (2012), gdy skala ocen ma więcej niż 5-7 poziomów, tak jak w przypadku skali STAMP, dokładna + sąsiadująca zgodność powinna być bliska 90%.

Kwadratowa ważona kappa (QWK)

Współczynnik kappa Cohena (𝜅) mierzy wiarygodność między dwoma oceniającymi, uwzględniając możliwość przypadkowego porozumienia. Na przykład w przypadku 9-punktowej skali STAMP (od poziomu 0 do poziomu 8) istnieje 11,11% szans, że dwóch oceniających zgodzi się co do wyniku wyłącznie przez przypadek. Przy Avantprzy obliczaniu kappa stosujemy również wagi kwadratowe, co oznacza, że większe rozbieżności między wynikami są karane wyższymi karami. Na przykład, różnica między poziomem 3 STAMP a poziomem 7 jest bardziej problematyczna niż różnica między poziomem 3 a poziomem 4.

Williamson et al. (2012) zalecają, aby ważony kwadratowo współczynnik kappa (QWK ) wynosił ≥ 0,70, podczas gdy Fleiss (2003) zauważa, że wartości powyżej 0,75 wskazują na doskonałą zgodność wykraczającą poza przypadek. Wartość QWK równa 0 oznacza, że zgodność jest czysto przypadkowa, podczas gdy wartość 1 oznacza doskonałą zgodność.

Standaryzowana średnia różnica (SMD)

Ta miara pokazuje, jak podobnie dwóch oceniających używa skali ocen. Porównuje różnicę w średniej dwóch zestawów wyników (Rater 1 vs. Rater 2), znormalizowaną przez łączne odchylenie standardowe tych wyników. W idealnej sytuacji żaden z oceniających nie powinien faworyzować lub unikać pewnych poziomów na skali (np. unikać STAMP 0 lub STAMP 8). Innymi słowy, obaj oceniający powinni używać pełnego zakresu skali(STAMP 0 - STAMP 8), z punktacją odzwierciedlającą biegłość wykazaną w odpowiedzi. Zalecana wartość dla tej miary wynosi ≤ 0,15 (Williamson i in., 2012), co wskazuje, że rozkłady obu zestawów wyników są akceptowalnie podobne.

Korelacja rang Spearmana (ρ)

Ta miara wskazuje siłę związku między dwiema zmiennymi: poziomem STAMP przypisanym przez oceniającego 1 i poziomem przypisanym przez oceniającego 2. Jeśli oceniający są dobrze wyszkoleni i rozumieją rubrykę oceny, spodziewamy się, że obaj oceniający przypiszą podobne poziomy - co oznacza, że wyniki powinny przesuwać się razem. Innymi słowy, gdy Rater 1 przypisuje wysoki poziom, Rater 2 powinien również przypisać wysoki poziom, odzwierciedlając spójną ocenę tego samego konstruktu.

Używamy współczynnika korelacji rang Spearmana zamiast Pearsona, ponieważ współczynnik Spearmana lepiej nadaje się do danych porządkowych, takich jak poziomy biegłości STAMP. Współczynnik korelacji na poziomie 0,80 lub wyższym jest uważany za silny w większości dziedzin (Akoglu, 2018).

2 poziomy STAMP Apart

Ta miara, wyrażona w procentach, pokazuje, jak często dwie oceny tej samej odpowiedzi różnią się o 2 poziomy STAMP (np. ocena 1 przypisuje poziom STAMP 4, a ocena 2 przypisuje poziom STAMP 6).

Wykres poglądowy

Wykres dokładności wyników STAMP: — Wykres pokazujący wysoką dokładność oceniających Avant w sekcjach Pisanie i Mówienie.

Szczegółowe statystyki wyników

Skupiamy się teraz na jakości ocen w sekcjach Pisanie i Mówienie w STAMP 4S i STAMP WS, biorąc pod uwagę powyższe statystyki w kilku reprezentatywnych językach. Poniżej przedstawiamy wyniki oparte na dwóch różnych zestawach porównań:

Rater 1 vs Rater 2

Porównujemy poziom STAMP przyznany przez oceniającego 1 z poziomem przyznanym przez oceniającego 2 w wielu odpowiedziach ocenianych przez co najmniej dwóch oceniających. To porównanie potwierdza wiarygodność ocen od dwóch losowo przydzielonych Avant losowo przydzielonych oceniających. Jak wspomniano wcześniej, dwóch oceniających może zgodzić się co do wyniku, ale obaj mogą nadal być niepoprawni. Dlatego też nie uwzględniamy dokładnych miar zgodności między Rater 1 i Rater 2. Zamiast tego skupiamy się na dokładnej + sąsiadującej zgodności i zgłaszamy miary dokładności porównujące wyniki od Ratera 1 (który ocenia solo w 80% przypadków) z oficjalnymi wynikami.

Rater 1 vs oficjalny wynik

Aby ocenić dokładność poziomów przypisanych przez oceniającychAvant , analizujemy przypadki, w których odpowiedź została oceniona przez dwóch lub więcej oceniających. Porównujemy oficjalny wynik (uzyskany ze wszystkich indywidualnych ocen) z wynikiem przyznanym tylko przez Rater 1. Pomaga to wskazać, jak dokładnie oceniana jest odpowiedź, gdy zaangażowany jest tylko jeden oceniający, co ma miejsce w 80% przypadków.

Tabele 1 i 2 przedstawiają miary statystyczne dla sekcji pisania i mówienia w pięciu reprezentatywnych językach STAMP 4S.

Tabela 1 - Dokładność wyników pisania (STAMP)

Pomiar	arabski	Hiszpański	Francuski	Chiński uproszczony	Rosyjski
Liczba odpowiedzi w zestawie danych	n = 3,703	n = 4,758	n = 4,785	n = 4,766	n = 3,536
Dokładna zgodność (ocena 1 vs. oficjalny wynik)	84.8%	84.15%	83.66%	88.46%	92.17%
Dokładna + sąsiadująca zgodność (Rater 1 vs. oficjalny wynik)	96.78% (98.62%)	99.09% (99.79%)	99.22% (99.79%)	99.79% (99.91%)	99.71% (99.88%)
Quadratic Weight Kappa (QWK) (Rater 1 vs. oficjalny wynik)	0.93 (0.96)	0.91 (0.95)	0.91 (0.95)	0.95 (0.96)	0.95 (0.97)
Standaryzowana średnia różnica (SMD) (Rater 1 vs. Rater 2)	0.00 (0.01)	0.00 (0.00)	0.00 (0.00)	0.00 (0.00)	0.00 (0.00)
Korelacja rang Spearmana (R) (ocena 1 vs. wynik oficjalny)	0.94 (0.96)	0.90 (0.95)	0.91 (0.95)	0.95 (0.97)	0.94 (0.97)
2 poziomy STAMP (Rater 1 vs. Rater 2)	2.80% (1.24%)	0.90% (0.20%)	0.77% (0.20%)	0.00% (0.00%)	0.28% (0.11%)

Tabela 1. Statystyki rzetelności i dokładności dla sekcji pisania w pięciu reprezentatywnych językach STAMP 4S.

Tabela 2 - Dokładność wyników mówienia (STAMP)

Pomiar	arabski	Hiszpański	Francuski	Chiński uproszczony	Rosyjski
Liczba odpowiedzi w zestawie danych	n = 3,363	n = 4,078	n = 4,530	n = 4,651	n = 3,392
Dokładna zgodność (ocena 1 vs. oficjalny wynik)	84.96%	80.37%	80.19%	82.24%	88.30%
Dokładna + sąsiadująca zgodność (Rater 1 vs. oficjalny wynik)	96.07% (98.13%)	98.13% (99.29%)	98.54% (99.47%)	99.31% (99.76%)	98.99% (99.94%)
Quadratic Weight Kappa (QWK) (Rater 1 vs. oficjalny wynik)	0.92 (0.95)	0.92 (0.96)	0.91 (0.95)	0.94 (0.95)	0.92 (0.96)
Standaryzowana średnia różnica (SMD) (Rater 1 vs. Rater 2)	-0.02 (0.01)	0.00 (0.00)	-0.01 (0.02)	0.00 (0.00)	-0.01 (-0.01)
Korelacja rang Spearmana (R) (ocena 1 vs. wynik oficjalny)	0.93 (0.96)	0.91 (0.95)	0.92 (0.95)	0.94 (0.96)	0.91 (0.95)
2 poziomy STAMP (Rater 1 vs. Rater 2)	3.27% (1.42%)	1.74% (0.00%)	1.39% (0.00%)	0.00% (0.00%)	1.01% (0.00%)

Tabela 2. Statystyki rzetelności i dokładności dla sekcji mówienia pięciu reprezentatywnych testów STAMP

Tabele 3 i 4 przedstawiają miary statystyczne dla sekcji pisania i mówienia w trzech reprezentatywnych językach STAMP WS
.

Tabela 3 Dokładność wyników pisania (STAMP WS)

Pomiar	amharski	kreolski haitański	wietnamski
Liczba odpowiedzi w zestawie danych	n = 209	n = 125	n = 1,542
Dokładna zgodność (ocena 1 vs. oficjalny wynik)	95.79%	94.69%	94.38%
Dokładna + sąsiadująca zgodność (Rater 1 vs. Rater 2 / Rater 1 vs. oficjalny wynik)	99.52% (100%)	97.60% (100%)	98.57% (99.02%)
Quadratic Weighted Kappa (QWK) (Rater 1 vs. Rater 2 / Rater 1 vs. Official Score)	0.98 (0.99)	0.97 (0.99)	0.96 (0.97)
Standaryzowana średnia różnica (SMD) (Rater 1 vs. Rater 2 / Rater 1 vs. oficjalny wynik)	-0.01 (0.00)	0.02 (-0.02)	-0.01 (0.01)
Korelacja rang Spearmana (R) (Rater 1 vs. Rater 2 / Rater 1 vs. Oficjalny wynik)	0.98 (0.99)	0.97 (0.99)	0.97 (0.98)
2 poziomy STAMP (Rater 1 vs. Rater 2 / Rater 1 vs. oficjalny wynik)	0.00% (0.00%)	2.40% (0.00%)	0.00% (0.00%)

Tabela 3. Statystyki rzetelności i dokładności dla sekcji pisania w trzech reprezentatywnych językach STAMP WS.

Tabela dokładności STAMP 3. — Tabela 3. Statystyki rzetelności i dokładności dla sekcji pisania w trzech reprezentatywnych językach STAMP WS.

Tabela 4 Dokładność wyników mówienia (STAMP WS)

Pomiar	amharski	kreolski haitański	wietnamski
Liczba odpowiedzi w zestawie danych	n = 225	n = 132	n = 1,180
Dokładna zgodność (ocena 1 vs. oficjalny wynik)	96.21%	97.91%	97.01%
Dokładna + sąsiadująca zgodność (Rater 1 vs. Rater 2 / Rater 1 vs. oficjalny wynik)	100% (100%)	100% (100%)	99.83% (99.83%)
Quadratic Weighted Kappa (QWK) (Rater 1 vs. Rater 2 / Rater 1 vs. Official Score)	0.99 (0.99)	0.99 (0.99)	0.99 (0.98)
Standaryzowana średnia różnica (SMD) (Rater 1 vs. Rater 2 / Rater 1 vs. oficjalny wynik)	0.00 (0.00)	0.00 (0.00)	0.00 (0.01)
Korelacja rang Spearmana (R) (Rater 1 vs. Rater 2 / Rater 1 vs. Oficjalny wynik)	0.99 (0.99)	0.99 (0.99)	0.98 (0.99)
2 poziomy STAMP (Rater 1 vs. Rater 2 / Rater 1 vs. oficjalny wynik)	0.00% (0.00%)	0.00% (0.00%)	0.00% (0.00%)

Tabela 4. Statystyki niezawodności i dokładności dla sekcji mówienia w trzech reprezentatywnych językach STAMP WS.

Tabela dokładności STAMP 4 — Tabela 4. Statystyki niezawodności i dokładności dla sekcji mówienia w trzech reprezentatywnych językach STAMP WS.

Dyskusja

Wysoki poziom rzetelności i dokładności ma fundamentalne znaczenie dla ważności wyników testów i ich zamierzonych zastosowań. To, co jest uważane za minimalnie akceptowalne pod względem rzetelności i dokładności, będzie jednak zależeć od konkretnej dziedziny (medycyna, prawo, sport, kryminalistyka, testy językowe itp.), a także od konsekwencji przyznania niedokładnego poziomu zestawowi odpowiedzi konkretnego egzaminowanego oraz od samej skali ocen. Na przykład, zgoda będzie miała tendencję do bycia niższą, im wyższa liczba kategorii dostępnych w skali ocen. Innymi słowy, można oczekiwać większej różnicy zdań między dwoma oceniającymi, jeśli muszą przypisać jeden z dziesięciu możliwych poziomów do odpowiedzi, niż jeśli muszą przypisać jeden z zaledwie czterech możliwych poziomów.

Statystyki przedstawione powyżej dla sekcji Pisanie i Mówienie zarówno w STAMP 4S, jak i STAMP WS pokazują wysoki poziom zarówno rzetelności (wyniki Rater 1 vs. Rater 2), jak i dokładności (wyniki Rater 1 vs. wyniki oficjalne).

Spośród ośmiu ocenianych języków, wiarygodność obserwowana na podstawie Dokładnego + Sąsiadującego Porozumienia pomiędzy Oceniającym 1 i Oceniającym 2 jest zawsze na poziomie minimalnym (a często znacznie wyższym) wynoszącym 96,78% dla Pisania i 96,07% dla Mówienia.

Ponadto bardzo rzadko obserwowano przypadki, w których oceny dwóch oceniających różniły się o więcej niż dwa poziomy STAMP. Poziom dokładności dla wszystkich ośmiu języków, widoczny w statystykach dokładnej zgodności między wynikiem Ratera 1 a oficjalnym wynikiem dla każdej odpowiedzi, zawsze wynosi co najmniej 83,66% (ale często znacznie więcej) w przypadku pisania i 80,19% w przypadku mówienia, przy czym dokładna + sąsiadująca zgodność zawsze wynosi co najmniej 98,62% w przypadku pisania i 98,13% w przypadku mówienia. Wartości Quadratic Weighted Kappa (QWK) wskazują na bardzo wysoki poziom zgodności zarówno między Rater 1 i Rater 2, jak i między Rater 1 i Official Scores, podczas gdy korelacja między wynikami Rater 1 i Rater 2, a także między wynikami Rater 1 i Official Scores, okazała się bardzo wysoka. Wreszcie, współczynniki SMD (znormalizowane średnie różnice) pokazują, że skala STAMP jest używana w bardzo podobny sposób przez osoby oceniające Avant .

Powyższe statystyki dostarczają dowodów na wysoką jakość programu selekcji i szkolenia oceniających na stronie Avant Assessment oraz naszej metodologii w identyfikowaniu oceniających operacyjnych, którzy mogą wymagać tymczasowego usunięcia z puli oceniających i odbycia ukierunkowanego szkolenia. Pokazuje, że gdy dwóch oceniających może różnić się poziomem STAMP przypisanym do odpowiedzi, różnica rzadko będzie większa niż 1 poziom STAMP, przy czym obaj oceniający przypisują dokładnie ten sam poziom w zdecydowanej większości przypadków. W połączeniu z faktem, że ostateczny, oficjalny wynik egzaminatora w sekcji pisania lub mówienia STAMP opiera się na jego indywidualnych wynikach STAMP w trzech niezależnych podpowiedziach.

Wyniki przedstawione w niniejszym raporcie dostarczają mocnych dowodów na to, że końcowy wynik egzaminowanego w sekcjach Pisanie i Mówienie STAMP może być wiarygodnym i dokładnym odzwierciedleniem jego poziomu biegłości językowej w tych dwóch dziedzinach.

Referencje

Akoglu, H. (2018). Przewodnik użytkownika po współczynnikach korelacji. Tureckie czasopismo medycyny ratunkowej, 18(3), 91-93.

Bachman, L. F., & Palmer, A. S. (1996). Testy językowe w praktyce: Projektowanie i opracowywanie użytecznych testów językowych (Vol. 1). Oxford University Press.

Feldt, L. S., & Brennan, R. (1989). Rzetelność. In R. L. Linn (Ed.), Educational measurement (3rd ed., pp. 105-146). New York: Macmillan.

Fleiss, J. L., Levin, B., & Paik, M. C. (2003). Metody statystyczne dla wskaźników i proporcji. 3rd ed. Wiley.

Graham, M., Milanowski, A., & Miller, J. (2012). Measuring and Promoting Inter-Rater Agreement of
Teacher and Principal Performance Ratings.

Matrix Education (2022). Praktyczne umiejętności z fizyki, część 2: Ważność, wiarygodność i dokładność eksperymentów. Retrieved on August 11, 2022 (kliknij tutaj, aby przejść do źródła).

Williamson, D. M., Xi, X., & Breyer, F. J. (2012). A framework for evaluation and use of automated
scoring. Educational measurement: issues and practice, 31(1), 2-13.

Aktualizacja: Luty 2025 r.