Streszczenie
Testy STAMP 4S i STAMP WS w ramach rodziny ocen STAMP (Standards-Based Measurement of Proficiency) obejmują sekcję pisania i mówienia. Kluczowym dowodem na ważność wyników w tych sekcjach, biorąc pod uwagę ich zamierzone zastosowania i interpretacje, jest zakres, w jakim można wykazać, że wyniki są wiarygodne i dokładne.
W niniejszym artykule przedstawiamy wyniki niedawnej analizy przeprowadzonej na ocenach w sekcjach Pisanie i Mówienie w pięciu reprezentatywnych językach STAMP 4S (arabskim, hiszpańskim, francuskim, chińskim uproszczonym i rosyjskim) oraz trzech reprezentatywnych językach STAMP WS (amharskim, haitańskim kreolskim i wietnamskim).
Wyniki, oparte na analizie ponad 23 000 odpowiedzi egzaminowanych w tych ośmiu językach, wykazują wysoki poziom dokładności i wiarygodności punktacji zarówno w części STAMP dotyczącej pisania, jak i mówienia, zapewniając tym samym silne wsparcie dla ważności wyników z tych sekcji, biorąc pod uwagę ich zamierzone interpretacje i zastosowania.
Sekcje STAMP dotyczące pisania i mówienia
Sekcje STAMP dotyczące pisania i mówienia Rodzina testów STAMP (Standards-Based Measurement of Language Proficiency) ocenia rzeczywistą biegłość językową i jest dostosowana do wytycznych ACTFL dotyczących biegłości językowej. Test STAMP 4S to test czterech umiejętności biegłości językowej, akredytowany przez American Council on Education (ACE) i dostępny w chwili pisania tego tekstu w 14 językach. Test STAMP WS, również akredytowany przez ACE, jest testem biegłości językowej w zakresie dwóch umiejętności produktywnych: pisania i mówienia, i jest dostępny w chwili pisania tego tekstu w 24 językach. Dwa ważne czynniki w ocenie zakresu, w jakim wyniki testu można uznać za ważne, biorąc pod uwagę to, co test ma mierzyć i zamierzone zastosowania tych wyników, to rzetelność i dokładność wyników testu.
W tym krótkim artykule omówimy i zbadamy rzetelność i dokładność ocen w sekcjach pisania i mówienia STAMP, w których przeszkoleni ludzie oceniający muszą przypisać poziom STAMP od 0 (brak biegłości) do 8 (zaawansowany-średni) do produkcji językowych badanych.
W każdej z sekcji testu STAMP, dotyczących pisania i mówienia, zdający otrzymują trzy podpowiedzi oparte na rzeczywistych scenariuszach, na które muszą odpowiedzieć. Egzaminatorzy są poinstruowani, aby pisać jak najwięcej i "pokazać" swoje umiejętności językowe najlepiej jak potrafią.
Odpowiedź egzaminowanego na każdą z trzech podpowiedzi w sekcji jest oceniana przez certyfikowanych oceniających Avant, którzy muszą przejść dokładne i rygorystyczne szkolenie oraz program certyfikacji, aby móc oceniać odpowiedzi STAMP. Po rozpoczęciu oceniania rzeczywistych, operacyjnych odpowiedzi STAMP Writing i Speaking, Avant i jego menedżerowie oceniający uważnie obserwują wyniki każdego oceniającego za pomocą środków jakościowych i ilościowych, aby zapewnić wysoką jakość naszych ocen i upewnić się, że wszyscy oceniający Avant oceniają zgodnie z ustalonymi standardami firmy.
W 80% przypadków odpowiedź ustna lub pisemna jest oceniana przez jednego oceniającego Avant . Wynik/poziom znacznika przypisany do tej odpowiedzi przez osobę oceniającą staje się oficjalnym wynikiem dla tej odpowiedzi w systemie. W 20% przypadków odpowiedź jest oceniana przez co najmniej dwóch oceniających Avant . Gdy dwóch oceniających zgadza się co do wyniku STAMP, staje się on oficjalnym wynikiem przypisanym do tej odpowiedzi. W przypadku, gdy dwaj oceniający nie zgadzają się, do oceny odpowiedzi angażowany jest Avant rater manager. Ocena dostarczona przez menedżera oceny staje się oficjalną oceną przypisaną do tej odpowiedzi. Ocena każdej odpowiedzi jest dokonywana całkowicie niezależnie od odpowiedzi egzaminowanego na pozostałe dwie odpowiedzi. Oceniając daną odpowiedź, oceniający nie mają dostępu do żadnych informacji dotyczących egzaminowanego, jego wyniku w innych odpowiedziach dla tej umiejętności, ani do wyniku przyznanego tej odpowiedzi przez innego oceniającego, co zwiększa ważność oceny dla każdej odpowiedzi.
Końcowy wynik STAMP egzaminowanego w sekcji Pisanie lub Mówienie jest obliczany na podstawie określonego poziomu STAMP, który otrzymał za każdą z trzech podpowiedzi, na które odpowiedział. Oficjalny poziom STAMP przyznany za sekcję staje się najwyższym poziomem biegłości, jaki zdający był w stanie utrzymać (tj. zademonstrować w co najmniej dwóch przypadkach) w swoich trzech odpowiedziach.
Jak pokazano na rysunku 1, jeśli zdający otrzymał ocenę Novice-Mid za pierwszą odpowiedź, Novice-High za drugą i Novice-High za trzecią, oficjalnym poziomem STAMP tego zdającego w tej sekcji staje się STAMP 3 (Novice-High), ponieważ jest to najwyższy poziom biegłości, jaki był w stanie utrzymać w co najmniej dwóch przypadkach. Alternatywnie, jeśli otrzymają Intermediate-Low za pierwszą odpowiedź, Novice- High za drugą i Intermediate-Mid za trzecią, ich ostateczny poziom STAMP w tej sekcji staje się Intermediate-Low, który jest najwyższym poziomem, jaki byli w stanie utrzymać w co najmniej dwóch przypadkach (pierwszym i trzecim, w tym przypadku).
Korzystanie z trzech niezależnych podpowiedzi w sekcji pisania i trzech niezależnych podpowiedzi w sekcji mówienia STAMP ma dwie główne zalety. Pierwszą zaletą jest to, że pozwala egzaminowanym na ocenę różnych tematów, wspierając w ten sposób założenie, że poziom biegłości przyznany na koniec sekcji będzie uogólniał się na inne scenariusze w świecie rzeczywistym. Drugą zaletą jest to, że w połączeniu z metodologią punktacji opisaną powyżej, pomaga zminimalizować efekt możliwej stronniczości oceny przez indywidualnego oceniającego Avant .
Zwróćmy teraz uwagę na definicję niezawodności i dokładności.
Niezawodność
Rzetelność można zdefiniować jako "spójność pomiaru" (Bachman & Palmer, 1996). Mówiąc najprościej, jest to zakres, w jakim można ufać (polegać), że wyniki danego testu pozostaną takie same, jeśli osoba badana ponownie przystąpi do tego testu przy różnych okazjach lub weźmie udział w różnych formach testu, zakładając, że biegłość osoby badanej w tym, co mierzy test, nie zmieniła się w międzyczasie.
Na przykład, jeśli egzaminowany przystępuje dziś do testu biegłości językowej i otrzymuje wynik średnio-niski, a następnie otrzymuje wynik średnio-wysoki w tym samym teście jutro, możemy założyć, pod warunkiem, że znajomość języka i stan psychiczny egzaminowanego nie uległy zmianie, że test może nie być wysoce wiarygodny. Podobnie, jeśli organizacja udostępnia test w różnych równoległych formach (zwykle w celu zwiększenia bezpieczeństwa testu), ale egzaminowany uzyskuje wynik Zaawansowany-Niski w jednej formie, a następnie Średnio-Średni w innej formie, możemy ponownie założyć, że może istnieć brak spójności w pomiarze, a zatem kwestia braku wiarygodności tego testu.
Jednym z czynników wpływających na rzetelność testu jest sposób jego oceniania. W teście STAMP sekcje czytania i słuchania składają się z pytań wielokrotnego wyboru, a odpowiedzi zdającego są automatycznie oceniane przez system komputerowy. Oznacza to, że jeśli egzaminowany udzieli tej samej odpowiedzi na te same pytania przy różnych okazjach, zawsze otrzyma ten sam wynik.
Z drugiej strony, sekcje Pisanie i Mówienie w STAMP są oceniane przez osoby oceniające. Dlatego możliwe jest, że egzaminowany może otrzymać inny wynik za tę samą dokładną odpowiedź, w zależności od tego, kto ocenia jego odpowiedź. Oczywiście, im lepiej wyszkoleni są oceniający, tym mniej spodziewalibyśmy się, że wyniki będą się różnić ze względu na różnice w łagodności, surowości lub jakiejkolwiek możliwej stronniczości ze strony oceniających.
Dokładność
Egzaminatorzy oczekują, że ich wynik na teście będzie zależał tylko od tego, jak dużo lub jak mało mają konstruktu mierzonego przez test (w przypadku STAMP, biegłości w każdej z domen językowych). Dokładność odnosi się do stopnia, w jakim wynik przyznany odpowiedzi egzaminowanego poprawnie opisuje jego umiejętności w tym zakresie. W związku z tym, jeśli egzaminowany przedstawi odpowiedź Speaking na poziomie Intermediate-High, ale dwóch oceniających, którzy przypisali poziom do tej odpowiedzi, przyznają Intermediate-Low, możemy powiedzieć, że jest to niedokładny wynik. Gdyby dwaj pozostali oceniający ocenili tę samą odpowiedź dwa miesiące później i również przypisali jej poziom Intermediate-Low, wyniki ponownie byłyby niedokładne, mimo że byłyby wiarygodne (nie zmieniły się z jednej okazji na drugą lub z jednego oceniającego na drugiego).
Rysunek 2 opisuje różnicę między niezawodnością a dokładnością. Oczywiście chcielibyśmy, aby testy były zarówno rzetelne, jak i dokładne. Spełnienie tych dwóch warunków zapewnia silne wsparcie dla ważności wyników testu i ich zamierzonych zastosowań.
Statystyki powszechnie stosowane do oceny wiarygodności i dokładności wyników przez oceniających
Gdy odpowiedzi egzaminowanych na teście są oceniane przez osoby oceniające, tak jak w przypadku STAMP, ważne jest, aby upewnić się, że wyniki odzwierciedlają jakość samej odpowiedzi, a zatem nie ma na nie wpływu (lub ma minimalny wpływ) profil konkretnego oceniającego (lub oceniających), który ocenia tę odpowiedź. Innymi słowy, wynik powinien zależeć tylko od tego, ile konstruktu mierzonego testem dany egzaminowany może wykazać w swojej odpowiedzi, a nie od tego, jak łagodny, surowy lub stronniczy może być oceniający.
Dostawcy testów językowych często oferują statystyki pokazujące, w jakim stopniu na wyniki przyznawane przez osoby oceniające odpowiedzi zdających może wpływać to, kto dokonuje oceny. Często w literaturze poświęconej testom językowym, statystyki te są przedstawiane poprzez porównanie ocen, jakie dwóch różnych oceniających przyznałoby temu samemu esejowi. Zakłada się, że wysoce pożądane jest, aby dowolni dwaj oceniający przypisywali ten sam wynik tak często, jak to możliwe do tego samego eseju, co wskazywałoby, że proces oceniania jest wysoce wiarygodny.
Jednak, jak widzieliśmy powyżej, rzetelności musi towarzyszyć dokładność, a ta ostatnia powinna być również zbadana. W końcu dwóch przypadkowych oceniających może przypisać ten sam wynik do eseju, ale obaj mogą się mylić. W dobrze opracowanym i dobrze ocenionym teście idealnym scenariuszem jest sytuacja, w której oceniający w dużym stopniu zgadzają się ze sobą i są poprawni (dokładni) w punktacji, którą przypisują odpowiedziom.
Ważne jest, aby zrozumieć, że nie można zawsze oczekiwać doskonałej zgodności między dwoma oceniającymi. Pomimo całego szkolenia, które każdy z nich przeszedł, oraz całego doświadczenia i wiedzy, które każdy z nich może mieć w odniesieniu do ocenianego konstruktu (w naszym przypadku biegłości językowej), nawet wysoko wykwalifikowani ludzie czasami się nie zgadzają. Lekarze to robią. Robią to inżynierowie. Naukowcy to robią. Dlatego ideą jest dążenie do jak największej zgodności, która jest możliwa do obrony, biorąc pod uwagę zastosowania i interpretacje wyników tego testu.
Poniżej znajdują się miary statystyczne, które na stronie Avant Assessment przeprowadzamy na teście STAMP w celu oceny jakości oceny dostarczonej przez nasz zespół oceniających. Podczas gdy wiele firm może zgłaszać tylko dokładną i przyległą zgodność, oceniamy naszych oceniających również na podstawie dodatkowych miar, ponieważ każda konkretna miara może dostarczyć tylko częściowych informacji na temat jakości oceniających. Im więcej miar zostanie uwzględnionych, tym bardziej jesteśmy w stanie triangulować wyniki i podjąć ostateczną decyzję. W niniejszym artykule przedstawimy następujące miary:
Dokładna umowa:
Miara ta jest podawana jako wartość procentowa, która wskazuje odsetek przypadków, w całym analizowanym zbiorze danych, gdy poziom przyznany danej odpowiedzi przez Rater 1 jest dokładnie taki sam jak poziom przyznany przez Rater 2. Na przykład, jeśli Rater 1 przyzna odpowiedzi poziom STAMP 5, a Rater 2 również przyzna tej samej odpowiedzi poziom STAMP 5, zostanie to uznane za przypadek dokładnej zgodności. Feldt i Brennan (1989) sugerują, że gdy wykorzystywanych jest dwóch oceniających, dokładna zgodność powinna wynosić co najmniej 80%, przy czym 70% uważa się za akceptowalne do użytku operacyjnego.
Dokładna + sąsiadująca umowa:
Ta miara jest podawana jako wartość procentowa, która wskazuje procent przypadków, w całym analizowanym zbiorze danych, gdy poziom przyznany danej odpowiedzi przez Rater 1 jest dokładny lub sąsiadujący z poziomem przyznanym przez Rater 2. Na przykład, poziom STAMP 5 sąsiaduje zarówno z poziomem STAMP 4, jak i poziomem STAMP 6. W związku z tym, jeśli Rater 1 przypisze poziom STAMP 4 do odpowiedzi, a Rater 2 przypisze poziom STAMP 5 do tej odpowiedzi, będzie się to liczyło do tej miary, ponieważ te dwa poziomy sąsiadują ze sobą. Graham et al. (2012) sugerują, że gdy skala oceny ma więcej niż 5-7 poziomów oceny, jak ma to miejsce w przypadku skali STAMP, dokładna + sąsiadująca zgodność powinna być bliska 90%.
Kwadratowa ważona kappa (QWK)
Współczynnik kappa Cohena lub 𝜿 mierzy wiarygodność między dwoma oceniającymi, biorąc pod uwagę możliwość przypadkowego wystąpienia porozumienia. Na przykład, ponieważ numeryczna skala STAMP w pisaniu i mówieniu jest skalą 9-punktową, przechodzącą od poziomu STAMP 0 do poziomu STAMP 8, istnieje 11,11% szansy, że dowolni dwaj oceniający doskonale zgodzą się co do wyniku po prostu przez przypadek. Na stronie Avant, oprócz uwzględnienia tej przypadkowej zgodności, używamy kwadratowych wag przy obliczaniu kappa, co oznacza, że wyższa kara jest przypisywana do wyników, które są bardziej oddalone od siebie. Innymi słowy, zaobserwowanie różnicy między poziomem STAMP 3 a poziomem STAMP 7 między dwiema ocenami tej samej odpowiedzi jest bardziej problematyczne niż zaobserwowanie różnicy między poziomem STAMP 3 a poziomem STAMP 4. Williamson et. al. (2012) zalecają, aby QWK wynosił >= 0,70, a Fleiss (2003) zauważa, że wartości powyżej 0,75 wskazują na doskonałą zgodność poza przypadkiem dla większości celów. Wartość QWK równa 0 oznacza zgodność na poziomie przypadku między dwoma zestawami ocen, podczas gdy wartość 1 oznacza doskonałą zgodność.
Standaryzowana średnia różnica (SMD)
This measure shows the extent to which two raters may be using a rating scale in a similar way. It shows the difference of the mean of two sets of scores (i.e., Rater 1 vs. Rater 2) standardized by the pooled standard deviation of those two sets. Ideally, neither rater should prefer or avoid awarding levels at a certain point of a rating scale (for example, avoid giving either STAMP 0s or STAMP 8s). In other words, both raters should make equal use of the rating scale (STAMP 0 – STAMP 8) and the scores awarded should be dependent only on the level of proficiency shown in the response itself. It is recommended that the value for this measure should be <= 0.15 (Williamson et al., 2012), ensuring that the distribution of both sets of scores is acceptably similar.
Korelacja rang Spearmana (ρ)
Ta miara wskazuje siłę związku między dwiema zmiennymi, w tym przypadku poziomem STAMP przypisanym przez Ratera 1 i poziomem STAMP przypisanym przez Ratera 2. Oczekuje się, że jeśli zespół oceniających jest dobrze przeszkolony i dobrze rozumie rubrykę oceny, za każdym razem, gdy Rater 1 przypisuje wysoki poziom biegłości do odpowiedzi, Rater 2 również przypisuje wysoki poziom. Innymi słowy, spodziewamy się, że dwa zestawy wyników będą poruszać się razem (w górę lub w dół), jeśli oceniający rzeczywiście oceniają ten sam konstrukt. Używamy współczynnika korelacji rang Spearmana zamiast korelacji iloczynu Pearsona, ponieważ ten pierwszy jest preferowany, gdy oceny są porządkowe, jak w przypadku poziomów biegłości STAMP. Współczynnik korelacji na poziomie 0,80 lub wyższym jest uważany za silny w różnych dziedzinach (Akoglu, 2018).
2 poziomy STAMP Apart
Miara ta, wyrażona w procentach, wskazuje odsetek przypadków, w których zaobserwowano, że dwie oceny tej samej odpowiedzi różnią się o 2 poziomy STAMP (na przykład, Rater 1 przyznaje poziom STAMP 4 do odpowiedzi, a Rater 2 przyznaje poziom STAMP 6).
Wiarygodność i dokładność wyników ocenianych przez Avant w różnych językach
Zwracamy teraz uwagę na jakość ocen, w świetle powyższych statystyk, dla sekcji Pisanie i Mówienie w STAMP 4S i STAMP WS w kilku reprezentatywnych językach. Poniżej przedstawiamy wyniki oparte na dwóch różnych zestawach porównań:
Rater 1 vs Rater 2
Porównujemy poziom STAMP przyznany przez recenzenta 1 z poziomem STAMP przyznanym przez recenzenta 2 w dużej liczbie odpowiedzi w tym języku, które zostały ocenione przez co najmniej dwóch recenzentów. Zapewnia to wsparcie dla wiarygodności ocen dostarczonych przez dwóch losowo przydzielonych oceniających Avant . Jak wspomniano wcześniej, dwóch oceniających może przyznać dokładnie ten sam poziom STAMP do eseju i obaj mogą nadal być niepoprawni w swojej ocenie, w stosunku do tego, jaka powinna być rzeczywista ocena dla tej odpowiedzi. Z tego powodu nie uwzględniamy dokładnych miar zgodności między Raterem 1 i Raterem 2. Zamiast tego skupiamy się na dokładnej + przyległej zgodności, a także raportujemy miary dokładności między wynikiem przyznanym przez Rater 1 (który ocenia solo w 80% przypadków) a oficjalnymi wynikami (patrz poniżej).
Rater 1 vs oficjalny wynik
Aby ocenić dokładność poziomów przypisanych odpowiedziom przez osoby oceniające na stronie Avant , przyjrzeliśmy się dużej liczbie przypadków, w których odpowiedź została oceniona przez dwóch lub więcej oceniających. Następnie porównujemy oficjalny wynik przypisany do tej odpowiedzi w systemie (który pochodzi z indywidualnych ocen tej odpowiedzi, jak wyjaśniono wcześniej) z wynikiem przypisanym tylko przez Rater 1. Zapewnia nam to wskazanie, jak dokładnie oceniana jest odpowiedź, gdy tylko jeden oceniający Avant ocenia odpowiedź (co zdarza się w 80% przypadków).
Tabele 1 i 2 przedstawiają miary statystyczne dla sekcji pisania i mówienia w pięciu reprezentatywnych językach STAMP 4S.
Tabele 3 i 4 przedstawiają miary statystyczne dla sekcji pisania i mówienia w trzech reprezentatywnych językach STAMP WS
.
Dyskusja
Wysoki poziom rzetelności i dokładności ma fundamentalne znaczenie dla ważności wyników testów i ich zamierzonych zastosowań. To, co jest uważane za minimalnie akceptowalne pod względem rzetelności i dokładności, będzie jednak zależeć od konkretnej dziedziny (medycyna, prawo, sport, kryminalistyka, testy językowe itp.), a także od konsekwencji przyznania niedokładnego poziomu zestawowi odpowiedzi konkretnego egzaminowanego oraz od samej skali ocen. Na przykład, zgoda będzie miała tendencję do bycia niższą, im wyższa liczba kategorii dostępnych w skali ocen. Innymi słowy, można oczekiwać większej różnicy zdań między dwoma oceniającymi, jeśli muszą przypisać jeden z dziesięciu możliwych poziomów do odpowiedzi, niż jeśli muszą przypisać jeden z zaledwie czterech możliwych poziomów.
Statystyki przedstawione powyżej dla sekcji Pisanie i Mówienie zarówno w STAMP 4S, jak i STAMP WS pokazują wysoki poziom zarówno niezawodności (wyniki Rater 1 vs. Rater 2), jak i dokładności (wyniki Rater 1 vs. wyniki oficjalne). Spośród ośmiu ocenianych języków, wiarygodność zaobserwowana przez Exact + Adjacent Agreement pomiędzy Rater 1 i Rater 2 jest zawsze na minimalnym poziomie (i często znacznie wyższa) 96,78% dla Writing i 96,07% dla Speaking. Ponadto bardzo rzadko obserwowano przypadki, w których oceny dwóch oceniających różniły się o więcej niż dwa poziomy STAMP. Poziom dokładności dla wszystkich ośmiu języków, widoczny w statystykach dokładnej zgodności między wynikiem Ratera 1 a oficjalnym wynikiem dla każdej odpowiedzi, zawsze wynosi co najmniej 83,66% (ale często znacznie więcej) w przypadku pisania i 80,19% w przypadku mówienia, przy czym dokładna + sąsiadująca zgodność zawsze wynosi co najmniej 98,62% w przypadku pisania i 98,13% w przypadku mówienia. Wartości Quadratic Weighted Kappa (QWK) wskazują na bardzo wysoki poziom zgodności zarówno między Rater 1 i Rater 2, jak i między Rater 1 i Official Scores, podczas gdy korelacja między wynikami Rater 1 i Rater 2, a także między wynikami Rater 1 i Official Scores, okazała się bardzo wysoka. Wreszcie, współczynniki SMD (znormalizowane średnie różnice) pokazują, że skala STAMP jest używana w bardzo podobny sposób przez osoby oceniające Avant .
Powyższe statystyki dostarczają dowodów na wysoką jakość programu selekcji i szkolenia oceniających na stronie Avant Assessment oraz naszej metodologii w identyfikowaniu oceniających operacyjnych, którzy mogą wymagać tymczasowego usunięcia z puli oceniających i odbycia ukierunkowanego szkolenia. Pokazuje, że gdy dwóch oceniających może różnić się poziomem STAMP przypisanym do odpowiedzi, różnica rzadko będzie większa niż 1 poziom STAMP, przy czym obaj oceniający przypisują dokładnie ten sam poziom w zdecydowanej większości przypadków. W połączeniu z faktem, że ostateczny, oficjalny wynik egzaminowanego w sekcji pisania lub mówienia STAMP opiera się na jego indywidualnych wynikach STAMP w trzech niezależnych podpowiedziach, wyniki te dostarczają mocnych dowodów na to, że ostateczny wynik egzaminowanego w sekcjach pisania i mówienia STAMP może być wiarygodnym i dokładnym odzwierciedleniem jego poziomu biegłości językowej w tych dwóch dziedzinach.
Referencje
Akoglu, H. (2018). Przewodnik użytkownika po współczynnikach korelacji. Tureckie czasopismo medycyny ratunkowej, 18(3), 91-93.
Bachman, L. F., & Palmer, A. S. (1996). Testy językowe w praktyce: Projektowanie i opracowywanie użytecznych testów językowych (Vol. 1). Oxford University Press.
Feldt, L. S., & Brennan, R. (1989). Rzetelność. In R. L. Linn (Ed.), Educational measurement (3rd ed., pp. 105-146). New York: Macmillan.
Fleiss, J. L., Levin, B., & Paik, M. C. (2003). Metody statystyczne dla wskaźników i proporcji. 3rd ed. Wiley.
Graham, M., Milanowski, A., & Miller, J. (2012). Measuring and Promoting Inter-Rater Agreement of
Teacher and Principal Performance Ratings.
Matrix Education (2022). Praktyczne umiejętności z fizyki, część 2: Ważność, wiarygodność i dokładność eksperymentów. Retrieved on August 11, 2022 (kliknij tutaj, aby przejść do źródła).
Williamson, D. M., Xi, X., & Breyer, F. J. (2012). A framework for evaluation and use of automated
scoring. Educational measurement: issues and practice, 31(1), 2-13.