Fiabilidad y exactitud de la evaluación de Avant STAMP

Resumen

Las evaluaciones STAMP 4S y STAMP WS, que forman parte de la familia STAMP (Standards-Based Measurement of Proficiency), incluyen secciones de expresión escrita y oral. Unas puntuaciones fiables y precisas son cruciales para validar los usos previstos de estas pruebas.

Este artículo presenta los resultados de un análisis reciente de las puntuaciones en las secciones de expresión escrita y oral de cinco lenguas STAMP 4S (árabe, español, francés, chino simplificado y ruso) y tres lenguas STAMP WS (amárico, criollo haitiano y vietnamita).

El análisis, que incluyó más de 23.000 respuestas, muestra una elevada precisión y fiabilidad de las puntuaciones tanto en la sección de expresión escrita como en la de expresión oral, lo que respalda firmemente la validez de estas puntuaciones para los fines previstos.

Las secciones de expresión oral y escrita del STAMP

La familia de pruebas STAMP evalúa las competencias lingüísticas del mundo real.

STAMP 4S evalúa cuatro destrezas lingüísticas y está acreditado por el American Council on Education (ACE), actualmente disponible en 15 idiomas.

STAMP WStambién acreditado por ACE, evalúa las destrezas de expresión escrita y oral y está disponible en 37 idiomas.

Dos factores clave para validar los resultados de un test son la fiabilidad y la precisión. Este artículo examina la fiabilidad y la precisión de las puntuaciones obtenidas en las secciones de expresión escrita y oral del STAMP, puntuadas por evaluadores formados utilizando niveles de 0 (sin competencia) a 8 (avanzado-medio).

En las secciones de expresión escrita y oral, los examinandos responden a tres preguntas del mundo real, con el objetivo de mostrar sus habilidades lingüísticas. Cada respuesta es calificada de forma independiente por evaluadores certificados que reciben una formación rigurosa y un control continuo para garantizar la coherencia y la calidad.

Normalmente, el 80% de las respuestas son valoradas por un único evaluador, cuya puntuación pasa a ser oficial. En el 20% de los casos, al menos dos evaluadores puntúan una respuesta, y un responsable interviene en caso de desacuerdo. Las valoraciones se realizan de forma independiente, sin conocimiento de otras respuestas o puntuaciones, lo que garantiza resultados imparciales.

La puntuación final de un examinando en expresión escrita o expresión oral se basa en el nivel más alto que pueda demostrar de forma coherente en dos de cada tres preguntas.

Cuadro de procedimientos de puntuación de la precisión del STAMP. — Figura 1. Reglas del sistema Reglas del sistema para determinar el nivel STAMP final de un examinando en las secciones de expresión escrita y oral

Como se muestra en la figura 1, el nivel STAMP oficial de un examinando viene determinado por el nivel más alto que pueda demostrar de forma consistente en al menos dos de las tres respuestas. Por ejemplo, si un examinando obtiene un nivel Novato-Medio en su primera respuesta, Novato-Alto en la segunda y Novato-Alto en la tercera, su nivel STAMP final será STAMP 3 (Novato-Alto). Por el contrario, si recibe un nivel Intermedio-bajo en la primera respuesta, Novato-alto en la segunda e Intermedio-medio en la tercera, su nivel final será Intermedio-bajo, ya que es el nivel más alto que ha obtenido dos veces (en la primera y en la tercera respuesta).

El uso de tres preguntas independientes en las secciones de expresión oral y escrita del STAMP tiene dos ventajas principales:

Cobertura temática más amplia: Evaluar a los examinandos en diferentes temas garantiza que el nivel de competencia obtenido se pueda generalizar a otras situaciones del mundo real.
Minimizar el sesgo de los calificadores: junto con el método de calificación, el uso de múltiples indicaciones ayuda a reducir el posible sesgo de calificación de los calificadores individuales.

A continuación hablaremos de las definiciones de fiabilidad y precisión.

Fiabilidad

La fiabilidad se refiere a la consistencia de la medición (Bachman y Palmer, 1996). En términos sencillos, se refiere a hasta qué punto podemos confiar en que las puntuaciones de la prueba seguirán siendo las mismas si un examinado vuelve a realizar la prueba en momentos diferentes o realiza diferentes versiones de la prueba, suponiendo que su competencia no haya cambiado.

Por ejemplo, si un examinando obtiene una puntuación Intermedia-baja hoy e Intermedia-alta mañana, sin que se produzca ningún cambio en sus conocimientos o en su estado mental, esto sugiere que el test puede no ser muy fiable. Del mismo modo, si un examinando obtiene una puntuación de Avanzado-Bajo en una versión del test y de Intermedio-Medio en otra, esto indica una falta de coherencia, lo que apunta a un problema de fiabilidad del test.

Un factor que contribuye a la fiabilidad de un test es cómo se puntúa. En el examen STAMP, las secciones de comprensión lectora y auditiva se componen de preguntas de opción múltiple que un ordenador puntúa automáticamente. Esto garantiza que si un examinando proporciona las mismas respuestas en diferentes ocasiones, siempre recibirá la misma puntuación.

Sin embargo, las secciones de expresión escrita y oral son puntuadas por evaluadores humanos. Esto significa que las puntuaciones pueden variar dependiendo de quién califique la respuesta. Con calificadores bien formados, esperamos que las variaciones de puntuación sean mínimas, reduciendo el impacto de la indulgencia, el rigor o el posible sesgo.

Precisión

Los examinandos esperan que sus puntuaciones reflejen únicamente su competencia en el constructo que se mide (en el STAMP, competencia en cada dominio lingüístico).

La precisión se refiere a la medida en que la puntuación obtenida representa la capacidad real del examinando. Por ejemplo, si un examinando presenta una respuesta de expresión oral de nivel intermedio-alto pero dos evaluadores le otorgan una puntuación de nivel intermedio-bajo, la puntuación es inexacta. Incluso si otros dos evaluadores le asignan el nivel Intermedio-Bajo dos meses después, la puntuación sigue siendo inexacta, aunque fiable (ya que es consistente entre evaluadores y a lo largo del tiempo).

La figura 2 ilustra la diferencia entre fiabilidad y precisión. Lo ideal es que los tests sean tanto fiables como precisos, ya que así se garantiza la validez de las puntuaciones y su uso previsto.

Figura 2: Fiabilidad y precisión (fuente: Matrix Education)

Estadísticas utilizadas habitualmente para evaluar la fiabilidad y exactitud de las puntuaciones de los evaluadores

Cuando las respuestas son puntuadas por evaluadores humanos, como en el caso del STAMP, es fundamental garantizar que las puntuaciones reflejen la calidad de la respuesta en sí, y no las características del evaluador. En otras palabras, las puntuaciones deben depender únicamente de la competencia demostrada por el examinando, y no de la indulgencia, el rigor o la parcialidad del evaluador.

Los proveedores de pruebas de lengua suelen utilizar estadísticas para mostrar cuánto pueden variar las puntuaciones en función del evaluador. Normalmente, se trata de comparar las puntuaciones de dos evaluadores distintos en la misma respuesta. Lo ideal es que los calificadores coincidan en la mayor medida posible, lo que indica que el proceso de calificación es fiable.

Sin embargo, la fiabilidad también debe ir acompañada de la precisión. Dos evaluadores pueden asignar la misma puntuación, pero ambos pueden ser incorrectos. En un test bien desarrollado, el objetivo es que los evaluadores coincidan sistemáticamente y sean precisos en su puntuación.

La concordancia perfecta entre evaluadores humanos no siempre es realista. A pesar de la formación y la experiencia, incluso los evaluadores cualificados pueden discrepar en ocasiones, al igual que los médicos, ingenieros o científicos. El objetivo es lograr una concordancia elevada que sea defendible dado el uso previsto de las puntuaciones.

A continuación se presentan las medidas estadísticas que utilizamos en Avant Assessment para evaluar la calidad de las calificaciones proporcionadas por nuestros calificadores. Mientras que muchas empresas sólo informan de la concordancia exacta y adyacente, nosotros evaluamos medidas adicionales para obtener una visión completa de la calidad de las calificaciones. Las medidas de las que se informa en este documento incluyen:

Acuerdo exacto:

Esta medida se presenta como un porcentaje que indica el porcentaje de veces, en todo el conjunto de datos analizado, en que el nivel otorgado a una determinada respuesta por el Calificador 1 es exactamente el mismo que el otorgado por el Calificador 2. Por ejemplo, si el evaluador 1 otorga un nivel 5 de STAMP a una respuesta y el evaluador 2 también otorga un nivel 5 de STAMP a esa misma respuesta, se consideraría un caso de concordancia exacta. Feldt y Brennan (1989) sugieren que, cuando se utilizan dos calificadores, debe haber una concordancia exacta de al menos el 80%, considerándose aceptable para uso operativo el 70%.

Esta medida se presenta en forma de porcentaje y muestra la frecuencia con la que el evaluador 1 y el evaluador 2 asignaron el mismo nivel a una respuesta en todo el conjunto de datos. Por ejemplo, si ambos evaluadores asignan un nivel 5 de STAMP a la misma respuesta, se considera un caso de concordancia exacta. Según Feldt y Brennan (1989), la concordancia exacta debe ser de al menos un 80%, considerándose aceptable un 70% para uso operativo.

Acuerdo exacto + adyacente:

Esta medida se presenta como un porcentaje que muestra con qué frecuencia el Calificador 1 y el Calificador 2 asignaron el mismo nivel o un nivel adyacente a una respuesta en todo el conjunto de datos.

Por ejemplo, el nivel 5 del STAMP es adyacente al nivel 4 y al nivel 6. Si el evaluador 1 asigna el nivel 4 y el evaluador 2 asigna el nivel 5, cuenta para esta medida porque los niveles son adyacentes. Según Graham et al. (2012), cuando una escala de calificación tiene más de 5-7 niveles, como ocurre con la escala STAMP, la concordancia exacta + adyacente debe ser cercana al 90%.

Kappa cuadrática ponderada (QWK)

La kappa de Cohen (𝜅) mide la fiabilidad entre dos evaluadores teniendo en cuenta la posibilidad de acuerdo por azar. Por ejemplo, con la escala STAMP de 9 puntos (del nivel 0 al nivel 8), hay un 11,11% de posibilidades de que dos evaluadores coincidan en una puntuación por pura casualidad. En Avanttambién utilizamos ponderaciones cuadráticas al calcular kappa, lo que significa que se penalizan más las discrepancias mayores entre puntuaciones. Por ejemplo, una diferencia entre el nivel 3 y el nivel 7 del STAMP es más problemática que una diferencia entre el nivel 3 y el nivel 4.

Williamson et al. (2012) recomiendan que la kappa ponderada cuadráticamente (QWK) sea ≥ 0,70, mientras que Fleiss (2003) señala que los valores superiores a 0,75 indican un acuerdo excelente más allá del azar. Un valor de QWK de 0 significa que el acuerdo es puramente casual, mientras que un valor de 1 indica un acuerdo perfecto.

Diferencia de medias estandarizada (DME)

Esta medida muestra la similitud entre dos calificadores en el uso de una escala de calificación. Compara la diferencia en la media de dos conjuntos de puntuaciones (Calificador 1 frente a Calificador 2), estandarizada por la desviación estándar conjunta de dichas puntuaciones. Lo ideal es que ninguno de los calificadores favorezca o evite determinados niveles de la escala (por ejemplo, evitar el STAMP 0 o el STAMP 8). En otras palabras, ambos evaluadores deberían utilizar el rango completo de la escala(STAMP 0 - STAMP 8), con puntuaciones que reflejen la competencia demostrada en la respuesta. El valor recomendado para esta medida es ≤ 0,15 (Williamson et al., 2012), lo que indica que las distribuciones de ambos conjuntos de puntuaciones son aceptablemente similares.

Correlación de rango de Spearman (ρ)

Esta medida indica la fuerza de la asociación entre dos variables: el nivel STAMP asignado por el evaluador 1 y el nivel asignado por el evaluador 2. Si los evaluadores están bien formados y comprenden la rúbrica de calificación, es de esperar que ambos asignen niveles similares. Si los evaluadores están bien formados y comprenden la rúbrica de calificación, esperamos que ambos asignen niveles similares, es decir, que las puntuaciones se muevan a la par. En otras palabras, cuando el evaluador 1 asigna un nivel alto, el evaluador 2 también debería asignar un nivel alto, lo que refleja una evaluación coherente del mismo constructo.

Utilizamos el coeficiente de correlación de orden de rango de Spearman en lugar del de Pearson porque el de Spearman es más adecuado para datos ordinales, como los niveles de competencia del STAMP. Un coeficiente de correlación de 0,80 o superior se considera fuerte en la mayoría de los campos (Akoglu, 2018).

2 niveles STAMP aparte

Esta medida, expresada en porcentaje, muestra con qué frecuencia dos valoraciones de la misma respuesta difieren en 2 niveles STAMP (por ejemplo, el valor 1 asigna un nivel STAMP 4 y el valor 2 asigna un nivel STAMP 6).

Fiabilidad y precisión de las puntuaciones de los evaluadores de Avant en varios idiomas

Ahora nos centramos en la calidad de las calificaciones de las secciones de expresión escrita y oral de STAMP 4S y STAMP WS, teniendo en cuenta las estadísticas anteriores en varios idiomas representativos. A continuación, presentamos resultados basados en dos conjuntos diferentes de comparaciones:

Calificador 1 vs Calificador 2

Comparamos el nivel STAMP otorgado por el evaluador 1 con el otorgado por el evaluador 2 en numerosas respuestas evaluadas por al menos dos evaluadores. Esta comparación corrobora la fiabilidad de las calificaciones de dos calificadores Avant al azar. Como se ha indicado anteriormente, dos evaluadores pueden coincidir en una puntuación, pero ambos pueden ser incorrectos. Por lo tanto, no incluimos medidas de concordancia exacta entre el Calificador 1 y el Calificador 2. En su lugar, nos centramos en la Concordancia exacta + Adecuada. En su lugar, nos centramos en el acuerdo exacto + adyacente e informamos de las medidas de precisión comparando las puntuaciones del evaluador 1 (que califica en solitario el 80% de las veces) con las puntuaciones oficiales.

Calificador 1 frente a la puntuación oficial

Para evaluar la precisión de los niveles asignados por los calificadores de Avant , analizamos los casos en los que una respuesta fue calificada por dos o más calificadores. Comparamos la puntuación oficial (derivada de todas las puntuaciones individuales) con la puntuación dada por el Evaluador 1 solo. Esto ayuda a indicar la precisión con la que se valora una respuesta cuando sólo interviene un evaluador, lo que ocurre en el 80% de los casos.

Las tablas 1 y 2 presentan las medidas estadísticas de las secciones de expresión escrita y expresión oral de cinco lenguas representativas del STAMP 4S.

Cuadro 1

Medida	Árabe	Español	Francés	Chino simplificado	Ruso
Número de respuestas en el conjunto de datos	n = 3,703	n = 4,758	n = 4,785	n = 4,766	n = 3,536
Concordancia exacta (Calificador 1 vs. Calificación oficial)	84.8%	84.15%	83.66%	88.46%	92.17%
Concordancia exacta + adyacente (Calificador 1 vs. Calificación oficial)	96.78% (98.62%)	99.09% (99.79%)	99.22% (99.79%)	99.79% (99.91%)	99.71% (99.88%)
Kappa cuadrática ponderada (QWK) (Calificador 1 frente a puntuación oficial)	0.93 (0.96)	0.91 (0.95)	0.91 (0.95)	0.95 (0.96)	0.95 (0.97)
Diferencia de medias estandarizada (DME) (Calificador 1 frente a Calificador 2)	0.00 (0.01)	0.00 (0.00)	0.00 (0.00)	0.00 (0.00)	0.00 (0.00)
Correlación de rango de Spearman (R) (Calificador 1 frente a puntuación oficial)	0.94 (0.96)	0.90 (0.95)	0.91 (0.95)	0.95 (0.97)	0.94 (0.97)
2 niveles STAMP aparte (Calificador 1 frente a Calificador 2)	2.80% (1.24%)	0.90% (0.20%)	0.77% (0.20%)	0.00% (0.00%)	0.28% (0.11%)

Tabla 1 Estadísticas de fiabilidad y precisión del evaluador para la sección de escritura de cinco lenguas representativas del STAMP 4S.

Cuadro 2

Medida	Árabe	Español	Francés	Chino simplificado	Ruso
Número de respuestas en el conjunto de datos	n = 3,363	n = 4,078	n = 4,530	n = 4,651	n = 3,392
Concordancia exacta (Calificador 1 vs. Calificación oficial)	84.96%	80.37%	80.19%	82.24%	88.30%
Concordancia exacta + adyacente (Calificador 1 vs. Calificación oficial)	96.07% (98.13%)	98.13% (99.29%)	98.54% (99.47%)	99.31% (99.76%)	98.99% (99.94%)
Kappa cuadrática ponderada (QWK) (Calificador 1 frente a puntuación oficial)	0.92 (0.95)	0.92 (0.96)	0.91 (0.95)	0.94 (0.95)	0.92 (0.96)
Diferencia de medias estandarizada (DME) (Calificador 1 frente a Calificador 2)	-0.02 (0.01)	0.00 (0.00)	-0.01 (0.02)	0.00 (0.00)	-0.01 (-0.01)
Correlación de rango de Spearman (R) (Calificador 1 frente a puntuación oficial)	0.93 (0.96)	0.91 (0.95)	0.92 (0.95)	0.94 (0.96)	0.91 (0.95)
2 niveles STAMP aparte (Calificador 1 frente a Calificador 2)	3.27% (1.42%)	1.74% (0.00%)	1.39% (0.00%)	0.00% (0.00%)	1.01% (0.00%)

Tabla 2. Estadísticas de fiabilidad y precisión del evaluador para la sección de expresión oral de cinco STAMP representativos

Las tablas 3 y 4 muestran las medidas estadísticas de las secciones de expresión escrita y expresión oral de tres idiomas representativos del STAMP WS
.

Cuadro 3

Tabla de precisión STAMP 3. — Tabla 3. Estadísticas de fiabilidad y precisión del evaluador para la sección de escritura de tres idiomas representativos del STAMP WS.

Cuadro 4

TABLA 4 DE PRECISIÓN DEL ESTAMPAJE — Tabla 4. Estadísticas de fiabilidad y precisión del evaluador para la sección de expresión oral de tres idiomas representativos del STAMP WS.

Debate

Un alto nivel de fiabilidad y precisión es fundamental para la validez de las puntuaciones de los tests y sus usos previstos. Sin embargo, lo que se considera mínimamente aceptable en términos de fiabilidad y precisión dependerá del ámbito específico (medicina, derecho, deportes, medicina forense, pruebas de idiomas, etc.), así como de las consecuencias de otorgar un nivel inexacto al conjunto de respuestas de un examinando concreto, y de la propia escala de calificación. Por ejemplo, el acuerdo tenderá a ser menor cuanto mayor sea el número de categorías disponibles en una escala de calificación. En otras palabras, cabe esperar un mayor desacuerdo entre dos calificadores cualesquiera si deben asignar uno de los diez niveles posibles a una respuesta que si sólo deben asignar uno de los cuatro niveles posibles.

Las estadísticas de las secciones de expresión escrita y oral de STAMP 4S y STAMP WS muestran un alto nivel de fiabilidad (puntuaciones del evaluador 1 frente a las del evaluador 2) y precisión (puntuaciones del evaluador 1 frente a las puntuaciones oficiales). De los ocho idiomas evaluados, la fiabilidad observada por el Acuerdo Exacto + Adyacente entre el Evaluador 1 y el Evaluador 2 es siempre como mínimo (y a menudo considerablemente superior) del 96,78% para la expresión escrita y del 96,07% para la expresión oral. Además, rara vez se observaron casos en los que las puntuaciones de dos evaluadores estuvieran separadas por más de dos niveles STAMP. El nivel de precisión en las ocho lenguas, según los datos estadísticos de concordancia exacta entre la puntuación del evaluador 1 y la puntuación oficial para cada respuesta, es siempre de un mínimo del 83,66% (aunque a menudo es considerablemente superior) para la expresión escrita y del 80,19% para la expresión oral, y la concordancia exacta + adyacente es siempre de un mínimo del 98,62% para la expresión escrita y del 98,13% para la expresión oral. Los valores de Kappa Cuadrática Ponderada (QWK) muestran un nivel muy alto de concordancia tanto entre el Calificador 1 y el Calificador 2 como entre el Calificador 1 y las Puntuaciones Oficiales, mientras que la correlación entre las puntuaciones del Calificador 1 y el Calificador 2, así como entre el Calificador 1 y las Puntuaciones Oficiales, han demostrado ser muy altas. Por último, los coeficientes SMD (Standardized Mean Differences) muestran que la escala STAMP es utilizada de forma muy similar por los evaluadores de Avant .

Las estadísticas anteriores demuestran la alta calidad del programa de selección y formación de evaluadores de Avant Assessment y de nuestra metodología para identificar a los evaluadores operativos que pueden necesitar ser retirados temporalmente del grupo de evaluadores y recibir una formación específica. Demuestra que cuando dos evaluadores pueden diferir en el nivel STAMP asignado a una respuesta, la diferencia raramente será de más de 1 nivel STAMP, asignando ambos evaluadores exactamente el mismo nivel en la gran mayoría de los casos. Junto con el hecho de que la puntuación final oficial de un examinando en las secciones de expresión escrita o expresión oral del STAMP se basa en sus puntuaciones STAMP individuales en tres preguntas independientes, los resultados que aquí se presentan proporcionan pruebas sólidas de que se puede confiar en que la puntuación final de un examinando en las secciones de expresión escrita y expresión oral del STAMP sea una representación fiable y precisa de su nivel de competencia lingüística en estos dos ámbitos.

Referencias

Akoglu, H. (2018). Guía del usuario para coeficientes de correlación. Revista turca de medicina de urgencias, 18(3), 91-93.

Bachman, L. F., y Palmer, A. S. (1996). Pruebas de lengua en la práctica: Designing and developing useful language tests (Vol. 1). Oxford University Press.

Feldt, L. S., y Brennan, R. (1989). Reliability. En R. L. Linn (Ed.), Educational measurement (3ª ed., pp. 105-146). New York: Macmillan.

Fleiss, J. L., Levin, B., & Paik, M. C. (2003). Statistical methods for rates and proportions. 3rd ed. Wiley.

Graham, M., Milanowski, A., y Miller, J. (2012). Measuring and Promoting Inter-Rater Agreement of
Teacher and Principal Performance Ratings.

Matrix Education (2022). Physics Practical Skills Part 2: Validity, Reliability and Accuracy of Experiments. Recuperado el 11 de agosto de 2022 (haga clic aquí para ir a la fuente).

Williamson, D. M., Xi, X., & Breyer, F. J. (2012). A framework for evaluation and use of automated
scoring. Medición educativa: cuestiones y práctica, 31(1), 2-13.

Actualizado: Noviembre de 2024