Fiabilidad y precisión de las puntuaciones en las secciones de expresión escrita y oral de las pruebas STAMP

Resumen

Los exámenes STAMP 4S y STAMP WS de la familia de evaluaciones STAMP (Standards-Based Measurement of Proficiency) incluyen una sección de expresión escrita y otra de expresión oral. Una prueba crucial de la validez de las puntuaciones en estas secciones, dados sus usos e interpretaciones previstos, proviene del grado en que se puede demostrar que las puntuaciones son fiables y precisas.

En este artículo, mostramos los resultados de un análisis reciente realizado sobre las puntuaciones en las secciones de expresión escrita y expresión oral en cinco idiomas representativos de STAMP 4S (árabe, español, francés, chino simplificado y ruso) y tres idiomas representativos de STAMP WS (amárico, criollo haitiano y vietnamita).

Los resultados, basados en el análisis de más de 23.000 respuestas de examinandos en estos ocho idiomas, muestran un alto nivel de precisión y fiabilidad en las puntuaciones de las secciones de expresión escrita y oral del STAMP, lo que respalda firmemente la validez de las puntuaciones de estas secciones dadas sus interpretaciones y usos previstos.

Las secciones de expresión oral y escrita del STAMP

The Writing and Speaking Sections of STAMP The STAMP family of tests (Standards-Based Measurement of Language Proficiency) assess real-world language proficiency and are aligned to national proficiency standards. The STAMP 4S test is a four-skill test of language proficiency, accredited by the American Council on Education (ACE), and available at the time of this writing in 14 languages. The STAMP WS, also accredited by ACE, is a test of language proficiency in the two productive skills of Writing and Speaking, and is available at the time of this writing in 24 languages. Two important factors in assessing the extent to which scores from a test can be said to be valid, given what a test purports to measure and the intended uses of those test scores, are the reliability and accuracy of the test scores.

En este breve artículo, discutiremos y examinaremos la fiabilidad y precisión de las calificaciones de las secciones de expresión escrita y oral del STAMP, en las que calificadores humanos entrenados deben asignar un nivel STAMP entre 0 (Sin competencia) y 8 (Avanzado-Medio) a las producciones lingüísticas de los examinandos.

En cada una de las secciones de expresión escrita y oral del examen STAMP, los examinandos reciben tres preguntas basadas en situaciones reales a las que deben responder. Se les pide que escriban lo máximo posible y que "muestren" lo mejor posible sus conocimientos lingüísticos.

La respuesta de un examinando a cada una de las tres preguntas de la sección es calificada por calificadores Avant, que deben superar un exhaustivo y riguroso programa de formación y certificación para poder calificar respuestas STAMP. Después de que estos calificadores comienzan a calificar respuestas STAMP reales y operativas de expresión oral y escrita, Avant y sus administradores de calificadores vigilan de cerca el desempeño de cada uno de ellos por medio de medidas cualitativas y cuantitativas para asegurar la alta calidad de nuestras calificaciones y garantizar que todos y cada uno de los calificadores de Avant califiquen de acuerdo con los estándares establecidos por la empresa.

En el 80% de los casos, una respuesta de expresión oral o escrita es calificada por un único evaluador Avant . La puntuación/nivel STAMP asignada a esa respuesta por el evaluador se convierte en la puntuación oficial de esa respuesta en el sistema. En el 20% de los casos, una respuesta es evaluada por al menos dos evaluadores de Avant . Cuando los dos calificadores coinciden en la puntuación STAMP, ésta se convierte en la puntuación oficial asignada a esa respuesta. En caso de desacuerdo entre los dos calificadores, se recurre a un administrador de calificadores de Avant para que califique la respuesta. La puntuación proporcionada por el evaluador se convierte en la puntuación oficial asignada a la respuesta. La calificación de cada respuesta se realiza con total independencia de la respuesta del examinado a las otras dos respuestas. Al calificar una respuesta determinada, los calificadores no tienen acceso a ninguna información relativa al examinado, a su puntuación en sus otras respuestas para esa destreza, ni a la puntuación otorgada a esa respuesta por cualquier otro calificador, todo lo cual aumenta la validez de la calificación de cada respuesta.

La puntuación STAMP final de un examinando, ya sea en la sección de expresión escrita o en la de expresión oral, se calcula en función del nivel STAMP específico que haya obtenido en cada una de las tres preguntas a las que haya respondido. El nivel STAMP oficial otorgado para la sección es el nivel de competencia más alto que el examinando fue capaz de mantener (es decir, demostrar en al menos dos ocasiones) en sus tres respuestas.

Cuadro de procedimientos de puntuación de la precisión del STAMP. — Figura 1. Reglas del sistema Reglas del sistema para determinar el nivel STAMP final de un examinando en las secciones de expresión escrita y oral

Como se muestra en la Figura 1, si un examinando obtiene un Principiante en su primera respuesta, un Principiante en la segunda y un Principiante en la tercera, el nivel STAMP oficial de ese examinando para esa sección se convierte en un STAMP 3Principiante), ya que ese es el nivel más alto de competencia que fue capaz de mantener en al menos dos instancias. Alternativamente, si se le concede un Intermedio-bajo por su primera respuesta, un Principiante por la segunda y un Intermedio-medio por la tercera, su nivel STAMP final en esa sección se convierte en Intermedio-bajo, que es el nivel más alto que fue capaz de mantener en al menos dos instancias (la primera y la tercera, en este caso).

El uso de tres preguntas independientes en la sección de expresión escrita y tres preguntas independientes en la sección de expresión oral del STAMP tiene dos ventajas principales. La primera ventaja es que permite evaluar a los examinandos en diferentes temas, apoyando así la premisa de que el nivel de competencia otorgado al final de la sección se generalizará a otros escenarios del mundo real. La segunda ventaja es que, junto con la metodología de calificación descrita anteriormente, ayuda a minimizar el efecto de cualquier posible sesgo de calificación por parte de cualquier evaluador individual Avant .

A continuación nos centraremos en la definición de fiabilidad y precisión.

Fiabilidad

La fiabilidad puede definirse como la "consistencia de la medida" (Bachman y Palmer, 1996). En pocas palabras, es la medida en que se puede confiar en que las puntuaciones obtenidas en una prueba determinada seguirán siendo las mismas si un examinado vuelve a realizar esa prueba en diferentes ocasiones o realiza diferentes formas de la prueba, suponiendo que la competencia del examinado en lo que mide la prueba no haya cambiado mientras tanto.

Por ejemplo, si un examinando realiza una prueba de competencia lingüística hoy y obtiene una puntuación de Intermedio-bajo, pero mañana obtiene una puntuación de Intermedio-alto en la misma prueba, podríamos suponer, siempre que el conocimiento del idioma por parte del examinando y su estado mental no hayan cambiado, que la prueba puede no ser altamente fiable. En la misma línea, si una organización pone a disposición un test en varias formas paralelas (lo que suele hacerse para aumentar la seguridad del test) pero un examinando recibe una puntuación de Avanzado-Bajo en una forma y luego Intermedio-Medio en otra, podemos suponer una vez más que puede haber una falta de coherencia en la medición, y por tanto un problema de falta de fiabilidad, con ese test.

Uno de los factores que contribuyen a la fiabilidad de un test es la forma en que se puntúa. En el examen STAMP, las secciones de Lectura y Comprensión auditiva se componen de preguntas de opción múltiple y las respuestas del examinando son puntuadas automáticamente por un sistema informatizado. Esto significa que si un examinando da la misma respuesta a los mismos ítems en diferentes ocasiones, siempre recibirá la misma puntuación.

Por otra parte, las secciones de expresión escrita y oral del STAMP son calificadas por evaluadores humanos. Por lo tanto, es posible que un examinando reciba una puntuación diferente por la misma respuesta, dependiendo de quién califique su respuesta. Por supuesto, cuanto mejor formados estén los evaluadores, menos cabe esperar que varíen las puntuaciones debido a diferencias en la indulgencia, el rigor o cualquier posible sesgo por parte de los evaluadores.

Precisión

Los examinandos esperan que su puntuación en un test dependa únicamente de lo mucho o poco que dominen el constructo que mide el test (en el caso del STAMP, el dominio de cada uno de los dominios lingüísticos). La precisión se refiere a la medida en que la puntuación otorgada a la respuesta de un examinando describe correctamente su capacidad en ese constructo. Así, si un examinando presenta una respuesta de expresión oral de nivel intermedio-alto, pero los dos evaluadores que asignaron un nivel a esa respuesta le asignan un nivel intermedio-bajo, podríamos decir que se trata de una puntuación inexacta. Si los otros dos evaluadores calificaran esa misma respuesta dos meses más tarde y le asignaran también un nivel Intermedio-bajo, las puntuaciones volverían a ser inexactas, a pesar de ser fiables (no haber cambiado de una ocasión a otra ni de un evaluador a otro).

La figura 2 describe la diferencia entre fiabilidad y precisión. Naturalmente, nos gustaría que los tests fueran tanto fiables como precisos. El cumplimiento de estas dos condiciones respalda firmemente la validez de las puntuaciones del test y sus usos previstos.

preciso vs fiable tabla mejorada — Figura 2: Fiabilidad y precisión (fuente: Matrix Education)

Estadísticas utilizadas habitualmente para evaluar la fiabilidad y exactitud de las puntuaciones de los evaluadores

Cuando las respuestas de los examinandos en un test son puntuadas por evaluadores humanos, como en el caso del STAMP, es importante asegurarse de que las puntuaciones reflejan la calidad de la respuesta en sí y, por lo tanto, no se ven afectadas (o sólo mínimamente) por el perfil del evaluador (o evaluadores) específico que evalúa esa respuesta. En otras palabras, la puntuación debe depender únicamente de la medida del constructo medido por el test que un determinado examinando pueda demostrar en su respuesta y no de lo indulgente, estricto o parcial que pueda ser un evaluador.

Los proveedores de pruebas de idiomas suelen ofrecer estadísticas para mostrar hasta qué punto las puntuaciones otorgadas por los evaluadores humanos a las respuestas de los examinandos pueden verse afectadas por quién realiza la calificación. A menudo, en la bibliografía sobre pruebas de idiomas, estas estadísticas se obtienen comparando las puntuaciones que dos evaluadores distintos darían al mismo ensayo. Se supone que es muy deseable que dos calificadores asignen la misma puntuación al mismo ensayo con la mayor frecuencia posible, lo que demostraría que el proceso de calificación es muy fiable.

Sin embargo, como hemos visto anteriormente, la fiabilidad debe ir acompañada de la precisión y esta última también debe investigarse. Después de todo, dos calificadores al azar pueden asignar la misma puntuación a un ensayo, pero ambos podrían estar equivocados. En un examen bien desarrollado y puntuado, lo ideal es que los evaluadores coincidan en gran medida entre sí y acierten (sean precisos) en las puntuaciones que asignan a las respuestas.

Es importante comprender que no siempre es viable esperar un acuerdo perfecto entre dos evaluadores humanos. A pesar de toda la formación que hayan recibido y de toda la experiencia y conocimientos que cada uno de ellos pueda tener sobre el constructo que se está evaluando (en nuestro caso, el dominio de la lengua), incluso personas altamente cualificadas pueden discrepar en ocasiones. Los médicos lo hacen. Lo hacen los ingenieros. Los científicos también. Por lo tanto, la idea es aspirar a un acuerdo tan alto como sea factible, y que resulte defendible dados los usos e interpretaciones de las puntuaciones de esa prueba.

A continuación se indican las medidas estadísticas que Avant Assessment aplica a la prueba STAMP para evaluar la calidad de la calificación proporcionada por nuestro equipo de evaluadores humanos. Mientras que muchas empresas sólo informan de la concordancia exacta y adyacente, nosotros evaluamos también a nuestros calificadores con medidas adicionales, ya que cualquier medida específica sólo puede proporcionar información parcial sobre la calidad de los calificadores. Cuantas más medidas se incluyan, más podremos triangular los resultados y llegar a una decisión concluyente. Las medidas de las que informaremos en este documento son:

Acuerdo exacto:

Esta medida se presenta como un porcentaje que indica el porcentaje de veces, en todo el conjunto de datos analizado, en que el nivel otorgado a una determinada respuesta por el Calificador 1 es exactamente el mismo que el otorgado por el Calificador 2. Por ejemplo, si el evaluador 1 otorga un nivel 5 de STAMP a una respuesta y el evaluador 2 también otorga un nivel 5 de STAMP a esa misma respuesta, se consideraría un caso de concordancia exacta. Feldt y Brennan (1989) sugieren que, cuando se utilizan dos calificadores, debe haber una concordancia exacta de al menos el 80%, considerándose aceptable para uso operativo el 70%.

Acuerdo exacto + adyacente:

Esta medida se presenta como un porcentaje que indica el porcentaje de veces, en todo el conjunto de datos analizado, en que el nivel otorgado a una respuesta dada por el Calificador 1 es exacto o adyacente al nivel otorgado por el Calificador 2. Por ejemplo, el nivel 5 de STAMP es adyacente tanto al nivel 4 como al nivel 6 de STAMP. Por ejemplo, un nivel 5 de STAMP es adyacente tanto a un nivel 4 como a un nivel 6 de STAMP. Por lo tanto, si el evaluador 1 asigna un nivel 4 de STAMP a una respuesta y el evaluador 2 asigna un nivel 5 de STAMP a esa respuesta, esto contaría para esta medida, ya que estos dos niveles son adyacentes entre sí. Graham et al. (2012) sugieren que cuando la escala de valoración tiene más de 5-7 niveles de valoración, como es el caso de la escala STAMP, la concordancia exacta + adyacente debería ser cercana al 90%.

Kappa cuadrática ponderada (QWK)

La kappa de Cohen, o 𝜿, mide la fiabilidad entre dos evaluadores teniendo en cuenta la posibilidad de que el acuerdo se produzca por azar. Por ejemplo, dado que la escala numérica STAMP en Expresión escrita y Expresión oral es una escala de 9 puntos, que va del nivel STAMP 0 al nivel STAMP 8, existe un 11,11% de posibilidades de que dos evaluadores coincidan perfectamente en una puntuación simplemente por azar. En Avant, además de tener en cuenta este acuerdo fortuito, utilizamos ponderaciones cuadráticas al calcular kappa, lo que significa que se asigna una penalización mayor a las puntuaciones que están más alejadas entre sí. En otras palabras, observar una diferencia entre un nivel 3 de STAMP y un nivel 7 de STAMP entre dos puntuaciones a la misma respuesta es más problemático que observar una diferencia entre un nivel 3 de STAMP y un nivel 4 de STAMP. Williamson et. al. (2012) recomiendan que QWK debe ser >= 0,70 y Fleiss (2003) señala que los valores superiores a 0,75 muestran un acuerdo excelente más allá del azar para la mayoría de los propósitos. Un valor de QWK de 0 indica un acuerdo simplemente al nivel del azar entre dos conjuntos de valoraciones, mientras que un valor de 1 indica un acuerdo perfecto.

Diferencia de medias estandarizada (DME)

This measure shows the extent to which two raters may be using a rating scale in a similar way. It shows the difference of the mean of two sets of scores (i.e., Rater 1 vs. Rater 2) standardized by the pooled standard deviation of those two sets. Ideally, neither rater should prefer or avoid awarding levels at a certain point of a rating scale (for example, avoid giving either STAMP 0s or STAMP 8s). In other words, both raters should make equal use of the rating scale (STAMP 0 – STAMP 8) and the scores awarded should be dependent only on the level of proficiency shown in the response itself. It is recommended that the value for this measure should be <= 0.15 (Williamson et al., 2012), ensuring that the distribution of both sets of scores is acceptably similar.

Correlación de rango de Spearman (ρ)

Esta medida indica la fuerza de la asociación entre dos variables, en este caso el nivel STAMP asignado por el Calificador 1 y el nivel STAMP asignado por el Calificador 2. Se espera que, si el equipo de evaluadores está bien formado y entiende claramente la rúbrica de calificación, siempre que el Evaluador 1 asigne un nivel de competencia alto a una respuesta, el Evaluador 2 también asigne un nivel alto. En otras palabras, esperamos que los dos conjuntos de puntuaciones se muevan juntos (hacia arriba o hacia abajo) si los evaluadores están realmente evaluando el mismo constructo. Utilizamos el coeficiente de correlación de rango de Spearman en lugar de la correlación producto-momento de Pearson, ya que el primero es preferible cuando las puntuaciones son ordinales, como en el caso de los niveles de competencia del STAMP. Un coeficiente de correlación de 0,80 o superior se considera fuerte en diversos campos (Akoglu, 2018).

2 niveles STAMP aparte

Esta medida, expresada en porcentaje, indica el porcentaje de veces en que se ha observado que dos valoraciones de la misma respuesta están separadas por 2 niveles STAMP (por ejemplo, el valor 1 otorga un nivel STAMP 4 a una respuesta y el valor 2 otorga un nivel STAMP 6).

Fiabilidad y precisión de las puntuaciones de los evaluadores de Avant en varios idiomas

A continuación nos centramos en la calidad de las calificaciones, a la vista de las estadísticas anteriores, para las secciones de expresión escrita y expresión oral de STAMP 4S y STAMP WS en varios idiomas representativos. A continuación ofrecemos resultados basados en dos conjuntos diferentes de comparaciones:

Calificador 1 vs Calificador 2

Comparamos el nivel de STAMP otorgado por el evaluador 1 con el nivel de STAMP otorgado por el evaluador 2 en un gran número de respuestas en ese idioma que fueron evaluadas por al menos dos evaluadores. Esto demuestra la fiabilidad de las puntuaciones otorgadas por dos evaluadores Avant asignados al azar. Como ya se ha mencionado, dos evaluadores pueden asignar exactamente el mismo nivel STAMP a una redacción y ambos pueden equivocarse en su calificación, en comparación con la calificación real que debería haber recibido esa respuesta. Por este motivo, no incluimos medidas de concordancia exacta entre el evaluador 1 y el evaluador 2. En su lugar, nos centramos en la concordancia exacta + ad. En su lugar, nos centramos en la concordancia exacta + adyacente y también informamos sobre las medidas de precisión entre la puntuación otorgada por el Evaluador 1 (que califica en solitario el 80% de las veces) y las puntuaciones oficiales (véase más adelante).

Calificador 1 frente a la puntuación oficial

Para evaluar la precisión de los niveles asignados por los evaluadores Avant a las respuestas, analizamos un gran número de casos en los que una respuesta fue puntuada por dos o más evaluadores. A continuación, comparamos la puntuación oficial asignada a esa respuesta en el sistema (que se deriva de las puntuaciones individuales para esa respuesta, como se ha explicado anteriormente) con la puntuación asignada por el evaluador 1 únicamente. Esto nos proporciona una indicación de la precisión con la que se puntúa una respuesta cuando sólo la puntúa un evaluador Avant (lo que ocurre el 80% de las veces).

Las tablas 1 y 2 muestran las medidas estadísticas de las secciones de expresión escrita y expresión oral de cinco lenguas representativas del STAMP 4S.

Tabla 1. Estadísticas de fiabilidad y precisión de los evaluadores para la sección de expresión escrita de cinco STAMP representativos Estadísticas de fiabilidad y precisión de los evaluadores para la sección escrita de cinco lenguas representativas del STAMP 4S representativos.

Tabla de precisión STAMP 2 — Tabla 2. Estadísticas de fiabilidad y precisión del evaluador para la sección de expresión oral de cinco STAMP representativos

Las tablas 3 y 4 muestran las medidas estadísticas de las secciones de expresión escrita y expresión oral de tres idiomas representativos del STAMP WS
.

Tabla de precisión STAMP 3. — Tabla 3. Estadísticas de fiabilidad y precisión del evaluador para la sección de escritura de tres idiomas representativos del STAMP WS.

TABLA 4 DE PRECISIÓN DEL ESTAMPAJE — Tabla 4. Estadísticas de fiabilidad y precisión del evaluador para la sección de expresión oral de tres idiomas representativos del STAMP WS.

Debate

Un alto nivel de fiabilidad y precisión es fundamental para la validez de las puntuaciones de los tests y sus usos previstos. Sin embargo, lo que se considera mínimamente aceptable en términos de fiabilidad y precisión dependerá del ámbito específico (medicina, derecho, deportes, medicina forense, pruebas de idiomas, etc.), así como de las consecuencias de otorgar un nivel inexacto al conjunto de respuestas de un examinando concreto, y de la propia escala de calificación. Por ejemplo, el acuerdo tenderá a ser menor cuanto mayor sea el número de categorías disponibles en una escala de calificación. En otras palabras, cabe esperar un mayor desacuerdo entre dos calificadores cualesquiera si deben asignar uno de los diez niveles posibles a una respuesta que si sólo deben asignar uno de los cuatro niveles posibles.

Las estadísticas de las secciones de expresión escrita y oral de STAMP 4S y STAMP WS muestran un alto nivel de fiabilidad (puntuaciones del evaluador 1 frente a las del evaluador 2) y precisión (puntuaciones del evaluador 1 frente a las puntuaciones oficiales). De los ocho idiomas evaluados, la fiabilidad observada por el Acuerdo Exacto + Adyacente entre el Evaluador 1 y el Evaluador 2 es siempre como mínimo (y a menudo considerablemente superior) del 96,78% para la expresión escrita y del 96,07% para la expresión oral. Además, rara vez se observaron casos en los que las puntuaciones de dos evaluadores estuvieran separadas por más de dos niveles STAMP. El nivel de precisión en las ocho lenguas, según los datos estadísticos de concordancia exacta entre la puntuación del evaluador 1 y la puntuación oficial para cada respuesta, es siempre de un mínimo del 83,66% (aunque a menudo es considerablemente superior) para la expresión escrita y del 80,19% para la expresión oral, y la concordancia exacta + adyacente es siempre de un mínimo del 98,62% para la expresión escrita y del 98,13% para la expresión oral. Los valores de Kappa Cuadrática Ponderada (QWK) muestran un nivel muy alto de concordancia tanto entre el Calificador 1 y el Calificador 2 como entre el Calificador 1 y las Puntuaciones Oficiales, mientras que la correlación entre las puntuaciones del Calificador 1 y el Calificador 2, así como entre el Calificador 1 y las Puntuaciones Oficiales, han demostrado ser muy altas. Por último, los coeficientes SMD (Standardized Mean Differences) muestran que la escala STAMP es utilizada de forma muy similar por los evaluadores de Avant .

Las estadísticas anteriores demuestran la alta calidad del programa de selección y formación de evaluadores de Avant Assessment y de nuestra metodología para identificar a los evaluadores operativos que pueden necesitar ser retirados temporalmente del grupo de evaluadores y recibir una formación específica. Demuestra que cuando dos evaluadores pueden diferir en el nivel STAMP asignado a una respuesta, la diferencia raramente será de más de 1 nivel STAMP, asignando ambos evaluadores exactamente el mismo nivel en la gran mayoría de los casos. Junto con el hecho de que la puntuación final oficial de un examinando en las secciones de expresión escrita o expresión oral del STAMP se basa en sus puntuaciones STAMP individuales en tres preguntas independientes, los resultados que aquí se presentan proporcionan pruebas sólidas de que se puede confiar en que la puntuación final de un examinando en las secciones de expresión escrita y expresión oral del STAMP sea una representación fiable y precisa de su nivel de competencia lingüística en estos dos ámbitos.

Referencias

Akoglu, H. (2018). Guía del usuario para coeficientes de correlación. Revista turca de medicina de urgencias, 18(3), 91-93.

Bachman, L. F., y Palmer, A. S. (1996). Pruebas de lengua en la práctica: Designing and developing useful language tests (Vol. 1). Oxford University Press.

Feldt, L. S., y Brennan, R. (1989). Reliability. En R. L. Linn (Ed.), Educational measurement (3ª ed., pp. 105-146). New York: Macmillan.

Fleiss, J. L., Levin, B., & Paik, M. C. (2003). Statistical methods for rates and proportions. 3rd ed. Wiley.

Graham, M., Milanowski, A., y Miller, J. (2012). Measuring and Promoting Inter-Rater Agreement of
Teacher and Principal Performance Ratings.

Matrix Education (2022). Physics Practical Skills Part 2: Validity, Reliability and Accuracy of Experiments. Recuperado el 11 de agosto de 2022 (haga clic aquí para ir a la fuente).

Williamson, D. M., Xi, X., & Breyer, F. J. (2012). A framework for evaluation and use of automated
scoring. Medición educativa: cuestiones y práctica, 31(1), 2-13.

Actualizado: October 2025