¿Qué es la escala de puntuación?

Cuando los responsables del desarrollo de los tests comunican las puntuaciones a los usuarios finales (administradores escolares, profesores, padres, los propios examinandos u otros usuarios potenciales de las puntuaciones), es importante que el significado de las puntuaciones numéricas comunicadas sea claro y fácil de utilizar. De lo contrario, ¿qué sentido tienen las puntuaciones?

Los resultados de los exámenes pueden ser muy variados.

Por ejemplo, las puntuaciones de algunas pruebas se expresan en número de aciertos o en porcentaje de aciertos. Este tipo de información es útil en los casos en que cada examinando realiza exactamente la misma prueba, como en el caso de las pruebas lineales de forma fija.

Sin embargo, las evaluaciones Avant STAMP (STAndards-based Measurementof Proficiency) utilizan enfoques psicométricos y de desarrollo de pruebas más modernos y no son pruebas lineales. Todas las pruebas de lectura y comprensión oral de STAMP son adaptativas por ordenador, lo que significa que la dificultad de la prueba se adapta en tiempo real a la capacidad lingüística estimada de cada examinando. El resultado es una medición más precisa de la competencia lingüística de los candidatos y una experiencia más agradable para ellos que la que se obtiene normalmente con una prueba lineal, ya que los candidatos no se encontrarán con un gran número de ítems muy por debajo o por encima de su nivel real de competencia. Este potente enfoque de montaje y despliegue de tests sólo es posible mediante una técnica psicométrica denominada teoría de ítems-respuesta (TRI). En la TRI, cada uno de los ítems de un test (también conocido como pregunta del test) se asocia a su propio nivel de dificultad, medido científicamente. En el caso de STAMP, el nivel de dificultad de cada ítem del test se calcula mediante un análisis IRT de las respuestas de cientos (y en muchos casos, miles) de examinandos representativos. Esto nos permite calibrar los ítems en términos de dificultad y asegurarnos de que sólo se utilizan los mejores ítems en cada prueba de STAMP .     

El algoritmo de puntuación de STAMP también hace uso de esta información sobre la dificultad de los ítems para calcular el nivel final de STAMP de cada evaluado, basándose en los ítems que intentó durante la prueba, su respuesta a cada ítem y la capacidad que los evaluados deben demostrar para puntuar en cada uno de los niveles de STAMP (esto último se determina mediante un proceso denominado establecimiento de estándares). Por lo tanto, dada la naturaleza adaptativa de las evaluaciones de STAMP y dado que cada ítem tiene asociado un determinado nivel estadístico de dificultad, informar de las puntuaciones de STAMP en términos de número de aciertos(por ejemplo, 23 de 30) o porcentaje de aciertos (76,6%) no es significativo ni apropiado.

Como veremos más adelante, la teoría de ítems-respuesta (TRI), que constituye la base estadística del desarrollo y la puntuación de los tests Avant STAMP , utiliza una escala de puntuación que no resulta muy intuitiva para los usuarios finales de los tests STAMP . Por ejemplo, la escala IRT tiene valores negativos y positivos. Decir a un examinando en su informe de resultados que su competencia lectora en la prueba STAMP 4S en alemán es de -1,4 no sería útil e infringiría el requisito de claridad y facilidad de uso de las puntuaciones comentado anteriormente. Por este motivo, es necesario que los valores de puntuación de STAMP basados en la TRI se conviertan en una escala de puntuación más significativa y fácil de interpretar. Una escala es básicamente un espectro de valores de medida potenciales y los desarrolladores de tests tienen que decidir los puntos de referencia de la escala de puntuación antes de que se puedan comunicar las puntuaciones.

Comprender los puntos de referencia de una escala

Las escalas de temperatura Celsius, Fahrenheit y Kelvin son tres escalas con las que los lectores probablemente estén familiarizados. Aunque las tres son escalas de temperatura, sus puntos de referencia e interpretación difieren sustancialmente. Lo mismo puede aplicarse a las distintas escalas utilizadas para comunicar las puntuaciones de competencia lingüística.

En la escala Celsius, un grado de 0 ℃ indica el punto de medición en el que el agua se congela a nivel del mar, mientras que el valor de medición mínimo posible en la escala Celsius es -273,15 ℃, que es el punto en el que no hay actividad molecular alguna en una sustancia. Sin embargo, en la escala Fahrenheit, el punto de medición en el que el agua se congela a nivel del mar es 32 grados F, no 0 grados F. En la escala Fahrenheit, - 459,67 F indica el valor de medición mínimo posible, cuando no hay actividad molecular en una sustancia. Como vemos, ni en la escala Celsius ni en la Fahrenheit, un cero significa realmente ausencia total de algo. Es simplemente un punto de referencia que sólo tiene sentido en relación con la escala completa y sus valores posibles y alcanzables.

Para las escalas de temperatura, la única escala que tiene un verdadero punto cero es la escala Kelvin. En la escala Kelvin, el punto de medición 0 K significa en realidad que no hay actividad molecular en absoluto, y el cero marca el valor mínimo posible en la escala Kelvin. En la escala Kelvin, por tanto, no son posibles los valores negativos, a diferencia de las escalas Celsius y Fahrenheit (y, como veremos en breve, de la escala IRT). Las tres escalas de temperatura no tienen un límite real para sus valores máximos, ya que no existe un límite conocido para lo caliente que puede estar algo.

Ahora bien, ¿podemos decir realmente que una escala es mejor que la otra? La verdad es que no. Las tres escalas son perfectamente válidas por sí solas y se utilizan ampliamente en diferentes contextos, siendo algunas de ellas consideradas más apropiadas por los usuarios en función de contextos específicos. Sin embargo, algo que une a estas tres escalas, y que las hace perfectamente adecuadas para mediciones precisas, es el hecho de que la distancia entre dos puntos de medición cualesquiera de la escala indica la misma diferencia de temperatura. En otras palabras, la diferencia de actividad molecular entre 35 ℃ y 37 ℃ es exactamente la misma que entre 89 ℃ y 91 ℃. Esta es una característica que en Avant creemos que está en el corazón de una buena medición, y ciertamente una que utilizamos para nuestras puntuaciones STAMP .

A pesar de la utilidad de examinar las tres escalas de temperatura mencionadas y ver hasta qué punto son apropiadas en sus contextos para la medición de un constructo como la temperatura, es importante comprender que algunas de las características que poseen las hacen inapropiadas para la medición de un constructo como la competencia lingüística. Por ejemplo, sería prácticamente imposible explicar qué significa una competencia lingüística negativa o cómo alguien puede tener una capacidad nula en un idioma; incluso una persona que nunca haya estudiado o estado en contacto con un idioma determinado previamente tendrá algún conocimiento (aunque sea mínimo) de al menos palabras prestadas en ese idioma. Ninguna prueba de competencia lingüística puede afirmar que alguien tiene un dominio nulo del idioma, ya que sería imposible que una prueba determinada evaluara todas las situaciones posibles en las que una persona puede mostrar cierta comprensión, aunque sea muy básica, de una palabra o frase del idioma. Todas las pruebas lingüísticas están limitadas por los ítems presentes en la prueba y por lo que son capaces de medir, lo que significa que las pruebas lingüísticas pueden no tener un punto cero de medición, pero sí un punto mínimo de medición, que representa el punto por debajo del cual la prueba es incapaz de hacer ninguna afirmación. Lo mismo ocurre con el punto máximo de referencia de una prueba; por muchos ítems que contenga una prueba, nunca podrá medir toda la competencia lingüística de un individuo. Así pues, una escala válida para una prueba de competencia lingüística como las de STAMP tendrá un punto de referencia mínimo (utilizado para los examinandos que obtienen todos los ítems de la prueba que vieron incorrectamente), no tendrá un punto de referencia cero y tendrá un punto de referencia máximo (utilizado para los examinandos que responden a todos los ítems de la prueba que vieron correctamente).

Medición IRT y las puntuaciones STAMP

Como se ha señalado anteriormente, es importante que los intervalos iguales en una escala utilizada para informar de las puntuaciones en una prueba de competencia lingüística indiquen la misma diferencia en la competencia lingüística. Todos los niveles de la prueba STAMP (niveles 1 - 9) están alineados con los niveles de competencia de ACTFL (desde principiante bajo hasta avanzado alto), como puede verse a continuación:

A pesar de la alineación de los niveles de STAMP con los niveles de competencia de ACTFL y a pesar de la utilidad de los niveles de competencia de ACTFL para indicar el nivel general de habilidad de un examinando en el idioma, los propios niveles de ACTFL no se ajustan al tipo de puntuaciones numéricas escalonadas que estamos buscando. En primer lugar, el significado de la diferencia de intervalo en los niveles ACTFL (y por tanto STAMP) no es el mismo independientemente del punto de la escala. Por ejemplo, para pasar de un nivel intermedio alto (STAMP nivel 6) a un nivel avanzado bajo (STAMP nivel 7) se necesita una mayor capacidad lingüística que para pasar de un nivel principiante alto (STAMP nivel 3) a un nivel intermedio bajo (STAMP nivel 4). Por esta misma razón, los niveles de competencia se representan como una pirámide invertida, y no como un cuadrado o un rectángulo. En segundo lugar, a pesar de la utilidad de los niveles de competencia para indicar en qué punto se encuentra un determinado estudiante de idiomas en cuanto a su competencia lingüística, los estudiantes que obtienen la misma puntuación en el nivel STAMP pueden tener en realidad capacidades ligeramente diferentes en el idioma y haber respondido correctamente a un número distinto de ítems en la prueba STAMP , aunque hayan visto exactamente los mismos ítems a través del algoritmo adaptativo STAMP . Por lo tanto, a pesar de la importante utilidad de los niveles STAMP y ACTFL para comprender el dominio del idioma de los examinandos, estos niveles no son tan precisos como algunos usuarios finales de las puntuaciones de nuestras pruebas desearían.

Por ejemplo, un colegio puede tener sólo diez plazas en una sección especial de honores de Lectura en francés. ¿Y si catorce de los alumnos han alcanzado un nivel 9 en Lectura en STAMP ? ¿Cómo puede el colegio elegir a diez de los catorce alumnos para la clase de honores? Elegir diez al azar puede considerarse una solución aceptable, pero en Avant Assessment podemos ofrecer una forma mejor y más precisa de ayudar en este caso. Como se mencionó anteriormente, Avant Assessment utiliza una técnica de medición estadística llamada Teoría de Respuesta al Ítem para calibrar todos los ítems en las secciones de Lectura y Comprensión Auditiva de las pruebas (adaptativas) STAMP , para alinear el número de preguntas que un examinando acierta en su ruta específica de la prueba con los niveles STAMP y por lo tanto los niveles ACTFL a los que están alineados, y finalmente, producir puntuaciones escaladas que proporcionan a los usuarios una medida más precisa de la capacidad lingüística de cada examinando de lo que sería posible si sólo se reportaran los niveles STAMP .

Escala de las puntuaciones STAMP

Una vez calibrados mediante TRI todos los ítems de una sección específica de una prueba STAMP , podemos asignar una estimación de capacidad TRI (también denominada theta en la terminología TRI) a cada alumno en función de los ítems que haya acertado o fallado en la ruta específica que haya seguido en cada una de las secciones Reading y Listening de su prueba STAMP . Una vez que tenemos este valor, podemos escalarlo (de ahí el término escalado de puntuaciones) para poder informar de puntuaciones más precisas, con el fin de complementar la información del nivel alcanzado en STAMP . Al escalar las puntuaciones de la TRI, podemos asegurarnos de que todas las puntuaciones escaladas sean positivas (sin valores negativos) y que los usuarios de las puntuaciones, como la escuela francesa hipotética mencionada anteriormente, puedan acercarse más a la competencia de los estudiantes, incluso si resulta que los estudiantes han obtenido el mismo nivel STAMP .

Cada una de las secciones de Lectura y Comprensión auditiva de cada prueba de STAMP debe calificarse por separado. Por lo tanto, las puntuaciones de lectura en español no pueden compararse directamente con las puntuaciones de comprensión oral en español ni con las puntuaciones de lectura en chino. En otras palabras, las puntuaciones de STAMP son específicas para cada idioma y sección.

Escalamos las puntuaciones IRT en las secciones Reading o Listening de cada una de nuestras pruebas mediante una sencilla transformación lineal, que se observa en la fórmula siguiente:

El escalado anterior garantiza que todas las puntuaciones escaladas posibles para una sección determinada de una prueba STAMP sean números positivos sin decimales, que son mucho más intuitivos que las puntuaciones que oscilan entre - 4 y + 4, más típicas de la TRI. El escalado lineal que se observa en la fórmula anterior también garantiza que la distancia entre dos puntuaciones escaladas cualesquiera indique la misma diferencia de capacidad en cualquier punto de la escala.

Interpretación de las puntuaciones escalares

Imaginemos que tenemos los siguientes alumnos, que hicieron la sección de comprensión oral del examen de japonés STAMP 4S:

  • Puntuación del alumno A: 589
  • Puntuación del alumno B: 612
  • Puntuación del alumno C: 677
  • Puntuación del alumno D: 700

La diferencia de competencia en comprensión oral en japonés entre el alumno A y el alumno B (23 puntos en la escala) es la misma que la diferencia de competencia en comprensión oral en japonés entre el alumno C y el alumno D (23 puntos). Si dos alumnos alcanzan el mismo nivel STAMP en comprensión auditiva de japonés(por ejemplo, STAMP nivel 4 - Intermedio bajo), pero uno de ellos tiene una puntuación en la escala que está 20 puntos por encima del otro, tenemos un fuerte apoyo para creer que el alumno con la puntuación en la escala más alta es más competente que el alumno con la puntuación en la escala más baja. Cuanto mayor sea la diferencia entre sus puntuaciones, más seguros estaremos de que la diferencia es significativa y de que los dos alumnos no tienen el mismo nivel de competencia. Las puntuaciones escalares también pueden ser útiles en los casos en que un alumno parezca no progresar después de un año de estudio y esté "estancado" en el mismo nivel de competencia. Una comparación entre la puntuación obtenida hace un año y la obtenida en la administración actual puede mostrar pequeños incrementos en su nivel de competencia, incluso si dichos incrementos no son suficientes para pasar al siguiente nivel STAMP .

Sin embargo, hay que tener en cuenta una cosa: todas las evaluaciones de evaluaciones tienen un cierto margen de error de medición asociado a sus puntuaciones. Por ejemplo, el error estándar de medición (SEM) reportado por ETS para la sección Listening del TOEFL iBT, que utiliza una escala de puntuación que va de 0 - 30 es de 2,38 puntos escalados (Educational Testing Services, 2018). Por su parte, para las puntuaciones de la sección SAT, con un rango de puntuación de 200 - 800, el error estándar de medida es de 30 puntos (College Board, 2018). Dado que no es factible evaluar a cada estudiante en muchos días diferentes, y a través de cientos de ítems de la prueba, cada resultado de la prueba es una instantánea del nivel que un determinado examinando fue capaz de sostener en ese día específico en que tomó la prueba, y a través de los ítems específicos que respondió durante su administración de la prueba. Naturalmente, una prueba como la STAMP 4S, cuyas secciones de Lectura y Comprensión auditiva son adaptativas por ordenador, que incluye un gran número de ítems dirigidos al nivel estimado de cada examinando en tiempo real, y que se desarrolla siguiendo estrictos estándares cualitativos y cuantitativos, tenderá a tener un menor error de medida y a ser más eficaz y eficiente que pruebas más cortas, no adaptativas y lineales que no siguen el mismo rigor (Schultz, Whitney y Zickar, 2014).El error estándar medio de medición de las puntuaciones escaladas en las secciones de Lectura y Comprensión auditiva de las pruebas STAMP es de 10 puntos de puntuación escalada. Esta estadística se obtiene fácilmente a partir del tipo de software de TRI que empleamos en Avant.

El error de medición asociado a las puntuaciones escaladas de STAMP es bastante pequeño dado el rigor psicométrico y la naturaleza adaptativa de nuestros tests. Aunque aconsejamos que los análisis de las puntuaciones de los tests se realicen principalmente en función del nivel alcanzado en STAMP , en Avant sugerimos que se tengan en cuenta las puntuaciones escaladas en casos muy concretos en los que deban tomarse decisiones de mayor importancia en función de las puntuaciones de los tests STAMP , como cuando las puntuaciones STAMP se utilizan para conceder Sellos Estatales de Alfabetización Bilingüe (SSB) o para conceder créditos por examen (CBE). En estos casos, si la puntuación en lectura o comprensión auditiva de un examinando se encuentra dentro de los 10 puntos o menos de la puntuación mínima en escala que podría calificarle para el SSB o el CBE, la posición de Avant es que un colegio o distrito puede, a su discreción, hacer que dichos examinandos vuelvan a realizar el examen STAMP (dada su naturaleza adaptativa, es muy probable que los examinandos no vean exactamente los mismos ítems que en la administración anterior). Si en esta segunda administración la puntuación escalada del examinando conduce a un nivel STAMP que cumple los requisitos para el SSB o el CBE, la posición de Avant es que las puntuaciones de esta segunda administración pueden utilizarse en lugar de las puntuaciones de la primera administración.

Las dos situaciones anteriores son situaciones de mayor riesgo en las que puede estar justificado tener en cuenta el pequeño margen de error de la prueba (recuerde que todas las pruebas tienen un margen de error).

Recomendamos que, en general, es apropiado utilizar las puntuaciones escaladas de STAMP para usos tradicionales como el análisis anual continuo o el crecimiento de los alumnos y para la evaluación de programas.

Para ver las tablas de puntuaciones escaladas disponibles actualmente para las evaluaciones de STAMP , haga clic aquí.

Referencias:

College Board (2018). SAT: Entendiendo las puntuaciones. Obtenido de https://collegereadiness.collegeboard.org/pdf/understanding-sat-scores.pdf

Educational Testing Services (2018). Fiabilidad y comparabilidad de las puntuaciones del TOEFL iBT. TOEFL Research Insight Series (vol. 3). Obtenido de www.ets.org/s/toefl/pdf/toefl_ibt_research_s1v3.pdf

Schultz, K. S., Whitney, D. J. y Zickar, M. J. (2014). Teoría de la medición en acción. Casos prácticos y ejercicios (2ª ed.). Londres/Nueva York: Routledge. College Board (2018). SAT: Understanding Scores. Obtenido de https://collegereadiness.collegeboard.org/pdf/understanding-sat-scores.pdf

Educational Testing Services (2018). Fiabilidad y comparabilidad de las puntuaciones del TOEFL iBT. TOEFL Research Insight Series (vol. 3). Obtenido de www.ets.org/s/toefl/pdf/toefl_ibt_research_s1v3.pdf

Schultz, K. S., Whitney, D. J. y Zickar, M. J. (2014). Teoría de la medición en acción. Casos prácticos y ejercicios (2ª ed.). Londres/Nueva York: Routledge.

Actualizado: