Un nuevo año escolar está en plena vigencia, por lo que las escuelas están empezando a pensar si los estudiantes están en camino de cumplir con los estándares académicos de su estado. También es probable que estén pensando en el futuro sobre las pruebas de rendimiento estatal, los exámenes independientes y objetivos que los estudiantes toman para determinar si están aprendiendo en el nivel de grado apropiado.
Al mismo tiempo, es posible que algunos padres se pregunten si deberían excluir a su hijo de esas pruebas. Como acto individual, la exclusión voluntaria de las pruebas es como la exclusión voluntaria de los chequeos médicos anuales — no proporciona información y no hace que uno sea más saludable. Como un acto colectivo, optar por no participar erosiona lo que se puede aprender de los resultados de los exámenes. Si los padres de estudiantes de alto rendimiento en una escuela optan por no participar, la puntuación promedio de esa escuela será menor (y viceversa para estudiantes de bajo rendimiento). No está claro a quién se está ayudando.
Qué exámenes reflejan lo que los estados quieren que aprendan sus estudiantes: los estándares. La comparación de puntajes promedio entre escuelas y distritos es posible solo porque se realiza la misma prueba. Al medir lo que saben los estudiantes, las pruebas son un gran activo, ya que proporcionan información importante y confiable que no se puede aprender de otras maneras.
Para estar seguro, no muchas personas esperan con ansias tomar las pruebas. Pero cuando miramos en la pared de nuestro médico y vemos una placa de que está certificada por la junta, podríamos pensar que la certificación es algo bueno. El médico pasó una prueba. O un abogado puede ser admitido en el colegio de abogados, lo que significa que ha aprobado el examen del colegio de abogados del estado, una prueba. Un contador público certificado habrá pasado una batería de pruebas. Nadie quiere un médico, abogado o contador cuyo conocimiento esté por debajo del estándar aceptado.
Lo mismo debería ser cierto en las escuelas. Por lo tanto, es útil dar un paso atrás y hacer una pregunta importante: ¿El resultado de la prueba refleja lo que sabe un niño? Si es así, está haciendo lo que está diseñado para hacer. Los resultados de los exámenes a menudo se ridiculizan como el resultado de «enseñar para el examen», pero de lo que realmente se quejan las personas que usan esa frase es de enseñanza memorizada y sin vida. La enseñanza sin vida y la enseñanza para el examen son dos cosas diferentes. La enseñanza real para el examen es fundamental para una enseñanza efectiva, siempre y cuando los exámenes reflejen lo que se supone que los estudiantes deben aprender.
Cómo se crean las pruebas
Para los padres que no son educadores, el proceso de crear pruebas estandarizadas puede parecer una gran caja negra. De hecho, es un proceso riguroso y altamente científico, que se ha desarrollado durante más de 100 años y refleja la investigación de generaciones de académicos estimados. Tiene su propio subcampo, psicometría, y cada año las universidades se gradúan con un nuevo doctorado.s en ese subcampo.
Podemos pensar en el desarrollo de pruebas a gran escala pensando primero en el desarrollo de pruebas en miniatura. Considere cómo un maestro de escuela secundaria podría diseñar un examen relacionado con, por ejemplo, ecuaciones lineales en álgebra.
El maestro entregó una cierta cantidad de material sobre el tema en forma de instrucción en el aula, tareas y otras tareas, como actividades grupales o lecciones en línea. De manera crucial, lo que el maestro enseñó debe relacionarse con un conjunto de estándares de contenido que cada estado ha desarrollado y que generalmente publica en línea.
Aquí hay un estándar de álgebra del Núcleo Común: Resuelve ecuaciones lineales y desigualdades en una variable, incluidas ecuaciones con coeficientes representados por letras. (Los lectores interesados pueden ver otros estándares para álgebra aquí y pueden encontrar todos los estándares aquí.)
Para un profesor, este estándar indica que sus estudiantes deben ser capaces de hacer esto: Para la ecuación 3x + 4 = 13, determine que x es igual a 3. O, si la ecuación es ax + b = c, ser capaz de resolver para x iguales (c-b) / a. En esta segunda ecuación, los coeficientes se representan como letras, como pide el estándar.
Para el maestro que desea saber si sus estudiantes cumplen con el estándar, podría pensar que una pregunta razonable es pedirles que resuelvan 15y + 10 = 40. La pregunta de prueba incluye una diferencia sutil, los estudiantes necesitan resolver para y en lugar de x, pero sigue siendo una ecuación con una sola variable. El profesor puede subir un poco el nivel de dificultad pidiendo a los estudiantes que resuelvan y + 3y + 10 = 50. Los estudiantes necesitan agregar los dos términos y, pero sigue siendo una ecuación con una sola variable.
Esas preguntas difíciles deben estar ahí
Si el examen contiene demasiadas preguntas difíciles y ningún estudiante obtiene respuestas correctas, el examen tiene lo que los diseñadores de exámenes llaman un piso. Con todos los estudiantes con una puntuación de 0, la maestra no puede distinguir lo que saben sus estudiantes: El piso impide que la maestra sepa qué estudiantes tienen un bajo nivel de conocimiento y cuáles tienen un alto nivel.
De manera similar, si la maestra hace que el examen sea tan fácil que muchos estudiantes obtengan todas las respuestas correctas, habrá creado un efecto de techo. Algunos estudiantes tienen habilidades reales por encima de su puntaje, pero el techo impide que el maestro lo sepa porque cuando todos los puntajes de los exámenes son del 100 por ciento, todos los estudiantes se ven iguales.
Para evitar los efectos de techo y suelo, las pruebas necesitan preguntas con grados de dificultad más altos y más bajos. Los estudiantes con un conocimiento fuerte son capaces de responder las preguntas más difíciles; los estudiantes con un conocimiento más débil no lo son.
El mismo proceso de desarrollo se utiliza en una escala mucho mayor para evaluaciones como la prueba PARCC (el acrónimo de Partnership for Assessment of Readiness for College and Careers), Smarter Balanced y la prueba STAAR de Texas, la Evaluación de Preparación Académica del Estado de Texas. Aquí, los estándares son el punto de partida para diseñar las pruebas (aquí hay una visualización del proceso).
Los educadores y expertos en pruebas desarrollan bancos de preguntas relacionadas con esos estándares, como las preguntas de álgebra anteriores. Estos se examinan para asegurarse de que ponen a prueba lo que exigen las normas y de que su redacción es clara y no es inapropiada o sesgada en contra de cualquier raza o género.
Por ejemplo, una pregunta de matemáticas que implica calcular el promedio de bateo de un jugador de béisbol podría plantear un problema para los estudiantes que no juegan al béisbol o no están familiarizados con sus reglas. Revisar la redacción para que se trate de calcular un promedio simple sin hacer referencia al béisbol podría ser la solución, al igual que simplemente sustituir otra pregunta.
Se invierten esfuerzos minuciosos en estas pruebas. Cada pregunta en los exámenes PARCC, por ejemplo, es revisada por 30 o más personas antes de ser utilizada. Las preguntas que hacen el corte se prueban luego en forma piloto en 14 estados y casi 16,000 escuelas. Smarter Balanced sigue un proceso similar, probando más de 5,000 artículos en 21 estados y más de 5,000 escuelas.
En cualquier nivel de grado, es probable que el examen incluya al menos algunas preguntas realmente difíciles que pueden parecer mucho más allá de las habilidades de los estudiantes en ese grado. Los estudiantes (y los maestros) tienden a recordar este tipo de preguntas, pero no están en el examen simplemente para crear dolor e incomodidad. Más bien, sembrar la prueba con preguntas difíciles evita el efecto de techo y ayuda a distinguir entre los estudiantes que tienen un nivel básico de competencia y los que tienen un nivel avanzado. Puede haber estudiantes que reciben todas las preguntas bien o mal, pero el diseño de las pruebas hace que sea poco probable que suceda.
Algunas quejas son merecidas, algunas no son
Algunos aspectos de las pruebas dibujan quejas merecidamente. Por ejemplo, los informes de puntuación de los exámenes a los padres a menudo están cargados de jerga estadística, como normas, percentiles, equivalentes de curvas normales, staninas, lexilos y niveles de competencia basados en who quién sabe qué.
Un padre cuyo hijo puntúa en el percentil 65 en cuarto grado y en el percentil 65 en quinto grado podría preguntarse si está quieto. El niño no lo es, de hecho, el estudiante ha aprendido el material de un año, porque el niño obtuvo mejores calificaciones que el 65 por ciento de los niños de cuarto grado y luego, un año después, mejor que el 65 por ciento de los niños de quinto grado. Pero los diseñadores de pruebas no se han hecho ningún favor al proporcionar informes que requieren que los padres lidien con conceptos estadísticos para dar sentido a las puntuaciones.
Es posible que algunos padres vean el resultado de la prueba de un niño y piensen que debe ser incorrecto porque saben que su hijo es mejor en matemáticas (o lectura o ciencia) que eso. Tal vez el estudiante tenía un día libre: enfermedad, distracción familiar, un desayuno saltado. Los padres deben ver las puntuaciones en el contexto de otros indicadores de cómo le está yendo a su hijo en la escuela, como las calificaciones en las libretas de calificaciones.
Los padres también pueden estar preocupados de que los resultados de las pruebas de sus hijos se utilicen como base para evaluar al maestro de su hijo, un desarrollo en la última década que surgió en respuesta a la presión sobre los estados y distritos escolares para que aumentaran los resultados de las pruebas. ¿El maestro de su hijo no se preocupará más por la puntuación que por su hijo?
Bueno, no, la mayoría de los sistemas de calificación de maestros solo dan un peso moderado a las puntuaciones, mientras que la organización y administración de las aulas obtienen más peso. Y la noción de que los maestros se preocupan por las puntuaciones más altas es algo malo, refleja una visión al revés de la educación, en la que los maestros logran sus objetivos, que sus estudiantes aprendan lo que está en los estándares, es de alguna manera un problema.
Algunos debates sobre las pruebas se construyen sobre una base endeble. Por ejemplo, los exámenes estatales anuales no requieren mucho tiempo de instrucción. Los padres pueden estar preocupados de que el maestro de su hijo esté enseñando para el examen, pero, como se describió anteriormente, los exámenes están diseñados para medir el conocimiento sobre los mismos estándares en los que se basan los planes de estudio de las aulas.
Entonces, a medida que se desarrolla este año escolar, recordemos por qué los estados evalúan a los estudiantes: para ver si están aprendiendo en el nivel de grado apropiado. Y entendamos que las pruebas se crean a través de un proceso confiable, al igual que los exámenes que deben tomar nuestros médicos, abogados y contadores.
Mark Dynarski, fundador y presidente de Pemberton Research, es miembro de educación del Instituto George W. Bush.Enviar una carta al Editor