Manual - Final-Tere y Laura
Manual - Final-Tere y Laura
Manual - Final-Tere y Laura
CREACIÓN DE EXÁMENES
DE ALTO IMPACTO
MANUAL SINTÉTICO
Maestría en psicología
Residencia en evaluación educativa
0
1
CONTENIDO
Objetivo 2
Estructura 2
Introducción 4
Planeación 6
Plan general 7
Definición del objeto de evaluación 10
Desarrollo 12
Construcción de ítems 13
Banco de reactivos 15
Pilotaje 16
Diseño y ensamble 18
Creación de materiales adicionales 20
Implementación 22
Administración de la prueba 23
Procesamiento de la información 25
Reporte de resultados 32
Autoevaluación 34
Referencias 36
Glosario 37
Anexo 40
2
OBJETIVO
El objetivo del presente manual es proporcionar a sus lectores una guía de los elementos que deben
ser considerados durante la producción de una evaluación de alto impacto, utilizando exámenes de
selección de respuesta.
ESTRUCTURA
El manual está diseñado para utilizarse como documento de referencia, elaborado a partir de
fuentes oficiales nacionales e internacionales enfocadas en la evaluación. La información
presentada está orientada para aquellos interesados en conocer los procesos de diseño e
implementación de las evaluaciones de alto impacto.
Todas las secciones que contiene el manual deben ser leídas desde el inicio y de manera
minuciosa con la finalidad de comprender el proceso de creación de pruebas que asegure la
confiabilidad y validez de los usos de los resultados. Aunque existe un orden y cronología secuencial
propuesta, insistimos en que cada evaluación debe ser ajustada de acuerdo con las condiciones
contextuales donde se aplicará; así mismo, debe contener los puntos mencionados dentro del
manual.
El manual inicia con una introducción, que recupera los principales conceptos de medición
y evaluación. Posteriormente, se divide en tres unidades: planeación, desarrollo e implementación.
A su vez, cada unidad se subdivide en diferentes lecciones, las cuales se exponen a continuación.
Planeación
•Plan general
•Definición del objeto de evaluación
Desarrollo
•Construcción de ítems
•Banco de reactivos
•Diseño y ensamble
•Creación de materiales adicionales
•Pilotaje
Implementación
•Administración de la prueba
•Procesamiento de la información
•Reporte y difusión de resultados
Al término de este material se agrega una autoevaluación para verificar el aprendizaje del
lector sobre el tema. Finalmente, se incorpora un glosario de términos y fuentes consultadas para
la elaboración del presente manual.
Para facilitar la lectura, se utilizó un código de imágenes que acompañan al lector a través
del texto y representan detalles de los cuales hay que prestar atención. A continuación, se presentan
dichos códigos.
3
SIMBOLOGÍA INTERPRETACIÓN
INTRODUCCIÓN
A nivel nacional e internacional se efectúan evaluaciones que tienen una repercusión significativa
en la vida de las personas. Estas son llamadas evaluaciones de alto impacto y se realizan con la
finalidad de verificar que el sustentante cuente con determinadas habilidades. En educación, las
evaluaciones más representativas se utilizan en procesos de admisión, permanencia, egreso y
certificación.
Toda evaluación debe contar con evidencia suficiente que dé validez a las interpretaciones
de sus resultados. Para lograrlo, es necesario contar con un grupo de especialistas en evaluación
que: a) aseguren y verifiquen la precisión de los juicios, b) fundamenten las predicciones
realizadas y, c) justifiquen los posibles usos a los resultados. El grupo de especialistas se auxilia
de los fundamentos de la medición, que permiten cuantificar desde las actitudes hasta el
desempeño de las personas.
Las pruebas buscan evaluar el nivel de rasgo o habilidad que tienen los individuos en torno
a un constructo. Al ser variables no observables, recurren al diseño de diferentes reactivos que
fungen como indicadores o variables observables.
Con base en las anteriores metodologías, se realiza una agrupación en tres fases:
planeación, desarrollo e implementación. Para no excluir ningún elemento de la construcción de
instrumentos se diseñó una tabla comparativa que se puede vislumbrar en el anexo 1.
1Otras asociaciones que proporcionan lineamientos para la construcción de pruebas de alto impacto son: Educational
Testing Service (ETS), College Board, International Test Commission (ITC) y el Joint Committee on Standards for
Educational Evaluation (JCSEE).
6
PLANEACIÓN
7
PLAN GENERAL
También llamado perfil referencial o marco de referencia.
¿CUÁL SERÁ LA
POBLACIÓN
OBJETIVO?
El plan general se basa en el propósito de la evaluación y detalla las actividades requeridas para el
desarrollo de un instrumento; explicita las decisiones a tomar, organiza la cronología y considera los
problemas de seguridad y control de calidad del instrumento.
Aspectos a definir
Interpretación de resultados
•Normativa
•Criterial
Normativa
Se le conoce como norma debido a
• El desempeño se contrasta
con los resultados que las frecuencias de los puntajes
obtenidos de la población crean una curva normal o campana
que ha presentado la de Gauss
prueba
Lineamientos
Organización técnicos de los Longitud
reactivos
• Ensamble de los • Tipología de los • Definir el número de
cuadernillos reactivos reactivos
(vease Diseño y (cuestionamiento • A mayor cantidad
ensamble) directo, de reactivos mejor
completamiento, confiabilidad del
ordenamiento, etc.) instrumento
• Cantidad de
opciones de
respuesta
9
Personas con Definir las adaptaciones que requieren en relación a las necesidades de
capacidades cada población
diferentes
Para poder realizar una adecuada medición del constructo, es fundamental contar con un marco teórico
que lo describa de manera conceptual y operacional; así como definir los dominios que lo conforman.
Tipo de
Propósito de la
Alineado con: inferencias que
evaluación
se busca realizar
Cada institución cuenta con un método diferente para generar su propia tabla de especificaciones,
pero generalmente se conforman de los siguientes elementos:
ejemplo de reactivo
bibliografía de apoyo
Ejemplo de estructura
Nota: para determinar la habilidad cognitiva que se va a evaluar, se recomienda utilizar la categorización de Bloom y Krathwohl (1956) (aunque
existen otras clasificaciones), la cual se divide en seis niveles. Sin embargo, en los exámenes de alto impacto solo se puede evaluar los tres
primeros niveles cognitivos; conocimiento, comprensión, aplicación. El objetivo es obtener evidencia de lo que puede hacer el sustentante.
11
DESARROLLO
13
CONSTRUCCIÓN DE ÍTEMS
En la construcción de ítems participa un grupo de especialistas que deben cumplir las
siguientes características:
Congruencia con
Contenido de los Lenguaje de los Materiales de
la especificación y
reactivos reactivos apoyo
formato
•Respetar lo •Reflejar el •Utilizar un •Ser concisos,
establecido en constructo y lenguaje acorde a claros, simples
las dimensiones del la población •Incorporar
especificaciones constructo objetivo información
y lo solicitado por evaluado •Tener calidad pertinente para
la institución ortográfica y de resolver la
correspondiente redacción indicación del
reactivo
Una vez generados los reactivos y de forma previa a someterlos al proceso de validación, es
necesario verificar que cumplen con los lineamientos técnicos requeridos y que no tienen errores
gramaticales u ortográficos.
VALIDACIÓN DE EXPERTOS
La validación de expertos se realiza con la finalidad de verificar que los ítems evalúan lo establecido en la
tabla de especificaciones.
Proceso
Generalmente, los reactivos se guardan en bancos o repositorios robustos junto con una
cantidad mayor de ítems a la que se expondrá en la prueba. Se almacenan mientras sus
propiedades psicométricas sean adecuadas para realizar diferentes versiones de una
prueba.
15
BANCO DE REACTIVOS
Durante las evaluaciones, se debe asegurar que los reactivos utilizados en las
diferentes versiones de la prueba sean pertinentes, actuales, eficientes y
vigentes a los contenidos y objetivos que persigue la evaluación de alto impacto.
Seguridad y resguardo
Existen diferentes estatus de los reactivos que se pueden asignar dependiendo de su revisión:
Descontinuar
Mantener
su uso
dentro del Corregir
(temporal o
banco
definitiva)
16
PILOTAJE
Los resultados del estudio piloto no pueden ser usados para asignar
puntuaciones a los sustentantes
El estudio piloto sirve para recuperar información valiosa y hacer las adaptaciones que sean
necesarias a fin de que la aplicación del instrumento se realice de forma adecuada. Por ello se recupera
información referente a:
Tiempo
requerido para Comprensión
responder: Logística de la
de las
• los reactivos administración
instrucciones
• el instrumento
completo
Existen diferentes procedimientos para realizar un estudio piloto, se recomienda tomar en cuenta lo
siguiente:
1
Seleccionar la muestra
2
Establecer el modelo de medición
Generalmente en el estudio piloto se realiza un análisis cuantitativo de las características psicométricas que
presentan los reactivos, rescatando sus indicadores de dificultad y discriminación. Se debe clarificar qué
metodología de análisis de datos se utilizará (véase Administración de la prueba).
Teoría de Respuesta al
Teoría Clásica de los Test
Ítem
3
Realizar análisis cualitativos
DISEÑO Y ENSAMBLE
Una vez obtenida la calibración de reactivos y asegurada la calidad de los parámetros, se procede
al ensamble de diferentes versiones de la prueba.
Seleccionar reactivos
equivalentes que cumplan con Cualquiera que sea la
las especificaciones requeridas decisión elegida se debe
asegurar la equivalencia de
cada una de las versiones.
Para comprobar la equivalencia de las versiones se pueden utilizar reactivos ancla que se
encuentren ubicados en la misma posición de los exámenes. A este proceso se le conoce como
equiparación o igualación de exámenes.
Las diferentes versiones del instrumento deben cumplir con los criterios editoriales que se hayan
establecido desde el plan general. Además, se debe realizar una revisión editorial para asegurar la calidad
de las impresiones.
Ausencia de errores
Legibilidad
otrográficos y de diseño
(Modalidad en línea)
Posición correcta de los
Funcionamiento
reactivos
adecuado del software
Los materiales adicionales pueden ser requeridos en dos momentos: de manera previa y posterior a la
implementación de la evaluación. explica
Previo a la implementación
Cuestionario de contexto.
•Instrumento que recopila información sobre las características
sociodemográficas de los sustentantes.
•Contextualiza los resultados obtenidos.
Materiales adicionales.
•Hojas de respuesta
•Formularios
•Carta de confidencialidad
Posterior a la implementación
Algunos de los elementos que debe describir el informe técnico se presentan a continuación.
IMPLEMENTACIÓN
23
ADMINISTRACIÓN DE LA PRUEBA
Se debe contar con un adecuado procedimiento de aplicación, donde la implementación tenga
condiciones controladas, estandarizadas y que aseguren la equidad entre los sustentantes.
Materiales de Emitir la convocatoria para los sustentantes. Especificar fechas, hora y lugar de
preparación aplicación.
para la Proporcionar una guía a los sustentantes que explicite los procedimientos y las
implementación normas a seguir.
Informar las sanciones a las que se pueden hacer acreedores si violan las
normas establecidas.
Proporcionar al personal encargado de la administración, una guía que clarifique
los procedimientos a seguir durante la implementación.
Implementación Facilitar a las personas con discapacidad el apoyo o adaptación necesario para
que realicen su prueba sin contratiempos.
La aplicación del examen es un proceso estandarizado que debe tener características de aplicación
homogéneas en cualquiera de las sedes donde se aplique. Dentro de los elementos a considerar durante la
aplicación se encuentran:
PROCESAMIENTO DE LA INFORMACIÓN
Al realizar el análisis de la información recabada, se debe asegurar que los resultados tienen un
bajo nivel de error y son imparciales.
Existen diferentes tipos de análisis que se pueden realizar con la finalidad de verificar que el instrumento de
medición cuente con adecuados indicadores psicométricos. Algunos de los procedimientos a los que se
somete la información obtenida se describen a continuación.
Establecimiento
Estudios de Evaluación de
de puntos de Calificación
equiparación confiabilidad
corte
Nota: Cuando los exámenes son criteriales, se genera una base para establecer los rangos de
puntuación aplicables a cada nivel de desempeño en el que se ubicarán los resultados.
Además, se realizan procedimientos de equiparación para garantizar la equidad en la
evaluación, y verificar que se mide de forma equivalente a todos los sustentantes.
A continuación se presentan los estadísticos a los que se pueden someter los resultados de un
instrumento.
Evaluación de dimensionalidad
Comunalidad Error
• Efecto causado por el factor en • Efecto que no es causado
todas las variables observables por el factor.
(varianza en común entre los • Es la varianza única de cada
reactivos) reactivo
• Error de muestreo
• Error de medida
• Error de aproximación
El AF evalúa con base en modelos de regresión lineal la medida en que una variable latente puede predecir
distintas variables observables (ítems). También utiliza correlaciones para evaluar el ajuste del modelo, es
decir, que tan bien o mal refleja el modelo la realidad.
Existen dos tipos de análisis factorial: el Análisis Factorial Exploratorio (AFE) y el Análisis Factorial
Confirmatorio (AFC).
Se utiliza para poner a prueba hipótesis que han sido detalladas con anterioridad y de las cuales
se desea evaluar el ajuste del modelo. Su principal objetivo es comprobar que la variable latente
se agrupa en las dimensiones definidas teóricamente.
27
Calibración de reactivos
El término calibración hace referencia al proceso de estimar los parámetros estadísticos de los ítems,
con el objetivo de verificar el desempeño estadístico. Existen dos planteamientos principales que permiten
realizar estos análisis:
𝑿 = 𝑽+𝒆
La TCT permite estimar los parámetros de dificultad y discriminación utilizando como base los datos
de la población a la que se aplicó el instrumento.
Índice de dificultad.
Índice de discriminación.
Dificultad.
Discriminación.
Pseudoacierto
Confiabilidad
Estabilidad temporal
•Se recomiendan cuando los participantes pueden recordar las respuestas en una
aplicación.
•Se requieren dos versiones del instrumento que midan lo mismo, pero con diferentes
reactivos.
•Al coeficiente calculado se le denomina como coeficiente de equivalencia.
Consistencia interna
Standard setting
•Aprobado / Reprobado
Un punto de
•Otorgado / Rechazado
corte
•Apto / No apto
REPORTE DE RESULTADOS
Los reportes de resultados deben ser utilizados para garantizar la validez de las
interpretaciones que se hagan, asegurando su imparcialidad.
Tipos de informes
Dependiendo de su finalidad, los
informes o manuales pueden ser
consultados por diversas audiencias. El
reporte puede variar en su extensión y Documento
Informe de Manual
de
formato. resultados técnico
divulgación
Al redactar el informe o manual, los autores deben contemplar elementos que promueven
una adecuada escritura, que sea objetiva y fácil de comprender.
Utilizar un lenguaje
Utilizar términos de
adecuado para la Reducir los prejuicios
investigación adecuados
población objetivo
Evitar errores
tipográficos y de formato
33
Escala
La organización de los temas debe tener una secuencia lógica que facilite al lector la comprensión del escrito.
También se debe alinear a los objetivos de la ficha técnica del instrumento.
8.7–8.8, 12.18
34
AUTOEVALUACIÓN
Instrucciones. Utiliza estas páginas para señalar los conceptos que aprendiste a través del manual.
Una vez que completes la sección, anota el total de X que marcaste en cada uno de los recuadros.
Si obtienes un total mayor a cinco en cada unidad exhortamos a que continúes aprendiendo sobre
el tema a través de las lecturas complementarias. De lo contario, recomendamos revisar de nueva
cuenta el manual.
Planeación
Desarrollo
IMPLEMENTACIÓN
REFERENCIAS
Barman, A. (2008). Standard Setting in Student Assessment: Is a Defensible Method Yet to Come?
Annals Academy of Medicine. 37(11), 957-963.
Instituto Nacional para la Evaluación de la Educación [INEE]. (2014) Criterios Técnicos para el
Desarrollo y uso de Instrumentos de Evaluación Educativa.
https://historico.mejoredu.gob.mx/wp-content/uploads/2019/04/P1E104.pdf
Instituto Nacional para la Evaluación de la Educación [INEE]. (2019). Guía para la elaboración de
instrumentos de evaluación. https://historico.mejoredu.gob.mx/wp-
content/uploads/2019/04/P1E213.pdf
Mide UC, & Instituto Nacional para la Evaluación de la Educación [Eds.]. (2019). Nociones básicas
en medición y evaluación en el contexto educativo. Cuadernillo técnico de evaluación
educativa No. 1. https://historico.mejoredu.gob.mx/wp-content/uploads/2019/08/P2A251.pdf
Lane, S., Raymond, M.R., Haladyna, T. & Downing, S. (2016). Handbook of Test Development (2nd
ed.). Routlege.
GLOSARIO
A continuación se presentan las definiciones de los principales términos a considerar al trabajar en una
evaluación de alto impacto. Los conceptos se recuperaron de la Guía para la elaboración de instrumentos de
evaluación (INEE, 2019).
Accesibilidad. Es el grado en el que las personas con discapacidad son integradas al proceso de evaluación
en igualdad de condiciones con las demás.
Administración del instrumento. Proceso en el que una o más personas contestan el instrumento de
evaluación.
Alto impacto. Se entiende que una evaluación es de alto impacto cuando sus resultados tienen consecuencias
importantes para las personas o las instituciones; por ejemplo, los procesos de admisión o
certificación.
Banco de reactivos. Repositorio donde se resguardan y clasifican los reactivos que integran los instrumentos
de evaluación; en él se administran los datos de identificación del reactivo, sus características
métricas, las formas en las que se incorporó y las fechas en las que se utilizó.
Confiabilidad. Proceso de asignación de una puntuación o nivel de desempeño logrado a partir de los
resultados de una medición.
Constructo. Elaboración teórica formulada para explicar un proceso social, psicológico o educativo
Dicotómico. Se refiere a que sólo habrá dos opciones de respuesta (sí-no, verdadero-falso, etcétera).
Distractor: Opciones de respuesta incorrectas del reactivo de opción múltiple, que probablemente serán
elegidas por los sujetos con menor dominio en lo que se evalúa.
Dominio. Conjunto de conocimientos, habilidades, destrezas, actitudes u otros atributos que tienen las
siguientes propiedades: límites, extensión y definición. También se puede aplicar a contenidos,
procedimientos u objetos.
Equidad. Término utilizado para asegurar que los instrumentos de medición no benefician a un grupo
determinado de la población; se establecen criterios para evitar sesgos culturales que afecten la
evaluación.
Equiparación. Método estadístico que se utiliza para ajustar las puntuaciones de las formas o versiones de
un mismo instrumento, de manera tal que al sustentante le sea indistinto, en términos de la
puntuación que se le asigne, responder de una forma u otra.
Error de medida. Es la diferencia entre el valor medido y el “valor verdadero”. Cuando la medida es más
precisa, el error es más pequeño, y viceversa.
Escala. Conjunto de números, puntuaciones o medidas que pueden ser asignados a objetos o sucesos con
propiedades específicas a partir de reglas definidas.
Estructura. Compuesta por los contenidos o aspectos disciplinares que mide un instrumento, así como por el
número y porcentaje relativo de reactivos o tareas evaluativas con que se integra el instrumento y
su distribución.
Evaluación de alto impacto. Evaluaciones que impactan la vida de los sustentantes con base en los resultados
que obtienen.
38
Evaluación. Proceso sistemático mediante el cual se recopila y analiza información, cuantitativa o cualitativa,
sobre un objeto, sujeto o evento, con el fin de emitir juicios de valor al comparar los resultados con
un referente previamente establecido. La información resultante puede ser empleada como insumo
para orientar la toma de decisiones.
Funcionamiento diferencial del instrumento (DIF). Se refiere a la tendencia del instrumento a funcionar de
manera distinta en diferentes subpoblaciones, a pesar de que los individuos que las componen
obtengan puntuaciones similares en el instrumento. Las subpoblaciones son definidas por algo
distinto a los aspectos relacionados con el constructo evaluado y suelen considerar aspectos de los
individuos que las componen, tales como el sexo, la edad, el grupo étnico o el estatus
socioeconómico.
Instrumento. Herramienta de recolección de datos que suele tener distintos formatos, atendiendo a la
naturaleza de la evaluación, por ejemplo, instrumentos de selección de respuesta, instrumentos de
respuesta construida, cuestionarios, observaciones, portafolios, entre otros.
Jueceo. Método en el cual se utiliza la opinión de expertos (denominados jueces) para valorar y calificar
distintos aspectos, tales como las respuestas y ejecuciones de las personas que participan en una
evaluación o la calidad de los reactivos, las tareas evaluativas y los estándares de un instrumento.
Mantenimiento. Conjunto de procedimientos que tienen por objeto conservar actualizado el contenido de un
instrumento de evaluación y vigilar su pertinencia, además de nutrir el banco de reactivos y las
tareas evaluativas con características cualitativas y cuantitativas óptimas.
Medición. Proceso de asignación de valores numéricos a atributos de las personas, características de objetos
o eventos de acuerdo con reglas específicas que permitan que sus propiedades puedan ser
representadas cuantitativamente.
Muestra. Subconjunto de la población de interés que refleja las variables medidas en una distribución
semejante a la de la población.
Parámetro. Número que resume un conjunto de datos derivados del análisis de una cualidad o característica
del objeto de estudio.
Pertinencia. Los instrumentos de medición cuentan con un marco de referencia conceptual que sustenta la
definición del constructo medido y cubre de manera representativa los dominios definidos como
objeto de evaluación.
Población. Grupo de individuos sobre los cuales se desea que las inferencias elaboradas a partir de los
resultados obtenidos con un instrumento de evaluación sean válidas.
Reactivo. Unidad básica de medida de un instrumento de evaluación que consiste en una pregunta o
instrucción que requiere una respuesta del sujeto.
Sesgo. Error en la medición de un atributo debido a una variable no controlada, como las diferencias culturales
o lingüísticas de las personas evaluadas.
39
Tabla de especificaciones. Matriz que permite identificar con toda precisión el objeto de medida o evaluación.
Concentra la estructura del instrumento y las definiciones operacionales de lo que se desea medir
(especificaciones de reactivos).
Teoría Clásica de los Tests (TCT). Teoría psicométrica que parte del supuesto de que el puntaje observado
de una persona que responde un instrumento es la suma de su puntaje verdadero y un error
aleatorio independiente del puntaje.
Teoría de Respuesta al Ítem (TRI). Teoría psicométrica que consiste en una familia de modelos estadísticos
que modelan la probabilidad de cierta(s) respuesta(s) (por ejemplo, la respuesta correcta en un test
de rendimiento óptimo) como función de las características tanto de la persona evaluada (por
ejemplo, su nivel de habilidad en el constructo latente) como del reactivo (por ejemplo, su grado de
dificultad).
Validez. Juicio valorativo integrador sobre el grado en que los fundamentos teóricos y las evidencias empíricas
apoyan la interpretación de las puntuaciones de los instrumentos de evaluación.
Validez de contenido. Juicio sobre el grado en que el instrumento representa la variable objeto de medición,
es decir, el grado en que representa el universo de la variable objeto de estudio.
Validez de constructo. El instrumento se juzga respecto del grado en que una medición se relaciona
consistentemente con otras mediciones sobre conceptos que están midiéndose.
Validez de criterio. Se refiere al juicio que se hace al instrumento en cuanto a la capacidad del mismo para
predecir la variable objeto de la medición.
Variable latente. Se denomina así a las variables “ocultas”, es decir, que no son susceptibles de medirse
directamente sino por medio de otras variables manifiestas (observables).
Varianza. La varianza de una variable aleatoria es una medida de dispersión definida como la esperanza del
cuadrado de la desviación de dicha variable respecto a su media.
40
ANEXO
41
Anexo 1. Comparación entre diversas metodologías para la creación de escalas de alto impacto
Fase 3.
Implementación VI. Aplicación
Administración
42