Manual - Final-Tere y Laura

Recomendaciones
El trabajo tiene demasiadas señalizaciones , lo que no

permite seguir el hilo de las ideas, quizá un poco de más
texto continuo ayudaría. Sin embargo la información que
presentan es muy relevante al tema y denota una
capacidad de búsqueda y manejo de síntesis de la
información. Presentan apartados que me sorprendieron
(gratamente) porque la información suele no abordarse en
los manuales y ustedes si lo hicieron. Felicitaciones!!
CREACIÓN DE EXÁMENES
DE ALTO IMPACTO
MANUAL SINTÉTICO
Maestría en psicología
Residencia en evaluación educativa
María Teresa Balderas Ramírez
Laura Berenice Castro Arzate
0
1
CONTENIDO
Objetivo 2
Estructura 2
Introducción 4
Planeación 6
Plan general 7
Definición del objeto de evaluación 10
Desarrollo 12
Construcción de ítems 13
Banco de reactivos 15
Pilotaje 16
Diseño y ensamble 18
Creación de materiales adicionales 20
Implementación 22
Administración de la prueba 23
Procesamiento de la información 25
Reporte de resultados 32
Autoevaluación 34
Referencias 36
Glosario 37
Anexo 40
2
OBJETIVO
El objetivo del presente manual es proporcionar a sus lectores una guía de los elementos que deben
ser considerados durante la producción de una evaluación de alto impacto, utilizando exámenes de
selección de respuesta.
ESTRUCTURA
El manual está diseñado para utilizarse como documento de referencia, elaborado a partir de
fuentes oficiales nacionales e internacionales enfocadas en la evaluación. La información
presentada está orientada para aquellos interesados en conocer los procesos de diseño e
implementación de las evaluaciones de alto impacto.
Todas las secciones que contiene el manual deben ser leídas desde el inicio y de manera
minuciosa con la finalidad de comprender el proceso de creación de pruebas que asegure la
confiabilidad y validez de los usos de los resultados. Aunque existe un orden y cronología secuencial
propuesta, insistimos en que cada evaluación debe ser ajustada de acuerdo con las condiciones
contextuales donde se aplicará; así mismo, debe contener los puntos mencionados dentro del
manual.
El manual inicia con una introducción, que recupera los principales conceptos de medición
y evaluación. Posteriormente, se divide en tres unidades: planeación, desarrollo e implementación.
A su vez, cada unidad se subdivide en diferentes lecciones, las cuales se exponen a continuación.
Planeación
•Plan general
•Definición del objeto de evaluación
Desarrollo
•Construcción de ítems
•Banco de reactivos
•Diseño y ensamble
•Creación de materiales adicionales
•Pilotaje
Implementación
•Administración de la prueba
•Procesamiento de la información
•Reporte y difusión de resultados
Al término de este material se agrega una autoevaluación para verificar el aprendizaje del
lector sobre el tema. Finalmente, se incorpora un glosario de términos y fuentes consultadas para
la elaboración del presente manual.
Para facilitar la lectura, se utilizó un código de imágenes que acompañan al lector a través
del texto y representan detalles de los cuales hay que prestar atención. A continuación, se presentan
dichos códigos.
3
SIMBOLOGÍA INTERPRETACIÓN
Especifica los principales conceptos y su

respectiva definición.
Representa la validez proporcionada a través

de un conjunto de especialistas con respecto
al tema abordado.
El texto incluido dentro de estos iconos debe

ser especialmente cuidado porque puede
afectar la validez y confiabilidad de la prueba.
Por ende, no se podría realizar una
adecuada interpretación de los resultados
Recomienda material adicional para

Los estándares que consulta; incluye los estándares específicos
se pueden revisar en de cada uno de los tópicos revisados en la
este apartado son: respectiva lección.
Recupera aspectos que abonan a la validez y

confiabilidad del proceso de evaluación
4
INTRODUCCIÓN
A nivel nacional e internacional se efectúan evaluaciones que tienen una repercusión significativa
en la vida de las personas. Estas son llamadas evaluaciones de alto impacto y se realizan con la
finalidad de verificar que el sustentante cuente con determinadas habilidades. En educación, las
evaluaciones más representativas se utilizan en procesos de admisión, permanencia, egreso y
certificación.
Las evaluaciones consisten en la asignación de un juicio de valor a un

resultado de medición.
Toda evaluación debe contar con evidencia suficiente que dé validez a las interpretaciones
de sus resultados. Para lograrlo, es necesario contar con un grupo de especialistas en evaluación
que: a) aseguren y verifiquen la precisión de los juicios, b) fundamenten las predicciones
realizadas y, c) justifiquen los posibles usos a los resultados. El grupo de especialistas se auxilia
de los fundamentos de la medición, que permiten cuantificar desde las actitudes hasta el
desempeño de las personas.
Medir es un proceso que consiste en la asignación de una puntuación a

objetos o sucesos (Stevens, 1951).
En psicología y educación se realizan mediciones de constructos como la inteligencia,

perseverancia, empatía, motivación, comprensión lectora, habilidad matemática, etcétera. Una de
las formas más utilizadas para realizar estas mediciones es mediante la implementación de
pruebas o tests, debido a que se pueden aplicar a grupos grandes de sustentantes y se completan
de una forma rápida y fácil (Berger & Karabenick, 2016).
Un constructo es una abstracción que influye en el comportamiento, pero

no es evidente a los sentidos, por lo que su evaluación se realiza de forma
indirecta, mediante variables observables, que representan el
comportamiento o las conductas de las personas. (Martínez Arias et al., 2014)
Las pruebas buscan evaluar el nivel de rasgo o habilidad que tienen los individuos en torno
a un constructo. Al ser variables no observables, recurren al diseño de diferentes reactivos que
fungen como indicadores o variables observables.
Un reactivo representa una unidad de medida que permite identificar si el

aspirante posee conocimientos o habilidades del objeto de evaluación (INEE,
2017).
5
Para generar de forma adecuada una evaluación de conocimientos o habilidades, existen

asociaciones que establecen criterios y pasos a seguir para desarrollar de forma adecuada los
reactivos que conforman una prueba. A nivel nacional las instituciones más representativas son el
CENEVAL y el anterior INEE. A nivel internacional las pautas son definidas por la American
Educational Research Association, la American Psychological Association, el National Council on
Measurement in Education, y por Downing y Haladyna1.
El presente manual recupera las fases expuestas en:

American Educational Research
Association, American
Psychological Association and Centro Nacional de Evaluación
National Council on Measurement para la Educación Superior, A.C.
in Education (1999). Standards for (2012). Reglamento de los
Educational and Psychological consejos técnicos de los
Testing. Washington, DC: exámenes, México, Ceneval.
American Educational Research
Association.
Centro Nacional de Evaluación

Downing, S.M. y Haladyna T.M.
para la Educación Superior, A.C.
compiladores. (2012). Manual para
(2013a). Lineamientos para la
el desarrollo de pruebas a gran
construcción de reactivos de
escala. México, Ceneval.
opción múltiple, México, Ceneval.
Con base en las anteriores metodologías, se realiza una agrupación en tres fases:
planeación, desarrollo e implementación. Para no excluir ningún elemento de la construcción de
instrumentos se diseñó una tabla comparativa que se puede vislumbrar en el anexo 1.
1Otras asociaciones que proporcionan lineamientos para la construcción de pruebas de alto impacto son: Educational
Testing Service (ETS), College Board, International Test Commission (ITC) y el Joint Committee on Standards for
Educational Evaluation (JCSEE).
6
PLANEACIÓN
7
PLAN GENERAL
También llamado perfil referencial o marco de referencia.
Documento integrador que sirve de guía para realizar el proceso de

evaluación; direcciona los esfuerzos de los participantes de manera eficiente,
y determina los alcances y limitaciones.
Responde a las interrogantes:
¿CUÁL SERÁ LA
POBLACIÓN
OBJETIVO?
El plan general se basa en el propósito de la evaluación y detalla las actividades requeridas para el
desarrollo de un instrumento; explicita las decisiones a tomar, organiza la cronología y considera los
problemas de seguridad y control de calidad del instrumento.
Aspectos a definir
Modelo de medición sobre el que se analizarán los resultados

(veáse Procesamiento de la información)
•Teoría Clásica de los Test (TCT)

•Teoría de Respuesta al Ítem (TRI)
Especificaciones métricas de parámetros e indicadores
•Número de reactivos que deben ser validados y aprobados

•Indicador mínimo de confiabilidad deseada
•Estimaciones aceptables de dificultad y discriminación
8
Forma y procedimientos de puntuación
Interpretación de resultados
•Normativa
•Criterial
Normativa
Se le conoce como norma debido a
• El desempeño se contrasta
con los resultados que las frecuencias de los puntajes
obtenidos de la población crean una curva normal o campana
que ha presentado la de Gauss
prueba
Criterial El estándar puede ser:

• Contrasta la competencia a a) comparar al alumno con sus
través de un estándar propios resultados,
previamente establecido b) hacia un grupo con
por un grupo de expertos características similares a la
población que se desea evaluar,
c) hacia un criterio de
comportamiento esperado.
Directrices generales de la estructura de la prueba
Lineamientos
Organización técnicos de los Longitud
reactivos
• Ensamble de los • Tipología de los • Definir el número de
cuadernillos reactivos reactivos
(vease Diseño y (cuestionamiento • A mayor cantidad
ensamble) directo, de reactivos mejor
completamiento, confiabilidad del
ordenamiento, etc.) instrumento
• Cantidad de
opciones de
respuesta
9
Otros participantes implicados en el proceso
Cuerpos Se conforman por expertos que participan en las diferentes fases de la

colegiados construcción de instrumentos
Es importante capacitarlos para que reconozcan la importancia de seguir un

protocolo en relación a la actividad que desarrollarán en el proceso
Personas con Definir las adaptaciones que requieren en relación a las necesidades de
capacidades cada población
diferentes
Realizar un estudio de factibilidad para visualizar el costo que implica

realizar el ajuste en la evaluación y el impacto que tendrá
Se deben contemplar los acuerdos de confidencialidad de todas las partes,

con la intención de minimizar los riesgos de divulgación de información que
atenten con la estabilidad o consistencia interna de la prueba de alto impacto,
además de proteger los sustentantes y los cuerpos colegiados.
Los estándares que se pueden revisar en este

apartado son: 1.0, 2.0, 3.0, 4.0, 5.0, 11.1, 12.2,
13.4
10
DEFINICIÓN DEL OBJETO DE EVALUACIÓN
Para poder realizar una adecuada medición del constructo, es fundamental contar con un marco teórico
que lo describa de manera conceptual y operacional; así como definir los dominios que lo conforman.
Tipo de
Propósito de la
Alineado con: inferencias que
evaluación
se busca realizar
El constructo se debe integrar dentro de la tabla de especificaciones, cada especificación representa

la operacionalización de lo que se va a evaluar.
La tabla de especificaciones establece la estructura que tendrá la prueba y

aclara las especificaciones que deben cumplir los reactivos.
Cada institución cuenta con un método diferente para generar su propia tabla de especificaciones,
pero generalmente se conforman de los siguientes elementos:
identificación de dominios que serán evaluados (operacionalización)
identificación de la habilidad cognitiva requerida
establecimiento del número y tipo de reactivos se pueden incluir
ponderación (peso que se le otorgará a los dominios en la prueba)
ejemplo de reactivo
bibliografía de apoyo
Ejemplo de estructura
Tema Subtema Habilidad cognitiva por evaluar Número de reactivos Ponderación
Nota: para determinar la habilidad cognitiva que se va a evaluar, se recomienda utilizar la categorización de Bloom y Krathwohl (1956) (aunque
existen otras clasificaciones), la cual se divide en seis niveles. Sin embargo, en los exámenes de alto impacto solo se puede evaluar los tres
primeros niveles cognitivos; conocimiento, comprensión, aplicación. El objetivo es obtener evidencia de lo que puede hacer el sustentante.
11
Los contenidos deben ser:

A) pertinentes en relación con los propósitos y alcances de la evaluación,
B) relevantes e imprescindibles con el constructo que se mide, y
C) representativos de los conocimientos que deben poseer los sustentantes

apartado son: 1.0, 4.1, 11.2, 11.3, 11.13, 12.4,
4.1, 4.2, 11.3, 12.4
12
DESARROLLO
13
CONSTRUCCIÓN DE ÍTEMS
En la construcción de ítems participa un grupo de especialistas que deben cumplir las
siguientes características:
apegarse a la estructura y las

haber recibido capacitación tener una especialización o
especificaciones que se
relacionada con los conocimiento acerca del
establecieron previamente en
lineamientos técnicos a dominio que se desea
las tablas de
seguir. evaluar.
especificaciones.
Cada reactivo elaborado debe contener las siguientes especificaciones:
Congruencia con
Contenido de los Lenguaje de los Materiales de
la especificación y
reactivos reactivos apoyo
formato
•Respetar lo •Reflejar el •Utilizar un •Ser concisos,
establecido en constructo y lenguaje acorde a claros, simples
las dimensiones del la población •Incorporar
especificaciones constructo objetivo información
y lo solicitado por evaluado •Tener calidad pertinente para
la institución ortográfica y de resolver la
correspondiente redacción indicación del
reactivo
Redacción de los reactivos Tipo de respuesta
• Ser oraciones breves y • Utilizar una sola respuesta

fáciles de entender correcta
• Redactar de forma • Incluir tres o cuatro
afirmativa con verbos distractores diferentes pero
imperativos plausibles
• Explicitar qué debe realizar • Cuidar la congruencia
el sustentante gramatical con la base del
• Incluir solo información reactivo
relevante
Una vez generados los reactivos y de forma previa a someterlos al proceso de validación, es
necesario verificar que cumplen con los lineamientos técnicos requeridos y que no tienen errores
gramaticales u ortográficos.

apartado son: 3.2, 4.7–4.14
14
VALIDACIÓN DE EXPERTOS
La validación de expertos se realiza con la finalidad de verificar que los ítems evalúan lo establecido en la
tabla de especificaciones.
Proceso
Evaluar los reactivos:

•Errores
conceptuales Realizar ajustes si
los reactivos no
Contar con una lista •Sesgo cumplen con los
de cotejo basado en •Variables criterios requeridos,
los lineamientos irrelevantes al o aceptarlos como
constructo parte del proceso de
•Una sola respuesta evaluación
correcta
•Claridad
Para evitar posibles conflictos de intereses el validador no debe ser el

elaborador del reactivo.
La validez permite indicar el grado con el que la

evidencia empírica y las razones teóricas
sustentan lo adecuado de una interpretación o
usos de los resultados de una evaluación.
Generalmente, los reactivos se guardan en bancos o repositorios robustos junto con una
cantidad mayor de ítems a la que se expondrá en la prueba. Se almacenan mientras sus
propiedades psicométricas sean adecuadas para realizar diferentes versiones de una
prueba.
15
BANCO DE REACTIVOS
Durante las evaluaciones, se debe asegurar que los reactivos utilizados en las
diferentes versiones de la prueba sean pertinentes, actuales, eficientes y
vigentes a los contenidos y objetivos que persigue la evaluación de alto impacto.
Especificaciones de identificación de cada reactivo:
Dominio del Estatus

Fecha de
constructo Autor dentro de la
creación
que evalúa evaluación
Tipología Respuesta Historial de Historial

(formato) correcta uso estadístico
Tipo de mantenimiento al banco de reactivos
Revisión cualitativa (actualización de contenido)
Revisión cuantitativa (actualización de los parámetros estadísticos)
Renovación de bancos y versiones
Seguridad y resguardo
Existen diferentes estatus de los reactivos que se pueden asignar dependiendo de su revisión:
Descontinuar
Mantener
su uso
dentro del Corregir
(temporal o
banco
definitiva)
16
PILOTAJE
El pilotaje de los reactivos se enfoca en probar dos elementos: su funcionamiento y la logística de

administración de los instrumentos
Los resultados del estudio piloto no pueden ser usados para asignar
puntuaciones a los sustentantes
El estudio piloto sirve para recuperar información valiosa y hacer las adaptaciones que sean
necesarias a fin de que la aplicación del instrumento se realice de forma adecuada. Por ello se recupera
información referente a:
Tiempo
requerido para Comprensión
responder: Logística de la
de las
• los reactivos administración
instrucciones
• el instrumento
completo
Existen diferentes procedimientos para realizar un estudio piloto, se recomienda tomar en cuenta lo
siguiente:
1
Seleccionar la muestra
Los participantes deben

Registrar el tipo de
ser representativos de la
muestreo utilizado
población objetivo
Contemplar la En caso de ser

participación de todos los necesario, incluir
subgrupos de la personas con
población discapacidad(es).
Asegurar que la muestra

es suficiente para el tipo
de análisis que se
contempla realizar
17
2
Establecer el modelo de medición
Generalmente en el estudio piloto se realiza un análisis cuantitativo de las características psicométricas que
presentan los reactivos, rescatando sus indicadores de dificultad y discriminación. Se debe clarificar qué
metodología de análisis de datos se utilizará (véase Administración de la prueba).
Teoría de Respuesta al
Teoría Clásica de los Test
Ítem
3
Realizar análisis cualitativos
El estudio piloto puede basarse en el

análisis cualitativo de los reactivos.
Para ello, existen diferentes técnicas
de recolección de información
como: grupos focales, paneles de
expertos o entrevistas cognitivas.
18
DISEÑO Y ENSAMBLE
Una vez obtenida la calibración de reactivos y asegurada la calidad de los parámetros, se procede
al ensamble de diferentes versiones de la prueba.
Todas las versiones del instrumento deben estar debidamente alineadas a lo

establecido en la tabla de especificaciones
Consideraciones para el ensamblaje de las diferentes versiones de la prueba
Número de versiones Modalidad de aplicación
Seleccionar los reactivos con

Orden de presentación de los mejores características
reactivos psicométricas y alineados a
la tabla de especificaciones
Decisión entre dos formas de ensable
Seleccionar reactivos
equivalentes que cumplan con Cualquiera que sea la
las especificaciones requeridas decisión elegida se debe
asegurar la equivalencia de
cada una de las versiones.
Emplear ítems organizados en

diferente orden
Si se utilizan reactivos equivalentes, sus características psicométricas deben ser similares,

procurando que las medias y desviaciones estándar de la dificultad (en TCT) sean
equivalentes, así como los índices de confiabilidad.
19
Para comprobar la equivalencia de las versiones se pueden utilizar reactivos ancla que se
encuentren ubicados en la misma posición de los exámenes. A este proceso se le conoce como
equiparación o igualación de exámenes.
Los reactivos ancla son preguntas con un grado de dificultad similar y

comportamiento estadístico bien documentado
Las diferentes versiones del instrumento deben cumplir con los criterios editoriales que se hayan
establecido desde el plan general. Además, se debe realizar una revisión editorial para asegurar la calidad
de las impresiones.
Aspectos a revisar en las pruebas de impresión o visualización
Ausencia de errores
Legibilidad
otrográficos y de diseño
(Modalidad en línea)
Posición correcta de los
Funcionamiento
reactivos
adecuado del software

apartado son: 4.3, 5.0, 5.1–5.20, 11.15, 12.11,
13.2
20
CREACIÓN DE MATERIALES ADICIONALES

Los materiales complementarios sirven de apoyo al sustentante; son necesarios para la implementación
de la evaluación
Los materiales adicionales pueden ser requeridos en dos momentos: de manera previa y posterior a la
implementación de la evaluación. explica
Previo a la implementación
Guía para el sustentante

•Informa el propósito de la evaluación
•Explicita los contenidos evaluados
•Explica las características del examen
•Detalla la forma de implementación
•Manifiesta cómo se realizará la emisión de resultados
Cuestionario de contexto.
•Instrumento que recopila información sobre las características
sociodemográficas de los sustentantes.
•Contextualiza los resultados obtenidos.
Materiales adicionales.
•Hojas de respuesta
•Formularios
•Carta de confidencialidad
Posterior a la implementación
Manual o informe técnico

•Documenta e informa la metodología de la evaluación
•Detalla el diseño, construcción, implementación, análisis y el reporte de
resultados del instrumento
•Proporciona validez a las interpretaciones que se pueden hacer con los
resultados
21
Algunos de los elementos que debe describir el informe técnico se presentan a continuación.
Describir el desarrollo del instrumento y las razones de su creación (antecedentes).
Identificar el propósito y los alcances de los instrumentos.
Expliciar los usos no adecuados de los resultados.
Identificar la población objetivo.
Describir el objeto de evaluación.
Explicitar las actividades realizadas por cada cuerpo colegiado.
Describir el procedimiento para la implementación del instrumento.
Establecer los parámetros aceptados dependiendo del modelo estadístico que se

seleccionó.
Explicitar las evidencias de validez de contenido, criterio y constructo del

instrumento.
Describir los resultados de consistencia interna y error de medición obtenidos
Describir los procedimientos de muestreo utilizados.
Fundamentar los métodos para calificar los resultados obtenidos en el examen.
Fundamentar que las adaptaciones para personas con discapacidad tienen

resultados equiparables a las versiones no adaptadas.
22
IMPLEMENTACIÓN
23
ADMINISTRACIÓN DE LA PRUEBA
Se debe contar con un adecuado procedimiento de aplicación, donde la implementación tenga
condiciones controladas, estandarizadas y que aseguren la equidad entre los sustentantes.
La aplicación del instrumento se debe

considerar desde el plan general y debe tomar en
cuenta la capacitación de todo el personal que
intervendrá en el proceso de aplicación del examen.
Se recomienda realizar una simulación del
procedimiento a seguir.
La logística requerida para la administración de la prueba debe considerar diferentes elementos:
Personal Seleccionar el personal encargado de la administración del instrumento.

especializado
Asegurar el seguimiento de las indicaciones establecidas para la aplicación.
Procurar la seguridad de los materiales.
Resguardo de Contemplar los procedimientos de distribución del instrumento, transporte y la

los materiales seguridad.
Examinar la preparación de las sedes encargadas de la implementación y la

recolección.
Asegurar que se encuentren los materiales y el personal encargado de la

aplicación antes de realizar la administración.
Materiales de Emitir la convocatoria para los sustentantes. Especificar fechas, hora y lugar de
preparación aplicación.
para la Proporcionar una guía a los sustentantes que explicite los procedimientos y las
implementación normas a seguir.
Informar las sanciones a las que se pueden hacer acreedores si violan las
normas establecidas.
Proporcionar al personal encargado de la administración, una guía que clarifique
los procedimientos a seguir durante la implementación.
Implementación Facilitar a las personas con discapacidad el apoyo o adaptación necesario para
que realicen su prueba sin contratiempos.
Contar con condiciones de comodidar, higiene, iluminación y ventilación

adecuados en los espacios de aplicación.
Reducir el impacto de posibles distractores.

24
Se debe evitar el realizar modificaciones a la planeación de la implementación.
La aplicación del examen es un proceso estandarizado que debe tener características de aplicación
homogéneas en cualquiera de las sedes donde se aplique. Dentro de los elementos a considerar durante la
aplicación se encuentran:
asegurar que las instalaciones cuentan con las condiciones ambientales

necesarias,
contemplar la supervisión de la implementación,
garantizar la seguridad y resguardo de los materiales y de los

sustentantes,
registrar las situaciones que pueden afectar la administración de los

instrumentos
determinar qué situaciones pueden ser las causantes de invalidación.

apartado son: 3.0, 3.4, 4.3, 4.15–4.17, 6.1–6.7,
12.16
25
PROCESAMIENTO DE LA INFORMACIÓN
Al realizar el análisis de la información recabada, se debe asegurar que los resultados tienen un
bajo nivel de error y son imparciales.
Procurar la calidad en las bases de datos y la confidencialidad al analizar las

respuestas proporcionadas por los sustentantes.
Existen diferentes tipos de análisis que se pueden realizar con la finalidad de verificar que el instrumento de
medición cuente con adecuados indicadores psicométricos. Algunos de los procedimientos a los que se
somete la información obtenida se describen a continuación.
Lectura y Cálculo del

Evaluación de Calibración de
corrección de las índice de no
dimensionalidad reactivos
bases de datos respuesta
Establecimiento
Estudios de Evaluación de
de puntos de Calificación
equiparación confiabilidad
corte
Nota: Cuando los exámenes son criteriales, se genera una base para establecer los rangos de
puntuación aplicables a cada nivel de desempeño en el que se ubicarán los resultados.
Además, se realizan procedimientos de equiparación para garantizar la equidad en la
evaluación, y verificar que se mide de forma equivalente a todos los sustentantes.
El banco de reactivos debe contener la

información correspondiente a los resultados de
su análisis cuantitativo. Se debe determinar la
pertinencia de incluir o no los reactivos al banco
con base en la evaluación de sus parámetros.
26
A continuación se presentan los estadísticos a los que se pueden someter los resultados de un
instrumento.
Evaluación de dimensionalidad
El Análisis Factorial (AF) es empleado para evaluar la estructura de un

cuestionario o comprobar hipótesis dimensionales. Se basa en el modelo del
factor común, postulando que una variable latente es la causa de las respuestas
en las variables observadas.
Este modelo permite realizar la distinción entre comunalidad y error.
Comunalidad Error
• Efecto causado por el factor en • Efecto que no es causado
todas las variables observables por el factor.
(varianza en común entre los • Es la varianza única de cada
reactivos) reactivo
• Error de muestreo
• Error de medida
• Error de aproximación
El AF evalúa con base en modelos de regresión lineal la medida en que una variable latente puede predecir
distintas variables observables (ítems). También utiliza correlaciones para evaluar el ajuste del modelo, es
decir, que tan bien o mal refleja el modelo la realidad.
Existen dos tipos de análisis factorial: el Análisis Factorial Exploratorio (AFE) y el Análisis Factorial
Confirmatorio (AFC).
Análisis factorial exploratorio (AFE)
Se recomienda cuando no se tiene una hipótesis de la estructura de un cuestionario ni de la

forma en la que se pueden agrupar los reactivos. El análisis permite llegar a una solución con
base en análisis estadísticos.
Aálisis factorial confirmatorio (AFC)
Se utiliza para poner a prueba hipótesis que han sido detalladas con anterioridad y de las cuales
se desea evaluar el ajuste del modelo. Su principal objetivo es comprobar que la variable latente
se agrupa en las dimensiones definidas teóricamente.
27
El AFC tiene una representación gráfica que distingue

entre variables latentes (óvalos), variables
1 e1
observables (rectángulos), y el error de cada reactivo λ
(círculos o δ). También muestra mediante λ las cargas λ 2 e2
Variable
factoriales, que representan el efecto o la latente λ
3 e3
importancia de la variable latente sobre el factor. λ
4 e4
Calibración de reactivos
El término calibración hace referencia al proceso de estimar los parámetros estadísticos de los ítems,
con el objetivo de verificar el desempeño estadístico. Existen dos planteamientos principales que permiten
realizar estos análisis:
Teoría Clásica de los Test (TCT)
También es llamada modelo de puntuación verdadera, es un modelo estadístico que busca

fundamentar las puntuaciones obtenidas en los tests y, a su vez estimar el error de medida. El modelo
plantea que la puntuación empírica que obtiene un sustentante (X) consta de una puntuación verdadera (V)
y un error de medida (e).
𝑿 = 𝑽+𝒆
La TCT permite estimar los parámetros de dificultad y discriminación utilizando como base los datos
de la población a la que se aplicó el instrumento.
Índice de dificultad.
• Proporción de examinados que responde correctamente.

• Se considera como puntuaciones aceptables los valores
comprendidos entre 0.2 y 0.8.
Índice de discriminación.
• Correlación biserial puntual entre el ítem y la puntuación total del

examen
• Se considera que valores mayores a 0.15 son aceptables.
28
Teoría de Respuesta al Ítem (TRI)
La TRI se conforma por un conjunto de modelos

matemáticos, probabilísticos y de variables latentes que establecen
una relación entre el comportamiento de un sujeto frente a un ítem
y el rasgo latente responsable de esta conducta. Dependiendo del
modelo seleccionado se pueden realizar análisis de datos
dicotómicos o politómicos.
Los parámetros más utilizados al realizar la calibración de

reactivos son: dificultad, discriminación y pseudoacierto.
Dificultad.
•Nivel de habilidad requerido por un sustentante para responder un ítem

correctamente.
Discriminación.
•Nivel de precisión con el que un ítem puede diferenciar la habilidad entre

dos respondientes distintos.
Pseudoacierto
•Probabilidad de acertar o fallar un ítem por azar y otra serie de factores

no previstos.
Confiabilidad
Hace referencia a la consistencia de los puntajes obtenidos por las mismas

personas en ocasiones diferentes o con diferentes conjuntos de reactivos.
Una medición es confiable si las puntuaciones no varían tanto

ante una aplicación repetida. Para las evaluaciones de alto impacto, se
espera contar con indicadores de confiabilidad elevados.
29
A continuación se presentan algunos tipos de confiabilidad.
Estabilidad temporal
•Es útil si el objetivo es medir cambios a lo largo del tiempo.

•Indica el grado en el que las puntuaciones se ven modificadas por variaciones en el
sujeto o en el ambiente de aplicación.
•Los sustentantes responden dos veces la misma prueba en diferentes momentos.
•Se espera que la variable no cambie con el transcurso del tiempo, por lo que idealmente
la correlación entre los puntajes debería ser alta.
•Las puntuaciones pueden variar dependiendo del tiempo entre ambas aplicaciones.
Formas paralelas o equivalentes
•Se recomiendan cuando los participantes pueden recordar las respuestas en una
aplicación.
•Se requieren dos versiones del instrumento que midan lo mismo, pero con diferentes
reactivos.
•Al coeficiente calculado se le denomina como coeficiente de equivalencia.
División por mitades
•Se establece dividiendo a la prueba en dos partes

•Los reactivos se ordenan de acuerdo a su grado de dificultad (del más fácil al más difícil);
se forman dos pruebas paralelas, una con los reactivos pares y otra con los nones.
•Este coeficiente se determina con la fórmula de Spearman-Brown, que sólo se puede
aplicar a pruebas homogéneas y sin límite de tiempo para resolverlas.
Consistencia interna
•Se calcula a partir de una administración de una prueba.

•El coeficiente se calcula a partir de Kudder y Richardson (KR-20) y el alfa de Cronbach
Análisis de funcionamiento diferencial
Se aplica con la finalidad de verificar que el Busca documentar si las

instrumento es homogéneo para los características de traducciones
diferentes subgrupos de una población. pueden interferir en la
respuesta de los sustentantes
30
Standard setting
El establecimiento de estándares de desempeño es un procedimiento que

permite identificar los puntos de corte que diferencian el nivel de habilidad que
tiene una persona en un constructo.
Este procedimiento comprende dos tipos de estándares: estándares de contenido y estándares de

desempeño.
Estándares de contenido Estándares de desempeño

•Descripción teórica de los •Nivel que requiere un
objetivos o resultados de sustentante para ser
aprendizaje esperados de clasificado en una
los sustentantes. determinada categoría de
desempeño.
La clasificación de los examinados en alguna de las categorías de desempeño establecidas se puede
operacionalizar mediante la aplicación de puntos de corte en el test. Los puntos de corte cumplen la función
de dividir la distribución del nivel de desempeño de los examinados en dos o más categorías. Se pueden
establecer uno o más puntos de corte dependiendo del objetivo de la evaluación.
•Aprobado / Reprobado
Un punto de
•Otorgado / Rechazado
corte
•Apto / No apto
•Básico / Proficiente / Avanzado

Varios puntos
•Inaceptable / Suficiente / Sobresaliente
de corte
•A1 / A2/ BI / B2 / C1 / C2
Los puntos de corte son producto de juicios humanos. No es correcto

asumir que son inherentes a la variable medida.

apartado son: 4.3, 4.18–4.23, 6.8–6.9, 2.16, 5.21–
5.23, 11.16
31
Algunos métodos de puntos de corte
•Los especialistas revisan cada ítem y proponen

Método de Angoff una estimación hipotética del éxito de un
examinado. En este sentido, se obtendrían los
puntajes mínimos para aprobar.
•Los especialistas identifican los puntajes de corte

Método bookmark dependiendo de la ubicación de un reactivo. En
este caso, se ordenan los reactivos en orden
creciente de acuerdo con su dificultad.
•Se administra la prueba a grupos de examinados

con un diferente grado de habilidad. Se grafica la
Métodos de grupos
distribución de los puntajes totales de cada grupo.
contrastados Los puntos de corte se establecen donde cruzan
las distribuciones.
32
REPORTE DE RESULTADOS
Los reportes de resultados deben ser utilizados para garantizar la validez de las
interpretaciones que se hagan, asegurando su imparcialidad.
Tipos de informes
Dependiendo de su finalidad, los
informes o manuales pueden ser
consultados por diversas audiencias. El
reporte puede variar en su extensión y Documento
Informe de Manual
de
formato. resultados técnico
divulgación
Antes de comenzar Las evaluaciones de En ambos casos se

con la redacción de un alto impacto permiten debe contar con
informe, se debe elaborar reportes políticas de seguridad
identificar la población individuales e y confidencialidad
a la que va dirigido. institucionales. acordes a cada
emisión de resultados.
Al redactar el informe o manual, los autores deben contemplar elementos que promueven
una adecuada escritura, que sea objetiva y fácil de comprender.
Elementos a considerar al redactar un informe
Utilizar un lenguaje
Utilizar términos de
adecuado para la Reducir los prejuicios
investigación adecuados
población objetivo
Explicar los estadísticos

Informar los hallazgos de utilizados para la
Incluir un título conciso
manera ética valoración del
desempeño
Evitar errores
tipográficos y de formato
33
Se debe de incorporar los siguientes aspectos dentro del informe de resultados.
Escala
• Dependiendo del propósito de la evaluación, se debe identificar qué escala se utilizará

(p. ej. porcentaje). Si es necesario, agregar una nota que lo decriba.
Reportes dirigidos a los usuarios de la evaluación
• Debe brindar retroalimentación con respecto a los principales hallazgos.

• Debe hacer énfasis en los alcances de la evaluación, las interpretaciones que pueden
realizarse, y el uso adecuado de los resultados.
Límites y alcances de la evaluación.
• Puntualizar el uso que se puede dar a las puntuaciones obtenidas
La organización de los temas debe tener una secuencia lógica que facilite al lector la comprensión del escrito.
También se debe alinear a los objetivos de la ficha técnica del instrumento.

apartado son: 2.0, 2.3–2.4, 2.13–2.14, 5.1–5.5,
6.10–6.16, 4.0, 7.0, 7.1–7.14, 12.6
8.7–8.8, 12.18
34
AUTOEVALUACIÓN
Instrucciones. Utiliza estas páginas para señalar los conceptos que aprendiste a través del manual.
Una vez que completes la sección, anota el total de X que marcaste en cada uno de los recuadros.
Si obtienes un total mayor a cinco en cada unidad exhortamos a que continúes aprendiendo sobre
el tema a través de las lecturas complementarias. De lo contario, recomendamos revisar de nueva
cuenta el manual.
Planeación
Conceptos de medición Objeto de evaluación

Recuerdo los conceptos Recuerdo con qué debe estar
“evaluación”, “medir”, “constructo”, alineado y de qué manera debe estar
“reactivo” descrito el constructo a evaluar
Plan general Tabla de especificaciones
Identifico las principales Identifico los elementos que deben
interrogantes que guiarán el proceso conformar la estructura de la tabla
de evaluación de especificaciones
Acuerdos de confidencialidad Dominios y subdominios
Ubico las razones por las cuales Identifico las características que
todos los participantes del proceso deben tener los contenidos elegidos
deben firmar acuerdos de para la tabla de especificaciones
confidencialidad
Interpretación de resultados
Total: de 7
Identifico los tipos de constraste que
se pueden realizar con los resultados
de la prueba de alto impacto
Desarrollo
Construcción de ítems Banco de reactivos

Recuerdo las especificaciones que Recuerdo por qué se debe procurar
deben tener los reactivos para el mantenimiento periódico de los
alinearse a la evaluación del repositorios
constructo
Grupo de especialistas Pilotaje
Identifico las características del Recuerdo la finalidad de realizar un
cuerpo colegiado para participar en pilotaje, y la información que se
la construcción de ítems recupera de él
Validación de expertos Diseño del instrumento
Recuerdo el proceso para la Distingo el concepto “equiparación o
validación de los reactivos igualación de exámenes” y los
aspectos a revisar para asegurar la
calidad de los exámenes impresos o
digitales
Materiales adicionales
Total: de 7
Recuerdo el tipo de materiales que
sirven de apoyo para el sustentante y
la implementación de la evaluación
35
IMPLEMENTACIÓN
Administración de la prueba Confiabilidad

Recuerdo los elementos a tomar en Identifico la importancia de las
cuenta para la implementación. mediciones confiables
Procesamiento de la información Standard setting
Identifico los diferentes tipos de Recuerdo los criterios para
análisis que se pueden realizar con establecer puntos de corte y algunos
la información recabada por la de los principales métodos
prueba
Dimensionalidad Reporte de resultados
Recuerdo la finalidad del AFE y AFC Recuerdo los elementos que se
deben contemplar para redactar el
informe.
Calibración de reactivos
Total: de 7
Identifico las diferencias de los
modelos teoría clásica de los test
(TCT) y teoría de respuesta al ítem
(TRI) para verificar el desempeño
estadístico de los reactivos.
36
REFERENCIAS
American Educational Research Association, American Psychological Association, & National

Council on Measurement in Education. (2018). Estándares para pruebas educativas y
psicológicas (M. Lieve, Trans.). American Educational Research Association.
Barman, A. (2008). Standard Setting in Student Assessment: Is a Defensible Method Yet to Come?
Annals Academy of Medicine. 37(11), 957-963.
Cizek, G. (2012). Setting Performance Standards. Foundations, Methods and Innovations.

Routledge.
Reidl-Martínez, L. M. (2013). Confiabilidad en la medición. Investigación en educación médica. 2(6),

107-111. http://riem.facmed.unam.mx/node/76
Instituto Nacional para la Evaluación de la Educación [INEE]. (2014) Criterios Técnicos para el
Desarrollo y uso de Instrumentos de Evaluación Educativa.
https://historico.mejoredu.gob.mx/wp-content/uploads/2019/04/P1E104.pdf
Instituto Nacional para la Evaluación de la Educación [INEE]. (2019). Guía para la elaboración de
instrumentos de evaluación. https://historico.mejoredu.gob.mx/wp-
content/uploads/2019/04/P1E213.pdf
Kampa, N., Wagner, H. y Köller, O. (2019). Large-scale Assessments in Education.
Martínez, R., Hernández, J. y Hernández, V. (2014). Psicometría. Alianza Editorial.
Mide UC, & Instituto Nacional para la Evaluación de la Educación [Eds.]. (2019). Nociones básicas
en medición y evaluación en el contexto educativo. Cuadernillo técnico de evaluación
educativa No. 1. https://historico.mejoredu.gob.mx/wp-content/uploads/2019/08/P2A251.pdf
Lane, S., Raymond, M.R., Haladyna, T. & Downing, S. (2016). Handbook of Test Development (2nd
ed.). Routlege.
Stevens, S. [Ed.] (1951), Handbook of experimental psychology. Wiley.
Wilson, M. (2005). Reliability. Constructing Measures. An item response modeling approach.

Lawrence Erlbaum Associates.
37
GLOSARIO
A continuación se presentan las definiciones de los principales términos a considerar al trabajar en una
evaluación de alto impacto. Los conceptos se recuperaron de la Guía para la elaboración de instrumentos de
evaluación (INEE, 2019).
Accesibilidad. Es el grado en el que las personas con discapacidad son integradas al proceso de evaluación
en igualdad de condiciones con las demás.
Adaptaciones al instrumento. En el contexto de la evaluación, representan los ajustes necesarios al

instrumento para garantizar que las personas con alguna discapacidad participen en igualdad de
condiciones con el resto de los evaluados.
Administración del instrumento. Proceso en el que una o más personas contestan el instrumento de
evaluación.
Alto impacto. Se entiende que una evaluación es de alto impacto cuando sus resultados tienen consecuencias
importantes para las personas o las instituciones; por ejemplo, los procesos de admisión o
certificación.
Banco de reactivos. Repositorio donde se resguardan y clasifican los reactivos que integran los instrumentos
de evaluación; en él se administran los datos de identificación del reactivo, sus características
métricas, las formas en las que se incorporó y las fechas en las que se utilizó.
Confiabilidad. Proceso de asignación de una puntuación o nivel de desempeño logrado a partir de los
resultados de una medición.
Constructo. Elaboración teórica formulada para explicar un proceso social, psicológico o educativo
Dicotómico. Se refiere a que sólo habrá dos opciones de respuesta (sí-no, verdadero-falso, etcétera).
Distractor: Opciones de respuesta incorrectas del reactivo de opción múltiple, que probablemente serán
elegidas por los sujetos con menor dominio en lo que se evalúa.
Dominio. Conjunto de conocimientos, habilidades, destrezas, actitudes u otros atributos que tienen las
siguientes propiedades: límites, extensión y definición. También se puede aplicar a contenidos,
procedimientos u objetos.
Equidad. Término utilizado para asegurar que los instrumentos de medición no benefician a un grupo
determinado de la población; se establecen criterios para evitar sesgos culturales que afecten la
evaluación.
Equiparación. Método estadístico que se utiliza para ajustar las puntuaciones de las formas o versiones de
un mismo instrumento, de manera tal que al sustentante le sea indistinto, en términos de la
puntuación que se le asigne, responder de una forma u otra.
Error de medida. Es la diferencia entre el valor medido y el “valor verdadero”. Cuando la medida es más
precisa, el error es más pequeño, y viceversa.
Escala. Conjunto de números, puntuaciones o medidas que pueden ser asignados a objetos o sucesos con
propiedades específicas a partir de reglas definidas.
Estructura. Compuesta por los contenidos o aspectos disciplinares que mide un instrumento, así como por el
número y porcentaje relativo de reactivos o tareas evaluativas con que se integra el instrumento y
su distribución.
Evaluación de alto impacto. Evaluaciones que impactan la vida de los sustentantes con base en los resultados
que obtienen.
38
Evaluación. Proceso sistemático mediante el cual se recopila y analiza información, cuantitativa o cualitativa,
sobre un objeto, sujeto o evento, con el fin de emitir juicios de valor al comparar los resultados con
un referente previamente establecido. La información resultante puede ser empleada como insumo
para orientar la toma de decisiones.
Funcionamiento diferencial del instrumento (DIF). Se refiere a la tendencia del instrumento a funcionar de
manera distinta en diferentes subpoblaciones, a pesar de que los individuos que las componen
obtengan puntuaciones similares en el instrumento. Las subpoblaciones son definidas por algo
distinto a los aspectos relacionados con el constructo evaluado y suelen considerar aspectos de los
individuos que las componen, tales como el sexo, la edad, el grupo étnico o el estatus
socioeconómico.
Instrumento. Herramienta de recolección de datos que suele tener distintos formatos, atendiendo a la
naturaleza de la evaluación, por ejemplo, instrumentos de selección de respuesta, instrumentos de
respuesta construida, cuestionarios, observaciones, portafolios, entre otros.
Jueceo. Método en el cual se utiliza la opinión de expertos (denominados jueces) para valorar y calificar
distintos aspectos, tales como las respuestas y ejecuciones de las personas que participan en una
evaluación o la calidad de los reactivos, las tareas evaluativas y los estándares de un instrumento.
Mantenimiento. Conjunto de procedimientos que tienen por objeto conservar actualizado el contenido de un
instrumento de evaluación y vigilar su pertinencia, además de nutrir el banco de reactivos y las
tareas evaluativas con características cualitativas y cuantitativas óptimas.
Medición. Proceso de asignación de valores numéricos a atributos de las personas, características de objetos
o eventos de acuerdo con reglas específicas que permitan que sus propiedades puedan ser
representadas cuantitativamente.
Muestra. Subconjunto de la población de interés que refleja las variables medidas en una distribución
semejante a la de la población.
Objeto de medida. Conjunto de características o atributos que se miden en el instrumento de evaluación.
Parámetro. Número que resume un conjunto de datos derivados del análisis de una cualidad o característica
del objeto de estudio.
Pertinencia. Los instrumentos de medición cuentan con un marco de referencia conceptual que sustenta la
definición del constructo medido y cubre de manera representativa los dominios definidos como
objeto de evaluación.
Piloteo. Recolección preliminar de datos mediante la administración de un nuevo instrumento de evaluación

para valorar su funcionamiento en una muestra de la población objetivo o en una población con
características similares a las de la población objetivo, y realizar ajustes orientados a su mejora y a
su posterior administración.
Población. Grupo de individuos sobre los cuales se desea que las inferencias elaboradas a partir de los
resultados obtenidos con un instrumento de evaluación sean válidas.
Politómico. Se refiere a que habrá más de dos opciones de respuesta.
Puntuación. Valor numérico obtenido durante el proceso de medición.
Reactivo. Unidad básica de medida de un instrumento de evaluación que consiste en una pregunta o
instrucción que requiere una respuesta del sujeto.
Sesgo. Error en la medición de un atributo debido a una variable no controlada, como las diferencias culturales
o lingüísticas de las personas evaluadas.
39
Tabla de especificaciones. Matriz que permite identificar con toda precisión el objeto de medida o evaluación.
Concentra la estructura del instrumento y las definiciones operacionales de lo que se desea medir
(especificaciones de reactivos).
Teoría Clásica de los Tests (TCT). Teoría psicométrica que parte del supuesto de que el puntaje observado
de una persona que responde un instrumento es la suma de su puntaje verdadero y un error
aleatorio independiente del puntaje.
Teoría de Respuesta al Ítem (TRI). Teoría psicométrica que consiste en una familia de modelos estadísticos
que modelan la probabilidad de cierta(s) respuesta(s) (por ejemplo, la respuesta correcta en un test
de rendimiento óptimo) como función de las características tanto de la persona evaluada (por
ejemplo, su nivel de habilidad en el constructo latente) como del reactivo (por ejemplo, su grado de
dificultad).
Validez. Juicio valorativo integrador sobre el grado en que los fundamentos teóricos y las evidencias empíricas
apoyan la interpretación de las puntuaciones de los instrumentos de evaluación.
Validez de contenido. Juicio sobre el grado en que el instrumento representa la variable objeto de medición,
es decir, el grado en que representa el universo de la variable objeto de estudio.
Validez de constructo. El instrumento se juzga respecto del grado en que una medición se relaciona
consistentemente con otras mediciones sobre conceptos que están midiéndose.
Validez de criterio. Se refiere al juicio que se hace al instrumento en cuanto a la capacidad del mismo para
predecir la variable objeto de la medición.
Variable latente. Se denomina así a las variables “ocultas”, es decir, que no son susceptibles de medirse
directamente sino por medio de otras variables manifiestas (observables).
Varianza. La varianza de una variable aleatoria es una medida de dispersión definida como la esperanza del
cuadrado de la desviación de dicha variable respecto a su media.
40
ANEXO
41
Anexo 1. Comparación entre diversas metodologías para la creación de escalas de alto impacto
Guía para la Cuadernillo

Handbook of test
Metodología elaboración de técnico
Manual Sintético developmet
CENEVAL instrumentos de de evaluación
(2016)
medición educativa
Fase 1.
I. Diseño de la Conceptualización
Planeación
evaluación del instrumento
de evaluación
1. Definición de las Paso 1. 1. Definición del
Planeación general características de la Planeación marco de Overall Plan
evaluación general referencia.
II. Delimitación
del objeto de
medida
2. Definición Domain Definition
conceptual del and Claims
Definición del objeto de medida Paso 2. Statements
objeto de 3. Propuesta de la Diseño
evaluación estructura del instrumento
Content
4. Diseño de Specifications
especificaciones de
reactivos
5. Validación del
objeto de medida
III. Construcción Fase 2. Desarrollo
Desarrollo del banco de del instrumento de
reactivos evaluación
Paso 3. 2. Construcción de
6. Elaboración de Elaboración de las preguntas o ítems
reactivos tareas evaluativas (diseño de la tarea
o de los reactivos evaluativa).
Construcción de los
7. Validación Item Development
ítems
externa de
reactivos 3. Revisión de
expertos.
8. Revisión de
estilo de reactivos
IV. Verificación
cuantitativa
4. Ensamblaje de
Paso 4. Piloteo de instrumentos para
las tareas pilotaje.
Pilotaje
evaluativas o de los
9. Piloteo de reactivos
reactivos 5. Pilotaje y análisis
10. Calibración de psicométrico.
reactivos
V. Ensamble
de cuadernillos y
formas
11. Integración
Diseño y ensamble Test Design and
12. Revisión Paso 5. Ensamble 6. Ensamblaje Assembly
editorial del instrumento definitivo.
Test Production
13. Publicación
Fase 3.
Implementación VI. Aplicación
Administración
42

Handbook of test
(2016)
medición educativa
y resguardo del
instrumento
de evaluación
14. Planeación y
programación
15. Registro
16. Capacitación y
asignación de
auxiliares para la
aplicación
17. Logística y
preparación de
Administración de materiales de
la prueba aplicación en papel
y en línea
18. Ejecución y Paso 6.
7. Aplicación
control de Administración del Test Administration
definitiva.
aplicación instrumento
Paso 7. Resguardo
de materiales al
finalizar la
administración del
instrumento
Fase 4.
VII. Procesamiento Análisis de
de la información resultados de
y calificación instrumento
de evaluación
19. Lectura y
Scoring
corrección
Paso 8. Evaluación
Procesamiento de 20. Establecimiento de la métrica del
Cut Scores
la información de puntos de corte instrumento 8. Análisis de datos
aportados por la
21. Equiparación
aplicación
Paso 9. Resultados definitiva,
de las puntuaciones estimación de
22. Calificación
obtenidas a partir puntuaciones.
del instrumento
23. Validación de
resultados
Fase 5.
Difusión, uso y
Reporte de VIII. Emisión de resguardo de los
resultados resultados resultados del
instrumento
de evaluación
9. Reporte de
resultados
Paso 10.
Difusión de 24. Difusión de los 10.
Reportes y usos Test Score Reports
resultados resultados Acompañamiento
de los resultados
en la interpretación
y uso de resultados
43

Handbook of test
(2016)
medición educativa
Paso 11.
25. Resguardo de
Resguardo de la Test Security
la información
información
Fase 6.
IX. Mantenimiento Mantenimiento
del examen del instrumento
de avaluación
26. Revisión Paso 12.
cualitativa Actualización del
objeto de medida y
27. Revisión del banco de
Banco de reactivos
cuantitativa reactivos o de
tareas evaluativas
Paso 13. Revisión y
actualización de
28. Renovación de estadísticos del
bancos y versiones barco de reactivos
o de tareas
evaluativas
X. Elaboración
del material
complementario
29. Elaboración de
la guía para el
sustentante
Paso 14. Plan de
30. Integración del mejora Test
Creación de Manual técnico Paso 15. Informe Documentation
materiales técnico
adicionales 31. Conformación
del Cuestionario de
contexto
32. Elaboración de
materiales
adicionales
33. Publicación en
el portal del
Ceneval

Manual - Final-Tere y Laura

Cargado por

Copyright:

Formatos disponibles

Manual - Final-Tere y Laura

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Manual - Final-Tere y Laura

Cargado por

Copyright:

Formatos disponibles

Recomendaciones

El trabajo tiene demasiadas señalizaciones , lo que no

María Teresa Balderas Ramírez

Laura Berenice Castro Arzate

Especifica los principales conceptos y su

Representa la validez proporcionada a través

El texto incluido dentro de estos iconos debe

Recomienda material adicional para

Recupera aspectos que abonan a la validez y

Las evaluaciones consisten en la asignación de un juicio de valor a un

Medir es un proceso que consiste en la asignación de una puntuación a

En psicología y educación se realizan mediciones de constructos como la inteligencia,

Un constructo es una abstracción que influye en el comportamiento, pero

Un reactivo representa una unidad de medida que permite identificar si el

Para generar de forma adecuada una evaluación de conocimientos o habilidades, existen

El presente manual recupera las fases expuestas en:

Centro Nacional de Evaluación

Documento integrador que sirve de guía para realizar el proceso de

Responde a las interrogantes:

Modelo de medición sobre el que se analizarán los resultados

•Teoría Clásica de los Test (TCT)

Especificaciones métricas de parámetros e indicadores

•Número de reactivos que deben ser validados y aprobados

Forma y procedimientos de puntuación

Criterial El estándar puede ser:

Directrices generales de la estructura de la prueba

Otros participantes implicados en el proceso

Cuerpos Se conforman por expertos que participan en las diferentes fases de la

Es importante capacitarlos para que reconozcan la importancia de seguir un

Realizar un estudio de factibilidad para visualizar el costo que implica

Se deben contemplar los acuerdos de confidencialidad de todas las partes,

Los estándares que se pueden revisar en este

DEFINICIÓN DEL OBJETO DE EVALUACIÓN

El constructo se debe integrar dentro de la tabla de especificaciones, cada especificación representa

La tabla de especificaciones establece la estructura que tendrá la prueba y

identificación de dominios que serán evaluados (operacionalización)

identificación de la habilidad cognitiva requerida

establecimiento del número y tipo de reactivos se pueden incluir

ponderación (peso que se le otorgará a los dominios en la prueba)

Tema Subtema Habilidad cognitiva por evaluar Número de reactivos Ponderación

Los contenidos deben ser:

Los estándares que se pueden revisar en este

apegarse a la estructura y las

Cada reactivo elaborado debe contener las siguientes especificaciones:

Redacción de los reactivos Tipo de respuesta

• Ser oraciones breves y • Utilizar una sola respuesta

Los estándares que se pueden revisar en este

Evaluar los reactivos:

Para evitar posibles conflictos de intereses el validador no debe ser el

La validez permite indicar el grado con el que la

Especificaciones de identificación de cada reactivo:

Dominio del Estatus

Tipología Respuesta Historial de Historial

Tipo de mantenimiento al banco de reactivos

Revisión cualitativa (actualización de contenido)

Revisión cuantitativa (actualización de los parámetros estadísticos)

Renovación de bancos y versiones

El pilotaje de los reactivos se enfoca en probar dos elementos: su funcionamiento y la logística de

Los participantes deben