Evaluación Educativa
Evaluación Educativa
Evaluación Educativa
Resumen
Abstract
This article discusses the theoretical foundations that underpin the development of
systems for monitoring and evaluating the quality of education and describes the most
representative assessment models in education. The article pretends to answer the
following questions: what does monitor and evaluate education systems imply? What
role play assessment models, indicators and standards in these processes? What are
the sources from which educational indicators are derived? How can the indicators that
account for the quality of an educational system be selected?
INTRODUCCIÓN
El conocimiento y la información constituyen, de acuerdo con diversos especialistas, los
elementos centrales de las diferencias entre las personas, las instituciones y los países
en la época actual (Castells, 2002). Conforme a lo planteado por Mateo (2006), las
sociedades postindustriales actuales se orientan, fundamentalmente, hacia la
generación y gestión democrática del conocimiento. En estas sociedades, la
informatización, la robotización y, en términos generales, la tecnologización, tanto de
la industria como de la vida cotidiana, están propiciando el surgimiento de nuevas
élites. El dominio de la tecnología para el manejo de la información y del conocimiento,
así como su puesta en práctica, generan una distancia entre los grupos sociales que no
tienen acceso a estos servicios y aquellos que los diseñan, utilizan o comercializan, con
lo que producen situaciones de injusticia y marginación que atentan contra el bienestar
y la cohesión social.
Frente a los enormes retos que plantea la sociedad postindustrial, la educación debe
sistematizar sus esfuerzos y organizar sus recursos, de tal manera que pueda rendir
cuentas en materia educativa sobre el cumplimiento de las metas que la sociedad le
demanda. Como parte sustancial del proceso de rendición de cuentas, la educación
debe instituir mecanismos que permitan evaluar sus recursos, procesos, agentes y
resultados, y considerar, en la medida de lo posible, el conjunto del sistema educativo.
Para responder a las necesidades y demandas actuales en materia educativa, así como
a los requerimientos de la globalización y la sociedad del conocimiento, el Programa
Sectorial de Educación 2007–2012 propuso impulsar una profunda reforma educativa
que se encuentra en marcha. Como parte de ella, se ha planteado promover la
evaluación de todos los actores y procesos involucrados en el sistema educativo. Para
ello, es conveniente supervisar el sistema; es decir, dar cuenta del progreso en el logro
de las metas propuestas en el programa sectorial, así como del grado de aplicación de
los mecanismos diseñados para alcanzarlas. Asimismo, definir y poner en operación
sistemas de indicadores sobre la base del modelo explícito o implícito del
funcionamiento del sistema educativo, para realizar evaluaciones diversas de
componentes del sistema, o de éste en su conjunto.
La evaluación, por su parte, se define como un examen más profundo, que se efectúa
en determinados momentos de la operación de los programas o proyectos o de partes
de ellos, por lo general con hincapié en el impacto, la eficiencia, eficacia, pertinencia,
replicabilidad y sostenibilidad de dichos programas o proyectos (Dale, 1998). La
literatura actual sobre el tema de la evaluación señala que las diversas aproximaciones
desarrolladas hasta el presente coinciden en que su propósito es reunir información
sistemática y hacer algún tipo de juicio sobre un cierto objeto de evaluación. En el
ámbito educativo, estos objetos de evaluación pueden ser: los alumnos, las escuelas,
el tipo de servicio educativo y el propio sistema educativo (Hansen, 2005; Stufflebeam,
2000). Scheerens, Glass y Thomas (2005) apuntan que una expectativa mayor
respecto de los fines de la evaluación es que esta información ya "valorada" o
"evaluada" pueda ser utilizada en condiciones ideales para tomar decisiones sobre el
funcionamiento de los sistemas de educación, las escuelas, u otros agentes
involucrados en el ámbito educativo; o de manera más amplia, en situaciones que
impliquen la revisión o, incluso, el cambio del sistema que está siendo evaluado.
La rendición de cuentas, por su parte, permite que la calidad del objeto pueda ser
inspeccionada por otras instancias de la sociedad. Finalmente, el aprendizaje de la
organización como estrategia de evaluación está dirigido a determinar si la evaluación
de la calidad se utiliza como base de la mejora del objeto evaluado.
Estas tres formas de evaluación difieren en el grado de formalidad de los criterios y
estándares que utilizan, en la naturaleza externa frente a la interna de los
procedimientos de evaluación y en la orientación sumativa frente a la formativa que
emplean. En el caso de la certificación y acreditación, la evaluación tiene un alto grado
de formalidad; es sumativa y para desarrollarla se requieren estándares especificados
para certificar estudiantes o profesionales y para la acreditación de programas. La
rendición de cuentas requiere una evaluación formal de tipo externa con propósitos de
control, en la que se combinan los enfoques formativo y sumativo y se emiten juicios
en los que se prescriben acciones de sanción o recompensas en función de los
resultados obtenidos. En el aprendizaje de la organización, la evaluación es menos
formal y tiene carácter adaptativo; es más formativa que sumativa y se lleva a cabo
con propósitos de mejoramiento mediante procedimientos de evaluación interna.
ESTÁNDARES EDUCATIVOS
Como resultado del interés creciente por la evaluación, numerosos países, en particular
los más avanzados, han adoptado estrategias del establecimiento de estándares para
monitorear los resultados del sistema educativo a lo largo del tiempo (Tognolini y
Stanley, 2007). Esta forma de monitoreo se basa en la determinación del crecimiento o
avance de los estudiantes, en relación con resultados predeterminados para las
diferentes asignaturas del currículo.
Los estándares pueden ser definidos como criterios claros y públicos que establecen los
parámetros de lo que los alumnos pueden y deben saber y saber hacer en cada una de
las asignaturas de los planes de estudio correspondientes a los diferentes niveles
educativos. Los estándares constituyen una guía para que todas las instituciones
escolares del sistema educativo cuenten con un referente sobre la calidad de la
educación que se espera que ofrezcan a los alumnos y los resultados que deben
alcanzar para lograr dicha calidad. Asimismo, los estándares sirven como marco de
referencia para la actuación de profesores y directivos y para que los padres de familia
y la sociedad puedan solicitar a las escuelas y al sistema educativo la rendición de
cuentas sobre los resultados alcanzados.
Los estándares son afirmaciones explícitas del desempeño de los estudiantes que
describen niveles de logro dentro de un área particular de aprendizaje. El documento
"Standards, Assessment and Accountability" (Shepard, Hannaway y Baker, 2009) de la
Academia Nacional de Educación de los Estados Unidos de Norteamérica señala que es
necesario distinguir entre estándares de contenido y estándares de desempeño.
Mientras que los primeros se refieren al conocimiento y las habilidades que los
estudiantes deben adquirir en una asignatura particular, los segundos constituyen
ejemplos concretos y definiciones explícitas de lo que los estudiantes tienen que saber
y ser capaces de hacer para demostrar su pericia en las habilidades y el conocimiento
que están delineados en los estándares de contenido. Los estándares de desempeño se
representan de mejor manera a través de muestras del trabajo de los estudiantes, que
demuestran, por ejemplo, qué es lo que constituye calidad en un ensayo o plantean
cómo se puede demostrar el dominio que se espera.
En nuestro país se han establecido programas por competencias para los niveles de
educación preescolar, primaria y secundaria y para algunas modalidades y sistemas de
educación media y superior. Sin embargo, no se han establecido los criterios o
estándares a alcanzar en relación con las competencias propuestas. En algunas
asignaturas se han definido aprendizajes esperados, los cuales no alcanzan el estatus
de estándar en vista de que no se han establecido los criterios de logro de dichos
aprendizajes; por ejemplo, en la asignatura de Español de quinto grado se establece
que los niños aprendan a redactar informes. Sin embargo, no basta con señalar que
sean capaces de hacerlo, sino que se requiere mencionar, por ejemplo, el tipo de
informes o las características mínimas que deben presentar.
INDICADORES EDUCATIVOS
De acuerdo con Scheerens, Glass y Thomas (2005), los indicadores educativos son
estadísticos que permiten realizar juicios de valor sobre la pertinencia de los aspectos
clave del funcionamiento de los sistemas educativos; constituyen características
mensurables de éstos y aspiran a medir sus aspectos fundamentales. Proporcionan un
panorama de las condiciones actuales del sistema educativo, sin describirlo a fondo y
se espera que a través de ellos sea posible establecer inferencias acerca de la calidad
de la enseñanza. Debido a lo anterior, los indicadores educativos tienen, en general,
como punto de referencia un estándar contra el cual pueden efectuarse los juicios de
valor correspondientes.
Los indicadores educativos deben ser susceptibles de comparación a través del tiempo,
esto es, deben dar cuenta del progreso y los cambios en el desempeño de cierta
variable; en otras palabras, el indicador no sólo cumple una función informativa, sino
también evaluativa, pues se espera que, mediante ellos, sea posible determinar si
existen mejoras o deterioros en algunas variables del sistema educativo
(Morduchowicz, 2006). A este respecto, Kanaev y Tuijnman (2001), citados en
Morduchowicz (2006), señalan que, además de su función informativa, los indicadores
permiten construir nuevos enfoques y expectativas. Cabe destacar que los indicadores
no sólo proporcionan información considerando el contexto del sistema, sino que
facilitan el análisis de tendencias y la proyección de situaciones futuras del mismo
sistema.
De acuerdo con Ogawa y Collom (1998), los sistemas de indicadores pueden adoptar
dos características principales que hacen referencia al número de indicadores que
conforman un sistema: indicadores parsimoniosos y extensos. Estos últimos incluyen
un gran número de indicadores en su conjunto, y han sido criticados por resultar
inmanejables y complejos; por su parte, los parsimoniosos contienen un reducido
número de indicadores y las críticas que han recibido se relacionan, principalmente,
con su poca capacidad para dar cuenta con eficacia de la complejidad de fenómenos
que configuran al sistema educativo (Ogawa y Collom, 1998).
El sistema de indicadores educativos que publica la OCDE desde 1998 con el título
de Education at a Glance, constituye un ejemplo de un sistema de monitoreo que
pretende establecer comparaciones entre diferentes países respecto a la situación del
sistema educativo. Education at a Glance incluye las visiones más actuales sobre la
construcción y el cálculo de indicadores en diversos dominios educativos. Su
publicación ha generado una amplia red de especialistas y un conjunto relevante de
conocimientos (CERI, 1994), que ha impactado el desarrollo y la evolución de los
sistemas de evaluación y monitoreo en diversos países a escala mundial. En el
contexto nacional se ha iniciado un proceso semejante a partir de la publicación anual
del Instituto Nacional para la Evaluación de la Educación (INEE) denominada Panorama
educativo: indicadores del Sistema Educativo Nacional, que se edita desde 2003 para
presentar los resultados del diseño y la aplicación de un sistema de indicadores de
contexto, insumo, proceso y producto.
Aun cuando existe un acuerdo generalizado entre los evaluadores de que el propósito
de su práctica es determinar el valor de un objeto (Joint Committee on Standards for
Educational Evaluation, 1994), existe un considerable desacuerdo respecto de qué
significa valorar algo y cómo debe llevarse a cabo esta valoración. De aquí se
desprende la multiplicidad de propósitos, perspectivas y metas, así como de los
modelos utilizados para efectuar la evaluación (Donaldson y Scriven, 2003).
Este supuesto consenso respecto del propósito de la evaluación ha sido discutido por
algunos evaluadores, que señalan que su responsabilidad fundamental es la
descripción y explicación científica de las relaciones entre indicadores, y que el juicio
de valor no es responsabilidad de los evaluadores, sino de los interesados. Esta
perspectiva, denominada subjetivista o interpretativa, argumenta que los juicios de
valor no son más que expresiones de preferencias personales o políticas, así como
emociones o actitudes de individuos o grupos. Dichas expresiones deben distinguirse
de aquellas basadas en los hechos que describen y explican alguna situación. Los
hechos pueden ser debatidos y sus descripciones y explicaciones, juzgadas como
verdaderas o falsas (Schwandt, 2005), pero no puede establecerse qué valor tienen.
Por tanto, determinar la utilidad (efectividad–resultados) de un programa en función
del logro de los objetivos que se propone, es el único "juicio" que puede ser "objetivo",
porque la valoración descansa únicamente en los hechos.
Los defensores de la postura objetivista no están de acuerdo con la argumentación
anterior y plantean que un juicio de valor (tal programa es bueno, pobre, etcétera)
puede defenderse racionalmente. Dentro de la corriente objetivista existe un grupo
que sostiene que sí es responsabilidad del evaluador emitir un juicio de valor, una vez
que haya tomado en cuenta todos los aspectos que establecen el mérito, valía o
significatividad del objeto evaluado, mediante una identificación de necesidades, la
determinación del logro de estándares u objetivos del programa, o de comparaciones
con programas alternativos, entre otros (Wholey, 2004).
Dentro de la corriente objetivista, pero desde una postura crítica, House (1993) y
House y Howe (2001) señalan que la determinación del valor de un programa o política
no puede ser realizada únicamente por los evaluadores, sino de forma conjunta por
medio de algún tipo de procedimiento democrático o foro en el que los interesados y
los evaluadores discutan y deliberen acerca del valor del objeto evaluado y lleguen a
un consenso.
Madaus y Kellaghan (2000) mencionan que algunos autores han criticado la utilización
del término modelo para referirse a las alternativas o perspectivas de evaluación. La
crítica se fundamenta en el hecho de que estas perspectivas no cuentan con el nivel de
formalización que tienen algunos modelos en ciencia, como es el caso de los modelos
matemáticos. En respuesta y como defensa de la utilización del término modelo, los
autores argumentan que las definiciones comunes de los diccionarios plantean que un
modelo es una síntesis o abstracción de un fenómeno o proceso. Si se considera la
evaluación como un proceso, entonces los modelos de evaluación constituyen la forma
como un autor resume o conceptualiza la manera como debe efectuarse el proceso de
evaluación. Un modelo puede definirse también como una metáfora, y en ese sentido,
un modelo de evaluación puede concebirse como la metáfora o forma de pensar la
evaluación que tiene el autor del modelo. Cada modelo se orienta a responder ciertas
preguntas y, por tanto, para la elección de un modelo particular deben considerarse las
preguntas que se pueden responder a partir de su utilización y los recursos que se
tienen para responderlas. En situaciones de restricción presupuestaria es
recomendable elegir varios modelos que permitan recolectar las mejores evidencias
para responder las preguntas planteadas.
Madaus y Kellaghan (2000) sugieren también la posibilidad de combinar los datos
obtenidos mediante: 1) la aplicación de pruebas de rendimiento que se utilizan en el
modelo de evaluación orientado a las metas; 2) los recursos asignados, considerados
dentro del modelo orientado a las decisiones; y los 3) datos provenientes de
observaciones y entrevistas que típicamente se aplican en los modelos naturalistas.
Los autores afirman que la combinación de modelos constituye la mejor vía para
documentar la complejidad de los sistemas y programas educativos.
Tanto Payne (1994) como Hansen (2005) mencionan que los modelos básicos de
evaluación utilizados dentro de los dos enfoques se traslapan de forma significativa.
Aunque no existe un consenso en la literatura sobre la clasificación de los tipos y
modelos de evaluación que existen, es posible agruparlos en seis grandes categorías:
1) modelos de resultados; 2) modelos explicativos del proceso; 3) modelos
económicos; 4) modelos de actor; 5) modelos de teoría del programa; y 6) modelos
sistémicos (Hansen, 2005).
El modelo explicativo del proceso se centra, como su nombre lo indica, en los procesos
y esfuerzos. La evaluación de proceso se lleva a cabo de manera adecuada cuando se
realiza "en tiempo real", y es menos pertinente cuando ocurre a través de análisis
históricos. Los modelos económicos consideran al objeto de la evaluación –el programa
o la organización– como una caja negra que relaciona la evaluación de los resultados
(ya sea en forma de rendimiento de la producción, efectos o beneficios más duraderos)
con los insumos (entradas) (Hansen, 2005).
Todos los modelos tienen tanto fortalezas como debilidades, y la elección de alguno de
ellos corresponde, de acuerdo con Hansen (2005), a la decisión de elegir una
perspectiva del objeto de estudio. Al seleccionar un modelo, algunos aspectos del
objeto evaluado pueden ser enfocados claramente, mientras que otros se excluyen del
foco.
Estos indicadores, según Scheerens, Glass, y Thomas (2005), son en general definidos
en el nivel de los sistemas educativos nacionales, y se refieren básicamente a las
características de dimensión y estructurales del sistema educativo nacional. Algunos
ejemplos pueden ser: metas educativas y estándares por nivel educativo; edad relativa
de la población estudiantil; la estructura de las escuelas en el país, entre otros.
Recursos en educación
Dan cuenta de las características del entorno de aprendizaje, así como de los aspectos
de organización de la escuela. Algunos ejemplos son: los patrones de
centralización/descentralización del sistema; el tiempo de enseñanza por asignatura; la
proporción del presupuesto total dedicado a la educación en relación con reformas a
programas específicos; la inversión y los arreglos estructurales para el monitoreo y la
evaluación del sistema educativo, entre otros.
Calidad de la educación
Resulta evidente que el número de indicadores debe tomar en cuenta los rangos que
se establecen en la literatura, sin que esto se convierta necesariamente en una regla
de oro que no debe ser quebrantada. Al tomar la decisión del número de indicadores a
incluir, se debe también considerar el contexto particular en el que se inscribe el
sistema, y en función de éste, precisar el número de indicadores que lo constituirán.
La confiabilidad tiene que ver con la calidad de las medidas e implica el supuesto
básico de que los datos serán obtenidos en cada ocasión a lo largo de repetidas
observaciones del mismo fenómeno. Por su parte, la validez se refiere a si lo que se
está midiendo refleja de manera precisa el concepto que se pretende medir.
Uno de los principales criterios para seleccionar indicadores es que éstos sean
políticamente relevantes, lo cual permitirá que el sistema de indicadores incluya
aspectos cruciales, tanto para las políticas como para los programas. En este mismo
sentido, es de suma importancia que los indicadores produzcan información útil en los
ámbitos local, estatal y nacional; es decir, deben respetar la autonomía y, al mismo
tiempo, ser sensibles para discernir entre definiciones locales y nacionales.
Por último, de acuerdo con lo que plantean Ogawa y Collom (1998), estos criterios no
constituyen una receta que deberá seguirse al pie de la letra; son tan sólo una guía
que puede orientar el proceso de selección de indicadores y deben, por tanto, utilizarse
en concordancia con esta idea.
Aunque el diseño y uso de los indicadores cuenta con una amplia aceptación entre
teóricos, investigadores, prácticos y políticos de la educación, este enfoque no está
exento de críticas. Para Lashway (2001), por ejemplo, aunque los indicadores
encierran la promesa de un mejoramiento del proceso de toma de decisiones, pueden
con facilidad provocar confusión. Un peligro latente es la recolección indiscriminada de
datos; esto no sólo involucra dinero y esfuerzo, sino que puede atrapar a quienes
toman las decisiones en un mar de números, lo cual hace difícil que puedan distinguir
lo importante de lo trivial.
Darling–Hammond y Ascher (1991) plantean que las cifras nunca hablan por sí
mismas, sino que necesitan una cuidadosa interpretación. Por ejemplo, cuando se
observan incrementos en resultados de logro educativo, no se puede de inmediato
concluir que se deben a una mejora de la instrucción, ya que existen factores que
pudieron influir. Un caso es que los educadores, enfrentados con la necesidad de
mejorar las cifras, pudieran tentarse a reemplazar contenidos relevantes con
actividades orientadas a la preparación para rendir las pruebas; podrían también
excluir a los estudiantes con necesidades educativas especiales en los momentos de
las evaluaciones; o incluso podrían cometer fraude.
Darling Hammond y Ascher (1991) hacen notar que los indicadores simplemente
proveen información para el sistema, pero que no importa cuán sofisticados sean los
datos recolectados, nunca podrán sustituir al juicio humano informado.
COMENTARIOS FINALES
Aun cuando todos los tipos de indicadores pueden resultar relevantes para la toma de
decisiones en materia educativa, son los indicadores de proceso los que pueden
revestir una importancia mayor, en primer lugar porque permiten observar lo que
sucede en la "caja negra" de la escolarización. Asimismo, tal como señalan Scherens,
Glass y Thomas (2005), los indicadores de proceso son interesantes desde el punto de
vista de la política, la gestión y la administración, ya que se refieren a condiciones que
son maleables y éstas pueden convertirse en el tema de políticas activas para mejorar
la educación.
Los autores opinan que los indicadores de proceso deberían seleccionarse en función
de que demuestran asociaciones positivas entre su instrumentación y los resultados
educativos. Lo ideal sería que los indicadores del proceso fueran capaces de predecir
los resultados, y considerarlos como "funciones de producción de la educación"; es
decir, como instrumentos en "proceso" o en condiciones de predecir los incrementos de
los resultados de acuerdo con una función exacta.
Cabe señalar que los indicadores utilizados hasta el momento en nuestro país no han
sido sensibles a resultados como los mencionados por Hirsch (1999), quien afirma que
"… pequeños incrementos en el aprendizaje temprano de la lengua pueden producir
enormes consecuencias más adelante" (p. 146). El autor plantea que los niños en edad
preescolar que llegan a la escuela con un vocabulario muy estrecho, y por tanto con
una base de conocimientos muy limitada y este déficit no se compensa pronto, es casi
imposible que logren las habilidades requeridas en grados posteriores, a pesar de que
se inviertan esfuerzos importantes en programas de remedio. Las habilidades orales
constituyen el fundamento de las habilidades de lectura y escritura. Si el vocabulario
oral–sonoro y la comprensión de este vocabulario no se desarrollan de forma correcta
y amplia durante etapas tempranas previas a la escolarización, tampoco se
desarrollarán las habilidades de lectura y escritura de modo apropiado.
Los sistemas de evaluación pueden contribuir a estos fines apoyando los sistemas
educativos en la definición más clara de sus metas y en el establecimiento de sistemas
de información que permitan monitorear adecuadamente el sistema y evaluar su
impacto en el corto, mediano y largo plazos.