Tesisi Analisis
Tesisi Analisis
Tesisi Analisis
Presenta:
Andrés Villanueva Manjarres
Cod: 1310020763
Asesor Temático
MSc. Luis Gabriel Moreno Sandoval
Bogotá, 2016
1
ÍNDICE GENERAL
1. INTRODUCCIÓN ..................................................................................................... 7
1.1 Objetivo General ........................................................................................................ 8
1.1.1 Objetivos Específicos ..................................................................................................... 8
1.2 Justificación................................................................................................................ 8
1.3 Planteamiento del problema....................................................................................... 9
3
ÍNDICE DE TABLAS
Tabla 1. Abandono de estudios por semestre. ............................................................................ 10
Tabla 2. Trabajos aceptados en las International Conference on Educational Data Mining ....... 19
Tabla 3. Consolidado de trabajos revisados por técnicas de minería de datos ........................... 23
Tabla 4. Clasificación de trabajos por dominios presentes en la educación................................ 25
Tabla 5. Datos relevantes para el desarrollo del caso de estudio................................................ 29
Tabla 6. Tabla archivos con datos utilizados en el caso de estudio ............................................. 31
Tabla 7. Número de estudiantes por programas seleccionados para el análisis ......................... 32
Tabla 8. Datos utilizados para el caso de estudio ........................................................................ 32
Tabla 9. Lista de características con valores nulos....................................................................... 34
Tabla 10. Análisis de atributos relevantes ................................................................................... 36
Tabla 11. Atributos relevantes en los conjuntos de datos ........................................................... 37
Tabla 12. Distribución de datos para entrenamiento, validación y pruebas ............................... 37
Tabla 13. Precisión detallada IBk sede Cundinamarca................................................................. 41
Tabla 14. Precisión detallada IBk facultad Ingeniería .................................................................. 41
Tabla 15. Precisión detallada OneR sede Cundinamarca ............................................................. 42
Tabla 16. Precisión detallada OneR facultad Ingeniería .............................................................. 42
Tabla 17. Clasificaciones por algoritmos sede Cundinamarca ..................................................... 46
Tabla 18. Clasificaciones por algoritmos facultad de Ingeniería .................................................. 46
4
ÍNDICE DE FIGURAS
Figura 1. Modelo de Atención Integral al Estudiante MAIE. ........................................................ 12
Figura 2. Tipos de entornos y sistemas educativos tradicionales y basados en computadoras .. 13
Figura 3. Clasificación técnicas minería de datos......................................................................... 14
Figura 4. Principales áreas involucradas en la minería de datos para la educación .................... 15
Figura 5. Publicaciones sobre EDM registradas en SCOPUS y ScienceDirect. .............................. 17
Figura 6. Metodología de la investigación ................................................................................... 20
Figura 7. Clasificación de trabajos por dominios presentes en la educación .............................. 26
Figura 8. Fases del modelo de referencia CRISP-DM ................................................................... 28
Figura 9. Deserción estudiantil por metodología de la sede de Cundinamarca .......................... 29
Figura 10. Datos deseados para el análisis de deserción y datos obtenidos ............................... 31
Figura 11. Árbol J48 estudiantes sede Cundinamarca ................................................................. 38
Figura 12. Árbol J48 estudiantes facultad Ingeniería 6 atributos relevantes .............................. 39
Figura 13. Árbol J48 estudiantes facultad Ingeniería 31 atributos .............................................. 40
5
RESUMEN
Este trabajo se desarrolló con el fin de implementar algunas técnicas de minería de datos que
nos permitieran identificar patrones de deserción en estudiantes de una institución educativa en
Colombia. El fundamento teórico para el desarrollo del caso de estudio fue una revisión de
literatura de técnicas de minería de datos aplicadas en entornos educativos, dicha revisión de
literatura nos dio las pautas para el diseño y la implementación del caso de estudio a fin de
obtener los patrones de deserción en la institución seleccionada, objetivo principal del trabajo.
ABSTRACT
This work was developed in order to implement some data mining techniques that allow us to
identify patterns of dropout students in an educational institution in Colombia. The theoretical
foundation for the development of the case study was a literature review of techniques of data
mining applied in in educational environments, the literature review gave us the guidelines for
the design and implementation of the case study looking to obtain patterns desertion in the
selected institution, the main objective of the work.
PALABRAS CLAVE
Minería de datos para la educación, Minería de datos, Sistemas educativos, Clasificación, Weka.
KEY WORDS
Educational Data Mining, Data mining, Educational Systems, Clasification, Weka.
6
1. INTRODUCCIÓN
El fenómeno de la deserción es una realidad que deben enfrentar todos los actores del sector
educativo, principalmente aquellos vinculados al nivel de la educación superior pues este es,
según el Ministerio de Educación Nacional de Colombia el que tiene más altos índices de
deserción.
Son notables los múltiples trabajos que se han adelantado para analizar esta problemática desde
diferentes perspectivas, una de ellas el análisis de los datos asociados a los procesos educativos,
los cuales buscan identificar patrones que faciliten la detección de aquellos estudiantes en riesgo
de deserción con el fin de establecer políticas que puedan llevar a las instituciones educativas a
reducir los índices de deserción, situación que favorecería tanto a los estudiantes como a las
propias instituciones.
El mundo actual es muy diferente de aquel en el que empezamos a vivir hace unas décadas, la
cantidad de información generada, los diversos medios que producen datos, las disciplinas en las
que nos podemos desempeñar, en fin, el mundo ha cambiado y de manera adaptativa nosotros
lo hemos hecho con él. En este cambio la toma de decisiones es una actividad que cada vez se
hace esperar menos, especialmente cuando estas decisiones son definitivas para el futuro de las
organizaciones. En escenarios educativos, uno de los principales objetivos es conseguir que los
estudiantes permanezcan en sus programas académicos hasta la finalización de estos y la
reducción en los índices de deserción. Es aquí donde la Minería de Datos para la Educación o
Educational Data Mining (EDM) por sus siglas en ingles aportan un valor fundamental en las
instituciones educativas.
¿Cómo negar las múltiples ventajas y facilidades que ofrece la tecnología actualmente?, ¿cómo
ocultar la importancia que Internet brinda de manera general?, ¿cómo ocultar el crecimiento e
importante penetración de internet en todos los escenarios de la vida y de todos nosotros?[1].
La educación no es la excepción a los cambios que se están dando, los modelos educativos han
cambiado, la manera de enseñar y de acceder al aprendizaje ha experimentado modificaciones
significativas, los modelos de aprendizaje cambian día a día y sin duda la forma en la que los
estudiantes interactúan con los recursos de aprendizaje y la influencia que tiene las redes
sociales en los procesos de educación son cada vez más significativas [2].
La elaboración del presente trabajo busca integrar dos paradigmas, educación y minería de
datos, para ello se adelantó una revisión de literatura de técnicas de minería de datos aplicadas
a entornos educativos, y con base en la revisión realizada se seleccionarán algunas técnicas de
minería de datos que se aplicarán con el fin de identificar riesgos de deserción en estudiantes de
programas de educación superior en una institución colombiana. El desarrollo del presente
7
trabajo busca aportar elementos que apoyen la toma de decisiones respecto a las estrategias
para reducir los niveles de deserción en la institución de educación superior seleccionada.
1.2 Justificación
Los actores que toman decisiones y planifican día a día las actividades en las instituciones
educativas deben disponer de manera constante de la información en la cual se puedan
fundamentar sus decisiones, por otra parte, los actores que participan en los diferentes procesos
educativos deben contar con esta información para poder evaluar el desempeño de las
actividades realizadas. En general, todos los usuarios que tiene roles estratégicos en las
organizaciones educativas necesitan disponer de información tanto consolidada como detallada
de las actividades asociadas a los estudiantes, predecir tendencias y comportamientos de estos
y adelantar actividades orientadas a los objetivos estratégicos de las instituciones.
Debido al interés que está generando la minería de datos educativa en diferentes entidades y al
creciente número de investigadores resulta muy pertinente utilizar como base las
investigaciones realizadas anteriormente para lograr identificar las técnicas de minería de datos
que permitan identificar riesgos de deserción en estudiantes de programas virtuales de
8
educación superior y adelantar un caso de estudio en una institución de educación superior de
Colombia.
Por otra parte, el crecimiento de la minería de datos en los últimos años es muy significativo [4],
tanto que hoy en día existen diferentes sistemas que permiten hacer minería de datos, pero no
existen herramientas desarrolladas o metodologías definidas específicamente para educación y
estas son requeridas debido a la especificación de los actores y el objetico que se busca. El
desarrollo de un modelo para implementar EDM en los programas formación virtual estaría
totalmente enfocado en un problema histórico de la enseñanza, ¿cómo conseguir un incremento
importante en el aprendizaje de todos los estudiantes? y para ello se tendría como soporte las
ventajas que la tecnología actual nos ofrece.
9
2. MARCO TEÓRICO
2.1 Deserción
La presente sección no busca profundizar los aspectos relacionados con la deserción, tampoco
ser un referente en cuando a la deserción de estudiantes de programas de educación superior,
sin embargo, con el fin de delimitar el contexto en el que se elaborará el presente trabajo, en
esta sección se presentarán de manera general los elementos que permiten entender el
fenómeno de la deserción especialmente aquellos relacionados con los programas de educación
superior.
De manera general, la deserción es considerada como el abandono temporal o definitivo del aula
de clase por parte de los estudiantes, de los programas académicos para las cuales se
matricularon[5], [6]. En Colombia, en 2013, la deserción en el nivel universitario alcanzó el
44.9%, en el nivel técnico alcanzó 62.4% y en el nivel y tecnológico alcanzó el 53.8% [3], niveles
que superaron ampliamente los registrados en el año 2013. Cifras bastante alarmantes para
todos los actores del sector educativo colombiano. En el caso de la educación superior, y
analizando el “momento” en el que los estudiantes abandonan sus estudios se ha encontrado
que estos abandonan principalmente durante los primeros semestres de sus carreras [6] como
se puede ver a continuación:
10
Decimo 5%
Fuente: Ministerio de Educación Nacional. [7]
Según un artículo publicado por el Ministerio de Educación nacional en el año 2010, el fenómeno
de la deserción se presenta por tres aspectos fundamentales, el rendimiento, el cual hace
referencia al conocimiento adquirido por los estudiantes durante la educación básica y media; la
capacidad económica; y la orientación vocacional de los estudiantes [7].
11
Figura 1. Modelo de Atención Integral al Estudiante MAIE.
Componente 1: Componente 2: Componente 3: Componente 4:
Permanencia Articulación
Preparación Acceso Desempeño con
para el ingreso focalizado Académico el sector
Componente 1
Graduación productivo
VOCACIONAL
Adaptación al
Contacto primer Aprestamiento
SOCIAL Y
Académica
del bachiller
Financiación
Generación de
ECONÓMICA Y
Ampliación Contacto
Gestión
primer Aprestamiento
FINANCIERA
ingresos en
Cultura Oferta de adecuada
Empleo del
del Para la
época de
Dimensión 3:
Fuente: ICETEX
https://www.icetex.gov.co/dnnpro5/es-co/iesycooperativas/modelodeatenci%C3%B3nintegral.aspx
12
2.5 Educación basada en Computador
La Educación basada en Computador es el uso de Computadores para proporcionar dirección,
instruir o gestionar las instrucciones dadas al estudiante.
Educación
Tradicional
Educación basada
Educación
en computador
Primaria
Educación Sistema de
Infantil Sistema
gestión de
aprendizaje inteligente
Educación de tutorías
Alternativa
Sistema de
pruebas y Sistemas
Educación hipermedia
evaluación
Superior adaptativos e
Repositório de OA,
inteligentes
Educación wikis, foros, juegos,
Secundaria ambiente ubíquos,
etc.
13
identificación válida, novedosa, potencialmente útil y entendible de patrones comprensibles que
se encuentran ocultos en los datos [12]. La minería de datos también es vista como la evolución
de las tecnologías de la información [13], esto en gran medida apalancado por el crecimiento de
internet que ha tomado gran relevancia en los últimos años [1][14].
Regresión
Modelos de elección discreta
Modelización Análisis de la varianza
Predictivas
Análisis Canónicos
Redes Neuronales
Técnicas de Minería
Discriminante
Clasificación ad hoc Árboles de Decisión
Clustering
Clasificación post hoc
Segmentación
Descriptivas
Asociación
Dependencia
Reducción de la dimensión
Análisis exploratorio
Fuente: Minería de datos conceptos, técnicas y sistemas [15]
Estas fases se desarrollan indistintamente de la técnica de minería de datos que se presenta usar
y en escenarios educativos no es la excepción. En general todas las técnicas han sido probadas
en el ámbito educativo[17], y se han adelantado diferentes casos de estudio para evaluar el
desempeño de las diversas técnica en escenarios educativos. Todos los casos de estudio han sido
adelantados con el fin de satisfacer el principal objetivo de la Minería de datos para la educación,
el cual busca identificar patrones de comportamiento de los alumnos en su entorno académico;
14
clasificar los tipos de alumnos de acuerdo al rendimiento registrado; clasificación de docentes de
acuerdo a las actividades desarrolladas y el uso de las plataformas; identificación de patrones
exitosos en el uso de las ambientes virtuales de aprendizaje entre muchos otros.
La minería de datos en educación puede analizar los datos generados por cualquier sistema de
aprendizaje y enfocarse en diversos aspectos tanto individuales como grupales y tener en cuenta
datos subyacentes; datos administrativos, datos demográficos, datos motivacionales que a su
vez contienen múltiples niveles de jerarquía, contextos, niveles de granularidad y datos
históricos. Se llama interdisciplinaria a la minería de datos en educación por que puede involucrar
el análisis de redes sociales, psicopedagogía, psicología cognitiva, psicometría entre otras.
Ciencias de la
Computación
Educación basada en DM y Aprendizaje de
computador Maquina
EDM
Educación Analítica de Estadística
Aprendizaje
15
El campo más relacionado de las áreas del gráfico es Learning Analytics (Análisis del Aprendizaje)
que se puede definir como la medición, recopilación, análisis y presentación de informes de
datos sobre los estudiantes y sus contextos, para fines de la comprensión y el aprendizaje y la
optimización de los entornos en los que se produce, por tanto, la Minería de Datos para
Educación puede compartir muchos atributos entre todas y cada una de las áreas que la rodea
[10].
Los tipos de ambientes educativos que existen hoy día y que pueden ser explorados y analizados
por la Minería de Datos Educativa son la Educación tradicional y la Educación basada en
Computador. Cada uno de estos dos ambientes proporciona datos de diferentes fuentes que
deben ser pre-procesados de maneras particulares dependiendo de la naturaleza de cada uno
de ellos, los problemas y las tareas específicas a ser resueltas [10].
2.7.1 Antecedentes
Históricamente el proceso de enseñanza ha buscado incrementar las fortalezas de los profesores
y principalmente maximizar el aprendizaje de los estudiantes. Hoy en día la educación se apoya
de manera muy fuerte en la tecnología, especialmente en sistemas de enseñanza apoyados en
WEB. La cantidad de datos que se almacenan en estos sistemas y en los sistemas tradicionales
es cada vez mayor, así mismo la complejidad de analizar estos datos también se ha
incrementado.
La minería de datos es un área que cada vez se aplica con mayor fuerza en más áreas como por
ejemplo gobierno, empresa, educación, investigación espacial, deportes, análisis de textos,
internet y muchas otras [16] y en los últimos años en el análisis de sistemas de e-learning con el
fin de obtener mejores resultados en el proceso de aprendizaje de los estudiantes. En este
proceso ha nacido una nueva área dedicada a realizar minería de datos en educación, es decir,
implementación de técnicas de minería de datos a información registrada en entornos
educativos. En relación a esta área que se ha denominado EDM (Educational Data Mining) a
continuación se presentan los principales hitos.
Los primeros papers que se enfocaron en EDM se publicaron en 1995, año en el que se publicaron
3 papers, a partir de este año el número de papers publicados en conferencias y revistas ha
crecido de manera importante. Para ello se han consultado algunas de las principales bases de
datos bibliográficas de artículos de investigación o científicos.
16
Figura 5. Publicaciones sobre EDM registradas en SCOPUS y ScienceDirect.
140
120 123
100 102
80
72
60 60
53 52
40 41
27
20 12 18 21
7 5 6 15 12
3 5 7
0 2
0 0 0 0 2
Publicaciones SCOPUS:
o 1993: 3
o 2015: 97
Publicaciones ScienceDirect
o 2007: 2
o 2014: 27
o 2015: 52
18
Tabla 2. Trabajos aceptados en las International Conference on Educational Data Mining
Papers Posters
Costos Largos
International Conference on
1 – 2008 17 5
De acuerdo a la lista de líneas de investigación futura se encuentran dos que le dan completa
pertinencia al desarrollo de este trabajo, Minería de datos en aplicaciones Open Source y
Aplicación de técnicas de minería de datos en dominios específicos.
1 http://educationaldatamining.org/EDM2016/
19
3. MARCO METODOLÓGICO
Mediante el desarrollo de este trabajo se pretende realizar una investigación que permita
identificar las técnicas de minería de datos se han implementado en escenarios educativos y
aplicar las técnicas que una vez evaluadas permitan identificar riesgos de deserción en
estudiantes de programas de educación superior en una institución colombiana.
En desarrollo del presente trabajo está dividido en tres fases principales, las cuales son: 1.
Documentación general del proyecto, 2. Diseño del caso de estudio y 3. Implementación del caso
de estudio.
20
El entregable que se espera producir como resultado de las actividades adelantadas en la fase 1
es un paper de revisión de las técnicas de minería de datos utilizadas para el análisis de datos de
entornos o dominios educativos.
El entregable que se espera producir como resultado de las actividades adelantadas en la fase 2
es la presentación del diseño del caso de estudio de los involucrados en la institución educativa.
El entregable que se espera producir como resultado de las actividades adelantadas en la fase 3
es el paper resultado de la ejecución del caso de estudio.
21
4. DESARROLLO E IMPLEMENTACIÓN
Análisis de Correlación
Arboles de decisión
Arboles de Regresión
Cadenas de Markov
Clasificación
Clustering
Differential Sequence Mining
Patrones Secuenciales
Redes Bayesianas
Redes Neuronales
Reglas de asociación
22
Regresión Lineal
Los trabajos analizados en la revisión de literatura están asociados a las diferentes técnicas de
minería de datos, en algunos casos el mismo paper utilizó diferentes técnicas, el paper es
clasificado en tantas técnicas como haya utilizado para considerar todas las perspectivas
utilizadas por los diferentes actores. En la tabla No. 3 se presentan todos los trabajos asociados
a las técnicas enunciadas anteriormente.
23
De acuerdo a los trabajos analizados en la revisión de literatura se pudo identificar que las
técnicas más utilizadas para analizar situaciones relacionadas a entornos educativos son Reglas
de asociación con un 24,8%, seguido de Clustering con 18% y Arboles de decisión con 17%, de
otra parte, las técnicas menos utilizadas son Differential Sequence Mining, cadenas de Markov y
Arboles de Regresión cada una con un solo trabajo lo cual corresponde a un 0,62%.
En la siguiente figura se presenta la gráfica del número de trabajos analizados por técnicas de
minería de datos
29 28
18 17
11 11
2 2 1 1 1
El análisis de técnicas utilizadas es importante para el desarrollo de las fases 2 y 3 del trabajo ya
que la revisión de la literatura son los soportes para el desarrollo de las siguientes actividades.
Es importante precisar que para las fases 2 y 3 serán tenidas en cuenta especialmente las técnicas
que se han utilizado en el dominio de la deserción, independientemente de que sean las más
utilizadas de manera general en EDM.
24
Análisis de OVA o EVA: aquellos trabajos en los cuales se han analizado objetos virtuales
de aprendizaje OVA o entornos virtuales de Aprendizaje EVA
Análisis de Rendimiento o Evaluación de estudiantes: Trabajos en los cuales el uso de
técnicas de minería de datos se orientó a analizar el rendimiento de los estudiantes o las
evaluaciones realizados a estos durante los cursos presenciales o virtuales.
Generación de Recomendaciones: dominio en el cual se asociaron los trabajos que
generaron recomendaciones a ser usadas durante el proceso educativo.
Identificación de patrones de aprendizaje: análisis de datos de entornos educativos que
permitieron identificar patrones de aprendizaje a ser usados por las instituciones
educativas o instructores.
Identificación de patrones en estudiantes: análisis de datos de entornos educativos que
permitieron identificar patrones en los estudiantes.
Predicción relacionada a estudiantes: en este dominio se encuentran los trabajos que
permitieron realizar predicciones relacionadas a los estudiantes, predicciones en notas
finales, desempeño, comportamiento en cursos específico, etc.
En la siguiente tabla se presentan los trabajos relacionados a cada uno de los dominios
presentados anteriormente.
25
De acuerdo a la clasificación realizada, pudimos identificar que la mayor parte de los trabajos de
EDM publicados entre el año 1993 y 2015 se orientaron a la identificación de patrones de
aprendizaje con un 21%; seguido de análisis de OVA y EVA con un 19% e identificación de
patrones en estudiantes con un 17,8%. Los dominios con menor número de trabajos publicados
son, análisis de rendimiento de estudiantes con un 12%, generación de recomendaciones con un
10% y por último, el dominio que tiene menor porcentaje de trabajos realizados es el de Análisis
de Deserción o Retención que tan solo se analizaron 6 trabajos los que corresponden al 4,6%.
En la siguiente figura se presenta la gráfica del número de trabajos de EDM por trabajos por
dominios.
20 18
16
15 13
10
6
5
0
En el resultado obtenido de los trabajos asociados a los dominios de datos se puede evidenciar
que el dominio con el menor número de trabajos es el de Análisis de deserción o retención, lo
cual llama especialmente la atención porque el fenómeno de la deserción es una de las
situaciones más analizadas en los entornos educativos, sin embargo, de acuerdo a la revisión
realizada, no han sido muchos los análisis al fenómeno de la deserción a partir de la
implementación de técnicas de minería de datos.
26
Tabla 3. Técnicas de minería de datos utilizadas por dominios educativos
Predicción relacionada a
patrones de aprendizaje
patrones en estudiantes
Análisis de Rendimiento
Análisis de Deserción o
Recomendaciones
Identificación de
Identificación de
o Evaluación de
Generación de
estudiantes
estudiantes
Educativas
Retención
Técnica \ Dominio
Análisis de
Correlación 1 1
Arboles de decisión 5 3 8 2 2 6 2
Arboles de Regresión 1
Cadenas de Markov 1
Clasificación 4 2 4 3 1 3
Clustering 7 3 5 3 9 2
DSM 1
Patrones
Secuenciales 4 1 1 7 3 2
Redes Bayesianas 2 1 1 1 6
Redes Neuronales 1 2 2 1 5
Reglas de asociación 8 1 7 14 9 1
Regresión Lineal 1 1
Fuente: Elaboración propia
Esta tabla busca ofrecer al lector un panorama general de las técnicas usadas en los dominios
EDM identificados previamente. Si bien en el desarrollo de las fases 2 y 3 solo se tendrán en
cuenta las técnicas aplicadas en análisis de deserción esta información es útil para aquello que
deseen aplicar técnicas en entornos educativos.
27
Figura 8. Fases del modelo de referencia CRISP-DM
La sede Cundinamarca comenzó su operación en el año 2000 con dos centros regionales,
Girardot (2000) y Soacha (2002). En abril de 2014 la sede de Cundinamarca era la que tenía el
mayor número de estudiantes con 15.447 lo cual correspondía al 20% de toda la población
estudiantil [27].
Distancia Presencial
Es importante precisar que los datos listados en la tabla anterior son aquellos datos relevantes
para el análisis de la deserción, sin embargo, contar con todos estos datos implica un
levantamiento de información que requiere una preparación logística y tiempo significativo por
parte de la institución académica. Debido a que muchos datos no los tenía la institución
académica, se diseñó una encuesta para obtener la totalidad de los datos pero el levantamiento
de esta información no se ha finalizado. A continuación se presenta una gráfica que muestra el
número de datos deseados versus los datos obtenidos para el desarrollo del caso de estudio.
30
Figura 10. Datos deseados para el análisis de deserción y datos obtenidos
30
25
25
20
20
15
15
10 8
5 3 2
0
Socio-Vocacional Académicos Financieros
Deseados Obtenidos
Por esta razón el caso de estudio se diseñó con los datos a los que se pudo acceder, los cuales
fueron entregados por la institución educativa en 26 archivos distribuidos de la siguiente
manera:
Los valores que se toman para la característica “Desertó” son asignados a partir de la definición
y clasificación manejada por la entidad la cual es: “Desertor es todo aquel estudiante que no
presenta matricula durante dos periodos consecutivos o más al momento de generar el
consolidado”.
Para todos los estudiantes se estructuró un datawareHouse con las siguientes características
33
Las características marcadas con “*” se crearon a partir de las características iniciales. Así mismo,
en la fase de desratización, todos los resultados Icfes se cambiaron de los valores numéricos (de
0 a 100) a un formato nominal con el fin de facilitar el análisis de los datos, este procedimiento
también se realizó para la característica Porcentaje créditos aprobados y Promedio Acumulado.
Los valores utilizados en la etapa de desratización fueron:
Icfes:
Menor o igual a 30: Bajo
Mayor a 30 y menor o igual a 45: Medio Bajo
Mayor a 45 y menor o igual a 70: Medio Alto
Mayor a 70: Alto
Promedio Acumulado
Menor o igual a 2: Bajo
Mayor a 32 y menor o igual a 3: Medio Bajo
Mayor a 3 y menor o igual a 4: Medio Alto
Mayor a 4: Alto
Por otra parte, se validó la calidad de los datos eliminando aquello en los que se tenían valores
que superaban los límites admitidos o clasificados de manera incorrecta. Con los datos restantes
se hizo un análisis de valores obteniendo los siguientes resultados.
34
* Edad admisión programa 0 0% 317
* Edad inscripción materias 0 0% 322
Estado civil 7 0% 7
Etnia 18 0% 21
Departamento Nacimiento 0 0% 32
Ciudad Nacimiento 0 0% 619
Departamento actual 0 0% 19
Ciudad actual 0 0% 272
* Departamento de nacimiento 0 0% 2
Vs Departamento actual
* Municipio nacimiento Vs Lugar 0 0% 2
actual
Créditos inscritos 408 2% 254
Créditos aprobados 408 2% 195
* Porcentaje Créditos 415 2% 4
Aprobados
Promedio acumulado 12 0% 4
Promedio Icfes 0 0% 3
Matemáticas Icfes 0 0% 4
Biología Icfes 755 4% 4
Filosofía Icfes 894 5% 4
Física Icfes 778 4% 4
Lenguaje Icfes 39 0% 4
Inglés Icfes 3331 18% 4
Química Icfes 770 4% 4
Ciencias Sociales ICFES 4765 26% 4
Desertor 0 0% 2
Fuente: Elaboración propia
Para el caso en el que los valores nulos o vacíos de las variables eran bajos (menos del 20%) se
procedió a aplicar la técnica imputación por moda, esta técnica sugiere reemplazar los datos
faltantes faltante de acuerdo a la moda de un grupo apropiadamente definido de valores
disponibles [28]. Para la variable que tiene más del 20% de valores perdido se decidió eliminar la
variable pues aplicar alguna técnica de imputación puede incrementar la probabilidad de errores.
En consecuencia después de aplicar la técnica de imputación de moda y la eliminación de variable
los valores vacíos se deja en cero.
Es importante precisar que la generación de nuevos atributos se realizó una vez integrador todos
los datos en el datawarehouse. En total se crearon seis nuevos atributos considerados relevantes
para analizar el fenómeno de la deserción, estos fueron:
En el Anexo 01 se presenta el detalle de los datos con los cuales se adelantó el caso de estudio,
en dicho documento se presenta el tipo de dato, el número de datos perdidos, y el detalle de
cada uno según el tipo.
Debido al número de atributos que se tiene (33) y con el fin de identificar aquellos que son más
relevantes en el análisis de la deserción de los dos conjuntos de datos disponibles se realizó una
selección de atributos, los métodos de análisis de atributos se presenta a continuación
El resultado del análisis de atributos relevantes permitió identificar aquellos significativos para
el análisis de la deserción. El mismo análisis se realizó al datawarehouse con los valores vacíos
36
obteniendo resultados muy similares. En la siguiente tabla se presenta el resultado de este
análisis.
4.3.2 Modelado
En la fase de modelado se realizaron las actividades que permitieron aplicar las técnicas de
minería de datos seleccionadas a los datos preprocesados.
A partir de los datos disponibles se realizó una distribución de estos con el fin de generar los
grupos de entrenamiento, validación y pruebas a continuación se presenta la distribución de
datos en estos grupos:
De acuerdo a lo anterior, los datos se han distribuido en seis archivos, tres para el análisis de los
estudiantes de la sede Cundinamarca y tres para el análisis de los estudiantes de la facultad de
37
ingeniería. Una vez definidos las técnicas de minería de datos, preprocesado, seleccionadas los
atributos más relevantes y preparados los conjuntos de datos se ejecutaron las técnicas de
minería de datos, esta actividad implicó múltiples ciclos y ajustes en los datos con el fin de
conseguir un modelo que ofreciere altos niveles de confianza.
Los resultados obtenidos aplicando las técnicas seleccionadas para los 6 atributos seleccionados
se presentan a continuación, es de aclarar que los resultados obtenidos se aplicaron a los datos
de entrenamiento respectivamente y posteriormente se validaron estos resultados con los datos
de pruebas.
Algoritmo J48
No. total de instancias: 3607
No. de atributos: 7 (Tipo Est., Inicia Materias Cuando Se Inscribe al Programa, Créditos Inscritos,
Créditos Aprobados, % Créditos Aprobados, Promedio, Desertó)
Correctamente Clasificados: 2820 (78,18%)
Incorrectamente Clasificado: 787 (21.81%)
Tiempo construcción del Modelo: 0,03 segundos
38
Resultado árbol de decisión Facultad Ingeniería
Uno de los análisis realizados fue el análisis de los estudiantes inscritos en programas largos de
la facultad de ingeniería el árbol resultado de aplicar el algoritmo J48 a los 6 atributos relevantes
se presenta a continuación:
Algoritmo J48
No. total de instancias: 656
No. de atributos: 7 (Tipo Est., Inicia Materias Cuando Se Inscribe al Programa, Créditos Inscritos,
Créditos Aprobados, % Créditos Aprobados, Promedio, Desertó)
Correctamente Clasificados: 471 (71,79%)
Incorrectamente Clasificado: 185(28.20%)
Tiempo construcción del Modelo: 0,07 segundos
Así mismo y con el fin de verificar la pertinencia de los atributos seleccionados como relevantes
se corrió el modelo del árbol para los datos de la facultad de ingeniería, pero aplicado a los 29
atributos obtenidos. Lo cual nos dio como resultado lo siguiente:
39
Figura 13. Árbol J48 estudiantes facultad Ingeniería 31 atributos
Algoritmo J48
No. total de instancias: 656
No. de atributos: 29 (Tipo Est., Sede, Nivel, Programa, Jornada, Inicia Materias Cuando Se Inscribe
al Programa, Periodos de ingreso después de Matricula en la U, Estrato, SISBEN, Genero, Edad
Admisión, Edad Inscripción Materias, Estado Civil, Etnia, Mismo Dpto Nacimiento Ubicación,
Nacimiento Vs Ubicación - Municipio, Créd. Inscritos, Créd. Aprobados, % Créditos Aprobados,
Promedio, Promedio Icfes, Matemáticas, Bilogía, Filosofía, Física, Lenguaje, Inglés, Química,
Desertó)
Correctamente Clasificados: 471 (71,79%)
Incorrectamente Clasificado: 185(28.20%)
Tiempo construcción del Modelo: 0,07 segundos
Algoritmo: IBK
No. total de instancias: 3607
No. de atributos: 7
Correctamente Clasificados: 3389 (93,95%)
Incorrectamente Clasificado: 218 (6.04%)
Tiempo construcción del Modelo: 1,37 segundos
40
Tabla 13. Precisión detallada IBk sede Cundinamarca
Verdaderos Positivos Falsos Positivos Precisión
Si 0,875 0,244 0,783
No 0,756 0,125 0,857
Promedio 0,815 0,185 0,820
Ponderado
Fuente: WEKA
Algoritmo: IBK
No. total de instancias: 656
No. de atributos: 7
Correctamente Clasificados: 633 (96,49%)
Incorrectamente Clasificado: 23 (3.51%)
Tiempo construcción del Modelo: 0,19 segundos
Cred. Aprobados:
< 43.5 -> SI
< 44.5 -> No
< 84.5 -> SI
< 85.5 -> No
< 98.5 -> SI
< 99.5 -> No
< 105.5 -> SI
< 106.5 -> No
< 108.5 -> SI
< 110.5 -> No
< 111.5 -> SI
41
< 112.5 -> No
< 113.5 -> SI
>= 113.5 -> No
Algoritmo: OneR
No. total de instancias: 3607
No. de atributos: 7
Correctamente Clasificados: 2786 (77.23%)
Incorrectamente Clasificado: 821 (22.76%)
Tiempo construcción del Modelo: 0,04 segundos
Créd. Inscritos:
< 117.5 -> SI
< 118.5 -> No
< 123.5 -> SI
< 125.5 -> No
< 131.5 -> SI
< 135.5 -> No
< 138.5 -> SI
>= 138.5 -> No
? -> SI
Algoritmo: OneR
No. total de instancias: 656
No. de atributos: 7
Correctamente Clasificados: 499 (76,06%)
Incorrectamente Clasificado: 157 (23.93%)
Tiempo construcción del Modelo: 0,01 segundos
42
Promedio 0,761 0,229 0,762
Ponderado
Fuente: WEKA
43
5. RESULTADOS
Por otra parte se elaboró una matriz que permite relacionar las técnicas de minería de datos
asociadas a los diferentes dominios identificados en el proceso de revisión. Esta matriz les
permite a los lectores conocer el tipo de técnicas utilizadas para estudiar las diferentes
situaciones que se pueden analizar sobre datos almacenados en sistemas de educación
académica. Dicha matriz es un buen punto de partida y resulta de gran utilidad para aquellas
entidades que deseen analizar situaciones educativas particulares apoyadas en el uso de técnicas
de minería de datos.
44
Respecto al atributo promedio de programa se identificaron diferencias muy
significativas respecto a los que tienen promedio altos y bajos mostrando una
probabilidad de deserción muy alta para aquellos estudiantes con promedios bajos. Las
probabilidades de deserción según el promedio de la carrera son las siguientes:
o Promedio alto: probabilidad de deserción 0,08
o Promedio medio alto: probabilidad de deserción 0,21
o Promedio medio bajo: probabilidad de deserción 0,64
o Promedio bajo: probabilidad de deserción 0,73
Respecto al atributo resultado ICFES pudo identificar que los estudiantes con un
resultado bajo tiene una mayor probabilidad de deserción 0,36 que aquellos con ICFES
medio bajo 0,26 o medio algo con probabilidad de 0, 21. Este comportamiento es muy
similar a los obtenidos con el atributo Matemáticas Icfes Biología Icfes, Química Icfes y
Física Icfes en donde se evidencia q los estudiantes con resultados altos en estos
atributos tiene probabilidades menores de desertar que aquellos con resultados bajos
en estas áreas.
Todos los resultados presentados se obtuvieron con el uso de la herramienta WEKA, la cual tiene
un licenciamiento GPL desarrollada por la universidad de Waikato [31]. Esta herramienta fue
seleccionada toda vez que es una de las que más se ha utilizados en proyectos de minería de
datos y aprendizaje de máquina [32]. Otra de las razones que nos llevaron a seleccionar la
herramienta WEKA para el desarrollo de caso de estudio es lo indicado por la IEDMS respecto a
las líneas de investigación futura pues siguieren adelantar casos de estudio apoyados en el uso
de herramientas de código abierto.
Al analizar los resultados obtenidos los cuales no solo se aplicaron a los 6 atributos seleccionados
como relevantes si no a los conjuntos de datos con los 29 atributos se identificó que existen dos
atributos muy significativos en el análisis de la deserción, estos son “Créditos Aprobados” y
“Promedio Programa”. Respecto a los créditos aprobados cuando los estudiantes aprueban más
del 50% de los créditos del programa tiene menor riesgo de desertar y cuando el promedio
académico del programa es medio bajo o bajo las probabilidades de desertar son muy altas
respecto a los otros estudiantes. Este supuesto que se obtuvo en el análisis de los árboles se
corroboró al ejecutar el clasificador OneR sobre los conjuntos de datos confirmando el resultado
obtenido y el análisis realizado.
Por otra parte se identificó que el algoritmo con mayor nivel de aciertos para la sede
Cundinamarca fue el IBk.
45
Tabla 17. Clasificaciones por algoritmos sede Cundinamarca
Correctamente Incorrectamente Tiempo construcción
Clasificados Clasificados del modelo
J48 78,18% 21,81% 0,03 seg.
Ibk 96,49% 3,51% 0,19 seg.
OneR 7723% 22,76% 0,04 seg.
Fuente: Elaboración propia
Así mismo para los datos de la facultad de ingeniería se consiguió un mejor resultado con el
algoritmo IBk.
Los resultados obtenidos permitieron corroborar que los atributos seleccionados como
relevantes para el análisis de la deserción resultaron muy apropiados pues en las diferentes
pruebas realizadas se pudo validar la pertinencia de dichos atributos.
46
6. DISCUSIÓN Y CONCLUSIONES
Debido al auge que tiene los sistemas de información en la actualidad, los cuales son parte vital
de todo negocio, y a la gran cantidad de datos que se almacenan en dichos sistemas de
información, emprender un proyecto de minería de datos resulta relativamente sencillo, por
supuesto partiendo del supuesto de que los datos disponibles son de buena calidad. El
almacenamiento ordenado de estos datos no es una situación que se presente muy a menudo
en las organizaciones lo cual implica una gran cantidad de actividades de preprocesado para
llegar a un nivel de madurez que permita adelantar proyecto de minería de datos que resulten
exitosos.
Trabajar el proyecto tomando como uno de los ejes fundamentales el modelo MAIE nos permitió
identificar las necesidades en cuento a los datos que se requerían para adelantar el caso de
estudio. Este modelo separa el análisis de la deserción en 3 dimensiones, las cuales están muy
alineadas con los autores que han estudiado el análisis de la deserción.
Para el desarrollo del caso de estudio se planteó el desarrollo de una encuesta que permitiera
obtener algunos datos de estudiantes tanto desertores como no desertores, sin embargo el
levantamiento de dicha información implicó un tiempo mayor, por ello el caso de estudio se
adelantó con los datos disponibles. La falta de algunos datos fue la principal dificultad para
adelantar el análisis de la deserción en las tres dimensiones indicadas en el modelo MAIE, es por
ello que los resultados obtenidos al ejecutar el análisis de los datos y las diferentes técnicas de
minería de datos arrojaron resultados orientados a la dimensión académica, sin embargo el
planteamiento del desarrollo del proyecto y específicamente las actividades adelantadas con los
datos de la dimensión académica y la ejecución de las técnicas de minería de datos podrían
ampliarse a los datos de las dos dimensiones para llegar a la identificación de patrones más
completos en el análisis de la deserción.
Basados en los resultados obtenidos y al análisis de estos, llama la atención que los resultados
ICFES para las diferentes áreas no son muy relevante cuando se refiere al análisis de deserción
con el uso de las técnicas utilizadas, en general se identificó que los atributos créditos aprobados,
créditos inscritos y promedio de la carrera son muy significativo en el análisis de la deserción.
Por otra parte, en el análisis de los datos se identificó que existe una tendencia respecto a la
probabilidad de deserción y el resultado Icfes, siendo inversamente proporcionar el resultado
Icfes con la probabilidad de deserción.
Basados en los resultados obtenidos también se pudo identificar que la ejecución de algoritmos
de selección de atributos relevantes son muy importantes para simplificar el análisis de datos
cuando se tiene una gran cantidad de atributos. En nuestro caso particular, todas las pruebas
adelantadas tanto para el análisis de la sede Cundinamarca como para la facultad de ingeniería
nos dieron resultados en donde los atributos relevantes aparecían con cierta importancia.
Disponer de los datos identificados y catalogados por dimensiones permitiría realizar el análisis
que se había planeado, dicha disponibilidad de datos facilitaría la identificación de patrones por
cada una de las tres dimensiones analizadas quie en conjunto ofrecerían patrones mucho más
47
completos orientados a la disminución de los niveles de deserción enfocadas a situaciones
particulares (por dimensiones) y no general, tal como se hace en la actualidad.
48
7. REFERENCIAS
[2] R. Mason and F. Rennie, E-learning and social networking handbook: Resources for higher
education. 2013.
[4] C. Romero and S. Ventura, “Educational data mining: A review of the state of the art,”
IEEE Trans. Syst. Man, Cybern. C Appl. Rev., vol. 40, no. X, pp. 601–618, 2010.
[7] Ministerio de Educación Nacional, “Capital Humano para el avance colombiano,” 2010.
[8] U. de los Andes, “Determinantes de la Deserción,” vol. 25, no. 49, pp. 122 – 164, 2014.
[10] C. Romero and S. Ventura, “Data mining in education,” Wiley Interdiscip. Rev. Data Min.
Knowl. Discov., vol. 3, no. 1, pp. 12–27, Jan. 2013.
[13] H. Jiawei and M. Kamber, “Data mining: concepts and techniques,” San Fr. CA, itd Morgan
Kaufmann, pp. 377–385, 2001.
[15] S. D. Pérez César, “Minería de datos conceptos, técnicas y sistemas,” p. 789, 2007.
[18] R. S. J. Baker and K. Yacef, “The state of educaitonal data mining in 2009: A review and
future visions,” J. Educ. Data Min., vol. 1, no. 1, pp. 3–17, 2009.
[19] C. Romero and S. Ventura, “Educational data mining: A survey from 1995 to 2005,” Expert
Syst. Appl., vol. 33, no. 1, pp. 135–146, 2007.
[21] P. S. Baker, Ryan S J, “Educational data mining and learning analytics,” 2014.
[22] D. G. Reina, S. L. Toral, and F. Barrero, “Metodologías de Análisis de los Big Data en las
Plataformas Educativas.”
[24] E. Hochsztain, “MoDaWeEd : un framework que integra Moodle , Data Mining y Web
Usage Mining en el ámbito de la Educación,” Moodlemoot, no. Minian 1999, pp. 1–5,
2011.
[25] E. García Salcines, “Usando minería de datos para la continua mejora de cursos E-
Learning,” UNIVERSIDAD DE CÓRDOBA, 2012.
[29] I. H. Witten, E. Frank, and M. a Hall, Data Mining: Practical Machine Learning Tools and
Techniques (Google eBook). 2011.
50
[31] M. Hall, E. Frank, and I. H. Witten, “Practical Data Mining Tutorial 1 : Introduction to the
WEKA Explorer,” 2012.
51