Discretizacion y Normalizacion
Discretizacion y Normalizacion
Discretizacion y Normalizacion
E N E R o D E 2 0 1 2
VoLUMEN 9 NÚMERo 1
Resumen
Abstract
In this paper I show the final report of the research project, Deve-
lopment of Tools for Data Mining - UDMiner”; which has as main
goal the implementation of methods of Artificial Intelligence and
Statistical, in the tasks: data preprocessing, association, classifica-
tion and clustering of data. A description is presented of each one
of the mentioned tasks; the techniques are documented, and show
the obtained results with conclusions.
23
23
El preprocesamiento puede incluir las si- que son datos tomados de la realidad. Suele
guientes tareas (figura 2): recolección e in- suceder que un valor erróneo caiga en la nor-
tegración, limpieza de los datos, trans- malidad y por consiguiente no puedan ser
formación, y reducción de los datos detectados, para está situación existen varios
(selección de atributos, selección de instan- métodos estadísticos encargados de determi-
cias, discretización). nar si un dato es anómalo o no, y es el mine-
ro de datos el que determina si esté se toma
Las tareas a nivel de preprocesamiento de da- en cuenta. Los valores anómalos suelen de-
tos, implementadas en UDMiner son: detec- berse a errores en el procedimiento a la hora
ción de valores anómalos (outliers), relleno de de introducir los datos o de codificarlos. Una
valores faltantes, selección de atributos, dis- vez detectados los casos atípicos el analista
cretización, normalización y numerización. debe saber elegir con criterio entre eliminar-
los del análisis o evaluar toda la información
a) Detección de valores anómalos incluyéndolos [13]. Una técnica utilizada en
la detección de valores anómalos es el de los
Los datos anómalos son aquellos valores que k-vecinos que consiste en establecer una dis-
están por encima de los datos normales pero tancia y ver los valores con mayor distancia
que estadísticamente son correctos, es decir, media entre el resto de los valores.
2424
Revista viculos vol. 9 NúmeRo 1
J o R g e eN R i q u e R o d R í g u e z R o d R í g u e z v í n c u l o s
E N E R o D E 2 0 1 2
VoLUMEN 9 NÚMERo 1
Dado el gran volumen de datos de los problemas estadística (ecuación 1), con esta técnica, es
con el que los algoritmos de aprendizaje de re- asumir la distribución a priori de los datos.
glas de asociación trabajan, la tarea de buscar pa- La ecuación 1 establece un umbral máximo y
trones que cumplan estos requisitos puede pa- mínimo utilizando la media y la desviación
recer muy costosa computacionalmente, ya que estándar de los datos. Cualquier valor que
el análisis de los conjuntos de ítems crece nota- sobrepase estos umbrales es considerado
blemente con respecto al número de variables de anómalo.
los datos. Sin embargo, en los casos reales exis-
ten pocos conjuntos frecuentes y los métodos umbral = media ± 3 × desviacion (1)
que existen con una confidencia mínima se be-
nefician de este hecho. Por ejemplo, la mayoría b) Relleno de valores faltantes
de los clientes de un supermercado suelen com-
prar un número bastante limitado de productos. El primer paso para rellenar valores faltantes
en UDMiner es construir la red bayesiana, en
La mayoría de las técnicas de asociación nece- este caso el clasificador Naïve Bayes. La in-
sitan una métrica adecuada para poder extraer dependencia entre atributos puede ser algo
el grado de dependencia que existe entre las va- arriesgado, pero se ha demostrado la efecti-
riables asociadas a un conjunto de datos. Hay vidad de este clasificador. La idea del Naïve
trabajos donde se ha evaluado y comparado di- Bayes radica en tener una estructura fija, en
ferentes medidas de reglas de asociación, unas donde el único nodo padre es la clase (que se
que provienen del campo de la estadística y tiene que conocer), y sus hijos son los demás
otras definidas de forma específica en Minería atributos (atributos independientes). Es de-
de Datos para la evaluación de reglas obtenidas cir, aprender los parámetros (distribuciones
en un entorno educativo mediante algoritmos de probabilidad) de la siguiente forma: de
de programación genética en gramáticas [7]. acuerdo a la hipótesis de independencia que
asume este clasificador la tabla de probabili-
dad P(A1, A2,….., An|c), donde la A represen-
3. Técnicas implementadas ta los atributos, y c representa la clase, se fac-
toriza y quedan n tablas de probabilidad, una
En el desarrollo de UDMiner se seleccionó para cada atributo de la forma P(A1|c). De tal
e implementó diferentes técnicas de apren- manera que hay que estimar la tabla de pro-
dizaje computacional y de estadística para babilidad para cada atributo y la distribución
cada una de las tareas de minería antes men- a priori de la variable clase P(c). Como se tra-
cionadas. A continuación, se dará una intro- bajan dos tipos de atributos, nominales y nu-
ducción a cada técnica. méricos, existen diferentes métodos para esti-
mar las distribuciones.
3.1 Preprocesamiento de datos
Para el caso de atributos categóricos se emplea
a) Detección de valores anómalos la ley de sucesión de La Place (ver ecuación 2)
y para atributos número se emplea una fun-
Para la detección de valores anómalos se em- ción de distribución de probabilidad2 (tabla 1).
pleó una técnica basada en una aproximación
2828 2 Se recomienda utilizar una herramienta estadística, como por ejemplo SPSS, con el fin de determinar la distribución de
los datos.
(2)
Una vez construida la red se hace uso del al- citamente mediante una lista de muestras de
goritmo EM (Maximización de la Esperan- clase conocida [20].
za). La implementación de este algoritmo
tiene dos fases: una etapa de inicialización Los pasos fundamentales para seleccionar
y una etapa iterativa. En la etapa de inicia- atributos con árboles de decisión son tres,
lización se provee al algoritmo de las distri- generar en primera instancia el árbol, luego
buciones de probabilidad condicional que se a partir de este generar las reglas y posterior-
encuentran en la red3, la segunda etapa es mente seleccionar los atributos observando
donde se maximiza el valor esperado has- los que más se utilizan en las reglas.
ta su convergencia. Una vez inicializados los
parámetros e inicializado el contador de eta- La idea de construir árboles de decisión tie-
pas, se procede a la fase iterativa que se da ne que ver en gran medida en construirlos de
hasta su convergencia. forma eficiente pero corta, es decir que gene-
re el árbol de decisión más pequeño posible.
c) Selección de atributos La teoría de la información proporciona una
fórmula para medir el desorden total en una
Un clasificador usado en la Minería de Da- base de datos, se utilizó la fórmula descrita en
tos, para la selección de atributos, son los ár- la ecuación 3, aunque no garantice que ayu-
boles de decisión. Un árbol de decisión es dará a construir el árbol más pequeño posible.
una representación en el que cada conjunto
de posibles conclusiones se establece implí-
3 La red utilizada para UDMiner es una red bayesiana tipo Naïve, en la cual se asume independencia entre los atribu-
tos del conjunto de datos, pero estos tienen dependencia con una clase. 29
29
3030 4 El intervalo de los valores de los pesos generalmente es una medida empírica, para este proyecto se tomará un inter-
valo entre -1 y 1.
(d y )y (1 − y )
(6)
δ = −
o
pk pk pk pk pk
en donde el índice h se refiere a magnitudes (12)
de la capa oculta; el subíndice p, al p-ésimo
vector de entrenamiento, y j a la j-ésima neu- Si la neurona j no es de salida, entonces la
rona oculta. El símbolo Q puede ser opcio- derivada parcial del error no puede ser eva-
nal, dado que actúa como una entrada más. luada directamente. Por tanto, se obtiene el
desarrollo a partir de valores que son conoci-
c. Se calculan las salidas de las neurona dos y otros que pueden ser evaluados. La ex-
ocultas: presión obtenida en este caso es:
f (net )∑δ w
h
=
h
y f (net pj
)
δ
h
=
ho h o o
(7)
pj j
pj j pj pk kj
k
(13)
d. Se realizan los mismos cálculos para obte-
ner las salidas de las neuronas de salida Donde se observa que el error en las capas
L
ocultas depende de todos los términos de la
= ∑ wkj + Θk
o o o
net pk y pj capa de salida. De aquí surge el término de
j =1
(8) Backpropagation. En particular, para la fun-
ción sigmoidal:
o
=
o
y pk
f (net k pk
)
(9)
δ
h
pj
= x Ypj
(1 − x )∑ δ Ypj
o
pk w
o
kj
k
(14)
Paso 4
Calcular los términos de error para todas las Donde k se refiere a todas las neuronas de la
neuronas. capa superior a la de la neurona j.
w (t + 1) = w (t ) + ∆ w (t + 1);
o o o
La función f debe ser derivable, para lo cual kj kj kj
la ecuación 13: kj pk pj
(15)
f (net )= 1
jk −
k
1 + e net jk
(11)
31
31
Y para los pesos de las neuronas de la capa cendentes que llegan a F2 y de las conexiones
oculta: descendentes de F2.
de ítems que cumplen con las medidas fianza. Es interesante observar que si
mínimas de soporte inicialmente prees- una conjunción de consecuentes de una
tablecidas; esto permite ir eliminando regla cumple con los niveles mínimos
posibles combinaciones: aquellas que no de soporte y confianza, sus subconjun-
cumplan con los requerimientos de so- tos (consecuentes) también los cumplen;
porte no entrarán en el análisis. en el caso contrario, si algún ítem no los
cumple no tiene caso considerar sus su-
II. Generación de las reglas revisando que perconjuntos. En la tabla 2 se muestra el
cumplan con el criterio mínimo de con- algoritmo a priori.
33
33
selección alto. Este conjunto de datos teó- este tarda más tiempo que los otros; aun-
ricamente provee todos los datos necesa- que, el conjunto de datos Census posee
rios para crear modelos robustos y útiles más instancias y más atributos, este tar-
que puedan extraer patrones y conoci- da aproximadamente el 28% del tiem-
miento relevante. po empleado para la selección en Chess.
Esto se presente, pues el número de cla-
• Census: el ejemplo presenta un compor- ses del ejemplo Chess es más alto que el
tamiento equilibrado debido en parte a del ejemplo Census; el primero contiene
que son datos extraídos de bases de da- 18 clases y el segundo contiene solo dos,
tos reales y con una cantidad considera- lo que implica que en la construcción del
ble de instancias. Este seria el conjunto árbol exista más desorden por el alto nú-
de datos escogido para realizar selec- mero de clases.
ción y posteriormente Minería de Da-
tos, ya que en la practica, formar un con- •Otro factor que puede explicar esta situa-
junto de datos que cubra todo el espacio ción, es cuando el total de instancias cu-
de dimensiones es bastante costoso com- bre todo el espacio de dimensiones, el
putacionalmente, a la hora de generar árbol generado es más equilibrado con
un modelo a partir de ellos, teniendo en respecto a su profundidad y amplitud,
cuenta el volumen creciente de las bases lo que obviamente implica más tiempo
de datos. en su generación por el número de rami-
ficaciones y nodos creados.
• Por otro lado, La complejidad compu-
tacional del algoritmo EM, esta dada 4.2 Clasificación de datos [16]
por el número de iteraciones requeridas
para que se de la convergencia [4]. En las En la tabla 4, se muestra una síntesis de los re-
pruebas hechas la convergencia se logró sultados obtenidos por UDMiner (la efectivi-
en promedio entre la quinta y décima ite- dad de clasificación mostrada por UDMiner,
ración, para cada uno de los ejemplos. El corresponde al promedio de 10 corridas) fren-
ejemplo Census, contiene considerable- te a los obtenidos por WEKA (Entorno para
mente mayor cantidad de instancias que el análisis de conocimiento de Waikato)5. En
Soybean; sin embargo, el tiempo emplea- esta se observa que la efectividad de clasifi-
do en el relleno es relativamente bajo cación de UDMiner, en general es buena; en
comparándolo con este. Esto se debe a los ejemplos mostrados se obtuvo una clasi-
que construir la red bayesiana esta estre- ficación correcta por encima del 70% (8 de
chamente relacionado al número de cla- los diez ejemplos), solo en uno (chess) la cla-
ses existentes, por lo tanto, se equilibran sificación es definitivamente deficiente, esto
los tiempos, dado que Soybean tiene 19 se debe a la incompletitud de los datos. Con
clases, mientras que Census tiene solo 2. WEKA se obtuvo una clasificación del más
del 70%, en cuatro de los diez ejemplos.
• Se podría pensar que a mayor número
de instancias, mayor tiempo se emplea- Por otro lado, para cada ejemplo se probó
ría en la selección. Si se toma en cuenta con diferentes estructuras de redes neurona-
por ejemplo el conjunto de datos Chess, les, variando el número de neuronas en la
capa oculta, el número de capas ocultas, la Otro aspecto a analizar es la inclusión de di-
tasa de aprendizaje, el momentum, el valor ferentes heurísticas para determinar la tasa
inicial de los pesos (aleatoriamente), hasta de aprendizaje (a) durante el entrenamiento
identificar la estructura de red que generaba de la red; para tal fin se utilizó el conjunto de
menor error. Agregar más de una capa ocul- datos SOYBEAN, y se logró establecer que la
ta puede llevar a una mejora del desempeño mejor heurística para el valor de la tasa de
de la red, aunque no es significativo frente aprendizaje, consiste en disminuir la tasa
al incremento de la complejidad y el tiempo proporcionalmente luego de haberse supera-
empleado en la clasificación. Incrementar el do el 50% de las épocas en el entrenamiento.
número de neuronas en la capa oculta mejo-
ra el desempeño de la red hasta cierto grado,
luego disminuye su desempeño.
4.3 Agrupación de datos [17] cada uno de los conjuntos de datos, se obtie-
ne: - el valor medio para el parámetro de vi-
Se hace una comparación del modelo imple- gilancia es de 0.4, y - para la constate e es 0.2,
mentado frente al modelo de mapas auto-or- para las demás constantes no se pudo esta-
ganizativos de Kohonen y el algoritmo EM blecer un valor medio. En términos generales
(Expectation Maximization), para este último la efectividad de agrupación de la red ART2
se utilizó la herramienta WEKA, ver tabla 5. es superior a los mapas auto-organizativos
de kohonen y al algoritmo EM, obteniendo
En cuanto a la configuración de la red ART2, una efectividad promedio del 69.12%.
luego de realizar las respectivas pruebas con
3636 6 En la tabla 4 se utilizan dos caracteres especiales: - asterisco (*) indica que WEKA terminó el proceso de clasificación
pero no se logró obtener ningún resultado, - interrogación (?) nunca terminó de procesar.
5. Conclusiones
Figura 5. Gráfica de tiempo
para el archivo ASSOCSAM Se estableció un flujo básico operacional para
realizar preprocesamiento de datos, que con-
2 siste en primera medida en tratar datos anó-
malos y faltantes, posteriormente seleccionar
1.5
atributos o reducir dimensionalidad, y por
1
Weka
último transformar los datos de forma ade-
CBA
cuada para la utilización de diferentes mo-
0.5 UDAssociate
delos de Minería.
0
Tiem po en Segundos En cuanto a la técnica seleccionada para la cla-
sificación de datos, se destaca, entre otras, la
parsimonia de esta, puesto que mediante una
red neuronal se puede abordar tanto un pro-
Figura 6. Gráfica de ítemsets frecuentes blema de clasificación como un problema de
para el archivo ASSOCSAM regresión, mientras que desde la perspectiva
estadística clásica se han necesitado dos mo-
Weka delos tan diferentes como el análisis discrimi-
9
8
nante (en cuanto a clasificación se refiere) y
7 CBA las series de tiempo (para el caso de predic-
6 ción/regresión). Lo anterior, se corrobora en
5
4 UDAssociate las pruebas, donde se observa que el algorit-
3 mo backpropagation es una buena elección,
2
Item s que se
cuando de clasificar/predecir datos se trata.
1
ítem sets frecuentes Deberian
Generar
La red neuronal ART2 es una técnica via-
ble para la agrupación de datos, dada su alta
efectividad; sin embargo, la configuración
del parámetro de vigilancia debe hacerse uti-
Figura 7. Gráfica de regla para lizando heurísticas, o en el peor de los casos
el archivo ASSOCSAM a través de la experimentación, lo cual impli-
ca que si el parámetro empleado no es ade-
14 cuado, la efectividad de agrupación es baja.
12
10
8 Weka 6. Trabajos futuros
6 CBA
4 UDAssociate Se tiene previsto analizar seleccionar e im-
2 plementar más técnicas en cada una de las
0
Reglas Generadas
fases de preprocesamiento y minería de da-
tos. Para la fase de preprocesamiento se ana-
lizarán algoritmos para la reducción de la di-
Para más información consultar [18]. mensionalidad, relleno de valores faltantes,
3838 detección de valores anómalos y algoritmos
4040
Revista viculos vol. 9 NúmeRo 1