Lectura 1

Minería de Datos
continuo) o la mediana (caso discreto).
STACKING / CASCADE: se utiliza cada hipótesis como una variable y

se utiliza otro algoritmo (por ejemplo: Una red neuronal para asignar
diferentes pesos a las diferentes hipótesis).
3.3 Métodos de Minería de Datos
Los métodos de minería de datos tienen como metas primarias (en un alto
nivel) la predicción de datos desconocidos y la descripción de patrones
Pueden emplearse diferentes criterios para clasificar los sistemas de

minería de datos y, en general, los sistemas de aprendizaje inductivo en
computadoras:
 Dependiendo del objetivo para el que se realiza el aprendizaje, pueden

distinguirse sistemas para: clasificación (clasificar datos en clases
predefinidas), regresión (función que convierte datos en valores de una
función de predicción), agrupamiento de conceptos (búsqueda de
conjuntos en los que agrupar los datos), compactación (búsqueda de
descripciones más compactas de los datos), modelado de dependencias
(dependencias entre las variables de los datos), detección de
desviaciones (búsqueda de desviaciones importantes de los datos
respecto de valores anteriores o medios), etc.
 Dependiendo de la tendencia con que se aborde el problema, se pueden

distinguir tres grandes líneas de investigación o paradigmas: sistemas
conexionistas (redes neuronales), sistemas evolucionistas (algoritmos
genéticos) y sistemas simbólicos.
 Dependiendo del lenguaje utilizado para representar del conocimiento, se

pueden distinguir: representaciones basadas en la lógica de
proposiciones, representaciones basadas en lógica de predicados de
primer orden, representaciones estructuradas, representaciones a través
de ejemplos y representaciones no simbólicas como las redes
neuronales.
A continuación describiremos con más detalle los diferentes métodos de

representación del conocimiento que se emplean en la minería de datos, dado que
el lenguaje de representación es uno de los aspectos importantes para el proceso
de KDD.
3.3.1 Agrupamiento ("Clustering"):
También llamada Segmentación, esta herramienta permite la identificación

de tipologías o grupos donde los elementos guardan similitud entre sí y diferencias
47
MC Beatriz Beltrán Martínez
Minería de Datos
con aquellos de otros grupos. Para alcanzar las distintas tipologías o grupos
existentes en una base de datos, estas herramientas requieren, como entrada,
información sobre el colectivo a segmentar. Esta información corresponderá a los
valores concretos, para cada elemento en un momento del tiempo, de una serie de
variables ("Segmentación estática") o a través del comportamiento en el tiempo de
cada uno de los elementos del colectivo ("Segmentación dinámica").
Como resultado del tratamiento de la información, estas herramientas

presentan los distintos grupos detectados junto con los valores característicos de
las variables. Este tipo de herramientas se basan en técnicas de carácter
estadístico, de empleo de algoritmos matemáticos, de generación de reglas y de
redes neuronales para el tratamiento de registros.
Para otro tipo de elementos a agrupar o segmentar, como texto y

documentos, se usan técnicas de reconocimiento de conceptos.
3.3.2 Asociación (" Association Pattern Discovery"):
Este tipo de herramientas establece las posibles relaciones o correlaciones

entre distintas acciones o sucesos aparentemente independientes, pudiendo
reconocer como la ocurrencia de un suceso o acción puede inducir o generar la
aparición de otros. .
Normalmente este tipo de herramientas se fundamenta en técnicas

estadísticas como los análisis de correlación y de variación.
3.3.3 Secuenciamiento (“Sequential Pattern Discovery"):
Esta herramienta permite identificar como, en el tiempo, la ocurrencia de

una acción desencadena otras posteriormente. Es muy similar a la anteriormente
analizada si bien, en este caso, el tiempo es una variable crítica e imprescindible a
introducir en la información a analizar.
3.3.4 Reconocimiento de Patrones ("Pattern Matching"):
Estas herramientas permiten la asociación de una señalo información de

entrada con aquella o aquellas con las que guarda mayor similitud y que están
catalogadas en el sistema.
Estas herramientas son usadas por elementos que son tan habituales como
un procesador de texto o un despertador. Los patrones pueden ser cualquier
elemento de información que deseemos.
En el ámbito particular del DM estas herramientas pueden ayudamos en la

identificación de problemas e incidencias y de sus posibles soluciones toda vez
que dispongamos de la base de información necesaria en la cual buscar.
48
Minería de Datos
Estas herramientas se sustentan en las técnicas de Redes Neuronales y

Algoritmos Matemáticos.
3.3.5 Previsión ("Forecasting"):
La Previsión establece el comportamiento futuro más probable dependiendo

de la evolución pasada y presente.
Esta herramienta tiene su uso fundamental en el tratamiento de Series

Temporales y las técnicas asociadas disponen de una importante madurez.
Las herramientas de Previsión utilizan bien la propia información histórica, o

bien, la información histórica relativa a otras variables de las cuales la primera
depende.
3.3.6 Simulación:
Las herramientas de Simulación forman parte también del conjunto de

herramientas veteranas de la investigación científica. Como ejemplo están las
herramientas de diseño y producción asistidas por ordenador, "CAD" - "CAM", en
las cuales se revisan los diseños sometiéndoles a una amplísima serie de
condiciones reales normales y extremas.
Ello permite no sólo ajustar y adaptar el diseño sino posteriormente

establecer márgenes y límites de funcionamiento.
La simulación se puede definir como la generación de múltiples escenarios

o posibilidades sujetas, normalmente, a unas reglas o esquemas con el objeto de
analizar la idoneidad y comportamiento de una decisión o prototipo en un marco
de posibles condiciones futuras o para analizar todas las posibles variaciones o
alternativas a una decisión o situación y también se usa para el cálculo numérico.
3.3.7 Optimización:
Al igual que la Previsión y la Simulación, las herramientas de Optimización

tienen una amplia tradición de uso.
La optimización ha sido y es extensivamente usada en la resolución de los

problemas asociados a la logística de distribución y a la gestión de "Stocks" en los
negocios y en la determinación de parámetros teóricos a partir de los
experimentos en la investigación científica.
La optimización resuelve el problema de la minimización o maximización de

una función que depende de una serie de variables, encontrando los valores de
éstas que satisfacen esa condición de máximo, típicamente beneficios, o mínimo,
normalmente costes.
49
Minería de Datos
Habitualmente estos problemas conllevan, adicionalmente, una serie de

"ligaduras" o estricciones de forma que no todas las posibles soluciones son
aceptables, ello se traduce en que debemos reducir nuestro universo de búsqueda
a aquellas soluciones que satisfagan tales restricciones.
3.3.8 Clasificación (“Clasification”, “Prediction” o “Scoring”):
La clasificación agrupa todas aquellas herramientas que permiten asignar a

un elemento la pertenencia a un grupo o clase. Ello se instrumenta a través de la
dependencia de la pertenencia a las clases en los valores de una serie de
atributos o variables.
A través del análisis de un colectivo de elementos, o casos de los cuales

conocemos la clase a la que pertenecen, se establece un mecanismo que
establece la pertenencia a tales clases en función de los valores de las distintas
variables y nos permite establecer el grado de discriminación o influencia de éstas.
También se utiliza para estas herramientas la denominación de Predicción o

Evaluación para aquellos casos donde se aplican técnicas, normalmente
numéricas, que establecen para cada elemento un valor dependiente de los
valores que tengan las variables en tal elemento.
Las herramientas de Clasificación hacen uso de técnicas como algoritmos

matemáticos, análisis discriminante y de variaciones, sistemas expertos y
sistemas de conocimiento e inducción de reglas.
Como se ha podido apreciar, normalmente es necesaria la conjunción e

integración de varios tipos de herramientas a efectos de brindar una solución
completa a nuestros problemas.
Métodos apropiados
 No estructurados:
 Métodos bayesianos.
 Otros métodos estadísticos
 Métodos relacionales
 Semi estructurados
 Gramaticales.
 Métodos relacionales con constructores.
Métodos no apropiados
Sin una profunda transformación de los datos, muchas técnicas de

aprendizaje automático son útiles para muchas aplicaciones
50
Minería de Datos
 Métodos de clasificación (árboles de decisión,...) están basados. en una

clase dependiente de un número de atributos predeterminados.
 Métodos numéricos (regresión, redes neuronales,...), los datos son

simbólicos, no numéricos.
 Métodos por casos (KNN, CBR,...) tiempos de respuesta serían muy altos.
3.4 Técnicas de Minería de Datos
La minería de datos ha dado lugar a una paulatina sustitución del análisis

de datos dirigido a la verificación por un enfoque de análisis de datos dirigido al
descubrimiento del conocimiento. La principal diferencia entre ambos se encuentra
en que en el último se descubre información sin necesidad de formular
previamente una hipótesis. La aplicación automatizada de algoritmos de minería
de datos permite detectar fácilmente patrones en los datos, razón por la cual esta
técnica es mucho más eficiente que el análisis dirigido a la verificación cuando se
intenta explorar datos procedentes de repositorios de gran tamaño y complejidad
elevada. Dichas técnicas emergentes se encuentran en continua evolución como
resultado de la colaboración entre campos de investigación tales como bases de
datos, reconocimiento de patrones, inteligencia artificial, sistemas expertos,
estadística, visualización, recuperación de información, y computación de altas
prestaciones.
Como mencionamos al principio, los algoritmos de minería de datos se

clasifican en dos grandes categorías: supervisados o predictivos y no
supervisados o de descubrimiento del conocimiento.
En la tabla siguiente se muestran algunas de las técnicas de minería de

datos en ambas categorías:
SUPERVISADOS NO SUPERVISADOS
Árboles de decisión Detección de Desviaciones
Inducción neuronal Segmentación
Regresión Agrupamiento (Clustering)
Series temporales Reglas de Asociación
Patrones Secuenciales
Tabla 6.Clasificación de las técnicas de minería de datos
La aplicación de los algoritmos de minería de datos requiere la realización

de una serie de actividades previas encaminadas a preparar los datos de entrada
debido a que, en muchas ocasiones dichos datos proceden de fuentes
heterogéneas, no tienen el formato adecuado o contienen ruido. Por otra parte, es
necesario interpretar y evaluar los resultados obtenidos.
51
Minería de Datos
La siguiente tabla muestra algunas de las técnicas más comunes de

Minería de Datos y a continuación describiremos cada una de ellas:
Métodos ANOVA
estadísticos Prueba Ji cuadrado
Análisis de componentes principales
Análisis de clusters
Análisis discriminante
Regresión lineal
Regresión logística
Arboles de CHAID
decisión CART
Reglas do asociación
Redes de neuronas artificiales
Algoritmos genéticos
Otros Lógica difusa
Series temporales
Tabla 7. Técnicas do Data Mining
3.4.1 Métodos Estadísticos:
La estadística es tradicionalmente la técnica que se ha usado para el

tratamiento de grandes volúmenes de datos numéricos y nadie pone en duda su
efectividad al poseer un amplísimo conjunto de modelos de análisis para cubrir el
tratamiento de todo tipo de poblaciones y series de datos. Estos son algunos de
los métodos estadísticos más utilizados:
 ANOVA: Análisis de la Varianza, contrasta si existen diferencias

significativas entre las medidas de una o más variables continuas en grupos
de población distintos.
 Ji cuadrado: Contrasta la hipótesis de independencia entre variables.
 Componentes principales: Permite reducir el número de variables

observadas a un menor número de variables artificiales, conservando la
mayor parte de la información sobre la varianza de las variables.
 Análisis de clusters: Permite clasificar una población en un número

determinado de grupos, sobre la base de semejanzas y diferencias de
perfiles existentes entre los diferentes componentes de dicha población.
 Análisis discriminante: Método de clasificación de individuos en grupos

que previamente se han establecido, y que permite encontrar la regla de
clasificación de los elementos de estos grupos, y por tanto identificar cuáles
son las variables que mejor definan la pertenencia al grupo.
52
Minería de Datos
 Regresión Lineal: Técnica más básica del Data Mining. Un modelo de

regresión lineal se implementa identificando una variable dependiente (y) y
todas las variables independientes (X1, X2,...). Se asume que la relación
entre estas y aquella es lineal. Todas las variables han de ser continuas. El
resultado es la ecuación de la recta que mejor se ajusta al juego de datos y
esta ecuación se interpreta o se usa para predicción.
 Regresión Logística: Puede trabajar con variables discretas. También

requiere que todas las variables sean lineales.
3.4.2 Métodos Basados en Arboles de Decisión
Son herramientas analíticas empleadas para el descubrimiento de reglas y

relaciones mediante la ruptura y subdivisión sistemática de la información
contenida en el conjunto de datos. El árbol de decisión se construye partiendo el
conjunto de datos en dos (CART) o más (CHAID) subconjuntos de observaciones
a partir de los valores que toman las variables predictoras. Cada uno de estos
subconjuntos vuelve después a ser particionado utilizando el mismo algoritmo.
Este proceso continúa hasta que no se encuentran diferencias significativas

en la influencia de las variables de predicción de uno de estos grupos hacia el
valor de la variable de respuesta.
La raíz del árbol es el conjunto de datos íntegro, los subconjuntos y los

subsubconjuntos conforman las ramas del árbol. Un conjunto en el que se hace
una partición se llama nodo.
El método CHAID (Chi Squared Automatic Interaction Detector) es útil en

aquellas situaciones en las que el objetivo es dividir una población en distintos
segmentos basándose en algún criterio de decisión.
3.4.3 Reglas de Asociación
Derivan de un tipo de análisis que extrae información por coincidencias. Este

análisis a veces llamado "cesta de la compra" permite descubrir correlaciones o
co-ocurrencias en los sucesos de la base de datos a analizar y se formaliza en la
obtención de reglas de tipo; SI ... ENTONCES...
3.4.4 Redes Neuronales (“Neural Networks")
Las Redes Neuronales constituyen una técnica inspirada en los trabajos de

investigación, iniciados en 1930, que pretendían modelar computacionalmente el
aprendizaje humano llevado a cabo a través de las neuronas en el cerebro.
Las redes neuronales son una nueva forma de analizar la información con
una diferencia fundamental con respecto a las técnicas tradicionales: son capaces
de detectar y aprender patrones y características dentro de los datos.
53
Minería de Datos
Se comportan de forma parecida a nuestro cerebro aprendiendo de la

experiencia y el pasado y aplicando tal conocimiento a la resolución de problemas
nuevos.
Una vez adiestradas las redes neuronales pueden hacer previsiones,

clasificaciones y segmentación.
Las redes neuronales se construyen estructurando en una serie de niveles

o capas compuesta por nodos o "neuronas". Poseen dos formas de aprendizaje
derivadas del tipo de paradigma que usan: el supervisado y el no supervisado.
Son métodos de proceso numérico en paralelo que tratan de modelizar el

funcionamiento del cerebro. La red asigna pesos al azar a cada variable
independiente y determina si existe algún patrón predictivo en los datos. Una vez
que encuentra un patrón la red lo optimiza reforzando los pesos de las variables y
comparando con los datos del grupo de validación. Luego prosigue el proceso y
aprende de los resultados una y otra vez. Finalmente, se puede aplicar el modelo
aprendido a cualquier nuevo conjunto de datos de entrada. Pueden manejar datos
continuos y discretos, lineales y no-lineales simultáneamente. El único
inconveniente que presentan es que no genera una ecuación o modelo que
explique el comportamiento del sistema, siendo muy difícil determinar la influencia
de cada variable en el comportamiento global del sistema.
3.4.5 Algoritmos Genéticos (“Genetic Algorithms”)
Los Algoritmos Genéticos son otra técnica que debe su inspiración, de

nuevo, a la Biología como las Redes Neuronales.
Estos algoritmos representan la modelización matemática de como los

cromosomas en un marco evolucionista alcanzan la estructura y composición más
óptima en aras de la supervivencia. Entendiendo la evolución como un proceso de
búsqueda y optimización de la adaptación de las especies que se plasma en
mutaciones y cambios en los genes o cromosomas.
Los Algoritmos Genéticos hacen uso de las técnicas biológicas de

reproducción (mutación y cruce) para ser utilizadas en todo tipo de problemas de
búsqueda y optimización.
Esta aproximación está enfocada a problemas de optimización. Se

comienza con una población de partida y se va alterando y optimizando su
composición para la solución de un problema particular mediante mecanismos
tomados de la teoría de la evolución (introducir elementos aleatorios para la
modificación de las variables o mutaciones). El material genético o información de
los individuos puede ser transmitido a las siguientes generaciones, de diferentes
formas que van optimizando el proceso. A través de la reproducción, los mejores
segmentos perduran y su proporción crece de generación en generación. Al cabo
54
Minería de Datos
de cierto número de iteraciones, la población estará constituida por buenas

soluciones al problema de optimización.
Esta herramienta se usa en las primeras fases del Data Mining, para
seleccionar las variables que luego se emplearán con otra técnica, como las redes
de neuronas o la regresión logística.
3.4.6 Lógica Difusa (“fuzzy logic")
La Lógica Difusa surge de la necesidad de modelizar la realidad de una

forma más exacta evitando precisamente el determinismo o la exactitud.
La Lógica permite el tratamiento probabilístico de la categorización de un

colectivo.
La Lógica Difusa es aquella técnica que permite y trata la existencia de

barreras difusas o suaves entre los distintos grupos en los que categorizamos un
colectivo o entre los distintos elementos, factores o proporciones que concurren en
una situación o solución.
3.4.7 Series Temporales
Consisten en el estudio de una variable a través del tiempo para, a partir de

ese conocimiento, y bajo el supuesto de que no van a producirse cambios
estructurales, poder realizar predicciones. Suelen basarse en un estudio de la
serie en ciclos, tendencias y estacionalidades, que se diferencian por el ámbito de
tiempo abarcado, para, por composición, obtener la serie original. Se pueden
aplicar enfoques híbridos con los métodos anteriores, en los que la serie se puede
explicar no sólo en función del tiempo sino como combinación de otras variables
de entorno más estables y, por lo tanto, más fácilmente predecibles.
3.4.8 Redes Bayesianas
Las redes bayesianas son una alternativa para minería de datos, la cual
tiene varias ventajas:
 Permiten aprender sobre relaciones de dependencia y causalidad.

 Permiten combinar conocimiento con datos.
 Evitan el sobre-ajuste de los datos.
 Pueden manejar bases de datos incompletos.
El obtener una red bayesiana a partir de datos es un proceso de

aprendizaje, el cual se divide, naturalmente, en dos aspectos:
1. Aprendizaje paramétrico: dada una estructura, obtener las probabilidades

a priori y condicionales requeridas.
55
Minería de Datos
2. Aprendizaje estructural: obtener la estructura de la red Bayesiana, es

decir, las relaciones de dependencia e independencia entre las variables
involucradas.
Las técnicas de aprendizaje estructural dependen del tipo de estructura de

red: árboles, poliárboles y redes multicomectadas. Otra alternativa es combinar
cOI1ocimiento subjetivo del experto con aprendizaje. Para ello se parte de la
estructura dada por el experto, la cual se valida y mejora utilizando datos
estadísticos.
3.4.9 Inducción de Reglas
Las técnicas de Inducción de Reglas surgieron hace dos décadas y

permiten la generación y contraste de árboles de decisión o reglas y patrones a
partir de los datos de entrada.
Como información de entrada, tendremos un conjunto de casos donde se

ha asociado una clasificación o evaluación a un conjunto de variables o atributos.
Con tal información estas técnicas obtienen el árbol de decisión o conjunto

de reglas que soportan la evaluación o clasificación.
En los casos en que la información de entrada posee algún tipo de "ruido" o

defecto estas técnicas pueden habilitar métodos estadísticos de tipo probabilístico
para generar, en estos casos, árboles de decisión podados o recortados.
3.4.10 Sistemas basados en el Conocimiento y Sistemas Expertos (“Knowledge Based

Systems" & “Expert Systems")
Estos sistemas son un clásico de la Inteligencia Artificial.
Estas técnicas permiten la formalización de árboles y reglas de decisión

extraídas de la formalización del conocimiento de los expertos.
Poseen motores llamados "Motores de Inferencia" que se encargan de

gestionar las distintas preguntas al ser realizadas de forma que el proceso de
decisión sea lo más eficiente y rápido posible.
3.4.11 Algoritmos Matemáticos
Sin llegar a ser técnicas que den soporte a unas necesidades concretas
como las anteriores, existe una amplia gama de algoritmos matemáticos que son
especialmente útiles y eficaces en la resolución y tratamiento de problemas muy
específicos y. puntuales y que, normalmente, son incorporados en alguna de
aquellas técnicas con el objeto de mejorarlas.
56

Lectura 1

Cargado por

Copyright:

Formatos disponibles

Lectura 1

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Lectura 1

Cargado por

Copyright:

Formatos disponibles

Minería de Datos

continuo) o la mediana (caso discreto).

STACKING / CASCADE: se utiliza cada hipótesis como una variable y

3.3 Métodos de Minería de Datos

Pueden emplearse diferentes criterios para clasificar los sistemas de

 Dependiendo del objetivo para el que se realiza el aprendizaje, pueden

 Dependiendo de la tendencia con que se aborde el problema, se pueden

 Dependiendo del lenguaje utilizado para representar del conocimiento, se

A continuación describiremos con más detalle los diferentes métodos de

3.3.1 Agrupamiento ("Clustering"):

También llamada Segmentación, esta herramienta permite la identificación

Como resultado del tratamiento de la información, estas herramientas

Para otro tipo de elementos a agrupar o segmentar, como texto y

3.3.2 Asociación (" Association Pattern Discovery"):

Este tipo de herramientas establece las posibles relaciones o correlaciones

Normalmente este tipo de herramientas se fundamenta en técnicas

3.3.3 Secuenciamiento (“Sequential Pattern Discovery"):

Esta herramienta permite identificar como, en el tiempo, la ocurrencia de

3.3.4 Reconocimiento de Patrones ("Pattern Matching"):

Estas herramientas permiten la asociación de una señalo información de

En el ámbito particular del DM estas herramientas pueden ayudamos en la

Estas herramientas se sustentan en las técnicas de Redes Neuronales y

3.3.5 Previsión ("Forecasting"):

La Previsión establece el comportamiento futuro más probable dependiendo

Esta herramienta tiene su uso fundamental en el tratamiento de Series

Las herramientas de Previsión utilizan bien la propia información histórica, o

Las herramientas de Simulación forman parte también del conjunto de

Ello permite no sólo ajustar y adaptar el diseño sino posteriormente

La simulación se puede definir como la generación de múltiples escenarios

Al igual que la Previsión y la Simulación, las herramientas de Optimización

La optimización ha sido y es extensivamente usada en la resolución de los

La optimización resuelve el problema de la minimización o maximización de

Habitualmente estos problemas conllevan, adicionalmente, una serie de

3.3.8 Clasificación (“Clasification”, “Prediction” o “Scoring”):

La clasificación agrupa todas aquellas herramientas que permiten asignar a

A través del análisis de un colectivo de elementos, o casos de los cuales

También se utiliza para estas herramientas la denominación de Predicción o

Las herramientas de Clasificación hacen uso de técnicas como algoritmos

Como se ha podido apreciar, normalmente es necesaria la conjunción e

Sin una profunda transformación de los datos, muchas técnicas de

 Métodos de clasificación (árboles de decisión,...) están basados. en una

 Métodos numéricos (regresión, redes neuronales,...), los datos son

3.4 Técnicas de Minería de Datos

La minería de datos ha dado lugar a una paulatina sustitución del análisis

Como mencionamos al principio, los algoritmos de minería de datos se

En la tabla siguiente se muestran algunas de las técnicas de minería de

La aplicación de los algoritmos de minería de datos requiere la realización

La siguiente tabla muestra algunas de las técnicas más comunes de

3.4.1 Métodos Estadísticos:

La estadística es tradicionalmente la técnica que se ha usado para el

 ANOVA: Análisis de la Varianza, contrasta si existen diferencias

 Ji cuadrado: Contrasta la hipótesis de independencia entre variables.

 Componentes principales: Permite reducir el número de variables

 Análisis de clusters: Permite clasificar una población en un número

 Análisis discriminante: Método de clasificación de individuos en grupos

 Regresión Lineal: Técnica más básica del Data Mining. Un modelo de

 Regresión Logística: Puede trabajar con variables discretas. También

3.4.2 Métodos Basados en Arboles de Decisión

Son herramientas analíticas empleadas para el descubrimiento de reglas y