BI Tutoria03

Acción de Formación en
Business Intelligence para la

mejora de la gestión y la
productividad empresarial
Minería de Datos
Análisis predictivo
Concepto de Inteligencia de Negocios
Concepto de Inteligencia de Negocios
Plataformas de BI
Plataformas de BI
Business Analytics
● Inteligencia de negocios abarca una ● Según SAP, Business Analytics es
variedad de herramientas y “la práctica iterativa, la exploración
métodos que pueden ayudar a las metódica de datos en una empresa u
organización con énfasis en el
organizaciones para tomar mejores
análisis estadístico…para la toma de
decisiones analizando sus datos. decisiones basada en los datos”. Y
● Analítica de datos cae bajo la luego definen a Business
influencia de BI. Big data si se Intelligence como “las aplicaciones
utilizan con el propósito de analítica y tecnologías para la recolección,
también caen bajo el paraguas de almacenamiento, análisis y acceso a
BI. los datos para ayudar a una
empresa u organización a tomar
mejores decisiones de negocios”.
BI vs BA
● Son métodos y herramientas conectadas entre sí. La BI proporciona un
medio de “amasar” datos para encontrar información, principalmente, a
traves de consultas y preguntas, informes y procesamiento analítico en
línea.
● Mientras que la analítica de negocio toma ventaja de los datos
estadísticos y cuantitativos para el modelado predictivo y exploratorio.
● La situación actual es el volumen considerable de información no
estructurada que exige herramientas de analítica diferentes.
● Business Analytics (Analytics) es un subconjunto de BI basada en
estadística, analítica predictiva y optimización.
● BA, proporciona la información necesaria para tomar una actitud proactiva
en la gestión del futuro de su negocio.
Definición Final: BI
Herramientas para el BI
El proceso de
Minería de Datos
BI vs BA
● Son métodos y herramientas conectadas entre sí. La BI proporciona un
medio de “amasar” datos para encontrar información, principalmente, a
traves de consultas y preguntas, informes y procesamiento analítico en
línea.
● Mientras que la analítica de negocio toma ventaja de los datos
estadísticos y cuantitativos para el modelado predictivo y exploratorio.
● La situación actual es el volumen considerable de información no
estructurada que exige herramientas de analítica diferentes.
● Business Analytics (Analytics) es un subconjunto de BI basada en
estadística, analítica predictiva y optimización.
● BA, proporciona la información necesaria para tomar una actitud proactiva
en la gestión del futuro de su negocio.
¿Qué es Minería de Datos?
• En términos sencillos, consiste en encontrar patrones útiles en los datos.
• La minería de Datos es un proceso no elemental de búsqueda de relaciones,
correlaciones, dependencias, asociaciones, modelos, estructuras,
tendencias, clases, segmentos, los cuáles se obtienen de conjuntos grandes
de datos.
• Esta búsqueda se lleva a cabo utilizando
• Métodos matemáticos
• Métodos estadísticos
• Métodos algorítmicos
¿Qué es minería de Datos?
● Es analizar datos para encontrar patrones ocultos usando medios
automatizados.
● Se considera la Minería de Datos como un el proceso, que va de los datos

elementales disponibles en una lo más automatizado posible.
● El objetivo principal de la Minería de Datos es crear un proceso

automatizado que toma como punto de partida los datos y cuya meta es la
ayuda a la toma de decisiones.
Modelos
● Un modelo es la representación de una relación entre variables que hacen
parte de los datos.
● El modelo describe como una o más variables en los datos están
relacionadas con otras variables.
● Modelaje es un proceso por medio del cual se construye una abstracción
representativa a partir del conjunto de datos observado.
● Por ejemplo, en el contexto del análisis predictivo, la minería de datos es el
proceso de construir un modelo representativo que sea capaz de inferir el
valor de una variable a partir de los datos históricos de la misma.
Proceso del KDD
● KDD (Knowledge Discovery in Databases) es el proceso no trivial de
identificar patrones o relaciones válidos, novedosos, potencialmente
útiles y entendibles en los datos que nos permitan tomar decisiones
importantes.
Minería de Datos contra KDD
● Usualmente ambos términos son intercambiables.
● Descubrimiento de conocimiento en bases de datos (KDD =
Knowledge Discovery in Databases)
○ Es el proceso de encontrar información y/o

patrones útiles en los datos.
● Minería de datos
○ Es el uso de algoritmos para extraer información
y/o patrones derivados dentro del proceso KDD
La Minería es Parte del Proceso KDD
La Minería de Datos es el corazón del proceso de Descubrimiento del conocimiento

Minería de Datos vs Estadística
● La estadística generalmente analiza muestras de datos para luego hacer
inferencia a toda la población, mientras que la minería de datos pretende
buscar información útil usando toda la base de datos.
● La estadística, en la mayoría de los casos, supone que los datos se
comportan de acuerdo a ciertas distribuciones de probabilidad (normal,
binomial, geométrica, Poisson, etc.), mientras que la minería de datos usa
técnicas mucho más exploratorias que vienen del aprendizaje de máquina o
del análisis de datos, por ejemplo.
Minería de Datos vs Machine Learning
● Machine Learning es un área de la inteligencia artificial, en la que se le dan

a los computadores las herramientas necesaria para “aprender” sin
necesidad de ser programados por una persona.
● La Minería de datos utiliza los algoritmos del Aprendizaje Automático para las
tareas de predicción y clasificación.
● Este aprendizaje puede ser de dos tipos:
○ Supervisado (learns by example)
○ No supervisado
La ciencia de la Minería de Datos
Tipos de Minería de Datos
● Dos Categorías: modelos de aprendizaje supervisado y no supervisado.
● Las técnicas de aprendizaje supervisado intentan inferir una relación o
función basada en un conjunto de datos de entrenamiento y usan esta
función para obtener nuevos datos.
● Las técnicas supervisadas predicen el valor de un dato de salida a partir de
unas variables de entradas.
● La variable a predecir se denomina variable etiqueta o sencillamente variable
objetivo.
Aprendizaje no supervisado
● Las técnicas no supervisadas buscan descubrir patrones escondidos en los
datos. Aquí no hay variables de salidas que vayamos a descubrir.
● El objetivo aquí es encontrar patrones en los datos basado en las relaciones
entre los mismos datos.
● Es posible que un análisis de datos utilice ambos tipos de aprendizaje.
Tipos de Algoritmos de Minería de Datos
• Los problemas de Minería de Datos también se
pueden agrupar en tareas de:
• Clasificación
• Regresión
• Análisis de Asociación
• Detección de Anomalías
• Series de Tiempo
• Minería de Texto
25
Tareas de la Minería de Datos
Técnicas de Minería de Datos
● Las técnicas de Clasificación y regresión predicen una variable
objetivo basado en los datos existentes de una serie de
variables de entrada.
● Las técnicas de clustering buscan identificar agrupamientos
naturales en el conjunto de datos con el que se cuenta.
● La detección de anomalías o outliers identifica puntos en los
datos que son significativamente diferente de otros puntos en el
conjunto de datos.
● Las series de tiempo son un tipo especial de regresión, donde
el modelo de predicción de una variable está basado en valores
pasados de la misma variable.
● La minería de texto es aquella donde realizamos la búsqueda
de patrones en textos, como documentos, mensajes, correos
electrónicos o páginas web.
Ejemplos de las técnicas de Minería de Datos
● Clasificación: predecir si un punto de
datos pertenece a una de las clases
predefinidas. La predicción estará
basada en el aprendizaje realizado de
un conjunto de datos conocidos
○ Algoritmos: árboles de decisión, redes

neuronales, modelos bayesianos, reglas de
inducción, KNN
○ Ejemplos: Particionamiento de votantes,

segmentación de clientes.
Tareas de la Minería de Datos
● Regresión: se usa para predecir los valores ausentes de una variable
basándose en su relación con otras variables del conjunto de datos.
○ Algoritmos: regresión lineal, regresión logística, logarítmica.
○ Ejemplos: predecir la tasa de desempleo del próximo año, estimar las ventas de vehículos de
un concesionario.
Ejemplos
● Detección de Anomalías: predice si un punto de dato está por fuera de los valores
esperados a partir de otros datos que hacen parte del conjunto.
○ Algoritmos: local outlier factor (LOF), ubicación basada en distancia, ubicación basada en densidad.
○ Ejemplo: detección de fraudes en transacciones comerciales, detección de intrusos en redes.

● Series de tiempo: predecir el valor futuro de una variable que depende del tiempo
basado en sus valores históricos
○ Algoritmos: aplanamiento exponencial, promedio de movimiento integrado autorregresivo, regresión
○ Ejemplo: predicción de ventas, o de producción

Más Ejemplos
● Clustering: identifica grupos naturales dentro de un conjunto de datos basado
en propiedades inherentes del mismo conjunto. Es similar a la clasificación,
excepto que los grupos no son predefinidos. El objetivo es particionar o
segmentar un conjunto de datos o individuos en grupos que pueden ser
disyuntos o no. Los grupos se forman basados en la similaridad de los datos
o individuos en ciertas variables. Como los grupos no son dados a priori, el
experto debe dar una interpretación de los grupos que se forman.
○ Algoritmos: k-means, clustering basado en densidad
○ Ejemplos: encontrar segmentos de mercado

Clustering
Ejemplos
● Análisis de asociación: identificar relaciones dentro de un conjunto de datos
basados en datos transaccionales. Encuentra “reglas” las cuáles gobiernan
eventos que pueden ocurrir simultáneamente.
○ Algoritmos: FP-Growth, algoritmo a priori
○ Ejemplos: encontrar oportunidades de cross-selling de un comercio basado en la historia de

ventas del mismo, análisis de canasta de supermercado (objetos que se consumen
simultáneamente), análisis de patrones secuenciales (orden en que las cosas ocurren)
¿Qué tipos de datos?
● Bases de datos relacionales
● Bodegas de datos
● Bases de datos transaccionales
● Bases de datos orientadas a objetos y simbólicas
● Bases de datos espaciales Sistemas de Información Geográfica - GIS
● Series cronológicas de datos y los datos temporales
● Bases de datos de texto
● Bases de datos multimedia
● www (web mining)
Etapas en el KDD
● Aprender el dominio de la aplicación
Conocimiento previo relevante y objetivos de la aplicación
● Crear un conjunto de datos objetivo: selección de los datos
● Limpieza de los datos y preprocesamiento (mucho esfuerzo)
● Reducción de datos y transformación:
Encontrar características útiles, reducción de variables / dimensionalidad.
● Escoger los métodos de la minería de datos
Clasificación, regresión, asociación, agrupamiento
● Escoger los algoritmos de minería de datos
● Evaluar los patrones y representación del conocimiento
Visualización, transformación, eliminar patrones redundantes
● Uso del conocimiento descubierto
Metodología
CRISP-DM reference model
Este modelo proviene de la revisión del ciclo de vida de un
proyecto de Data Mining. Muestra las fases, sus tareas y
relaciones entre las tareas.
● Comprende seis (6) fases. La secuencia de ejecución no
es rígida.
● Avanzar y retroceder siempre será necesario, depende
del resultados de cada fase o tarea particular de la fase.
● Las flechas representan las dependencias más
importantes y frecuentes que se dan entre las fases.
● El objetivo no es la solución, en el camino se crean
lecciones aprendidas que disparan más preguntas.
Fuente CRISP-DM 1.0, Step by Step Dada Mining Guide.

SPSS. 2000
Metodología

SPSS. 2000
Metodología
● Comprensión del Negocio. Se enfoca en comprender los
objetivos y requerimientos del proyecto, desde la perspectiva
del negocio. Esto se convierte en un problema Data Mining y
en el diseño de un plan preliminar.
● Comprensión de los Datos. Comienza con el Data
Collection inicial y actividades para familiarizarse con él,
identificando problemas de Data Quality, descubrir los
primeros Insights o detectar subconjuntos interesantes. Se
construyen hipótesis iniciales que orienten hacia información
oculta.
● Preparación de los Datos. Son todas las actividades para
construir el Data Set final, estas se realizan múltiples veces y
sin orden específico. Incluye selección, transformación y
limpieza de tablas, registros y atributos.

SPSS. 2000
Metodología
● Modelado. Se seleccionan y aplican varias técnicas, sus
parámetros son calibrados hacia valores óptimos. En general
hay técnicas para un tipo de problema y algunas específicas
según la forma de los datos. A menudo es necesario regresar
a Data Preparation para mejorar resultados.
● Evaluación. En este punto se tienen varios modelos que
generan valor a los datos. Antes de decidir, se debe evaluar y
revisar los pasos de construcción para asegurar que logran
los objetivos del negocio.
● Despliegue. La creación del modelo no es el fin del proyecto.
Los resultados deben presentarse para que el cliente los use.
Depende de los requerimientos, puede ser un reporte o
diseñar un proceso repetible para la empresa.

SPSS. 2000
¿Qué no es Minería?
● En general la Minería de Datos NO se basa en modelos
Determinísticos.
● Un modelo Determinístico es un modelo matemático
donde las mismas entradas producirán invariablemente
las mismas salidas, no contemplándose la existencia del
azar ni el principio de incertidumbre.
¿Qué no es minería de datos?
● En general la Minería de Datos se basa en modelos
Probabilísticos.
● Un modelo Probabilístico es un modelo matemático que
nos ayuda a predecir la conducta de futuras repeticiones
de un experimento aleatorio mediante la estimación de
una probabilidad de ocurrencia de dicho evento concreto.
Que no es Minería de Datos?
● Estadística Descriptiva
● Visualización Exploratoria
● Técnicas OLAP, Análisis Dimensional
● Pruebas de Hipótesis
● Consultas sobre las Bases de Datos
Métodos de Clasificación
Tipos de Variables
Clasificación de los Atributos
En algunos casos es importante hacer distinción entre las diferentes
categorías de variables. Sistemas de Data Mining las dividen:
● Categóricas. Corresponden a viables nominales, binarias y
ordinales.
● Continuas. Corresponden a variables enteras, intervalo escala y
relación escala.
La categoría “Ignore”, variables que no son significativas para la
aplicación. Ej. Nombres o Números de Identificación. No se deben
borrar del data set, pero no se tienen en cuenta.
Fuente Principles of Data Mining. Max Bramer. Springer. 2007

Definición
● Dada una colección de registros (conjunto de entrenamiento o training set)
○ Cada registro contiene un conjunto de atributos, uno de estos atributos se denomina la clase
o etiqueta.
● Se busca encontrar un modelo para la etiqueta como una función de los
valores de los otros atributos.
● Objetivo: registros previamente desconocidos se les debe asignar una
etiqueta de una forma lo más acertada posible.
○ Un conjunto de prueba o test set es utilizado para determinar la fiabilidad o precisión del
modelo. Usualmente, el data set que se utiliza se divide en dos: el data set de entrenamiento
y el data set de prueba. El primero se usa para construir el modelo y el segundo para
validarlo.
Ilustrar la tarea de clasificación
Tid Attrib1 Attrib2 Attrib3 Class Learning
1 Yes Large 125K No
algorithm
2 No Medium 100K No
3 No Small 70K No
4 Yes Medium 120K No

Induction
5 No Large 95K Yes
6 No Medium 60K No
7 Yes Large 220K No Learn

8 No Small 85K Yes Model
9 No Medium 75K No
10 No Small 90K Yes

Model
10
Training Set
Apply
Tid Attrib1 Attrib2 Attrib3 Class Model
11 No Small 55K ?
12 Yes Medium 80K ?
13 Yes Large 110K ? Deduction

14 No Small 95K ?
15 No Large 67K ?
10
Test Set
Ejemplos de Tareas de Clasificación
● Predecir células tumorales como benignas o malignas
● Clasificar transacciones de tarjetas de crédito como legítimas o fraudulentas.
● Clasificar estructuras secundarias de proteínas como alfa-hélix, beta-sheet o
aleatorias.
● Categorizar noticias que llegan a un periódico como relacionadas con el
clima, entretenimiento, deportes, etc.
Clasificación por K-NN
● K-NN = K Nearest Neighbors
● La minería de Datos Predictiva utiliza métodos y técnicas que buscan
generalizar las relaciones dentro del dataset y usando esta generalización
busca predecir el resultado de nuevos datos nunca antes visto.
● Con K-NN buscamos aplicar el popular refrán de “Dime con quien andas y te
diré quien eres”
¿De qué se trata K-NN?
● Se parte del principio que registros similares se congregan en el mismo
vecindario de un espacio n-dimensional, con la misma variable objetivo o
etiqueta.
● El algoritmo k-NN memoriza todo el dataset, y cuando un nuevo registro
necesite ser clasificado, los atributos del nuevo regitro se comparan contra
todo el dataset de entrenamiento y se busca aquel registro del dataset
original que esté más cerca.
● La etiqueta asignada a este registro más cercano se convertirá también en la
etiqueta del nuevo registro que no estaba clasificado.
¿Cómo trabaja k-NN?
Significado de la k
● La k en el algoritmo k-NN indica el número de registros cercanos que

necesitan ser considerados cuando se hace la predicción sobre la
pertenencia de un nuevo elemento a un grupo.
● Cuando k=1, el modelo intenta encontrar el primer registro más
cercano al nuevo elemento, y con sólo ese basta para determinar la
etiqueta a asignar.
Proximidad
● La efectividad del algoritmo k-NN reside en la determinación de qué tan similar o
diferente es un registro de prueba al momento de compararlos con dataset de
entrenamiento que hemos previamente memorizado.
● Una medida de proximidad entre dos registros es una medida de qué tan cerca
o lejos se encuentran los atributos de esos registros.
● Para cuantificar esta cercanía o similaridad tenemos varias técnicas interesantes,
tales como:
○ Distancia euclidiana
○ Correlación
○ Similaridad de Jaccard o de Cosenos

Árboles de Decisión
● Conjunto de condiciones o reglas organizadas en una estructura jerárquica,
de tal manera que la decisión final se puede determinar siguiendo las
condiciones que se cumplen desde la raíz hasta algunas de sus hojas.
● Técnica de clasificación
● Ventajas:
○ Relativamente rápido
○ Obtiene esquemas precisos algunas veces mejores comparados con otros modelos
○ Son simples y fáciles de entender
○ También se pueden convertir en reglas de clasificación simples y fáciles.

Árboles de Decisión
Atributos usados para división

Tid Refund Marital Taxable
Status Income Cheat
1 Yes Single 125K No

2 No Married 100K No Refun
Yes d No
3 No Single 70K No
4 Yes Married 120K No NO MarSt
5 No Divorced 95K Yes Married
Single, Divorced
6 No Married 60K No
7 Yes Divorced 220K No TaxInc NO
8 No Single 85K Yes < 80K > 80K
9 No Married 75K No
NO YES
10 No Single 90K Yes
10
Datos de Entrenamiento Modelo: Decision Tree

Otro ejemplo
MarSt Single,
Tid Refund Marital Taxable
Married Divorce
Status Income Cheat d
NO Refun
1 Yes Single 125K No
Yes d No
2 No Married 100K No
3 No Single 70K No NO TaxInc
4 Yes Married 120K No < 80K > 80K
5 No Divorced 95K Yes
NO YES
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No Puede haber más de un árbol para el mismo
conjunto de datos
10 No Single 90K Yes
10
Aplicar el Modelo
Test Data
Iniciar desde la raíz del Refund Marital Taxable
árbol. Status Income Cheat
No Married 80K ?
Refund 10
Yes No
NO MarSt
Single, Divorced Married
TaxInc NO
< 80K > 80K
NO YES
Aplicar el modelo a los datos de prueba
Test Data
Refund Marital Taxable
Status Income Cheat
No Married 80K ?
Refund 10
Yes No
NO MarSt
TaxInc NO
< 80K > 80K
NO YES

Status Income Cheat
No Married 80K ?
Refund 10
Yes No
NO MarSt
TaxInc NO
< 80K > 80K
NO YES
Test Data
Status Income Cheat
No Married 80K ?
Refund 10
Yes No
NO MarSt
TaxInc NO
< 80K > 80K
NO YES
Test Data
Status Income Cheat
No Married 80K ?
Refund 10
Yes No
NO MarSt
TaxInc NO
< 80K > 80K
NO YES

Status Income Cheat
No Married 80K ?
Refund 10
Yes No
NO MarSt
Single, Divorced Married La etiqueta será “No”
TaxInc NO
< 80K > 80K
NO YES
Construcción del árbol
● Dos Fases
○ Fase de construcción del árbol
■ Se particiona repetidamente los datos de entrenamiento hasta que

todos los registros en cada partición pertenezca a una clase o etiqueta o
que la partición sea lo suficientemente pequeña.
○ Fase de “poda” (pruning)
■ Eliminar dependencias a partir de “ruido” estadístico o variaciones que

pueden ser particulares al conjunto de entrenamiento.
Decision Trees
Situación: Un jugador de golf decide jugar o no, dependiendo de las
condiciones del clima. Aquí los resultados del clima de 2 semanas
(14 días) y la decisión tomada.
Fuente Principles of Data Mining. Max Bramer. Springer.

2007
Decision Trees
Asumiendo que el jugador actúa consistentemente, se podría
elaborar las siguientes preguntas:
● ¿cuáles reglas determinan si sale a jugar cada día?
● Si mañana los valores de Outlook, Temp, Humidity y
Windy son: sunny, 74°F, 77% y false respectivamente,
¿Saldrá a jugar?
Evaluar las condiciones de una nueva situación de forma
independiente es complicado.
Lo ideal es darle un orden a la evaluación

Ofrecer una representación gráfica genera más comprensión.

2007
Decision Trees
El árbol de decisión le da un orden a las reglas, lo que facilita tomar una
decisión (clasificación) para una nueva muestra.
Luego, con las condiciones del siguiente día: ¿Jugará o no?

Outlook, Temp, Humidity y Windy son: sunny, 74°F, 77% y false
respectivamente
2007
Decision Trees
● Un árbol de decisión es creado por un proceso conocido
como división en el valor de los atributos (o simplemente
división en atributos).
● Para variables categóricas, se comprueba el valor del atributo
y luego se crea una rama para cada uno de sus valores
posibles.
● En el caso de atributos continuos, la prueba es normalmente
si el valor es “menor o igual a” o “mayor que” un valor dado
conocido como el valor de división.
● El proceso de división continúa hasta que cada rama se
puede marcar con sólo una clasificación.

2007
Decision Trees
Para el uso práctico, las reglas que componen el árbol,
fácilmente pueden simplificarse a un conjunto anidado
equivalente de SI… ENTONCES… ELSE. Reglas con
aún más la compresión.
SI (shape == wedge) ENT no
SI (shape == brick) ENT yes
SI (shape == pillar) ENT
{
SI (colour == red) no
SI (colour == green) yes
}
SI (shape == sphere) yes

2007
Evaluación del Modelo
Evaluación del modelo
● La Matriz de Confusión contiene información acerca de las predicciones
realizadas por un Método o Sistema de Clasificación, comparando para el
conjunto de individuos en los datos de aprendizaje o de testing, la predicción
dada versus la clase, categoría o etiqueta a la que estos realmente
pertenecen.
● La siguiente tabla muestra la matriz de confusión para un clasificador de dos
clases:
Ejemplo: Matriz de confusión
● 800 predicciones de Mal Pagador fueron realizadas correctamente,

para un 80%, mientras que 200 no, para un 20%.
● 1500 predicciones de Buen Pagador fueron realizadas
correctamente, para un 75%, mientras que 500 no (para un 25%).
● En general 2300 de 3000 predicciones fueron correctas para un
76,6% de efectividad en las predicciones. Cuidado, este dato es a
veces engañoso y debe ser siempre analizado en la relación a la
dimensión de las clases.
Matriz de confusión
● La Precisión P de un modelo de predicción es la proporción del número total

de predicciones que son correctas respecto al total. Se determina utilizando
la ecuación: P = (a+d)/(a+b+c+d)
● Cuidado, este índice es a veces engañoso y debe ser siempre analizado en
la relación a la dimensión de las clases.
Matriz de confusión
● La Precisión Positiva (PP) es la proporción de casos positivos que fueron
identificados correctamente, tal como se calcula usando la ecuación: PP =
d/(c+d)
● La Precisión Negativa (PN) es la proporción de casos negativos que fueron
identificados correctamente, tal como se calcula usando la ecuación: PN =
a/(a+b)
● Falsos Positivos (FP) es la proporción de casos negativos que fueron clasificados
incorrectamente como positivos, tal como se calcula utilizando la ecuación: FP =
b/(a+b)
● Falsos Negativos (FN) es la proporción de casos positivos que fueron clasificados
incorrectamente como negativos, tal como se calcula utilizando la ecuación: FN =
c/(c+d)
Matriz de Confusión
● Asertividad Positiva (AP) indica la proporción de buena predicción para los

positivos, tal como se calcula utilizando la ecuación: FN = d/(b+d)
● Asertividad Negativa (AN) indica la proporción de buena predicción para los
negativos, tal como se calcula utilizando la ecuación: FN = a/(a+c)
Taller de Aplicación
Realizar el árbol de decisión y la evaluación de
desempeño del “Iris DataSet”. Utilice un esquema de
evaluación de 70% para entrenamiento y 30% para
prueba.

BI Tutoria03

Cargado por

Copyright:

Formatos disponibles

BI Tutoria03

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

BI Tutoria03

Cargado por

Copyright:

Formatos disponibles

Acción de Formación en

Business Intelligence para la

● Se considera la Minería de Datos como un el proceso, que va de los datos

● El objetivo principal de la Minería de Datos es crear un proceso

○ Es el proceso de encontrar información y/o

La Minería de Datos es el corazón del proceso de Descubrimiento del conocimiento

● Machine Learning es un área de la inteligencia artificial, en la que se le dan

○ Supervisado (learns by example)

○ Algoritmos: árboles de decisión, redes

○ Ejemplos: Particionamiento de votantes,

○ Algoritmos: regresión lineal, regresión logística, logarítmica.

○ Ejemplo: detección de fraudes en transacciones comerciales, detección de intrusos en redes.

○ Algoritmos: aplanamiento exponencial, promedio de movimiento integrado autorregresivo, regresión

○ Ejemplo: predicción de ventas, o de producción

○ Algoritmos: k-means, clustering basado en densidad

○ Ejemplos: encontrar segmentos de mercado

○ Algoritmos: FP-Growth, algoritmo a priori

○ Ejemplos: encontrar oportunidades de cross-selling de un comercio basado en la historia de

Fuente CRISP-DM 1.0, Step by Step Dada Mining Guide.

Fuente CRISP-DM 1.0, Step by Step Dada Mining Guide.

Fuente CRISP-DM 1.0, Step by Step Dada Mining Guide.

Fuente CRISP-DM 1.0, Step by Step Dada Mining Guide.

Fuente Principles of Data Mining. Max Bramer. Springer. 2007

4 Yes Medium 120K No

7 Yes Large 220K No Learn

10 No Small 90K Yes

12 Yes Medium 80K ?

13 Yes Large 110K ? Deduction

● La k en el algoritmo k-NN indica el número de registros cercanos que

○ Similaridad de Jaccard o de Cosenos

○ Son simples y fáciles de entender

○ También se pueden convertir en reglas de clasificación simples y fáciles.

Atributos usados para división

1 Yes Single 125K No

Datos de Entrenamiento Modelo: Decision Tree

Refund Marital Taxable

Refund Marital Taxable

■ Se particiona repetidamente los datos de entrenamiento hasta que

○ Fase de “poda” (pruning)

■ Eliminar dependencias a partir de “ruido” estadístico o variaciones que

Fuente Principles of Data Mining. Max Bramer. Springer.

Lo ideal es darle un orden a la evaluación

Fuente Principles of Data Mining. Max Bramer. Springer.

Luego, con las condiciones del siguiente día: ¿Jugará o no?

Fuente Principles of Data Mining. Max Bramer. Springer.

Fuente Principles of Data Mining. Max Bramer. Springer.

● 800 predicciones de Mal Pagador fueron realizadas correctamente,

● La Precisión P de un modelo de predicción es la proporción del número total

● Asertividad Positiva (AP) indica la proporción de buena predicción para los

También podría gustarte