BI Tutoria03
BI Tutoria03
BI Tutoria03
Análisis predictivo
Concepto de Inteligencia de Negocios
Concepto de Inteligencia de Negocios
Plataformas de BI
Plataformas de BI
Business Analytics
● Inteligencia de negocios abarca una ● Según SAP, Business Analytics es
variedad de herramientas y “la práctica iterativa, la exploración
métodos que pueden ayudar a las metódica de datos en una empresa u
organización con énfasis en el
organizaciones para tomar mejores
análisis estadístico…para la toma de
decisiones analizando sus datos. decisiones basada en los datos”. Y
● Analítica de datos cae bajo la luego definen a Business
influencia de BI. Big data si se Intelligence como “las aplicaciones
utilizan con el propósito de analítica y tecnologías para la recolección,
también caen bajo el paraguas de almacenamiento, análisis y acceso a
BI. los datos para ayudar a una
empresa u organización a tomar
mejores decisiones de negocios”.
BI vs BA
● Son métodos y herramientas conectadas entre sí. La BI proporciona un
medio de “amasar” datos para encontrar información, principalmente, a
traves de consultas y preguntas, informes y procesamiento analítico en
línea.
● Mientras que la analítica de negocio toma ventaja de los datos
estadísticos y cuantitativos para el modelado predictivo y exploratorio.
● La situación actual es el volumen considerable de información no
estructurada que exige herramientas de analítica diferentes.
● Business Analytics (Analytics) es un subconjunto de BI basada en
estadística, analítica predictiva y optimización.
● BA, proporciona la información necesaria para tomar una actitud proactiva
en la gestión del futuro de su negocio.
Definición Final: BI
Herramientas para el BI
El proceso de
Minería de Datos
BI vs BA
● Son métodos y herramientas conectadas entre sí. La BI proporciona un
medio de “amasar” datos para encontrar información, principalmente, a
traves de consultas y preguntas, informes y procesamiento analítico en
línea.
● Mientras que la analítica de negocio toma ventaja de los datos
estadísticos y cuantitativos para el modelado predictivo y exploratorio.
● La situación actual es el volumen considerable de información no
estructurada que exige herramientas de analítica diferentes.
● Business Analytics (Analytics) es un subconjunto de BI basada en
estadística, analítica predictiva y optimización.
● BA, proporciona la información necesaria para tomar una actitud proactiva
en la gestión del futuro de su negocio.
¿Qué es Minería de Datos?
• En términos sencillos, consiste en encontrar patrones útiles en los datos.
• La minería de Datos es un proceso no elemental de búsqueda de relaciones,
correlaciones, dependencias, asociaciones, modelos, estructuras,
tendencias, clases, segmentos, los cuáles se obtienen de conjuntos grandes
de datos.
• Esta búsqueda se lleva a cabo utilizando
• Métodos matemáticos
• Métodos estadísticos
• Métodos algorítmicos
¿Qué es minería de Datos?
● Es analizar datos para encontrar patrones ocultos usando medios
automatizados.
○ No supervisado
La ciencia de la Minería de Datos
Tipos de Minería de Datos
● Dos Categorías: modelos de aprendizaje supervisado y no supervisado.
● Las técnicas de aprendizaje supervisado intentan inferir una relación o
función basada en un conjunto de datos de entrenamiento y usan esta
función para obtener nuevos datos.
● Las técnicas supervisadas predicen el valor de un dato de salida a partir de
unas variables de entradas.
● La variable a predecir se denomina variable etiqueta o sencillamente variable
objetivo.
Aprendizaje no supervisado
● Las técnicas no supervisadas buscan descubrir patrones escondidos en los
datos. Aquí no hay variables de salidas que vayamos a descubrir.
● El objetivo aquí es encontrar patrones en los datos basado en las relaciones
entre los mismos datos.
● Es posible que un análisis de datos utilice ambos tipos de aprendizaje.
Tipos de Algoritmos de Minería de Datos
• Los problemas de Minería de Datos también se
pueden agrupar en tareas de:
• Clasificación
• Regresión
• Análisis de Asociación
• Detección de Anomalías
• Series de Tiempo
• Minería de Texto
25
Tareas de la Minería de Datos
Técnicas de Minería de Datos
● Las técnicas de Clasificación y regresión predicen una variable
objetivo basado en los datos existentes de una serie de
variables de entrada.
● Las técnicas de clustering buscan identificar agrupamientos
naturales en el conjunto de datos con el que se cuenta.
● La detección de anomalías o outliers identifica puntos en los
datos que son significativamente diferente de otros puntos en el
conjunto de datos.
● Las series de tiempo son un tipo especial de regresión, donde
el modelo de predicción de una variable está basado en valores
pasados de la misma variable.
● La minería de texto es aquella donde realizamos la búsqueda
de patrones en textos, como documentos, mensajes, correos
electrónicos o páginas web.
Ejemplos de las técnicas de Minería de Datos
● Clasificación: predecir si un punto de
datos pertenece a una de las clases
predefinidas. La predicción estará
basada en el aprendizaje realizado de
un conjunto de datos conocidos
○ Ejemplos: predecir la tasa de desempleo del próximo año, estimar las ventas de vehículos de
un concesionario.
Ejemplos
● Detección de Anomalías: predice si un punto de dato está por fuera de los valores
esperados a partir de otros datos que hacen parte del conjunto.
○ Algoritmos: local outlier factor (LOF), ubicación basada en distancia, ubicación basada en densidad.
3 No Small 70K No
6 No Medium 60K No
Training Set
Apply
Tid Attrib1 Attrib2 Attrib3 Class Model
11 No Small 55K ?
15 No Large 67K ?
10
Test Set
Ejemplos de Tareas de Clasificación
● Predecir células tumorales como benignas o malignas
● Clasificar transacciones de tarjetas de crédito como legítimas o fraudulentas.
● Clasificar estructuras secundarias de proteínas como alfa-hélix, beta-sheet o
aleatorias.
● Categorizar noticias que llegan a un periódico como relacionadas con el
clima, entretenimiento, deportes, etc.
Clasificación por K-NN
● K-NN = K Nearest Neighbors
● La minería de Datos Predictiva utiliza métodos y técnicas que buscan
generalizar las relaciones dentro del dataset y usando esta generalización
busca predecir el resultado de nuevos datos nunca antes visto.
● Con K-NN buscamos aplicar el popular refrán de “Dime con quien andas y te
diré quien eres”
¿De qué se trata K-NN?
● Se parte del principio que registros similares se congregan en el mismo
vecindario de un espacio n-dimensional, con la misma variable objetivo o
etiqueta.
● El algoritmo k-NN memoriza todo el dataset, y cuando un nuevo registro
necesite ser clasificado, los atributos del nuevo regitro se comparan contra
todo el dataset de entrenamiento y se busca aquel registro del dataset
original que esté más cerca.
● La etiqueta asignada a este registro más cercano se convertirá también en la
etiqueta del nuevo registro que no estaba clasificado.
¿Cómo trabaja k-NN?
Significado de la k
○ Correlación
○ Obtiene esquemas precisos algunas veces mejores comparados con otros modelos
MarSt Single,
Tid Refund Marital Taxable
Married Divorce
Status Income Cheat d
NO Refun
1 Yes Single 125K No
Yes d No
2 No Married 100K No
3 No Single 70K No NO TaxInc
4 Yes Married 120K No < 80K > 80K
5 No Divorced 95K Yes
NO YES
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No Puede haber más de un árbol para el mismo
conjunto de datos
10 No Single 90K Yes
10
Aplicar el Modelo
Test Data
Iniciar desde la raíz del Refund Marital Taxable
árbol. Status Income Cheat
No Married 80K ?
Refund 10
Yes No
NO MarSt
Single, Divorced Married
TaxInc NO
< 80K > 80K
NO YES
Aplicar el modelo a los datos de prueba
Test Data
Refund Marital Taxable
Status Income Cheat
No Married 80K ?
Refund 10
Yes No
NO MarSt
Single, Divorced Married
TaxInc NO
< 80K > 80K
NO YES
Aplicar el modelo a los datos de prueba
No Married 80K ?
Refund 10
Yes No
NO MarSt
Single, Divorced Married
TaxInc NO
< 80K > 80K
NO YES
Aplicar el modelo a los datos de prueba
Test Data
Refund Marital Taxable
Status Income Cheat
No Married 80K ?
Refund 10
Yes No
NO MarSt
Single, Divorced Married
TaxInc NO
< 80K > 80K
NO YES
Aplicar el modelo a los datos de prueba
Test Data
Refund Marital Taxable
Status Income Cheat
No Married 80K ?
Refund 10
Yes No
NO MarSt
Single, Divorced Married
TaxInc NO
< 80K > 80K
NO YES
Aplicar el modelo a los datos de prueba
No Married 80K ?
Refund 10
Yes No
NO MarSt
Single, Divorced Married La etiqueta será “No”
TaxInc NO
< 80K > 80K
NO YES
Construcción del árbol
● Dos Fases
○ Fase de construcción del árbol