MUI40 - BDA - PER1823 - Tema 02 - Análisis de Datos

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 43

Big Data y Analytics

Óscar García

Análisis de datos
Esquema

Big Data y Analytics– Óscar García 2


Objetivos

► Descubrir o enfatizar la relación entre la Estadística y Big Data.


► Definir los conceptos básicos de estadística como base para la
descripción y/o definición de los problemas a resolver.
► Entender la importancia de la probabilidad y sus propiedades a la
hora de analizar datos y sucesos, diseñar sistemas predictivos,
etc.
► Entender e identificar diferentes tipos de gráficas para representar
la información e identificar pautas para optimizar su elección.
► Identificar algunos de los retos de la estadística en la Industria 4.0.

Big Data y Analytics– Óscar García 3


Introducción
► Ciencias básica a la hora de estudiar y analizar datos e información

La estadística es la ciencia que nos permite aprender de los datos,


ganar en compresión de un fenómeno a partir de los datos que se
manejan sobre este (Moore, 2006).

► Fases de un estudio estadístico:

► Dependiendo se su uso:
– Estadística descriptiva: se limita a describir una población basándose en la
información recogida de su muestra.
– Estadística inferencial: extrae conclusiones sobre la población de estudio.

Big Data y Analytics– Óscar García 4


Conceptos básicos de estadística
Población, muestra y muestreo
► Población:
– La estadística trabaja con datos, generalmente números contextualizados
que constituyen información sobre algo.
– Ese “algo” es lo que denominamos individuo. Los individuos forman un
colectivo llamado población, objeto de estudio y sus conclusiones.
– La estadística se encarga de fenómenos colectivos que no atienden a leyes
deterministas, de aquellos que contienen algún elemento de incertidumbre.
► Muestra:
– Conjunto de individuos seleccionados dentro de una población.
– Subconjunto de la población.
► Muestreo:
– Proceso de selección de los individuos que forman parte de una muestra.
– Debe garantizar un mínimo de calidad de los datos.
– Muestra representativa: diversidad lo más similar posible a la población de
origen.
– Error de muestreo: inherente al proceso debido a la inferencia y
extrapolación. Minimizarlo es clave.
Big Data y Analytics– Óscar García 5
Conceptos básicos de estadística
Tipos de variables estadísticas

► Cualitativas: Expresan distintas cualidades o características. Descriptivas.


– Nominales: Meramente cualitativas.
– Ordinales: Poseen un orden.
► Cuantitativas: Aquellas que toman valores numéricos.
– Discretas: Toman un número finito de valores.
– Continuas: Pueden tomar infinitos valores.

Siguiendo un enfoque metodológico:

► Dependientes: Su valor depende del valor que tomen otras.


► Independientes: Su valor no depende del valor que tomen otras.

Big Data y Analytics– Óscar García 6


Conceptos básicos de estadística
Tipos de variables estadísticas

Otras:
► Intermediarias u omitidas:
– Actúan como variables explicativas de nuestra variable dependiente de un
modo “oculto”.
– Conviene identificarlas para no establecer asociaciones y presuponer
causalidades infundadas
► Dicotómicas:
– Describen el hecho de que algo ocurra (1) o no ocurra (0).
– Boolean.

En la práctica, una misma variable puede ser recodificada de diferentes modos.

Big Data y Analytics– Óscar García 7


Conceptos básicos de estadística
Diseño de experimentos

Los estudios estadísticos pueden ser de dos clases:

► Observacionales:
– Aquellos en los recogemos datos observando por lo que no intervenimos ni
alteramos a los individuos de ningún modo.

► Experimentales:
– Aquellos en los que aplicamos tratamientos y luego observamos sus efectos
sobre sus sujetos, que aquí pasan a llamarse unidades experimentales.

Big Data y Analytics– Óscar García 8


Técnicas de análisis univariante

Big Data y Analytics– Óscar García 9


Conceptos básicos de estadística

Big Data y Analytics– Óscar García 10


Conceptos básicos de estadística

Big Data y Analytics– Óscar García 11


Conceptos básicos de estadística
Tabulación de variables

► En la práctica se suelen incluir las columnas de frecuencias “normales” y relativas


en forma de porcentajes:

► Las frecuencias relativas son sustituidas por porcentajes (conceptos equivalentes)


siendo las frecuencias relativas el tanto por uno los que los porcentajes al tanto por
ciento.

► Valores perdidos (missing): Individuos que no tienen asociado un valor para


cada variable. Columna de válidos.

Big Data y Analytics– Óscar García 12


Técnicas de análisis univariante
Medidas que resumen la información
► Medidas de tendencia central:
Medidas en torno al centro de la distribución de los datos
Valores en el medio, o la mitad, que representan a todos los datos
– Media: Suma de todos los valores dividida por el número de ls
valores. Frecuentista, se ve afectada por valores atípicos y no
es suficiente para explicar la distribución.
– Media ponderada: Cada valor de la media se pondera por un
peso. No frecuentista.
– Mediana: Observación que ocupa el lugar central en un
conjunto de datos. Más robusta que la media frente a valores
extremos y de uso con variables cuantitativas.
– Moda: Valor más frecuente del conjunto de datos.

Big Data y Analytics– Óscar García 13


Técnicas de análisis univariante
Medidas que resumen la información
► Medidas de dispersión:
Medidas que nos indican cuánto se desvían los datos
Importantes para entender su distribución
– Rango: Diferencia entre la observación máxima y la mínima.
– Varianza: Promedio de las desviaciones de los datos a su
media. Elevadas al cuadrado para que no le afecte el sentido
de estas (si es negativo o positivo):
∑ (𝑥 − 𝑥)̅ 2
𝑖
𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 = 𝑠 2 =
𝑛
– Desviación típica o estándar: Mide el tamaño de la desviación.
Para no perder tanto la referencia de la magnitud:
∑(𝑥𝑖 − 𝑥)̅ 2
𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑡í𝑝𝑖𝑐𝑎 = 𝑠 =
𝑛

Big Data y Analytics– Óscar García 14


Técnicas de análisis univariante
Medidas que resumen la información
Desviación típica - Ejemplo

Fuente del ejemplo: https://www.disfrutalasmatematicas.com/datos/desviacion-estandar.html

Big Data y Analytics– Óscar García 15


Técnicas de análisis univariante
Medidas que resumen la información
► Medidas de posición y forma:
Indican si un valor está alejado o no de su media.
Da idea de lo extremo que es comparado con la «mayoría» de los
datos de su conjunto
– Puntuaciones tipificadas: Número de desviaciones típicas que
se aleja un valor de su media. Es adimensional

– Cuartiles (Percentiles – Deciles): Divide en cuartos el conjunto


de datos.
Q1- 25% Q2- 50% Q3- 75%

𝑃50 = 𝐷5 = 𝑄2 = 𝑀𝑒

Big Data y Analytics– Óscar García 16


Técnicas de análisis univariante
Medidas que resumen la información
► Medidas de posición y forma:
– Simetría

– Apuntamiento

Big Data y Analytics– Óscar García 17


Técnicas de análisis univariante
Medidas que resumen la información
► Datos atípicos - Outliers:
– Valores que distan de la mayoría de los datos.
– Afectan drásticamente a la media, pero por el contrario la
mediana apenas se ve afectada por ellos.
– También se ve muy afectada la dispersión media que mide la
desviación típica.
– Puede alterar la forma de la distribución de datos, especialmente
en el histograma.

El análisis exploratorio de datos es el estudio de las características


principales de un conjunto de datos sirviéndose de las medidas estadísticas
(tendencia central, dispersión, posición, etc.) y de gráficas que ayuden a
identificarlas

Big Data y Analytics– Óscar García 18


Técnicas de análisis univariante
Medidas que resumen la información
Cuantiles y Outliers: Diagrama de cajas y bigotes
► Permiten mostrar características de los datos como son su distribución, su
simetría o la existencia y posición de valores atípicos.

► Caja → Rango Intercuartil (RIC): muestras entre 𝑄$ y 𝑄% .

► Bigotes → 1,5 x RIC: 𝑄$ + 1,5 𝑅𝐼𝐶 y 𝑄% − 1,5 𝑅𝐼𝐶


Gráfica de https://commons.wikimedia.org/wiki/User:OnkelDagobert

Big Data y Analytics– Óscar García 19


Técnicas de análisis univariante
Medidas que resumen la información
► Distribución normal:
1 " $!% !
!# &
𝑓 𝑥 = 𝑒
𝜎 2𝜋

Media, moda y mediana coinciden en la normal.

Big Data y Analytics– Óscar García 20


Técnicas de análisis bivariante
Estudiar la relación estadística entre dos variables
► Tablas de frecuencias:

► Covarianza:
– Mide lo que covarían las dos variables.
– Útil para determinar la fuerza de la relación entre dos variables a
través del Coeficiente de Correlación.
– Positiva o negativa.

Big Data y Analytics– Óscar García 21


Técnicas de análisis bivariante
Estudiar la relación estadística entre dos variables
► Gráficos de dispersión:
– Patrones
– Fuerza y dirección
– Valores alejados
– Grupos aislados

Gráfica de https://www.countants.com/blogs/how-machine-learning-can-enable-anomaly-detection/

Big Data y Analytics– Óscar García 22


Técnicas de análisis bivariante
Estudiar la relación estadística entre dos variables

► Asociación entre dos variables - ¿Correlación implica causalidad?

Fuente: http://es.xkcd.com/strips/correlacion/

Big Data y Analytics– Óscar García 23


Técnicas de análisis bivariante
Estudiar la relación estadística entre dos variables
► Correlación – Coeficiente de correlación de Pearson
– Medida de la fuerza de la relación lineal entre dos variables
cuantitativas
– Valores entre -1 y 1
– No hay relación lineal
si el valor es cero
– Relación perfecta para
valores +1 y -1
– No refleja otras relaciones
no lineales
– Otros:
• Spearman: No paramétrica, una variable cuantitativa, ordinales y
rangos, datos extremos.
• 𝝉 de Kendall: Muchos datos en la misma posición en los rangos, la
muestra es pequeña o las variables son cualitativas ordinales.
Big Data y Analytics– Óscar García 24
Técnicas de análisis bivariante
Estudiar la relación estadística entre dos variables
► Regresión
Ecuación lineal que describe mejor la asociación entre dos variables
– Error cuadrático medio (RMSE):
Distancia cuadrada promedio entre valor
real y pronosticado.
Medida absoluta del ajuste.
– Error absoluto medio (MAE):
Las diferencias individuales se ponderan
por igual en el promedio.
– R2 – Coeficiente de determinación: Indica la bondad del ajuste. Mejor
ajuste a medida que se acerca a 1. o hay relación lineal
– R2 Ajustado. Considerará la mejora marginal añadida por un prescriptor
adicional en el modelo.

Fuente: https://ingenioempresa.com/diagrama-de-dispersion/

Big Data y Analytics– Óscar García 25


Técnicas de análisis bivariante
Estudiar la relación estadística entre dos variables
► Otras técnicas
– Análisis de datos categóricos:
• Test de 𝝌𝟐 de contingencia: Relación entre variables
•Test exacto de Fisher: Cambio de proporción de una variable dependiendo
del valor de la otra
– Comparación entre grupos de muestras:
• T de Student: Independencia. Muestra pequeña (<30). Determina si la
diferencia entre las medias de dos poblaciones es significativa.
• Test Z: Más de 30 muestras.
• Test ANOVA: Cuando la variable independiente tiene más de dos niveles
(comparar dos o más grupos - por ejemplo, comparar la media de duración
de diferentes productos)
• Test U: Datos que no siguen distribución normal.
Más de dos variables…
Clasificación, Redes Neuronales, Clustering, Test A/B…

Big Data y Analytics– Óscar García 26


Gráficos

Más vale un buen gráfico que mil tablas de frecuencias

► Mejor asimilación si se representan de forma visual.


► ¿Cómo elegir el mejor gráfico? Dependencia de la variable a
representar:

Big Data y Analytics– Óscar García 27


Gráficos
Diagrama de barras
► Variables tanto cualitativas (nominales u ordinales) como
cuantitativas discretas, donde cada valor discreto sería una de las
categorías.
► Todas las variables pueden ser representadas con diagramas de
barras excepto las continuas.

Big Data y Analytics– Óscar García 28


Gráficos

Gráfico de sectores
► También se denominan gráficos circulares, de
porciones, de tarta, o pie chart en inglés.
► Son los más apropiados a la hora de
representar gráficamente variables
cualitativas.
► Representar los porcentajes de las
modalidades estos siempre sumarán el 100%.
► El área o sector circular que ocupa cada
modalidad es proporcional a su porcentaje en
relación con el total.
► Es preferible usarlo cuando el número de
categorías no es excesivo.
► Cuando hay muy pocas diferencias entre las
categorías o porciones podríamos plantearnos
realizar el gráfico de barras en su lugar.

Big Data y Analytics– Óscar García 29


Gráficos

Pictograma
► Gráficos basados en dibujos.
► Error típico: Representar cada modalidad según su valor y dibujar
cada elemento con esta escala. ¡Las áreas de los dibujos tienen
que ser proporcionales a las magnitudes que representan!

Big Data y Analytics– Óscar García 30


Gráficos

Histograma
► Utilizado para representar variables cuantitativas continuas.
► Comunica la continuidad a través de barras juntas.
► Suele utilizarse cuando se dispone de información agrupada en
intervalos.

Big Data y Analytics– Óscar García 31


Gráficos

Polígono de frecuencias
► Se obtiene al unir los puntos medios de las barras del histograma.
► Este gráfico es muy útil cuando se desean representar tendencias.

Big Data y Analytics– Óscar García 32


Gráficos

Diagrama de dispersión
► Muy útil para representar los valores de un individuo en dos
variables continuas (por ejemplo la altura y el peso).
► Diferenciación de los puntos por colores o usando un símbolo.

Big Data y Analytics– Óscar García 33


Gráficos

Diagrama de cajas y bigotes


► Permiten mostrar
características de los
datos como son su
distribución, su simetría o
la existencia y posición de
valores atípicos.
► Caja → Rango
Intercuartil (RIC):
muestras entre 𝑄$ y 𝑄% .
► Bigotes → 1,5 veces el
RIC: 𝑄$ + 1,5 𝑅𝐼𝐶 y
𝑄% − 1,5 𝑅𝐼𝐶

Gráfica de https://commons.wikimedia.org/wiki/User:OnkelDagobert

Big Data y Analytics– Óscar García 34


Gráficos

Serie temporal
► Los valores muestran una línea que recorre diferentes valores o
frecuencias a lo largo del tiempo.

Big Data y Analytics– Óscar García 35


Gráficos
Otros gráficos

Gráfico de bala - Objetivos Gráfico Mekko – Distribución y composición


Gráfico de Fuente: https://www.originlab.com/index.aspx?go=products/origin/graphing Gráfico de Fuente: https://www.mekkographics.com/resources/charts-by-type/marimekko/

Big Data y Analytics– Óscar García 36


Gráficos

Cómo elegir gráficos


► Comparar valores, dimensiones o categorías: barras, Mekko, sectores, línea, dispersión,
bala.
► Seguir tendencias a lo largo del tiempo: línea, histograma.
► Resaltar un valor unitario: scorecard.
► Ilustrar cómo está formado el conjunto de datos (composición): sectores, barras apiladas,
Mekko.
► Entender la distribución de los datos (outliers, rangos): dispersión, Mekko, burbujas, línea,
barras.
► Analizar tendencias: línea, histograma, barras.
► Relación entre variables o conjuntos de datos: dispersión, burbujas, línea.
► Visualizar datos en un mapa: mapa coroplético.
► Comprobar cómo de bien se comportan los datos frente a un objetivo: gráfico de bala.

Big Data y Analytics– Óscar García 37


Gráficos
Cómo elegir gráficos https://coolinfographics.com/dataviz-guides

Fuente de la imagen: https://infographic.tv/chart-a-quick-guide-on-the-type-of-charts-you-should-use-depending-on-what-you-want-to-show/

Big Data y Analytics– Óscar García 38


Retos del análisis de datos en la Industria 4.0

Excesiva cantidad de información y datos


► Métodos estadísticos no pensados para grandes volúmenes de
datos: Ineficiencia.
► Creación de códigos eficientes que permitan:
– Aplicar los métodos estadísticos clásicos necesarios.
– Desarrollar nuevos métodos estadísticos que sean capaces de
trabajar con altas cantidades de información.
► Outliers: Se suelen eliminar en los métodos clásicos. Puede no
ser recomendable en entornos de Industria 4.0.

Recogida de datos sin previa especificación del problema


► En la estadística clásica primero se diseña el problema y el
modelo de datos y luego se extraen.
► Industria 4.0: Adaptar los procesos de análisis a información ya
existente.

Big Data y Analytics– Óscar García 39


Retos del análisis de datos en la Industria 4.0

Complejidad de los datos


► Datos complejos difíciles de interpretar debido a su procedencia.
► Usuarios, sensores, robots, máquinas, etc.
► Fuentes heterogéneas.
► Necesidad de procesos de transformación de datos.

Necesidad de infraestructuras potentes de análisis


► Clúster, sistemas paralelizables, sistemas en red.

Políticas de privacidad
► Huella digital, cruce de datos, anonimización, RGPD.

Big Data y Analytics– Óscar García 40


Retos del análisis de datos en la Industria 4.0
Casos de uso
► Sistemas autónomos.
► Sistemas de localización en interiores.
► Detección de enfermedades o infecciones en agricultura.
► Plataformas de análisis energético.
► Reducción del volumen de datos.
► Reducción de ruido en imágenes - Reconocimiento.
► Detección de cambio en los datos – Demand/Response.

Big Data y Analytics– Óscar García 41


Gracias por vuestra atención
¿Dudas?

Imagen por Peggy und Marco Lachmann-Anke


Licencia: Creative Commons Zero

Big Data y Analytics– Óscar García 42


www.unir.net

También podría gustarte