MUI40 - BDA - PER1823 - Tema 02 - Análisis de Datos
MUI40 - BDA - PER1823 - Tema 02 - Análisis de Datos
MUI40 - BDA - PER1823 - Tema 02 - Análisis de Datos
Óscar García
Análisis de datos
Esquema
► Dependiendo se su uso:
– Estadística descriptiva: se limita a describir una población basándose en la
información recogida de su muestra.
– Estadística inferencial: extrae conclusiones sobre la población de estudio.
Otras:
► Intermediarias u omitidas:
– Actúan como variables explicativas de nuestra variable dependiente de un
modo “oculto”.
– Conviene identificarlas para no establecer asociaciones y presuponer
causalidades infundadas
► Dicotómicas:
– Describen el hecho de que algo ocurra (1) o no ocurra (0).
– Boolean.
► Observacionales:
– Aquellos en los recogemos datos observando por lo que no intervenimos ni
alteramos a los individuos de ningún modo.
► Experimentales:
– Aquellos en los que aplicamos tratamientos y luego observamos sus efectos
sobre sus sujetos, que aquí pasan a llamarse unidades experimentales.
𝑃50 = 𝐷5 = 𝑄2 = 𝑀𝑒
– Apuntamiento
► Covarianza:
– Mide lo que covarían las dos variables.
– Útil para determinar la fuerza de la relación entre dos variables a
través del Coeficiente de Correlación.
– Positiva o negativa.
Gráfica de https://www.countants.com/blogs/how-machine-learning-can-enable-anomaly-detection/
Fuente: http://es.xkcd.com/strips/correlacion/
Fuente: https://ingenioempresa.com/diagrama-de-dispersion/
Gráfico de sectores
► También se denominan gráficos circulares, de
porciones, de tarta, o pie chart en inglés.
► Son los más apropiados a la hora de
representar gráficamente variables
cualitativas.
► Representar los porcentajes de las
modalidades estos siempre sumarán el 100%.
► El área o sector circular que ocupa cada
modalidad es proporcional a su porcentaje en
relación con el total.
► Es preferible usarlo cuando el número de
categorías no es excesivo.
► Cuando hay muy pocas diferencias entre las
categorías o porciones podríamos plantearnos
realizar el gráfico de barras en su lugar.
Pictograma
► Gráficos basados en dibujos.
► Error típico: Representar cada modalidad según su valor y dibujar
cada elemento con esta escala. ¡Las áreas de los dibujos tienen
que ser proporcionales a las magnitudes que representan!
Histograma
► Utilizado para representar variables cuantitativas continuas.
► Comunica la continuidad a través de barras juntas.
► Suele utilizarse cuando se dispone de información agrupada en
intervalos.
Polígono de frecuencias
► Se obtiene al unir los puntos medios de las barras del histograma.
► Este gráfico es muy útil cuando se desean representar tendencias.
Diagrama de dispersión
► Muy útil para representar los valores de un individuo en dos
variables continuas (por ejemplo la altura y el peso).
► Diferenciación de los puntos por colores o usando un símbolo.
Gráfica de https://commons.wikimedia.org/wiki/User:OnkelDagobert
Serie temporal
► Los valores muestran una línea que recorre diferentes valores o
frecuencias a lo largo del tiempo.
Políticas de privacidad
► Huella digital, cruce de datos, anonimización, RGPD.