Semana 8 Mediana Moda Media y Cuartiles en Python

MINERIA DE DATOS
DOCENTE: ING. LUISA ARCINIEGAS

ESTADISTICA DESCRIPTIVA e
INFERENCIAL EN PYTHON
FUNCION DE DISTRIBUCION
Una distribución normal es la función de

probabilidad que describe como los
valores de una variable están
distribuidos
En una distribución normal, la media, la

media y la moda son las mismas.
La curva es simétrica en el centro.
Tambien es llamada distribución

Gaussiana
OUTLIERS
Datos fuera de Rango: OUTLIERS
Los outliers son datos anormales dentro de

un conjunto de datos. En términos simples,
lo que son los outliers es un valor
extremadamente alto o extremadamente
bajo en comparación con el punto de datos
más cercano y al resto de valores que
existen dentro del gráfico de datos con el
que estás trabajando.
OUTLIERS
Los outliers pueden desviar los resultados

del análisis estadístico, por ello es
necesario corregir estos valores.
Los outliers son utilizados para detectar

transacciones fraudulentas.
IQR
Para las distribuciones normales, puede

usar la desviación estándar para
determinar el porcentaje de observaciones
que se encuentran a distancias específicas
de la media.
Sin embargo, eso no funciona para

distribuciones sesgadas y el IQR es una
excelente alternativa.
IQR
El percentil es una medida de posición, y vamos a
intentar explicarlo con ejemplos, que nos parece lo
más didáctico:
Un percentil 50 significa que el 50% de las notas de

los alumnos están por debajo de tu nota, y que el
otro 50% están por encima.
Un percentil 32 significa que el 32% de las notas de

los alumnos están por debajo de tu nota, y un 68%
por encima.
Un percentil 73 significa que el 73% de las notas

están por debajo de tu nota y un 27% por encima.
Un percentil 0 significa que eres la peor nota, y un

percentil 100 que eres la mejor nota.
IMPORTACION DE BIBLIOTECAS
• Embarazos: Para expresar el Número de embarazos
• Glucosa: Para expresar el nivel de Glucosa en sangre
• BloodPressure: para expresar la medida de la presión
arterial
• Grosor de la piel: Para expresar el grosor de la piel.
• Insulina: para expresar el nivel de insulina en sangre
• IMC: Para expresar el índice de masa corporal
• DiabetesPedigreeFunction: Para expresar el porcentaje de
Diabetes
• Edad: Para expresar la edad
• Resultado: Para expresar el resultado final 1 es SI o es NO
IMPORTACION DE BIBLIOTECAS
#Procesamiento
import pandas as pd
import numpy as np
import datetime as dt
import missingno as msno

#Visualización
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.graph_objects as go
IMPORTACION DE DATOS DESDE EL PC
#sentencias de importacion de input-
output y google colab files
import io
from google.colab import files
uploaded = files.upload()
data = pd.read_csv(io.BytesIO(uploaded['diabetes.
csv']))
# El filename es el nombre del archivo
DESCARGA EL ARCHIVO DE GITHUB
https://github.com/Luarciniegas3333/diabetes
VERIFICAR SI ALGUN VALOR ES NaN en un
Dataframe de pandas
LIMPIEZA DE DATOS
LIMPIEZA DE DATOS
LIMPIEZA DE DATOS
LIMPIEZA DE DATOS
LIMPIEZA DE DATOS
GLUCOSA
PRESION SANGUINEA
DELGADEZ DE LA PIEZ
INSULINA
BMI
Estas columnas poseen datos nulos, por tanto esos

campos deben ser arreglados
LIMPIEZA DE DATOS
df ['Glucose'] = df ['Glucose'].replace(0,np.nan)
Reemplazamos los campos que tienen valor cero por campos que tienen valor nulo, para posteriormente
cambiarlos por los valores medios
LIMPIEZA DE DATOS
Observamos los datos reemplazados con NaN
LIMPIEZA DE DATOS
Realizamos conteo de valores NaN
LIMPIEZA DE DATOS
Definimos la mediana de los datos
LIMPIEZA DE DATOS
Realizamos cambio de valores NaN por los valores
mediana de los datos, dado que hay valores muy
fuera del rango. En este caso no se usa el promedio
por la misma razon.
LIMPIEZA DE DATOS
Realizamos de nuevo conteo de los valores NaN
LIMPIEZA DE DATOS
Realizamos conteo de valores con function groupby
LIMPIEZA DE DATOS
Realizamos conteo de valores
Groupby para muestras de
edades
USO DE HISTOGRAMAS Y CURVAS DE
DENSIDAD PARA DETECTAR VALORES FUERA
DE RANGO
ANALISIS DE HISTOGRAMAS
Al analizar los histogramas observamos que

todos los campos tienen valores outliers, esos
valores se pueden corregir por medio de los
percentiles 5 y 95%
numpy.clip()
La función se utiliza para recortar (limitar) los valores en una matriz.
Dado un intervalo, los valores fuera del intervalo se cortan a los bordes del intervalo.
Por ejemplo, si se especifica un intervalo de [0, 1], los valores menores que 0 se
definen en 0 y los valores mayores que 1 se definen en 1.
Recortando valores con numpy.clip()
numpy.clip() Sintaxis: numpy.clip(a, a_min, a_max, out=Ninguno)
a: Matriz que contiene elementos para recortar.

a_min : Valor mínimo.
–> Si No, el recorte no se realiza en el borde del intervalo inferior. No más de uno de a_min y a_max
Recortando
puede servalores
Ninguno.con numpy.clip()
a_max : Valor máximo.
–> Si no hay, el recorte no se realiza en el borde del intervalo superior. No más de uno de a_min y
a_max puede ser Ninguno.
–> Si a_min o a_max son similares a una matriz, entonces las tres matrices se transmitirán para que
coincidan con sus formas.
out: los resultados se colocarán en esta matriz. Puede ser la matriz de entrada para el recorte en el
lugar. out debe tener la forma adecuada para contener la salida. Se conserva su tipo.
AUN QUEDAN OUTLIERS DESPUES DEL RECORTE DE
PERCENTILES
AUN QUEDAN OUTLIERS DESPUES DEL RECORTE DE
PERCENTILES, ENTONCES REALIZAMOS UN CORTE MAYOR
EN PROCENTAJE DONDE HAN QUEDADO OUTLAYERS
RESULTADO FINAL SIN DATOS OUTLIERS
COMPRENDIENDO LA DISTRIBUCION DE DATOS DE
PACIENTES DIABETICOS Y NO DIABETICOS
CONTEO DE PACIENTES
Realizamos conteo de pacientes valorados con
obesidad y no obesos
COEFICIENTE DE CORRELACION
PEARSON
Al igual que con otros coeficientes de

correlación, la correlación de Pearson se usa
para calcular la fuerza de la correlación lineal
entre dos variables en un conjunto de datos. Es
básicamente la relación entre la covarianza de
las variables y el producto de sus desviaciones
estándar, y da una medida normalizada de
covarianza que arroja un valor entre 1 y -1. Un
valor de 1 indica una relación lineal positiva
perfecta, un valor de -1 indica una relación
lineal negativa perfecta y un valor de 0 indica
que no hay relación lineal.
COEFICIENTE DE
CORRELACION
PEARSON
Los coeficientes
mas relacionados
entre si con la
salida 1 son el nivel
de glucose, la
cantidad de
insulina, el Indice
de masa corporal
BMI y la edad.
ANALISIS DE REGRESION
https://raw.githubusercontent.com/Luarciniegas3333/
DIABETESPOSITIVO/main/DIABETESPOSITIVO.csv
GRAFICOS DE REGRESION LINEAL
MULTIPLE
Regresión lineal múltiple

La regresión lineal es una técnica estadística
destinada a analizar por qué pasan las cosas o
cuáles son las principales explicaciones de algún
fenómeno. A partir de los análisis de regresión lineal
múltiple podemos:
•identificar que variables independientes
(explicativas) que explican una variable
dependiente (resultado)
•comparar y comprobar modelos explicativos
•predecir valores de una variable, es decir, a partir
de unas características predecir de forma
aproximada un comportamiento o estado
GRAFICOS DE REGRESION LINEAL
MULTIPLE
SEABORN PAIRPLOT
Nos permite trazar relaciones por pares entre variables

dentro de un conjunto de datos . Esto crea una buena
visualización y nos ayuda a comprender los datos al resumir
una gran cantidad de datos en una sola figura. Esto es
esencial cuando exploramos nuestro conjunto de datos y
tratamos de familiarizarnos con él..
https://raw.githubusercontent.com/
Luarciniegas3333/DIABETESPOSITIVO/main/
DIABETESPOSITIVO.csv

Semana 8 Mediana Moda Media y Cuartiles en Python

Cargado por

Copyright:

Formatos disponibles

Semana 8 Mediana Moda Media y Cuartiles en Python

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Semana 8 Mediana Moda Media y Cuartiles en Python

Cargado por

Copyright:

Formatos disponibles

MINERIA DE DATOS

DOCENTE: ING. LUISA ARCINIEGAS

Una distribución normal es la función de

En una distribución normal, la media, la

La curva es simétrica en el centro.

Tambien es llamada distribución

Los outliers son datos anormales dentro de

Los outliers pueden desviar los resultados

Los outliers son utilizados para detectar

Para las distribuciones normales, puede

Sin embargo, eso no funciona para

Un percentil 50 significa que el 50% de las notas de

Un percentil 32 significa que el 32% de las notas de

Un percentil 73 significa que el 73% de las notas

Un percentil 0 significa que eres la peor nota, y un

Estas columnas poseen datos nulos, por tanto esos

Al analizar los histogramas observamos que

La función se utiliza para recortar (limitar) los valores en una matriz.

a: Matriz que contiene elementos para recortar.

Al igual que con otros coeficientes de

Regresión lineal múltiple

Nos permite trazar relaciones por pares entre variables

También podría gustarte