Semana 8 Mediana Moda Media y Cuartiles en Python

Descargar como pptx, pdf o txt
Descargar como pptx, pdf o txt
Está en la página 1de 46

MINERIA DE DATOS

DOCENTE: ING. LUISA ARCINIEGAS


ESTADISTICA DESCRIPTIVA e
INFERENCIAL EN PYTHON
FUNCION DE DISTRIBUCION

Una distribución normal es la función de


probabilidad que describe como los
valores de una variable están
distribuidos

En una distribución normal, la media, la


media y la moda son las mismas.

La curva es simétrica en el centro.

Tambien es llamada distribución


Gaussiana
OUTLIERS
Datos fuera de Rango: OUTLIERS

Los outliers son datos anormales dentro de


un conjunto de datos. En términos simples,
lo que son los outliers es un valor
extremadamente alto o extremadamente
bajo en comparación con el punto de datos
más cercano y al resto de valores que
existen dentro del gráfico de datos con el
que estás trabajando.
OUTLIERS

Los outliers pueden desviar los resultados


del análisis estadístico, por ello es
necesario corregir estos valores.

Los outliers son utilizados para detectar


transacciones fraudulentas.
IQR

Para las distribuciones normales, puede


usar la desviación estándar para
determinar el porcentaje de observaciones
que se encuentran a distancias específicas
de la media. 

Sin embargo, eso no funciona para


distribuciones sesgadas y el IQR es una
excelente alternativa.
IQR
El percentil es una medida de posición, y vamos a
intentar explicarlo con ejemplos, que nos parece lo
más didáctico:

Un percentil 50 significa que el 50% de las notas de


los alumnos están por debajo de tu nota, y que el
otro 50% están por encima.

Un percentil 32 significa que el 32% de las notas de


los alumnos están por debajo de tu nota, y un 68%
por encima.

Un percentil 73 significa que el 73% de las notas


están por debajo de tu nota y un 27% por encima.

Un percentil 0 significa que eres la peor nota, y un


percentil 100 que eres la mejor nota.
IMPORTACION DE BIBLIOTECAS
• Embarazos: Para expresar el Número de embarazos
• Glucosa: Para expresar el nivel de Glucosa en sangre
• BloodPressure: para expresar la medida de la presión
arterial
• Grosor de la piel: Para expresar el grosor de la piel.
• Insulina: para expresar el nivel de insulina en sangre
• IMC: Para expresar el índice de masa corporal
• DiabetesPedigreeFunction: Para expresar el porcentaje de
Diabetes
• Edad: Para expresar la edad
• Resultado: Para expresar el resultado final 1 es SI o es NO
IMPORTACION DE BIBLIOTECAS

#Procesamiento
import pandas as pd
import numpy as np
import datetime as dt
import missingno as msno
 
#Visualización
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.graph_objects as go
IMPORTACION DE DATOS DESDE EL PC

#sentencias de importacion de input-
output y google colab files
import io
from google.colab import files

uploaded = files.upload()
data = pd.read_csv(io.BytesIO(uploaded['diabetes.
csv']))
# El filename es el nombre del archivo
DESCARGA EL ARCHIVO DE GITHUB
https://github.com/Luarciniegas3333/diabetes
DESCARGA EL ARCHIVO DE GITHUB
https://github.com/Luarciniegas3333/diabetes
VERIFICAR SI ALGUN VALOR ES NaN en un
Dataframe de pandas
DESCARGA EL ARCHIVO DE GITHUB
https://github.com/Luarciniegas3333/diabetes
LIMPIEZA DE DATOS
https://github.com/Luarciniegas3333/diabetes
LIMPIEZA DE DATOS
https://github.com/Luarciniegas3333/diabetes
LIMPIEZA DE DATOS
https://github.com/Luarciniegas3333/diabetes
LIMPIEZA DE DATOS
https://github.com/Luarciniegas3333/diabetes
LIMPIEZA DE DATOS
https://github.com/Luarciniegas3333/diabetes

GLUCOSA
PRESION SANGUINEA
DELGADEZ DE LA PIEZ
INSULINA
BMI

Estas columnas poseen datos nulos, por tanto esos


campos deben ser arreglados
LIMPIEZA DE DATOS
df ['Glucose'] = df ['Glucose'].replace(0,np.nan)
Reemplazamos los campos que tienen valor cero por campos que tienen valor nulo, para posteriormente
cambiarlos por los valores medios
LIMPIEZA DE DATOS
Observamos los datos reemplazados con NaN
LIMPIEZA DE DATOS
Realizamos conteo de valores NaN
LIMPIEZA DE DATOS
Definimos la mediana de los datos
LIMPIEZA DE DATOS
Realizamos cambio de valores NaN por los valores
mediana de los datos, dado que hay valores muy
fuera del rango. En este caso no se usa el promedio
por la misma razon.
LIMPIEZA DE DATOS
Realizamos de nuevo conteo de los valores NaN
LIMPIEZA DE DATOS
Realizamos conteo de valores con function groupby
LIMPIEZA DE DATOS
Realizamos conteo de valores
Groupby para muestras de
edades
USO DE HISTOGRAMAS Y CURVAS DE
DENSIDAD PARA DETECTAR VALORES FUERA
DE RANGO
ANALISIS DE HISTOGRAMAS

Al analizar los histogramas observamos que


todos los campos tienen valores outliers, esos
valores se pueden corregir por medio de los
percentiles 5 y 95%
numpy.clip()

La función se utiliza para recortar (limitar) los valores en una matriz.

Dado un intervalo, los valores fuera del intervalo se cortan a los bordes del intervalo.
Por ejemplo, si se especifica un intervalo de [0, 1], los valores menores que 0 se
definen en 0 y los valores mayores que 1 se definen en 1.
Recortando valores con numpy.clip()
numpy.clip() Sintaxis: numpy.clip(a, a_min, a_max, out=Ninguno)

a: Matriz que contiene elementos para recortar.


a_min : Valor mínimo.
    –> Si No, el recorte no se realiza en el borde del intervalo inferior. No más de uno de a_min y a_max
Recortando
puede servalores
Ninguno.con numpy.clip()
a_max : Valor máximo.
    –> Si no hay, el recorte no se realiza en el borde del intervalo superior. No más de uno de a_min y
a_max puede ser Ninguno.
    –> Si a_min o a_max son similares a una matriz, entonces las tres matrices se transmitirán para que
coincidan con sus formas.
out: los resultados se colocarán en esta matriz. Puede ser la matriz de entrada para el recorte en el
lugar. out debe tener la forma adecuada para contener la salida. Se conserva su tipo.
AUN QUEDAN OUTLIERS DESPUES DEL RECORTE DE
PERCENTILES
AUN QUEDAN OUTLIERS DESPUES DEL RECORTE DE
PERCENTILES, ENTONCES REALIZAMOS UN CORTE MAYOR
EN PROCENTAJE DONDE HAN QUEDADO OUTLAYERS
RESULTADO FINAL SIN DATOS OUTLIERS
COMPRENDIENDO LA DISTRIBUCION DE DATOS DE
PACIENTES DIABETICOS Y NO DIABETICOS
CONTEO DE PACIENTES
Realizamos conteo de pacientes valorados con
obesidad y no obesos
COEFICIENTE DE CORRELACION
PEARSON

Al igual que con otros coeficientes de


correlación, la correlación de Pearson se usa
para calcular la fuerza de la correlación lineal
entre dos variables en un conjunto de datos. Es
básicamente la relación entre la covarianza de
las variables y el producto de sus desviaciones
estándar, y da una medida normalizada de
covarianza que arroja un valor entre 1 y -1. Un
valor de 1 indica una relación lineal positiva
perfecta, un valor de -1 indica una relación
lineal negativa perfecta y un valor de 0 indica
que no hay relación lineal.
COEFICIENTE DE
CORRELACION
PEARSON

Los coeficientes
mas relacionados
entre si con la
salida 1 son el nivel
de glucose, la
cantidad de
insulina, el Indice
de masa corporal
BMI y la edad.
ANALISIS DE REGRESION
https://raw.githubusercontent.com/Luarciniegas3333/
DIABETESPOSITIVO/main/DIABETESPOSITIVO.csv
GRAFICOS DE REGRESION LINEAL
MULTIPLE

Regresión lineal múltiple


La regresión lineal es una técnica estadística
destinada a analizar por qué pasan las cosas o
cuáles son las principales explicaciones de algún
fenómeno. A partir de los análisis de regresión lineal
múltiple podemos:
•identificar que variables independientes
(explicativas) que explican una variable
dependiente (resultado)
•comparar y comprobar modelos explicativos
•predecir valores de una variable, es decir, a partir
de unas características predecir de forma
aproximada un comportamiento o estado
GRAFICOS DE REGRESION LINEAL
MULTIPLE
SEABORN PAIRPLOT

Nos permite trazar relaciones por pares entre variables


dentro de un conjunto de datos . Esto crea una buena
visualización y nos ayuda a comprender los datos al resumir
una gran cantidad de datos en una sola figura. Esto es
esencial cuando exploramos nuestro conjunto de datos y
tratamos de familiarizarnos con él..
https://raw.githubusercontent.com/
Luarciniegas3333/DIABETESPOSITIVO/main/
DIABETESPOSITIVO.csv

También podría gustarte