Descargue como PDF, TXT o lea en línea desde Scribd
Descargar como pdf o txt
Está en la página 1de 42
“Ciencia y Tecnología al Servicio del País”
23/04/2024 Dra. Lupe Pizan Toscano/41 1
FIEE
Curso: Aprendizaje de Maquina y Minería de Datos
CIB12 Docente: Dra. Ing. Lupe Pizán Toscano
23/04/2024 Dra. Lupe Pizan Toscano/42 2
CAPITULO 03: Limpieza de Datos Atípicos.
23/04/2024 Dra. Lupe Pizan Toscano/42 3
RECOLECCIÓN DE INFORMACIÓN LIMPIEZA DE DATOS
23/04/2024 Dra. Lupe Pizan Toscano/42 4
Limpieza de Datos Atípicos Hay dos formas principales de limpiar los datos raros o que salen del grueso de los datos (los datos atípicos): ➢Por cuartiles ➢Por Desviaciones estándar.
23/04/2024 Dra. Lupe Pizan Toscano/42 5
Limpieza de Datos Atípicos por Cuartiles ➢Los cuartiles son valores que dividen a una muestra de datos en cuatro partes iguales. Generalmente es 25%, 50% y 75%. ➢Tres divisiones que generan cuatro segmentos. ➢Con los cuartiles se puede valorar rápidamente la dispersión y tendencia de los datos, es decir, nos dice rápidamente cómo está formada, cómo se distribuye en una dimensión.
23/04/2024 Dra. Lupe Pizan Toscano/42 6
Limpieza de Datos Atípicos por Cuartiles ➢Vamos a utilizar una gráfica llamada gráfica de caja. ➢ En esta “caja” está contenida la mayoría de los datos (el 50% de la información). ➢A partir de ella salen unas líneas que muestran el rango de los datos.
23/04/2024 Dra. Lupe Pizan Toscano/42 7
Limpieza de Datos Atípicos por Cuartiles ➢La posición de estas líneas, llamadas bigotes, se establecen a partir de 1.5 veces el rango inter cuartil. ➢El rango inter cuartil: Tercer cuartil - Primer cuartil ➢El rango inter cuartil multiplicado por 1.5 nos da el rango de nuestra información. ➢Lo que sale de los valores de este rango de datos son los llamados datos atípicos. 23/04/2024 Dra. Lupe Pizan Toscano/42 8 Limpieza de Datos Atípicos por Cuartiles ➢Cuartiles: Son valores que dividen a una variable en cuatro partes iguales, para calcularlos: ➢Ordenar de menor a mayor los valores de la variable. ➢En el primer cuartil está contenido hasta el 25% de datos de la variable. ➢En el segundo cuartil está contenido hasta el 50% de datos la variable. ➢En el tercer cuartil está contenido hasta el 75% de datos la variable.
23/04/2024 Dra. Lupe Pizan Toscano/42 9
Limpieza de Datos Atípicos por Cuartiles ➢Ejemplo: Si tenemos “20” datos, se ordenan estos de menor a mayor, seguidamente se separan en cuatro grupos donde en cada grupo se tiene el 25% de los datos. Como son 20 datos cada grupo tiene cinco datos y ordenados de menor a mayor donde: ➢1.- En el primer cuartil se contiene hasta el 25% de datos de la variable. ➢2.-En el segundo cuartil se contiene hasta el 50% de datos la variable. ➢3.- En el tercer cuartil se contiene hasta el 75% de datos la variable.
23/04/2024 Dra. Lupe Pizan Toscano/42 10
ESTUDIANTE PUBLICACIONES ESTUDIANTE-1 0 ESTUDIANTE-2 1 ESTUDIANTE-3 1 ESTUDIANTE-4 1 ESTUDIANTE-5 2 Q1 CONTIENE HASTA EL 25% ESTUDIANTE-6 2 ESTUDIANTE-7 3 ESTUDIANTE-8 3 ESTUDIANTE-9 3 ESTUDIANTE-10 4 Q2 CONTIENE HASTA EL 50% ESTUDIANTE-11 4 ESTUDIANTE-12 4 ESTUDIANTE-13 4 ESTUDIANTE-14 5 ESTUDIANTE-15 5 Q3 CONTIENE HASTA EL 75% ESTUDIANTE-16 5 ESTUDIANTE-17 6 ESTUDIANTE-18 10 ESTUDIANTE-19 10 ESTUDIANTE-20 15
➢La variable es el numero de publicaciones de los estudiantes ➢Q1=2 y Q3=5. ➢El 50% de los participantes se distribuye entre estos valores de estas variables. ➢El 50% de los participantes tiene entre 2 y 5 publicaciones.
➢El valor central es 4 publicaciones Los limites de la variable entre los cuales se distribuye la variable: ➢Los valores limites típicos serán mínimo de 1 publicación y hasta 6 publicaciones ➢ Los valores extremos, los valores atípicos: Hay cuatro. ➢El valor que tiene el primer estudiante. ➢El Est18,Est19 y el valor que tiene el caso 20. 23/04/2024 Dra. Lupe Pizan Toscano/42 21 23/04/2024 Dra. Lupe Pizan Toscano/42 22 ➢Caso Es1: Error. ➢El grafico nos ayuda a identificar errores porque los datos que se salen de la escala de la variable aparecen como valores atípicos. ➢Caso Es18 y 19: Valores extremos leves. ➢Caso Es 20: Valor demasiado elevado para considerarlo adecuado para análisis de datos. 23/04/2024 Dra. Lupe Pizan Toscano/42 23 Limpieza de Datos Atípicos por Cuartiles ➢Con los cuartiles se puede valorar rápidamente la dispersión y tendencia de los datos, ➢Nos dice rápidamente cómo está formada nuestra información, cómo se distribuye en un eje. ➢Utilizamos una gráfica de caja. ➢Pandas nos va a ayudar con la función llamada boxplot. ➢Si la ejecutamos, nos va a dar la gráfica.
23/04/2024 Dra. Lupe Pizan Toscano/42 24
23/04/2024 Dra. Lupe Pizan Toscano/42 25 Limpieza de Datos Atípicos por Cuartiles • Lo que nos dice esta gráfica es que la mayoría de los datos se encuentran entre 120 mil dólares a 210 mil dólares aprox. • Esto es lo que se encuentra dentro de la caja. • Entre el bigote superior y el inferior se representa el grueso de nuestros datos. • Es decir, 1.5 veces el rango inter cuartil. • Lo que se encuentre fuera de ese rango son datos que podemos considerar aislados, entonces todos estos datos es posible que necesiten limpieza.
23/04/2024 Dra. Lupe Pizan Toscano/42 26
Limpieza de Datos Atípicos por Cuartiles • Usaremos el rango inter cuartil para poder limpiar los datos.
• El precio de venta de las casas lo vamos a guardar como sp para
tenerlo más local en vez de estar llamando a nuestro conjunto de datos completo. • Así vamos a pedir (calcular) que nos den los rangos inter cuartiles.
23/04/2024 Dra. Lupe Pizan Toscano/42 27
Limpieza de Datos Atípicos por Cuartiles • Calculo del límite superior, es decir, hasta dónde llega el primer bigote. • Esto es: a partir del Q3, que es el 0.75, mas el inter cuartil. • Calculo del limite inferior, • que es a partir del Q1, 0.25, menos el rango inter cuartil.
23/04/2024 Dra. Lupe Pizan Toscano/42 28
Limpieza de Datos Atípicos por Cuartiles • Así se tiene delimitado el límite superior y el límite inferior. • Se ejecutan y se guardan. • Con estos límites calculados se va seleccionar todos los datos que son atípicos.
23/04/2024 Dra. Lupe Pizan Toscano/42 29
Limpieza de Datos Atípicos por Cuartiles • Vamos a ordenar que de sp nos den todos los valores que están por encima del límite superior (>= límite superior) • "o" (lógico) • Pedimos también los valores que son menores o iguales al límite inferior. • Estos valores se obtienen y se van a guardar en la variable sp_clean, • Así se obtienen todos los valores que son atípicos en sp_clean.
23/04/2024 Dra. Lupe Pizan Toscano/42 30
23/04/2024 Dra. Lupe Pizan Toscano/42 31 Limpieza de Datos Atípicos por Cuartiles • Probemos a observar para verificar si los datos que nos da son efectivamente atípicos. • Por ejemplo el 59: Id 59 y su valor es 438,770. • Si lo buscamos la gráfica podemos verificar que sale del límite superior por lo tanto sí es un dato atípico. • Entonces, Pandas nos va ayudar simplemente a eliminarlos ya que los tenemos identificados. • Podemos ordenar en el data frame "elimina, con sp_clean, su índice" Entonces, lo estamos eliminando por el valor del Id. • Lo eliminamos, y ya nos dan los valores limpios, sin valores valores atípicos. • Recordemos que esto se hizo solo para “sells Price”, no con las demás columnas, entonces esto se debe repetir para las columnas que más nos interesen en nuestro estudio.
23/04/2024 Dra. Lupe Pizan Toscano/42 32
23/04/2024 Dra. Lupe Pizan Toscano/42 33 Limpieza de Datos Atípicos por Desviación Estándar ➢La desviación estándar es una de las medidas estadísticas más populares y de mayor uso. ➢Esta medida indica el grado de dispersión alrededor de una media. ➢La media sería donde se concentra el centro de los datos, y a partir de ahí se agrupan. ➢Una desviación estándar muy grande indica que los datos a partir de la media están muy dispersos. ➢Una desviación pequeña indica que están muy concentrados alrededor de la media.
23/04/2024 Dra. Lupe Pizan Toscano/42 34
Limpieza de Datos Atípicos por Desviación Estándar ➢Python nos puede ayudar a identificar la desviación estándar de un conjunto de datos y a eliminar los datos atípicos: a partir de una desviación, dos desviaciones o tres desviaciones. ➢Se utiliza una librería de spicy, “stats”. ➢Stats nos da un conjunto de medidas estadísticas las cuales podemos importar directamente a Python. ➢Con el mismo conjunto datos, vamos a utilizar el df. El sell price que es el costo de las casas y lo vamos a guardar igual como sp.
23/04/2024 Dra. Lupe Pizan Toscano/42 35
Limpieza de Datos Atípicos por Desviación Estándar • Se Utiliza stats y se calcula el zscore. • El zscore es la distribución normal.
23/04/2024 Dra. Lupe Pizan Toscano/42 36
Limpieza de Datos Atípicos por Desviación Estándar
• Llamando a “zscore” nos da el número de desviaciones
estándar que una medida está por encima o por debajo de la distribución normal, y la guardamos como z. • Se quiere eliminar los datos que estén muy alejados de la media aritmética que sería el elemento central.
23/04/2024 Dra. Lupe Pizan Toscano/42 37
Limpieza de Datos Atípicos por Desviación Estándar ➢Una desviación son los elementos que están más o menos dentro de un contexto cercano, ➢Dos desviaciones ya están más alejados, ➢Tres desviaciones es los elementos que ya están muy muy alejados de la media, entonces estos son los que queremos eliminar.
23/04/2024 Dra. Lupe Pizan Toscano/42 38
Limpieza de Datos Atípicos por Desviación Estándar ➢Haremos un filtro dirigido a todos los elementos que estén por arriba de tres desviaciones arriba y a todos los que están menores a menos tres desviaciones. Los seleccionamos de sp. ➢A los seleccionados los guardamos en sp clean.
23/04/2024 Dra. Lupe Pizan Toscano/42 39
Limpieza de Datos Atípicos por Desviación Estándar ➢Ordenamos para df "elimina estos elementos a través de su índice". Se corre y ya los tenemos eliminados del conjunto de datos, se eliminaron los datos atípicos para el precio de las casas. ➢Vamos a observar que quedan mas registros o filas que con el método anterior. ➢En cada una de las diferentes formas de eliminar los valores atípicos funciona de forma diferente por lo tanto no van a quedar los mismos conjuntos. Esta decisión de cuál utilizar, uno u otro, depende del modelo de estudio que estemos haciendo.