U5 Estadística Descriptiva - Con Notas de Clase
U5 Estadística Descriptiva - Con Notas de Clase
U5 Estadística Descriptiva - Con Notas de Clase
Estadı́stica
para Ingenierı́as Base Cientı́fica y Geologı́a
Unidad 5:
Estadı́stica descriptiva
Introducción
La Estadı́stica descriptiva se encarga de recolectar, organizar, presentar y
describir un conjunto de datos.
La recolección de datos se realiza mediante técnicas y herramientas tales
como:
• Entrevista
• Encuesta
• Observación
• Experimentación
Conceptos básicos
Población
Conjunto de individuos o elementos que tienen el rasgo o caracterı́stica a
analizar.
Muestra
Subconjunto de la población. Debe representarla lo más fielmente posible
para que la interpretación de los datos sea válida (teorı́a de muestreo).
Variable estadı́stica
Rasgo o caracterı́stica de los individuos o elementos objeto de análisis.
Dato
Valor o realización particular de una variable estadı́stica.
Ejemplo 1
Tipos de muestreo
Existen diferentes tipos de muestreo, los cuales se suelen dividir en dos
grupos:
1 Métodos de muestreo probabilı́sticos:
• Muestreo aleatorio simple
• Muestreo sistemático
• Muestreo estratificado
• Muestreo por conglomerados
2 Métodos de muestreo no probabilı́sticos:
• Muestreo por conveniencia
• Muestreo de bola de nieve
• Muestreo por cuotas
Muestreo sistemático
Se hace una selección aleatoria del primer individuo o elemento de la población
objetivo para la muestra, y luego se seleccionan los individuos o elementos
posteriores utilizando intervalos fijos o sistemáticos hasta alcanzar el tamaño
de la muestra deseado.
Muestreo estratificado
Se subdivide a la población objetivo en al menos dos subgrupos (o estratos
diferentes), de manera que los individuos o elementos del mismo subgrupo
compartan las mismas caracterı́sticas (por ejemplo, género o rango etario),
y después se obtiene una muestra de cada subgrupo.
Caracterización de datos
• Medidas de dispersión
Rango, rango intercuartı́lico, varianza, desviación estándar (o tı́pica),
coeficiente de variación
• No tiene por qué ser igual a uno de los valores de los datos, ni
siquiera de su misma naturaleza (datos enteros pueden tener una
media aritmética decimal).
• Conserva la linealidad, es decir, dados ciertos datos xi y una
transformación lineal de los datos yi = a + bxi , entonces:
ȳ = a + bx̄.
Ejemplo 2
Dado un conjunto de datos ordenados de menor a mayor x(1) , x(2) , ..., x(n) ,
la mediana se calcula como:
x n+1 , si n es impar
( )
xme = 1 2
x n +x n , si n es par
2 ( ) ( +1)
2 2
• No tiene por qué ser igual a uno de los valores de los datos, ni
siquiera de su misma naturaleza (datos enteros pueden tener una
mediana decimal).
• Conserva la linealidad, es decir, dados ciertos datos xi y una
transformación lineal de los datos yi = a + bxi , entonces:
yme = a + bxme .
Nota:
xme = Q2 = P50
donde P.E. y P.D. son la parte entera y la parte decimal del indicador i, el
cual se obtiene como sigue:
• Si k = 1, entonces i = n+1
4
• Si k = 2, entonces i = n+1
2
3(n+1)
• Si k = 3, entonces i = 4
Dado un conjunto de datos ordenados de menor a mayor x(1) , x(2) , ..., x(n) ,
los percentiles Pk se calculan usando la fórmula:
donde P.E. y P.D. son la parte entera y la parte decimal del indicador:
k(n + 1)
i= ,
100
para k = 1, 2, ..., 99
Problema 1
Se tienen los siguientes datos de permeabilidad1 de una arena obtenidos de
registros de pozo (expresados en 105 miliDarcys):
RIC = Q3 − Q1
3 5 5 8 12 15 21 23 25 26
La desviación estándar
p(o tı́pica), sx , es la raı́z cuadrada (positiva) de la
varianza, esto es, sx = sx2 .
La desviación estándar se expresa en las mismas unidades de medida que
los datos; la varianza no (estarı́a expresada en unidades al cuadrado).
Interpretación: ambas medidas cuantifican la variación o dispersión de un
conjunto de datos con respecto a su media aritmética.
Ejemplo 3
Problema 2
Representación de datos
Tabla de resumen
Ejemplo: Número de accidentes mortales por dı́a entre Enero y Junio 2014
en una determinada provincia.
Ejemplo: Número de accidentes mortales por dı́a entre Enero y Junio 2014
en una determinada provincia.
Boxplot
Boxplot
Ası́, llamaremos:
Significado de un boxplot
Formas de un boxplot
Construcción de un boxplot
1 Ordenar los datos de menor a mayor y calcular Q1 , Q2 , Q3 y RIC.
2 Calcular los lı́mites internos y externos.
3 Trazar un eje vertical (horizontal) de medición en base a los datos de
la muestra.
4 Dibujar un rectángulo al lado de (sobre) este eje, de modo que su
extremo inferior (izquierdo) coincida con Q1 y su extremo superior
(derecho) coincida con Q3 .
5 Trazar un segmento horizontal (vertical) dentro del rectángulo que
coincida con Q2 .
6 Marcar los datos atı́picos u outliers, ya sean moderados o extremos.
7 Trazar los bigotes que salen de ambos lados del rectángulo hacia los
valores mı́nimos y máximos que no son outliers.
Prof. Diego Ayma Anza UCN Sede Antofagasta 42 / 44
Introducción Caracterización de datos Representación de datos
Ejemplo 4
Construir un boxplot para el siguiente conjunto de datos y determinar la
existencia de outliers.
32 37 39 40 41 41 41 42 42 43
44 45 45 45 46 47 47 49 50 51
Para ello, ordenamos los datos de menor a mayor (en este caso lo están) y
calculamos los cuartiles Q1 , Q2 y Q3 y el rango intercuartı́lico RIC:
Ejemplo 4 (cont.)