U5 Estadística Descriptiva - Con Notas de Clase

Introducción Caracterización de datos Representación de datos
Estadı́stica
para Ingenierı́as Base Cientı́fica y Geologı́a
Prof. Diego Ayma Anza
Universidad Católica del Norte

Antofagasta, Chile
Prof. Diego Ayma Anza UCN Sede Antofagasta 1 / 44

Unidad 5:
Estadı́stica descriptiva

Introducción
La Estadı́stica descriptiva se encarga de recolectar, organizar, presentar y
describir un conjunto de datos.
La recolección de datos se realiza mediante técnicas y herramientas tales
como:
• Entrevista
• Encuesta
• Observación
• Experimentación
Una vez recogidos los datos, se organizan apropiadamente según el interés

del ingeniero o cientı́fico. En esta unidad veremos algunas medidas, gráficos
y tablas que nos permiten presentar y describir datos. Para ello, definiremos
algunos conceptos básicos.
Conceptos básicos
Población
Conjunto de individuos o elementos que tienen el rasgo o caracterı́stica a
analizar.
Muestra
Subconjunto de la población. Debe representarla lo más fielmente posible
para que la interpretación de los datos sea válida (teorı́a de muestreo).
Variable estadı́stica
Rasgo o caracterı́stica de los individuos o elementos objeto de análisis.
Dato
Valor o realización particular de una variable estadı́stica.

Ejemplo 1
Un fabricante de tornillos desea hacer un control de calidad. Para ello,

de 1000 tornillos producidos al dı́a, selecciona al azar una muestra de 10
tornillos y mide sus longitudes (en mm).
Entonces:
X Población: Conjunto de 1000 tornillos

X Muestra: 10 tornillos seleccionados al azar
X Variable estadı́stica: Longitud (en mm)
X Datos: 10 mm, 25mm , 10,05 mm, ... , 10,2 mm, 10,1 mm, 10,1 mm
Dato atı́pico u outlier

Valor (numéricamente) distante al resto de los datos.

Tipos de variables estadı́sticas

Tipos de muestreo
Existen diferentes tipos de muestreo, los cuales se suelen dividir en dos
grupos:
1 Métodos de muestreo probabilı́sticos:
• Muestreo aleatorio simple
• Muestreo sistemático
• Muestreo estratificado
• Muestreo por conglomerados
2 Métodos de muestreo no probabilı́sticos:
• Muestreo por conveniencia
• Muestreo de bola de nieve
• Muestreo por cuotas
Cada tipo de muestreo tiene sus ventajas e inconvenientes. A continuación

describiremos los métodos de muestreo probabilı́sticos señalados.
Muestreo aleatorio simple

Se selecciona una muestra de n individuos o elementos de la población
objetivo, de manera que cada posible muestra del mismo tamaño tenga la
misma posibilidad de ser elegida.

Muestreo sistemático
Se hace una selección aleatoria del primer individuo o elemento de la población
objetivo para la muestra, y luego se seleccionan los individuos o elementos
posteriores utilizando intervalos fijos o sistemáticos hasta alcanzar el tamaño
de la muestra deseado.

Muestreo estratificado
Se subdivide a la población objetivo en al menos dos subgrupos (o estratos
diferentes), de manera que los individuos o elementos del mismo subgrupo
compartan las mismas caracterı́sticas (por ejemplo, género o rango etario),
y después se obtiene una muestra de cada subgrupo.

Muestreo por conglomerados

Se divide el área de la población objetivo en secciones (o conglomerados).
Luego, se eligen al azar algunas de estas secciones, y después se elige a
todos los miembros de las secciones seleccionadas.

Caracterización de datos
Podemos caracterizar datos numéricos mediante el uso de:

• Medidas de posición
Media aritmética, mediana, moda, cuantiles
• Medidas de dispersión
Rango, rango intercuartı́lico, varianza, desviación estándar (o tı́pica),
coeficiente de variación
• Medidas de forma (no serán vistas aquı́)

Coeficiente de asimetrı́a de Fisher, coeficiente de asimetrı́a de
Pearson, coeficiente de curtosis de Fisher

Medidas de posición: media aritmética

Si x1 , x2 , ..., xn son los datos de una muestra de tamaño n, entonces la
media aritmética de la muestra se calcula como:
n
1X
x̄ = xi
n
i=1

Medidas de posición: media aritmética
Sobre la media aritmética ...
• Es el centro de gravedad de la distribución de la variable estadı́stica.
• Es sensible a datos atı́picos u outliers.
• No tiene por qué ser igual a uno de los valores de los datos, ni
siquiera de su misma naturaleza (datos enteros pueden tener una
media aritmética decimal).
• Conserva la linealidad, es decir, dados ciertos datos xi y una
transformación lineal de los datos yi = a + bxi , entonces:
ȳ = a + bx̄.

Ejemplo 2
Dados los siguientes n = 5 datos medidos en MB:
x1 = 1314 x2 = 1256 x3 = 1450 x4 = 1256 x5 = 1367
se tiene que x̄ = 1328, 6 MB. Si quisiésemos obtener dicha media aritmética

expresada en GB, entonces podemos recurrir a la relación lineal 1 GB = 1024
MB.
Si yi son los datos medidos en GB, entonces yi = (1/1024)xi (donde a = 0
y b = 1/1024). De esta manera, se tiene que:
ȳ = (1/1024) · 1328, 6 ≈ 1, 2975 GB.

Medidas de posición: mediana
Dado un conjunto de datos ordenados de menor a mayor x(1) , x(2) , ..., x(n) ,
la mediana se calcula como:

x n+1 , si n es impar
( )
xme = 1 2
 x n +x n , si n es par
2 ( ) ( +1)
2 2

Medidas de posición: mediana

Sobre la mediana ...
• Divide la muestra en dos partes iguales, es decir, en dos partes que

tienen la misma cantidad de datos.
• No es sensible a datos atı́picos u outliers.
• No tiene por qué ser igual a uno de los valores de los datos, ni
siquiera de su misma naturaleza (datos enteros pueden tener una
mediana decimal).
• Conserva la linealidad, es decir, dados ciertos datos xi y una
transformación lineal de los datos yi = a + bxi , entonces:
yme = a + bxme .

Medidas de posición: moda
La moda, xmo , es el valor de los datos que más se repite en la muestra.

Sobre esta medida podemos decir que:
• No es sensible a valores atı́picos u outliers.
• Puede que no haya moda o que haya más de una.
• Puede ser usada para datos categóricos.

Relación entre la media aritmética, la mediana y la moda

Cuando sólo hay una moda (distribución unimodal), ésta junto con la media
aritmética y la mediana dan una idea respecto al tipo de asimetrı́a que
presentan los datos. Se tiene:
• Simetrı́a: x̄ = xme = xmo
• Asimetrı́a positiva (o de cola derecha): xmo < xme < x̄
• Asimetrı́a negativa (o de cola izquierda): x̄ < xme < xmo

Medidas de posición: cuantiles
Dado un conjunto de datos ordenados de menor a mayor, los cuantiles son

aquellos números que dividen la muestra en determinadas partes iguales.
Los cuantiles más populares son:

• Cuartiles: dividen la muestra en 4 partes iguales. Por lo tanto, son 3
números que denotaremos por Q1 , Q2 y Q3 .
• Percentiles: dividen la muestra en 100 partes iguales. Por lo tanto,
son 99 números que denotaremos por P1 , P2 , ..., P99 .
Nota:
xme = Q2 = P50

Medidas de posición: cuartiles

los cuartiles Qk se calculan usando la fórmula:
Qk = x(P.E.) + P.D. · (x(P.E.+1) − x(P.E.) )
donde P.E. y P.D. son la parte entera y la parte decimal del indicador i, el
cual se obtiene como sigue:
• Si k = 1, entonces i = n+1
4
• Si k = 2, entonces i = n+1
2
3(n+1)
• Si k = 3, entonces i = 4
Interpretación: el cuartil Qk deja a la izquierda aproximadamente el (k/4)×

100% de los datos.
Medidas de posición: percentiles
los percentiles Pk se calculan usando la fórmula:
Pk = x(P.E.) + P.D. · (x(P.E.+1) − x(P.E.) )
donde P.E. y P.D. son la parte entera y la parte decimal del indicador:
k(n + 1)
i= ,
100
para k = 1, 2, ..., 99
Interpretación: el percentil Pk deja a la izquierda aproximadamente el

(k/100) × 100% de los datos.

Problema 1
Se tienen los siguientes datos de permeabilidad1 de una arena obtenidos de
registros de pozo (expresados en 105 miliDarcys):
1,5 2,3 2,6 2,6 2,7 2,75

2,8 2,8 2,8 2,9 3,0 3,15
3,15 3,2 3,2 3,2 3,2 3,2
De esta muestra, calcular:

• su media aritmética (R: x̄ = 1021
360 ≈ 2, 8361 miliDarcys)
• su moda (R: xmo = 3, 2 miliDarcys)
• su mediana (R: xme = 2, 85 miliDarcys)
• sus cuartiles (R: Q1 = 2, 675 miliDarcys, Q2 = xme , Q3 = 3, 2
miliDarcys)
1
https://es.wikipedia.org/wiki/Permeabilidad
Medidas de dispersión: rango

El rango es la diferencia entre el valor máximo y el valor mı́nimo de los
datos de una muestra, es decir:
Rango = x(n) − x(1)
• El rango ignora la forma en que los datos están distribuidos:
• Además, es sensible a valores extremos u outliers:

Medidas de dispersión: rango intercuartı́lico

El rango intercuartı́lico se calcula como la diferencia entre el tercer cuartil
y el primer cuartil, es decir:
RIC = Q3 − Q1
Ejemplo: Determinar el rango intercuartı́lico de la siguiente muestra:
3 5 5 8 12 15 21 23 25 26
• Cálculo de Q1 : i = 2, 75 → Q1 = x(2) + 0, 75 · (x(3) − x(2) ) = 5
• Cálculo de Q3 : i = 8, 25 → Q3 = x(8) + 0, 25 · (x(9) − x(8) ) = 23, 5
• Cálculo de RIC: RIC = Q3 − Q1 = 18, 5

Medidas de dispersión: varianza y desviación estándar
Si x1 , x2 , ..., xn son los datos de una muestra de tamaño n, entonces la

varianza de la muestra se calcula como:
n n
!
2 1 X 2 1 X
2 2
sx = (xi − x̄) = xi − nx̄
n−1 n−1
i=1 i=1
La desviación estándar
p(o tı́pica), sx , es la raı́z cuadrada (positiva) de la
varianza, esto es, sx = sx2 .
La desviación estándar se expresa en las mismas unidades de medida que
los datos; la varianza no (estarı́a expresada en unidades al cuadrado).
Interpretación: ambas medidas cuantifican la variación o dispersión de un
conjunto de datos con respecto a su media aritmética.

Medidas de dispersión: varianza y desviación estándar
A diferencia de la media aritmética y la mediana, la varianza y la desviación

estándar no conservan la linealidad.
¿Qué ocurre entonces?
Dados ciertos datos xi y una transformación lineal de los datos yi = a + bxi ,

entonces:
sy2 = b 2 sx2 y sy = |b|sx .

Ejemplo 3
Dados los siguientes n = 5 datos medidos en MB:
x1 = 1314 x2 = 1256 x3 = 1450 x4 = 1256 x5 = 1367
se tiene que sx ≈ 82, 1086 MB. Si quisiésemos obtener dicha desviación

estándar expresada en GB, entonces podemos recurrir a la relación lineal 1
GB = 1024 MB.
Si yi son los datos medidos en GB, entonces yi = (1/1024)xi (donde a = 0
y b = 1/1024). De esta manera, se tiene que:
sy = |(1/1024)| · 82, 1086 ≈ 0, 0802 GB.

Medidas de dispersión: coeficiente de variación
El coeficiente de variación muestra la variación o dispersión relativa de

un conjunto de datos y se suele expresar en porcentaje. Este coeficiente se
calcula como:
s
CV = × 100% (siempre que x̄ 6= 0)
|x̄|
• Por definición, es una medida adimensional (sin unidades).
• Es generalmente utilizada para comparar dos o más conjuntos de

datos, los cuales pueden estar medidos en unidades diferentes.

Problema 2
Se tienen los siguientes datos de permeabilidad de una arena obtenidos de

registros de pozo expresados en 105 miliDarcys:
1,5 2,3 2,6 2,6 2,7 2,75

2,8 2,8 2,8 2,9 3,0 3,15
3,15 3,2 3,2 3,2 3,2 3,2
De esta muestra, calcular:

• su varianza (R: sx2 ≈ 0, 1826 miliDarcys2 )
• su desviación estándar (R: sx ≈ 0, 4273 miliDarcys)
• su coeficiente de variación (R: CV ≈ 15, 07%)
P18 2
Nota: i=1 xi = 147, 8875

Representación de datos
¿Cómo podemos visualizar lo que está ocurriendo con el conjunto de

datos?
X Para datos categóricos o cualitativos:
• Tablas de resumen
• Gráficos de barra, Gráficos circulares
X Para datos numéricos o cuantitativos:

• Tablas de frecuencia
• Histogramas
• Diagramas de caja y bigotes (Boxplots)

Tabla de resumen
Una tabla de resumen indica la frecuencia absoluta (cantidad) y la frecuen-

cia relativa (en %) de individuos o elementos de un conjunto de categorı́as,
con el fin de observar las diferencias entre ellas.
Ejemplo: Fondos de inversión caracterizados por nivel de riesgo.

Gráfico de barra / Gráfico circular

En un gráfico de barra, la altura de éstas suele ser la frecuencia absoluta
de cada categorı́a. En cambio, en un gráfico circular, el área de cada sector
se suele corresponder con la frecuencia relativa (en %) de cada categorı́a.

Tabla de frecuencias (para datos discretos)
Ejemplo: Número de accidentes mortales por dı́a entre Enero y Junio 2014
en una determinada provincia.

Tabla de frecuencias (para datos continuos)

Ejemplo: Notas 1era Prueba de Estadı́stica Paralelo C3 (1er semestre
2019).

Histograma (para datos discretos)
Ejemplo: Número de accidentes mortales por dı́a entre Enero y Junio 2014
en una determinada provincia.

Histograma (para datos continuos)
Ejemplo: Notas 1era Prueba de Estadı́stica Paralelo C3 (1er semestre

2019).

Boxplot
El diagrama de caja y bigotes, o también llamado Boxplot, describe si-

multáneamente varias caracterı́sticas de la muestra, tales como:
• Centro
• Dispersión
• Naturaleza de cualquier desviación de la simetrı́a
• Identificación de datos atı́picos u outliers
¿Cómo determinar datos atı́picos u outliers?
Para ello haremos uso de los cuartiles Q1 y Q3 y el rango intercuartı́lico RIC.

Boxplot
¿Cómo determinar datos atı́picos u outliers?
Dados los valores Q1 , Q3 y RIC de la muestra, calculamos:

• Lı́mites internos: Q1 − 1, 5RIC y Q3 + 1, 5RIC
• Lı́mites externos: Q1 − 3RIC y Q3 + 3RIC
Ası́, llamaremos:
X outliers moderados a los datos que se encuentran entre los lı́mites

internos y externos;
X outliers extremos a los datos que se encuentran fuera de los lı́mites
externos.

Significado de un boxplot

Formas de un boxplot

Construcción de un boxplot
1 Ordenar los datos de menor a mayor y calcular Q1 , Q2 , Q3 y RIC.
2 Calcular los lı́mites internos y externos.
3 Trazar un eje vertical (horizontal) de medición en base a los datos de
la muestra.
4 Dibujar un rectángulo al lado de (sobre) este eje, de modo que su
extremo inferior (izquierdo) coincida con Q1 y su extremo superior
(derecho) coincida con Q3 .
5 Trazar un segmento horizontal (vertical) dentro del rectángulo que
coincida con Q2 .
6 Marcar los datos atı́picos u outliers, ya sean moderados o extremos.
7 Trazar los bigotes que salen de ambos lados del rectángulo hacia los
valores mı́nimos y máximos que no son outliers.
Ejemplo 4
Construir un boxplot para el siguiente conjunto de datos y determinar la
existencia de outliers.
32 37 39 40 41 41 41 42 42 43
44 45 45 45 46 47 47 49 50 51
Para ello, ordenamos los datos de menor a mayor (en este caso lo están) y
calculamos los cuartiles Q1 , Q2 y Q3 y el rango intercuartı́lico RIC:
Q1 = 41 Q2 = 43, 5 Q3 = 46, 25 RIC = 5, 25
Luego, obtenemos los lı́mites internos y externos para determinar outliers:

• Lı́mites internos: Q1 − 1, 5RIC = 32,375 y Q3 + 1, 5RIC = 55,375
• Lı́mites externos: Q1 − 3RIC = 23,75 y Q3 + 3RIC = 64

Ejemplo 4 (cont.)
Ası́, el correspondiente boxplot es:
Vemos que hay un outlier moderado (observación 1 de la muestra).


U5 Estadística Descriptiva - Con Notas de Clase

Cargado por

Copyright:

Formatos disponibles

U5 Estadística Descriptiva - Con Notas de Clase

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

U5 Estadística Descriptiva - Con Notas de Clase

Cargado por

Copyright:

Formatos disponibles

Introducción Caracterización de datos Representación de datos

Prof. Diego Ayma Anza

Universidad Católica del Norte

Prof. Diego Ayma Anza UCN Sede Antofagasta 1 / 44

Prof. Diego Ayma Anza UCN Sede Antofagasta 2 / 44

Una vez recogidos los datos, se organizan apropiadamente según el interés

Prof. Diego Ayma Anza UCN Sede Antofagasta 4 / 44

Un fabricante de tornillos desea hacer un control de calidad. Para ello,

X Población: Conjunto de 1000 tornillos

Dato atı́pico u outlier

Prof. Diego Ayma Anza UCN Sede Antofagasta 5 / 44

Tipos de variables estadı́sticas

Prof. Diego Ayma Anza UCN Sede Antofagasta 6 / 44

Cada tipo de muestreo tiene sus ventajas e inconvenientes. A continuación

Muestreo aleatorio simple

Prof. Diego Ayma Anza UCN Sede Antofagasta 8 / 44

Prof. Diego Ayma Anza UCN Sede Antofagasta 9 / 44

Prof. Diego Ayma Anza UCN Sede Antofagasta 10 / 44

Muestreo por conglomerados

Prof. Diego Ayma Anza UCN Sede Antofagasta 11 / 44

Podemos caracterizar datos numéricos mediante el uso de:

• Medidas de forma (no serán vistas aquı́)

Prof. Diego Ayma Anza UCN Sede Antofagasta 12 / 44

Medidas de posición: media aritmética

Prof. Diego Ayma Anza UCN Sede Antofagasta 13 / 44

Medidas de posición: media aritmética

Sobre la media aritmética ...

• Es el centro de gravedad de la distribución de la variable estadı́stica.

• Es sensible a datos atı́picos u outliers.

Prof. Diego Ayma Anza UCN Sede Antofagasta 14 / 44

Dados los siguientes n = 5 datos medidos en MB:

x1 = 1314 x2 = 1256 x3 = 1450 x4 = 1256 x5 = 1367

se tiene que x̄ = 1328, 6 MB. Si quisiésemos obtener dicha media aritmética

ȳ = (1/1024) · 1328, 6 ≈ 1, 2975 GB.

Prof. Diego Ayma Anza UCN Sede Antofagasta 15 / 44

Medidas de posición: mediana

Prof. Diego Ayma Anza UCN Sede Antofagasta 16 / 44

Medidas de posición: mediana

• Divide la muestra en dos partes iguales, es decir, en dos partes que

Prof. Diego Ayma Anza UCN Sede Antofagasta 17 / 44

Medidas de posición: moda

La moda, xmo , es el valor de los datos que más se repite en la muestra.

• No es sensible a valores atı́picos u outliers.

• Puede que no haya moda o que haya más de una.

• Puede ser usada para datos categóricos.

Prof. Diego Ayma Anza UCN Sede Antofagasta 18 / 44

Relación entre la media aritmética, la mediana y la moda

• Simetrı́a: x̄ = xme = xmo

• Asimetrı́a positiva (o de cola derecha): xmo < xme < x̄

• Asimetrı́a negativa (o de cola izquierda): x̄ < xme < xmo

Prof. Diego Ayma Anza UCN Sede Antofagasta 19 / 44

Medidas de posición: cuantiles

Dado un conjunto de datos ordenados de menor a mayor, los cuantiles son

Los cuantiles más populares son:

Prof. Diego Ayma Anza UCN Sede Antofagasta 20 / 44

Medidas de posición: cuartiles

Qk = x(P.E.) + P.D. · (x(P.E.+1) − x(P.E.) )

Interpretación: el cuartil Qk deja a la izquierda aproximadamente el (k/4)×

Medidas de posición: percentiles