U5 Estadística Descriptiva - Con Notas de Clase

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 44

Introducción Caracterización de datos Representación de datos

Estadı́stica
para Ingenierı́as Base Cientı́fica y Geologı́a

Prof. Diego Ayma Anza

Universidad Católica del Norte


Antofagasta, Chile

Prof. Diego Ayma Anza UCN Sede Antofagasta 1 / 44


Introducción Caracterización de datos Representación de datos

Unidad 5:
Estadı́stica descriptiva

Prof. Diego Ayma Anza UCN Sede Antofagasta 2 / 44


Introducción Caracterización de datos Representación de datos

Introducción
La Estadı́stica descriptiva se encarga de recolectar, organizar, presentar y
describir un conjunto de datos.
La recolección de datos se realiza mediante técnicas y herramientas tales
como:
• Entrevista
• Encuesta
• Observación
• Experimentación

Una vez recogidos los datos, se organizan apropiadamente según el interés


del ingeniero o cientı́fico. En esta unidad veremos algunas medidas, gráficos
y tablas que nos permiten presentar y describir datos. Para ello, definiremos
algunos conceptos básicos.
Prof. Diego Ayma Anza UCN Sede Antofagasta 3 / 44
Introducción Caracterización de datos Representación de datos

Conceptos básicos

Población
Conjunto de individuos o elementos que tienen el rasgo o caracterı́stica a
analizar.

Muestra
Subconjunto de la población. Debe representarla lo más fielmente posible
para que la interpretación de los datos sea válida (teorı́a de muestreo).

Variable estadı́stica
Rasgo o caracterı́stica de los individuos o elementos objeto de análisis.

Dato
Valor o realización particular de una variable estadı́stica.

Prof. Diego Ayma Anza UCN Sede Antofagasta 4 / 44


Introducción Caracterización de datos Representación de datos

Ejemplo 1

Un fabricante de tornillos desea hacer un control de calidad. Para ello,


de 1000 tornillos producidos al dı́a, selecciona al azar una muestra de 10
tornillos y mide sus longitudes (en mm).
Entonces:

X Población: Conjunto de 1000 tornillos


X Muestra: 10 tornillos seleccionados al azar
X Variable estadı́stica: Longitud (en mm)
X Datos: 10 mm, 25mm , 10,05 mm, ... , 10,2 mm, 10,1 mm, 10,1 mm

Dato atı́pico u outlier


Valor (numéricamente) distante al resto de los datos.

Prof. Diego Ayma Anza UCN Sede Antofagasta 5 / 44


Introducción Caracterización de datos Representación de datos

Tipos de variables estadı́sticas

Prof. Diego Ayma Anza UCN Sede Antofagasta 6 / 44


Introducción Caracterización de datos Representación de datos

Tipos de muestreo
Existen diferentes tipos de muestreo, los cuales se suelen dividir en dos
grupos:
1 Métodos de muestreo probabilı́sticos:
• Muestreo aleatorio simple
• Muestreo sistemático
• Muestreo estratificado
• Muestreo por conglomerados
2 Métodos de muestreo no probabilı́sticos:
• Muestreo por conveniencia
• Muestreo de bola de nieve
• Muestreo por cuotas

Cada tipo de muestreo tiene sus ventajas e inconvenientes. A continuación


describiremos los métodos de muestreo probabilı́sticos señalados.
Prof. Diego Ayma Anza UCN Sede Antofagasta 7 / 44
Introducción Caracterización de datos Representación de datos

Muestreo aleatorio simple


Se selecciona una muestra de n individuos o elementos de la población
objetivo, de manera que cada posible muestra del mismo tamaño tenga la
misma posibilidad de ser elegida.

Prof. Diego Ayma Anza UCN Sede Antofagasta 8 / 44


Introducción Caracterización de datos Representación de datos

Muestreo sistemático
Se hace una selección aleatoria del primer individuo o elemento de la población
objetivo para la muestra, y luego se seleccionan los individuos o elementos
posteriores utilizando intervalos fijos o sistemáticos hasta alcanzar el tamaño
de la muestra deseado.

Prof. Diego Ayma Anza UCN Sede Antofagasta 9 / 44


Introducción Caracterización de datos Representación de datos

Muestreo estratificado
Se subdivide a la población objetivo en al menos dos subgrupos (o estratos
diferentes), de manera que los individuos o elementos del mismo subgrupo
compartan las mismas caracterı́sticas (por ejemplo, género o rango etario),
y después se obtiene una muestra de cada subgrupo.

Prof. Diego Ayma Anza UCN Sede Antofagasta 10 / 44


Introducción Caracterización de datos Representación de datos

Muestreo por conglomerados


Se divide el área de la población objetivo en secciones (o conglomerados).
Luego, se eligen al azar algunas de estas secciones, y después se elige a
todos los miembros de las secciones seleccionadas.

Prof. Diego Ayma Anza UCN Sede Antofagasta 11 / 44


Introducción Caracterización de datos Representación de datos

Caracterización de datos

Podemos caracterizar datos numéricos mediante el uso de:


• Medidas de posición
Media aritmética, mediana, moda, cuantiles

• Medidas de dispersión
Rango, rango intercuartı́lico, varianza, desviación estándar (o tı́pica),
coeficiente de variación

• Medidas de forma (no serán vistas aquı́)


Coeficiente de asimetrı́a de Fisher, coeficiente de asimetrı́a de
Pearson, coeficiente de curtosis de Fisher

Prof. Diego Ayma Anza UCN Sede Antofagasta 12 / 44


Introducción Caracterización de datos Representación de datos

Medidas de posición: media aritmética


Si x1 , x2 , ..., xn son los datos de una muestra de tamaño n, entonces la
media aritmética de la muestra se calcula como:
n
1X
x̄ = xi
n
i=1

Prof. Diego Ayma Anza UCN Sede Antofagasta 13 / 44


Introducción Caracterización de datos Representación de datos

Medidas de posición: media aritmética

Sobre la media aritmética ...

• Es el centro de gravedad de la distribución de la variable estadı́stica.

• Es sensible a datos atı́picos u outliers.

• No tiene por qué ser igual a uno de los valores de los datos, ni
siquiera de su misma naturaleza (datos enteros pueden tener una
media aritmética decimal).
• Conserva la linealidad, es decir, dados ciertos datos xi y una
transformación lineal de los datos yi = a + bxi , entonces:

ȳ = a + bx̄.

Prof. Diego Ayma Anza UCN Sede Antofagasta 14 / 44


Introducción Caracterización de datos Representación de datos

Ejemplo 2

Dados los siguientes n = 5 datos medidos en MB:

x1 = 1314 x2 = 1256 x3 = 1450 x4 = 1256 x5 = 1367

se tiene que x̄ = 1328, 6 MB. Si quisiésemos obtener dicha media aritmética


expresada en GB, entonces podemos recurrir a la relación lineal 1 GB = 1024
MB.
Si yi son los datos medidos en GB, entonces yi = (1/1024)xi (donde a = 0
y b = 1/1024). De esta manera, se tiene que:

ȳ = (1/1024) · 1328, 6 ≈ 1, 2975 GB.

Prof. Diego Ayma Anza UCN Sede Antofagasta 15 / 44


Introducción Caracterización de datos Representación de datos

Medidas de posición: mediana

Dado un conjunto de datos ordenados de menor a mayor x(1) , x(2) , ..., x(n) ,
la mediana se calcula como:

x n+1 , si n es impar
( )
xme = 1 2 
 x n +x n , si n es par
2 ( ) ( +1)
2 2

Prof. Diego Ayma Anza UCN Sede Antofagasta 16 / 44


Introducción Caracterización de datos Representación de datos

Medidas de posición: mediana


Sobre la mediana ...

• Divide la muestra en dos partes iguales, es decir, en dos partes que


tienen la misma cantidad de datos.
• No es sensible a datos atı́picos u outliers.

• No tiene por qué ser igual a uno de los valores de los datos, ni
siquiera de su misma naturaleza (datos enteros pueden tener una
mediana decimal).
• Conserva la linealidad, es decir, dados ciertos datos xi y una
transformación lineal de los datos yi = a + bxi , entonces:

yme = a + bxme .

Prof. Diego Ayma Anza UCN Sede Antofagasta 17 / 44


Introducción Caracterización de datos Representación de datos

Medidas de posición: moda

La moda, xmo , es el valor de los datos que más se repite en la muestra.


Sobre esta medida podemos decir que:

• No es sensible a valores atı́picos u outliers.

• Puede que no haya moda o que haya más de una.

• Puede ser usada para datos categóricos.

Prof. Diego Ayma Anza UCN Sede Antofagasta 18 / 44


Introducción Caracterización de datos Representación de datos

Relación entre la media aritmética, la mediana y la moda


Cuando sólo hay una moda (distribución unimodal), ésta junto con la media
aritmética y la mediana dan una idea respecto al tipo de asimetrı́a que
presentan los datos. Se tiene:

• Simetrı́a: x̄ = xme = xmo

• Asimetrı́a positiva (o de cola derecha): xmo < xme < x̄

• Asimetrı́a negativa (o de cola izquierda): x̄ < xme < xmo

Prof. Diego Ayma Anza UCN Sede Antofagasta 19 / 44


Introducción Caracterización de datos Representación de datos

Medidas de posición: cuantiles

Dado un conjunto de datos ordenados de menor a mayor, los cuantiles son


aquellos números que dividen la muestra en determinadas partes iguales.

Los cuantiles más populares son:


• Cuartiles: dividen la muestra en 4 partes iguales. Por lo tanto, son 3
números que denotaremos por Q1 , Q2 y Q3 .
• Percentiles: dividen la muestra en 100 partes iguales. Por lo tanto,
son 99 números que denotaremos por P1 , P2 , ..., P99 .

Nota:
xme = Q2 = P50

Prof. Diego Ayma Anza UCN Sede Antofagasta 20 / 44


Introducción Caracterización de datos Representación de datos

Medidas de posición: cuartiles


Dado un conjunto de datos ordenados de menor a mayor x(1) , x(2) , ..., x(n) ,
los cuartiles Qk se calculan usando la fórmula:

Qk = x(P.E.) + P.D. · (x(P.E.+1) − x(P.E.) )

donde P.E. y P.D. son la parte entera y la parte decimal del indicador i, el
cual se obtiene como sigue:
• Si k = 1, entonces i = n+1
4

• Si k = 2, entonces i = n+1
2
3(n+1)
• Si k = 3, entonces i = 4

Interpretación: el cuartil Qk deja a la izquierda aproximadamente el (k/4)×


100% de los datos.
Prof. Diego Ayma Anza UCN Sede Antofagasta 21 / 44
Introducción Caracterización de datos Representación de datos

Medidas de posición: percentiles

Dado un conjunto de datos ordenados de menor a mayor x(1) , x(2) , ..., x(n) ,
los percentiles Pk se calculan usando la fórmula:

Pk = x(P.E.) + P.D. · (x(P.E.+1) − x(P.E.) )

donde P.E. y P.D. son la parte entera y la parte decimal del indicador:

k(n + 1)
i= ,
100
para k = 1, 2, ..., 99

Interpretación: el percentil Pk deja a la izquierda aproximadamente el


(k/100) × 100% de los datos.

Prof. Diego Ayma Anza UCN Sede Antofagasta 22 / 44


Introducción Caracterización de datos Representación de datos

Problema 1
Se tienen los siguientes datos de permeabilidad1 de una arena obtenidos de
registros de pozo (expresados en 105 miliDarcys):

1,5 2,3 2,6 2,6 2,7 2,75


2,8 2,8 2,8 2,9 3,0 3,15
3,15 3,2 3,2 3,2 3,2 3,2

De esta muestra, calcular:


• su media aritmética (R: x̄ = 1021
360 ≈ 2, 8361 miliDarcys)
• su moda (R: xmo = 3, 2 miliDarcys)
• su mediana (R: xme = 2, 85 miliDarcys)
• sus cuartiles (R: Q1 = 2, 675 miliDarcys, Q2 = xme , Q3 = 3, 2
miliDarcys)
1
https://es.wikipedia.org/wiki/Permeabilidad
Prof. Diego Ayma Anza UCN Sede Antofagasta 23 / 44
Introducción Caracterización de datos Representación de datos

Medidas de dispersión: rango


El rango es la diferencia entre el valor máximo y el valor mı́nimo de los
datos de una muestra, es decir:
Rango = x(n) − x(1)

• El rango ignora la forma en que los datos están distribuidos:

• Además, es sensible a valores extremos u outliers:

Prof. Diego Ayma Anza UCN Sede Antofagasta 24 / 44


Introducción Caracterización de datos Representación de datos

Medidas de dispersión: rango intercuartı́lico


El rango intercuartı́lico se calcula como la diferencia entre el tercer cuartil
y el primer cuartil, es decir:

RIC = Q3 − Q1

Ejemplo: Determinar el rango intercuartı́lico de la siguiente muestra:

3 5 5 8 12 15 21 23 25 26

• Cálculo de Q1 : i = 2, 75 → Q1 = x(2) + 0, 75 · (x(3) − x(2) ) = 5

• Cálculo de Q3 : i = 8, 25 → Q3 = x(8) + 0, 25 · (x(9) − x(8) ) = 23, 5

• Cálculo de RIC: RIC = Q3 − Q1 = 18, 5


Prof. Diego Ayma Anza UCN Sede Antofagasta 25 / 44
Introducción Caracterización de datos Representación de datos

Medidas de dispersión: varianza y desviación estándar

Si x1 , x2 , ..., xn son los datos de una muestra de tamaño n, entonces la


varianza de la muestra se calcula como:
n n
!
2 1 X 2 1 X
2 2
sx = (xi − x̄) = xi − nx̄
n−1 n−1
i=1 i=1

La desviación estándar
p(o tı́pica), sx , es la raı́z cuadrada (positiva) de la
varianza, esto es, sx = sx2 .
La desviación estándar se expresa en las mismas unidades de medida que
los datos; la varianza no (estarı́a expresada en unidades al cuadrado).
Interpretación: ambas medidas cuantifican la variación o dispersión de un
conjunto de datos con respecto a su media aritmética.

Prof. Diego Ayma Anza UCN Sede Antofagasta 26 / 44


Introducción Caracterización de datos Representación de datos

Medidas de dispersión: varianza y desviación estándar

A diferencia de la media aritmética y la mediana, la varianza y la desviación


estándar no conservan la linealidad.

¿Qué ocurre entonces?

Dados ciertos datos xi y una transformación lineal de los datos yi = a + bxi ,


entonces:
sy2 = b 2 sx2 y sy = |b|sx .

Prof. Diego Ayma Anza UCN Sede Antofagasta 27 / 44


Introducción Caracterización de datos Representación de datos

Ejemplo 3

Dados los siguientes n = 5 datos medidos en MB:

x1 = 1314 x2 = 1256 x3 = 1450 x4 = 1256 x5 = 1367

se tiene que sx ≈ 82, 1086 MB. Si quisiésemos obtener dicha desviación


estándar expresada en GB, entonces podemos recurrir a la relación lineal 1
GB = 1024 MB.
Si yi son los datos medidos en GB, entonces yi = (1/1024)xi (donde a = 0
y b = 1/1024). De esta manera, se tiene que:

sy = |(1/1024)| · 82, 1086 ≈ 0, 0802 GB.

Prof. Diego Ayma Anza UCN Sede Antofagasta 28 / 44


Introducción Caracterización de datos Representación de datos

Medidas de dispersión: coeficiente de variación

El coeficiente de variación muestra la variación o dispersión relativa de


un conjunto de datos y se suele expresar en porcentaje. Este coeficiente se
calcula como:
s
CV = × 100% (siempre que x̄ 6= 0)
|x̄|

• Por definición, es una medida adimensional (sin unidades).

• Es generalmente utilizada para comparar dos o más conjuntos de


datos, los cuales pueden estar medidos en unidades diferentes.

Prof. Diego Ayma Anza UCN Sede Antofagasta 29 / 44


Introducción Caracterización de datos Representación de datos

Problema 2

Se tienen los siguientes datos de permeabilidad de una arena obtenidos de


registros de pozo expresados en 105 miliDarcys:

1,5 2,3 2,6 2,6 2,7 2,75


2,8 2,8 2,8 2,9 3,0 3,15
3,15 3,2 3,2 3,2 3,2 3,2

De esta muestra, calcular:


• su varianza (R: sx2 ≈ 0, 1826 miliDarcys2 )
• su desviación estándar (R: sx ≈ 0, 4273 miliDarcys)
• su coeficiente de variación (R: CV ≈ 15, 07%)
P18 2
Nota: i=1 xi = 147, 8875

Prof. Diego Ayma Anza UCN Sede Antofagasta 30 / 44


Introducción Caracterización de datos Representación de datos

Representación de datos

¿Cómo podemos visualizar lo que está ocurriendo con el conjunto de


datos?
X Para datos categóricos o cualitativos:
• Tablas de resumen
• Gráficos de barra, Gráficos circulares

X Para datos numéricos o cuantitativos:


• Tablas de frecuencia
• Histogramas
• Diagramas de caja y bigotes (Boxplots)

Prof. Diego Ayma Anza UCN Sede Antofagasta 31 / 44


Introducción Caracterización de datos Representación de datos

Tabla de resumen

Una tabla de resumen indica la frecuencia absoluta (cantidad) y la frecuen-


cia relativa (en %) de individuos o elementos de un conjunto de categorı́as,
con el fin de observar las diferencias entre ellas.

Ejemplo: Fondos de inversión caracterizados por nivel de riesgo.

Prof. Diego Ayma Anza UCN Sede Antofagasta 32 / 44


Introducción Caracterización de datos Representación de datos

Gráfico de barra / Gráfico circular


En un gráfico de barra, la altura de éstas suele ser la frecuencia absoluta
de cada categorı́a. En cambio, en un gráfico circular, el área de cada sector
se suele corresponder con la frecuencia relativa (en %) de cada categorı́a.

Prof. Diego Ayma Anza UCN Sede Antofagasta 33 / 44


Introducción Caracterización de datos Representación de datos

Tabla de frecuencias (para datos discretos)

Ejemplo: Número de accidentes mortales por dı́a entre Enero y Junio 2014
en una determinada provincia.

Prof. Diego Ayma Anza UCN Sede Antofagasta 34 / 44


Introducción Caracterización de datos Representación de datos

Tabla de frecuencias (para datos continuos)


Ejemplo: Notas 1era Prueba de Estadı́stica Paralelo C3 (1er semestre
2019).

Prof. Diego Ayma Anza UCN Sede Antofagasta 35 / 44


Introducción Caracterización de datos Representación de datos

Histograma (para datos discretos)

Ejemplo: Número de accidentes mortales por dı́a entre Enero y Junio 2014
en una determinada provincia.

Prof. Diego Ayma Anza UCN Sede Antofagasta 36 / 44


Introducción Caracterización de datos Representación de datos

Histograma (para datos continuos)

Ejemplo: Notas 1era Prueba de Estadı́stica Paralelo C3 (1er semestre


2019).

Prof. Diego Ayma Anza UCN Sede Antofagasta 37 / 44


Introducción Caracterización de datos Representación de datos

Boxplot

El diagrama de caja y bigotes, o también llamado Boxplot, describe si-


multáneamente varias caracterı́sticas de la muestra, tales como:
• Centro
• Dispersión
• Naturaleza de cualquier desviación de la simetrı́a
• Identificación de datos atı́picos u outliers

¿Cómo determinar datos atı́picos u outliers?

Para ello haremos uso de los cuartiles Q1 y Q3 y el rango intercuartı́lico RIC.

Prof. Diego Ayma Anza UCN Sede Antofagasta 38 / 44


Introducción Caracterización de datos Representación de datos

Boxplot

¿Cómo determinar datos atı́picos u outliers?

Dados los valores Q1 , Q3 y RIC de la muestra, calculamos:


• Lı́mites internos: Q1 − 1, 5RIC y Q3 + 1, 5RIC
• Lı́mites externos: Q1 − 3RIC y Q3 + 3RIC

Ası́, llamaremos:

X outliers moderados a los datos que se encuentran entre los lı́mites


internos y externos;
X outliers extremos a los datos que se encuentran fuera de los lı́mites
externos.

Prof. Diego Ayma Anza UCN Sede Antofagasta 39 / 44


Introducción Caracterización de datos Representación de datos

Significado de un boxplot

Prof. Diego Ayma Anza UCN Sede Antofagasta 40 / 44


Introducción Caracterización de datos Representación de datos

Formas de un boxplot

Prof. Diego Ayma Anza UCN Sede Antofagasta 41 / 44


Introducción Caracterización de datos Representación de datos

Construcción de un boxplot
1 Ordenar los datos de menor a mayor y calcular Q1 , Q2 , Q3 y RIC.
2 Calcular los lı́mites internos y externos.
3 Trazar un eje vertical (horizontal) de medición en base a los datos de
la muestra.
4 Dibujar un rectángulo al lado de (sobre) este eje, de modo que su
extremo inferior (izquierdo) coincida con Q1 y su extremo superior
(derecho) coincida con Q3 .
5 Trazar un segmento horizontal (vertical) dentro del rectángulo que
coincida con Q2 .
6 Marcar los datos atı́picos u outliers, ya sean moderados o extremos.
7 Trazar los bigotes que salen de ambos lados del rectángulo hacia los
valores mı́nimos y máximos que no son outliers.
Prof. Diego Ayma Anza UCN Sede Antofagasta 42 / 44
Introducción Caracterización de datos Representación de datos

Ejemplo 4
Construir un boxplot para el siguiente conjunto de datos y determinar la
existencia de outliers.

32 37 39 40 41 41 41 42 42 43
44 45 45 45 46 47 47 49 50 51

Para ello, ordenamos los datos de menor a mayor (en este caso lo están) y
calculamos los cuartiles Q1 , Q2 y Q3 y el rango intercuartı́lico RIC:

Q1 = 41 Q2 = 43, 5 Q3 = 46, 25 RIC = 5, 25

Luego, obtenemos los lı́mites internos y externos para determinar outliers:


• Lı́mites internos: Q1 − 1, 5RIC = 32,375 y Q3 + 1, 5RIC = 55,375
• Lı́mites externos: Q1 − 3RIC = 23,75 y Q3 + 3RIC = 64

Prof. Diego Ayma Anza UCN Sede Antofagasta 43 / 44


Introducción Caracterización de datos Representación de datos

Ejemplo 4 (cont.)

Ası́, el correspondiente boxplot es:

Vemos que hay un outlier moderado (observación 1 de la muestra).


Prof. Diego Ayma Anza UCN Sede Antofagasta 44 / 44

También podría gustarte