Medidas de Resumen

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 58

DESCRIPCIÓN DE DATOS

MEDIDAS NUMÉRICAS

1
TIPOS DE MEDIDAS

◉ Medidas de posición
◉ Medidas de dispersión
◉ Medidas de forma
◉ Medidas de asociación

Si estas medidas se calculan sobre la muestra se llaman


estadísticos muestrales, si se calculan sobre la población se
llaman parámetros poblacionales.
2
MEDIDAS DE POSICIÓN

Dentro de este grupo se distinguen dos tipos:

1) Medidas de tendencia central: Media, Media


Ponderada y Mediana
2) Medidas de localización: Percentil, Decil, Cuartil.

3
MEDIDAS DE TENDENCIA CENTRAL

Las medidas de tendencia central son medidas


estadísticas con las que intentamos simplificar en un
solo valor un conjunto de datos.
Representan un centro en torno al cual se encuentra
ubicados los datos. Se utilizan fundamentalmente para
resumir información.
Las medidas de tendencia central más utilizadas son:
media, media aritmética, mediana y moda.
4
MEDIA

5
VENTAJAS Y DESVENTAJAS

VENTAJAS DESVENTAJAS

◉ Concepto familiar y claro ◉ Puede verse afectada por


◉ Cada conjunto tiene una valores extremos.
media y es única. ◉ Al utilizar todos los datos a
◉ Permite comparar varios veces es tedioso de calcular
conjuntos de datos ◉ Dificultad para calcularlo
cuando la clase es abierta

6
MEDIA PONDERADA

7
MEDIANA

Se define la mediana como aquel valor que no es superado ni supera


a más de la mitad de las observaciones del conjunto. Los datos deben
ordenarse de menor a mayor. Cuando esto ocurre la mediana es
aquel dato que deja tantas observaciones de la muestra por debajo
como por encima.

Para hallar la mediana hay que distinguir dos situaciones teniendo en


cuenta si la cantidad de datos es par8 o impar.
MEDIANA
VENTAJAS Y DESVENTAJAS

VENTAJAS DESVENTAJAS

◉ No está afectada por ◉ Debemos ordenar los datos


valores extremos. antes de calcularla.
◉ Fácil de entender y se ◉ Sacrificamos exactitud en el
puede calcular a partir de dato.
cualquier dato.

10
MODA

Es el valor de la observación que aparece con mayor frecuencia.


Pueden ocurrir tres situaciones

○ No haber moda 10 15 25 35 16 18
○ Unimodal 18 16 18 15 13 26 Mo= 18
○ Bimodal 16 17 25 25 25 16 Mo= 16 y 25

11
VENTAJAS Y DESVENTAJAS

VENTAJAS DESVENTAJAS

◉ Se puede usar en datos ◉ No siempre hay moda o en


cualitativos y cuantitativos. algunos casos no es única.
◉ No está afectada por ◉ Cuando hay más de dos
valores extremos modas los datos son
◉ Se puede usar con clases difíciles de interpretar.
de extremo abierto.

12
RELACION MEDIA, MODA, MEDIANA

13
PERCENTIL

PERCENTIL: El percentil p es un valor tal que por lo menos p


por ciento de las observaciones son menores o iguales que
este valor y por lo menos (100 - p) por ciento de las
observaciones son mayores o iguales que este valor.

14
CÁLCULO DEL PERCENTIL

15
CUARTILES

Con frecuencia es conveniente dividir los datos en cuatro partes;


así, cada parte contiene una cuarta parte o 25% de las
observaciones.

16
FÓRMULA RÁPIDA PARA HALLAR CUARTILES

.
MEDIDAS DE DISPERSIÓN

Las medidas de dispersión, variación o variabilidad nos permiten ver


el grado de dispersión de los valores de una variable. Es decir en
qué medida los datos analizados difieren entre sí.

Tiempo de
Banco
espera
A 4 7 7

B 1 3 14

18
RANGO

El rango es la diferencia entre el más alto y el más pequeño de los


valores observados. En forma de ecuación, podemos decir

19
RANGO INTERCUARTÍLICO

El rango intercuartílico mide aproximadamente qué tan lejos de la


mediana debemos ir en cualquiera de las dos direcciones antes de
recorrer una mitad de los valores del conjunto de datos. Para

20
VARIANZA

La varianza es una medida de


variabilidad que utiliza todos
los datos. La varianza está
basada en la diferencia entre
el valor de cada observación
(xi) y la media.

21
DESVÍO ESTÁNDAR

22
INTERPRETACIÓN DE LA VARIANZA Y EL DESVÍO
ESTÁNDAR

Interpretación de la varianza (válida también para la desviación estándar):


un alto valor de la varianza indica que los datos están alejados del
promedio. Es difícil hacer una interpretación de la varianza teniendo un
solo valor de ella. La situación es más clara si se comparan las varianzas
de dos muestras, por ejemplo varianza de la muestra igual 18 y varianza de
la muestra b igual 25. En este caso diremos que los datos de la muestra b
tienen mayor dispersión que los datos de la muestra a. esto significa que
en la muestra a los datos están más cerca del promedio y en cambio en la
muestra b los datos están más alejados del promedio.

23
COEFICIENTE DE VARIACIÓN

Es una medida de la dispersión relativa de los datos. Se define como la


desviación estándar de la muestra expresada como porcentaje de la media
muestral.

Es de particular utilidad para comparar la dispersión entre variables con distintas


unidades de medida. Esto porque el coeficiente de variación, a diferencia de la
desviación estándar, es independiente de la unidad de medida de la variable de
estudio.
24
EJERCICIO PARA TRABAJAR EN CLASES

J. D. Powers and Associates hicieron una investigación sobre el número de minutos por mes que los usuarios
de teléfonos celulares usan sus teléfonos (Associated Press, junio de 2002). A continuación se muestran los
minutos por mes hallados en una muestra de 15 usuarios de teléfonos celulares.

a) Calcule la media, la moda y la mediana.


b) Calcule el percentil 85 y el 1er cuartil e interprete los resultados.
c) J. D. Powers and Associates informa que los planes promedio para usuarios de celulares permiten hasta
750 minutos de uso por mes. ¿Qué indican los datos acerca de la utilización que hacen los usuarios de
teléfonos celulares de sus planes mensuales?
25
EJERCICIOS PARA TRABAJAR EN CLASES

Los Angeles Times informa con regularidad sobre el índice de la calidad del aire en
varias regiones del sur de California. En una muestra de los índices de calidad del
aire en Pomona se tienen los datos siguientes:

28, 42, 58, 48, 45, 55, 60, 49 y 50.

a. Calcule el rango y el rango intercuartílico.


b. Calcule la varianza muestral y la desviación estándar muestral.
c. En una muestra de índices de calidad del aire en Anaheim, la media muestral es
48.5, la varianza muestral es 136 y la desviación estándar muestral es 11.66. Con
base en estos estadísticos descriptivos compare la calidad del aire en Pomona y en
Anaheim. 26
a) Rango= max - min = 60- 28= 32
Rango intercuartilico= (Q3-Q1)= 9,75 - 3,25=6,5
Q3= 3(n+1)/4=3*13/4= 9,75
Q1= 1(12+1)/4= 3.25
a) Var= 92, 74 D.E= 9,63
b) Media= 48,33
Anaheim→ media= 48,5
Var= 136, DE= 11,66 27
EJERCICIOS PARA TRABAJAR EN CLASES

Las puntuaciones de un jugador de golf en el 2005 y 2006 son las siguientes:

2005 74 78 79 77 75 73 75 77
2006 71 70 75 77 85 80 71 79

a. Use la media y la desviación estándar para evaluar a este jugador de golf en estos
dos años.
b. ¿Cuál es la principal diferencia en su desempeño en estos dos años? ¿Se puede
ver algún progreso en sus puntuaciones del 2006?, ¿cuál?

28
ANÁLISIS EXPLORATORIO DE
DATOS

29
DIAGRAMA DE CAJA

Un diagrama de caja es una representación gráfica, basada en


cuartiles, que ayuda a presentar un conjunto de datos. Para
construir un diagrama de caja, sólo necesita cinco estadísticos: el
valor mínimo, Q1 (primer cuartil), la mediana, Q3 (tercer cuartil) y el
valor máximo.

30
Diagrama de caja y sesgo

31
Diagrama de caja

El diagrama nos revela que ambas


distribuciones de datos presentan
sesgos. Para la marca 1 la distribución
de los contenidos es sesgada a la
derecha, mientras que para la marca 2
es sesgada a la izquierda. Ninguna de
las distribuciones presenta valores
atípicos. En cuanto al valor
representativo vemos que no hay una
diferencia significativa para los
contenidos de sodio de ambas
marcas, sin embargo, cerca del 75%
de los contenidos de la marca 1 son
menores que 265, el valor
representativo de la marca 2, que
presenta una variabilidad menor que
la marca 1.

32
DATOS ATÍPICOS

33
DIAGRAMA DE CAJA- EJEMPLO

34
¿Cómo construir un diagrama de caja?

1. Ordene los datos de menor a mayor.


2. Identifique el valor mínimo, valor máximo, la mediana y los cuartiles 1 y 3
3. Trace una recta horizontal que represente la escala de medición.
4. Forme una caja un poco arriba de la recta horizontal con los extremos derecho e
izquierdo en Q1 y Q3. Trace una recta vertical que pase por la caja en la
ubicación de la mediana
5. Busque los valores atípicos, márquelos con un asterisco *
6. Prolongue rectas horizontales llamadas “bigotes” desde los extremos de la caja
a las observaciones más pequeñas y más grandes que no sean resultados
atípicos.

35
EJEMPLO

Alexander’s Pizza ofrece entregas gratuitas de pizza a 15 millas a la redonda. Alex, el


propietario, desea información relacionada con el tiempo de entrega. ¿Cuánto
tiempo tarda una entrega típica? ¿En qué margen de tiempo deben completarse la
mayoría de las entregas? En el caso de una muestra de 20 entregas, Alex recopiló la
siguiente información:
○ Valor mínimo = 13 minutos
○ Q1 = 15 minutos
○ Mediana = 18 minutos
○ Q3 = 22 minutos
○ Valor máximo = 30 minutos
Elabore un diagrama de caja de los tiempos de entrega. ¿Qué conclusiones deduce
sobre los tiempos de entrega?

36
DIAGRAMA DE CAJA

El diagrama de caja muestra que el valor medio de las entregas, 50%, consume
entre 15 y 22 minutos. La distancia entre los extremos de la caja, 7 minutos, es el
rango intercuartil. Este rango, que es la distancia entre el primer y el tercer cuartiles,
muestra la propagación o dispersión de la mayoría de las entregas.
El diagrama de caja también revela que la distribución de los tiempos de entrega
tiene un sesgo positivo.
37
EJERCICIO PARA TRABAJAR EN CLASES

A medida que los consumidores estadounidenses tienen más cuidado con


los alimentos que consumen, los procesadores de alimentos tratan de ser
competitivos al evitar cantidades excesivas de grasa, colesterol y sodio en
los alimentos que venden. Los datos siguientes son las cantidades de
sodio por rebanada (en miligramos) para cada una de ocho marcas de
queso regular estadounidense. Construya una gráfica de caja para los
datos y busque resultados atípicos.

340, 300, 520, 340, 320, 290, 260, 330

38
EJERCICIO PARA TRABAJAR EN CLASES

39
Medidas para datos agrupados

◉ MEDIANA MODA

40
Medidas para datos agrupados

◉ DESVIO MUESTRAL PARA DATOS


AGRUPADOS

41
EJERCICIOS

42
EJEMPLO PARA DATOS AGRUPADOS

43
EJERCICIO PARA TRABAJAR EN CLASES

Partiendo de la siguiente tabla calcular:


a) Media, Mediana, Moda
b) Desvío estándar y Varianza

44
EJERCICIO PARA TRABAJAR EN CLASES

45
EJERCICIOS PARA TRABAJAR EN CLASES

Una empresa ha realizado un test físico entre sus empleados para comprobar la
capacidad de esfuerzo que posee cada uno de ellos. Una de las medidas que
componen el mismo es el número de pulsaciones después de una determinada
actividad física, que está altamente relacionada con las que se realizan a lo largo de
una jornada laboral. Los datos conseguidos han sido distribuidos en una tabla de
frecuencias. La tabla resultante es la que se presenta:

46
En la siguiente tabla se muestra la altura de los jugadores de un
equipo de básquet, calcular media, mediana, moda, varianza y
desvío.

47
RELACIÓN ENTRE DOS VARIABLES CUANTITATIVAS

Cuando tenemos dos variables cuantitativas, cada par de valores se grafica como
puntos en las graficas de dos dimensiones llamada “gráfica de dispersión”
Mirando la gráfica podemos hacernos algunas preguntas

◉ ¿Qué tipo de modelo se muestra? ¿Hay alguna tendencia hacia arriba o hacia
abajo que siga el modelo? ¿sigue un modelo de línea recta, curva, no sigue
ningún modelo?
◉ ¿Qué tan fuerte es este modelo? ¿Todos los puntos siguen el mismo modelo o
la relación es sólo débilmente visible?
◉ ¿Hay observaciones poco comunes?

48
ASOCIACION ENTRE VARIABLES CUANTITATIVAS

49
MEDIDAS DE ASOCIACIÓN

Las medidas de asociación tienen como objetivo describir si dos variables aleatorias
tienen alguna relación y qué grado intensidad tiene esta.

50
DIAGRAMA DE DISPERSIÓN

51
COVARIANZA

Mide la relación lineal entre dos variables. La covarianza mide el grado en que
dos variables cambian juntas. Específicamente, indica si un aumento en una
variable tiende a estar asociado con un aumento (o disminución) en la otra
variable.

Si es positiva indica asociación positiva entre x e y, si es negativa indica


asociación negativa. Valor cercano a cero indica que no hay asociación lineal
entre x e y 52
COEFICIENTE DE CORRELACIÓN

Medida de la relación lineal entre dos variables, que puede tener valores
desde 1 hasta 1. Los valores cercanos a 1 indican una fuerte relación lineal
positiva; valores cercanos a 1 muestran una fuerte relación lineal negativa,
y valores cercanos a cero una ausencia de relación lineal.
COVARIANZA

Desvío estándar de y

Desvío estándar de x

53
RANGO DE CORRELACION E INTERPRETACION

54
ACTIVIDAD PARA LA CLASE

55
EJERCICIOS PARA LA CLASE

56
EJERCICIOS

Una heladería local realiza un seguimiento de la cantidad de helado que venden en


comparación con la temperatura de ese día. Aquí están sus cifras de los últimos 12
días:
a) Realizar el diagrama de dispersión
b) Calcular el promedio de ingresos por venta
en los 12 días
c) Calcular el coeficiente de correlación y la
covarianza

57
Ejercicios

De una determinada empresa se conocen los siguientes datos, referidos al volumen de ventas (
en millones de pesos) y al gasto en publicidad ( en miles de pesos) de los últimos 6 años. ¿Existe
una relación lineal entre los datos?

58

También podría gustarte