ESTAD+ìSTICA DESCRIPTIVA
ESTAD+ìSTICA DESCRIPTIVA
ESTAD+ìSTICA DESCRIPTIVA
DESCRIPTIVA
ESTADÍSTICA DESCRIPTIVA
• Los orígenes de la estadística, aunque no se sabe con
exactitud cuándo se comenzó a utilizar, pueden estar
ligados al antiguo Egipto como a los censos chinos que
se realizaron hace unos 4.000 años, aproximadamente.
• Sin duda, fueron los romanos,
romanos maestros de la
organización política, quienes mejor supieron ocupar la
estadística. Cada cinco años realizaban un censo de la
población, cuyos datos de nacimientos, defunciones y
matrimonios eran esenciales para estudiar los avances
del imperio; sin olvidar los recuentos de ganancias y las
riquezas que dejaban las tierras.
Estadística
Estadística descriptiva Estadística Inferencial
Reúne
ROPA
Organiza
Presenta
Analiza e interpreta
ESTADÍSTICA DESCRIPTIVA
• Para poder comprender mejor este tipo de
estudio es importante que conozcas los
siguientes términos básicos:
Población: Es un conjunto de
personas, eventos o cosas de
las cuales se desea hacer un
estudio, y tienen una
característica en común.
Muestra: Es un subconjunto
cualquiera de la población;
es importante escoger la
muestra en forma aleatoria
(al azar), pues así se logra
que sea representativa y se
puedan obtener conclusiones
más a fines acerca de las
características de la
población.
ESTADÍSTICA DESCRIPTIVA
Todo estudio estadístico debe considerar
diferentes tipos de variables:
Variables
Variables cualitativas
Variables Cuantitativas
Variables cualitativas: Relacionadas con
características no numéricas de un
individuo (por ejemplo: atributos de una
persona, nacionalidad, color de la piel,
sexo).
No mina l
DIAG RAMA DE SEC TO RES (PIE)
Disc re ta
O rd ina l PO LIG O NO DE FREC UENC IAS
C o ntinua
C o ntinua
HISTO G RAM A
• Ahora apliquemos estos conceptos:
Se desea saber si los dueños de automóviles catalíticos están
dispuestos a pagar la conversión de sus motores a gas
natural. Para ello se decide realizar una encuesta.
Determina cuál de las siguientes es la mejor muestra:
A) Escoger al azar a adultos que caminan por el centro de las
principales ciudades del país.
B) Escoger al azar a conductores de automóviles en las
intersecciones más concurridas.
C) Escoger al azar del registro de vehículos motorizados a
dueños de automóviles catalíticos y enviarles un
encuestador.
¿Cuáles son las variables utilizadas en la encuesta
(Cualitativas o Cuantitativas)?¿Porqué?
Ordenando la Información
Al ordenar datos muy numerosos, es
usual agruparlos en clases o categorías.
Al determinar cuántos pertenecen a
cada clase, establecemos la frecuencia.
Construimos así una tabla de datos
llamada tabla de frecuencias.
ESTADÍSTICA DESCRIPTIVA
1. ORDENAR
2. AGRUPAR
3. RESUMIR información
ESTADÍSTICA DESCRIPTIVA
El formato general de una tabla estadística , llamada también
TABLA DE FRECUENCIAS O TABLA DE DISTRIBUCIÓN DE
FRECUENCIAS es la siguiente:
Nombre de la Frecuencia
variable
Categorías o Frecuencias
Recorrido de la Observadas
variable
TOTAL n
ESTADÍSTICA DESCRIPTIVA
En la siguiente tabla se presenta el motivo de la
consulta médica, durante una semana.
3,2 4,2 5,6 6,0 2,8 3,9 4,2 4,2 5,0 5,0
3,9 3,9 3,2 3,2 4,2 5,6 6,0 6,0 3,2
6,0 4,2 5,0 5,6 5,0
2,8
3,2
3,9
4,2
5,0
5,6
6,0
ESTADÍSTICA DESCRIPTIVA
Nota Frecuencia Frecuencia Frecuencia Relativa
Absoluta Relativa Porcentual (%)
Pequeña Reflexión
ESTADÍSTICA DESCRIPTIVA
Ejercicio propuesto
En una clase de 30 alumnos se ha preguntado
el número de hermanos que tienen, el
resultado ha sido el siguiente:
1 1 1 0 1 2 1 5 3 6
2 2 0 3 0 1 1 2 3 4
4 2 1 1 1 2 0 3 1 1
ESTADÍSTICA DESCRIPTIVA
Si presentamos esta información en una tabla de
frecuencias , queda como sigue:
N ° de Frecuencia Frecuenci Frecuencia
hermanos absoluta a relativa relativa
porcentual
ESTADÍSTICA DESCRIPTIVA
Si presentamos esta información en una tabla de
frecuencias , queda como sigue:
N ° de Frecuencia Frecuenci Frecuencia
hermanos absoluta a relativa relativa
porcentual
0 4 0,133 13,333
1 12 0,400 40,000
2 6 0,200 20,000
3 4 0,133 23,333
4 2 0,066 6,666
5 1 0,033 3,333
6 1 0,033 3,333
ESTADÍSTICA DESCRIPTIVA
Los siguientes datos corresponden a los
lugares favoritos de vacaciones de los
empleados de una empresa:
¿Cuál es la variable de
Nivel de Colesterol
(mg/100 ml) Cantidad de hombres interés?
80-120 13
120-160 15
160-200 44
¿Qué se mide?
200-240 29
240-280 9
1,65 – 1,69
1,70 – 1,74
1,75 – 1,79
1,80 – 1,84
1,85 – 1,89
Los datos que a continuación se presentan corresponden al
número de llamadas telefónicas que un grupo de personas realiza
durante el día.
0, 1, 2, 4, 3, 5, 10, 6, 13, 9, 8, 10, 11, 12, 13, 14, 6, 14, 8, 15, 16, 17, 18,
19, 5, 12, 7, 11, 3, 20
MEDIDAS DE
TENDENCIA CENTRAL
Estos números se ubican en la parte central de una distribución de
datos y se llaman medidas de tendencia central y son promedio, la
moda y la mediana.
Al obtener de una población la distribución de frecuencias de una
variable lo que se persigue es reducir en pocas cifras el conjunto de
observaciones relativas a dicha variable.
Tablas de datos no agrupados
MODA:
Ejemplo: En una empresa, las edades del personal se resumen en la
siguiente tabla.
Tablas de datos agrupados
d1
M Li a
d1 d 2
Moda: 36
ni Marca de Clase
Edad Frecuencia
La edad de los
compañeros y 22 2
compañeras de 23 4
una oficina se 25 4
resume en la 26 3
siguiente tabla: 28 3
30 1
31 2
35 1
Ordenando
Al ordenar los números de forma decreciente
encontramos:
35 - 31 - 31 - 30 - 28 - 28 - 28 - 26 - 26 - 26 - 25 - 25
- 25 - 25 - 23 - 23 - 23 - 23 - 22 - 22
El par de datos centrales está ubicado en: n/2 y
n/2 + 1.
Es decir: 20/2 = 10
20/2 + 1 = 10 + 1 = 11
Entonces, los términos medios que buscamos
están en la posición 10 y 11.
Continuando
estos parámetros toman los valores siguientes: Q1= 2,5
; Me = 4,5 ; Q3 = 7 el rango intercuartílico será: r = 7-
2,5 = 4,5
Los deciles D1 , D2 , D3 , ... , D9 son nueve valores de la variable
estadística que divide en diez partes el número de datos. Es decir,
que cada tramo será el 10% de los datos recogidos en el estudio.
Nº de
40 60 75 90 105 85 80 65
peronas
Intervalos xi fi Fi xi 2 fi·xi fi·xi2
[ 0, 10 ) 5 40 40 25 200 1000
[ 10, 20 ) 15 60 100 225 900 13500
[ 20, 30 ) 25 75 175 625 1875 46875
[ 30, 40 ) 35 90 265 1225 3150 110250
[ 40, 50 ) 45 105 370 2025 4725 212625
[ 50, 60 ) 55 85 455 3025 4675 257125
[ 60, 70 ) 65 80 535 4225 5200 338000
[ 70, 80 ) 75 65 600 5625 4875 365625
Sumatorios 25600 1345000
Diagramas de caja o caja y bigotes y como
graficarlas
Los diagramas de Caja-Bigotes (boxplots o
box and whiskers) son una presentación
visual que describe varias características
importantes, al mismo tiempo, tales como la
dispersión y simetría.
36 25 37 24 39 20 36 45 31 31
39 24 29 23 41 40 33 24 34 40
Nº de
40 60 75 90 105 85 80 65
peronas
Intervalos xi fi Fi xi 2 fi·xi fi·xi2
[ 0, 10 ) 5 40 40 25 200 1000
[ 10, 20 ) 15 60 100 225 900 13500
[ 20, 30 ) 25 75 175 625 1875 46875
[ 30, 40 ) 35 90 265 1225 3150 110250
[ 40, 50 ) 45 105 370 2025 4725 212625
[ 50, 60 ) 55 85 455 3025 4675 257125
[ 60, 70 ) 65 80 535 4225 5200 338000
[ 70, 80 ) 75 65 600 5625 4875 365625
Sumatorios 25600 1345000
Ahora que ya contamos con los datos necesarios, ya podemos
encontrar la gráfica de cajas y bigotes
Medidas de Dispersión
Se utilizan para conocer la distancia de los valores
de la variable a un cierto valor central. Permiten
identificar la concentración de los datos en un
cierto sector del recorrido de la variable.
_ _
S (X X ) 2
S f (X X ) 2
n 1 n 1
Desviación Estándar (S)
Para Datos no agrupados _
S
( X X ) 2
n 1
Edades de 7 personas encuestadas
X X–X (X - X) 2
10 10 -15,7= - 5,7 32,49
14 14-15,7= -1,7 2,89
15 15 -15,7= -0,7 0,49
57,43
16 16 -15,7= 0,3 0,09
S 3,09
18 18 -15,7= 2,3 5,29 7 1
18 18 -15,7= 2,3 5,29
19 19 -15,7= 3,3 10,89
2
Total 57,43 S = 9,57
Desviación Estándar (S)
_
S
Para Datos Agrupados f ( X X ) 2
n 1
Calificaciones de 23 personas encuestadas
2 2
X F X–X (X - X) f (X - X)
17 2 17 -14= 3 9 18
16 3 16 -14= 2 4 12
15 4 15 -14= 1 1 4
14 5 14 -14= 0 0 0
13 4 13 -14= -1 1 4
12 3 12 -14= -2 4 12
11 2 11 -14= 3 9 18
Total 23 68
68 2
S 1,76 S = 3,1
23 1
Rango (R)
Rango: Es la más elemental de las
medidas, consiste simplemente en la
distancia entre los dos valores extremos.
R = X máx. - X mín.
Rango (R)
Por Ejemplo:
MEDIDAS DE DISPERSIÓN
En algunos casos existen conjuntos de datos que tienen la misma media y la misma
mediana, pero esto no refleja qué tan dispersos están los elementos de cada conjunto.
Ejemplo:
Observa que para ambos conjuntos la Mediana es igual a 100. También nota que
los datos del conjunto 2 están más dispersos con respecto a su media que los
datos del conjunto 1.
MEDIDAS DE DISPERSIÓN
Rango
Varianza
Desviación estándar
Coeficiente de variación
RANGO
Mide la amplitud de los valores de la muestra y se calcula por diferencia entre el valor
más elevado (Límite superior) y el valor más bajo (Límite inferior).
FÓRMULA
Ejemplo 1.
Ante la pregunta sobre número de hijos por familia, una muestra de 12 hogares, marcó las
siguientes respuestas:
2 1 2 4 1 3
2 3 2 0 5 1
Solución.
Rango 5 0 5
Ejemplo 2.
Hay dos conjuntos sobre la cantidad de lluvia (mm) en Taipei y Seúl en un año.
Ene Feb Mar Abr May Jun Jul Ago Sep Oct Nov Dic
Taipei 86 135 178 170 231 290 231 305 244 122 66 71
Seúl 40 77 83 89 147 168 184 252 209 101 32 13
Calcula el rango en cada una de las ciudades.
Solución.
En este caso se puede observar que el rango es el mismo para ambos casos aunque las cantidades
sean diferentes.
Cantidad de lluvia (mm)
Cantidad de lluvia en Taipei y Seúl 1998
350
300
250 Taipei
200
150 Seoul
100
50
0
Mes
VARIANZA (Datos no agrupados)
Mide la distancia existente entre los valores de la serie y la media. Se calcula como
sumatoria de las diferencias al cuadrado entre cada valor y la media, multiplicadas por el
número de veces que se ha repetido cada valor. La sumatoria obtenida se divide por el
tamaño de la muestra.
i x
n
i
2
( x x )
2
FÓRMULA
Muestral
( x ) s2 i 1
n 1
2 Poblacional i 1
N
La varianza siempre será mayor que cero. Mientras más se aproxima a cero, más
concentrados están los valores de la serie alrededor de la media. Por el contrario,
mientras mayor sea la varianza, más dispersos están.
Ejemplo 1.
2 1 2 4 1 3 2 3 2 0 5 1
Solución.
(2 2.16)2 (1 2.16)2 (2 2.16)2 (4 2.16)2 (1 2.16)2 (3 2.16)2 (2 2.16)2 (3 2.16)2 (2 2.16)2 (0 2.16)2 (5 2.16)2 (1 2.16)2
s
2
12 1
21.6672
s2 1.9697
11
Ejemplo 2.
Estudiante A
8 12 7 9 3 10 12 11 12 14
x 9.8
10
Estudiante B
7 6 7 15 12 11 9 9 13 11
x 10
10
Ahora aplicamos la fórmula correspondiente
Solución (Continuación).
Estudiante A
(8 9.8)2 (12 9.8) 2 (7 9.8) 2 (9 9.8) 2 (3 9.8) 2 (10 9.8) 2 (12 9.8) 2 (11 9.8) 2 (12 9.8) 2 (14 9.8) 2
s2
10 1
91.6
s2 9.16
10
Estudiante B
(7 10) 2 (6 10) 2 (7 10)2 (15 10) 2 (12 10) 2 (11 10) 2 (9 10) 2 (9 10)2 (13 10)2 (11 10)2
s
2
10 1
76
s2 7.6
10
DESVIACIÓN ESTÁNDAR (Datos no agrupados)
También llamada desviación típica, es una medida de dispersión usada en estadística que
nos dice cuánto tienden a alejarse los valores puntuales del promedio en una
distribución.
N
calcule en una muestra o en la población.
i x
Una desviación estándar grande indica que los puntos están lejos de la media, y una
2
( x )
desviación pequeña indica que los datos están agrupados cerca de la media.
n
FÓRMULA ( xi x ) 2
s i 1
i 1
Muestral n 1
Poblacional
N
Ejemplo 1.
2 1 2 4 1 3 2 3 2 0 5 1
Solución.
Una vez que hemos calculado la media y la varianza, sólo resta calcular la raíz cuadrada de la varianza.
x 2.16
21.6672
s2 1.9697
11
S 1.9697 1.4034
Ejemplo 2.
Considerando nuevamente el segundo ejemplo que estudiaste para calcular la varianza, tenemos:
A continuación, se muestran dos conjuntos de datos obtenidos a partir de un experimento químico que
realizaron dos estudiantes distintos. Calcular la varianza.
Solución.
Una vez que has calculado la media y la varianza, es necesario calcular la desviación estándar a partir de
la obtención de la raíz cuadrada de la varianza.
Estudiante A
91.6 S 9.16 3.026
s2 9.16
Estudiante B
10
76 S 7.6 2.756
s
2
7.6
10
COEFICIENTE DE VARIACIÓN
Es una medida de dispersión que se utiliza para poder comparar las desviaciones
estándar de poblaciones con diferentes medias y se calcula como cociente entre la
desviación típica y la media.
FÓRMULA
S
CV 100%
Muestral
x
Poblacional
CV 100%
Ejemplo 1.
En dos cursos los promedios que sacaron sus alumnos fueron 6.1 y 4.3 y las
desviaciones estándar respectivas fueron 0.6 y 0.45 respectivamente. ¿En qué curso hay
mayor dispersión?
Solución
S
CV 100%
x
0.6
CV A (100%) 9.8%
6.1
0.45
CVB (100%) 10.4%
4.3
Claramente, el curso A tiene una dispersión menor que el B, pese a presentar una mayor
desviación estándar.
VARIANZA Y DESVIACIÓN ESTÁNDAR (Datos agrupados)
Cuando los datos están agrupados en tablas de frecuencias, el significado de las medidas
de dispersión es el mismo, sin embargo, la manera de calcularlas es diferente.
FÓRMULA
2
k
k k
xi f i
f i xi2 i 1
Muestral
f (x x)
i i
2
n
s
2 i 1
i 1
n 1 n 1
k k
Poblacional fi ( xi ) 2
fi xi2
2 i 1 i 1 2
N N
Ejemplo 1.
Se han registrado durante 20 días, el número de viajeros que hacen reservaciones a una
agencia de viajes pero que no las hacen efectivas:
1 12 3
2 13 3
3 14 6
4 15 3
5 16 5
Total 70 20
1 12 3 36
2 13 3 39
3 14 6 84
4 15 3 45
5 16 5 80
Total 70 20 284
Solución (Continuación).
...x ... 2
i
s2 i 1
...
1 12 3 36 144
2 13 3 39 169
3 14 6 84 196
4 15 3 45 225
5 16 5 80 256
k
...
fx 2
i i
...
s2 i 1
...
1 12 3 36 144 432
2 13 3 39 169 507
3 14 6 84 196 1176
4 15 3 45 225 675
5 16 5 80 256 1280
Total 70 20 284 990 4070
Solución (Continuación).
Una vez obtenidos todos los datos anteriores, se procede a aplicar la fórmula
2
k
k
xi f i
f i xi2 i 1
n
s 2 i 1
n 1
Número de viajeros Frecuencia fixi2
i x i fi xi2
(xi ) (fi)
1 12 3 36 144 432
2 13 3 39 169 507
3 14 6 84 196 1176
4 15 3 45 225 675
5 16 5 80 256 1280
Total 70 20 284 990 4070
Solución (Continuación).
Número de
Frecuencia fixi2
i viajeros x i fi xi2
(fi)
(xi )
1 12 3 36 144 432
2 13 3 39 169 507
3 14 6 84 196 1176
4 15 3 45 225 675
5 16 5 80 256 1280
Total 70 20 284 990 4070
284 2
4070
s2 20 1.9579
19
s 1.9579 1.3992
Puntaje estándar (puntaje z)
xx
z
s
Ejemplo
x x 92 74.9
x 92, x 74.9; s 14.19. Así , z 1.20
s 14.19
x x 72 74.9
x 72, x 74.9; s 14.19. Así , z 0.20
s 14.19