PROBABILIDAD (1) Tratamiento de Datos PDF
PROBABILIDAD (1) Tratamiento de Datos PDF
Probabilidad
Azucena Ríos
Probabilidad 1. Tratamiento de datos
1. TRATAMIENTO DE DATOS
CONCEPTOS GENERALES
Estadística descriptiva
Estadística inferencial
Estadística
La media
La mediana
La moda
El rango medio
Media
∑𝑁
𝑖=1 𝑥𝑖
Media poblacional: 𝜇 =
𝑁
∑𝒏
𝒊=𝟏 𝒙𝒊
̅=
Media muestral: 𝒙
𝒏
Mediana
La mediana es un número tal que divide en dos partes iguales a los datos ordenados
es decir, la mitad de los datos son menores que la mediana y la otra mitad son
mayores, por lo que hay la misma cantidad de datos antes y después de su valor.
Mediana poblacional: 𝜇̃
Mediana muestral: 𝑋̃
Regla de cálculo:
Para encontrar el valor de la mediana, hay que ordenar los datos de forma
ascendente.
Moda
Moda poblacional: M
Moda muestral: m
Regla de cálculo
Solamente hay que contabilizar cuántas veces aparece cada dato, y la moda será
el(los) dato(s) que se repite con mayor frecuencia.
Rango medio
EJEMPLO Dados los datos de las estaturas de los estudiantes, calcular todas
las medidas descriptivas de centralidad.
Medidas de dispersión
𝑥̅
x1 x8 x3 x4 x1 x7 x2 x6 x9 x5
Cuando se calcula alguna de las medidas de tendencia central, nos dan una idea
de la magnitud de los datos, sin embargo, esa medida es insuficiente para tener una
visión completa de la naturaleza de los datos.
Caso a) Caso b)
Solución
𝑥̅ = 7.1 𝑥̅ = 7.1
𝑛=9 𝑛=7
Diríamos que los datos del caso b) están más dispersos que los del caso a), por lo
que se hace necesario contar también con una medida de dispersión.
∑(𝑥𝑖 − 𝜇) = ∑ 𝑥𝑖 − 𝑁𝜇 = 𝑁𝜇 − 𝑁𝜇 = 0
𝑖=1 𝑖=1
∑𝑁
𝑖=1(𝑥𝑖 − 𝜇)
2
(𝑥1 − 𝜇)2 + (𝑥2 − 𝜇)2 + ⋯ + (𝑥𝑁 − 𝜇)2 ∑𝑁
𝑖=1(𝑥𝑖 − 𝜇)
2
= = = 𝜎2
𝑁 𝑁 𝑁
VARIANZA POBLACIONAL
∑𝑛 (𝑥 − 𝜇)2
√𝜎 2 = √ 𝑖=1 𝑖 =𝜎
𝑁
Del mismo modo, cuando lo que se tienen, son los datos de una muestra y se desea
una medida de la dispersión, entonces se obtiene la varianza muestral, misma que
se puede presentar en dos versiones.
y mejor aún
VARIANZA MUESTRAL
2
∑𝑛
𝑖=1(𝑥𝑖 − 𝑥̅ )
𝑠 = √𝑠2 √
n−1
∑(𝑥𝑖 − 𝑥̅ ) = ∑[𝑥𝑖2 − 2𝑥𝑖 𝑥̅ + 𝑥̅ 2 ] = ∑ 𝑥𝑖2 − 2𝑥̅ ∑ 𝑥𝑖 + 𝑛𝑥̅ 2 = ∑ 𝑥𝑖2 − 2𝑥̅ 𝑛𝑥̅ + 𝑛𝑥̅ 2
2
𝑖=1 𝑖=1
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 = ∑𝑛𝑖=1 𝑥𝑖2 − 𝑛𝑥̅ 2 de modo que entonces, la varianza muestral también
se puede escribir como
∑ 𝑥𝑖2 − 𝑛𝑥̅ 2
𝑆2 =
𝑛−1
Por otro lado, una forma muy rápida, aunque burda, de tener un valor aproximado
de la desviación estándar, es usando el rango:
𝑥𝑚𝑎𝑥 −𝑥𝑚𝑖𝑛
𝜎̂ =
4
EJERCICIO Para los datos de las estaturas, calcular las medidas de dispersión.
Luego, sabiendo que serán 7 intervalos de clase, y que los datos extremos son 16
y 608, podemos calcular la amplitud de cada intervalo
608−16
𝐴= = 84.571 𝐴 = 84.58
7
Frecuencia
Frecuencia
Frecuencias relativa o Porcentaje
i Intervalos de clase Acumulada
fi proporción %
fa
fr
1 16-100.58 12 0.261 12 26.1%
2 100.58-185.16 13 0.283 25 28.3%
3 185.16-269.74 8 0.174 33 17.4%
4 269.74-354.32 5 0.109 38 10.9%
5 354.32-438.9 5 0.109 43 10.9%
6 438.9-523.48 1 0.022 44 2.2%
7 523.48-608.06 2 0.043 46 4.3%
Número total de
datos= 46 1 100.0%
③
13
12
No. de aparatos
Elementos de un gráfico
8 ④
① Título del gráfico
5 5 ② Valores de la variable
1 2 ③ Títulos de los ejes
[unidades de medida]
② ④ Etiquetas de datos
③ Duración [días]
③
trasmisores-receptores
④ 43 44 46
No. de aparatos
38 Elementos de un gráfico
33
25
① Título del gráfico
12
② Valores de la variable
③ Títulos de los ejes
② [unidades de medida]
④ Etiquetas de datos
Duración [días]
③
TIEMPO DE VIDA DE ①
Diagrama de
pastel para
RADIOTRASMISORES-RECEPTORES porcentajes
438.9-523.48; 523.48-608.06;
354.32-438.9; 2.2% 4.3%
10.9% 16-100.58;
269.74-354.32; 26.1%
10.9% ④ Elementos de un gráfico
① Título del gráfico
② Valores de la variable
③ Títulos de los ejes
② [unidades de medida]
185.16-269.74; 100.58-
17.4% 185.16; ④ Etiquetas de datos
Duración [días] 28.3%
③
EJERCICIO Usar los datos de las estaturas de los estudiantes para construir una
tabla de frecuencias y generar las gráficas adecuadas.
Cuando no se cuenta con los datos originales, sino que ya se tienen agrupados en
intervalos de clase, también es posible calcular medidas descriptivas, tanto de
centralidad como de dispersión; no se tiene el valor de cada uno de los datos, sin
embargo se puede representar cada uno de ellos a través de su marca de clase
(mi), esto es, el punto central o punto medio de cada intervalo de clase.
Al tener a cada marca de clase, representando a todos los datos que pertenecen a
un intervalo determinado, las fórmulas para calculas algunas medidas descriptivas
sufren algunos ajustes.
MEDIA MUESTRAL
∑𝑛𝑖=1 𝑓𝑖 𝑥𝑖 PARA DATOS
𝑥̅ =
𝑛 DISCRETOS
AGRUPADOS
MEDIA MUESTRAL
∑𝑐𝑖=1 𝑓𝑖 𝑚𝑖 PARA DATOS
𝑥̅ =
𝑛 CONTINUOS
AGRUPADOS
VARIANZA
2
∑𝑐𝑖=1 𝑓𝑖 𝑚𝑖2 − 𝑛𝑥̅ 2 MUESTRAL PARA
𝑠 =
𝑛−1 DATOS
AGRUPADOS
MEDIA
∑𝑐𝑖=1 𝑓𝑖 𝑚𝑖 POBLACIONAL PARA
𝜇=
𝑁 DATOS CONTINUOS
AGRUPADOS
VARIANZA
2
∑𝑐𝑖=1 𝑓𝑖 𝑚𝑖2 − 𝑁𝜇2 POBLACIONAL
𝜎 =
𝑁 PARA DATOS
AGRUPADOS
EJEMPLO Para los datos del tiempo de vida de los radio trasmisores-
receptores, encontrar media y varianza y desviación estándar para los datos
agrupados.
Frecuencia
Frecuencia Marca
Frecuencias relativa o Porcentaje
i Intervalos de clase Acumulada de clase
fi proporción %
fa mi
fr
1 16-100.58 12 0.261 12 26.1% 58.29
2 100.58-185.16 13 0.283 25 28.3% 142.87
3 185.16-269.74 8 0.174 33 17.4% 227.45
4 269.74-354.32 5 0.109 38 10.9% 312.03
5 354.32-438.9 5 0.109 43 10.9% 396.61
6 438.9-523.48 1 0.022 44 2.2% 481.19
7 523.48-608.06 2 0.043 46 4.3% 565.77
Número total de
datos= 46 1 100.0%
La media muestral se calcularía de la siguiente manera
∑𝑛𝑖=1 𝑓𝑖 𝑚𝑖2 − 𝑥̅ 2
𝑠2 =
𝑛−1
(12)(58.29)2 + (13)(142.87)2 + ⋯ + (2)(565.77)2 − (207.22)2
=
45
= 19771.38
𝑠 = √𝑠 2 = √19771.38 = 140.61
Donde los valores 𝑥𝑚𝑎𝑥 y 𝑥𝑚𝑖𝑛 se pueden obtener de los extremos del primer y
último intervalo de clase, respectivamente.