Docomento
Docomento
Docomento
Como lo hemos podido ver hasta ahora, la principal función de la estadística es que permite
describir una situación o fenómeno particular en un momento específico, conocer una o más
variables y su comportamiento. Apoya a lo anterior un conjunto de herramientas llamadas
Medidas Descriptivas.
Las medidas descriptivas son valores representativos de una distribución. Son cifras individuales
que resumen la información, utilizadas para describir ciertas características de los datos
permitiendo una comprensión más precisa. Así a partir de estas medidas se podrán realizar
inferencias y pronósticos.
El análisis de la información a partir de las medidas descriptivas, se pueden realizar a través de:
Las medidas de posición, llamadas también de ubicación, permiten identificar valores típicos
dentro de una distribución y conocer así valores específicos que ayudan a la interpretación de
la información y la toma de decisiones. Las más utilizadas tienen que ver con las medidas de
tendencia central, considerando las más importantes: media aritmética (promedio), media
ponderada, media geométrica, moda y mediana.
La media es la cantidad total de la variable distribuida a partes iguales entre cada observación.
De forma simple, si en una habitación hay tres personas, la media de dinero que tendrán en sus
bolsillos sería el resultado de tomar todo el dinero de los tres y dividirlo a partes iguales entre
cada uno de ellos. Es decir, la media es una forma de resumir la información de una distribución
(dinero en el bolsillo) suponiendo que cada observación (persona) tendría la misma cantidad de la
variable. Cualquier característica medible de una población se denomina parámetro.
1
ESTADÍSTICA EMPRESARIAL Andrea Pincheira Varas
De manera algebraica: u = E xi
N
Donde
u : media de la población (letra griega “mu” minúscula) (se puede usar indistintamente x)
N : número total de elementos de la población / muestra
xi : representa cualquier valor en particular (variable)
E : representa la sumatoria de las variables (letra griega “sigma” mayúscula)
Dados los siguientes datos, ¿Cuál es la media aritmética del sueldo de una compañía, si los
trabajadores perciben los siguientes salarios (en miles de pesos)?
u = $2.376.000 = $339.430
7
Así el promedio de los sueldos de los empleados es de$339.430
Consideraciones de la media:
- Un conjunto de datos solo tendrá una media
- Al calcular la media se incluyen todos los valores
- Resulta una medida muy útil para comparar dos poblaciones o muestras
MEDIA PONDERADA
Como se trabaja habitualmente con una cantidad no menor de datos, se utiliza la media
ponderada, que es un caso especial de la media aritmética. Se presenta cuando hay varias
observaciones del mismo valor que pueden ocurrir si los datos se han agrupado en una
distribución de frecuencias.
2
ESTADÍSTICA EMPRESARIAL Andrea Pincheira Varas
Sea X una variable que representa el volumen de facturación de una empresa considerando los
últimos 25 días laborales de un mes.
xi ni
(miles de euros)
10,5 2
12,4 3
13,2 9
14,8 6
15,8 4
16,5 1
Total 25
De esta manera el volumen de facturación promedio ponderado es de 13,82 (miles de euros).
MEDIANA (Me)
Es definida como aquel valor de la distribución que ocupa el lugar central, una vez que los valores
han sido ordenados de forma creciente, de menor a mayor. Al ser ordenados de esta forma deja
a su izquierda y a su derecha el mismo número de observaciones.
Consideraciones de la mediana:
- Un conjunto de datos solo tendrá una mediana
- No se ve afectada por valores grandes o pequeños
- Al calcular la mediana se incluyen todos los valores
Para valores que se repiten dentro de un conjunto de datos y que de acuerdo a ello son
organizados en base a la distribución de frecuencia, al igual que la media ponderada, se
considera en su cálculo tanto el valor de la variable como la frecuencia en que ésta se repite.
3
ESTADÍSTICA EMPRESARIAL Andrea Pincheira Varas
Cuando se presentan datos de este tipo, donde existe un xi específico para cada ni, se utiliza
Ni (frecuencia absoluta acumulada como referencia) y ese es el dato que ordenado de menor a
mayor, se considera para su cálculo final. Recordemos que la mediana, es el punto medio, que deja
la misma cantidad de datos hacia arriba y hacia abajo, por lo tanto se ubicará la clase en la que
esté presente este punto medio (N/2).
Del mismo ejemplo del volumen de facturación de una empresa a lo largo de los 25 días
laborales del mes, calcule la Me.
xi ni Ni
(miles de euros)
10,5 2 2
12,4 3 5
13,2 9 14
14,8 6 20
15,8 4 24
16,5 1 25
Total 25
Dado que son 25 datos en total, el punto medio corresponde a 12,5 y este se encuentra
presente en la frecuencia de clase 13,2 (ya que se incluye en Ni=14)
Así la mediana o tendencia media del volumen de facturación es de 13,2 miles de euros
MODA (Mo)
La moda es aquel valor de la distribución que más se repite o que presenta mayor frecuencia. Es
una medida adecuada para el análisis de variables cualitativas y para describir niveles nominales
y ordinales, como el estado civil, nivel de educación o el color favorito.
365 320 340 370 380 340 355 340 326 340
Como el número de trabajadores que percibe $340.000 es mayor que cualquier otro, la moda es
340.
Consideraciones de la moda:
- En un conjunto de datos puede haber una, dos o más modas y en algunas distribuciones
puede no haber moda ya que no hay ningún valor que se presente con la mayor frecuencia.
- No se ve afectada por valores muy altos o muy bajos.
4
ESTADÍSTICA EMPRESARIAL Andrea Pincheira Varas
Si los datos para cada clase se repiten, y son presentados bajo distribución de frecuencia, esta
simplemente facilitará la identificación del dato que más se repite.
xi ni
(miles de euros)
10,5 2
12,4 3
13,2 9
14,8 6 La moda o variable que
15,8 4 más se repite es $13.2, se
16,5 1 repite 9 veces, o en este
Total 25 caso se repite en 9 de los
25 días.
Como lo aprendimos al analizar las distribuciones de frecuencia, para cierta cantidad o tipos de
datos, es conveniente agruparlos en intervalos.
5
ESTADÍSTICA EMPRESARIAL Andrea Pincheira Varas
Venta (xi) ni Ni Xi
(en miles de euros) (frecuencia absoluta)
10 – 12 40 40 11
12 – 13 60 100 12,5
13 – 14 110 210 13,5
14 – 15 50 260 14,5
15 – 16 30 290 15,5
16 – 18 10 300 17
Total 300 - -
Luego:
X = (40*11)+(60*12,5)+(110*13,5)+(50*14,5)+(30*15,5)+(10*17) = 13,45
300
Para el caso de la MEDIANA, una vez que los datos se han organizado en una distribución de
frecuencias, se debe localizar la clase en la que se encuentra el punto medio y luego interpolar
dentro de esa clase para obtener el valor exacto.
N
Mediana de datos agrupados Mediana = Li + ( 2 - Ni(i-1))* ai
ni
Donde:
Li : límite inferior de la clase que contiene a la mediana
N : número total de observaciones
ni : frecuencia absoluta de la clase del intervalo que contiene a la mediana
ai : amplitud o ancho del intervalo en que se encuentra la mediana
Ni(i-1) : frecuencia acumulada de la clase que precede inmediatamente a la que posee el punto
medio
6
ESTADÍSTICA EMPRESARIAL Andrea Pincheira Varas
Venta (xi) ni Xi Ni
(en miles de euros) (frecuencia absoluta)
10 – 12 40 11 40
12 – 13 60 12,5 100
13 – 14 110 13,5 210
14 – 15 50 14,5 260
15 – 16 30 15,5 290
16 – 18 10 17 300
Total 300 - -
Resp: Considerando que 150 es el punto medio del total de datos, contenido en el intervalo 3, la
mediana o tendencia central de las tasas de interés corresponde a 13,45.
Si se requiere conocer la MODA para datos agrupados, se puede considerar un intervalo modal,
ahora bien, si se desea determinar en forma específica su valor, se debe considerar la siguiente
ecuación:
Mo = Li + ni (i+1) * ai
ni(i-1) + ni (ni+1)
Donde:
Li = Límite inferior del intervalo de cálculo
ai = Amplitud del intervalo de cálculo
ni (i+1) = frecuencia absoluta del intervalo siguiente al de cálculo
ni (i-1) = frecuencia absoluta del intervalo anterior al de cálculo
7
ESTADÍSTICA EMPRESARIAL Andrea Pincheira Varas
Mo = 13 + 50 * 1 = 13,45
60 + 50
La media, moda y mediana son las medidas de ubicación más ampliamente utilizadas, sin embargo,
existen otros medios para describir la posición de una variable en un diseminado conjunto de
datos. Un método es determinar la ubicación de los valores que dividen un conjunto de
observaciones en partes iguales:
Por ejemplo, los cuartiles dividen un conjunto de observaciones en cuatro partes iguales. Esto se
trata de ordenar los datos de menor a mayor y luego segmentarlos en cuatro partes iguales. Así
el primer cuartil (Q1) corresponderá al valor bajo el cual se encuentra el 25% de las
observaciones, el segundo cuartil (Q2) el 50% y el tercer quintil (Q3), por ejemplo, denotará
el valor que concentra el 75% de las observaciones. Lógicamente Q2 equivale a la mediana.
8
ESTADÍSTICA EMPRESARIAL Andrea Pincheira Varas
1 2 3 4 5 6 7 8 9 10
Nótese que para referirse a esta medida en general, se utilizará el término centil (independiente
de las partes en que lo divida)
Ubicación de un Centil Lp = (n + 1) * P
100
Donde:
Lp = centil que desea encontrarse (por ejemplo centil 27: L 27)
n = número de observaciones
P = porcentil deseado (% que corresponde al centil que se desea ubicar)
A continuación se presentan las rentas del último mes de 15 vendedores comisionistas para
una empresa de arriendo de vehículos (en miles de pesos). Ubique los valores del primer y tercer
cuartil.
Luego, si sabemos que los cuartiles dividen los datos en 4 partes y cada una concentra el 25% de
las observaciones:
9
ESTADÍSTICA EMPRESARIAL Andrea Pincheira Varas
Así sabemos que los valores del primer y tercer cuartil se encuentran en la posición 4 y 12
respectivamente: $1721 y $2205
Suponga por ejemplo, que el resultado de Lp = (n + 1) * P/100 es 5.25, en este caso deberá
considerar primero el quinto valor y luego moverse un 0.25 de la distancia entre el quinto y
sexto valor.
Suponga que tiene los siguientes seis datos 61, 101, 91, 75, 43 y 104, desea obtener el
primer cuartil.
Lp = (6+1) * 25 = 1.75
100
Por lo tanto, primer valor 43 + (0.75 * 18 = 13,5) = 56,5, el primer cuartil se encontrará en 56,5.
Venta (xi) ni Ni
(en miles de euros) (frecuencia absoluta)
10 – 12 40 40
12 – 13 60 100
13 – 14 110 210
14 – 15 50 260
15 – 16 30 290
16 – 18 10 300
Total 300 -
10
ESTADÍSTICA EMPRESARIAL Andrea Pincheira Varas
Lp = (n + 1) * P
100
Lp = 25+1 * 0,6 = 15,6 valor que está contenido en Ni 20, por lo tanto, el tercer quintil
considerará hasta el dato 14,8 mil euros.
Lp = 300+1 * 0,6 = 180,6 valor que está contenido en Ni 210, por lo tanto, el tercer quintil
considerará hasta el tercer intervalo.
¿QUÉ ES LA DISPERSIÓN?
Un promedio como la media, la mediana o el valor más frecuente como la moda, sólo localizan un
dato dentro del conjunto de información, efectivamente válido para algunos análisis pero que
deja fuera la diseminación o dispersión del total de datos (lo que permitirá conocer por
ejemplo, que tan “repartidos” o “concentrados” están).
Veamos el siguiente ejemplo: ¿Qué sucede si está de excursión y debe cruzar un río?
Imagine que la información de la guía turística dice: “longitud o extensión del río: 96 kilómetros”
y “Promedio de profundidad: 80 centímetros” ¿Lo cruzaría teniendo esa información?
Sabemos que esos 80 centímetros son el promedio de la profundidad mínima y máxima, pero ojo
que esta podría ser simplemente la media entre 70 y 90 centímetros (pudiese pasar sin
problemas), pero también podría ser el promedio entre 10 centímetros y 1.50 metros (y con
ésta sería más complejo pasar)
Dado lo anterior, es importante conocer que tan dispersos en el conjunto de información de una
situación especial, se encuentran los datos.
Anteriormente dijimos que las medidas de posición permiten sintetizar y representar mejor
los datos. La mayor o menor representatividad de esas medidas de síntesis o promedios
dependerá fundamentalmente, del grado de concentración de todos los valores de la distribución
en torno a ese promedio, cuya representatividad estamos estudiando.
En general es más común que los datos estén mayormente dispersos que concentrados, por ello
se habla de dispersión, variación o desviación.
11
ESTADÍSTICA EMPRESARIAL Andrea Pincheira Varas
Diagrama de dispersión
Las medidas de dispersión describen la variabilidad de las observaciones de un conjunto de datos
con respecto a un valor promedio.
Por ejemplo, considere el número de pólizas vendidas durante una semana por dos
sucursales de una compañía de seguros.
12
ESTADÍSTICA EMPRESARIAL Andrea Pincheira Varas
MEDIDAS DE DISPERSIÓN
Por lo tanto, existe menos dispersión de datos en la sucursal B. Las venta de pólizas de la planta
B están más cerca de la media y así el promedio de B es más representativo que el de A.
VARIANZA
Cuanto mayor sea la variancia, mayor será la dispersión de la variable y menos representativa será
la media como promedio de todos los valores y viceversa. Cabe señalar que la variancia viene
expresada en las unidades de medida de la variable al cuadrado, lo que limita su interpretación.
13
ESTADÍSTICA EMPRESARIAL Andrea Pincheira Varas
L M M J V
Sucursal A (Xi – X) 2 25 4 4 16 1 E = 50
Sucursal B (Xi – X) 2 1 4 0 4 1 E = 10
A = 50 = 10 B = 10 = 2
5 5
Por lo tanto, existe menos dispersión en las ventas de la sucursal B (varianza de A =10 >
varianza de B =2), así la media de B es más representativa que la de A (ya que presenta menor
varianza y por lo tanto, menor dispersión de los datos o mayor concentración de ellos)
¿Para qué?, básicamente porque aplicando la raíz, eliminamos los cuadrados y con ello el
resultado se expresa en la misma unidad de medida de los datos de la variable que usamos.
Donde:
Xi = valor de cada observación
X = media aritmética poblacional
N = número de observaciones de la población
En este caso la variación de los datos promedio en relación a la media es de 3,2 para A y 1,4
pólizas para B. Dado lo anterior es menor la diferencia entre los datos de B, por lo tanto menor
dispersión y más representativa la muestra.
14
ESTADÍSTICA EMPRESARIAL Andrea Pincheira Varas
En términos simples, son los mismos procedimientos, incorporando a las fórmulas presentadas,
el factor que incluya la existencia de datos repetidos en cada clase o agrupados en intervalos, es
decir, la frecuencia absoluta (ni).
Para calcular la amplitud de variación, de igual manera se considera el menor y mayor valor del
total de los datos.
xi ni
(miles de euros)
10,5 2
12,4 3
13,2 9
14,8 6
15,8 4
16,5 1
Total 25
Donde
ni = corresponde a la frecuencia absoluta
xi = valor de cada observación
xi ni (xi-x)2*ni
(miles de euros)
10,5 2 22,04
12,4 3 6,04
13,2 9 3,45
14,8 6 5,76
15,8 4 15,68
16,5 1 7,18
Total 25 60,15
15
ESTADÍSTICA EMPRESARIAL Andrea Pincheira Varas
Luego:
Varianza = 60,15/25 = 2,40 miles de euros
Donde
ni = corresponde a la frecuencia absoluta
xi = valor de cada observación
Luego:
Desviación = 1,55 miles de euros
Donde
ni = corresponde a la frecuencia absoluta
Xi = marca de clase o punto medio del intervalo
Donde
ni = corresponde a la frecuencia absoluta
Xi = marca de clase o punto medio del intervalo
16
ESTADÍSTICA EMPRESARIAL Andrea Pincheira Varas
DISPERSION RELATIVA
Suponga que ha evaluado a un grupo de personas, y algunas de las mediciones que obtiene, son
por ejemplo, que la desviación estándar de la distribución de sus ingresos es $287.300 y que
la desviación estándar de sus años de estudios es igual a 6 años. ¿Podría relacionarlas?,
evidentemente que no, ya que no se puede comparar directamente años con pesos. Sin embargo,
para lograr una comparación significativa entre ambas, podremos convertirlas cada una a un
valor relativo.
Karl Pearson desarrolló una medida relativa denominada Coeficiente de Variación (CV) (también
denominado coeficiente de Pearson)
Por ejemplo:
Suponga que un estudio determinó que de los puntajes obtenidos en un examen de cálculo,
la media fue de 200 puntos, con una desviación estándar de 40. A su vez se analizó los
17
ESTADÍSTICA EMPRESARIAL Andrea Pincheira Varas
años de experiencia que tenían los docentes que prepararon a los alumnos para el examen,
arrojando una media de 20 años y una desviación estándar de 2 años.
Para poder analizar en conjunto ambas variables necesitaremos convertirlas a una misma
unidad.
A partir de lo anterior se puede ver que existe mayor dispersión relativa con respecto a la media
en la distribución de los puntajes obtenidos en el examen que en la distribución de los años de
experiencia de los docentes.
Sería interesante conocer la variación que existe en los ingresos mensuales de altos
ejecutivos con la variación en los ingresos de trabajadores no calificados. Para los
primeros de ellos, la media calculada es de $500.000 y la desviación de $50.000. Para el
segundo grupo en estudio, la media es de $22.000 y la desviación es de $2.000.
En este caso tenemos la misma unidad de medida ($), y aparentemente podríamos decir que la
mayor dispersión se encuentra en la muestra de los altos ejecutivos ($50.000 > $2.000), sin
embargo, las medias están tan distantes entre ellas que es recomendable convertir los valores
estadísticos a coeficientes de variación para efectuar una comparación significativa entre ellos.
Así en este caso no existe diferencia en la dispersión relativa de ambos grupos en estudio.
Además de identificar la ubicación y dispersión que tienen los datos, es importante determinar su
forma, como un complemento de su descripción. Las medidas descriptivas de forma, a través de la
asimetría y curtosis permiten comparar la la forma que tiene la representación gráfica, bien sea
el histograma o el diagrama de barras de la distribución.
ASIMETRIA
18
ESTADÍSTICA EMPRESARIAL Andrea Pincheira Varas
Para un conjunto de datos, es posible evaluar la tendencia central (media, moda o mediana) de
sus observaciones, se puede también describir el nivel de diseminación o concentración que
poseen. Otra característica que puede medirse es el grado de asimetría de una distribución.
Así, si una distribución de frecuencias es simétrica, no tendrá sesgo (asimetría nula). Existirá
asimetría positiva o sesgo positivo si la media de la distribución es mayor que la mediana o la moda
(generalmente ocurre cuando una o más observaciones son sumamente grandes). Por el
contrario existirá sesgo negativo o asimetría negativa si la media es la menor de las tres medidas
de ubicación (ocurre cuando uno o más datos son muy pequeños).
Sesgo negativo
Frecuencia
Frecuencia
Sesgo positivo
Frecuencia
Simétrica
Mediana
Mediana
Media
Moda
Media
Moda
Media
Mediana
Moda
Suponga que de acuerdo a la distribución de los datos de los días de demora en la resolución
de reclamos en una compañía telefónica, la media de la demora fue de 28 días, la mediana
de 25 días y la moda de 23 días, se calculó además una desviación estándar de 4,2 días.
Calcule la simetría.
19
ESTADÍSTICA EMPRESARIAL Andrea Pincheira Varas
Regla Empírica
Existe una regla llamada normal o empírica que facilita el análisis y la toma de decisiones,
basada en la recién estudiada simetría. Esta regla general se aplica solamente a las
distribuciones simétricas, e indica el comportamiento de las desviaciones. Se sabe entonces
que aproximadamente un 68% de las observaciones estará a más y menos una desviación
estándar desde la media; un 95% de tales observaciones se encontrará a más y menos dos
desviaciones de la misma y prácticamente todas las observaciones (99,7%) se hallarán a más y
menos tres desviaciones estándares respecto a la media.
Aproximadamente un 68% de los gastos está entre $13 y $17 millones. Lo anterior es posible
determinarlo, sumando y restando $2 millones (1 desviación estándar) a los $15 millones
promedio (x + 1s).
Calculándolo de la misma manera, aproximadamente un 95% de los gastos del municipio está
entre $11 y $19 millones ( + 2 desviaciones: $4 millones), mientras que el 99,7% está entre $9 y
$21 millones.
68%
95%
99.7%
20
ESTADÍSTICA EMPRESARIAL Andrea Pincheira Varas
MEDIDA DE CURTOSIS
La curtosis es una medida de la forma o apuntamiento de las distribuciones. Así las medidas de
curtosis (también llamadas de apuntamiento o de concentración central) tratan de estudiar la
mayor o menor concentración de frecuencias alrededor de la media y en la zona central de la
distribución.
1
Coeficiente de Curtosis g2 = n E (Xi – X)4 * ni - 3
1 E (Xi –X)2 * ni 2
n
Donde
g2 = coeficiente de curtosis
Xi = valores de la variable
X = media
ni = frecuencia de cada valor
21
ESTADÍSTICA EMPRESARIAL Andrea Pincheira Varas
Luego:
Cuando la distribución de los datos cuenta con un coeficiente de asimetría (g1 = ±0.5) y un
coeficiente de curtosis de (g2 = ±0.5), se le denomina Curva Normal. Este criterio es de suma
importancia ya que para la mayoría de los procedimientos de la estadística de inferencia se
requiere que los datos se distribuyan normalmente.
22