Unidad 4 Estadist Desc C

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 73

ANÁLISIS NUMÉRICO DE

UNIDAD
DIDÁCTICA UNA VARIABLE MEDIBLE (II):
PRINCIPALES MEDIDAS

4 DE DISPERSIÓN Y
MEDIDAS DE FORMA

OBJETIVOS DE LA UNIDAD

1. Medidas de dispersión
1.1. Error cuadrático medio (ECM) y error absoluto medio (EAM)
1.2. La varianza
1.3. La desviación estándar, desviación típica o desviación tipo
1.3.1. Aplicaciones de la desviación típica. Teorema de Chebyshov (Tchevychev o Tchebycheff)
1.3.2. Tipificación de variables
1.4. Coeficiente de variación
1.5. La mediana de las desviaciones absolutas (meda)

2. Medidas de forma
2.1. Medidas de simetría
2.1.1. Coeficientes de asimetría (sesgo) de Pearson
2.1.2. Coeficiente de asimetría de Fisher
2.2. Medidas de apuntamiento o curtosis
2.2.1. Coeficiente de apuntamiento o curtosis de Fisher

CONCEPTOS BÁSICOS A RETENER

ACTIVIDADES DE AUTOCOMPROBACIÓN

ACTIVIDADES DE REPASO

TEST DE AUTOEVALUACIÓN

REFERENCIAS BIBLIOGRÁFICAS

www.udima.es 135
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
ESTADÍSTICA DESCRIPTIVA

 OBJETIVOS DE LA UNIDAD

En muchas ocasiones, las medidas de centralización no son suficientes para resumir las caracterís-
ticas principales de una distribución. Por ello, en esta Unidad didáctica estudiamos otro grupo de
parámetros y estadísticos que las complementen. Entre estos valores encontramos las medidas de dis-
persión, que permiten establecer si los datos muestrales analizados se encuentran más o menos cerca-
nos a las medidas de centralización definidas para la variable (varianza, desviación típica y coeficiente
de variación), y las medidas de forma, cuyo cometido será describir el grado de simetría con el que los
datos se agrupan en torno a sus valores centrales (coeficientes de sesgo) y si esta mayor o menor con-
centración da lugar a distribuciones más o menos apuntadas (coeficientes de apuntamiento o curtosis).

136 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Análisis numérico de una variable medible (II):
M.ª J. Pérez Fructuoso principales medidas de dispersión y medidas de forma

1. MEDIDAS DE DISPERSIÓN

Las medidas de centralización que hemos estudiado en la Unidad didáctica anterior permiten buscar
números reales que representan a la distribución de los datos en su conjunto. El problema es que
ninguno de estos valores centrales nos mide la representatividad o validez de la elección realizada. Una
medida como la media o la mediana solo da una idea del centro de los datos pero no dice nada acerca
de la dis- persión de los mismos. Por ejemplo, podemos tener una media de 5 con los siguientes datos
(5, 4, 6, 5, 5) pero también podemos tener una media de 5 con los datos (10, 0, 5, 9, 1). Evidentemente,
el primer gru- po de valores tiene menos variabilidad respecto al valor medio 5 ya que todos los datos
son 5 o valores muy cercanos a él. Por tanto, si hay muchos valores distintos del valor central elegido
dentro de la mues- tra, este será poco representativo.
Un valor pequeño en una medida de dispersión implica que los datos están situados muy próxi-
mos alrededor de la medida aritmética de forma que dicha media se considera representativa de dichos
datos. Por el contrario, un valor grande de la medida de dispersión supone que la media aritmética no
es fiable como representante de los datos.
Las medidas de dispersión pueden ser absolutas, cuando dependen de las unidades de medida de la
va- riable, o relativas, cuando se definen a través de un cociente y, por tanto, no dependen de las unidades
de medida de la variable analizada. Cuando las medidas de dispersión son absolutas, solo tienen sentido si
van acompañadas de un valor promedio. En este caso, las medidas de dispersión nos indicarán la
variabilidad de los datos en torno a su valor promedio, es decir si se encuentran muy o poco esparcidos en
torno a su centro. Las medidas relativas permiten comparar las dispersiones de distintas distribuciones
entre ellas.
Las unidades en las que se expresan las medidas de dispersión pueden ser las mismas en que vienen
me- didos los datos, en unidades al cuadrado, o pueden ser magnitudes escalares independientes de las
unidades de medida (como veremos al desarrollarlas en esta Unidad didáctica y en la siguiente). Pero a
efectos de compa- rar las dispersiones en dos o más variables estadísticas expresadas en las mismas o en
distintas unidades se utiliza el coeficiente de variación de Pearson que analizaremos con más detalle en un
epígrafe posterior.

1.1. ERROR CUADRÁTICO MEDIO (ECM) Y ERROR ABSOLUTO MEDIO (EAM)

Una forma de medir la representatividad que un determinado dato muestral, d, puede tener sobre
un conjunto de datos x1 , x 2 ,..., x n , es calcular el error cuadrático medio (ECM) y el error absoluto
medio (EAM).

Dada una muestra x1 , x 2 ,..., x n , decimos que el ECM cometido al tomar el número real d, como
representante de la muestra, es la expresión:
1

   n   2
ECM d x d
n i 1 i

Por su parte, el EAM cuando tomamos el número real d como representante de la muestra, es:
1
EAM d   n
n  x d
i1 i
www.udima.es 137
ESTADÍSTICA DESCRIPTIVA

Cuando estos dos errores den lugar a valores pequeños indicarán que los datos de la muestra están
agrupados en torno al valor d escogido. Entonces, ¿qué valor d seleccionamos para representar la muestra?
Según utilicemos el ECM o EAM para medir la dispersión, el valor d representativo de la muestra será dis-
tinto, pero como el ECM es una función que presenta mejores propiedades desde el punto de vista
matemáti- co y estadístico, es la más utilizada para seleccionar el número real d que mejor resume los
datos muestrales.

De hecho, es posible demostrar (aunque no lo vamos a hacer) que si seguimos el criterio del
ECM, el mejor representante de la muestra será aquel valor real que minimice dicho error y, casual-
mente, ese valor real que minimiza el ECM es la media muestral. Adoptando el criterio del EAM, la
media muestral ya no resultaría el mejor valor representativo de la muestra, sino que en este caso di-
cho valor vendría dado por la mediana.

1.2. LA VARIANZA

La varianza es una de las medidas de dispersión absolutas más utilizadas y, de forma genérica,
podemos definirla (tanto de una población como de una muestra) como la media aritmética de las des-
viaciones, elevadas al cuadrado, del conjunto de datos analizados respecto a su valor medio.

La varianza poblacional, y por tanto para todas las observaciones estudiadas, se denota por  2 y
se define como, 1
2
N
   2

N i1 i
x

donde  es la varianza de la población, (siendo , la letra griega sigma minúscula) y se lee sigma al
2

cuadrado, xi es el valor de una observación de la población, es la media aritmética poblacional y N


es el número de observaciones de la población.

La varianza de un conjunto de datos muestrales x1 , x2 ,..., xn , es un estadístico de dispersión que


se define como el error cuadrático medio centrado en la media muestral o, dicho de otro modo, es el
ECM cometido al tomar x como representante de la muestra. La varianza muestral se denota por s2
y su formulación es la siguiente:
n
s 2 1
n xi  x 2
i

 1

La varianza mide la mayor o menor dispersión de los valores respecto a la media aritmética, de
forma que si la dispersión es muy grande, la media no será representativa. Además es siempre no ne-
gativa (es positiva o nula) y será 0 solo cuando todas las observaciones sean iguales. En general, cuan-
to más dispersas sean las observaciones, mayores serán las desviaciones respecto a la media y, por
tanto, mayor el valor numérico de la varianza.

El proceso que debemos seguir para calcular la varianza cuando la frecuencia absoluta de los da-
tos es unitaria es el siguiente:

• Primero determinamos la media de la población o de la muestra.


• A continuación calculamos la diferencia entre cada observación y la media y elevamos al
cuadrado dicha diferencia.
• Seguidamente sumamos todas las diferencias elevadas al cuadrado obtenidas.
138 www.udima.es
Análisis numérico de una variable medible (II):
M.ª J. Pérez Fructuoso principales medidas de dispersión y medidas de forma

• Finalmente, dividimos la suma de las diferencias al cuadrado entre el número de elemen-


tos de la población.

Cuando la frecuencia absoluta de los datos muestrales no es unitaria, esto es, cuando x1 , x 2 ,..., x m 
son los distintos valores de la muestra, ordenados de forma creciente, con frecuencias absolutas,
n1 , n 2 ,..., n m  respectivamente, entonces la varianza muestral puede reescribirse como sigue:
1
 m    2
2

s
n i1

ni xi x

Finalmente, teniendo en cuenta que fn  es la frecuencia relativa asociada al valor xi , pode-


i
i

n
mos expresar la varianza muestral también como:

 f  x x
2
s 2
 i i
i1

Por ejemplo, consideremos la variable X: gasto mensual (en euros) en teléfono móvil cuyos valo-
res asociados a una muestra de 10 individuos son:

67, 106, 71, 162, 267, 120, 100, 85, 54, 93

Teniendo en cuenta que la media aritmética de la muestra es 112,5 euros (calculada en la Unidad
didáctica anterior) y que la frecuencia absoluta de los valores muestrales es unitaria, para calcular la
varianza o dispersión de los datos respecto a este valor medio aplicamos la siguiente fórmula:
1
s2 n
 x  x 
2
n i1 i 

67 112,52  106 112,52  71112,52  162 112,52  267 112,52  


1
  
 
 
10 120 112,5  100 112,5  85 112,5  54 112,5  93 112,5 
2 2 2 2 2

1
  34.926,5  3.492,65
10

En muchas ocasiones la fórmula que se utiliza para calcular la varianza muestral difiere un poco de
la que acabamos de exponer en los párrafos anteriores. En lugar de dividir la suma de las desviaciones
al cuadrado entre el número total de observaciones de la muestra, n, se divide entre n–1, esto es,
2 1 n   2

sn1
n 1 i1
xi x 
si la frecuencia absoluta de los datos es unitaria, o bien:
2 1   
2


m
sn1 xi x
n 1 ni
i1
cuando los datos tienen una frecuencia absoluta diferente de la unidad.

www.udima.es 139
ESTADÍSTICA DESCRIPTIVA

En este caso, el valor obtenido se conoce con el nombre de cuasivarianza y su uso se justifica
porque al utilizar n para realizar los cálculos de la media y la varianza muestrales estamos subestiman-
do la varianza poblacional (como veremos en profundidad en Unidades didácticas y asignaturas poste-
riores, su interés está relacionado con su importancia como estimador: cuando tomamos datos de una
muestra estadísticamente representativa y queremos inferir resultados sobre la población total, la me-
dia muestral puede utilizarse como estimador de la media poblacional. Sin embargo, la varianza y la
desviación típica muestrales no son estimadores adecuados para extraer conclusiones acerca de la va-
rianza y la desviación típica poblacional). De esta forma, incluyendo n–1 en el denominador corregi-
mos adecuadamente esta tendencia.

Cuando la muestra analizada está agrupada en m intervalos con frecuencias absolutas,


n1, n2,...,nm y marcas de clase de cada intervalo c1, c2,...,cm respectivamente, podemos calcular
la
varianza (aproximada) como,
1
      
2 2 2
 m
m

s
ni n
 ci x 
i
f c x
i

1 i 1 i1

n  c .
m
siendo x  i i
n i1

Otra expresión para calcular la varianza en este caso, más operativa, es la siguiente:

1 m
1 2
n  i n m i  1

m
i i
i
i
 n

n c n  c 2  x 
2
n  c  
2
s2  
i 1
 i 1  i 1

Entre las principales propiedades de la varianza cabe destacar las siguientes:

• La varianza nunca puede ser negativa, ya que es una suma de cuadrados y por tanto su va-
lor (como ya hemos comentado antes) siempre será cero o positivo,

s2  0

(Si s2  0 , las desviaciones son todas iguales a cero, por tanto


xi  x . En este caso parti-
cular, la variable solo toma un valor y dicho valor coincide con la media aritmética.)

• La varianza es la medida cuadrática de dispersión óptima.

• Si en la distribución de frecuencias sumamos a todos los valores de la variable un valor


constante, la varianza no varía.

• Si multiplicamos los valores de una distribución de frecuencias por una constante, la va-
rianza queda multiplicada por la constante elevada al cuadrado.

• Las dos propiedades inmediatamente anteriores se pueden expresar matemáticamente, como


sigue: sea una variable yi sobre la que se realiza simultáneamente un cambio de escala (C) y
un cambio de origen (O), xi  C  y i  O , siendo C y O dos valores constantes, entonces,
n n
s x2  1  xi  x 1  n C  y  O  C  y  O 
2
ni i
 2 2

1
n i1
n
i
n i1
 
2
C

2 2
n i yi  y Csy
n 
i1

140 www.udima.es
Análisis numérico de una variable medible (II):
M.ª J. Pérez Fructuoso principales medidas de dispersión y medidas de forma

La varianza es un estadístico (o un parámetro si nos referimos a la población) medido en las uni-


dades de la variable estudiada al cuadrado. Esto significa que si la variable viene dada en segundos, la
varianza se expresará en segundos al cuadrado, lo cual no tiene una fácil interpretación.

EJEMPLO 1

En la siguiente tabla se presentan los kilómetros recorridos por 10 automóviles de diferentes marcas du‐
rante una hora y media:

Automóvil Km

A1 125
A2 125
A3 150
A4 135
A5 150
A6 145
A7 130
A8 145
A9 130
A10 145

A partir de la tabla de frecuencias y la media aritmética de los kilómetros recorridos, calculadas en el mismo
ejemplo de la Unidad didáctica 3, determina la varianza de la muestra.

Solución:

La tabla de frecuencias y la media aritmética de la variable X km recorridos por 10 automóviles de diferentes


marcas son, respectivamente:

Km=xi ni Ni fi Fi

125 2 2 0,2 0,2


130 2 4 0,2 0,4
135 1 5 0,1 0,5
145 3 8 0,3 0,8
150 2 10 0,2 1

Y:
m
1 250  260  135  435  300
x
n n i x i
i1
10
 138

A partir de estos datos, la varianza de la variable X se calcula aplicando la fórmula,


m

s 
2
f i 1
i xi  x 2

…/…

www.udima.es 141
ESTADÍSTICA DESCRIPTIVA

…/…

para lo cual realizamos los siguientes pasos:

• Calculamos la diferencia entre cada observación y la media:

xi xi x

125 125 – 138 = – 13


130 130 – 138 = – 8
135 135 – 138 = – 3
145 145 – 138 = 7
150 150 – 138 = 12

• Elevamos al cuadrado dicha diferencia:

xi xi x xi  x 2

125 125 – 138 = – 13 (– 13)2 = 169


130 130 – 138 = – 8 (– 8)2 = 64
135 135 – 138 = – 3 (– 3)2 = 9
145 145 – 138 = 7 (7)2 = 49
150 150 – 138 = 12 (12)2 = 144

• Seguidamente multiplicamos cada una de las diferencias elevadas al cuadrado obtenidas por su co‐
rrespondiente frecuencia relativa:

f i  xi  x 2
xi xi x xi  x 2

125 125 – 138 = – 13 (– 13)2 = 169 0,2 × 169 = 33,8


130 130 – 138 = – 8 (– 8)2 = 64 0,2 × 64 = 12,8
135 135 – 138 = – 3 (– 3)2 = 9 0,1 × 9 = 0,9
145 145 – 138 = 7 (7)2 = 49 0,3 × 49 = 14,7
150 150 – 138 = 12 (12)2 =144 0,2 × 144 = 28,8

• Finalmente, sumamos todos los valores obtenidos y el resultado es la varianza de la variable km re‐
corridos por los 10 automóviles de diferentes marcas:

s2   f  x  x 
i1
i
2
 33,8  12,8  0,9  14,7  28,8  91 km 2

142 www.udima.es
Análisis numérico de una variable medible (II):
M.ª J. Pérez Fructuoso principales medidas de dispersión y medidas de forma

EJEMPLO 2

Supongamos que la distribución de los salarios brutos anuales (en €) de los 10.000 empleados de una de‐
terminada empresa multinacional es la que aparece en la siguiente tabla:

Salarios Número de empleados

0‐15.000 2.145
15.000‐20.000 1.520
20.000‐25.000 840
25.000‐30.000 955
30.000‐35.000 1.110
35.000‐40.000 2.342
40.000‐50.000 610
50.000‐100.000 328
100.000‐300.000 150

A partir del salario bruto anual medio por trabajador calculado en el mismo ejemplo de la Unidad didáctica 3,
determina la varianza de la variable analizada.

Solución:

Como la variable salario bruto anual por trabajador, objeto de estudio en este ejemplo, se presenta en forma
agrupada, para determinar su varianza utilizamos la siguiente fórmula,
m
1
n  c  x 
2
s2
n i
i1

donde ci es la marca de clase asociada a cada intervalo,

Salarios Marca de clase

0‐15.000 7.500
15.000‐20.000 17.500
20.000‐25.000 22.500
25.000‐30.000 27.500
30.000‐35.000 32.500
35.000‐40.000 37.500
40.000‐50.000 45.000
50.000‐100.000 75.000
100.000‐300.000 200.000

y x es el salario bruto anual medio de los trabajadores de la multinacional calculado en el ejemplo 2 de la


Unidad didáctica anterior, cuyo valor es 29.380 euros.

Entonces para calcular la varianza operamos como se detalla a continuación:

…/…

www.udima.es 143
ESTADÍSTICA DESCRIPTIVA

…/…

• Calculamos la diferencia entre cada marca de clase y la media:

Salarios ci x

0‐15.000 7.500 – 29.380 = – 21.880


15.000‐20.000 17.500 – 29.380 = – 11.880
20.000‐25.000 22.500 – 29.380 = – 6.880
25.000‐30.000 27.500 – 29.380 = – 1.880
30.000‐35.000 32.500 – 29.380 = 3.120
35.000‐40.000 37.500 – 29.380 = 8.120
40.000‐50.000 45.000 – 29.380 = 15.620
50.000‐100.000 75.000 – 29.380 = 45.620
100.000‐300.000 200.000 – 29.380 = 170.620

• Elevamos al cuadrado la diferencia calculada:

c i  x 
2
Salarios c i x

0‐15.000 – 21.880 (– 21.880)2 = 478.734.400


15.000‐20.000 – 11.880 (– 11.880)2 = 141.134.400
20.000‐25.000 – 6.880 (– 6.880)2 = 47.334.400
25.000‐30.000 – 1.880 (– 1.880)2 = 3.534.400
30.000‐35.000 3.120 (3.120)2 = 9.734.400
2
35.000‐40.000 8.120 (8.120) = 65.934.400
40.000‐50.000 15.620 (15.620)2 = 243.984.400
50.000‐100.000 45.620 (45.620)2 = 2.081.184.400
100.000‐300.000 170.620 (170.620)2 = 29.111.000.000

• A continuación multiplicamos cada una de las diferencias elevadas al cuadrado obtenidas por su
correspondiente frecuencia absoluta y sumamos los resultados obtenidos:

ci  x  ci  x 2  ni
2
Salarios c i x ni

0‐15.000 – 21.880 2.145 478.734.400 1.026.885.288.000


15.000‐20.000 – 11.880 1.520 141.134.400 214.524.288.000
20.000‐25.000 – 6.880 840 47.334.400 39.760.896.000
25.000‐30.000 – 1.880 955 3.534.400 3.375.352.000
30.000‐35.000 3.120 1.110 9.734.400 10.805.184.000
35.000‐40.000 8.120 2.342 65.934.400 154.418.364.800
40.000‐50.000 15.620 610 243.984.400 148.830.484.000
50.000‐100.000 45.620 328 2.081.184.400 682.628.483.200
100.000‐300.000 170.620 150 29.111.184.400 4.366.677.660.000

Total: 10.000 Total: 6.647.906.000.000

• Finalmente, la varianza se obtiene dividiendo la suma de todos los valores de la columna


c  x 2  n entre el número total de observaciones de la muestra:
i i
m
1 6.647.906.000.000
s2 
n i1
ni  ci x 2  10.000
 664.790.600

144 www.udima.es
Análisis numérico de una variable medible (II):
M.ª J. Pérez Fructuoso principales medidas de dispersión y medidas de forma

1.3. LA DESVIACIÓN ESTÁNDAR, DESVIACIÓN TÍPICA O DESVIACIÓN TIPO

Para evitar el inconveniente que presenta la varianza al medirse en unidades de la variable al cua-
drado, suele operarse con la raíz cuadrada positiva de dicho parámetro (cuando trabajamos con una
población) o estadístico (cuando trabajamos con una muestra).

Entonces, llamamos desviación típica, desviación tipo o desviación estándar de una población
a la raíz cuadrada positiva de la varianza poblacional, es decir:

 x   
i
2

 i1
N
De forma equivalente, llamamos desviación típica, tipo o estándar de un conjunto de valores o
muestra x1, x2,...,xn, a la raíz cuadrada positiva de la varianza muestral, cuya fórmula viene dada
por cualquiera de las siguientes expresiones, según la tipología de los datos analizados,

 x i x
2

s i 1
n
cuando los datos presentan una frecuencia absoluta unitaria, o bien:

 n  x
i
2
i x m
s i 1 o s  f  x
i i x
2

n i1

cuando la frecuencia absoluta de los datos es distinta de la unidad.

A partir de los cálculos realizados en los ejemplos 1 y 2 descritos en el epígrafe anterior, la


desviación típica se obtiene de forma simple como la raíz cuadrada positiva de la varianza. Entonces, para
el ejemplo 1, la desviación típica existente entre los km recorridos por 10 automóviles de diferentes
marcas es:

s   s2  91  9,53939  9,54

En el ejemplo 2, la desviación estándar de los salarios brutos anuales de los trabajadores de la


multinacional resulta:
s   s2  664.790.600  25.783,5335

Las propiedades principales de la desviación típica, deducidas fácilmente a partir de las de la va-
rianza, son las siguientes:

• Es siempre un valor mayor o igual que 0 (por convenio, solo se selecciona como desvia-
ción típica la raíz cuadrada positiva de la varianza). Solo será nula cuando todas las ob-
servaciones coincidan con el valor de la media.
• Es una medida de dispersión óptima (es la mínima desviación cuadrática).
www.udima.es 145
ESTADÍSTICA DESCRIPTIVA

• No se ve modificada por cambios de origen (es decir, si sumamos o restamos un mismo


valor a los datos muestrales, la desviación típica de los nuevos datos sigue siendo la mis-
ma que la de los datos iniciales).
• Si se ve modificada por cambios de escala (es decir, si multiplicamos o dividimos por un
mismo valor todos los datos muestrales, la desviación típica queda multiplicada o dividi-
da por dicho valor, también llamado factor de escala).
• No es una medida de dispersión muy robusta ya que, al calcularse evaluando el cuadrado
de las desviaciones, hace que sea muy sensible a observaciones extremas. Por tanto, la
desviación típica no es una buena medida de dispersión cuando se tiene algún dato muy
alejado de la media.

Finalmente, definimos la cuasidesviación típica como,

 x i x
2

sn 1   i 1
n 1
o bien,
m

 n  x i
2
i x
sn 1   i 1
n 1
cuya única diferencia con la desviación típica es, como en el caso de la varianza, que en su formula-
ción el denominador vale n – 1 en lugar de n.

1.3.1. Aplicaciones de la desviación típica. Teorema de Chebyshov (Tchevychev o


Tchebycheff)

La desviación típica es la medida de dispersión más utilizada en estadística aplicada y se utiliza


para comparar dispersiones en dos o más conjuntos de observaciones (por ejemplo, lo que se conoce
como volatilidad del precio de una acción no es más que la desviación estándar de los valores que
toma dicho precio respecto a un precio medio y se utiliza para determinar el riesgo que supone in-
vertir en la acción. De esta forma, a mayor volatilidad mayor variabilidad de los precios y por tanto
mayor probabilidad de pérdidas). Un valor pequeño de este estadístico implica que los valores de la
distribución se encuentran muy concentrados (muy próximos) en torno a su valor medio, mientras
que un valor elevado de la desviación típica significa que existen datos, por exceso o por defecto,
muy alejados de su media.

Basándose en este hecho, el matemático ruso Pafnuti Lvóvich estableció un teorema que nos
permite determinar el número mínimo de valores que se encuentran a cierta cantidad de desviaciones
de la media. Formalmente el teorema de Chebyshov se enuncia como sigue:

«En cualquier conjunto de observaciones (muestra o población), la proporción de valo-


1
res que se encuentran a k desviaciones estándares de la media es de por lo menos 1  ,
k2
siendo k cualquier valor constante mayor que la unidad.»

146 www.udima.es
Análisis numérico de una variable medible (II):
M.ª J. Pérez Fructuoso principales medidas de dispersión y medidas de forma

Dicho de otro modo, la proporción de datos incluidos en el intervalo x  k  s, x  k  s es me-


1
nor o igual que 1  .
k2

El intervalo x  k  s, x  k  s significa que:

• Pertenecer al intervalo es lo mismo que distar de la media menos de k veces la desviación


típica.
• No pertenecer al intervalo es distar más de k veces la desviación típica.

Por tanto, la desigualdad de Chebyshov indica que, para cualquier variable estadística, al menos
 1 
el 1   de las observaciones dista de la media aritmética menos de k veces la desviación
100% 2
 k 
 1
típica o, lo que es igual, al menos el  2  100% de las observaciones dista de la media aritmética
k 
más de k veces la desviación típica.

Así, por ejemplo, cuando trabajamos con poblaciones grandes cuya distribución es simétrica (o tie-
ne forma de campana), la aplicación de este teorema permite asegurar que por los menos el 68% de las
observaciones se encuentra entre la media más una desviación estándar y entre la media menos una des-
viación estándar; el 95% de las observaciones se encuentra entre la media más dos desviaciones estánda-
res y entre la media menos dos desviaciones estándares y casi todas las observaciones se encuentran
entre la media más y menos tres desviaciones estándares. Estas relaciones que implican la desviación
estándar con la media se conocen con el nombre de regla empírica o regla normal.

1.3.2. Tipificación de variables

La variable que mide la desviación de la variable original respecto a la media en unidades de la


desviación típica se conoce con el nombre de variable tipificada, variable estandarizada o variable
reducida, es independiente de las unidades en que se expresa la variable original (es adimensional) y
viene dada por la siguiente expresión:
x x
z i i
s

Las variables estadísticas tipificadas, estandarizadas o reducidas tienen media cero y varianza (o
desviación típica) unitaria. Además, la distribución de frecuencias asociada a una variable de estas
características también se denomina distribución tipificada.

La tipificación de variables se utiliza para definir características de una variable independientes


del sistema de medida y para establecer comparaciones entre los valores de dos variables.

1.4. COEFICIENTE DE VARIACIÓN

Como hemos indicado, tanto la varianza como la desviación estándar vienen influidas por la unidad
en la que se mide la variable. De esta forma, si cambiamos de medición, realizando, por ejemplo, un
cambio de escala, los valores de estos estadísticos se ven a su vez modificados. Para eliminar la
influencia de la
www.udima.es 147
ESTADÍSTICA DESCRIPTIVA

unidad de medida y poder realizar comparaciones de la desviación existente entre distintas distribuciones
entre sí, se define el coeficiente de variación (también llamado coeficiente de variación de Pearson).

El coeficiente de variación es una medida de dispersión relativa, ya que permite comparar


distribu- ciones diferentes o que no vienen expresadas en las mismas unidades, que se define como la
relación por cociente entre la desviación típica y la media aritmética (siempre que dicha media sea
positiva),

CV  σ
 o bien CV  100%
μ

cuando los datos provienen de una población y,


s
CV  s
x o bien CV  100%
x

cuando los datos provienen de una muestra.

El coeficiente de variación representa el número de veces que la desviación típica contiene a la


media, es adimensional (ya que al estar definido como un cociente y venir la desviación estándar y la
media expresadas en la misma unidad de medida, dicha unidad se simplifica) y no se ve modificado
respecto a posibles cambios de origen de la variable.

Además, como tanto en el cálculo de la desviación típica como de la media han intervenido todos
los valores de la distribución, el CV presenta la garantía, frente a otros coeficientes que estudiaremos
en unidades posteriores, de que utiliza toda la información disponible.

Para interpretar este coeficiente de variación hemos de considerar que:

• Si CV=0, significa que la representatividad de la media es máxima.


• Si CV <1, la media representa de forma adecuada a la distribución de frecuencias puesto
que la dispersión es inferior a la media (podemos considerar de hecho que si CV > 0,5 la
media tiene una baja representatividad).
• Si CV 1, rechazamos la media como parámetro representativo de los datos de la distri-
bución.

Conviene señalar en este punto el caso particular para el cual el coeficiente de variación no es
significativo. Si x  0, el CV tiende a infinito y por tanto no es de utilidad, ya que su resultado numé-
rico nos puede llevar a conclusiones estadísticas erróneas.

Retomando el enunciado del ejemplo 1 de esta Unidad didáctica, en el que se analiza una muestra
de los km recorridos por 10 vehículos de diferentes marcas, el coeficiente de variación asociado a
dicha muestra se obtendría como,
s
CV  s
x o bien CV   100% x

donde s es la desviación estándar cuyo valor asciende a 9,53939 y x es la media de los kilómetros
recorridos que, en este caso, vale 138. A partir de estos datos, el coeficiente de variación resulta,
9,53939
CV   0,06913
138
148 www.udima.es
Análisis numérico de una variable medible (II):
M.ª J. Pérez Fructuoso principales medidas de dispersión y medidas de forma

o bien, expresado en porcentaje, 6,913%. Como dicho coeficiente es menor que la unidad (expresado
en términos absolutos) e inferior a 0,5, podemos decir que la media representa adecuadamente la dis-
tribución de frecuencias analizada.

Para el ejemplo 2, en el que se analizan los salarios brutos anuales de los trabajadores de una
empresa multinacional, el coeficiente de variación vale,

25.783,5335
CV   0,87758  87,76%
29.380

que, a diferencia del caso anterior, muestra una representatividad baja de la media para el conjunto de
datos analizados puesto que su valor es superior a 0,5 y está muy cercano a la unidad.

1.5. LA MEDIANA DE LAS DESVIACIONES ABSOLUTAS (MEDA)

La meda es una medida de dispersión que permite expresar la variabilidad de las observaciones
alrededor de la mediana de la distribución.

Se define como la mediana de las desviaciones absolutas, esto es, una vez construidas las desvia-
ciones de los datos respecto a la mediana,

x1  Mediana , x2  Mediana ,…, xn  Mediana

tomamos los valores absolutos de los resultados para eliminar el signo,

x1  Mediana , x  Mediana ,…, x  Mediana


2 n

y la mediana de estos nuevos valores obtenidos será la meda:

Meda  Mediana  x1 
x2  Mediana ,..., xn  Mediana 
Mediana ,

Por ejemplo, supongamos que las desviaciones de los datos asociados a una muestra respecto a su
mediana son los siguientes:

–0,4; –1,8; 1,3; 1,6; 2,9; –4,7; 0,3; 1,4; –2,5

Para calcular la meda, obtenemos sus valores absolutos,

0,4; 1,8; 1,3; 1,6; 2,9; 4,7; 0,3; 1,4; 2,5

ordenamos dichos valores en orden creciente,

0,3; 0,4; 1,3; 1,4; 1,6; 1,8; 2,5; 2,9; 4,7

y calculamos la mediana de los mismos, que al ser un número impar de datos corresponderá al valor
central, esto es, 1,6.

Si transformamos linealmente una variable x en otra y, tal que y  a  bx , la MEDA de la nueva


variable será:
www.udima.es 149
ESTADÍSTICA DESCRIPTIVA

MEDA y  MEDA a  bx  a  MEDA x

Entre las principales ventajas de la meda se encuentra que, igual que sucede con la mediana, no se
ve afectada por los valores extremos (tanto por exceso como por defecto) de la distribución. (A las
medidas que presentan esta propiedad se las conoce con el nombre de medidas robustas o resisten-
tes). Además, si tenemos una distribución de datos no agrupados de la cual conocemos su media y su
meda, podemos afirmar que al menos el 50% de dichos datos se encuentran situados en los intervalos
x  meda  y x  meda .

2. MEDIDAS DE FORMA

Hasta ahora hemos sintetizado toda la información estadística asociada a un conjunto de datos a
través de las medidas de centralización y de dispersión. Pero parece evidente que analizar datos no
consiste solamente en calcular una media y una varianza. No sería correcto realizar una interpretación
global del colectivo que tenga como hipótesis básica un comportamiento de todos los elementos que lo
integran constante e igual a la media. Necesitamos saber más acerca de la conducta de la distribución
estudiada porque existe una disparidad entre los datos del colectivo que no podemos ignorar al realizar
un estudio estadístico completo. Esta variedad de comportamiento, que se traduce en los distintos va-
lores de xi que tenemos en una distribución, se hace más visible al realizar su representación gráfica.
Pues bien, lo que vamos a exponer a continuación son una serie de indicadores que miden la forma de
la representación gráfica de la distribución de frecuencias sin necesidad de llevarla a cabo.

Las medidas de forma pueden clasificarse en dos categorías: las medidas de asimetría y las medi-
das de apuntamiento o curtosis.

2.1. MEDIDAS DE SIMETRÍA

Estas medidas indican el grado de concentración de los valores de la distribución en torno a sus
valores centrales, normalmente la media aritmética o la mediana.

Se conoce con el nombre de sesgo (o simplemente asimetría o simetría) el grado de asimetría que
presenta una distribución. Hay tres formas básicas de distribuciones: simétrica, con sesgo negativo
(asimétrica a la izquierda) y con sesgo positivo (asimétrica a la derecha). Decimos que un conjunto de
observaciones es simétrico si la media y la mediana son iguales y los datos se dispersan de manera
uniforme en torno a ellos. Dicho de otro modo, una distribución es simétrica si al lado derecho de la
media o de la mediana queda la misma cantidad de frecuencias que al lado izquierdo. (Visualmente
detectamos que una distribución es simétrica si el gráfico que la representa es simétrico respecto de la
recta x  o respecto de la recta x = mediana y tiene forma de campana o campaniforme).
x

Un conjunto de valores es sesgado a la izquierda o sesgado negativamente cuando existe un solo


pico (la moda) pero las observaciones se extienden más a la izquierda, en la dirección negativa, que a la
derecha. En este caso la media es menor que la mediana. Gráficamente se observa una cola más larga a la
izquierda de la media (o de la mediana) que a la derecha. Por su parte, un conjunto de valores es sesgado
a la derecha o sesgado positivamente si existe un solo pico (la moda) y los valores de la distribución se
concentran mucho más a la derecha del pico que a su izquierda. En este caso la media es más grande que
la mediana. Gráficamente se observa una cola más larga a la derecha de la media (o de la mediana) que a
la izquierda.

150 www.udima.es
Análisis numérico de una variable medible (II):
M.ª J. Pérez Fructuoso principales medidas de dispersión y medidas de forma

Media Moda Media Moda Media


Mediana Mediana Moda Mediana

Asimétrica hacia Asimétrica hacia


Simétrica
la izquierda la derecha

Generalmente son más comunes las distribuciones con sesgo positivo, como por ejemplo en el ca-
so de la variable distribución salarial de los empleados de una empresa. De hecho, el análisis descrip-
tivo de la mayor parte de las variables estadísticas estudiadas da lugar a distribuciones asimétricas (a la
derecha o a la izquierda) por ello, en la práctica diremos que una distribución es simétrica cuando lo
sea de forma aproximada, esto es, cuando el coeficiente de asimetría que vamos a definir a continua-
ción esté próximo a 0.

2.1.1. Coeficientes de asimetría (sesgo) de Pearson

Una medida de la asimetría de una distribución campaniforme, unimodal y moderadamente


asimétrica viene dada por la diferencia entre la media y la moda. Esta medida puede hacerse adimen-
sional (es decir, puede venir expresada sin unidades) dividiéndola entre una medida de dispersión co-
mo, por ejemplo, la desviación típica. La formulación de este coeficiente de asimetría es:

x
Sesgo  media  Moda
desviación típica Mod
as

Efectivamente, cuando la distribución campaniforme es simétrica se cumple que,

x  Moda Mediana

Por tanto, si la distribución es asimétrica positiva, la media se desplaza a la derecha de la moda y


por tanto,
x  Moda 0

En el caso de la distribución asimétrica negativa, la media se sitúa por debajo de la moda, esto es:

x  Moda 0
Así pues tenemos que,

• Si Sesgo = 0, la distribución es simétrica.


www.udima.es 151
ESTADÍSTICA DESCRIPTIVA

• Si Sesgo > 0, la distribución es asimétrica positiva.


• Si Sesgo < 0, la distribución es asimétrica negativa.

La desviación típica que aparece en el denominador no modifica el signo de la diferencia entre la


media y la moda y sirve exclusivamente para eliminar las unidades de medida de dicha diferencia.

Para evitar el uso de la moda, se puede definir una fórmula alternativa de medición del sesgo a
partir de la mediana,
3  media  Mediana 3  x  Mediana
Sesgo 
 s
desviación típica

De acuerdo con esta última expresión, el sesgo de una distribución puede variar entre –3 y 3, de
forma que un valor próximo a –3 indica un sesgo negativo considerable. Un valor entre 1 y 2, como
por ejemplo 1,56, indica un sesgo positivo moderado. Un valor de 0, que se produce cuando la media y
la mediana son iguales, indica que no existe ningún sesgo y que, por tanto, la distribución es simétrica.

Estos dos coeficientes que acabamos de definir se conocen con el nombre de primer y segundo
coeficiente de sesgo de Pearson. En general, valores nulos de estos coeficientes indican que se trata
de una distribución simétrica. Por otra parte, valores positivos indican que la distribución es asimétrica
a la derecha (de la moda o de la mediana) y valores negativos que es asimétrica a la izquierda (de la
moda o de la mediana).

EJEMPLO 3

Continuando con el enunciado del ejemplo 1, en el que se describen los km recorridos por 10 automóviles de diferentes marcas durante una hora y media

Automóvil Km

A1 125
A2 125
A3 150
A4 135
A5 150
A6 145
A7 130
A8 145
A9 130
A10 145

determina los coeficientes de asimetría de Pearson de la distribución.

Solución:
Los coeficientes de asimetría de Pearson se definen respectivamente como,

Sesgo  x  Moda
s
Sesgo  3  x  Mediana
s
…/…
152 www.udima.es
Análisis numérico de una variable medible (II):
M.ª J. Pérez Fructuoso principales medidas de dispersión y medidas de forma

arlos, además de la media y la desviación estándar que ya hemos obtenido en los epígrafes anteriores, debemos conocer la moda y la mediana de la distrib

da es el valor que más veces se repite en la muestra, es decir, el valor con mayor frecuencia absoluta que en nuestro ejemplo resulta ser 145, puesto que ap

ciente de asimetría de Pearson vale:

138  145
Sesgo   0,733799  0,7338
9,53939

Para determinar el segundo coeficiente de asimetría de Pearson, debemos obtener la mediana de la distribu‐
ción, para lo cual resulta preciso recurrir a la tabla de distribución de frecuencias de la variable analizada:

Km=xi ni Ni fi Fi

125 2 2 0,2 0,2


130 2 4 0,2 0,4
135 1 5 0,1 0,5
145 3 8 0,3 0,8
150 2 10 0,2 1

Entonces, la mitad del número de observaciones es 5 (10/2), por tanto, como existe un valor de la frecuen‐
cia absoluta acumulada que coincide con 5, concretamente 135, la mediana será la media aritmética de di‐ cho valor, 135, y del siguiente, 145, esto es:

135  145
Mediana   140
2

Con este dato, el segundo coeficiente de asimetría de Pearson vale:


3  138  140
Sesgo   0,62897  0,629
9,53939

enidos para ambos coeficientes, resulta que como tanto el primero como el se‐
mos afirmar que se trata de una distribución asimétrica hacia la izquierda, es decir, acumula un mayor número de valores a la izquierda de la moda o de la

2.1.2. Coeficiente de asimetría de Fisher

Este coeficiente de asimetría viene dado por la siguiente expresión para datos muestrales y de fre-
cuencia absoluta unitaria,
n

 x  x  3

i
CA  g1  i1

n  s3
donde s es la desviación típica, que en la fórmula está elevada al cubo. Esta división por el cubo de la
desviación típica se hace para que el coeficiente resultante sea adimensional, por tanto, comparable
entre diferentes muestras.
www.udima.es 153
ESTADÍSTICA DESCRIPTIVA

Si los valores muestrales de la variable analizada no tienen frecuencias absolutas unitarias, la


fórmula para determinar el coeficiente de asimetría de Fisher es:
m i i

n  x  x 
3
CA  g1 
i1

n
s3

Finalmente, el coeficiente de asimetría de Fisher para datos muestrales agrupados en intervalos


resulta,
m i i

n c  x 
3
CA  g1 
i1

n
s3

donde ci es la marca de clase de cada intervalo.

g1 es una cantidad que no tiene unidades y si vale 0 significa que la distribución es simétrica en torno
a la media. Adicionalmente, si g1  0, implica que la distribución es asimétrica a la derecha de la media y
entonces, de las dos ramas de la curva que separa la ordenada que pasa por la media, la de la derecha es
más larga que la de la izquierda. Para valores negativos de g1 , g1  0 , la distribución es asimétrica a la
izquierda de la media y, de las dos ramas de la curva que separa la ordenada que pasa por la media, la de la
izquierda es más larga que la de la derecha.

Es importante tener en cuenta que cuando una distribución es simétrica


g1  0 , pero el recíproco no
tiene por qué cumplirse necesariamente, por lo que resulta fundamental acompañar el estudio cuantitativo
de la forma de una distribución de su representación gráfica, que es la que realmente nos dará la clave
pues- to que puede haber distribuciones asimétricas para las que g1  0 .

(Cuando la muestra analizada tiene un número de observaciones superior a 150, n>150, para me-
dir el sesgo podemos utilizar el coeficiente de asimetría de Fisher estandarizado, definido como:
g
gs  1
)
6
n

Intervalo ni

0‐2 2
EJEMPLO 4
3‐5 6
Dada la siguiente distribución de frecuencias, 6‐8 10
9‐11 2
determina el coeficiente de asimetría de Fisher e interpreta el resultado obtenido para el mismo.
…/…

154 www.udima.es
Análisis numérico de una variable medible (II):
M.ª J. Pérez Fructuoso principales medidas de dispersión y medidas de forma

…/…

Solución:

Para determinar el coeficiente de asimetría de Fisher debemos aplicar la siguiente fórmula,


m

x
3
n i
CA  g  i1
1
c 
n  s3

donde ci es la marca de clase de cada intervalo:

Intervalo ci ni

0‐2 1 2
3‐5 4 6
6‐8 7 10
9‐11 10 2

Para poder aplicar la fórmula calculamos en primer lugar la media aritmética de los datos,
m

 ni  c i
2  1  6  4  10  7  2 
 5,8
x i1
 10
n
20

y la desviación estándar de los mismos,

m
i i

2  1  5,8  6  4  5,8  10  7  5,8  2  10  5,8


2 2 2 2

n  x  x 
2
s i   2,4
1
n 20

Entonces, calculamos la diferencia entre cada marca de clase y la media,

Intervalo ci ni ci x

0‐2 1 2 1 – 5,8 = – 4,8


3‐5 4 6 4 – 5,8 = –1,8
6‐8 7 10 7 – 5,8 = 1,2
9‐11 10 2 10 – 5,8 = 4,2

y elevamos dicha diferencia al cubo:

Intervalo ci ni ci  x ci  x 3

0‐2 1 2 – 4,8 (– 4,8)3 = – 110,592


3‐5 4 6 – 1,8 (– 1,8)3 = – 5,832
6‐8 7 10 1,2 (1,2)3 = 1,728
9‐11 10 2 4,2 (4,2)3 = 74,088
…/…
www.udima.es 155
ESTADÍSTICA DESCRIPTIVA

…/…

A continuación, multiplicamos cada uno de los valores obtenidos por su correspondiente frecuencia
absoluta:

Intervalo ci ni c i x ci  x 3 n  c  x 
i i
3

0‐2 1 2 – 4,8 – 110,592 2 × – 110,592 = – 221,184


3‐5 4 6 – 1,8 – 5,832 6 × – 5,832 = – 34,992
6‐8 7 10 1,2 1,728 10 × 1,728 = 17,28
9‐11 10 2 4,2 74,088 2 × 74,088 = 148,176

Finalmente, a partir de los valores ni  c i  x 3 obtenidos y teniendo en cuenta el valor de la desviación


estándar calculada anteriormente, el coeficiente de asimetría de Fisher se obtiene como sigue:
221,184  34,992  17,28  148,176
CA  g1   0,328125
20 2,43

El coeficiente de asimetría obtenido es negativo, lo que significa que la distribución es asimétrica hacia la
izquierda, es decir, tiene una concentración de valores mayor a la izquierda de la media que a la derecha.

2.2. MEDIDAS DE APUNTAMIENTO O CURTOSIS

Las medidas de apuntamiento o curtosis analizan la distribución de frecuencias de los datos mues-
trales estudiados en la zona media, es decir, si la mayor o menor concentración de los valores de la
variable estadística alrededor de la zona media dará lugar a una distribución más o menos puntiaguda.

Para poder determinar el apuntamiento de la distribución necesitamos establecer una distribución


tipo que nos sirva de referencia a la hora de realizar comparaciones. Esta distribución se conoce con el
nombre de distribución normal o curva de Gauss y representa muchos fenómenos de la naturaleza
(estatura, peso, etc.). Su forma es como la de una campana, campaniforme (por eso en muchas ocasio-
nes se nombra como campana de Gauss), en la que la ma-
yor parte de los valores se concentran alrededor de la media,
siendo muy pocos los valores que se encuentran a los dos
extremos de dicha media y distanciados de ella.

Gráficamente una distribución normal tiene la siguiente


forma:

156 www.udima.es
Análisis numérico de una variable medible (II):
M.ª J. Pérez Fructuoso principales medidas de dispersión y medidas de forma

Cuando tomamos como referencia la curva de la distribución normal decimos que una distribu-
ción es leptocúrtica si tiene un pico alto, es decir, si es más apuntada o puntiaguda que la distribución
normal y decimos que es platicúrtica si es aplastada, o menos apuntada que la distribución normal. La
distribución normal que no es ni muy puntiaguda ni muy aplastada se llama mesocúrtica.

Entonces, la medida de curtosis que vamos a desarrollar a continuación va a estudiar la deforma-


ción de una distribución en sentido vertical respecto a la distribución normal.

2.2.1. Coeficiente de apuntamiento o curtosis de Fisher

El coeficiente de apuntamiento (o curtosis) para un conjunto de datos muestrales cuya frecuencia


absoluta es unitaria, viene dado por la siguiente expresión:
 x  x 
n
i 4

CAp  g2  i1

n  s4

Si los valores de la muestra no tienen frecuencias absolutas unitarias, el coeficiente de apunta-


miento se obtiene como sigue:

n i i

n  x  x 
4
CAp  g2 
i1

n
s4

Finalmente, el coeficiente de apuntamiento para datos muestrales agrupados en intervalos resulta:


n i i

n  c  x 
4
CAp  g2 
i1

n
s4

Este coeficiente adimensional alcanza valores mayores cuanto más puntiaguda es la distribución,
teniendo un valor 3 para la distribución mesocúrtica (normal), mayor que 3 para la leptocúrtica y me-
nor que 3 para la platicúrtica.

La idea del apuntamiento de una distribución apareció comparando las frecuencias de los valores
centrales de la distribución analizada con la frecuencia de dichos valores en una distribución normal
con media y varianza iguales a las de la distribución con la que se comparaba. El coeficiente de apun-
tamiento (en cualquiera de sus tres versiones) para la distribución normal es igual a 3, por ello, para
www.udima.es 157
ESTADÍSTICA DESCRIPTIVA

poder establecer conclusiones acerca de las distribuciones analizadas comparándolas con la distribu-
ción normal, se define dicho coeficiente referenciado a dicha distribución como:
n n n

 x x
4
 ni  x x
4
 n  c
i x
4

i i
i
CAp  g2  i1
 3 , CAp  g 2  i1
 3 o bien CAp  g 2  i1 3
n  s4 ns ns4
4

De esta forma, si el CAp referido a la curva normal es positivo ( g2  0 ), la distribución será lep-
tocúrtica, si es negativo ( g2  0 ) será platicúrtica y si es 0 ( g2  0 ) será la distribución normal.

EJEMPLO 5

Calcula el coeficiente de apuntamiento o curtosis para la distribución de frecuencias analizada en el ejem‐ plo 4. Interpreta el resultado obtenido.

Solución:

Para determinar el coeficiente de apuntamiento o curtosis de los datos analizados debemos aplicar la si‐
guiente fórmula:

n  c  x 
m
4
ii
CAp  g2  i 1 3
ns4

a y la desviación típica, calculadas en el ejemplo 4, son 5,8 y 2,4, respectivamente.

rtir de las diferencias entre cada marca de clase y la media (obtenidas también en el ejem‐ plo 4 anterior) calculamos el valor de dichas diferencias eleva

Intervalo ci ni c i x c i  x 4
0‐2 1 2 –4,8 (–4,8)4 = 530,8416
3‐5 4 6 –1,8 (–1,8)4 = 10,4976
6‐8 7 10 1,2 (1,2)4 = 2,0736
9‐11 10 2 4,2 (4,2)4 = 311,1696

Multiplicamos cada valor obtenido por su correspondiente frecuencia absoluta,


Intervalo ci ni
4
c i x ci  x  n  c  x 
i i
4

0‐2 1 2 –4,8 530,8416 2 × 530,8416 = 1.061,6832


3‐5 4 6 –1,8 10,4976 6 × 10,4976 = 62,9856
6‐8 7 10 1,2 2,0736 10 × 2,0736 = 20,736
9‐11 10 2 4,2 311,1696 2 × 311,1696 = 622,3392

Finalmente, el coeficiente de apuntamiento resulta:


1.061,6832  62,9856  20,736  622,3392
CAp  g2   3  0,3359375
20  2,44

La distribución analizada es platicúrtica, es decir, tiene un pico más bajo que el de una distribución normal.
158 www.udima.es
Análisis numérico de una variable medible (II):
M.ª J. Pérez Fructuoso principales medidas de dispersión y medidas de forma

 CONCEPTOS BÁSICOS A RETENER

• Coeficiente de apuntamiento o curtosis de Fisher. Es una medida de forma, mide el


apuntamiento de la distribución tomando como referencia la distribución normal,
n n

  xi  x x  x 
4

 4

i
CAp  g2  i1
o bien CAp  g2  i1
 3.
ns n
4
s4
• Coeficiente de asimetría de Fisher. Mide la concentración de los valores de la distribu-
n

 x  x 
i
3

ción a la derecha o a la izquierda de la media, CAp  g1  i1 .


n  s3
• Coeficientes de asimetría (sesgo) de Pearson. Es un valor que indica la asimetría de la
distribución de los datos. Diferencia entre la media y la moda o la mediana dividida entre
la desviación típica.
• Coeficiente de variación. Medida de dispersión relativa que se define como el cociente
entre la desviación típica y la media aritmética (siempre que dicha media sea positiva).
• Cuasivarianza. Es un valor que se obtiene de manera similar a la varianza pero dividien-
do entre n −1 en lugar de n. Cuantifica la dispersión o variabilidad de la muestra.
• Desviación típica, tipo o estándar de un conjunto de valores o muestra. Medida de
dispersión que se obtiene como la raíz cuadrada positiva de la varianza muestral.
• Desviación típica, desviación tipo o desviación estándar de una población. Medida de
dispersión que se obtiene como la raíz cuadrada positiva de la varianza poblacional.
• Distribución leptocúrtica. Si tiene un pico alto, es decir, si es más apuntada que la dis-
tribución normal. Aquella distribución que presenta un elevado grado de concentración
alrededor de los valores centrales de la variable.
• Distribución mesocúrtica. Es la distribución normal.
• Distribución platicúrtica. Si es aplastada, o menos apuntada que la distribución normal.
Aquella distribución que presenta un reducido grado de concentración alrededor de los
valores centrales de la variable.
• Error absoluto medio (EAM). Error cometido cuando tomamos d como representante
1n
de la muestra, EAM d  n xi  d .
i1

• Error cuadrático medio (ECM). Error cometido al tomar el número real d como repre-
1n
sentante de la muestra, ECM d  n  x i  2 .
i1
d
• Medidas de apuntamiento o curtosis. Analizan la distribución de frecuencias de los da-
tos analizados en la zona media, de forma que miden si la mayor o menor concentración
de los valores de la variable analizada alrededor de la zona media dará lugar a una distri-
bución más o menos puntiaguda.
• Mediana de las desviaciones absolutas (meda). Medida de dispersión asociada a la me-
diana que permite expresar la variabilidad de las observaciones alrededor de este valor.
www.udima.es 159
ESTADÍSTICA DESCRIPTIVA

• Medidas de simetría. Indican el grado de concentración de los valores de la distribución


en torno a sus valores centrales, normalmente la media aritmética o la mediana.
• Sesgo. Grado de asimetría que presenta una distribución.
• Teorema de Chebyshov. En cualquier conjunto de observaciones (muestra o población),
la proporción de valores que se encuentran a k desviaciones estándares de la media es de
por lo menos 1– (1/k2), siendo k cualquier valor constante mayor que la unidad.
• Variable tipificada. Mide la desviación de la variable original respecto a la media en
unidades de la desviación típica.
• Varianza (muestral). Es una medida de dispersión de la información que se define como
la media aritmética de las desviaciones, elevadas al cuadrado, del conjunto de datos anali-
n

 x i x
2

zados, s  i1
n

 ACTIVIDADES DE AUTOCOMPROBACIÓN

A partir del contenido de la presente Unidad didáctica, se propone la realización de las siguientes
actividades de autocomprobación por parte del alumno, como ejercicio general de repaso y asimilación
de la información básica proporcionada por el texto.

Enunciado 1

Los valores del precio de cierre de una acción negociada en la Bolsa de Madrid durante 23 días de
un determinado mes han sido los siguientes:

17,4; 18,3; 17,4; 16; 18,7; 17; 19,1; 17,1; 17,6; 18,7; 17,9; 17,3;
17,6; 17,8; 17,9; 18,2; 19,3; 15,7; 16,6; 16,8; 16,9; 17,2; 17,1

Determina la varianza y la volatilidad del precio de la acción.

Enunciado 2
Km por litro Número de recorridos
En la siguiente tabla se muestra el rendimiento de
la gasolina, en km por litro, obtenido en una muestra de 24‐26 4
25 recorridos realizados por los vehículos de una 26‐28 2
empresa: 28‐30 3
30‐32 10
32‐34 5
34‐36 1
Determina la varianza, la desviación estándar y el
coeficiente de variación del rendimiento de la gasolina
para la muestra analizada.
160 www.udima.es
Análisis numérico de una variable medible (II):
M.ª J. Pérez Fructuoso principales medidas de dispersión y medidas de forma

Enunciado 3

En la siguiente tabla se muestran los datos de la cuantía individual de los siniestros pertenecientes
al ramo de responsabilidad civil de una determinada compañía de seguros, para el último año:

Cuantía Número de siniestros

0‐10.000 20
10.000‐20.000 30
20.000‐30.000 10
30.000‐40.000 8
40.000‐50.000 2

Determina la varianza de la cuantía de los siniestros, la desviación estándar, la cuasivarianza, la


cuasidesviación estándar y el coeficiente de variación.

Enunciado 4

Después de finalizar el segundo semestre del año, una agencia mayorista realiza una encuesta sobre
una muestra aleatoria de 25 clientes. Cada cliente evalúa los servicios de la agencia con un sistema de
calificación del 1 al 100, de forma que se obtienen los siguientes resultados agrupados en intervalos:

Calificación Número de clientes

0‐20 1
20‐40 5
40‐60 10
60‐80 7
80‐100 2

Determina el primer y segundo coeficiente de sesgo de Pearson.

Enunciado 5

En la siguiente tabla se presentan los diferentes niveles de renta (en €) de los empleados de tierra
de una determina línea área:

Renta Número de empleados

500‐1.000 50
1.000‐1.500 100
1.500‐2.000 200
2.000‐2.500 100
2.500‐3.000 50

Determina el coeficiente de asimetría de Fisher y el coeficiente de apuntamiento o curtosis de los


datos analizados. Interpreta los resultados obtenidos.

www.udima.es 161
ESTADÍSTICA DESCRIPTIVA

Solución 1

Para determinar la varianza del precio de la acción necesitamos en primer lugar construir la tabla
de frecuencias de la variable analizada,

xi ni fi

15,7 1 0,043478261
16 1 0,043478261
16,6 1 0,043478261
16,8 1 0,043478261
16,9 1 0,043478261
17 1 0,043478261
17,1 2 0,086956522
17,2 1 0,043478261
17,3 1 0,043478261
17,4 2 0,086956522
17,6 2 0,086956522
17,8 1 0,043478261
17,9 2 0,086956522
18,2 1 0,043478261
18,3 1 0,043478261
18,7 2 0,086956522
19,1 1 0,043478261
19,3 1 0,043478261

23

de donde deducimos que la fórmula a utilizar para realizar dicho cálculo será,
2 1   
2
 m
s xi x
n
o bien:  ni
i1

 f  x x
2
s 2
 i i
i 1

Entonces, a partir de la media calculada en el mismo ejercicio de la Unidad didáctica 3, cuyo va-
lor es,
23

x i
403,
6  17,5478261  17,5478
i1
x 
23
23
162 www.udima.es
Análisis numérico de una variable medible (II):
M.ª J. Pérez Fructuoso principales medidas de dispersión y medidas de forma

calculamos los valores asociados a restarle a cada dato la media obtenida:

xi ni fi xi  x

15,7 1 0,043478261 15,7 – 17,5478 = –1,8478


16 1 0,043478261 16 – 17,5478 = – 1,5478
16,6 1 0,043478261 16,6 – 17,5478 = – 0,9478
16,8 1 0,043478261 16,8 – 17,5478 = – 0,7478
16,9 1 0,043478261 16,9 – 17,5478 = – 0,6478
17 1 0,043478261 17 – 17,5478 = – 0,5478
17,1 2 0,086956522 17,1 – 17,5478 = – 0,4478
17,2 1 0,043478261 17,2 – 17,5478 = – 0,3478
17,3 1 0,043478261 17,3 – 17,5478 = – 0,2478
17,4 2 0,086956522 17,4 – 17,5478 = – 0,1478
17,6 2 0,086956522 17,6 – 17,5478 = 0,0522
17,8 1 0,043478261 17,8 – 17,5478 = 0,2522
17,9 2 0,086956522 17,9 – 17,5478 = 0,3522
18,2 1 0,043478261 18,2 – 17,5478 = 0,6522
18,3 1 0,043478261 18,3 – 17,5478 = 0,7522
18,7 2 0,086956522 18,7 – 17,5478 = 1,1522
19,1 1 0,043478261 19,1 – 17,5478 = 1,5522
19,3 1 0,043478261 19,3 – 17,5478 = 1,7522

Y a continuación elevamos estos valores al cuadrado:

xi ni fi xi  x x i  x 2

15,7 1 0,043478261 –1,8478 (–1,8478)2 = 3,41436484


16 1 0,043478261 –1,5478 (–1,5478)2 = 2,39568484
16,6 1 0,043478261 –0,9478 (–0,9478)2 = 0,89832484
16,8 1 0,043478261 –0,7478 (–0,7478)2 = 0,55920484
16,9 1 0,043478261 –0,6478 (–0,6478)2 = 0,41964484
17 1 0,043478261 –0,5478 (–0,5478)2 = 0,30008484
17,1 2 0,086956522 –0,4478 (–0,4478)2 = 0,20052484
17,2 1 0,043478261 –0,3478 (–0,3478)2 = 0,12096484
17,3 1 0,043478261 –0,2478 (–0,2478)2 = 0,06140484
17,4 2 0,086956522 –0,1478 (–0,1478)2 = 0,02184484
17,6 2 0,086956522 0,0522 (0,0522)2 = 0,00272484
17,8 1 0,043478261 0,2522 (0,2522)2 = 0,06360484
17,9 2 0,086956522 0,3522 (0,3522)2 = 0,12404484
18,2 1 0,043478261 0,6522 (0,6522)2 = 0,42536484
18,3 1 0,043478261 0,7522 (0,7522)2 = 0,56580484
18,7 2 0,086956522 1,1522 (1,1522)2 = 1,32756484
19,1 1 0,043478261 1,5522 (1,5522)2 = 2,40932484
19,3 1 0,043478261 1,7522 (1,7522)2 = 3,07020484

www.udima.es 163
ESTADÍSTICA DESCRIPTIVA

Seguidamente multiplicamos cada una de estas diferencias al cuadrado por su correspondiente fre-
cuencia relativa:
fi  xi  x 2
xi ni fi xi  x xi  x 2

15,7 1 0,043478261 –1,8478 3,41436484 0,043478261 × 3,41436484 =


0,148450645
16 1 0,043478261 –1,5478 2,39568484 0,043478261 × 2,39568484 = 0,10416021
16,6 1 0,043478261 –0,9478 0,89832484 0,043478261 × 0,89832484 =
0,039057602
16,8 1 0,043478261 –0,7478 0,55920484 0,043478261 × 0,55920484 =
0,024313254
16,9 1 0,043478261 –0,6478 0,41964484 0,043478261 × 0,41964484 =
0,018245428
17 1 0,043478261 –0,5478 0,30008484 0,043478261 × 0,30008484 =
0,013047167
17,1 2 0,086956522 –0,4478 0,20052484 0,086956522 × 0,20052484 =
0,017436943
17,2 1 0,043478261 –0,3478 0,12096484 0,043478261 × 0,12096484 =
0,005259341
17,3 1 0,043478261 –0,2478 0,06140484 0,043478261 × 0,06140484 =
0,002669776
17,4 2 0,086956522 –0,1478 0,02184484 0,086956522 × 0,02184484 =
0,001899551
17,6 2 0,086956522 0,0522 0,00272484 0,086956522 × 0,00272484 =
0,000236943

Finalmente, la varianza se obtiene sumando los valores f i  xi  obtenidos en la última co-
x
2
lumna de la tabla:

f
23
s2   17,5478  0,78510397
2
i
i
1
xi
La volatilidad del precio de la acción es la raíz cuadrada positiva de la varianza, esto es la desvia-
ción típica:
s   s 2   0,78510397  0,886060929

Solución 2

Como la muestra analizada en este ejercicio se presenta agrupada en intervalos, utilizamos la marca
de clase o punto medio del intervalo para representar a todos los valores que caen dentro de un intervalo
de clase dado.
Km por litro ni ci fi
A continuación se presenta una tabla con los cálcu-
los de la marca de clase, las frecuencias absolutas y las 24‐26 4 25 0,16
frecuencias relativas de los datos del enunciado: 26‐28 2 27 0,08
28‐30 3 29 0,12
30‐32 10 31 0,4
32‐34 5 33 0,2
34‐36 1 35 0,04
25
164 www.udima.es
Análisis numérico de una variable medible (II):
M.ª J. Pérez Fructuoso principales medidas de dispersión y medidas de forma

Para calcular la varianza en este caso, debemos aplicar la siguiente fórmula,


2 1   2    
2
 m m
s
n
 i1
ni ci 
f i
ci x
x i1

donde ci es la marca de clase de cada intervalo y x es la media, cuyo valor ya ha sido calculado en el
mismo ejercicio de la Unidad didáctica anterior,
m m
1
x
n
n i  ci  f i  ci  30,04
i1 i1

Entonces, obtenemos la diferencia entre cada marca de clase y la media:

Km por litro ni ci fi ci  x

24‐26 4 25 0,16 25 – 30,04 = –5,04


26‐28 2 27 0,08 27 – 30,04 = –3,04
28‐30 3 29 0,12 29 – 30,04 = –1,04
30‐32 10 31 0,4 31 – 30,04 = 0,96
32‐34 5 33 0,2 33 – 30,04 = 2,96
34‐36 1 35 0,04 35 – 30,04 = 4,96
25

Elevamos dicha diferencia al cuadrado:

Km por litro ni ci fi ci  x ci  x 2

24‐26 4 25 0,16 –5,04 (–5,04)2 = 25,4016


26‐28 2 27 0,08 –3,04 (–3,04)2 = 9,2416
28‐30 3 29 0,12 –1,04 (–1,04)2 = 1,0816
30‐32 10 31 0,4 0,96 (0,96)2 = 0,9216
32‐34 5 33 0,2 2,96 (2,96)2 = 8,7616
34‐36 1 35 0,04 4,96 (4,96)2 = 24,6016

25

Multiplicamos los valores


x por su correspondiente frecuencia relativa:
ci  2

fi  ci  x 
Km por litro ni ci fi ci  x ci  x 2 2

24‐26 4 25 0,16 –5,04 25,4016 0,16 × 25,4016 = 4,064256


26‐28 2 27 0,08 –3,04 9,2416 0,08 × 9,2416 = 0,739328
28‐30 3 29 0,12 –1,04 1,0816 0,12 × 1,0816 = 0,129792
30‐32 10 31 0,4 0,96 0,9216 0,4 × 0,9216 = 0,36864
32‐34 5 33 0,2 2,96 8,7616 0,2 × 8,7616 = 1,75232
34‐36 1 35 0,04 4,96 24,6016 0,04 × 24,6016 = 0,984064

25
www.udima.es 165
ESTADÍSTICA DESCRIPTIVA

Y finalmente, la varianza se obtiene sumando los valores de f i  c  obtenidos en la última


i
columna: x
2

 f  c  30,04  8,0384
2
s2  i i
i1

La desviación estándar se calcula como la raíz cuadrada positiva de la varianza, esto es:

s   s 2  8,0384  2,83520722

Con estos valores que acabamos de obtener, el coeficiente de variación, definido como el cociente
entre la desviación estándar y la media, resulta:
s 2,83520722
CV    0,09438107
x 30,04

o 9,438107%. Este valor, al ser menor que la unidad y menor que 0,5, indica que la media es una me-
dida representativa de la muestra analizada.

Solución 3

Como la cuantía individual de los siniestros se presenta agrupada en intervalos, para calcular la
varianza en este caso debemos aplicar la siguiente fórmula,
2 1     m
2
  
2
 m
s
n i1

n i ci fi ci x 
x i1

donde el valor de la variable se sustituye por la marca de clase o punto medio del intervalo para repre-
sentar a todos los valores que caen dentro del mismo,

Cuantía ni Marca de clase, ci

0‐10.000 20 5.000
10.000‐20.000 30 15.000
20.000‐30.000 10 25.000
30.000‐40.000 8 35.000
40.000‐50.000 2 45.000

70

y, como vimos en el mismo ejercicio de la Unidad didáctica anterior, la cuantía media de los sinies-
tros es:
1
 n  c  f  c
m m
x i i i i  16.714, 2857  16.714, 29
n
i1 i1
166 www.udima.es
Análisis numérico de una variable medible (II):
M.ª J. Pérez Fructuoso principales medidas de dispersión y medidas de forma

Entonces, obtenemos la diferencia entre cada marca de clase y la media:

Cuantía ni ci ci  x

0‐10.000 20 5.000 5.000 – 16.714,29 = –11.714,29


10.000‐20.000 30 15.000 15.000 – 16.714,29 = –1.714,29
20.000‐30.000 10 25.000 25.000 – 16.714,29 = 8.285,71
30.000‐40.000 8 35.000 35.000 – 16.714,29 = 18.285,71
40.000‐50.000 2 45.000 45.000 – 16.714,29 = 28.285,71

70

A continuación elevamos las diferencias obtenidas al cuadrado:

Cuantía ni ci ci  x ci  x 2

0‐10.000 20 5.000 –11.714,29 (–11.714,29)2 = 137.224.590


10.000‐20.000 30 15.000 –1.714,29 (–1.714,29)2 = 2.938.790,2
2
20.000‐30.000 10 25.000 8.285,71 (8.285,71) = 68.652.990,2
30.000‐40.000 8 35.000 18.285,71 (18.285,71)2 = 334.367.190
40.000‐50.000 2 45.000 28.285,71 (28.285,71)2 = 800.081.390

70

Calculamos las frecuencias relativas:

Cuantía ni ci ci  x ci  x 2 fi

0‐10.000 20 5.000 –11.714,29 137.224. 590 0,285714286


10.000‐20.000 30 15.000 –1.714,29 2.938.790,2 0,428571429
20.000‐30.000 10 25.000 8.285,71 68.652.990,2 0,142857143
30.000‐40.000 8 35.000 18.285,71 334.367.190 0,114285714
40.000‐50.000 2 45.000 28.285,71 800.081.390 0,028571429

70

y multiplicamos dichas frecuencias por los valores c i  x  obtenidos en el paso anterior,


2

Cuantía ni ci ci  x ci  x 2 fi fi  ci  x 


2

0‐10.000 20 5.000 –11.714,29 137.224.590 0,285714286 0,285714286 × 137.224.590 = 39.207.025,77


10.000‐20.000 30 15.000 –1.714,29 2.938.790,2 0,428571429 0,428571429 × 2.938.790,2 = 1.259.481,516
20.000‐30.000 10 25.000 8.285,71 68.652.990,2 0,142857143 0,142857143 × 68.652.990,2 = 9.807.570,029
30.000‐40.000 8 35.000 18.285,71 334.367.190 0,114285714 0,114285714 × 334.367.190 = 38.213.393,17
40.000‐50.000 2 45.000 28.285,71 800.081.390 0,028571429 0,028571429 × 800.081.390 =22.859.468,29

70

www.udima.es 167
ESTADÍSTICA DESCRIPTIVA

La varianza es la suma de los valores obtenidos en esta última columna:


5

 f  c 16.714,29  111.346.938,8
2
s 2
 i i
i1

La desviación típica es la raíz cuadrada positiva de la varianza, esto es:

s   s 2  111.346.938,8 10.552,10589

Para calcular la cuasivarianza, debemos aplicar la siguiente fórmula,


2 1   
2
 m
sn1 n ci x 
n i
i1
y por tanto: 1
2 5
2 1 20 137.224.590  30 2.938.790,2 10  68.652.990,2 
1
s701 
x 
70 1 i1
ni  c i  
 
69  8  334.367.190  2  
7.794.285.714 800.081.390
  112.960.662,5259
69

La cuasidesviación típica es la raíz cuadrada positiva de la cuasivarianza, esto es:

s701   s2  2.960.662,5259 10.628,29537


701

Finalmente, el coeficiente de variación utlizando la desviación típica es,


10.552,10589
CV   0,631322575
16.714,2857

y utilizando la cuasidesviación típica resulta,


10.628,29537
CV   0,63588092
16.714,2857

cuyo valor, al ser en ambos casos superior a 0,5, indica que la media tiene una baja representatividad.

Solución 4

Los coeficientes de sesgo de Pearson se definen como,


x  Moda
Sesgo 
s
3  x 
Sesgo 
Mediana
s
168 www.udima.es
Análisis numérico de una variable medible (II):
M.ª J. Pérez Fructuoso principales medidas de dispersión y medidas de forma

Por tanto, para calcularlos necesitamos conocer la media, la moda, la mediana y la desviación
estándar de los datos.

Como dichos datos vienen agrupados en intervalos, para calcular la media necesitamos obtener la
marca de clase de cada intervalo,

Calificación ni ci

20  0
0‐20 1
2  10
20  40
20‐40 5  30
2
40  60
40‐60 10  50
2
60  80
60‐80 7  70
2
80  100
80‐100 2  90
2

de forma que la media aritmética se puede calcular fácilmente aplicando la siguiente fórmula:

15
x ci  ni  110  5 30 10 50  7  70  2 
n i1  53,2
90
 25

Para obtener la desviación estándar debemos calcular primero la varianza como sigue,
1 10  53,2 1  30  53,2  5  50  53,2 10  
5 2 2 2
1

n n
2 c  x  2
 i
  
 i1
i
25   70  53,22  7  90  53,22  2 
 
9.344
  373,76
25

siendo la desviación estándar su raíz cuadrada positiva, y por tanto:

   373,76  19,3328736

Como los datos de la muestra están agrupados en intervalos para determinar la mediana de la dis-
tribución debemos calcular las frecuencias absolutas acumuladas,

Calificación ni ci Ni

0‐20 1 10 1
20‐40 5 30 1+5=6
40‐60 10 50 1 + 5 + 10 = 16
60‐80 7 70 1 + 5 + 10 + 7 = 23
80‐100 2 90 1 + 5 + 10 + 7 + 2 = 25

25
y el valor de la mitad de los datos,  12,5. Entonces, como no existe ningún valor de la frecuencia
2
absoluta acumulada Ni que sea igual al número de términos de la muestra partido por 2, la mediana se
www.udima.es 169
ESTADÍSTICA DESCRIPTIVA

encontrará en el primer intervalo cuyo valor de frecuencia absoluta acumulada supere a 12,5, en nues-
tro caso 40-60, y su valor será ci de dicho intervalo, en nuestro caso 50, o bien el valor que resulte de
aplicar la siguiente fórmula:
n
N
i1 12,5  6
Mediana  Li1  2  a  40   20  53
i
10
ni

Finalmente, como todos los intervalos tienen la misma amplitud, la moda se encontrará en el in-
tervalo que presenta mayor frecuencia absoluta, en nuestro caso 40-60, y su valor puede ser la marca
de clase del intervalo, 50, o bien puede determinarse aplicando la siguiente fórmula:

Moda  Li1 
ni1 7
n  a  40 5   20  51,667
i  7
i1 i1

Con todos estos valores calculados, el primer y segundo coeficiente de sesgo de Pearson son:

x  Moda 53,2  51,667


Sesgo    0,07931223
s 19,3328736

o bien:
x  Moda
Sesgo   53,2  50  0,16552118
s 19,3328736

3  x  Mediana  3  53,2  53


Sesgo  s  19,3328736  0,03203522

o bien:

3  x  Mediana  3  53,2  50


Sesgo  s  19,3328736  0,49656353

Entonces, como los dos coeficientes de sesgo de Pearson son positivos, podemos concluir que la
distribución de las calificaciones realizadas por los 25 clientes analizados de la empresa mayorista es
asimétrica hacia la derecha.

Solución 5

Para los datos analizados, al encontrarse agrupados en intervalos, los coeficientes de asimetría de
Fisher y de apuntamiento o curtosis se definen respectivamente como:

 m i
m i i
i

n  c s x  n  c
3
CA  g1 
i1 3
y CAp  i1

n g2  n  s4
x
4
3

170 www.udima.es
Análisis numérico de una variable medible (II):
M.ª J. Pérez Fructuoso principales medidas de dispersión y medidas de forma

Por tanto, determinamos en primer lugar la marca de clase:

Renta ni ci

500‐1.000 50 1.000  500


 750
2
1.000‐1.500 100 1.500  1.000
 1.250
2
1.500‐2.000 200 2.000  1.500
 1.750
2
2.000‐2.500 100 2.500  2.000
 2.250
2
2.500‐3.000 50 3.000  2.500
 2.750
2
500

A partir de estos datos, obtenemos la media aritmética de la distribución aplicando la siguiente


fórmula: 1
 m  1
           
xn c
ni i 500
750 50 1.250 100 1.750 200 2.250 100 2.750 50
i1

875.000
 500  1.750

Con la media aritmética calculada, estamos ya en condiciones de obtener la diferencia entre cada
marca de clase y dicho valor:

Renta ni ci ci  x

500‐1.000 50 750 750 – 1.750 = – 1.000


1.000‐1.500 100 1.250 1.250 – 1.750 = – 500
1.500‐2.000 200 1.750 1.750 – 1.750 = 0
2.000‐2.500 100 2.250 2.250 – 1.750 = 500
2.500‐3.000 50 2.750 2.750 – 1.750 = 1.000

500

A continuación, elevamos esta diferencia obtenida al cuadrado,

c  x
2
Renta ni ci ci  x

500‐1.000 50 750 –1.000 (–1.000)2 = 1.000.000


1.000‐1.500 100 1.250 –500 (–500)2 = 250.000
1.500‐2.000 200 1.750 0 (0)2 = 0
2.000‐2.500 100 2.250 500 2
(500) = 250.000
2.500‐3.000 50 2.750 1.000 (1.000)2 = 1.000.000
500
www.udima.es 171
ESTADÍSTICA DESCRIPTIVA

para determinar la varianza aplicando la siguiente fórmula:


1
s2 m
x n 
2

c i
n i1 i

1
500  1.000.000 50  250.000 100  0  200  250.000 100  1.000.000  50

150.000.000
 500  300.000

La desviación estándar es la raíz cuadrada positiva del valor de la varianza:

s   300.000  547,72256

Para determinar el coeficiente de asimetría de Fisher necesitamos elevar los valores c i  al cubo,
x

Renta ni ci ci  x c 
x
3

500‐1.000 50 750 –1.000 (–1.000)3 = –1.000.000.000


1.000‐1.500 100 1.250 –500 (–500)3 = –125.000.000
1.500‐2.000 200 1.750 0 (0)3 = 0
2.000‐2.500 100 2.250 500 (500) = 3
125.000.000
2.500‐3.000 50 2.750 1.000 3
(1.000) = 1.000.000.000
500

de forma que el coeficiente de asimetría se obtiene como sigue:


m
3

i1
ni   c i  x 
CA  g1  
n  s3
1 1.000.000.000  50  125.000.000 100  0  200 
    
500  547,72256   125.000.000 100  1.000.000.000  50
3

0 0
 500  547,722563

El valor obtenido para el coeficiente de asimetría de Fisher indica que la distribución es simétrica
respecto a la media, puesto que dicho coeficiente vale 0. Ello implica que se acumula el mismo núme-
ro de valores a la derecha y a la izquierda del valor central.
Para obtener el coeficiente de apuntamiento, elevamos a la cuarta las diferencias entre la marca de
clase y la media,

Renta ni ci ci  x c i  x 4
500‐1.000 50 750 –1.000 (–1.000)4 = 1.000.000.000.000
1.000‐1.500 100 1.250 –500 (–500)4 = 62.500.000.000
1.500‐2.000 200 1.750 0 (0)4 = 0
2.000‐2.500 100 2.250 500 4
(500) = 62.500.000.000
2.500‐3.000 50 2.750 1.000 4
(1.000) = 1.000.000.000.000
500
172 www.udima.es
Análisis numérico de una variable medible (II):
M.ª J. Pérez Fructuoso principales medidas de dispersión y medidas de forma

y aplicamos la siguiente fórmula:


m

 n  c x
4
i i
i1
CAp  g2  3
ns4
1 1.000.000.000.000  50  62.500.000.000 100  0  200 
   3
500    62.500.000.000 100  1.000.000.000.000  50 
547,722564
 2,5  3  0,5

El coeficiente de apuntamiento es negativo, lo que implica que la distribución analizada es lige-


ramente más aplastada que la distribución normal, es decir, es una distribución platicúrtica.

 ACTIVIDADES DE REPASO

Enunciado 1

En un mes determinado una central de energía nuclear del norte de Francia registró los siguientes
accidentes menores en los 13 departamentos que la componen:

2, 0, 0, 3, 3, 12, 1, 0, 8, 1, 0, 5, 1

Determina la varianza del número de accidentes de la central y la desviación estándar.

Enunciado 2

En la siguiente tabla se muestra la calificación obtenida por un conjunto de estudiantes en una


prueba tipo test cuya puntación mínima es 1 y la máxima 21:

xi ni

1‐3 4
4‐6 5
7‐9 6
10‐12 8
13‐15 7
16‐18 4
19‐21 2

Determina la varianza, la desviación típica y el coeficiente de variación de los datos de califica-


ciones obtenidas por los estudiantes.
www.udima.es 173
ESTADÍSTICA DESCRIPTIVA

Enunciado 3

El Consorcio de Compensación de Seguros dispone de los siguientes datos sobre las reclamacio-
nes de los ciudadanos en conceptos de daños por inundaciones durante el último año:

Daños por inundación Número de reclamaciones

0‐6.000 10
6.000‐12.000 90
12.000‐18.000 66
18.000‐24.000 20
24.000‐30.000 10
30.000‐60.000 4

Determina la varianza, la desviación típica, la cuasivarianza, la cuasidesviación típica y el coefi-


ciente de variación de los daños provocados por las inundaciones.

Enunciado 4

A continuación se presenta el número de embarcaciones de ocio que vendieron 10 agentes comer-


ciales en diferentes zonas costeras españolas durante el último verano:

10, 12, 12, 2, 4, 10, 10, 7, 14, 15

Determina la desviación estándar en la venta de este tipo de artículos de lujo, el coeficiente de va-
riación y el coeficiente de asimetría de Fisher. Interpreta los resultados obtenidos.

Enunciado 5

En la tabla a continuación se muestra la distribución por edades de los alumnos de una escuela de
barrio de educación primaria:

Intervalo de edades Número de alumnos

1‐3 15
4‐6 20
7‐9 10
10‐12 5

Determina el coeficiente de asimetría de Fisher y el coeficiente de apuntamiento de los grupos de


edades de los alumnos analizados. Interpreta la forma de la distribución a partir de los resultados obte-
nidos para estos dos coeficientes.

174 www.udima.es
Análisis numérico de una variable medible (II):
M.ª J. Pérez Fructuoso principales medidas de dispersión y medidas de forma

Solución 1

• Varianza del número de accidentes: 12,1775148


• Desviación estándar del número de accidentes: 3,48962961

Solución 2

• Varianza: 25,40972222
• Desviación típica: 5,040805712
• Coeficiente de variación: 0,48391735

Solución 3

• Varianza: 49.950.000
• Desviación típica: 7.067,531394
• Cuasivarianza: 50.201.005,03
• Cuasidesviación típica: 7.085,266758
• Coeficiente de variación (calculado con la desviación estándar): 0,52352084
• Coeficiente de variación (calculado con la cuasidesviación estándar): 0,52483457

Solución 4

• Desviación estándar: 3,954743987


• Coeficiente de variación: 0,411952499. La media es un valor suficientemente representa-
tivo de los valores de la distribución.
• Coeficiente de asimetría de Fisher: – 0,58474884. La distribución de ventas tiene un ses-
go negativo, es decir, es asimétrica a la izquierda.

Solución 5

• Coeficiente de asimetría: 0,51451582


• Coeficiente de apuntamiento: – 0,63451584
• La distribución es asimétrica a la derecha y platicúrtica.

www.udima.es 175
ESTADÍSTICA DESCRIPTIVA

 TEST DE AUTOEVALUACIÓN

1. Los siguientes datos hacen referencia al número de exámenes realizados en un curso


académico por una muestra de estudiantes universitarios pertenecientes a la Facultad de
Ciencias Jurídicas, Sociales y Humanidades de la UDIMA:

4, 7, 5, 2, 4, 5, 6, 4, 7, 3, 7, 4, 3, 4, 4, 3, 4, 3, 2, 4, 4, 1, 10, 2, 5, 3,
2, 2, 5, 3, 3, 8, 12, 3, 2, 2, 5, 4, 1, 5, 8, 6, 6, 1, 3, 15, 16, 6, 7, 12

La varianza de estos datos es:

a) 4,94
b) 10,78
c) 3,282
d) 0,6645

2. La tasa de incremento de los precios al consumo durante el último año, en 24 países, ha


sido la recogida en la siguiente tabla:

P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 P11 P12

2,2 7,6 5,1 5,3 3,2 5,8 2,9 20,1 16,3 4,6 15,9 2,3

P13 P14 P15 P16 P17 P18 P19 P20 P21 P22 P23 P24

5,9 5,5 4,1 3,2 1,7 40,5 7,4 3,4 9,1 32,7 6,7 3,9

La volatilidad de la tasa de incremento de los precios al consumo en los 24 países anali-


zados es:

a) 91,604
b) 9,571
c) 8,975
d) 1,066

3. El importe de las facturas de una empresa del sector aeroespacial se recoge en la siguiente
tabla de frecuencias:

Importe Número de facturas

0‐50.000 81
50.000‐100.000 13
…/…

176 www.udima.es
Análisis numérico de una variable medible (II):
M.ª J. Pérez Fructuoso principales medidas de dispersión y medidas de forma

Importe Número de facturas

…/…
100.000‐200.000 10
200.000‐500.000 13
500.000‐700.000 8

La desviación estándar existente en el importe de las facturas de la empresa es:

a) 2.453.705.600
b) 110.800
c) 162.152,2741
d) 22.145,36

4. El coeficiente de variación asociado a los datos del enunciado anterior es:

a) 162.152,27
b) 68,33%
c) 1,463468178
d) 0,000004214

5. La siguiente tabla muestra la distribución del importe de las compras realizadas por una
cadena hotelera a sus diversos proveedores:

Importe compras Cantidad de empresas

0‐100.000 20
100.000‐150.000 40
150.000‐210.000 42
210.000‐500.000 28

¿Cuál de las siguientes afirmaciones que se exponen a continuación es cierta?

a) La distribución es simétrica porque tiene un coeficiente de asimetría de Fisher muy


cercano a 0.
b) La distribución es asimétrica a la derecha porque el coeficiente de asimetría de Fis-
her vale aproximadamente 0,73.
c) La distribución es asimétrica a la izquierda porque el coeficiente de asimetría de
Fisher vale aproximadamente 0,73.
d) No podemos medir la asimetría de la distribución del importe de las compras reali-
zadas por la cadena hotelera con los datos que proporciona el enunciado.

www.udima.es 177
ESTADÍSTICA DESCRIPTIVA

6. Dada la siguiente distribución de datos agrupados en intervalos:

Intervalo ni

3‐6 37
6‐11 198
11‐16 191
16‐21 149
21‐26 79
26‐31 46
31‐41 55
41‐51 51
51‐76 26
76‐101 25
101‐201 25
201‐501 11
501‐1.000 2

la cuasidesviación típica es:


a) 30,93
b) 3.192,68305
c) 56,50383197
d) 56,53542483

7. Una multinacional europea tiene dos oficinas en Estados Unidos, una en Nueva York y
otra en Los Ángeles. Un estudio realizado sobre los salarios brutos anuales (en miles de €)
de los directivos de cada oficina permite extraer los resultados que se muestran en la
siguiente tabla:

Oficina Nueva York Oficina Los Ángeles

Salario ni Salario ni

50‐100 22 50‐100 20
100‐150 53 100‐150 50
150‐200 20 150‐200 15
200‐300 15 200‐300 10
300‐400 7 300‐400 5
400‐500 3 400‐500 0

Los coeficientes de variación de las oficinas de Nueva York y Los Ángeles respectiva-
mente son:

a) 0,524 y 0,459
b) 84,398 y 67,210
c) 161,041 y 146,25
d) 1,9081 y 2,1760

178 www.udima.es
Análisis numérico de una variable medible (II):
M.ª J. Pérez Fructuoso principales medidas de dispersión y medidas de forma

8. Para analizar los resultados de la plantación de una serie de cultivos en una determinada
zona de secano, el sindicato de agricultores de la zona realiza la siguiente tabla, en la que
se recoge el número de años que se necesitaron para recolectar el número de kilos óptimo
de producto cosechado:

Número de años Número de kilos

4 65
5 142
6 138
7 100
8 25

El coeficiente de apuntamiento o curtosis de esta distribución es:


a) 0,1438
b) –0,1438
c) 0,7703398
d) –0,7703398

9. Utilizando los datos del enunciado anterior, establece cuál de las siguientes afirmaciones
es cierta:
a) La distribución de datos analizada es asimétrica a la izquierda puesto que el coefi-
ciente de asimetría de Fisher es negativo.
b) La distribución de datos analizada es leptocúrtica porque el coeficiente de asimetría
de Fisher es positivo.
c) La distribución de datos analizada es asimétrica a la derecha porque el coeficiente
de apuntamiento o curtosis es positivo.
d) La distribución de datos analizada es platicúrtica porque el coeficiente de apunta-
miento o curtosis es negativo.

10. En una muestra de 15 individuos asiduos a una determinada cafetería cercana a su lugar
de trabajo se observaron los siguientes importes de las consumiciones (en €), ordenadas
de forma creciente:

0,10; 0,10; 0,25; 0,25; 0,25; 0,35; 0,40; 0,53; 0,90; 1,25; 1,35; 2,45; 2,71; 3,09; 4,10

El segundo coeficiente de sesgo de Pearson vale:


a) 1,328
b) 1,0436
c) 1,64049
d) 0,7735

www.udima.es 179
ESTADÍSTICA DESCRIPTIVA

SOLUCIONES DEL TEST DE AUTOEVALUACIÓN

Pregunta Respuesta correcta

1 b)

2 b)

3 c)

4 c)

5 b)

6 d)

7 a)

8 d)

9 d)

10 c)

 REFERENCIAS BIBLIOGRÁFICAS

DURÁ PEIRÓ, J.M. y LÓPEZ CUÑAT, J.: Fundamentos de estadística. Estadística descriptiva y modelos probabilísticos
para la inferencia, Barcelona: Ariel Economía, 1988.

KAZMAIER, L.J.: Estadística aplicada a administración y economía, Madrid: McGraw-Hill Interamericana, 2006.

LIND, D.A.; MARCHAL, W.G. y WATHEN, S.A.: Estadística aplicada a los negocios y la economía, Madrid: McGraw-
Hill Interamericana, 2008.

NEWBOLD, P; CARLSON, W.L. y THORNE, B.: Estadística para administración y economía, New Jersey: Pearson Pren-
tice Hall, 2008.

PEÑA SÁNCHEZ DE RIVERA, D.: Estadística. Modelos y métodos. 1. Fundamentos, Madrid: Alianza Editorial. Alianza
Universidad Textos, 1989.

PEÑA, D. y ROMO, J.: Introducción a la estadística para las ciencias sociales, Madrid: McGraw-Hill, 1997.

SPIEGEL, M.R.: Estadística, Madrid: McGraw-Hill, 1991.

WONNACOTT, T.H. y WONNACOTT, R.J.: Introducción a la estadística, México: Limusa SA. Grupo Noriega Editores,
1999.

180 www.udima.es

También podría gustarte