Módulo 3

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 32

Mdulo III

Medidas de Dispersin o de Variacin

Uso de Probabilidades para el Anlisis y la Gestin 1


ndice

Mdulo III: Medidas de Dispersin o de Variacin

9.1. Medidas de Dispersin . 3


9.1.1. El rango o recorrido de una variable. 3
9.1.2. El rango intercuartil.. 4
9.2.1. Clculo de la varianza con frecuencia relativa. 9
9.3. Clculo de la varianza y la desviacin estndar. 17

Uso de Probabilidades para el Anlisis y la Gestin 2


Medidas de Dispersin o de variacin

9.1 Medidas de Dispersin.- Las descripciones ms comprensivas de la


dispersin son aquellas que tratan con la desviacin promedio con respecto a
alguna medida de tendencia central. Dos de tales medidas son importantes para
nuestro estudio de la estadstica: la varianza y la desviacin estndar. Ambas
medidas nos dan una distancia promedio de cualquier observacin del conjunto de
datos con respecto a la media de la distribucin.

Las medidas de dispersin o variabilidad son nmeros reales que miden el grado o
nivel de separacin de los datos con respecto a un valor central, que generalmente
es la media aritmtica. Las principales medidas de dispersin son:

El rango,
El rango intercuartil,
La varianza,
La desviacin estndar, y
El coeficiente de variacin.

9.1.1 El rango o recorrido de una variable

Definicin. El rango de variacin o recorrido, denotado por R es el nmero que


resulta de la diferencia del valor mximo (xmax) menos el valor mnimo (xmin) de una
serie de datos observados de variable X. Esto es:

R = xmax - xmin

El rango de los datos es una medida de dispersin muy fcilmente calculable, pero
es muy inestable, ya que depende nicamente de los dos valores extremos de los
datos. Su valor puede cambiar grandemente s se aade o elimina un slo dato.
Por tanto, su uso es muy limitado. Por ejemplo, las dos series de datos:

a) 1, 4, 4, 5, 5, 5, 5, 6, 6, 9
b) 1, 2, 3, 4, 5, 6, 7, 8, 9

Uso de Probabilidades para el Anlisis y la Gestin 3


tienen ambas la misma media 5, y el mismo rango 8. Pero, las dos series no tienen
la misma dispersin, ya que la segunda tiene mayor variabilidad.

El empleo del rango como medida de comparacin de variacin puede estar


justificado cuando se precise rpidamente de una medida de dispersin y no haya
tiempo de calcular algunas de las otras.

9.1.2 El rango intercuartil

Definicin. El rango intercuartil, denotado por RI, es el nmero que resulta de la


diferencia del cuartil 3 menos el cuartil 1 de los datos. Esto es:

RI = Q3 Q1

El rango intercuartil es una medida que excluye el 25% superior (cuarto superior) y
el 25% inferior (cuarto inferior), dando un rango dentro del cual se encuentra el
50% central de los datos observados y a diferencia del rango de los datos no se
encuentra afectada por los valores extremos.

Si el rango intercuartil es muy pequeo entonces describe alta uniformidad o


pequea variabilidad de los valores centrales.

Por ejemplo, en la distribucin de frecuencias de los 45 salarios quincenales se


obtuvo los cuartiles Q1= 53.4$, y Q3 = 66.75$, entonces, el rango intercuartil
es: RI = Q3 Q1 =13.35$. Por lo que podemos concluir que el 50% de los 45
salarios vara en el rango de 13.35$.

El rango semiintercuartil denotado por RSI, es igual al rango intercuartil dividido por
2.
Si la distribucin de frecuencias de los datos es simtrica, entonces, los cuartiles
Q1 y Q3 son equidistantes de la mediana Q2. En este caso, el rango intercuartil es
equivalente a Q2 RSI. Por lo tanto, Q2 RSI contiene tambin exactamente el
50% de los datos.
Si la distribucin es casi simtrica, se concluye que el intervalo: mediana RSI
contiene aproximadamente el 50% de los datos.

Uso de Probabilidades para el Anlisis y la Gestin 4


Por ejemplo, si en una distribucin de frecuencias simtrica de 100 datos
observados se obtiene Q1-62, Q2 = 66, entonces Q3 =70, por lo tanto, el 50% de los
datos se hallan comprendidos en el intervalo 664.

NOTA. Si la distribucin de frecuencias tiene marcada asimetra, el rango


intercuartil es preferible a la desviacin estndar como medida de dispersin.
Por otro lado, el rango intercuartil se aplica a variables medidas en escala por lo
menos ordinal

9.1.3 La varianza y la desviacin estndar

La varianza, es una medida que, en promedio, cuantifica el nivel de dispersin o de


variabilidad de los valores de una variable cuantitativa con respecto a su media
aritmtica. Si los datos tienden a concentrarse alrededor de su media, la varianza
ser pequea. Si los valores tienden a distribuirse lejos de su media, la varianza
ser grande.

9.1.3.1 La varianza

Definicin. La varianza se define como la media aritmtica de los cuadrados de


las diferencias de los datos con respecto a su media aritmtica.

La varianza entendida como una media cuadrtica calculada de una muestra ser
denotada por 2 y si es calculada de una poblacin se denotar por 2. Los
mtodos de clculo las dos varianzas son idnticos, por esto, el mtodo es
conocido como mtodo de poblacin (ver nota sobre varianza poblacional).

La varianza es una medida de dispersin que genera unidades de medicin al


cuadrado, por ejemplo, $2, Km2, etc.

Uso de Probabilidades para el Anlisis y la Gestin 5


9.3.1.2 La desviacin estndar

Definicin. La desviacin estndar es la raz cuadrada positiva de la varianza. La


desviacin estndar definida como la raz cuadrada de la media cuadrtica de una
muestra se denotar por sn.

Esto es:

= 2

Clculo de la varianza
1) Varianza de datos no agrupados
La varianza de n mediciones x1, x2, xn de alguna variable cuantitativa X cuya
media es , es el nmero real.


=1(1 )
2
2 = =

Se comprueba que: =1(1 )2 = =1 12 2

Por lo tanto:

2
=1 1
2 = 2

Ejemplo 1

Calcule la varianza y la desviacin estndar de los 45 salarios quincenales sin


agrupar del Cuadro 3.2

Solucin

2670
n= 45 , =1 = 26705, = = 59.333, =1 12 = 1643052
45

Luego, la varianza de los 45 salarios sin agrupar es el nmero:

2
=1 1 164530
2 = 2 = (59.333)2 = 135.77852
45

Uso de Probabilidades para el Anlisis y la Gestin 6


Mientras, que la desviacin estndar es:

= 2 = 135.778 = 11.625

Observe que la varianza est en 2 mientras que la desviacin estndar est en $.

2) Varianza de datos agrupados

2a) Varianza de datos agrupados de variable discreta

Si n valores de una variable estadstica discreta X se clasifican en k valores


distintos x1, x2,...,xk con frecuencias absolutas respectivas f1, f2,...,fk, entonces la
suma total de los cuadrados de diferencias de los valores de X con respecto
a la media est dada por: (x1- )2 x f1 +... + (x1- )2 xfk y su varianza es el
nmero:


=1 1 (1 )
2
2 = =

Se comprueba que: =1 1 (1 )2= =1 1 1 2 2

2
=1 1 1
Por lo tanto, 2 = 2

Ejemplo 2
Calcule la varianza y la desviacin estndar de la distribucin de frecuencias del
nmero de hijos de la muestra de 20 familias del Cuadro 3.1

Solucin
La distribucin del Cuadro 3.1 se repite en el Cuadro 9.2 donde, se ha insertado
una columna de produccin 1 12 para el cmputo de la varianza.

Uso de Probabilidades para el Anlisis y la Gestin 7


Cuadro 9.2 Cmputo de la varianza de
X = de hijos de familia
x1 f1 fi*xi f1*

0 1 0 0
1 4 4 4
2 7 14 28
3 6 18 54
4 2 8 32
Total 20 44 118

44
Entonces, n =20, k = 5, =1 = 44 = 20 = 22, =1 2 = 118

Luego, la varianza de la distribucin es el nmero:

2
=1 118
2 = 2 = (2.2)2 = 1.06 2
20

La desviacin estndar es: = 2 = 1.06 = 1.0296

2b) Varianza de datos agrupados por intervalos

Si n valores observados de alguna variable cuantitativa X, son agrupados en k


intervalos, con marcas de clases m1, m2,...,mk, frecuencias absolutas respectivas f1,
f2,---,fk, entonces, la suma total de los cuadrados de diferencias con respecto a la
media es (m1 - )2 x f1 +... + (mk - )2 x fk y su varianza es el nmero:


=1 ( )
2
2 = =

Se comprueba que:

=1 ( )2 = =1 2 = 2

Por lo tanto:

2
=1
2 = 2

Uso de Probabilidades para el Anlisis y la Gestin 8


Ejemplo 3

Calcule la varianza y la desviacin estndar de los 45 salarios quincenales


organizados en 7 intervalos de la Tabla 3.1

Solucin

La distribucin de frecuencias del Tabla 3.1 se repite en el cuadro 9.3 donde se ha


insertado una columna de productos fi x 2 para el cmputo de la varianza

Cuadro 9.3 Cmputo de la varianza de


X = Salarios
Intervalos de Marcas # de empleados fi xm-i 2

Salarios mi fi

[26,34[ 30 1 30 900
[34,42[ 38 2 76 2888
[42,50[ 46 4 184 8464
[50,58[ 54 10 540 29160
[58,66[ 62 16 992 61504
[66,74[ 70 8 560 39200
[74,821 78 4 312 24336
Total 45 2694 166452

n = 45 , k=8, =1 = 2694, =1 2 = 166452

luego la varianza es el nmero

2
=1 166452 2694 2
2 = 2 = ( ) = 114.916$2
45 45

La desviacin estndar es: s = 2 = 114916 = 10.7199

Observe que la varianza de los mismos datos, pero no agrupados es 133.7785 2.

9.2.1 Clculo de las varianzas con frecuencias relativas


Para calcular la varianza de n datos observados de una variable cuantitativa X
organizados en una distribucin de frecuencias relativas (o porcentajes) de variable
discreta o por intervalos se hace hi = fi / n, para cada i = 1, 2,,k. si la distribucin
de frecuencias es por intervalos entonces.

Uso de Probabilidades para el Anlisis y la Gestin 9



= =1 = =1 =1 2 = =1 2

Y la varianza es el nmero: 2 = =1 2 - 2

9.2.1.1 Varianza de la poblacin

La varianza 2 de una poblacin finita de N datos x1, x2, ,xk sin agrupar y cuya
media es se define por:


=1( )
2 2
=1
2 = = - 2

Si formamos todas las muestras posibles de tamao n y calculamos sus varianzas


utilizando la formula 2 = =1( )2 / (mtodo de poblacin), resulta que la
media de todas estas varianzas vale:

1
=2.

Para que el promedio de todas las varianzas sea igual a 2 se aplica la varianza
2
1 = =1( )2 /( 1) (mtodo de muestra) que se obtiene de multiplicar a 2
por n(n-1). Por esta razn, algunos autores de esa materia definen la varianza (en
estadstica descriptiva) con denominador n-1.

Cada poblacin tiene una varianza, que se simboliza con 2-(sigma cuadrada). Para
calcular la varianza de una poblacin, dividimos la suma de las distancias al
cuadrado entre la media y cada elemento de la poblacin entre el nmero total de
observaciones de dicha poblacin. Al elevar al cuadrado cada una de las distancias,
logramos que todos los nmeros que aparecen sean positivos y, al mismo tiempo,
asignamos ms peso a las desviaciones ms grandes.

La frmula para calcular la varianza es:

()2 2
2 = = 2 Ecua. 9.1

en la que:

2 = varianza de la poblacin

Uso de Probabilidades para el Anlisis y la Gestin 10


= elemento u observacin
= media de la poblacin
N = nmero total de elementos de la poblacin
= suma de todos los valores (x -)2, o todos los valores de x2

()2
En la ecuacin 9.1, la expresin es la definicin de 2. La ltima expresin

2
- 2 , es matemticamente equivalente a la definicin, pero a menudo resulta

mucho ms conveniente de utilizar si debemos calcular realmente el valor de 2, ya


que nos libera de calcular las desviaciones con respecto a la media. Sin embargo,
cuando los valores de x son grandes y los valores x - son pequeos, puede ser
()2
ms conveniente utilizar la expresin de en medio, para calcular 2.

Antes de poder utilizar esta frmula en un ejemplo, necesitamos analizar un


problema importante concerniente a la varianza. Al resolver dicho problema,
aprenderemos qu es la desviacin estndar y cmo calcularla. Despus podemos
regresar a la varianza de nuevo.

Al principio, cuando calculamos el alcance, las respuestas fueron expresadas en


las mismas unidades que los datos. (En nuestros ejemplos, las unidades son "miles
de dlares en pagos".) Para la varianza, sin embargo, las unidades son el cuadrado
de las unidades de los datos; por ejemplo, "dlares cuadrados" o "dlares al
cuadrado". Estas unidades no son intuitivamente claras o fciles de interpretar. Por
esta razn tenemos que hacer un cambio significativo en la varianza para calcular
una medida til de la desviacin, una que no nos d problemas con las unidades de
medida y, en consecuencia, que sea menos confusa. Esta medida se conoce
como la desviacin estndar, y es la raz cuadrada de la varianza. La raz
cuadrada de 100 dlares cuadrados es 10 dlares, puesto que tomamos la raz
cuadrada del valor y de las unidades con que se les mide. La desviacin estndar,
entonces, est en las mismas unidades que los datos originales.

Uso de Probabilidades para el Anlisis y la Gestin 11


9.2.1.2 Desviacin estndar de la poblacin

La desviacin estndar de la poblacin a , es simplemente la raz cuadrada de la


varianza de la poblacin. Como la varianza es el promedio de las distancias al
cuadrado que van de las observaciones a la media, la desviacin estndar es la
raz cuadrada del promedio de las distancias al cuadrado que van de las
observaciones a la media. Mientras que la varianza se expresa con el cuadrado de
las unidades utilizadas para medir los datos, la desviacin estndar est en las
mismas unidades que las que se usaron para medir los datos. La frmula para la
desviacin estndar es:

()2 2 Ecua. 9.2


= 2 = = 2

en la que:

x = observacin
= media de la poblacin
N = nmero total de elementos de la poblacin
= suma de todos los valores (x - )2, o todos los valores x2
= desviacin estndar de la poblacin
2 = varianza de la poblacin

La raz cuadrada de un nmero positivo puede ser tanto positiva como negativa,
pues a2 = (-a)2. Cuando tomamos la raz cuadrada de la varianza para calcular la
desviacin estndar, sin embargo, los estadsticos solamente consideran la raz
cuadrada positiva.

Para calcular la varianza o la desviacin estndar, construimos una tabla utilizando


todos los elementos de la poblacin. Si tenemos una poblacin de quince frascos
de compuesto producido en un da y probamos cada frasco para determinar la
pureza del compuesto, los datos que obtengamos podran verse como los de la tabla
9.4. En la tabla 9.5, mostramos la forma en que se utilizan estos mismos datos para
calcular la media (suma de los valores de la columna 1 dividida entre N = 2.49/15),

Uso de Probabilidades para el Anlisis y la Gestin 12


la desviacin de cada valor con respecto a la media (columna 3), el cuadrado de la
desviacin de cada valor con respecto a la media (columna 4), y la suma del
cuadrado de las desviaciones. A partir de esto, podemos calcular la varianza, que es
de 0.0034% al cuadrado. (En la tabla 9.5 tambin calculamos 2 utilizando la
2
segunda mitad de la ecuacin 9.1, 2 . Note que obtenemos el mismo

resultado pero con un poco menos de trabajo, ya que no tenemos que calcular las
desviaciones con respecto a la media.) Tomando la raz cuadrada de 2, podemos
calcular la desviacin estndar, 0.058 por ciento.

9.2.1.3 Usos de la desviacin estndar

La desviacin estndar nos permite determinar, con un buen grado de precisin,


dnde estn localizados los valores de una distribucin de frecuencias con relacin
a la media. Podemos hacer esto de acuerdo con un teorema establecido por el
matemtico ruso P. L. Chebyshev (1821-1894). El teorema de Chebyshev dice que
no importa qu forma tenga la distribucin, al menos 75% de los valores caen
dentro de 2 desviaciones estndar a partir de la media de la distribucin, y al
menos 89% de los valores caen dentro de 3 desviaciones estndar a partir de la
media.

Porcentaje de impureza observado


Tabla 9.4

Resultados de la 0.04 0.14 0.17 0.19 0.22


prueba de pureza 0.06 0.14 0.17 0.21 0.24
de compuesto. 0.12 0.15 0.18 0.21 0.25

Uso de Probabilidades para el Anlisis y la Gestin 13


Media Desviacin Desviacin Observacin al
Tabla 9.5 Observacin (x) (1) ()=2.49/15 (x - ) al cuadrado (x-)2 cuadrado ( x2)
(2) (3) = ( 1 ) - (2) (4) = [(1)-(2)]2 (5) = (1)2
0.04 - 0.166 = -0.126 0.016 0.0016
0.06 - 0.166 = -0.106 0.011 0.0036
0.12 - 0.166 = -0.046 0.002 0.0144
0.14 - 0.166 = -0.026 0.001 0.0196
0.14 - 0.166 = -0.026 0.001 0.0196
0.15 - 0.166 = -0.016 0.000 0.0225
0.17 - 0.166 = 0.004 0.000 0.0289
0.17 - 0.166 = 0.004 0.000 0.0289
0.18 - 0.166 = 0.014 0.000 0.0324
0.19 - 0.166 = 0.024 0.001 0.0361
0.21 - 0.166 = 0.044 0.002 0.0441
Determinacin de la 0.21 - 0.166 = 0.044 0.002 0.0441
varianza y de la
desviacin estndar 0.22 - 0.166 = 0.054 0.003 0.0484
del porcentaje de 0.24 0.166 0.074 0.005 0.0576
impureza de
- =
compuestos 0.25 - 0.166 = 0.084 0.007 0.0625
2.49x 0.051(x-)2 0.4643x2
( )2 Ecua. 9.1 2 Ecua. 9.1
2 = 2 = 2

0.051 0.4643
= = (0.166)2
15 15

=0.0034% al cuadrado =0.0034% al cuadrado

Ecua. 9.2
= 2

= 0034

= 0.058%

Podemos medir an con ms precisin el porcentaje de observaciones que caen


dentro de un alcance especfico de curvas simtricas con forma de campana, como
la que mostramos en la figura 9.1. En estos casos, podemos decir que:

1. Aproximadamente 68% de los valores de la poblacin cae dentro de 1


desviacin estndar a partir de la media.
2. Aproximadamente 95% de los valores estar dentro de 2 desviaciones estndar

Uso de Probabilidades para el Anlisis y la Gestin 14


a partir de la media.
3. Aproximadamente 99% de los valores estar en el intervalo que va desde tres
desviaciones estndar por debajo de la media hasta tres desviaciones estndar
por arriba de la media.

Fig. 9.1

Utilizando el teorema de Chebyshev, analicemos los datos de la tabla 9.5. En


stos, la impureza media de los quince frascos de compuesto es de 0.166% y la
desviacin estndar es de 0.058%. El teorema de Chebyshev nos dice que al
menos el 75% de los valores (11 de nuestros 15 frascos) estn entre 0.166-2(0.058)
= 0.050 y 0.166 + 2(0.058) = 0.282. De hecho, 93% de las observaciones (14 de los
15 valores) estn realmente en el intervalo. Note que la distribucin es
razonablemente simtrica y que 93% est cercano a 95% terico para un intervalo
de 2 desviaciones estndar a partir de la media de una curva con forma de
campana.

La desviacin estndar es tambin til para describir qu tan lejos las


observaciones individuales de una distribucin se apartan de la media de la
distribucin. Una medida que se conoce como resultado estndar nos da el
nmero de desviaciones estndar que una observacin en particular ocupa por
debajo o por encima de la media. Si hacemos que x simbolice la observacin,
entonces el resultado estndar calculado a partir de los datos de la poblacin es:

Uso de Probabilidades para el Anlisis y la Gestin 15



Resultado estndar de la poblacin = Ecuacin. 9.4

en la que:

x = observacin tomada de la poblacin


= media de la poblacin
= desviacin estndar de la poblacin

Suponga que observamos un frasco de compuesto que tiene 0.108% de


impureza. Debido a que nuestra poblacin tiene una media de 0.166 y una
desviacin estndar de 0.058, una observacin de 0.108 tendra un resultado
estndar de -I:


Resultado estndar = Ecua. 9.4

0.1080.166
=
0.058
0.058
=
0.058
= -1

Una impureza observada de 0.282% tendr un resultado estndar de +2.


Resultado estndar = Ecua. 9.4

0.2820.166
=
0.058
0.116
=
0.058
=2
El resultado estndar indica que una impureza de 0.282% se desva de la media en
2(0.058) = 0.116 unidades, que es igual a +2, en trminos de unidades de
desviacin estndar, alejado de la media.

Uso de Probabilidades para el Anlisis y la Gestin 16


9.3 Clculo de la varianza y la desviacin estndar utilizando datos
agrupados

En el ejemplo de inicio del presente captulo, los datos con respecto a las ventas en
100 restaurantes de comida rpida ya se encontraban agrupados en una
distribucin de frecuencias. Con tales datos, podemos utilizar las siguientes
frmulas para calcular la varianza y la desviacin estndar:

()2 2
2 = = 2 Ecua. 9.5

y
()2 2
= 2 = = 2 Ecua. 9.6

En donde:

2 = varianza de la poblacin
= desviacin estndar de la poblacin
f = frecuencia de cada una de las clases
x = punto medio de cada clase
= media de la poblacin
N = tamao de la poblacin

En la tabla 9.6 se muestra cmo aplicar estas ecuaciones para hallar la varianza y
la desviacin estndar de las ventas en 100 restaurantes de comida rpida.

Dejamos como ejercicio para el lector curioso verificar que la segunda mitad de la
2
ecuacin 9.5, 2 2 .

Ahora ya estamos listos para calcular la estadstica de muestra anloga a la


varianza de poblacin a2 y a la desviacin estndar de la poblacin, a2. Se trata
de la varianza de la muestra s2 y de la desviacin estndar de la muestra, s. En la
seccin siguiente, usted se dar cuenta que hemos cambiado de la notacin con

Uso de Probabilidades para el Anlisis y la Gestin 17


letras griegas (que denotan parmetros de poblacin) a las latinas
correspondientes a la estadstica de muestras.

9.4 Desviacin estndar de una muestra

Para calcular la varianza y la desviacin estndar de una muestra, utilizamos las


mismas frmulas representadas en las ecuaciones 9.1 y 9.2, sustituyendo con
y N con n - 1. Las frmulas tienen el aspecto siguiente:

( )2 2 2
2 = = - Ecua. 9.6
1 1 1
y
( )2 2 2
s= 2 = = Ecua. 9.7
1 1 1

en las que:
s2 - varianza de la muestra
s = desviacin estndar de la muestra
x = valor de cada una de las n observaciones
= media de la muestra
n - 1 = nmero de observaciones de la muestra menos 1

Por qu utilizamos n - 1 como denominador en lugar de n? Los especialistas en


estadstica pueden demostrar que si tomamos muchas muestras de una poblacin
dada, si encontramos la varianza de la muestra (s2) para cada muestra y
promediamos los resultados, entonces este promedio no tiende a tomar el valor de
la varianza de la poblacin, 2, a menos que tomemos n - 1 como denominador en
nuestros clculos. En el captulo 7, tendremos la explicacin estadstica de por qu
esto es cierto.
Las ecuaciones 9.6 y 9.7 nos permiten encontrar la varianza y la desviacin
estndar de la muestra de los donativos anuales de Blue Cross-Blue Shield al
hospital de Cumberland que presentamos en la tabla 9.10; note que ambas
mitades de la ecuacin 9.6 producen el mismo resultado.
Al igual que utilizamos la desviacin estndar de la poblacin para derivar los
resultados estndar de la misma, podemos tambin usar la desviacin estndar de

Uso de Probabilidades para el Anlisis y la Gestin 18


la muestra para calcular los resultados estndar de la muestra. Estos resultados
indican cuntas desviaciones estndar se halla una observacin en particular por
arriba o por abajo de la media de la muestra. La frmula adecuada es:

Resultado estndar de la muestra = Ecua. 9.8

En la que:
x = observacin tomada de la muestra
= media de la muestra
s = desviacin estndar de la muestra.

Uso de Probabilidades para el Anlisis y la Gestin 19


Tabla 9.6 Clase Punto Frecuencia fx x Media x- (x - )2 f(x - )2
Media (f) () (1)-(4) (1)-(4)2 (2)x(1)-(4)2
(3) = (2) x (1)
(x) (2) (4)
(1)
Determinacin de
700 - 799 750 4 3,000 1,250 - 500 250,000 1,000.000
la varianza y de 800 - 899 850 7 5,950 1,250 - 400 160,000 1,120.000
la desviacin
estndar de las
900 - 999 950 8 7,600 1,250 - 300 90,000 720.000
ventas de 100 1,000-1,099 1,050 10 10,500 1,250 200 40,000 400.000
restaurantes de
comida rpida 1,100-1,199 1,150 12 13,800 1,250 - 100 10,000 120.000
situados en el 1,200-1,299 1,250 17 21,250 1,250 0 0 0
distrito oriental (X
1000) 1,300-1,399 1,350 13 17,550 1,250 100 10,000 130.000
1,400-1,499 1,450 10 14,500 1,250 200 40,000 400.000
1,500-1,599 1,550 9 13,950 1,250 300 90,000 810.000
1,600-1,699 1,650 7 11,550 1,250 400 160,000 1,120.000
1,700-1,799 1,750 2 3,500 1,250 500 250,000 500.000
1,800-1,899 1,850 1 1,850 1,250 600 360,000 360.000
100 125,000 6,680,000
( ) (3-3)
=
125,000
=
100
=1,250dlaresmedio
( )2 3-15
2 =

6,680,000
=
100
=66,800 (66,800 dlares al cuadradovarianza
= 2 3-16

= 66,800
= 258.5 desviacin estndar = $258,500

Uso de Probabilidades para el Anlisis y la Gestin


20
Tabla 9.10 Observacin Media
(x) (x) x- (x- )2 x2
(1) (1) (1)-(4) (1)-(2)2 (1)2
863 1,351 - 488 238,144 744,769
Determinacin de la
varianza y de la 903 1,351 - 448 200,704 815,409
desviacin estndar de la
muestra de los donativos 957 1,351 - 394 155,236 915,849
anuales de Blue Cross-
Blue Shield al Hospital de 1,041 1,351 - 310 96,100 1,083,681
Cumberland (X 1000),
1,138 1,351 - 213 45,369 1,295,044

1,204 1,351 - 147 21,509 1,449,616

1,354 1,351 3 9 1,833,316

1,624 1,351 273 74,259 2,637,376

1,698 1,351 347 120,409 2,883,204

1,745 1,351 394 155,236 3,045,025

1,802 1,351 451 230,401 3,247,204

1,883 1,351 532 283,024 3,545,689

(
)2 1,593,770 23,496,182 2

( )2
s2 3-17
1

1,593,770
=
11

= 144,883 (o $144,888 millones al cuadrado) varianza de la muestra

s = 2 3-18
o = 144,888

= 380.64 (es decir, $380,640) desviacin estndar de la muestra

2 2
s2 = 3-17
1 1

23,496.182 12(1,351)2
=
11 11

1,593,770
=
11
= 144,888

Uso de Probabilidades para el Anlisis y la Gestin 21


En el ejemplo que acabamos de dar, vemos que la observacin 863 corresponde
a un resultado estndar de 1.28.


Resultado estndar de la muestra = Ecua.9.8

8631,351
=
380.64

488
=
380.64

= -1.28

En esta seccin hemos demostrado por qu la desviacin estndar es la medida


de dispersin que ms se utiliza. Podemos usarla para comparar distribuciones y
para calcular resultados estndar, que son un elemento importante de la inferencia
estadstica que analizaremos ms adelante. Al igual que la varianza, la desviacin
estndar toma en cuenta cada observacin del conjunto de datos. Pero la
desviacin estndar tiene tambin algunas desventajas. No resulta fcil de calcular
como en el caso del alcance, y no puede calcularse en distribuciones de extremo
abierto. Adems, los valores extremos que se encuentren en el conjunto de datos
distorsionan el valor de la desviacin estndar, aunque en un menor grado que en el
caso del rango.

Las letras griegas (como u, o o) siempre se refieren a parmetros de la poblacin y


las letras latinas (como x y s) se refieren a estadsticas de la muestra.

Recuerde utilizar N como el denominador cuando est calculando la desviacin


estndar de una poblacin, pero n - 1 para calcular la desviacin estndar de la
muestra.

Uso de Probabilidades para el Anlisis y la Gestin 22


Ejercicio 9

9.1 Talent Ltd., una compaa de seleccin de repartos de Hollywood, est


seleccionando un grupo de extras para una pelcula. La edad de los primeros
veinte hombres que van a ser entrevistados es:

50 56 55 49 52 57 56 57 56 59
54 55 61 60 51 59 62 52 54 49

El director de la pelcula desea tener hombres cuya edad se agrupe


estrechamente alrededor de los 55 aos. Como el director es aficionado al
orden estadstico, sugiere como aceptable una desviacin estndar de tres
aos. Este grupo de extras cumple con el requisito? 3-62 A continuacin
presentamos los datos de una muestra de la tasa de produccin diaria de
botes de fibra de vidrio de la Hydrosport, Ltd., un fabricante de Miami:

17 21 18 27 17 21 20 22 18 23

El gerente de produccin de la compaa siente que una desviacin


estndar de ms de tres botes por da indica variaciones de tasas de
produccin inaceptables. Deber preocuparse por las tasas de produccin
de la planta?

9.2 Un conjunto de 60 observaciones posee una media de 66.8, una varianza


de 12.60 y una forma de distribucin desconocida.

a) Entre qu valores debern caer al menos 75% de las observaciones, de


acuerdo con el teorema de Chebyshev?

b) Si la distribucin es simtrica y con forma de campana, aproximadamente


cuntas observaciones debern encontrarse en el intervalo 59.7 - 73.9

Uso de Probabilidades para el Anlisis y la Gestin 23


9.5 Coeficiente de variacin: Dispersin relativa

Definicin. El coeficiente de variacin, denotado por CV, es una medida de


dispersin relativa (libre de unidades de medicin), que se define como el cociente
de la desviacin estndar entre la media aritmtica. Esto es,


CV = , o en%

El coeficiente o ndice de variacin se utiliza para comparar la variabilidad de dos


o ms series de datos que tengan medias iguales o diferentes o que tengan
unidades de medida iguales o diferentes (por ejemplo, comparar la variabilidad de
una serie de datos medidos en kilogramos con la de otra serie de datos medidos
en metros).
Por dar un ejemplo, si las calificaciones en matemtica I de dos secciones H1 y
H2 tienen la misma desviacin estndar igual a 14, no podemos concluir que los
dos horarios tienen la misma variabilidad (salvo que tengan medias iguales).
Del mismo modo, si la desviacin estndar de H1 es 2 y la de H2 es 4 no
podemos concluir que las notas de H2 son ms dispersas que las de H1. La
variabilidad de estos dos grupos depende, adems, de sus medias.
En el primer caso, si se indica que la media del horario H1 es 16 y la media del
horario H2 es 11, los coeficientes de variacin respectivos son:

1 14 2 14
CV = = = 0.875, 87.5% 2 = = = 127 127%
1 16 2 11

Es decir, las calificaciones obtenidas en Hl son ms homogneas o tienen menor


variabilidad que las calificaciones del horario H2.

9.6 Uso de las medidas de dispersin o de variacin

La varianza es la medida de variabilidad cuyo cmputo transforma en cuadrticas


las unidades de medicin de los valores de la variable.

Uso de Probabilidades para el Anlisis y la Gestin 24


La desviacin estndar es la medida de variabilidad cuyo cmputo resulta en las
mismas unidades de medicin de la variable.

El coeficiente o ndice de variacin es la medida de variabilidad cuyo cmputo


resulta un nmero abstracto (carece de las unidades en las que vienen expresados
los datos).

1) Si dos o ms grupos de datos (observados en el mismo tipo de medicin) tienen


medias aritmticas iguales, entonces, es ms dispersa o de mayor variabilidad
la serie que tiene mayor valor, una cualquiera de sus medidas de variacin:
Rango R, o RI, o s2 o s, o CV.
Si hay marcada asimetra, es preferible comparar la variabilidad con el rango
intercuartil.
2) Si dos o ms series de datos, no tienen medias iguales (o casi iguales) o no
tienen las mismas unidades de medicin (variables diferentes), entonces, es
ms homognea o de menor variabilidad la serie que tenga menor coeficiente
de variacin CV, sin importar su forma de asimetra.

9.7 Valores estandarizados

Cuando se necesiten comparar valores observados que pertenecen a


d if e re n t e s distribuciones de datos, las que difieren en su media aritmtica o en
su varianza, o difieren en el tipo de unidad de medida (variables diferentes),
entonces se estandarizan los valores observados de la variable aplicando la
variable "estandarizadora" o variable estndar Z.

Para una distribucin de datos de variable X la variable estndar Z se define por:


Z=

La variable Z estandariza en cero cualquier media y estandariza en 1 cualquier


varianza 2 (Se deja como tarea para el lector comprobar que Z tiene media igual
a 0 y varianza igual a 1).

Uso de Probabilidades para el Anlisis y la Gestin 25


Los valores estandarizados indican la posicin relativa de las unidades
estadsticas dentro de su grupo. Por lo tanto Z es otra medida de posicin,
adems, de los percentiles.

Ejemplo 4

Las calificaciones en un examen final de Matemticas e Historia generaron las


medias 13 y 17 y las desviaciones estndar 3 y 4 respectivamente. Si un alumno
obtuvo 14 en Matemticas y 16 en Historia, en cul de los dos cursos tiene
mejor rendimiento relativo?

Solucin

El hecho de que tenga 16 en Historia y 14 en Matemticas, no significa que tiene


mejor rendimiento en Historia.

Se deben calcular los rendimientos relativos con la puntuacin estandarizada Z

1413
En Matemticas z = = 0.333
3

1617
En Historia z= = -0.25
4

En consecuencia, el alumno tiene mejor rendimiento en Matemticas ya que tiene


mayor rendimiento relativo en esa asignatura

9.7.1 Propiedades de la varianza.

1) La varianza es un nmero real no negativo y viene expresada en mediciones


cuadrticas. Mientras, que la desviacin estndar es tambin un nmero real no
negativo que viene expresada en las mismas unidades en las que se observan
los datos.
2) Dada, la media y la varianza 2 de n datos; de una variable X, la suma total de
los cuadrados de los valores es igual a n x (2 + 2 )
En efecto, para datos no agrupados se tiene por ejemplo, =1 2 =
(2 + 2 )

Uso de Probabilidades para el Anlisis y la Gestin 26


3) Si la variable cuantitativa X se transforma en Y -aX + b (esto es cada uno de n
los
valores x es transformado en y =ax + b), entonces, la varianza de X y la
varianza de Y denotadas ahora por Var(X), Var(Y) respectivamente, verifican
la siguiente relacin (comprobar!):
Var{Y) = a2 x Var(X)
Consiguientemente, DesvEstdr{Y) = (a) x DesvEstdr(X).
Como casos particulares se tiene:

Si Y = b, entonces, Var(b) = 0. Es decir, si los n datos de una variable son


iguales a una constante, entonces, su varianza es igual a cero.

Si Y = X + b, entonces, Var(Y) = Var(X). Es decir, si sumamos una constante a


cada valor de la variable, la varianza y en consecuencia la desviacin estndar,
no cambian.

Si Y = aX, entonces, Var(Y) = a2x Var(X). Es decir, si multiplicamos por una


constante a a cada valor de la variable, la varianza de los nuevos valores es
igual que la varianza de los antiguos valores multiplicada por a2.

4) La varianza y la desviacin estndar se calculan tambin, en distribucin de


frecuencias de intervalos de amplitud diferentes, siempre que puedan
determinarse las marcas de las clases. Por otra parte, estas medidas dependen
de todos los datos y son sensibles a los cambios de cada uno de estos, basta
que uno de los datos cambie, para que cambien estas medidas.

5) Dados k series de datos con tamaos, medias y varianzas respectivas


2 2 2
n1, 1 1 , n2,x2, 2 ,...,n k , , , entonces, la varianza total, , 2 de los
n = n1, + n2 +...+nk datos es el nmero:

2 2
=1 1 ( + )
=1 1
2 = -( )2 , donde =

Uso de Probabilidades para el Anlisis y la Gestin 27


9.7.2 Desigualdad de Chebyshev

Cualquiera sea la forma de la distribucin (simtrica o asimtrica) de los datos


observados de una variable X, el intervalo [ + s,], donde k > I,
contiene por lo menos


I- por ciento
2

El porcentaje de datos que se ubican fuera del intervalo es menor que


x 100%
2


Por ejemplo, el intervalo [ 2 , + 2s], contiene por lo menos el I - =
22
3
75%, del total de los datos. El porcentaje de datos que se ubican fuera del
4
intervalo es menos de 25%.

Del mismo modo,

El intervalo [ 3 , + 3s], contiene por lo menos el 88.89%, (8/9), del total


de los datos.

El intervalo [ 4 , + 4s], contiene por lo menos el 93.75%, (15/16), del


total de los datos.

Ejemplo 5

En el mes de enero el sueldo promedio de los trabajadores del sector industrial


era de $200. Para el mes de julio se considera un aumento del 30% al sueldo del
mes de enero ms un adicional de $50. Si el coeficiente de variacin en enero
era de 0.25, se puede decir que la distribucin de sueldos en julio es ms
homognea?

Solucin

Uso de Probabilidades para el Anlisis y la Gestin 28


Sean las variables, X = Sueldos de enero", Y= "Sueldos de julio"

La media de enero es: = $200.

Sea CVX, el Coeficiente de variacin en enero, CVX = 0.25

Sea sx la desviacin estndar de enero, entonces, es sx = CVX x = 0.25 x 200 =


$50

La relacin entre las dos variables es:

Y = 1.30X + 50

Entonces, la media de los sueldos de julio es

= 1.3 + 50 = 1.3 x 200 + 50 = 310

Sea 2 la varianza de los sueldos de julio, entonces,

2 = (1.3)2 x 2 = (1.3)2 x (50)2 = 4225$2.

La desviacin estndar: sY = 4225 = 65$.

65
Coeficiente de variacin en julio es: CVY = = = 0.2097.
310

Comparando los coeficientes de variacin de enero y julio se puede concluir que


la distribucin de los sueldos del mes de julio es ms homognea.

Ejemplo 6

Si los salarios no agrupados de 120 obreros tienen una media de $300 y una
desviacin estndar de $30

a) Cuntos obreros por lo menos tienen salarios comprendidos en el intervalo


[$240, $360]?.

b) Determine el intervalo que contiene al menos el 88.889% de los salarios.


c) Si el salario mnimo es $210, en qu porcentaje se puede afirmar que los

Uso de Probabilidades para el Anlisis y la Gestin 29


salarios son superiores a $390?

Solucin
a) = $300, s = $30, de la relacin

[300 k x 30, 300 + k x 30] = [240, 360]


3
resulta, k = 2. Entonces el, I - =
O 75%x 120=90 obreros por los
22 4
menos tienen salarios en el intervalo [240, 360].
b) Si al menos el 88.889% de los obreros tienen salarios en el intervalo
[300 - K x 30, 300 + k x 30]

Entonces, I - = 0.8889. De donde resulta k = 3.
2

Luego, el intervalo [$210, $390] contiene al menos el 88.889% de los 120


salarios.

c) Fuera del intervalo [$210, $390] est menos del 11.11% de los salarios. Si
el mnimo es $210, entonces, el porcentaje de salarios mayores que $390
es menos de 11.11%.

Ejemplo 7

El costo inicial de produccin X de una muestra de 80 objetos de cierto tipo, tiene


una media de $250 para el 60% de la muestra y de $200 para el resto, adems
una desviacin estndar de $20 para el 60% de la muestra y de $25 para el resto.

a) Calcule la varianza del costo inicial de los 80 objetos.

b) Si el costo final de produccin X es igual al 20% ms del costo inicial, ms 5


dlares y si el precio de venta de cada objeto de la muestra es proporcional al
cuadrado del costo final de produccin, cunto se recaudara por la venta
total?, cunto sera la utilidad neta?

Solucin

Uso de Probabilidades para el Anlisis y la Gestin 30


a) Sea x, =250, x2 = 200, n = 80, entonces. , =48, n2 =32, y la media global
es,
1 1 + 2 2
= = 48 250+32 200
= $230
80

Sea 1 = 25, 2 = 20, entonces la varianza global 2 o 2 es el nmero,

2 + 2 ) + (2 + 2 )
1 1 (1 3019200 +130000
= 1 1 1 1 1
2 = (230)2 = 1090$
80

b) La relacin lineal de Y con X es Y = 1.2X + 5, entonces


La media de Y es 1.2x + 5 = 1.2 230 + 5 = 281
La varianza Y es 2 = (1.2)2 2 = (1.2)2 x 1090 = 1569.6
La recaudacin total es RT= 80 2 2
2 )=80x(1569.6+(281)2) =
=1 1 = 80 ( +

6442448

La utilidad neta = Ventas costos = 6442448 18400 = 6424048

Uso de Probabilidades para el Anlisis y la Gestin 31


Uso de Probabilidades para el Anlisis y la Gestin 32

También podría gustarte