Medidas de Variabilidad

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 11

MEDIDAS DE VARIABILIDAD (O DE DISPERSION) Las medidas de tendencia central: la media aritmtica, la moda y la mediana, se muestran muy insuficientes para

caracterizar un conjunto de datos. La demanda promedio por hora de un servicio de emergencia en un hospital, que podra situarse en 8 pacientes, es un indicador inadecuado ya que en una especfica podra estarse requiriendo el servicio de uno dos pacientes, o en el otro extremo, de quince o ms. Se hace necesario disponer de otros indicadores que reflejen la dispersin de los datos y que refuercen el anlisis cuantitativo de la distribucin. Estos descriptores son llamados medidas de dispersin o variabilidad Analizando la importancia de las medidas de dispersin se tienen los siguientes datos en dos muestras. Ejemplo Calcular la media aritmtica, moda y mediana para cada una de las muestras y analizarlas. Muestra A: 15 20 25 25 25 30 35 Muestra B: 5 10 20 25 25 40 50 Solucin Muestra A Muestra B Media Aritmtica 25 25 Mediana 25 25 Moda 25 25

Lic. Sal Quintanilla Estadstica I Grupo 04-06-13

Al presentar los valores en una lnea recta, notamos sin embargo que si hay diferencias en la distribuciones.

Muestra A

10 20

30

40

50

Muestra B

10 20

30

40

50

En el ejemplo que se discute, es claro que la muestra B tiene mayores desvos, por lo que debemos concluir que la muestra B tiene mayor dispersin. Dentro de las medidas de dispersin ms comunes tenemos: rango o recorrido, varianza, desviacin estndar, coeficiente de variacin de variacin, coeficiente de asimetra y curtosis, teorema de shevichev y la variable estandarizada. RANGO O RECORRIDO (R) El rango o recorrido de la variable no es ms que: la diferencia entre el mayor valor observado menos el menor valor observado de la serie. Es decir: R = Valor mximo valor mnimo. Esta frmula es valida para serie simple como agrupada. El rango o recorrido es, por supuesto, la medida ms gruesa de la variabilidad; sin embargo sera muy til cuando un conjunto de datos tiene un recorrido muy pequeo, sus valores se encontraran ms concentrados alrededor de su media. VARIANZA. La varianza de un conjunto de valores, se define como la suma de todos los cuadrados de los desvos, dividida por en numero total de datos. La varianza no es una medida empleada en la Estadstica Descriptiva. Una de las razones es el trmino cuadrtico. Sin embargo la varianza se hace til en la Estadstica Inferencial: para criticar la bondad de ajuste de los estimadores, prueba de hiptesis, etc. Cuando los datos son poblacionales se emplea la notacin: V(x) o 2 Cuando los datos son muestrales se emplea la notacin: S 2 y suele llamarse Cuasi varianza. DESVIACION ESTANDAR O DESVIACION TIPICA. Es la raz cuadrada de la varianza y mide la dispersin de los datos con respecto a la media. Las unidades de la desviacin estndar es la misma de la unidad en estudio. Cuando los datos son poblacionales se emplea la notacin: Cuando los datos son muestrales se emplea la notacin: S Mientras ms grandes son los desvos entre cada dato y la media mas elevado es el valor de la desviacin estndar, y es este sentido que se considera una medida de variabilidad. Ventajas de la desviacin estndar: 1. Se utilizan todos los datos para su clculo. 2. Guarda las mismas unidades de la variable en estudio. 3. Permite comparar distribuciones que tienen medias iguales o muy parecidas. Desventajas de la desviacin estndar o desviacin tpica En las distribuciones asimtricas se ve muy afectadas por los valores extremos, por lo que se debe tener especial cuidado al momento de interpretarla. 2

Lic. Sal Quintanilla Estadstica I Grupo 04-06-13

Propiedades de la desviacin estndar 1. Si a cada elemento de la muestra se le suma o resta una misma cantidad, la desviacin estndar permanece inalterable. 2. Si a cada elemento de la muestra se multiplica por una misma cantidad, la desviacin estndar queda multiplicada por esa cantidad. 3. Si la serie es constante, la desviacin estndar es cero. Formulas a emplear. Serie Simple Poblacin Varianza ( ( )= = =
( )

Lic. Sal Quintanilla Estadstica I Grupo 04-06-13

Desviacin estandar

= = = = = =

muestra
Distribucin frecuencia de

Poblacin

( )= =

Muestra Serie Agrupada

Poblacin

( )=

Muestra

=
(

Coeficiente de Variacin (Dispersin relativa)


El coeficiente de variacin mide el grado de representatividad de la media. Es un estadstico de dispersin que tiene la ventaja de que no lleva asociada ninguna unidad, por lo que nos permitir decir entre dos muestras, cual es la que presenta mayor dispersin. La denotaremos por C.V. = = 100 100 en la muestra. en l poblacin.

Cuando la media est muy prxima al cero afecta mucho al coeficiente, aumentando mucho su valor. Si la desviacin estndar es cero el coeficiente de variacin es cero.

Lic. Sal Quintanilla Estadstica I Grupo 04-06-13

Ventajas y desventajas del coeficiente de variacin. 1. Facilita la comparacin de dos series de diferentes unidades por ser adimensional. 2. No es muy plausible su utilidad en forma aislada. 3. No existe coeficiente de variacin si la distribucin tiene media cero. Interpretacin del valor del coeficiente de variacin. Posibles valores del coeficiente de variacin De 0 a 10% De 10 a 20% De 20 a 30% De 30 a 40% De 40% o ms Ejemplo de coeficiente de variabilidad 1. Dada una base de datos de jvenes recin egresados de secundaria, se tomaron las variables de edad en aos y peso en libras. Se calcularon sus respectivas medias y desviacin estndar. Media aritmtica 22.20 135.17 = 100 = Desviacin estndar 2.72 25.21 Grado en que la media es representativa Altamente representativa Bastante representativa Tiene representatividad Dudosa representatividad Carece de representatividad

Edad (aos) Peso (libras)

Calcular los respectivos coeficientes de variacin y comparar. Solucin. En la edad En el peso = 100 =
. . . .

100 = 12.20%

Dada que la base de datos donde se obtuvieron estos resultados (jvenes recin egresados de secundaria), el resultado es bastante lgico: indica que las edades son bastantes similares, por lo que no era de esperarse mucha dispersin, en cambio el peso est determinado por el rgimen de dieta de cada quien. 2. La edad de los estudiantes regulares que acuden a un cierto curso en los turnos matutino y vespertino del nivel de licenciatura de cierta universidad se describe en las siguientes dos muestras: Matutino: Vespertino: 23 27 29 34 27 29 22 28 24 30 21 34 25 35 26 28 27 30 24 29

100 = 18.65%

Si la homogeneidad de la clase es un factor positivo en el aprendizaje, utilice una medida de variabilidad relativa para sugerir cual de los grupos ser ms fcil de ensear. Solucin Matutino Vespertino Media aritmtica 24.8 30.4 Desviacin estndar 2.48 2.88 CV 10% 9.46%

Lic. Sal Quintanilla Estadstica I Grupo 04-06-13

REGLA EMPIRICA Y TEOREMA DE CHEVYSHEV


Teorema de Chevyshev Nos permite inferir el porcentaje de elementos que deben quedar dentro de una cantidad especfica de desviaciones estndar con respecto a la media; esta relacin se aplica sin importar la forma de la distribucin. Para cualquier grupo de observaciones (muestra o poblacin), la proporcin de los valores que se 2 encuentran dentro de k desviaciones estndar de la media es por lo menos 1 1/k ; donde k > 1 representa reas. Para encontrar los lmites simtricos que representan esta proporcin de datos se aplica la frmula:

Es decir El lmite inferior es Li =

El lmite superior es Lsup = Ejemplos 1.

Calcular rea segn el valor de k. a) Si k = 1.5 b) Si k = 2 c) Si k = 3

2.

Supongamos que las calificaciones del examen parcial de una muestra de 100 estudiantes en un curso de Estadstica obtuvieron una nota promedio de 7.0 y una desviacin estndar de 0.5. a) Qu porcentaje de estudiantes obtuvieron entre 6 y 8 inclusive? b) Cuntos estudiantes obtuvieron nota entre 6 y 8 inclusive?

REGLA EMPIRICA Una de las ventajas del teorema de Chevyshev es que se aplica a cualquier conjunto de datos, independiente de la forma de la distribucin de los mismos. Sin embargo, en las aplicaciones prcticas se ha encontrado que muchos conjuntos de datos tienen una distribucin en forma de campana como se muestra en la siguiente figura. Cuando se cree que los datos tienen aproximadamente esta distribucin se puede aplicar la regla emprica para determinar el porcentaje de elementos que deben estar dentro de determinada cantidad de desviaciones estndar con respecto a la media aritmtica.

Lic. Sal Quintanilla Estadstica I Grupo 04-06-13


La regla emprica Para datos con distribucin en forma de campana Aproximadamente el 68% de los elementos estn a menos de una desviacin de la media. Es decir 1 Aproximadamente el 95% de los elementos estn a menos de dos desviacin de la media. Es decir 2 Aproximadamente el 99% de los elementos estn a menos de tres desviacin de la media. Es decir 3

-3

-2

-1

68% 95% 99%

+1

+2

+3

Medidas de asimetra Es una medida de forma de una distribucin que permite identificar y describir la manera como los datos tiende a reunirse de acuerdo con la frecuencia con que se hallen dentro de la distribucin. Permite identificar las caractersticas de la distribucin de datos sin necesidad de generar el grfico.

TIPOS DE ASIMETRA

Lic. Sal Quintanilla Estadstica I Grupo 04-06-13

La asimetra presenta las siguientes formas: Asimetra Negativa o a la Izquierda.- Se da cuando en una distribucin la minora de los datos est en la parte izquierda de la media. Este tipo de distribucin presenta un alargamiento o sesgo hacia la izquierda, es decir, la distribucin de los datos tiene a la izquierda una cola ms larga que a la derecha. Tambin se dice que una distribucin es simtrica a la izquierda o tiene sesgo negativo cuando el valor de la media aritmtica es menor que la mediana y ste valor de la mediana a su vez es menor que la moda, en smbolos < < Nota: Sesgo es el grado de asimetra de una distribucin, es decir, cunto se aparta de la simetra.

Simtrica.- Se da cuando en una distribucin se distribuyen aproximadamente la misma cantidad de los datos a ambos lados de la media aritmtica. No tiene alargamiento o sesgo. Se representa por una curva normal en forma de campana llamada campana de Gauss (matemtico Alemn 1777-1855) o tambin conocida como de Laplace (1749-1827).Tambin se dice que una distribucin es simtrica cuando su media aritmtica, su mediana y su moda son iguales, en smbolos = = Asimetra Positiva o a la Derecha.- Se da cuando en una distribucin la minora de los datos est en la parte derecha de la media aritmtica. Este tipo de distribucin presenta un alargamiento o sesgo hacia la derecha, es decir, la distribucin de los datos tiene a la derecha una cola ms larga que a la izquierda. Adems cumple la siguiente relacin: < < Empezando con la asimetra, es lgico pensar que si la distribucin tiene moda nica y es simtrica, entonces las tres medidas de centralizacin coinciden. Si no es simtrica, suele suceder la mediana esta comprendida entre la moda y la media aritmtica. Medidas de simetra o asimetra. Miden la mayor o menor simetra de la distribucin. Dos medidas de este tipo, son: ndice de simetra de Pearson: =

O bien

Lic. Sal Quintanilla Estadstica I Grupo 04-06-13


ndice de Simetra de Fisher:

Poblacin

Muestra

Serie Simple 1 [ = = 1 [

Serie Agrupada 1 [ = = 1 [

Si la distribucin es simtrica, ambos ndices son iguales a cero, si es asimtrica a la derecha (positiva), ambos son positivos; y si es asimtrica a la izquierda (negativa), ambos ndices son negativos.

Medidas de Curtosis

Lic. Sal Quintanilla Estadstica I Grupo 04-06-13

Esta medida determina el grado de concentracin que presentan los valores en la regin central de la distribucin. Por medio del Coeficiente de Curtosis, podemos identificar si existe una gran concentracin de valores (Leptocrtica), una concentracin normal (Mesocrtica) una baja concentracin (Platicrtica). La curtosis es una estadstica que nos indica el nivel de elevacin (agudeza, picudez o apuntalamiento) de los datos en comparacin a la curva Normal. Cuando hablamos de elevacin de los datos me refiero a que tan altos son las barras en un histograma de frecuencias en comparacin a la curva Normal. Frmulas para calcular el coeficiente de curtosis (g 2) Serie Simple Poblacin Muestra =
[

Serie Agrupada =
[

Hay varias frmulas pero la ms conocida y utilizada es Si g 2>0 decimos que los datos son leptocrticos (ms elevados que la curva Normal) Si g 2=0 decimos que los datos son mesocrticos (igual de elevados que la curva Normal) Si g 2<0 decimos que los datos son platicrticos (menos elevados que la curva Normal)

Lic. Sal Quintanilla Estadstica I Grupo 04-06-13


Ejemplo En una zona rural se cuenta con informacin muestral relativa al consumo de electricidad en KW-hora. La informacin se muestra en la tabla siguiente:

Gasto diario de transporte 0.4 0.8 1.8 2 2.5 3 5 Total

No. De estudiantes 50 250 375 100 20 15 5 815

x*f 20 200 675 200 50 45 25 1215

(x- )2*f 59.4919643 119.300312 35.8523091 25.9287139 20.3697919 34.1653807 61.5725093 356.680982

(x- )3*f 64.8936887 -82.412363 11.0856219 13.2029648 20.5572439 51.5624764 216.070401 165.172656

(x- )4*f 70.7858764 56.9302581 3.42770151 6.72298205 20.746421 77.8182159 758.234781 994.666236

Promedio Varianza Desv. Estandar Coef. De Asim. Mediana Curtosis


400 350 300 250 200 150 100 50 0 0

1.49079755 0.43818302 0.66195394 2.26976639 2 4.56659411

10

Ejemplo 2

Lic. Sal Quintanilla Estadstica I Grupo 04-06-13

En una encuesta se preguntaba acerca de cunto tiempo le dedican las personas que trabajan a la lectura de peridico del da, las respuestas en minutos, fueron: 0, 10, 10, 10, 15, 15, 15, 15, 25, 25, 30, 30, 30, 45, 45 y 45. Responda a lo siguiente: a) Es representativo el promedio de tiempo de lectura. Comente. b) Haga un polgono de frecuencia y calcule el coeficiente de asimetra y curtosis. tiempo de lectura 0 10 15 25 35 45 Total No. De personas 1 3 4 2 3 3 16 X*f 0 30 60 50 105 135 380 (x-media) -23.75 -13.75 -8.75 1.25 11.25 21.25 (x-media) *f 564.0625 567.1875 306.25 3.125 379.6875 1354.6875 3175
2

(x-media)3*f -13396.48438 -7798.828125 -2679.6875 3.90625 4271.484375 28787.10938 9187.5

(x-media)4*f 318166.5039 107233.8867 23447.26563 4.8828125 48054.19922 611726.0742 1108632.813

Promedio Desviacion estandar coeficiente Asimetria Coeficiente de curtosis

23.75 14.5487686 0.18646557 -1.45345413

4.5 4 3.5 3 2.5 2 1.5 1 0.5 0 0 10 20 30 40 50

11

También podría gustarte