Introduccion A La A
Introduccion A La A
Introduccion A La A
INTRODUCCIN A LA ESTADSTICA
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
I. Barrera Mellado
(Dpto. de Estadstica y Matemtica Aplicadas. Universidad de Salamanca)
J. Martn Rodrguez
(Instituto de Bachillerato "Francisco Salinas". Salamanca)
P. Tardguila Garca
(Instituto de Bachillerato "Francisco Salinas". Salamanca)
"NDICE"
II
pg.
1
2 2 2 3 3 3 5 5 6 10 10 24 24 28 29 31 32 36 42 44 44 50 50 50 51 53 53 56 57 57 60
1.1.7 Momentos
1.1.7.1 Momentos centrales (respecto a la media aritmtica) 1.1.7.2 Momentos con respecto al origen
62 63 63 64 66 67 67
III
IV
109 110 111 114 114 115 115 113 117 120 123 124
2.1.4 Probabilidad conjunta, marginal y condicional 2.1.5 Teorema de la probabilidad total 2.1.6 Teorema de Bayes
El teorema de la probabilidad total y el teorema de Bayes en el contexto del anlisis de decisiones clnicas 2.2. Ampliacin
2.2.1 Toma de decisiones en Medicina 2.2.2 rbol de decisiones
173 174 174 175 179 181 183 184 186 186 187 188 190 190 191 192 194 194 195 196
VI
213 214 225 228 230 231 231 231 234 236 239 239 241 241 244 246 247 248 249
4.1.8 Clculo del tamao muestral para estimar la media de una poblacin con una determinada precisin
251 252 253 255 224 256 259 260 260 261 261 261 262 262 264 264 265
VII
276 277 278 278 278 279 279 280 282 282 283 283 285 287 287 288 290
4.4.5.1 Contraste para el parmetro p de una distribucin Binomial 290 4.4.5.2 Contraste para la igualdad de los parmetros de dos distribuciones binomiales 291
4.5. Ampliacin
4.5.1 Introduccin y motivacin 4.5.2 Contraste para la media de una poblacin normal
4.5.2.1 Planteamiento general 4.5.2.2 Varianza (desviacin tpica conocida) 4.5.2.3 La potencia de un contraste 4.5.2.4 El p-valor del contraste 4.5.2.5 Los contrastes unilaterales 4.5.2.6 Varianza desconocida 4.5.2.7 Contrastes para muestras grandes
293 294 294 294 296 301 303 304 308 311 312
4.5.3 Contraste para la diferencia de medias de dos poblaciones normales con datos independientes
VIII
4.5.3.1 Planteamiento general 4.5.3.2 Varianzas conocidas 4.5.3.3 Varianzas desconocidas pero iguales 4.5.3.4 Varianzas desconocidas y distintas 4.5.3.5 Contrastes de comparacin de medias para muestras grandes 4.5.3.6 Obtencin de datos para la comparacin de medias 4.5.3.7 Contraste para datos apareados 4.5.3.8 rbol de decisiones para la comparacin de medias de dos poblaciones normales 4.5.3.9 Contraste para la comparacin de la tendencia central cuando las poblaciones no son normales 4.5.3.10 Comparacin de varias poblaciones. Introduccin al problema de las comparaciones mltiples 4.5.3.11 Validacin de las hiptesis de partida
312 314 316 319 320 320 322 324 325 328 330
IX
5.2. Ampliacin
5.2.1 Aspectos de inters
5.2.1.1 Tipo de contraste 5.2.1.2 Tablas poco ocupadas 5.2.1.3 Causas de la significacin
6.1.4 Correlacin
6.1.4.1 Prueba de independencia de dos caracteres cuantitativos 6.1.4.2 Relacin entre r 2 y R 2 6.1.4.3 Distribucin del coeficiente de correlacin muestral
352 353 354 356 357 359 367 370 370 371 371
373 374 375 376 378 6.2.4.1 Interpretacin de la ecuacin de regresin 378 6.2.4.2 Descomposicin de los valores observados en sus dos componentes 379 6.2.4.3 Criterio de los mnimos cuadrados 380 6.2.5 Estimadores de los parmetros: mtodo de mxima verosimilitud 381 6.2.6 Propiedades de los estimadores mnimo-cuadrticos 382 6.2.7 Contraste de significacin del modelo global: anlisis de la varianza en los modelos lineales 384 6.2.8 Medida de la bondad del ajuste: el coeficiente de determinacin 388 6.2.9 Suma de cuadrados explicada por un grupo de variables: contrate para un grupo de parmetros 389 6.2.10 El coeficiente de correlacin parcial 390 6.2.11 Contrastes e intervalos de confianza para cada uno de los parmetros por separado 391 6.2.12 Ajuste de un modelo: los programas de ordenador 392 6.2.13 Seleccin de subconjuntos de variables (mtodos paso a paso) 394 6.2.13.1 Seleccin ascendente (forward selection) 394 6.2.13.2 Seleccin descendente (backward selection) 394 6.2.13.3 Regresin paso a paso 395 6.2.14 Prediccin en el modelo lineal general 395 6.2.15 Introduccin de variables cualitativas en un modelo de regresin mltiple 396 6.2.15.1 Variables ficticias (dummy) 397 6.2.15.2 Interpretacin del modelo con variables ficticias 398 6.2.15.3 Variables ficticias para ms de dos grupos 399 6.2.15.4 Variables ficticias en presencia de interaccin 400 6.2.16 Validacin de las hiptesis bsicas del modelo 404 6.2.1 Introduccin 6.2.2 Forma muestral del modelo 6.2.3 Hiptesis del modelo 6.2.4 Estimadores de los parmetros: mtodo de los mnimos cuadrados
XI
6.2.16.1 Los grficos de residuales como herramienta de diagnstico 6.2.16.2 Linealidad de la relacin 6.2.16.3 Homocedasticidad (igualdad de varianzas) 6.2.16.4 Autocorrelacin
6.4.3 Diagnstico
6.4.3.1 Clculo de los valores propios de la matriz de correlaciones 6.4.3.2 Estudio de los vectores propios de la matriz de correlaciones entre las regresoras 6.4.3.3 Clculo del "Condition index" y del "Condition number" 6.4.3.4 Factores de inflacin de la varianza (VIF) 6.4.3.5 Incremento en el error de cada regresora 6.4.3.6 Identificacin de las variables involucradas en el problema de la colinealidad
432 433 433 433 435 435 435 436 437 437 438 438 438 439 440
"ESTADSTICA DESCRIPTIVA"
d) Anlisis estadstico, a travs de mtodos facilitados por la Estadstica Matemtica, para tratar de verificar hiptesis sobre regularidades que pueden detectarse en las etapas previas.
numricas, sin que puedan establecerse ninguna relacin de orden entre ellas,
por ejemplo: las profesiones laborales, el estado civil, la ideologa poltica, el sexo, etc. Escala ordinal: el carcter estudiado es de tipo no numrico, pero se
pueden establecer algn tipo de orden entre las distintas categoras. Este es el caso del nivel de estudios (primarios, medios, superiores), los tipos de clases sociales (baja, media, alta),etc. Escala de intervalo: puede establecerse alguna unidad de medida y
cuantificar numricamente la distancia existente entre dos observaciones. Es la escala cuantitativa, encontrndose en este caso gran nmero de variables entre ellas, como por ejemplo: salarios, presupuestos, gastos, etc. Escala de proporcin: son aquellas variables en las que adems de una
unidad de medida, se fija un punto origen, que marca el cero. En este tipo pueden considerarse la edad, el peso, el nmero de unidades en stock en un inventario, etc.
variable en el conjunto de todas las observaciones de la misma. En general la frecuencia absoluta del dato xi se representa por f i Frecuencia relativa: es el cociente entre la frecuencia absoluta y el nmero
total de datos u observaciones. El nmero total de datos lo representamos por n, y la frecuencia relativa del dato xi se representa por hi Se verifica por lo tanto: hi = fi/n Frecuencia absoluta acumulada: es la suma de las frecuencias absolutas de
los valores inferiores o iguales al considerado. Evidentemente los valores de la variable deben de estar ordenados en forma creciente. En general, la frecuencia absoluta acumulada del dato xi se representa por Fi Evidentemente, la ltima frecuencia absoluta acumulada coincide con el tamao de la muestra. Se verifica pues:
F i = !f j
j=1 i
acumulada y el nmero total de datos u observaciones. Anlogamente a la anterior, los valores de la variable deben de estar ordenados en forma creciente, es decir, la escala debe de ser numrica o, al menos, ordinal.
La ltima frecuencia relativa acumulada es 1. Generalmente la frecuencia relativa acumulada del dato xi de la variable se representa por Fi, y verifica:
Hi =
F i j=1 = n n
!f j
! fi = n
i
2 Todas las frecuencias absolutas son positivas y menores o iguales que n . 0 fi n 3 La suma de las frecuencias relativas es 1:
! hi = 1
i
4 Todas las frecuencias relativas son positivas y menores o iguales que 1: 0 hi n 5 La frecuencia absoluta acumulada correspondiente a un valor de la variable se obtiene sumando la frecuencia absoluta acumulada del valor anterior, con la frecuencia absoluta del dato.
DISTRIBUCIN DE FRECUENCIAS Llamaremos distribucin de frecuencias al conjunto de los valores que toma una variable, junto con sus frecuencias correspondientes. As pues, para determinar una distribucin de frecuencias debemos conocer todos los valores xi de la variable y cualquiera de las columnas de frecuencias (pues el paso de una a otra es inmediato).
Distinguiremos dos tipos fundamentales de distribucin de frecuencias: las no agrupadas en intervalos y las agrupadas en intervalos. La distribucin de frecuencias no est agrupada en intervalos cuando cada valor de la variable tiene asociado su frecuencia. Pero ocurre frecuentemente, sobre todo en variables de tipo continuo, que el nmero de valores distintos que toma la variable es demasiado grande; en este caso, para mayor comodidad en el tratamiento de la informacin, parece aconsejable agrupar esos valores en intervalos, teniendo en cuenta que lo que ganamos en manejabilidad lo perdemos en informacin de la distribucin. En la agrupacin en intervalos hay que tener en cuenta tres aspectos: a) Que el mximo de informacin se obtiene en la recogida de datos y que sta se pierde al agrupar en intervalos. b) Las distribuciones agrupadas en intervalos no se presentan realmente as, sino que es el investigador el que las agrupa para manejar mejor los datos. c) Al agrupar hay que tener en cuenta las frecuencias. Un intervalo queda determinado por sus extremos y, en general, el intervalo isimo se representa por [Li-1,Li), donde Li es el extremo superior del intervalo y Li-1 el extremo inferior del mismo. Llamaremos amplitud del intervalo, ai, a la diferencia entre sus extremos superior e inferior: ai = Li - Li-1 Esta amplitud puede ser constante para todos los intervalos, o variable, aunque es ms cmodo que sea constante. Cuando un investigador decide agrupar los datos en intervalos se encuentra con dos cuestiones iniciales: 1.- Cmo se debe tomar la amplitud, constante o variable? 2.- Cuntos intervalos conviene tomar ? La respuesta a estas pregunta depende de la naturaleza del problema, y aunque hay muchas reglas escritas en los textos de estadstica, en la prctica suelen resultar estriles.
Posteriormente se hace un recuento de los datos que corresponden a cada intervalo, para determinar la frecuencia de cada uno de ellos. Aparece un problema cuando un dato coincide con alguno de los extremos de los intervalos; como regla general, se toman los intervalos cerrados por la izquierda y abiertos por la derecha [Li1,Li),
es decir, se incluirn dentro del intervalo los datos que coincidan con el extremo
inferior del mismo, y se excluirn de ste los que coincidan con su extremo superior, incluidos, por lo tanto, en el intervalo posterior. Para evitar este problema de incluir o no incluir los datos en los intervalos, los extremos se suelen tomar con un decimal ms que los de los datos, siendo, normalmente este decimal un 5. Por ltimo cabe destacar que tomaremos como representante de cada intervalo su punto medio, que denominaremos marca de clase, y designaremos por ci. As la marca de clase del intervalo [Li-1,Li) ser:
ci =
EJEMPLO 1.1:
L i!1 + Li 2
Investigados los precios por habitacin de 50 hoteles de una ciudad, se han obtenido los siguientes resultados: 7000 8000 5000 10000 7000 7000 12000 3000 5000 7500 3000 4000 8000 8000 5000 5000 12000 4000 7000 7500 4000 500 8000 5000 5000 7000 5000 3000 4000 7000 4000 7500 7000 7000 5000 5000 7000 8000 4000 10000 3000 3000 10000 7000 7500 15000 5000 4000 7500 7000
Determinar la distribucin de precios: a) Sin agrupar en intervalos. b) Agrupadas en 5 intervalos de amplitud constante. Solucin: a) Precio (xi) en miles N de hoteles (fi) 3 5 4 7 5 10 7 11 7.5 8 6 5 10 3 12 2 15 1
b) Precio en intervalos [3000, 5500) [5500, 8000) [8000, 10500) [10500, 13000) [13000, 15500) marca de clase (xi) 4250 6750 9250 11750 14250 N de hoteles (fi) 22 17 8 2 1
10
EJEMPLO 1.2: Supongamos una variable X que presenta los siguientes valores : xi = { a, e, i, o, u } con las siguientes frecuencias: f1 = 1 f2 = 2 f3 =1 f4 = 3 correspondientes a las veces que aparecen dichas vocales en una frase. f5 = 3,
11
Solucin: Podemos presentar entonces la siguiente tabla: xi a e i o u fi 1 2 1 3 3 Fi 1 3 4 7 10 hi 0,1 0,2 0,1 0,3 0,3 Hi 0,1 0,3 0,4 0,7 1
FRECUENCIAS
i
VOCALES
Si lo que queremos representar son las frecuencias acumuladas, se procede igual que en el caso anterior con los ejes cartesianos y levantando sobre cada valor de la variable, una altura proporcional (igual) a la frecuencia acumulada, uniendo mediante trazos horizontales el extremo de cada coordenada con el siguiente; este diagrama recibe el nombre de diagrama de escalera (ver figura 1.2).
12
Los grficos de diagrama de barras y de escalera suelen utilizarse en variables de tipo cualitativo, o en las de tipo cuantitativo discretas. 2 POLGONOS DE FRECUENCIAS PARA DISTRIBUCIONES DE FRECUENCIAS NO AGRUPADAS EN INTERVALOS: Sobre unos ejes cartesianos, anlogos a los anteriores, se levanta en cada valor de la variable una ordenada de altura igual a la frecuencia absoluta (o relativa) de dicho valor, uniendo a continuacin con una poligonal dichas ordenadas. La primera ordenada se une con el cero del eje de abscisas, teniendo en cuenta que si hay algn valor de la variable con frecuencia cero tambin ha de ser considerado y unir dicho dato con los anteriores. Veamos el polgono de frecuencias del ejemplo anterior (ver figura 1.3):
13
FRECUENCIAS ACUMULADAS
10
i VOCALES
Estos polgonos de frecuencias se utilizan cuando la variable es de tipo cualitativo o cuando es de tipo cuantitativo discreta.
3 HISTOGRAMA PARA DISTRIBUCIONES DE FRECUENCIAS AGRUPADAS EN INTERVALOS Se construyen levantando, sobre cada intervalo de la variable, un rectngulo de rea proporcional a la frecuencia absoluta de dicho intervalo. Si los intervalos son de amplitud constante, las alturas de los rectngulos sern iguales a las frecuencias absolutas respectivas, pues al ser las bases iguales las reas son proporcionales a las alturas; pero si las amplitudes de los intervalos son diferentes, las alturas de los rectngulos deben calcularse dividiendo la frecuencia absoluta por la longitud del intervalo; sta se puede representar por ai y vale pues:
f ai = i ci
14
La altura ai correspondera a la frecuencia correspondiente a cada unidad de medida de la variable en cada intervalo, y se le conoce a veces, con el nombre de densidad de frecuencia del intervalo.
EJEMPLO 1.3: La distribucin del saldo de imposiciones en las Cajas de Ahorros viene dada en la tabla siguiente: Saldo 4-6,9 7-8,9 9-14,9 15-29,9 30-59,9 60-99,9 100 Representar el histograma correspondiente Solucin: Como los intervalos son de amplitud no constante, hay que calcular las alturas de los mismos, obtenindose la siguiente tabla: intervalos 4 -6.9 7 -8.9 9 -14.9 15 -29.9 30 -59.9 60 -99.9 100 Total fi 6 7 17 13 4 2 1 50 alturas 2 3.5 2.8 0.8 0.1 0.05 0 Fi 6 13 30 43 47 49 50 hi 0.12 0.14 0.34 0.26 0.08 0.04 0.02 1.00 Hi 0.12 0.26 0.60 0.86 0.94 0.98 1.00 Grados 43.2 50.4 122.4 93.6 28.8 14.4 7.2 360.0 N provincias 6 7 17 13 4 2 1
15
4 POLGONO DE FRECUENCIAS PARA DISTRIBUCIONES DE FRECUENCIAS AGRUPADAS Para construir este grfico se levanta en el extremo superior de cada intervalo una ordenada igual a su frecuencia, uniendo a continuacin dichas ordenadas. La primera ordenada se une al extremo inferior del primer intervalo, prolongando el polgono desde ese punto a la izquierda sobre el eje x, y prolongando tambin por la derecha a partir del extremo superior del ltimo intervalo, con una recta paralela al eje de abscisas. Suele utilizarse esta representacin sobre todo en el caso de que las frecuencias sean acumuladas. En este caso la altura correspondiente al extremo superior del ltimo intervalo, coincide con n, si las frecuencias son absolutas, y con 1 si las frecuencias son relativas.
EJEMPLO 1.4: El polgono de frecuencias acumuladas para el ejemplo estudiado de las distribuciones del saldo de las Cajas de Ahorros viene dado por el grfico que aparece en la figura 1.6:
16
En el caso de representar las frecuencias no acumuladas se procede de diferente forma, uniendo los puntos medios de los lados superiores de los rectngulos del histograma y prolongando por los extremos hasta cortar al eje X en los puntos medios de las bases del primer y del ltimo rectngulo (ver figura 1.7).
Alturas
1 x 10 20 30 40 50 60 70 80 90 100 i
El rea del polgono cerrado resultante es igual al rea de los rectngulos formados mediante el histograma.
17
5 DIAGRAMA DE SECTORES Este caso, en una circunferencia se representan sectores circulares cuyo ngulo central coincida con la frecuencia absoluta (no se puede utilizar para acumuladas) o relativa del elemento, representando, mediante colores o incluyendo dentro de dicho sector el nombre de la clase o elemento a representar. Vale tanto para frecuencias agrupadas, como no agrupadas. Previamente hay que calcular los grados que corresponde a cada elemento multiplicando la frecuencia correspondiente a cada dato por el cociente entre 360 y el total de datos:
gi = f i
360 n
EJEMPLO 1.5: Obtener el grfico de sectores correspondiente a los datos anteriores de las cajas de ahorros: Solucin: intervalos 4 -6.9 7 -8.9 9 -14.9 15 -29.9 30 -59.9 60 -99.9 100 Total fi 6 7 17 13 4 2 1 50 alturas 2 3.5 2.8 0.8 0.1 0.05 0 Fi 6 13 30 43 47 49 50 hi 0.12 0.14 0.34 0.26 0.08 0.04 0.02 1.00 Hi 0.12 0.26 0.60 0.86 0.94 0.98 1.00 Grados 43.2 50.4 122.4 93.6 28.8 14.4 7.2 360.0
18
EJEMPLO 1.6: Los datos siguientes corresponden a gastos de inversin publicitaria en los pases de la C.E.E. durante el ao 1.986 PASES R.F.A INGLATERRA FRANCIA ESPAA HOLANDA ITALIA DINAMARCA BLGICA GRECIA IRLANDA INVERSIN (MILLONES $) 8.234 6.915 4.663 3.000 2.970 2.846 1.084 464 164 127
No se poseen datos de Portugal y Luxemburgo Representar el correspondiente diagrama de sectores Solucin: El grfico de sectores aparece en la figura 1.9:
19
R.F.A INGLATERRA FRANCIA ESPA A HOLANDA ITALIA DINAMARCA IRLANDA BELGICA GRECIA
En este grfico se observa que cuando ciertos datos presentan una frecuencia baja, en relacin con los dems, su sector circular seria no detectable visualmente, por lo que se une con otros de frecuencias tambin bajas, dndole el nombre de "otros", o bien, si es posible, indicando todos los elementos que lo forman.
6 PICTOGRAMAS Son dibujos alusivos a la distribucin que se pretende estudiar y que mediante su forma, tamao, etc., ofrecen una descripcin, lo ms expresiva posible, de la misma. Consideremos el siguiente ejemplo: EJEMPLO 1.7: Representar el pictograma correspondiente a la tabla de datos siuiente:
PASES BRASIL MJICO ARGENTINA VENEZUELA CHILE PERU COLOMBIA ECUADOR URUGUAY BOLIVIA PARAGUAY INVERSIN (MILLONES $) 101.750 100.000 50.300 35.880 20.690 14.300 13.430 7.540 4.990 3.340 1.890
20
Solucin:
BRASIL
MEXICO
ARGENTINA
VENEZUELA
En el caso anterior, el rea de la figura debe de ser proporcional a la frecuencia, aunque existe tambin la posibilidad de que una figura represente un nmero determinado de frecuencias, y entonces contenga este dato. Este tipo de representacin suele utilizarse en las distribuciones cualitativas, como por ejemplo en la siguiente:
EJEMPLO 1.8: El censo ganadero espaol, en el mes de Septiembre de 1.977, segn fuentes del Ministerio de Agricultura, era: GANADO BOVINO OVINO CAPRINO PORCINO EQUINO TOTAL Represente el correspondiente pictograma N DE CABEZAS
(EN MILES)
21
7 CARTOGRAMAS Son los grficos realizados sobre mapas, representando el carcter estudiado en ciertas regiones, sealando las zonas con distintos colores o tramas, poniendo de manifiesto las diferencias existentes entre las regiones del plano. Se suelen utilizar para representar densidades demogrficas de una nacin, la renta per capita, ndices de lluvia, etc.
8 DIAGRAMAS DE PERFIL RADIAL: Se toma un punto de partida y se trazan tantos radios como modalidades tenga la variable estudiada y despus, sobre estos radios, se toma una distancia al centro proporcional a la frecuencia de cada modalidad. Uniendo los puntos extremos de cada radio se obtiene un polgono cerrado, que es el perfil radial. En el ejemplo del censo ganadero en Septiembre de 1977 seria (ver figura 1.12):
22
Caprino Bovino
Porcino
Ovino
Figura 1.12: Perfil radial (Censo ganadero espaol)
9 DIAGRAMAS LINEALES Se utilizan para mostrar las fluctuaciones de un determinado carcter estadstico con el paso del tiempo. Interesa nicamente la altura de la lnea, referida a la base del diagrama, que se levanta con una longitud proporcional al valor del carcter estudiado en dicho mes. Con frecuencia se aprovecha para representar sobre la misma escala varios diagramas lineales muy relacionados entre s. Por ejemplo, ingresos y gastos, nacimientos y defunciones, etc.
1'9
MAYO
JUNIO
JULIO
AGOSTO
4'5
23
El grfico anterior (figura 1.13) reproduce un diagrama aparecido en DIARIO 16, que expresa la evolucin del IPC y la tasa de inflacin durante los nueve primeros meses del ao 1.987. A veces se unen en un mismo grfico varios grupos para considerarlos conjuntamente, compararles y observar donde las distribuciones coinciden o se separan, permitiendo as un anlisis grfico comparativo.
As, el grfico siguiente (figura 1.14) muestra los polgonos de frecuencias porcentuales correspondientes a las distribuciones de ingresos en familias de poblacin blanca y negra en los Estados Unidos.
% 14'0
2'0 0 1000$
2000$
5000$
10000$
15000$
25000$
50000$
24
25
EJEMPLO 1.9: Por ejemplo, sea la variable X que representa los pesos en kilogramos de 10 estudiantes y que presenta los valores: xi={ 54, 59, 63, 64 } con las siguientes frecuencias fi={ 2, 3, 4, 1 }. Calcular la media aritmtica. Solucin: La media aritmtica vendr dada por:
x=
En el caso de que las variables estuvieran agrupadas en intervalos no se podra utilizar dicha expresin, por no saber el valor exacto de la variable, usndose en este caso como xi la marca de clase del intervalo. Vemoslo con el siguiente ejemplo:
EJEMPLO 1.10: Consideraremos la siguiente tabla de distribucin de frecuencias: Intervalo 30-40 40-50 50-60 Total fi 3 2 5 10 Marca de clase 35 45 55
Calcular la media aritmtica de los datos Solucin: Resultar, segn la definicin dada, que
xf 35.3 + 45.2 + 55.5 x=! i i = = 47 n 10
26
No obstante, y dado que la media aritmtica est muy influenciada por los valores extremos de las observaciones, no siempre sirve para representar lo que ocurre en cada una de stas, tal y como puede observarse en el siguiente ejemplo:
EJEMPLO 1.11: La tabla siguiente recoge el nmero total de goles marcados en los ocho primeros campeonatos de liga de primera divisin correspondientes a las temporadas en que han participado en el mismo 20 equipos: Temporada 87-88 88-89 89-90 90-91 91-92 92-93 93-94 94-95 Calcular e interpretar la media aritmtica. Solucin: Calculada la media aritmtica se observa que es 917,75; no obstante, este valor es poco representativo de lo ocurrido en cada temporada, puesto que solamente en los aos 89-90 y 91-92 se obtuvo un nmero de goles prximo a dicho valor, mientras que en el resto de temporadas se obtuvieron bastantes ms ( 92-93, 93-94 y 94-95 ) o bastantes menos ( 87- 88, 88-89, 90-91). Por otro lado qu sentido tiene decir que se marcaron 917,75 goles?, acaso hubo alguna ocasin en la que solamente penetr en la portera el 75% del baln?. Nmero de goles 909 868 921 822 913 954 989 966
27
PROPIEDADES DE LA MEDIA ARITMTICA: 1. La suma de las desviaciones de los valores de la variable respecto a su media es 0.
" x if i
! xn = nx ! xn = 0
2. Si a todos los valores de la variable les sumamos una constante k, la media aritmtica queda aumentada en esa constante. Si consideramos la distribucin ( xi + k, fi ) su media ser:
x' =
' ! xi i=1
fi = n
! (x i
i=1
+ k)
fi = n
! xi
i=1
k f fi + k! i = x + k n i=1 n
3. Si a todos los valores de la variable los multiplicamos por una constante k, su media aritmtica queda multiplicada por esa constante. Para demostrar esta propiedad basta considerar la distribucin ( xik , fi ), su media ser:
k k k f f f x' ' = ! x'i' i = ! ( xi k ) i = k ! xi i = kx n i =1 n i=1 i=1 n
4. Si a una variable X le efectuamos una transformacin lineal de la forma Y = aX + b, con a y b constantes, la media de la nueva variable queda afectada por dicha transformacin lineal:
y = ax + b
28
VENTAJAS E INCONVENIENTES Como ventajas de utilizar la media aritmtica como un promedio para sintetizar los valores de la variable podemos citar las siguientes: - Considera todos los valores de la distribucin. - Es siempre calculable (en variable cuantitativa). - Es nica.
Como inconvenientes de la utilizacin de la media aritmtica cabe citar que, a veces, puede dar lugar a conclusiones errneas, cuando la variable presenta valores muy extremos, que influyen mucho en la media, hacindola poco representativa.
xp = i=1 k
! xi wi
i=1
! wi
xp = i=1 k
! xi f iwi ! f iw i
i=1
29
EJEMPLO 1.12 Veamos un ejemplo de un estudiante que realiza tres exmenes de media hora, una hora y una hora y media respectivamente, obteniendo unas puntuaciones de 50, 80 y70. Por la duracin de los exmenes cabra atribuirles las ponderaciones de 1, 2 y 3 respectivamente. xi Ponderacin 50 1 80 2 70 3
Calcular la puntuacin media del alunno. Solucin: Obtendramos la siguiente media aritmtica ponderada:
x=
G = n x11 x 22 !x kk
Tomando logaritmos quedara: log G =
1" k $ ! f logx % i' n # i=1 i &
Es decir, el logaritmo de la media geomtrica es la media aritmtica de los logaritmos de los valores. En su clculo se suele utilizar esta propiedad. Veamos, por ejemplo, cmo calcular la renta media durante varios periodos de tiempo.
30
EJEMPLO 1.13 Si invertimos 100.000 pts al 3% durante un ao, al 5% durante otro ao y al 8% durante un tercero, cul es la renta media a la que est invertido el dinero durante los tres aos?. Solucin: Cabra esperar que la solucin fuera la media aritmtica de las tres rentas, es decir el 5%, pero la realidad es otra; en efecto: Teniendo en cuenta que:
Se verificar que
1 + r m = 3 (1 + r1)(1 + r 2 )(1+ r3 )
Es decir, que 1+rm es la media geomtrica de las rentas de cada anuales, expresadas en tanto por uno, ms uno. En nuestro problema: 1 + r m = 3 1.03!1.05!1.08 = 1.0497 es decir, el rdito medio es del 4,97% ( media geomtrica de los rditos anuales ), y no el 5% como pareca ser. Veamos otro ejemplo en el que interese utilizar logaritmos. EJEMPLO 1.14 Sea una clase de 22 nios, cuya talla se distribuye del modo siguiente: Talla en cm. Frecuencia Calcular la talla media Solucin: La media geomtrica sera:
G=
22
100 10
120 5
125 4
140 3
100
10
31
log G =
La media geomtrica tiene una ventaja sobre la media aritmtica y es que es menos sensible a los valores extremos. Como inconvenientes principales sealar que tiene un significado estadstico menos intuitivo que la media aritmtica, su clculo es difcil y a veces no se puede calcular (si un valor de la variable es 0).
n A= k 1 ! fi i=1xi
Como ventajas podemos mencionar que intervienen todos los valores de la variable y que, en ciertos casos, es ms representativa que la media aritmtica. Como inconvenientes hay que citar la gran influencia de los valores pequeos y que a veces no se puede calcular (si un valor de la variable es 0). Se suele utilizar para promediar velocidades, tiempos, etc.
EJEMPLO 1.15: Supongamos un mvil que efecta un recorrido de 100 km, en dos sentidos. En un sentido va a una velocidad constante v1 = 60 Km/h y en el otro tambin circula a una velocidad constante v2=70 Km/h y, por tanto, diferente de la anterior.
32
Calcular la velocidad media del recorrido total debemos calcular la media armnica. Solucin: En este caso, si queremos calcular la velocidad media debemos calcular la media armnica.
v= espacio 2s = timpo t1 + t 2
Pero
RELACION ENTRE LAS MEDIAS La relacin existente entre estas tres medias es:
1.1.4.5 Mediana
Es el valor de la distribucin que, una vez ordenados los valores de la variable de menor a mayor, deja igual nmero de frecuencias a su izquierda que a su derecha, es decir, el valor que ocupa el lugar central. Puede entenderse tambin como aquel valor cuya frecuencia absoluta acumulada es n/2.
33
Si la distribucin est sin agrupar, y hay un n impar de trminos, la mediana ser el que ocupa la posicin central. Por ejemplo, si los valores de la variable son {1,2,3,4,5} la mediana sera Me = 3 N par de trminos
Pero si hay un n par de trminos habra dos trminos centrales y se toma como mediana la media aritmtica de ellos. Por ejemplo, si los valores de la variable son {1 , 2 , 5 , 7 , 9 , 10 , 13 , 14} La mediana seria: M e =
7+9 =8 2
DATOS CON FRECUENCIAS Variable discreta Si los datos presentan diferentes frecuencias, el mtodo ms prctico es buscar en la columna de frecuencias acumuladas n/2.
34
Solucin:
n 35 = = 17.5 2 2
La mediana es Me = 7, puesto que desde el que ocupa el lugar 17 hasta el de lugar 26 todos los valores son 7. Es decir, si Fi-1 < n/2 < Fi, entonces, Me = xi
Variable continua o datos agrupados en intervalos En el caso de estar la distribucin agrupada en intervalos (sean o no de la misma amplitud) al buscar el valor que ocupa el lugar n/2 nos encontramos con un intervalo, el intervalo mediano, y no con un dato. Para determinar un nico representante de dicho intervalo como mediana, determinaremos el elemento que en el polgono de frecuencias acumuladas toma de frecuencia n/2.
35
En el grfico de la figura 1.15 se observa la forma de determinar la mediana. La mediana vale: Me = Li-1 + m Como los tringulos ABC Y AB'C' son semejantes, resulta que:
n m 2 ! F i!1 = c i Fi ! Fi!1
por lo tanto:
n ! Fi !1 2 m= ci fi
De lo anterior se deduce que la Mediana se calcula de la siguiente forma:
n ! Fi !1 Me = L i !1 + 2 ci fi
VENTAJAS E INCONVENIENTES Como ventajas de la mediana podemos citar que no est influida por los valores extremos como en el caso de la media, y adems tiene sentido en casos de distribuciones en escala ordinal (datos que pueden ser ordenados), siendo la medida ms representativa de estos por describir la tendencia central de los mismos. Como inconvenientes puede ser la determinacin de sta en los casos de variables agrupadas en intervalos.
36
Clase 1 2 3 4 5
Salario anual 20000 a 25000 25000 a 30000 30000 a 35000 35000 a 40000 40000 a 45000
Solucin:
n 671 = = 335.5 , valor que nos indica que el salario anual mediano 2 2 pertenece a la tercera clase.
Tenemos que La amplitud del tercer intervalo es ci = 5000, luego:
Me = 30000 +
es decir, Me = 321375
1.1.4.6 Moda
Es el valor de la variable que ms veces se repite en una distribucin de frecuencias, es decir, el que tiene mayor frecuencia absoluta. Para calcular la moda, en el caso que la distribucin no est agrupada o est agrupada en intervalos, se procede de forma diferente:
DISTRIBUCIN SIN AGRUPAR EN INTERVALOS DE CLASE La moda es el valor ( o valores ) que presenten mayor frecuencia absoluta.
37
Observando la fila de frecuencias, se ve que Mo = 7 Puede ocurrir que una distribucin presente ms de una moda (bimodal, trimodal, etc.), e incluso que presente una moda absoluta y alguna moda relativa. Las representaciones serian (ver figuras 1.16 y 1.17):
Figura 1.16: Representacin de una distribucin con una nica moda y otra bimodal
38
DISTRIBUCIN AGRUPADA EN INTERVALOS DE CLASE Si la distribucin est agrupada en intervalos, se proceder de forma diferente segn que la amplitud sea constante o no. Amplitud constante Si la amplitud es constante, la mxima frecuencia nos determina un intervalo, el intervalo modal, pero hay que seleccionar un valor de ese intervalo que haga el papel de moda. En este caso hay varios criterios: unos seleccionan el extremo inferior del intervalo, otros el extremo superior y otros la marca de clase, pero habr que tener en cuenta que la moda estar ms cerca del intervalo contiguo de mayor frecuencia.
Es claro que Mo = Li-1 + m . Veamos la determinacin de "m". Dado que los tringulos OAA' y OBB' son semejantes por tener los ngulos iguales, se puede establecer la proporcin:
39
PO AA' m d1 = ! = OQ + PO BB' +AA' ( c i " m ) + m d1 + d2 siendo d1, d2 las diferencias de frecuencias absolutas entre el intervalo modal y los
EJEMPLO 1.19: Calculemos la Moda de la siguiente distribucin: Intervalo 0 - 25 25 - 30 50 - 75 75 - 100 Total Frecuencia 20 40 100 60 220
60 25 = 50 + 15 = 65 60 + 40
Amplitud no constante Si la amplitud de los intervalos es variable, teniendo en cuenta que la altura del rectngulo indica la densidad de frecuencia, el intervalo modal ser el que tenga mayor densidad de frecuencia, es decir mayor altura.
40
fi 6 7 17 13 4 2 1 50
ci 3 2 6 15 30 40 --
Solucin: Primero se procede a buscar la mayor altura: ai = fi / ci Se contina como en el caso anterior sustituyendo la frecuencia por la altura. El intervalo modal es el 7-9, y por lo tanto: d1 = 3,5 - 2 = 1,5 d2 = 3,5 - 2,8 = 0,7 As la moda ser:
Mo = 7 +
VENTAJAS E INCONVENIENTES Como ventajas de la moda cabe citar que cuando la distribucin es de escala nominal (no susceptible de ordenacin) es la medida ms representativa, pues no es posible hacer operaciones con sus observaciones, y por tanto no se pueden calcular las otras medidas. Adems igual que la mediana, no viene influida por los valores extremos de la variable. Como inconveniente cabe citar el modo de calcularla en los casos de variables agrupadas en intervalos y el hecho de que utiliza un nico dato de la distribucin.
41
Calculemos en un ejemplo la media aritmtica, la moda y la mediana de una distribucin para hacernos una idea de cul de ellas es la medida de centralizacin ms representativa en la situacin estudiada.
EJEMPLO 1.21: El sueldo anual de los 25 trabajadores de una empresa viene expresado en la tabla siguiente: Director Gerente Dos ingenieros Tres peritos Cinco encargados Contable Resto plantilla 10.000.000 pts. 6.000.000 pts. 4.000.000 pts. cada uno. 2.500.000 pts. cada uno. 2.000.000 pts. cada uno. 1.800.000 pts. cada uno. 1.300.000 pts. cada uno.
Calcular la media, la moda y la media y efectuar un estudio comparativo de los resultados. Solucin: Calculando la media aritmtica de los sueldos vemos que es de 2.356.000 pts. cantidad que, adems de no ser el sueldo de ningn empleado de la compaa, da una idea poco aproximada de la realidad, toda vez que la mayora de los trabajadores ganan bastante menos de esa cantidad. La moda, por su parte, vale 1.300.000 pts., mientras que la mediana es 1.800.000 pts. Estas dos medidas indican ms claramente la situacin en la empresa, siendo la moda la que mejor resume la situacin.
42
Se procede pues buscando en las frecuencias acumuladas el valor de rn/k, y si la distribucin est agrupada, el cuantil r/k ser:
n ! F i!1 C r k = L i !1 + k ci fi r
43
VENTAJAS E INCONVENIENTES Las ventajas e inconvenientes son las mismas que los de la mediana.
EJEMPLO 1.22: En el ejercicio de la distribucin de salarios, calculemos Q1, Q3, D4, P88 Solucin: Para Q1: como 1.671/4 = 167,75 , el intervalo del primer cuartil es el 25000 - 30000
P88 = 35000 +
88
44
x=
y=
Las dos medias son iguales y sin embargo las dos distribuciones son muy diferentes pues los valores de X estn mucho ms dispersa que los de Y. As pues, para intentar medir la representatividad de una determinada medida debemos de cuantificar la separacin de los valores de la distribucin respecto de dicha medida. As pues, resulta necesario que, para completar la informacin de un promedio (por ejemplo media aritmtica), ste vaya acompaado de uno o varios coeficientes que nos midan el grado de dispersin de la distribucin de la variable con respecto a l. Distinguiremos dos tipos de medidas de dispersin: absolutas y relativas.
45
RECORRIDO O RANGO: Hemos dicho ya que ste es la diferencia entre el mayor y el menor valor de la distribucin:
Re = Max (xi) - Min (xi) Si este recorrido es pequeo respecto al nmero de datos puede entenderse que existe poca dispersin. Tiene el inconveniente de que se ve totalmente influenciado por los valores extremos (con los que se calcula).
RECORRIDO INTERCUARTLICO: Es la diferencia existente entre el tercer y el primer cuartil RI = Q3 - Q1 En esta medida se suprimen el 25% superior e inferior de la distribucin, y por lo tanto no se ve influenciado por los valores extremos, y nos indica la longitud del intervalo en el que estn el 50% central de los valores En algunos casos se utiliza el recorrido semiintercuartlico que se define como la mitad del recorrido intercuartlico. RSI = (Q3 -Q1)/2 DESVIACIN MEDIA: Esta medida de dispersin hace referencia a un promedio, cosa que no hacen las anteriores; puede entenderse como la media de las desviaciones de los datos de la variable respecto al promedio utilizado; no obstante, para evitar que las desviaciones positivas queden compensadas por las negativas y que esta desviacin media resulte igual a 0, (que nos hara pensar que no hay dispersin) se utiliza el valor absoluto de la desviacin de los datos respecto del promedio. As se definir la desviacin media respecto de la media como:
46
k f D x = " xi ! x i n i=1
Las dos nos indicaran la dispersin de los datos respecto del promedio utilizado, en el caso de que sta fuera grande el promedio sera poco representativo.
VARIANZA: Se define como la media de los cuadrados de las desviaciones de los valores de la variable respecto de la media aritmtica, es decir:
k k 2f 2 s2 = " ( xi ! x ) i = " (x i ! x) h i n i =1 i=1
Se utiliza el cuadrado para lograr que todas las desviaciones sean positivas; nos indica la mayor o menor dispersin de los valores de la variable respecto de la media aritmtica, y por lo tanto, su representatividad. Tiene el inconveniente de no venir expresada en las mismas unidades que la variable, sino en el cuadrado de las mismas, por ello se utiliza ms la siguiente.
DESVIACIN TPICA O ESTNDAR: Se define como la raz cuadrada positiva de la varianza, es decir:
s=
i =1
" ( x i ! x)
2 fi =
i =1
" (x i ! x) hi
2
Al ser la raz cuadrada de la varianza viene expresada en las mismas unidades que la variable, lo que la hace ms apta como medida de dispersin que la varianza, siendo en la actualidad la ms utilizada.
47
A menudo, en lugar de dividir entre el tamao de los datos, n, se divide entre n-1, obtenindose la llamada cuasivarianza:
2 = " ( xi ! x )2 s
i=1
fi n !1
y cuasidesviacin tpica:
= s
i=1
" ( xi ! x )
2 fi
n !1
2 = s
n 2 s n !1
cuadrados: s2 0, s0
sumamos a todos los elementos una constante k, obtenemos otra n distribucin de variable x'i = xi + k .
i=1
s2 = " ( xi ! x )
2 fi
48
( i=1
k
k f = " ( xi ! x )2 i = s2 n i=1
una constante, la varianza queda multiplicada por el cuadrado de la constante y la desviacin tpica queda multiplicada por la constante. En efecto: Si tomamos la distribucin x'' = kx i teniendo en cuenta que x' = kx , resulta que i la varianza de la nueva distribucin vale:
k k 2 fi f s' ' 2 = " x'i' ! x' ' = " ( kx i + kx) i = n i=1 n i =1 k f = " k2 (xi ! x )2 i = k2 s2 n i =1
CLCULO PRCTICO DE LA VARIANZA* En la prctica, al calcular la varianza conviene tener en cuenta la siguiente expresin:
La media, la varianza y la desviacin tpica las proporciona directamente cualquier calculadora de bolsillo, luego nomerece la pena hacer perder tiempo al alumno escribiendo tablas con xifi etc.
49
s 2 = " ( xi ! x )
En el ejemplo de datos agrupados en intervalos es: Intervalo 30-40 40-50 50-60 marca de clase 35 45 55 fi 3 2 5 10
x = 470/10 = 47
S2 = 22850/10 -(47)2 = 2285 - 2209 = 76 S = 76 = 8,718
50
COEFICIENTE DE VARIACIN DE PEARSON: Es el cociente entre la desviacin tpica y el valor absoluto de la media aritmtica.
CV = s x
Este coeficiente es adimensional luego permite comparar las dispersiones de dos distribuciones diferentes. A menudo se le suele utilizar en forma de porcentaje, empleando CV =
s 100 x
Obviamente, a mayor CV menor es la representatividad de x , pues la desviacin tpica ser mayor comparada con la media.
1.1.7 Momentos
Existen dos tipos de momentos:
51
Se define el momento central de orden r respecto de la media aritmtica x como la media aritmtica de las potencias de orden r de las desviaciones de los datos respecto de la media:
m r = " (xi ! x )
i=1
r fi
r f a r = ! xr i i i=1 n
52
Existe una relacin entre los dos momentos, que nos da una forma reducida de calcular la varianza:
s = m 2 = " (x i ! x)
2 i =1
2 fi
k 2f 2 2 = " x i i ! x = a 2 ! a1 n i =1 n
53
COEFICIENTE DE ASIMETRA DE FISHER Debemos buscar ahora una medida adimensional que recoja las desviaciones positivas y negativas de los valores respecto de la media. La figura 1.19 nos muestra las distintas distribuciones:
54
g =0
1
g >0
1
_ x
Distribucin simtrica
Mo
g <0
1
Mo
Dado que
i =1
" (x i ! x)
fi =0 n
hay que buscar una medida que venga influida por el signo; sta ser:
m 3 = " (x i ! x)
i =1
3 fi
ya que si la curva es simtrica m3 = 0 si la curva tiene asimetra positiva o a derechas, m3 > 0 si la curva tiene asimetra negativa o a izquierdas, m3 < 0 Para que no tenga dimensin debemos dividirla por una medida con las mismas unidades (cbicas), obtenindose el coeficiente de asimetra de Fisher.
55
m g1 = 33 = s
" (x i ! x) ni i =1
3f
Siendo su interpretacin: Si g1 > 0 la distribucin es asimtrica positiva o a derecha. Si g1 = 0 la distribucin es simtrica. Si g1 < 0 la distribucin es asimtrica negativa o a izquierda.
COEFICIENTE DE ASIMETRA DE PEARSON Otra medida de asimetra es el coeficiente de asimetra de Pearson definido por:
Ap =
x ! Mo s
Teniendo en cuenta que si la curva es simtrica, x = Me = Mo, si la distribucin es asimtrica positiva o a derechas x > Mo y si la distribucin es asimtrica negativa o a izquierdas x < Mo, su interpretacin ser: Ap = 0 la distribucin es simtrica. Ap > 0 la distribucin es asimtrica positiva (derechas) Ap < 0 la distribuciones asimtrica negativa (izquierdas) Tiene el inconveniente de que no puede utilizarse en distribuciones bimodales, por ello Pearson demostr empricamente que
x ! Mo " 3( x ! Me)
por lo que algunos autores utilizan como coeficiente de asimetra de Pearson
Ap =
3( x ! Me) s
56
En la distribucin normal m4 = 3.s4, por lo tanto utilizaremos como coeficiente de apuntamiento o curtosis.
4f " ( xi ! x ) i k
m g 2 = 44 = i=1 s #k 2 " (x i ! x) %i =1 $
fi & n( '
57
Si g2 > 3 la curva es ms apuntada que la normal (leptocrtica). Si g2 = 3 la curva tiene el mismo apuntamiento que la normal (mesocrtica). Si g2 < 3 la curva es menos apuntada que la normal (platicrtica). A veces se utiliza como coeficiente de curtosis:
m g 2 = 44 ! 3 s
y la comparacin ser con 0, obtenindose: g2 = 0 (mesocrtica). g2 > 0 (leptocrtica). g2 < 0 (platicrtica)
NOTA: El clculo de m3 y m4 es ms prctico utilizando las frmulas: m3 = a3 - 3a2a1 + 2a13 m4 = a4 - 4a3a1 + 6a2a12 - 3a14 siendo a1 = x .
58
Llamaremos, pues, concentracin al grado de equidad en el reparto de la suma total de la variable considerada. La concentracin es mxima si uno solo de los elementos recibe el total de la variable, mientras que la concentracin ser mnima o equidistribuida si todos los elementos perciben la misma cantidad. Entre los ndices de concentracin que estudiaremos se encuentran el ndice de Gini y la curva de Lorenz.
u r = ! xif i ,
i=1
pr =
Fr u 100 , q r = r 100 n n
Si representamos los valores pr en el eje de abscisas y los valores qi en el eje de ordenadas, dibujando en el cuadrado de lado 100 los puntos pi y qi, y unindolos, queda determinada una poligonal llamada "curva de Lorenz". Vemoslo en un ejemplo econmico (tengamos en cuenta que lo anterior no es aplicable a todo tipo de variables): Supongamos que tenemos k trabajadores, con salarios x1 x2 ... xk ordenados en sentido creciente. Queremos saber como se reparte la suma total de salarios
S = ! xi
i=1
entre los k trabajadores. La concentracin es mxima si x1 = x2 = ........= xk-1 = 0; xk = S es decir, un solo trabajador recibe todo y el resto nada.
59
La concentracin es mnima si x1 = x2 = .........= xk, es decir, todos los trabajadores reciben lo mismo. Para determinar el ndice de concentracin se forman las columnas siguientes: 1- xifi que denota el salario recibido por los ni trabajadores. 2- Fi columna de frecuencia absolutas acumuladas. 3- ur, acumulador de la primera columna que denota el salario total recibido por los Fr primeros trabajadores, siendo su valor u r = ! xif i
i=1 r
F pr = r 100 n
5- qr, que es el porcentaje del salario total que reciben los Ni primeros trabajadores:
u q r = r 100 n
Si la concentracin fuese mnima, pr = qr igualmente repartida. Si la concentracin fuese mxima, q1 = q2 =..........= qk-1 = 0, qk = 100 La representacin de la curva de Lorenz sera:
60
Los casos extremos nos daran las siguientes grficas (figura 1.22 y b):
qi %
qi %
(a)
pi %
(b)
pi %
Como propiedades de esta curva de Lorenz pueden citarse las siguientes: - La curva es siempre creciente, pues la ordenacin de salarios es de menor a mayor. - La curva empezar en el origen O = (0,0) y terminar en el (100,100)B - La curva est siempre situada por debajo de la diagonal. - La concentracin ser menor cuanto ms prxima est la curva de Lorenz a la diagonal.
" (p i ! q i ) i =1 IG = k !1 " pi i =1
k !1
61
Si la concentracin es mnima (pi = qi) vale 0 y si la concentracin es mxima (q1 = q2 =........= qk-1 = 0) vale 1. As pues el ndice de Gini varia de 0 a 1, siendo menor la concentracin y en consecuencia ms justa y equitativa la distribucin cuanto ms prximo est a cero, mientras que la concentracin ser mayor cuanto ms prximo est a 1 (Ver figura 1.23). Por ltimo cabe sealar, que aunque el ndice de Gini tiene la ventaja de resumir en un solo nmero lo recogido en la curva de Lorenz, a veces, dos distribuciones de aspectos muy diferentes pueden tener dos ndices de concentracin de Gini iguales, como indican las curvas de la figura 1.23.
62
63
Quizs fuese interesante, presentar el tema de las representaciones grficas al alumno, mediante una introduccin desde la perspectiva del lenguaje grfico y de su utilidad y difusin en el mundo que nos rodea. Sera una buena forma de motivarle para que prestase atencin sobre la importancia de saber leer de forma correcta los grficos ms usuales.
64
Figura 1.24.- Importancia y actualidad del lenguaje grfico (Tomada de AVILA-ZARZA, 1993)
65
Figura 1.25: Billete de diez marcos alemanes, en el que est impresa la Curva Normal de Gauss
Tambin es posible encontrarlas ya en obras dirigidas al gran pblico, cuya nica intencin es entretener. As ocurre, por ejemplo, con la conocida novela de ficcin "Parque Jursico" (CRICHTON, M. 1990-92) en la que un Diagrama de perfil - (ver figura 1.26) sirve de base argumental.
Figura 1.26.
Esto se debe a que sin duda, y cada vez con mayor intensidad, nos vemos inmersos en una "sociedad estadstica", entendiendo como tal aqulla en la que los ciudadanos piensan, razonan y toman decisiones en base a anlisis estadsticos de datos.
66
Aunque en Espaa la Estadstica dista an de ocupar un lugar como el que, por ejemplo, tiene en un pas como Japn, donde los peridicos de mayor difusin e importancia incluyen los viernes una seccin dedicada al control estadstico de calidad y en el que, por ejemplo, el diagrama horario del tren de Tokio se presenta mediante un clsico Steam and Leaf (ROMERO, 1991)* , somos en la actualidad espectadores de un cambio significativo. Cada vez en mayor medida se recurre a datos y anlisis estadsticos para transmitir la informacin, siendo los Mtodos Grficos de carcter descriptivo la herramienta de la que no se puede prescindir** . Un claro ejemplo de esta situacin de transicin, se produjo a raz de las elecciones generales realizadas en los dos ltimos comicios en nuestro pas, donde no slo los resultados de las encuestas, sino tambin los aspectos relacionados con aqullas eran objeto de anlisis estadstico, siendo los mtodos grficos las autnticas estrellas en la transmisin de la informacin.
Nos preguntamos, cuntos lectores en Espaa, sin y con conocimientos estadsticos bsicos podran ser capaces de interpretar uno similar...?. ** Todo ello ha motivado no sacrificar en el apartado de mtodos grficos la inclusin de aqullos, que an no siendo histricamente recientes, son an "grandes desconocidos". *** Provervio Chino
67
68
Sin embargo, y a pesar de esta controversia acerca de si el espacio perceptivo coincide con en el espacio matemtico eucldeo, es ste -por aproximacin al espacio fsico- el que generalmente utilizamos para representar el mundo. No obstante, representadas en un espacio Eucldeo, las cosas no son siempre aquello que parecen ser. Como seala PINILLOS (1973 ) "En realidad, lo que ocurre es que la mente humana funciona como una totalidad, y no son los sentidos, sino el sujeto, quien percibe".
ILUSIONES GEOMTRICAS Lo que acabamos de comentar se pone especialmente de manifiesto en las conocidas distorsiones perceptivas o ilusiones geomtricas. (Ver figura 1.27a y b)
Fig. 1.27 (a): Ilusin de Mller-Lyer (dos rectas de igual longitud, parecen de diferente tamao (b): Ilusin de PoggendorfLas lneas oblicuas son colineales
Estas distorsiones perceptivas, conocidas ya a principios de siglo, deberan ser tenidas en cuenta en el contexto de los Mtodos Grficos. Son sin embargo pocos los estudios experimentales realizados que examinan el papel de las distorsiones perceptivas (ilusiones geomtricas) en relacin con la utilizacin de los grficos, y la mayora de ellos no son conocidos por el usuario medio, como afirman SPENCE & LEWANDOWSKY (1990). POULTON (1985) ha investigado ilusiones similares a la clsica de Poggendorf, mediante experimentos que sugieren que las relaciones de lneas inclinadas sobre los ejes vertical y horizontal de los grficos pueden producir errores de lectura, que se incrementan a medida que aumenta la distancia a los ejes.
69
SOLUCIONES PARA MITIGAR LAS ILUSIONES GEOMETRICAS POULTON (1985) propone: que los todos los grficos muestren los cuatro ejes. que todos los ejes estn graduados. INCONVENIENTES DE LAS REPRESENTACIONES GRFICAS Las representaciones grficas tienen ventajas, pero tambin sus inconvenientes. La frase "una imagen vale ms que mil palabras" podra cambiarse por esta otra "una imagen miente ms que 1000 nmeros" (SWOBODA, 1975). Las representaciones grficas deberan proporcionar con una sola mirada aquella idea del material estadstico que vena dada por la comparacin de muchos nmeros y datos. Pero... no siempre es as. Los errores y malentendidos surgen cuando el lector es distrado o no est suficientemente preparado y adquiere una idea que no se corresponde con los datos originales.
10000 9000 8000 7000 6000 9500
9000 I 9% 8% 7% 7500 6% I 5% I/II II/III II III (b) IV 8000 II (a) III IV 8500
III/IV (c) Figura 1.28: La ascensin lenta de la curva (a) pone de manifiesto un crecimiento moderado. Los mismos datos pueden expresar un crecimiento explosivo y optimista (b). Se puede obtener una curva ascendente primero, y descendente despus si se toman los ndices de crecimiento de uno a otro perodo en lugar de los nmeros absolutos (c). (Adaptada de SWOBODA, 1975).
70
No se pueden juzgar nunca las imgenes solas, sino que siempre deben considerarse tambin los nmeros y las escalas.
1.2.3.2 Clasificacin
Existen diversos criterios para clasificar los mtodos de representacin grfica: SNEE & PFEIFER (1985), siguiendo el criterio del propsito del mtodo, realizan una clasificacin de los distintos mtodos grficos en tres grandes grupos: -Grficos utilizados en Anlisis Exploratorios. -Grficos usados en Anlisis Confirmatorios. -Grficos para la Comunicacin y/o Presentacin de los resultados.
71
Esta clasificacin de los Mtodos Grficos, resulta de un gran atractivo por su sencillez y didctica. En la figura 1.29 podemos ver un esquema sobre de las fases del mtodo cientfico en donde tienen cabida las representaciones grficas.
Figura 1.29: Posible implementacin de los mtodos grficos en el proceso del Anlisis de Datos, segn NAGEL & DOBBERKAU (1988)
ALONSO (1982) realiza una clasificacin en funcin de la finalidad estadstica y las caractersticas tcnicas de los distintos mtodos grficos. En ella, stos son clasificados en cuatro grupos de tcnicas. -Tcnicas de Representacin Grfica de la distribucin de Probabilidad, para una o varias variables. -Tcnicas que proporcionan el Perfil (o evolucin) a lo largo del tiempo, o del espacio, etc., de una o varias variables, bien para individuos, bien para poblaciones. -Tcnicas que presentan las proximidades entre individuos y poblaciones, de acuerdo con los valores que toman para varias variables. -Tcnicas que permiten obtener grupos jerarquizados de individuos o poblaciones, en base a los valores que toman para varias variables.
72
En base al procedimiento grfico y la tcnica estadstica subyacente, en el Anlisis Multivariante pueden distinguirse claramente dos grandes grupos de tcnicas grficas: Mtodos Multivariantes Grficos (MMG). Mtodos Grficos Multivariantes (MGM). Los Mtodos Multivariantes Grficos son potentes herramientas de diagnosis basadas en el anlisis de grandes matrices de datos, que mediante complejos procesos algebraicos asentados sobre mtodos numricos, permiten representar la informacin del hiperespacio de partida en un subespacio de dimensiones reducidas. Evidentemente se trata de procedimientos sumamente interesantes, pero que escapan al contenido del presente captulo. Los Mtodos Grficos Multivariantes slo exigen efectuar una transcripcin geomtrica de los datos correspondientes a un conjunto de variables, en una representacin grfica. Este tipo de mtodos permiten resumir la informacin, y constituyen directamente un procedimiento grfico descriptivo. Entre ellos tenemos: Diagramas de Dispersin Mltiple. Figuras de Representacin (Grficos Pictoriales o Iconos). Curvas de Andrews. Estos mtodos sern tratados con mayor profundidad ms adelante. (Ver figura 1.30)
73
se puede mostrar una variacin comn. Son por ello Mtodos Grficos Univariantes Mltiples, ms que multivariantes. Evidentemente, son muchas las posibilidades que permiten las representaciones univariantes en el anlisis de los datos correspondientes a varias variables. Sin embargo, estas representaciones no difieren en sus caractersticas de los mtodos grficos univariantes pero debido a su importancia, popularidad y utilizacin en todos los mbitos, merece la pena hacer referencia a tres tcnicas: Stem & leaf, Box-plot * Diagrama de dispersin** .
Diagrama de Dispersion Mltiple Grficos Pictoriales o Figurativos
Curvas de Andrews
Mapas Estadsticos
Figura 1.30: Algunos Mtodos Grficos Multivariantes (Tomado de AVILA-ZARZA (1993) con permiso del autor)
Ambos son mtodos grficos de gran utilidad en la comparacin de dos o ms series de datos, de ah su importancia dentro del anlisis multivariante ** Mediante esta representacin grfica es como generalmente se presentan los resultados en la mayora de los mtodos multivariantes grficos (MGM).
74
La representacin Stem & Leaf*** es una representacin intermedia entre una tabla y un grfico. Muestra los valores con cifras, aunque su perfil es el de un histograma. Este tipo de representacin se debe a TUKEY (1977). (Ver figura 1.31). Construccin de un diagrama Steam & Leaf 1.- Se debe escribir a la izquierda de una lnea vertical, de arriba hacia abajo, todos los posibles dgitos principales del conjunto de datos. 2.- Luego se representa cada dato a la derecha de la lnea, escribiendo sus dgitos secundarios en la fila apropiada. Lectura del grfico La longitud de cada fila nos muestra el nmero de valores en cada intervalo, por lo que representa esencialmente un histograma lateral, solventando una limitacin del histograma, ya que permite identificar los valores originales de cada intervalo.
La figura siguiente (figura 1.31) muestra el grfico Stem & leaf de los 50 estados de Estados Unidos ordenados segn la variable "voto medioambiental", cuyos datos aparecen en la tabla 1.1. Esta variable mide cmo la delegacin congresista de cada estado vot en relacin a temas de medioambiente durante el ao 1984. Refleja el porcentaje de veces que sus votos estuvieron de acuerdo con las recomendaciones del grupo "The League of Conservation Voters". As el valor de Idaho, 12, significa que el voto de sus representantes estuvo de acuerdo con la liga en el 12% de las ocasiones.
1 2 3 4 5 6 7 8 9
***
75
Se observa claramente cmo el rango del porcentaje vara desde 12 hasta 96. Tambin puede apreciarse como la distribucin es aproximadamente simtrica de modo que el valor mediano (siendo este valor 55%) se encuentra en el intervalo de 50 a 60
(opcionalmente puede indicarse poniendo entre parntesis el tallo correspondiente).
76
Estado Idaho Utah Alaska Wyoming Alabama Mississippi Virinia Nebraska Arizona Arkansas Texas Kansas Louisiana Kentucky N. Carolina Tennessee New Mexido Nevada S. Carolina Colorado Georgia Florida Oclahoma Oregon Indiana
Estado S. Dakota Illinois Montana Missouri Ohio Washington California N. Dakota Maryland Pnnsylvania Hawaii Delaware Michigan W. Virginia Minnesota New York Wisconsin New Hampsh. New Jersey Iowa Maine Connecticut Massachusetts Rhode Island Vermont
Tabla 1.1: Lista ordenada de los votos al congreso de los 50 Estados de EE.UU. en 1984: Porcentaje de acuerdo con "The League of Conservation Voters". (Tomado de HAMILTON, 1990)
Este mtodo tambin es de gran utilidad para la comparacin de dos o ms series de datos, como hemos dicho con anterioridad, representando un diagrama steam & leaf para cada serie. Box-plot Esta representacin grfica, tambin debida a TUKEY (1977), puede ser traducida como Caja con Bigotes o Representacin Caja, aunque se conoce usualmente con el nombre de Box-plot o bien Box and Whiskers plot. Es un mtodo grfico simple para resumir la informacin, proporcionando una rpida impresin de las caractersticas ms importantes de una distribucin.
77
Figura 1.32: Diagrama que muestra un Box-plot, en el que se indican los percentiles que son representados en el grfico
Esta representacin (Figura 1.32), consiste bsicamente en una caja dispuesta verticalmente que 'encierra' el recorrido intercuartlico; es decir, la lnea inferior indica el primer cuartil (25 percentil), y la lnea superior seala el tercer cuartil (75 percentil). Otra lnea intermedia marca el 50 percentil o Mediana as como su posicin relativa en relacin al rango intercuartlico. Los Whiskers (bigotes), o lneas que se prolongan verticalmente, marcan los valores extremos en algunos casos. En grandes conjuntos de datos, marcan el 10 y 90 e incluso 5 y 95 percentil. Usualmente, los 'bigotes' indican el 10 y 90 percentil, siendo sealados los puntos extremos o aberrantes ("Outliers"), con pequeos crculos o estrellas* . Una variante del mtodo anterior es la que se conoce con el nombre de Notched Box-plot (McGILL et al, 1978), y que puede observarse en la Figura 1.33; dicha variante no es ms que un 'Box-plot con muescas', siendo las muescas la indicacin del intervalo de confianza para la medida de tendencia central usada, es decir, la Mediana. Ambos mtodos son especialmente convenientes para comparar dos o ms conjuntos de datos.
*
Usualmente aparece as implementado en la mayora de los programas de ordenador, por ejemplo en el programa Stat-View 4.01 (ABACUS, 1993)
78
Figura 1.33: Diagrama de un Notched Box-plot, en el que se indica el nuevo valor que es representado.
En el grfico de la figura 1.34 podemos comparar la presencia (en porcentaje) una especie de lagartija (Podarcis muralis) en tres hbitats diferentes en la Sierra de Guadarrama (tomado de MARTIN-VALLEJO, 1990).
Figura 1.34: Comparacin, mediante Box Plot, del porcentaje que Podarcis muralis presenta en la ocupacin de tres tipos de hbitat en la Sierra de Guadarrama: Talud, Roquedo y Muro (A partir de los datos de MARTN VALLEJO, 1990).
79
Incluso en algunos programas combinan informacin en un mismo grfico, como puede observarse en el siguiente (figura 1.35) realizado con el JMP (SAS Institute Inc. 1989-94), en el cual adems de un Box-plot aparece la informacin sobre la media y su intervalo de confianza.*
Figura 1.35: Grfico obtenido con el programa JMP. Adems de un Box-plot aparece informacin sobre la media aritmtica y su intervalo de confianza.
Diagramas de dispersin Un Diagrama de puntos, ms conocido como Diagrama de Dispersin, es un mtodo simple pero eficiente para ilustrar un determinado comportamiento o bien analizar una distribucin en particular; su finalidad puede ser la de poner de manifiesto una relacin entre variables, analizar proximidades entre individuos y/o poblaciones, localizar outliers... Por ser un mtodo suficientemente conocido, no se realizar un estudio detallado de dicha representacin, si bien -dada su importancia- se comentarn algunas de las posibilidades que permite en el estudio de datos multivariantes. La informacin visual de un diagrama de dispersin puede ser incrementada mediante varias herramientas adicionales (CHAMBERS & KLEINER, 1982); por ejemplo, mediante un Box-plot paralelo marginal para cada variable. (Ver figura 1.36).
80
25 SA 20
.
AV
PASTIZAL
15 LE 10 BU 5 VA 0 0 10 SO
SG ZA P
20 BARBECHO
30
Figura 1.36: Diagrama de Dispersin, con Box Plot paralelo marginal, de la superficie de cultivo dedicada a Barbecho y Pastizal, en las provincias de Castilla y Len. (A partir de los datos del Anuario de Estadstica Agraria, 1990)
Para representar las relaciones entre ms de dos variables, una posibilidad es aadir una tercera, obteniendo as un Diagrama de Dispersin Tridimensional, como se muestra en la figura 1.37.
Figura 1.37: Diagrama de Dispersin Tridimensional, de la superficie de cultivo dedicada a Barbecho, Prado y Herbceo en las provincias de Castilla y Len. (A partir de los datos del Anuario de Estadstica Agraria, 1990)
81
Existen sistemas grficos de ordenador (SYSTAT, JMP, SPSS), que permiten mediante la opcin denominada 'SPIN'- la 'exploracin multivariante' de estas representaciones tridimensionales, al rotar la nube de puntos alrededor de cualquier eje en la pantalla, y visualizar de este modo todos los puntos, y sus posiciones relativas. El resultado puede llegar a ser realmente espectacular con el uso del color en la representacin. De acuerdo con los modernos Analistas de Datos (GABRIEL (1971) entre otros), esta importante innovacin grfica constituye una de las ms potentes tcnicas de anlisis visual de datos multivariantes existentes en la actualidad. Quizs sea sta la razn por la cual todos los nuevos 'paquetes grficos' que salen al mercado, incluyan esta opcin. Opcin, por otra parte, que ha sido posible por el desarrollo que en los ltimos tiempos han sufrido los ordenadores; el movimiento en tiempo real de la nube tridimensional exige operar con una gran cantidad de datos con potencia y rapidez.
Matriz de Diagramas de Dispersin Otra forma de representar relaciones entre ms de dos variables, es dibujando pares de variables mediante diagramas de dispersin, que son ordenados en una Scatterplot Matrix , o Matriz de Diagramas de Dispersin (figura 1.38), proporcionando de este modo, en una nica imagen visual, todos los pares posibles; todas las variables. Aunque cada diagrama por separado muestra tan slo dos dimensiones de los datos (no es posible detectar una variacin comn), en ocasiones esta representacin univariante mltiple puede ser efectiva en la deteccin de 'outliers', o patrones de los datos. Los Diagramas de Dispersin Mltiples, nombre con el cual tambin se conoce a este tipo de representacin, son anlogos grficos de las matrices de covarianzas o correlaciones utilizadas en la mayor parte de las tcnicas grficas multivariantes. En este sentido podran considerarse tcnicas grficas multivariantes.
82
Figura 1.38: Matriz de diagramas de dispersin de la superficie de cultivo dedicada a Barbecho, Prado, Herbceo y Pastizal en las provincias de Castilla y Len. (A partir de los datos del Anuario de Estadstica Agraria, 1990)
MTODOS GRFICOS MULTIVARIANTES (MGM) Los Mtodos Grficos Multivariantes, como hemos apuntado con anterioridad, son mtodos que simplemente exigen efectuar una transcripcin geomtrica de los datos (correspondientes a un conjunto de n variables, n>2 ), en una representacin grfica. Constituyen directamente por ello un procedimiento descriptivo. Cmo podemos representar grficamente valores de ms de tres variables en una representacin grfica? Cuando los datos tienen ms de dos o tres dimensiones, la representacin grfica se hace complicada: las dimensiones del plano no son capaces de acoger un mayor nmero de variables que los que acoge la representacin cartesiana convencional, o la tridimensional; por lo tanto se requiere otro tipo de representacin. Existen diferentes mtodos para representar datos multivariantes, prcticamente tantos como autores se han ocupado del tema. No se realizar por ello una revisin exhaustiva ni una descripcin detallada de los MGM; solamente se enumerarn algunas de las tcnicas existentes en la actualidad, y nicamente se expondrn con cierto detalle las ms importantes y actuales que permiten la representacin grfica de entidades definidas por varias variables, como son las Caras de Chernoff (CHERNOFF, 1973), y las Curvas de Andrews (ANDREWS, 1972), o las Gotas de Fourier.
83
Como en todo Anlisis Multivariante, se parte de una matriz de datos que contiene la informacin de los valores que los individuos toman para cada una de las variables a estudiar, que ser la que se representar de forma grfica. Antes de representar dicha matriz pictricamente, debe cuestionarse cual ser el uso que se dar a dicha representacin, y el objetivo final de la misma; teniendo en cuenta, adems, que por lo general sern los individuos las entidades representadas. Todo ello en base a elegir el mtodo de representacin ms adecuado. La prctica totalidad de los Mtodos Grficos Multivariantes que se conocen, no son otra cosa que 'constructos pictricos', (tambin conocidos como grficos pictoriales o figurativos, o simplemente 'Iconos'), formados por elementos geomtricos (puntos, rectas, curvas, tringulos, crculos...) que varan en funcin de los valores que toman las variables en los individuos a los que representan. Algunos de los muchos MGM existentes, son los que aparecen esquematizados en la figura 1.39. (Tomada de AVILA-ZARZA, 1993). Entre los mtodos representados en esta figura, unos se caracterizan porque las variables se representan como longitudes de las componentes grficas; es el caso de los Polgonos o Estrellas (rayos circulares emanando de un origen comn), o los Glifos, (segmentos
que se extienden desde un crculo); la inclinacin de los ojos...),
las variables mediante caractersticas faciales (excentricidad de la cara, la curvatura de la boca o etc..
La mayora de las tcnicas se encuentran ya informatizadas, de modo que el investigador tan slo deber determinar el orden de asignacin de las variables para su construccin.
84
Grficos de veleta
Polgonos o estrellas
Glifos
Gotas de Fourier
Caras de Chernoff
Figura 1.39: Algunos tipos de Mtodos Grficos Multivariantes (tomada de AVILA-ZARZA, 1993)
Interpretacin de las representaciones grficas multivariantes Cada elemento de un icono no puede ser convertido al valor numrico; las transformaciones que en general suelen realizarse, son lo suficientemente complejas para que nosotros podamos interpretar esos valores mentalmente con la simple observacin visual de los mismos. La correcta interpretacin de estos mtodos consiste, fundamentalmente, en buscar grficos similares. Entidades con similares valores para las variables tendrn formas parecidas; y entidades con diferentes valores, presentaran formas diferentes. Esto nos permitir encontrar patrones de variacin similares, en contraposicin con otros tipos de patrn, y por tanto, por ejemplo, establecer grupos o 'Clusters'. Si se desea obtener informacin acerca de los valores de partida, deber volverse sobre los datos originales y examinar los valores correspondientes, y cmo estos determinan los grficos.
85
Polgonos o Estrellas Determinan perfiles configurados por segmentos que parten de un origen comn, y cuya longitud corresponde al valor que -para cada entidad- toma la variable a la cual dicho segmento representa. Las figuras 1.40 y 1.41, son un ejemplo de este tipo de representacin
VIOLACIONES ROBOS
Figura 1.40: Icono de estrella para la ciudad de New York mostrando la asignacin de las variables a cada segmento, para el ejemplo de la figura 1.41
Figura 1.41: Iconos de estrella representando los datos de la criminalidad en diversas ciudades de EE.UU. (datos originales de EVERITT, 1993).
86
Para hacer la representacin ms visible, los extremos de los segmentos pueden ser conectados entre si. El programa de ordenador SYSTAT (WILKINSON & EVANSTON, 1988), presenta los resultados (tras la aplicacin de este mtodo), mediante los polgonos que resultan de la conexin de estos segmentos, pero sin que los mismos aparezcan. Como en otros grficos figurativos, es conveniente ordenar las variables de tal manera que aquellas que estn correlacionadas aparezcan prximas.
Gotas o Manchas de Fourier Se trata de otro mtodo de representacin grfica multivariante (Ver figura. 1.42) Esta est determinada por la funcin de Fourier:
El resultado de esta transformacin es un conjunto de formas onduladas hechas a partir del seno y el coseno, que trasladadas a coordenadas polares, toman el parecido de manchas, gotas o amebas. Cada individuo vendr representado por una gota, de modo que podremos encontrar clusters de individuos "parecidos" cuando las gotas que los representan tengan una forma similar. La forma de las gotas dependen del orden de introduccin de las variables en la funcin de Fourier. La informacin contenida en las gotas de Fourier es la misma que la de las curva de Andrews (que veremos al final del captulo) pero con la ventaja de que no se solapan y pueden ser utilizadas como smbolos en otro tipo de representaciones grficas.
87
Avila
Burgos
Leon
Palencia
Salamanca
Segovia
Soria
Valladolid
Zamora
Figura 1.42: Gotas de Fourier representando las provincias de Castilla Len en cuanto a diferentes variables de produccin agraria. (A partir de los datos del Anuario de Estadstica Agraria, 1990)
Caras de Chernoff No se ra!. Estas son las primeras palabras con las que se presenta a los lectores este mtodo de representacin de datos multivariantes en el manual SYGRAPH, que trata de las representaciones grficas que el programa estadstico para ordenador SYSTAT permite realizar. Quizs porque sta suele ser la primera reaccin de los que desconociendo el mtodo, se encuentran de pronto con caras de rasgos caricaturizados en una ponencia o en un trabajo de investigacin; quizs para contrarrestar la aparente falta de seriedad (argumento esgrimido por sus detractores), que puede inducir a ms de uno a descartarlo sin haberlo tomado en consideracin.
Figura 1.43: Caras de Chernoff correspondientes a las provincias de Salamanca y Valladolid, epresentando la variabilidad de cultivos. (Grfica cedida por VICENTE TAVERA y cols., 1993)
88
El mtodo original, aparecido en el trabajo "Using faces to represent points in k-dimensional space graphically", que fue publicado en 1973 en Journal of the American Statistical Association, se debe a H. CHERNOFF, al que no le caus trauma alguno enfrentarse al reparo psicolgico que los investigadores pronto tuvieron con el mismo (ALONSO, 1982). CHERNOFF (1982) comenta, que buscaba un mtodo grfico sencillo que representara, de forma compacta, un nmero importante de variables, de forma que causase el mximo impacto en el observador, y permitiese un buen contraste y clasificacin de las entidades representadas. De entre todas las posibilidades, eligi las caras para aprovechar la capacidad de reconocimiento del observador humano, que puede discriminar muchas caras diariamente, y por el impacto o reaccin emocional que dichas caras provocan, lo que acenta su poder de captacin de atencin y su carcter nemotcnico. El principio heurstico de las caras de Chernoff est basado, pues, en la capacidad del hombre para reconocer, comparar y agrupar caras. Este procedimiento grfico, que requiere la utilizacin de un programa de ordenador para ser realizado, concentra la informacin de cada individuo en un rostro humano caricaturizado, cuyos rasgos reflejan cada una de las variables o "descriptores" (Figura 1.43). Originalmente, las caras estaban determinadas por 18 parmetros tales como la longitud de la nariz, el tamao de los ojos o la curvatura de la boca (CHERNOFF, 1973.). Los 18 parmetros o facciones que originalmente determinaban el dibujo de las Caras de CHERNOFF, son los que aparecen en la figura 1.44. Estos 18 parmetros son los que se hacen variar, reflejando as el comportamiento de cada una de las variables en todas las entidades o individuos (caras) representados. En la figura 1.45 se esquematiza la serie de parmetros que se hacen variar, lo que permite representar hasta 18 variables.
89
1. Anchura de la cara. 2. Nivel de la oreja. 3. Altura de la cara. 4. Excentricidad de la elipse superior cara. 5. Excentricidad de la elipse inferior cara . 6. Longitud de la nariz . 7. Posicin centro de la boca. 8. Curvatura de la boca. 9. Longitud de la boca. 10. Altura del centro de los ojos. 11. Separacin de los ojos. 12. Inclinacin de los ojos. 13. Excentricidad de los ojos . 14. Longitud ojo. 15. Posicin de las pupilas. 16. Altura de la ceja. 17. ngulo de la ceja. 18. Longitud de las cejas.
Figura 1.45: Parmetros de los Rasgos faciales de las Caras de Chernoff, segn BRUCKNER (1978). A.- Caras originales de CHERNOFF (1973). B.- Variante de DAVIS (1988), que incluye nariz y oreja
Las variaciones de los rasgos caricaturizados dan una apariencia concreta a la cara, que representa un punto en un espacio de 18 dimensiones. En espacios de dimensin menor, es decir, cuando el nmero de variables es menor que el de facciones, se asignan las variables a los primeros rasgos, tomando los rasgos restantes un valor constante para mantener la imagen facial completa (participan en las figuras sin variar), por ejemplo.
90
Cada variable estudiada se asigna a uno de los parmetros que controlan los rasgos, de forma que el valor del parmetro facial sea proporcional al valor que toma la variable en el individuo a representar. Para ello se deja variar el parmetro dentro de un rango de variabilidad preestablecido, de manera que la estructura global mantenga las caractersticas bsicas de una cara. Algunos parmetros faciales varan libremente (dimetro de la oreja), pero la mayora quedan supeditados a la exigencia anterior y dependen de otras caractersticas faciales. La asignacin de cada variable a cada parmetro facial es optativa. Hay usuarios del mtodo que prefieren efectuar una asignacin al azar, mientras que otros establecen una correspondencia intencionada.
Existen otras variantes de caras. La variante de Davis (BRUCKNER, 1978) aade dos variables ms (anchura de nariz y dimetro de orejas). (Ver figura 1.45). EVERITT, en 1978 introduce pelo y boca bidimensional, quizs con la intencin de que resulten menos caricaturescas. NEWTON (1978), dibuja sus caras con ojos rmbicos y nariz ganchuda, etc.
Un programa que permite representar la variante de Davis, es el programa CHER, implementado por ALONSO en colaboracin con M.A. Campos. Otros programas que implementan las Caras son: ASYM: Programa en Fortran. SCHPBACH (1984): Versin para IBM. PC. SAS-Macro con caras asimtricas. Aplicaciones Algunas aplicaciones que se pueden encontrar en la literatura, abarcan casos tan diversos como* :
* Caracterizacin de presas del Guadiana por sus variables ecolgicas (ALONSO, 1982). * Estudio de los resultados de las elecciones municipales en 27 poblaciones catalanas (ALONSO, 1982). * Estudio sobre la poltica sovitica en frica (WANG & LAKE, 1978).
*
Nos ha parecido apropiado incluir estas referencias para que el profesor tenga acceso a un material complementario al que se ofrece en este trabajo
91
* Estudio econmico de las grandes compaas petrolferas (BRUCKNER, 1978). * Clasificacin de tipos de enfermos mentales caracterizados por diversos test (MEZZICH & WORTHINGTON, op. cit.). * Asignacin de caras con distintas actitudes faciales a enfermedades mentales (JACOB, 78). * Agrupacin de distintas ciudades caracterizadas por variables demogrficas y ambientales (HUFF & BLACK, 1978). * Estudio de la polica secreta sovitica (WANG & LAKE 1978). * Estudio de los crteres de la Luna (PIKE, 1974) * Perfiles de la personalidad psiquitrica (MEZZICH & WORTHINGTON, op. cit.) * Variabilidad de Cultivos en la comunidad Castellano-Leonesa (VICENTE TAVERA y col., 1993). (Ver figura 1.46).
ASTURIAS CANTABRIA
VIZ CAYA
PALENCIA BURGOS
VALLA DOLID
SORIA
ZAMORA
GUADAL AJARA
CACE RE S
TOL EDO
Figura 1.46: Cartograma con Caras de Chernoff, correspondiente a las provincias de Castilla-Len, representando la variabilidad de cultivos. (Grfica cedida por VICENTE TAVERA y cols. 1993).
92
Ventajas e inconvenientes. Ventajas 1.- Facilidad de reconocimiento global de la informacin contenida en las caras; se trata de una caracterstica de la percepcin humana confirmada por diversos estudios experimentales. JACOB (1978) demostr que los sujetos sin preparacin o conocimiento de las variables representadas, pueden juzgar con caras con razonable exactitud 2.- Los datos representados pueden ser heterogneos y no se exige ninguna condicin estadstica. 3.- Con este mtodo resulta sencillo efectuar agrupaciones por similitudes de rasgos. 4.- Es una Tcnica que permite concentrar la informacin de todas las variables en una figura muy compacta. Tanto la asignacin intencionada de rasgos, como la subjetividad al seleccionar determinadas facciones para identificar similitudes, puede constituir una ventaja o una desventaja segn las exigencias del trabajo y del observador, ya que otros mtodos aparentemente neutros- tambin presentan riesgos de subjetividad. Diversos autores abogan por una estricta aleatoriedad en la asignacin de rasgos (ALONSO, 1982), as como efectuar diversas asignaciones para corroborar las agrupaciones, evitando as los posibles efectos subjetivos de la clasificacin. Otros, por el contrario, defienden la asignacin intencionada y aprovechar dichos factores subjetivos (HUFF & BLACK; 1978). Inconvenientes 1.- Necesidad de un dispositivo grfico y un programa. 2.- Prdida de informacin directa de los valores concretos de las variables (comn a la prctica totalidad de los MGM). 3.- Dificultad de reconocimiento, cuando se tiene un grupo muy numeroso de caras, o cuando existe un nmero elevado de variables. 4.- Interdependencia de los rasgos que hace que, cuando uno de ellos adopta un valor muy alto, puede modificar otros (que en principio deberan ser iguales a los presentados por otra cara no deformada por dicha interdependencia).
93
BRUCKNER (1978) sugiere la normalizacin de los rasgos (reducirlos a reas limitadas) para evitarlo. 5.- Existencia de rasgos que destacan ms que otros en la discriminacin, por lo que HUFF & BLACK (1978) recomiendan efectuar un anlisis de la varianza y asignar a los rasgos ms significativos (boca, ojos, anchura cara, etc.) las variables con mayor varianza. Una variable puede ser portadora de mayor informacin, si se representa por la curvatura de la boca, que por el tamao de las cejas. 6.- Debe tenerse precaucin a la hora de asignar los rangos de los parmetros faciales, pues si se eligen muy amplios y las variables tienen poca variabilidad no se obtiene discriminacin alguna . En cambio, si no se determinan correctamente los rangos de variabilidad de las variables, puede suceder que los rasgos se salgan de la cara. Curvas de Andrews. ANDREWS (1972) propone un tcnica muy simple, conocida como "Curvas de Andrews", para obtener una representacin visual de datos multivariantes, donde cada punto es representado en una suma de funciones trigonomtricas. Este mtodo, a caballo entre el perfil y la reduccin de la dimensin, consiste en representar a cada individuo, que presenta los valores muestrales (x1, ..., xk) de las variables consideradas, mediante un grafo de la funcin peridica:
f(t) =
para valores de t comprendidos entre - < t < . Este tipo de funciones son fcilmente trazables mediante un dispositivo grfico y un sencillo programa, obtenindose, para los individuos considerados, series de curvas que permiten la interpretacin posterior (Figura 1.47 y 1.48). Los clusters y puntos aberrantes, son revelados por el hecho de que las distancias entre dos funciones son concebidas proporcionales a la distancia eucldea de los objetos en el espacio p dimensional original, por la preservacin de la media y la desviacin. Interpretacin.
94
ANDREWS (1972), destaca el hecho de que cada curva recoge y resume informacin de todas las variables que afectan al individuo, de manera que las diferencias entre individuos para alguna de ellas debe resultar manifiesta en alguna parte de las respectivas curvas.
Figura 1.47: Curvas de Andrews de los porcentajes de nutrientes en distintos productos alimenticios. Recogidos por el Departamento de Agricultura de E.E. U.U.
4000 3000
COMPONENTE DE FOURIER
-90
0 GRADOS
90
180
Figura 1.48: Curvas de Andrews obtenidos por EVERITT, 1993 sobre la criminalidad de diecisis ciudades diferentes de EE.UU.
La conservacin de las distancias eucldeas originales para las curvas permite, segn el autor, afirmar que dos curvas similares a lo largo del recorrido de t corresponden a individuos prximos.
95
Por ello, al analizar un conjunto de curvas se deben buscar aquellos valores de t que permiten identificar o discriminar al mximo algunos grupos de ellos y efectuar, si se cumplen las condiciones necesarias, un contraste para la significacin de la agrupacin. Dado que la primera impresin de un conjunto numeroso de curvas (el autor desaconseja superar las 10) puede resultar desconcertante (figura 1.48), suele realizarse una representacin previa de varias curvas por separado (mejor si se tienen grupos de referencia), de forma que pueden identificarse dichos valores de t que permitan interpretar las proximidades de nuevas curvas que se vayan aadiendo. Como hay variables que estn asociadas a elementos cclicos de la funcin con distinta frecuencia y se discrimina mejor en las curvas las bajas frecuencias, es aconsejable colocar en los valores iniciales (x1, x2, ... ) aquellos correspondientes a las variables ms importantes en la discriminacin, es decir, las que reflejan ms variabilidad. Sin embargo, se carece de informacin acerca de la relacin concreta de las distintas crestas de la curva con los valores de las variables, al perderse toda la informacin directa.
BIBLIOGRAFIA CITADA ABACUS (1993). StatView 4.01. Berkeley. ALONSO, G. (1982). 'Nuevos mtodos de representacin grfica de datos multivariantes. Publicaciones de Bioestadstica y Biomatemtica. 5. Eunibar. Universidad de Barcelona. ANDREWS, D.F. (1972). 'Plots for high dimensional data'. Biometrika, 28: 125-136. ANSCOMBE, F.J. (1973). 'Graphs in statistical analysis'. American Statistician, 27: 17-21. ANUARIO DE ESTADISTICA AGRARIA (1990). Publicado por el Ministerio de Agricultura, Pesca y Alimentacin. Datos correspondientes a 1987. AVILA-ZARZA, C. (1993). Mtodos Grficos Multivariantes y su Aplicacin en las Ciencias de la Vida. Trabajo de Grado. Dpto. de Estadstica y Matemtica Aplicadas. Universidad de Salamanca. BRUCKNER, L.A. (1978). 'On Chernoff faces'. In Graphical Representation of Multivariate Data. (P.C.C. Wang, ed.). pp.: 93-121. Academic Press. CHAMBERS, J.M. & KLEINER, B. (1982). 'Graphical techniques for multivariate data & clustering'. In Handbook of Statistics. 2 (P.R. Krishnaiah, & L.N. Kanal, eds.) Nort-Holland P.C.
96
CHERNOFF, H. (1973). 'The use of faces to represent points in k-dimensional space graphically'. Journal of the American Statistical Association, 68: 361-368. CHERNOFF, H. (1982). 'Chernoff faces'. Encyclopedia of Statistical Sciences. I: 436-438. John Wiley & Sons. New York. CRICHTON, M. (1990-92). Parque Jursico. Ed. Plaza y Jans. DAVIS, F. (1988). La Comunicacin no Vergal. Alianza Editorial. Madrid. EVERITT, B.S. (1993). Cluster Analysis. (3rd. ed.). Halsted Press. New York. EVERITT, B.S. (1978). Graphical Techniques for Multivariate Data. Heinemann Educational Books. London. FIENBERG, S.E. (1977). 'Graphical methods in Statistics'. Tech. Report, 304. Dep. Appl. Statistics. University of Minnessota, 44. GABRIEL, K.R. (1971). 'The Biplot graphic display of matrices with applications to principal component analysis'. Biometrika, 58: 453-467. GETE-ALONSO, J.C. y BARRIO, V. del (1990). Lenguaje Grfico. Alhambra. Madrid. HAMILTON, L.C. (1990). Modern Data Analysis. A First Course in Applied Statiscs. Brooks/Cole Publishing Company. California. HUFF, D.L. & BLACK, W. (1978). 'A multivariate graphic display for regional analysis'. In Graphical Representation of Multiaviate Data (P.C.C. Wang, ed.) pp.: 199-218. Academic Press. New York. JACOB, R.J.K. (1978). 'Facial representation of multivariate data'. In Graphical Representation of Multiaviate Data (P.C.C. Wang, ed.) pp.: 199-218. Academic Press. New York. JMP. (1989-94). SAS Institute Inc. MARTIN-VALLEJO, F.J. (1990). Uso del Espacio y del Tiempo en dos Especies Simptridas del Genero Podarcis (Wagler, 1830). Tesina de Licenciatura. Universidad de Salamanca. MEZZICH, J.E. & WORTHINGTON, D.R.L. (1978). 'A comparation of grpahical representation of multidimensional psychiatric diagnostic data'. In Graphical Representation of Multivariate Data (P.C.C Wang, ed.) pp.: 123-142. Academic Press. New York. McGILL, R.; TUFEY, J.W. & LARSEN, W.A. (1978). 'Variations of Box-plots' Amer. Stat., 32: 12-36. NAGEL, M. & DOBBERKAY, H.J. (1988). 'Graphical methods of exploratory data analysis: An overview'. In Classification and Related Methods of Data Analysis. Elsevier Science P.B.V. Holland. NEWTON, C.M. (1978). In Graphical Representation of Multivariate Data. (Wang, ed.) Academic Press. New York. PIKE, J. (1974). 'Craters on Earth, Moon and Mars: Multivariate clasification and mode of origin'. Earth and Planetary Science Letters, 22: 245-255. PINILLOS, J.L. (1973). La Mente Humana. Salvat. Pamplona. POULTON, E.C. (1985). 'Geometric illusions in reading graphs'. Perceptions and Psichophisics. 37: 543548. ROMERO-VILLAFRANCA, R. (1991). Estadstica: Proyecto de Innovacin Educativa. Dpto. de Estadstica e Investigacin Operativa. Universidad Politcnica de Valencia.
97
ROYSTON, E. (1970). 'Studies in the history of probability and Statistics. A note on the history of the graphical presentation of data'. Biometrika, 43 (3,4): 241; 247. SNEE, R.D. & PFEIFER, C.G. (1985). 'Graphical representation of data'. In Encyclopedia of Statistical Sciences. John Wiley & Sons. New York. SPENCE, I. & LEWANDOWSKY (1990). 'Graphical perception'. In Modern Methods of Data Analysis (J. Fox & J. Scott Long, eds.). Sage Publications. Newbury. SWOBODA, H. (1975). El Libro de la Estadstica Moderna. Ediciones Omega. Barcelona. TUKEY, J.W. (1962). 'The future of data analysis'. Ann. Math. Statist. 33: 1. TUKEY, J.W. (1977). Exploratory Data Analysis. M.A. Adisson-Wesley. Reading. VICENTE,S.; GALINDO, M.P.; VICENTE-VILLARDON, J.L.; MARTIN, A.; BARRERA, I. y FERNANDEZ-GOMEZ, M.J. (1993). 'Anlisis grfico y descripcin estructural de la variabilidad de cultivos en Castilla-Len'. Investigacin Agraria, Vol 8(3):315-329. VURPILLOT, E. (1979). 'Percepcin del espacio'. En La Percepcin (Fraisse & Piaget Eds.). Paids. Buenos Aires. WANG, P.C.C. & LAKE, G.E. (1978). 'Application of grpahical multivariate techniques in poligy sciences'. In Graphical representation of multivariate data (P.C.C. Wang, ed.) pp: 15-38. Academic Press. New York. WILKISON, & EVANSTON (1988-91). SYSTAT. SYSTAT Inc.
98
"REPRESENTACIONES GRFICAS"
99
1.3.1 Objetivo
En este trabajo se pretende aplicar los conceptos descritos en esta unidad temtica, utilizando para ello datos reales tomados de la evaluacin del profesorado universitario durante el curso acadmico 1991-92. Est planteado de forma que pueda ser utilizado como ejercicio de prcticas para los alumnos, como recapitulacin de las ideas de esta unidad.
Apartado 3.- Cinco preguntas relativas al dominio de la asignatura por parte del profesor que la imparte. Apartado 4.- Seis preguntas relativas a la interaccin del profesor con los alumnos. Apartado 5.- Tres preguntas relativas a los exmenes. Apartado 6.profesor. Tres preguntas relativas a la valoracin global del
Para cada uno de los profesores que imparte la asignatura, los alumnos deben rellenar un cuestionario en el que a cada una de las preguntas se le debe asignar una valoracin cuyo rango oscila entre 1 y 5; la puntuacin 1 indica que el profesor no satisface en modo alguno el supuesto de la pregunta y la puntuacin 5 que el profesor satisface plenamente el supuesto. La evaluacin se realiza en horas de clase normal, pasando el cuestionario a los alumnos que en dicho momento se encuentren en clase.
100
Trabajaremos sobre tres preguntas que consideramos importantes: La n 3 del cuestionario: "El profesor est accesible para sus alumnos fuera del horario de clase?" La n 7: "El profesor parece dominar la asignatura que imparte" La n 26: "Piensa que el Profesor que imparte esta asignatura es un buen Profesor" En este caso, vamos a trabajar sobre los resultados de la evaluacin docente obtenidos por un Profesor del Departamento de Estadstica y Matemtica Aplicadas de la Universidad de Salamanca, en las diferentes asignaturas que imparti durante el citado curso acadmico. A este profesor, le llamaremos de ahora en adelante "Mrs. X".
101
Frecuencia
Valor de la variable 1 2 3 4 5 ni
Ampliacin Bioestadstica Bioestadstica (Biologa) Bioestadstica (Medicina) Anlisis de Datos
4 6 2 4 0 16
17 23 19 18 26 103
Tabla 1.2
11 14 29 17 30 101
0 3 5 7 8 23
Frecuencia
Valor 1 2 3 4 5 ni
Ampliacin Bioestadstica Bioestadstica (Biologa) Bioestadstica (Medicina) Anlisis de Datos
(Libre dispos.)
0 0 0 4 12 16
2 3 3 10 85 103
Tabla 1.3
1 3 3 11 83 101
0 0 0 0 23 23
102
Frecuencia
Valor 1 2 3 4 5 ni
Ampliacin Bioestadstica Bioestadstica (Biologa) Bioestadstica (Medicina) Anlisis de Datos
1 0 4 4 7 16
12 8 25 31 27 103
Tabla 1.4
2 7 21 35 36 101
0 0 1 7 15 23
A partir de la informacin suministrada por las tablas anteriores vemos cules han sido los tamaos de las muestras extradas de cada una de las 4 poblaciones en estudio (denotadas con ni (i=1,...,4)).
103
Si quisisemos comparar los resultados para las cuatro asignaturas, podramos presentar el grfico siguiente (figura 1.50):
Est accesible para los alumnos?
40 BIOESTAD. BIOEST. MED. AN. DATOS AMP. BIOEST.
30
frecuencia
20
10
0 1 2 3 PUNTUACION 4 5
A simple vista, parece que es para los alumnos de las asignaturas de Anlisis de
104
Datos y Ampliacin de Bioestadstica, para los que menos disponible est Mrs. X. Sin embargo, los grficos, por dar una informacin ms general que las tablas, son ms susceptibles a alteraciones, conscientes o no, que pueden inducir a error. El lector, debe fijarse atentamente en el grfico, y comprobar que en el eje de ordenadas se ha representado la frecuencia (nmero de alumnos que han dado una determinada puntuacin al profesor en relacin al tem considerado). Esto nos hace observar, con ms detenimiento, y teniendo en cuenta la informacin de las tablas de frecuencias, que el nmero de alumnos de cada muestra no es el mismo, por lo que la representacin de las frecuencias absolutas, no nos permite realizar comparaciones aceptables en dichos casos. Por lo tanto, sera ms conveniente, si lo que quisisemos es comparar las respuestas en las diferentes asignaturas que utilizsemos frecuencias relativas o porcentajes. As, con la utilizacin de stos ltimos, el diagrama de barras correspondiente sera el que se muestra a continuacin (figura 1.51):
Est accesible para los alumnos?
40 BIOESTAD. BIOEST. MED. AN. DATOS AMP. BIOEST.
30
porcentaje
20
10
0 1 2 3 PUNTUACION 4 5
Figura 1.51: Diagrama de barras comparativo para los porcentajes de cada asignatura
Fijmonos por ejemplo, en la puntuacin de 2: En el grfico de la figura 1.50, se observa que el mayor nmero absoluto de alumnos que dan dicha puntuacin son los de Bioestadstica de Biologa. Sin embargo, si nos fijamos en el grfico de la figura 1.51,
105
podemos observar cmo esa interpretacin debe hacerse con cautela, ya que el tamao de la muestra en cada caso es distinto, y as, son los alumnos de Ampliacin de Bioestadstica los que en trminos relativos dan con mayor frecuencia esa puntuacin. (23 de 103 alumnos de Bioestadstica de Biologa, dan una puntuacin de 2, mientras que en ampliacin de Bioestadstica son 6 de 16).
Descriptiva bsica
Asignatura
Ampliacin de Bioestadstica Bioestadstica (Biologa) Bioestadstica (Medicina) Anlisis de Datos n 16 103 101 23 Media 2,375 3,126 3,406 3,87 Desviacin estndar 1,147 1,439 1,336 1,058 Tabla 1.5 Coeficiente de variacin 48,314 46,046 39,211 27,332 Moda 2 5 5 5
Vemos cmo el valor medio de las puntuaciones obtenidas por Mrs. X es mayor
106
en la asignatura de anlisis de datos, siendo el valor medio ms pequeo el correspondiente a la asignatura de Ampliacin de Bioestadstica. Por lo tanto, parece que Mrs. X est ms accesible para los alumnos de la asignatura Anlisis de datos que para los de Ampliacin de Bioestadstica. La mayor variabilidad en la respuesta se da en los alumnos de Ampliacin de Bioestadstica (su coeficiente de variacin es 48.314%) y la menor en la de Anlisis de Datos. Excepto en la asignatura de Ampliacin de Bioestadstica, en la que la puntuacin ms frecuente ha sido 2, en el resto la puntuacin modal ha sido 5.
Descriptiva bsica
Asignatura
Ampliacin de Bioestadstica Bioestadstica (Biologa) Bioestadstica (Medicina) Anlisis de Datos n 16 103 101 23 Media 4,75 4,68 4,703 5 Desviacin estndar 0,447 0,831 0,756 0 Tabla 1.6 Coeficiente de variacin 9,415 17,757 16,066 0 Moda 5 5 5 5
El anlisis de los resultados se hara de igual forma que en el caso anterior. En este caso, cabe destacar la opinin de los alumnos de la asignatura Anlisis de Datos, ya que todos, sin excepcin han dado la mxima puntuacin al profesor Mrs. X. "Es un buen profesor?"
Descriptiva bsica
Asignatura
Ampliacin de Bioestadstica Bioestadstica (Biologa) Bioestadstica (Medicina) Anlisis de Datos n 16 103 101 23 Media 4 3,515 3,95 4,609 Desviacin estndar 1,155 1,282 1,014 0,583 Tabla 1.7 Coeficiente de variacin 28,868 36,486 25,659 12,651 Moda 5 4 5 5
107
En el siguiente grfico (figura 1.52), se han representado las puntuaciones medias para cada asignatura y para cada tem analizado: A la vista de los resultados obtenidos, tras el anlisis descriptivo de los datos, podemos observar cmo los alumnos de las cuatro asignaturas, dan a Mrs. X la mayor puntuacin en el tem de Domina la asignatura? y la menor en el tem Est accesible?.
Figura 1.52
Como hemos apuntado con anterioridad, cualquier paquete estadstico estndar permite realizar una representacin grfica de tipo Box-plot. La figura 1.53 representa los "Box-Plot" para la pregunta "Est accesible para los alumnos?" . Aqu se ha representado un Box-Plot para cada asignatura.
108
5,5 5 4,5 4 3,5 Units 3 2,5 2 1,5 1 ,5 Bioestadstica Bioest Medicina Anlisis datos Ampliacin Bioest.
Figura 1.53: Box plot para los resultados a la pregunta Est accesible a los alumnos?
NOTA: Tal como sealamos, se trata de datos reales, y el Profesor Mrs. X lleva realmente el mismo sistema de atencin para todos los alumnos. Refleja por tanto la "percepcin del alumno", ya que no existan diferencias reales.
109
110
EJEMPLO 2.1: Sea el experimento "lanzar un dado y observar la puntuacin de su cara superior", Obtener el espacio muestral: Solucin: E={1, 2, 3, 4, 5, 6}
Cualquier parte del espacio muestral se denomina suceso, por ejemplo: "salir nmero par" = {12, 4, 6} "salir nmero impar" = {1, 3, 5}
111
Hay algunos sucesos especialmente importantes que pasamos a enumerar: -"Suceso imposible": es el que no se verifica nunca y lo representamos por . - "Suceso seguro": es el que ocurre siempre, es decir, el espacio muestral. - "Suceso contrario": el suceso contrario de A se verifica siempre que no se de A y suele indicarse como AC. - "Sucesos incompatibles": son dos sucesos que no pueden verificarse al mismo tiempo. - "Sucesos compatibles": son dos sucesos que pueden verificarse al mismo tiempo.
A !B
Figura 2.1: Representacin grfica de la UNIN
Interseccin de sucesos: dados dos sucesos A y B de un mismo experimento aleatorio, definimos A ! B como el suceso que se verifica siempre que se verifican A
y B al mismo tiempo. (Ver figura 2.2)
112
A!B
Figura 2.2: Representacin grfica de la INTERSECCIN
EJEMPLO 2.2: Un aficionado a los casinos tiene tiempo para jugar a la ruleta cinco veces a lo sumo. Cada apuesta es de 1000 pts. Empieza con 1000 pts. y deja de jugar cuando pierda las 1000 pts. o cuando gane 3000 pts. Obtener el espacio muestral. Solucin:
113
EJEMPLO 2.3: Se ha observado la distribucin del sexo de los hijos en familias de tres hijos. Sean los sucesos: A: "el hijo mayor es varn" B: "los dos hijos pequeos son varones" Cules son los elementos de A y de B? Solucin A = {VVV, VVH, VHV, VHH} B = {HVV, VVV}
EJEMPLO 2.4: En una encuesta, los resultados del interrogatorio de cada persona se reflejan en una tarjeta. En las tarjetas se consideran el sexo, la edad (mayor o menor de 30 aos), y la respuesta a la pregunta (S, No). Se pide: a) El espacio muestral. b) Formar los siguientes sucesos: A: "Hombre menor de 30 aos" B: "Mujer" C: "Persona mayor de 30 aos que ha respondido s" Solucin:
Para responder a todas las cuestiones, basta tener en cuenta el rbol anterior.
114
Completa la distribucin con las frecuencias relativas. Dobla el nmero de tiradas y observa que las frecuencias relativas tienden a estabilizarse en torno a un cierto nmero. Este hecho es caracterstico de los experimentos aleatorios y suele llamarse "estabilidad de las frecuencias" y el nmero hacia el que tienden se llama probabilidad del suceso. Esta probabilidad ha sido asignada despus de realizar un experimento y se conoce con el nombre de probabilidad "a posteriori".
P( A) =
Cuando asignamos la probabilidad a un suceso sin necesidad de experimentar, se conoce como probabilidad "a priori".
115
( )
El = "sacar dos bolas, una a continuacin de otra que devolvemos a la urna" E2 = "hacemos lo mismo, pero no devolvemos a la urna". Suponemos los siguientes sucesos: A: "salir negra en la l extraccin". B: "salir negra en la 2 extraccin" En ambos experimentos, queremos calcular el suceso A ! B y calcular P( A ! B) : a) Veamos qu ocurre cuando consideramos el experimento E1:
P( A) = 10 20 P(B) = 10 20
P( A ! B) =
P( A ! B) = P( A)P(B)
116
P( A ! B) = P( A)P B A
( )
( )
( )
( )
si P( A) " 0
Anlogamente:
P( A ! B) P AB = P(B)
( )
si P( B) " 0
117
A !B
Figura 2.3: Unin de sucesos
A ! B = (A " B) ! ( A # B) ! ( B " A) A = (A " B) ! (A # B) B = (B " A) ! (A # B) P(A) = P(A " B) + P(A # B) P(B) = P( B " A) + P( A # B)
P( A ! B) = P( A) + P( B) " P(A # B)
EJEMPLO 2.5: Se ha comprobado que en una ciudad estn enfermos con diarrea el 60% de los nios; con sarampin el 50% y el 20% con ambas enfermedades. a) Calcular la probabilidad de que elegido un nio al azar est enfermo con diarrea, sarampin o ambas enfermedades. b) En un colegio con 500 alumnos Cuntos cabe esperar que estn enfermos con diarrea o sarampin?. Solucin: Sean los sucesos: A: "estar enfermo con diarrea". B: "estar enfermo con sarampin".
118
a)
El 90% de los nios tienen alguna de las dos enfermedades. b) 500 x 0,9 = 450 nios que estn enfermos.
EJEMPLO 2.6: Un producto est formado por tres partes A, B y C. El proceso de fabricacin es tal que la probabilidad de un defecto en A es 0,03, de un defecto en B es 0,04 y de un defecto en C es 0,08. Cul es la probabilidad de que el producto no sea defectuoso?. Solucin: P(no defecto en A ! no defecto en B ! no defecto en C) = = (1-0,03) (1-0,04) (1-0,08) = 0,856 La probabilidad de que el producto no sea defectuoso es del 85,6%.
EJEMPLO 2.7: En un centro escolar, los alumnos de C.O.U. pueden optar por cursar, como lengua extranjera, entre ingls o francs. En un determinado curso, el 90% estudia ingls y el resto francs. El 30% de los que estudian ingls son varones y de los que estudian francs son el 40%. Elegido un alumno al azar, cul es la probabilidad de que sea chica?. Solucin: Sean los sucesos: F: "estudiar francs" I: "estudiar ingls" V: "ser varn" M: "ser mujer" Nos piden la probabilidad:
119
( )
120
fi.
f1. f2. N
Designamos por fij el nmero de alumnos del grupo j que tienen el sexo i. Designamos por fi. el total de alumnos del sexo i, y por f.j el total de alumnos del grupo j. Veamos algunos ejemplos de proporciones que podemos utilizar:
f 14 N
f 14 f 1. f 14 f .4
es la proporcin de chicos del grupo 4 que hay en el total de alumnos de dicho grupo.
121
f ij P Ai ! Bj = N
A las probabilidades P( Ai ) y P Bj probabilidades marginales.
( )
f1 j N f ij
j=1 5
P( Ai ) = !
j=1 N
P( Ai ) = " P Ai ! Bj
j=1 2
) )
P Bj = " P A i ! B j
i =1
( )
Podamos interesarnos por conocer la probabilidad de A1 suponiendo que ocurre B2, es decir, la proporcin en la que se encuentran los chicos en el grupo B2. f P( A1 B2 ) = 12 f .2 Este tipo de probabilidades las conocemos con el nombre de probabilidad condicionada.
P Ai B j =
f ij f .j
f ij N f. j N
P Ai ! B j P Bj
( )
P Ai B j =
P A i ! Bj P Bj
( )
Tomando como base lo expuesto anteriormente, definimos la probabilidad condicionada de la siguiente manera:
122
P( A ! B) = P( A B)P(B)
Por simetra:
P( A ! B) = P( B A)P(A )
Diremos que los sucesos A y B son dependientes si P(A/B)=P(A), es decir: P( A ! B) = P( A)P(B) Supongamos que en todos los cursos hay chicos y chicas que practican algn deporte y sea B el suceso "alumno/a que practica algn deporte". Recordamos que B1...B5 son los sucesos relacionados con los grupos. Suponemos conocidas P( B B1)...P( B B5 ) , pretendemos saber la probabilidad de que elegido un alumno/a al azar, sea deportista.
123
Entonces:
P( B1 B) =
P(B1 ! B) P(B)
La P(B) la tendramos calculada por el teorema anterior . El "Teorema de Bayes", que enunciaremos a continuacin, es el que nos va a permitir calcular estas probabilidades.
124
P Bj B =
P Bj ! B P Bj P B B j = P(B) P( B)
( )(
siendo
No es ms que una aplicacin de las probabilidades condicionadas. La expresin fue desarrollada por el reverendo Thomas Bayes (1702-1761).
EJEMPLO 2.8: El despertador de Javier no funciona muy bien, pues el 20% de las veces no suena. Cuando suena, Javier llega tarde a clase con probabilidad 0,2, pero si no suena, la probabilidad de que llegue tarde a clase es 0,9. a) Determine la probabilidad de que llegue tarde a clase y haya sonado el despertador. b) Determine la probabilidad de que llegue temprano a clase. c) Javier ha llegado tarde a clase, Cul es la probabilidad de que haya sonado el despertador?. Solucin: Sean los sucesos:
P( A ! B) = P( A)P(B A ) = 0, 8 0, 2 = 0,16
125
b)
P( B ) = 1! P(B)
B = (B " A ) # (B " A )
P( A B) =
P( A ! B) P( A)P(B A) 0, 2 0, 8 = = P( B) P(B) 0, 34
P( A B) = 0, 47
EJEMPLO 2.9: De un determinado pas, el porcentaje de declaraciones fiscales que son correctas es del 60%, 40% y 80% segn se trate de industriales, profesionales liberales o asalariados. Se sabe que del total de declaraciones el 10% son de industriales y el 20% de profesionales liberales. Se van a realizar 1500 inspecciones. a) Cuntos industriales, profesionales liberales y asalariados han de ser inspeccionados si se desea que la inspeccin sea proporcional a la probabilidad de declaracin incorrecta en cada categora socio-profesional?. b) Compara esta distribucin de las 1500 inspecciones con la que se tendra en el caso de hacerla proporcional al nmero de declaraciones de cada categora? Solucin: Sean los sucesos: A: "La declaracin corresponde a un industrial" B: "La declaracin corresponde a un profesional liberal" C: "La declaracin corresponde a un asalariado" D: "La declaracin es incorrecta" a)
126
4 12 14 30 1500 / 30 = 50
b) Industriales P. Liberales Asalariados Total 10 20 70 100 Modelo 1 Industriales P. Liberales Asalariados 200 600 700 Modelo 2 150 300 1050 1500 / 100 = 15 10 15 = 150 20 15 = 300 70 15 = 1050 1500
127
"EL TEOREMA DE LA PROBABILIDAD TOTAL Y EL TEOREMA DE BAYES EN EL CONTEXTO DEL ANLISIS DE DECISIONES CLNICAS"
2.2 Ampliacin
128
El anlisis de decisiones clnicas permite a los mdicos examinar decisiones mdicas complejas con la misma precisin y claridad que la resonancia magntica o la tomografa computerizada brindan a las exploraciones anatmicas.
Stefen G. Pauker.
Jefe del Servicio de Decisin clnica, Departamento de Medicina. Centro Mdico de Nueva Inglaterra. Facultad de Medicina de Tufts, Boston. Tiempos Mdicos N403. 1989
129
consultar con otros compaeros con ms experiencia o revisar la literatura en busca de publicaciones que evalen la eficacia y seguridad de los distintos tratamientos. Generalmente la experiencia personal no es suficiente para valorar
probabilsticamente las ventajas e inconvenientes del tratamiento y lo mismo puede ocurrir con la opinin de otros colegas; es preciso combinar la experiencia con la revisin crtica de la literatura. Un anlisis de decisin exhaustivo, incluyendo la revisin completa de la literatura clnica pertinente, puede llevar mucho tiempo. En todas aquellas situaciones en las que la toma de decisiones es complicada podremos utilizar lo que en epidemiologa, y por supuesto en Estadstica, se conoce como anlisis de decisiones clnicas. En los centros hospitalarios en los que existe una Unidad de Anlisis de Decisiones, aproximadamente en 48 horas, el mdico cuenta con un diagnstico altamente probable; un tiempo de respuesta comparable al de los otros servicios de consulta. Esta tcnica sigue una serie de pasos secuenciales: crear un rbol que recoja la secuencia lgica del problema, asignar probabilidades a las ramas, asignar utilidades a cada curso de accin, combinar las probabilidades de cada consecuencia y analizar si nuestra decisin sigue siendo la ptima aun cuando se produzcan cambios razonables en la probabilidad o en la utilidad de cada rama del rbol (anlisis de sensibilidad).
130
El primero es disear un rbol de decisin que especifique explcitamente el conjunto de estrategias disponibles y los resultados ms relevantes. Identificaremos las decisiones, es decir las acciones sobre las que el clnico tiene control, con cuadrados, los sucesos fuera del control del decisor, con crculos, y los resultados con rectngulos. El rbol parte de un nudo del cual salen diversas opciones que conducen a las posibles alternativas de los acontecimientos ajenos a la voluntad del decisor (estados de la naturaleza). El nudo de decisin corresponde al momento en el que el decisor tiene bajo su control elegir una u otra serie de acciones. El curso natural de los acontecimientos transcurrir, en gran parte, sin someterse a la voluntad del decisor. Las distintas posibilidades que emergen de una situacin dada arrancan de un nudo de azar, representado por un crculo. El resultado final correspondiente a cada rama del rbol es representado por un rectngulo o nudo terminal en cuyo interior se representa la realidad pertinente. El valor de cada resultado se conoce como utilidad asignada. La ramificacin del rbol puede ser dicotmica, tricotmica o multicotmica; es decir, de cada nudo de azar pueden partir dos, tres, o ms ramas. Una trayectoria o camino, en un rbol de decisiones, es una secuencia particular de acciones. El segundo paso del anlisis de decisin es concretar la probabilidad de cada suceso en trminos numricos, desde cero hasta uno. En el diagrama, de acuerdo con el postulado de exhaustividad, la suma de probabilidades de cada una de las ramas de los nudos de azar, ser la unidad. De un nudo pueden partir k ramas (sucesos inciertos) A1, A2, ..., Ak, cada una con probabilidades pi y resultado Xi, siendo posible evaluar la utilidad media del nudo.
131
El tercer paso es asignar una utilidad a cada resultado; es decir a cada una de las consecuencias de un curso de accin. La medida de las preferencias del enfermo para cada una de las consecuencias de los cursos de accin, se llama utilidad. Para calcular la utilidad esperada de las diversas alternativas se suman los productos de los valores de los resultados, por la probabilidad de cada una de ellas. (Folding back). La utilidad esperada representa la esperanza matemtica de la utilidad asignada a las ramas parciales del rbol. La estrategia elegida ser aqulla que proporcione el mximo de utilidad esperada.
El ltimo paso debe ser efectuar un "anlisis de sensibilidad" sobre el modelo de decisin, variando una o varias probabilidades. Si la estrategia recomendable cambia conforme vara la probabilidad de un suceso, se dice que la decisin es sensible a dicha probabilidad y por tanto, la estrategia recomendada cambia a un cierto umbral de probabilidad. Si la estrategia recomendada no vara dentro de un rango de incertidumbre razonable, es posible recomendar dicha estrategia con mayor confianza. Una de las ventajas fundamentales de los rboles de decisin es que no se olvida ningn curso de accin relevante y adems se explicitan todas sus consecuencias. Obviamente, no necesariamente hemos de hacer lo que propone el rbol; quin toma las decisiones somos nosotros y no el rbol. Lo que ocurre es que disponemos de una ayuda explcita en la que basar o justificar nuestra conducta, incluso ante posibles demandas legales, tema ste que preocupa hoy da a muchos profesionales de la medicina.
132
Con fines didcticos desarrollaremos un ejemplo tpico tomado de la literatura, convenientemente adaptado. (Para ms detalles, consultar: Weistein, M.C. & Fineberg, H.V. (1980) Clinica Decision Analysis. Ed. Saunders Company.)
133
"EL TEOREMA DE LA PROBABILIDAD TOTAL Y EL TEOREMA DE BAYES EN EL CONTEXTO DEL ANLISIS DE DECISIONES CLNICAS"
134
El doctor duda entre actuar inmediatamente (Decidir ahora), o mantener 6 horas al paciente en observacin y actuar segn la evolucin (Esperar 6 horas). El doctor sabe por los datos que constan en el Servicio de Urgencias que: p(A1) = 0.03 p(A2) = 0.13 p(A3) = 0.84. Ante cualquiera de las tres posibles soluciones hay un suceso que puede producirse y es que el paciente puede morir (M). El mdico conoce adems que 27 de cada 1000 pacientes que tienen su apendicitis perforada mueren si se opera inmediatamente: P(M/A1)=0.027, y conoce tambin que P(M/A2) = 0.001 y P(M/A3) = 0.0007. P(M/A1)=0.027 P(M/A2) = 0.001 P(M/A3) = 0.0007
En caso de no operar (No Operar) esos valores cambian considerablemente ya que 500 de cada mil mueren tanto si la apendicitis est inflamada, como si est perforada, y ninguno muere si se trata de un dolor inespecfico. El mdico dispone de la informacin similar para el caso en que la decisin sea
135
esperar seis horas, la cual aparece recogida en el rbol que se adjunta, en el cual aparece tambin reflejada la informacin descrita ms arriba. La lectura del resto de la informacin del rbol es sencilla: por ejemplo, cuando se mantiene a los pacientes en observacin se sabe que un 13% empeoran (Empeorar), un 36% permanece con los mismos sntomas (Estable) y un 51% mejoran (Mejorar). En caso de empeorar la probabilidad de que la apendicitis est perforada es de 0.25, la probabilidad de que est inflamada es 0.75, y la probabilidad de que se trate de un dolor inespecfico es cero. El n de individuos que mueren depende, obviamente, de la decisin del mdico. Si tras un periodo de observacin el paciente empeora y la decisin fue no operar, 500 de cada mil de los que tienen apendicitis perforada mueren, pero si la decisin es operar, solo mueren 27 de cada mil. La lectura del resto de las ramas del rbol es similar. (Ver figura 2.4).
P(M) = P(M !A1) + P(M! A2 ) + P(M! A3 ) = = P(M A1 )P(A1 ) + P(M A2 )P(A 2 ) + P(M A3 )P(A3 )
136
(0.03) (0.13)
27 1 0.7 500 500 0 27 1 0.7 500 500 0 27 1 0.7 500 500 0 27 1 0.7 500 500 0
Dines (0.00) Perf Operar Esperar 6 horas Estable (0.36) F Inf (0.017) (0.066)
Dines (1.00)
Figura 2.4: rbol de decisin para el ejemplo de la apendicitis. Adaptado de Weistein & Fineberg (1980)
137
Consideremos la rama superior del rbol de decisiones y analicemos la informacin relativa al nudo aleatorio B (ver figura 2.5):
Perf (0.03) Operar Decidir ahora B Inf (0.13)
27 1 0.7
En este caso,
P(M) = 0.027 !0.03 + 0.001! 0.13 + 0.0007 ! 0.84 = 0.00153 = 1.53
B , la conclusin es:
138
Para el nudo
2 No operar
Perf C Inf
(0.03) (0.13)
500 500 0
Dines (0.84)
En este caso:
P(M) = P(M A1 )P(A1 ) + P(M A2 )P(A 2 ) + P(M A3 )P(A3 ) = = 0.5! 0.03 + 0.5! 0.13 + 0.084 !0 ! 0.84 = = 0.015 + 0.065 = 0.08
Por tanto, para el nudo , la conclusin es:
Teniendo en cuenta la informacin para los dos nudos aleatorios de la rama superior del rbol, podemos efectuar la asignacin al nudo decisional 2 (figura 2.8):
139
De entre las dos anteriores, la peor estrategia sera la asociada al nudo nmero esperado de muertos es considerablemente ms bajo. Descartamos pues la rama que lleva al nudo
luego
, y le asignaremos al nudo 2 el correspondiente a la rama que lleva a decir, el resultado sera (ver figura 2.9):
; es
La conclusin relativa a la rama superior del rbol es, pues: En caso de "decidir ahora", la decisin ptima es "operar". Los nudos de azar D, E; F, G; H, I, llevan un anlisis idntico, tomando en cada caso los datos del rbol adecuados y los resultados obtenidos son (ver figura 2.10):
140
500 E 1.71
1.71 4
Operar
0.1 5
Operar
0.1 No operar I
Las conclusiones parciales, correspondientes a los nudos decisionales son, pues: Nudo
Si el mdico decidi esperar y durante las horas de observacin, el paciente empeora, la estrategia ptima es operar.
Nudo Si el mdico decidi esperar y durante las horas de observacin, el paciente permanece con los mismos sntomas, la estrategia ptima es operar.
141
Nudo Si el mdico decidi esperar, y durante las horas de observacin el paciente mejora, la estrategia ptima es no operar.
El ltimo paso es analizar la informacin correspondiente al nudo de azar informacin disponible es la siguiente (figura 2.11):
la
142
Descartamos, pues, la rama superior, y aconsejaremos como estrategia ptima, tras el anlisis:
143
144
145
Cuando la variable aleatoria toma un nmero finito o infinito numerable* de valores, diremos que es una "variable aleatoria discreta". Veamos ejemplos: En el caso del lanzamiento de un dado perfecto, la variable aleatoria X= "nmero que sale en la cara superior" puede tomar los valores X={1, 2, 3, 4, 5, 6} con probabilidades P(X)={1/6, 1/6, 1/6, 1/6, 1/6, 1/6}. Si consideramos la variable aleatoria X= "nmero de varones en una familia de dos hijos", X={0, 1, 2} y P(X)={1/4, 1/2, 1/4}.
(Observar el espacio muestral del experimento aleatorio).
En general diremos, que una variable aleatoria discreta estar identificada si conocemos sus posibles valores X = {x1 , x 2 , ..., x n } y sus respectivas probabilidades P(X = x i ) = P i
A toda regla que permita asociar a cada valor xi de la variable aleatoria su probabilidad Pi, la llamaremos "funcin de probabilidad". Tal funcin de probabilidad puede venir dada por una tabla: X P(X) o bien por una frmula matemtica. Tambin podemos definir la variable aleatoria a travs de la "funcin de distribucin".
F(X) = P(X ! x)
0 1/4
1 1/2
2 1/4
Un conjunto infinito A se dice que es numerable si se puede establecer una aplicacin biyectiva f entre el conjunto de los naturales y A.
146
F(X) no es ms que la probabilidad de que la variable X tome valores menores o iguales que x. En el ejemplo anterior:
F(0) = P(X ! 0) = P(X = 0) F(1) = P(X ! 1) = P(X = 0) + P(X = 1) F(2) = P(X ! 2) = P(X = 0) + P(X = 1) + P(X = 2)
De un modo general, a toda tabla, grfica o expresin matemtica que indique los valores que puede tomar una variable aleatoria y las probabilidades con que los toma, se llamar "distribucin de probabilidad de dicha variable aleatoria". El concepto de variable aleatoria proporciona un medio para relacionar cualquier resultado con una medida cuantitativa.
E [ X] = x1 p1 + x 2 p 2 +... +x n p n
La esperanza de una variable aleatoria X tambin se representa por , y se llama media de la distribucin. Por tanto, "esperanza de la variable aleatoria" y "media de la distribucin" son expresiones equivalentes.
= ! p ix i = E[ X]
i=1
El conocimiento de la media de la distribucin no es suficiente para caracterizar la distribucin, ya que hay distribuciones con la misma media y distintas unas de otras.
147
Para medir la dispersin de los valores de una variable aleatoria X respecto de su media , se define el siguiente estadstico llamado varianza:
V [X ] = E ( x ! )
]
2
Es decir:
V[X] = (x1 ! ) p1 + ( x2 ! ) p2 +...+ ( xn ! ) p n
2 2
Puesto que la varianza no podra medirse en las mismas unidades que la variable, utilizamos la raz cuadrada de la varianza y a este nmero la llamamos desviacin tpica.
Desv[ X] = V[X]
Desv[ X] =
(x1 ! )2 p1 + ( x2 ! )2 p2 +...+( xn ! )2 p n
EJEMPLO 3.1: Calcular la media y la varianza del nmero de hijos varones de una familia con dos hijos. Solucin: E={VV, VH, HV, HH} X={0, 1, 2}= "nmero de hijos varones de una familia con dos hijos"
P1 = P(X = 0) = 1/ 4
148
EJEMPLO 3.2: Tras una intervencin quirrgica de un tipo determinado, el equipo mdico mantuvo en el hospital a unos pacientes cinco das y a otros ocho. De stos ltimos no regres ninguno al hospital y el coste de cada uno ascendi a 90.000 pts., mientras que de los dados de alta a los cinco das, las dos terceras partes no regresaron al hospital y el coste por cada individuo fue de 50.000 pts. El otro tercio restante tuvo que regresar al hospital ocasionando unos gastos totales por individuo de 150.000 pts. En trminos puramente econmicos, es preferible dar de alta a los enfermos a los cinco o a los ocho das?. Solucin: Se trata de calcular el coste promedio en ambos casos. En el supuesto de que los pacientes estn ingresados 8 das, el coste promedio es de 90.000 pts., y en el supuesto de que los pacientes estn 5 das, la variable aleatoria se distribuye de la siguiente forma: X P(X) El coste promedio en este caso ser: 50.000 2/3 150.000 1/3
149
150
- La clasificacin de las piezas fabricadas por una mquina, considerando xito las piezas aceptables y fracaso las piezas defectuosas. En este caso p y q se asignan haciendo un estudio de gran nmero de piezas.
Diremos que un experimento sigue un modelo binomial si, en cada ejecucin, slo hay dos posibles resultados (E y F), las pruebas son independientes y la probabilidad de xito es constante. La idea es la de construir un modelo de asignacin de probabilidades de estas caractersticas. Llamaremos variable aleatoria binomial a: X = "nmero de xitos en n pruebas" Se pueden asignar probabilidades mediante un diagrama en rbol:
COMIENZO 1 PRUEBA 2 PRUEBA 3 PRUEBA RESUL. PROB.
p p p
E
E EE EE F E FE EF F
FEE FEF F FE FF F
q
F
p q
F
q p
F E
p q
q p
F E
151
Construir el rbol puede ser una tarea larga y conviene buscar una frmula general para un experimento binomial. Convengamos en identificar todos aquellos resultados que tienen el mismo nmero de xitos. Tras n pruebas nos encontraramos con:
EE...E ! " p n ! EE...EF ! " np n#1q ! EE...EFF! " n(n # 1)pn#2 q2 ! ............................................. EF...F ! " npq n#1 ! FF... F ! " q n !
Las distintas probabilidades son los sumandos del desarrollo del binomio (p+q)n, por lo que:
! n$ P( X = r ) = # p r q n& r "r%
Convenimos en designar al experimento binomial con n pruebas, siendo p la probabilidad de xito, como B(n,p).
EJEMPLO 3.3: Se lanza un dado 7 veces. Calcular la probabilidad de obtener 3 seises. p = P(E) = 1/6 n=7 q = P(F) =5/6 Solucin: X = "nmero de seises que aparecen al lanzar un dado 7 veces". K=3
152
EJEMPLO 3.4: Calcular la probabilidad de obtener al menos una cara, al lanzar una moneda cinco veces. Solucin: X = "nmero de caras que se obtienen al lanzar una moneda cinco veces" P(x>1) = P(x=2)+P(x=3)+P(x=4)+P(x=5) Utilizando el suceso contrario: P(x>1) = 1-P(x1) = 1-(P(x=0)+P(x=1)) = = 1 - 1/2 1/2 1/2 1/2 1/2 - 1/2 1/2 1/2 1/2 1/2 EJEMPLO 3.5: Supongamos que en un departamento de control de calidad se examinan lotes de cuatro artculos y se sabe que la probabilidad de que un artculo sea defectuoso es P(D)=1/10 (por lo que la probabilidad de que sea aceptable es P(A)=1-P(D)=9/10). Definimos la variable aleatoria de manera que a cada elemento del espacio muestral, le asociamos el nmero de piezas defectuosas. x={0,1,2,3,4}. Calcular la probabilidad asociada a cada valor de la variable. Solucin: Calculamos sus probabilidades:
153
P(x = 2) =
EJEMPLO 3.6: Hallar las probabilidades del experimento binomial B(4,1/3). Solucin:
! 4$ ! 1$ 0 ! 2 $ 4 P(x = 0) = # = 0,1975 " 0% " 3% " 3 % !4 1 1 2 3 P(x = 1) = # $ ! $ ! $ = 0, 3951 " 1% " 3% " 3 % ! 4$ ! 1 2 ! 2 2 P(x = 2) = # " $ " $ = 0, 2963 " 2% 3% 3 % ! 4$ ! 1 3 2 P(x = 3) = # " $ = 0, 0988 " 3% 3 % 3 ! 4$ ! 1 4 P(x = 4) = # " $ = 0, 0123 " 4% 3 %
EJEMPLO 3.7: En una empresa de fabricacin de automviles se ha observado que el 2% presenta algn defecto. Calcular la probabilidad de que en una muestra aleatoria de 5 automviles se encuentren a lo sumo dos defectuosos. Solucin: La variable X = "nmero de automviles defectuosos", sigue una B(50,0'02).
P( X ! 2) = P(X = 0 ) + P( X = 1) + P(X = 2) = " 50% " 50 " 50 $ (0, 02) 0 (0, 98)50 + $ % (0, 02)(0, 98)49 + $ % (0, 02)2 (0, 98) 48 # 0& #1& #2&
154
A medida que aumenta el valor de n se complican los clculos y es conveniente utilizar tablas.
... 10
...
...
...
...
Si estamos en una B(5,0'45), buscaremos el 5 en la columna de n y si nos piden P(X=4), dentro del grupo n=5, buscamos r=4. En la fila de p buscamos 0'45 y en la confluencia de la horizontal y la vertical, tendremos el valor de la probabilidad. Podemos encontrarnos con un problema en el caso de ser p>0'5, pues no puede emplearse la tabla directamente, sino que tendremos que tener en cuenta la siguiente propiedad:
155
VARIANZA:
! 2 = V[ x] = # ( x " ) pi = npq
2 i=1
DESVIACIN TPICA:
! = npq
EJEMPLO 3.8: Supongamos que tenemos cinco instrumentos y que sabemos que en promedio un determinado instrumento est averiado uno de cada diez das. Cul es la probabilidad de que en un da ms de tres instrumentos estn averiados?. Cul es el nmero esperado de instrumentos averiados al da?. Solucin: Nuestra variable ser: X = "nmero de instrumento averiados en un da" Slo hay dos posibles sucesos: E: Estar averiado F: No estar averiado. X ~ B(n=5, p=0'1) La funcin de densidad ser:
156
!5 !5 P( x = r) = # $ p r q 5&r = # $ 0,1r 0, 95& r " r% " r% P( x > 3) = P(x = 4 ) + P(x = 5) = 4 ! 5$ ! 5$ = # p 4q + # 0,150, 9 0 = 4, 6 10&4 " 4% " 5% E [x] = np = 5 0,1 = 0, 5
Se avera un instrumento cada dos das.
EJEMPLO 3.9: La probabilidad de que un estudiante obtenga el ttulo de Licenciado en Biologa es 0'3. Hallar la probabilidad de que de un grupo de 7 estudiantes matriculados en primer curso: a) Ninguno de los siete finalice la carrera. b) La finalicen todos. c) Al menos dos acaben la carrera. Asimismo, hallar la media y la desviacin tpica del nmero de alumnos que acaban la carrera. Solucin: Los sucesos son: E(xito): acabar la carrera P(E) = p = 0'3
Las pruebas son independientes, porque lo que ocurra con un alumno no tiene nada que ver con lo que le ocurra a otro. a)
! n$ P( X = r ) = # p r q n& r "r%
157
c)
Parmetros:
EJEMPLO 3.10: En recientes estudios realizados sobre pacientes portadores de SIDA, se ha podido determinar que el 70% consume algn tipo de droga. En la sala de espera de una consulta especializada en esta enfermedad se encuentran en un determinado momento seis personas. Cul es la probabilidad de que ninguno haya consumido droga?. Solucin: E: "No consumir droga" F: "Consumir droga" P(E) = 0'3 = p P(F) = 0'7 = q
! 6$ P( x = 0 ) = # p 0q 6 = 0, 1176 " 0%
EJEMPLO 3.11: Una poblacin de 20 animales insectvoros se introduce en una zona donde el 14% de los insectos que le sirven de alimento son venenosos. Cada animal devora al da 5 insectos. Calcular la probabilidad de que al cabo de una semana queden, como mnimo, la mitad.
158
Solucin: Suponiendo independencia se tiene: P(no comer insecto venenoso) = 1-0'14 = 0'86 P(un animal no se envenene en un da) = P(comer 5 insectos no venenosos) = = (0'86)5 = 0'47042 P(un animal no se envenene en 7 das) = (0,47042)7=0,005 P(un animal se envenene en 7 das) = 1-0'005 = 0'995 Sea X: "nmero de animales envenenados en una semana. X ~ B(20,0'995)
10 " 20% P( x ! 10) = ' $ 0, 995 k0, 00510( k = 2, 08975 10 (18 # k& k=0
El nmero de personas que llega a una tienda de autoservicio en un El nmero de solicitudes de seguro procesadas por una compaa en nmero de bacterias en un cultivo.
tiempo determinado.
un perodo especfico.
El
La distribucin de Poisson es el modelo de probabilidad que ms se utiliza para analizar problemas de listas de espera. Podemos hablar de las siguientes caractersticas de una distribucin de Poisson:
159
1- Debemos tener un fenmeno dicotmico (ocurrencia o no de un determinado suceso). 2- Las pruebas que se realicen han de ser independientes y la probabilidad de xito se ha de mantener constante en todas ellas. 3- Los sucesos han de ser poco comunes, por eso se le conoce como "Ley de los sucesos raros". 4- Puesto que la probabilidad de xito ha de ser pequea, entendemos que p<0.05 y puesto que n ha de ser grande, entendemos n>100. 5- Los sucesos ocurren en un intervalo de tiempo. 6- Se caracteriza por un parmetro ! , que es el nmero medio de ocurrencia del suceso aleatorio por unidad de tiempo. 7- Siempre que la media y la varianza sean similares, podemos pensar en un modelo de Poisson. Media:
E [x] = np = ! V[x] = ! = E[ x]
Varianza:
Es importante el hecho de que una distribucin binomial en la que n es grande y p pequeo tiene una aproximacin excelente con la distribucin de Poisson. La funcin de probabilidad ser el lmite de la funcin de densidad de la binomial cuando n ! ", p ! 0 y np ! "
$ n' $ n' lim & pr q n )r = lim & lim p r lim q n )r n !" % r ( n! "% r ( p!0 n! "
p!0 np !# p! 0
! n
160
n! %$' r % $ n#r lim 1 # ' = n( n!" r!(n # r)! & n ( n! "& lim = lim n(n # 1)...(n # r + 1) $ r lim r r! n!" n r n!" % $ 1# ' & n(
[1]
% $ 1# ' & n(
% $ n lim 1 # ' $r n(n # 1)...(n # r + 1) n!"& n( = lim r r! n!" n % $'r lim 1 # n( n! "&
Calculamos cada uno de estos lmites:
! e #$
EJEMPLO 3.12: Un comprador de grandes cantidades de circuitos integrados ha adoptado un plan para aceptar un envo de stos, que consiste en inspeccionar una muestra de 100 circuitos provenientes del lote. Si el comprador encuentra no ms de dos circuitos defectuosos en la muestra, acepta el lote; de otra forma, lo rechaza. Si se enva al comprador un lote que contiene el 1% de circuitos defectuosos, cul es la probabilidad de que sea aceptado el lote?. Solucin:
161
Nuestra variable es: X: "nmero de circuitos defectuosos en la muestra". X~B(n=100, p=0'01) np=1
0!
1!
2!
P(aceptar el lote) = 90% EJEMPLO 3.13: Es conocido el hecho de que cierto tipo de bacterias poseen, adems de sus cromosomas, otras estructuras de ADN llamadas factores de resistencia. Estos factores confieren a la bacteria resistencia a uno o varios antibiticos. En un determinado medio el 0,06% de las bacterias no poseen dicha propiedad. Sobre una poblacin de 10.000 se desea saber: a) La probabilidad de que el nmero de bacterias no poseyendo dicha resistencia sea superior a 6, pero inferior a 15. b) La probabilidad de que haya exactamente 5 sin resistencia antibitica. Solucin: Sea X el "nmero de bacterias que no poseen resistencia a los antibiticos". X~B(n=10.000, p=0'0006)~P( ! =np=6) a) P(6 < x < 15) = P(x ! 14 ) " P(x ! 6) = 0, 9986 " 0, 6063 = 0, 3923 b) P( x = 5) = e
!6 6 5
5!
= 0,1606
EJEMPLO 3.14: La probabilidad de que dos aminocidos determinados se combinen para formar un dipptido es muy pequea y, en consecuencia, el nmero de dipptidos de una
162
determinada composicin que puedan observarse al analizar un conjunto de protenas sigue una distribucin de Poisson, que por otras investigaciones sabemos que tiene parmetro ! =0,4. Si denominamos como X el nmero de dipptidos observados en una composicin determinada: a) Calcular la probabilidad de no encontrar ninguno de tales dipptidos en dicha composicin. b) Probabilidad de encontrar dos o ms. Solucin: a)
P( x = 0 ) = e !" "0 = e !0,4 0!
b)
P(x ! 2) = 1" P(x < 1) = 1 " P(x = 0) " P(x = 1) = = 1 " e "0,4 #0 0, 41 1 0, 4 " e "0,4 = 1" 0,4 " 0,4 0! 1! e e
EJEMPLO 3.15: El nmero medio de automviles que llega a una estacin de suministro de gasolina es de 210 por hora. Si dicha estacin puede atender a un mximo de diez automviles por minuto, determinar la probabilidad de que en un minuto dado, lleguen a la estacin de suministro ms automviles de los que puedan atender. Solucin: La variable aleatoria X es el "nmero de automviles que llegan a la estacin de servicio en un minuto ". El suceso xito (1) consiste en que en un instante cualquiera llegue un automvil a la estacin de suministro . p es la probabilidad de xito y es suficientemente pequea, sin embargo , la prueba puede repetirse un nmero suficientemente grande de veces.
163
10
$ 3,50 #3,5 3,510 #3,5 ' =1#& e +...+ e ) = 1 # 0, 9991 = 0, 0009 10! % 0! (
EJEMPLO 3.16: El nmero de clientes que llega a un banco es una variable de Poisson. Si el nmero promedio es de 120 por hora, cul es la probabilidad de que en un minuto lleguen por lo menos tres clientes?. Solucin: X: "nmero de clientes que llega a un banco en un minuto". E[x]=120 clientes por hora.
E[X] =
120 = 2=! 60
P( X ! 3) = 1" P(X < 3) = 1 " [P( x = 0 ) + P( x = 1) + P( x = 2 )] = = 1 " 0,1353 " 0, 2707 " 0, 2707 = 0, 3233
La probabilidad es de un 33% aproximadamente.
164
EJEMPLO 3.17: Del volumen de produccin diario en dos plantas diferentes de una fbrica, se sabe que la probabilidad de que resulten r unidades defectuosa es: 4r !4 - en la 1a planta: para r = 0, 1, 2, ... e r! 6r - en la 2a planta: e !6 para r = 0, 1, 2, ... r! Determinar la probabilidad de que, en un da determinado: a) resulten cinco o ms unidades defectuosas en la 1a planta. b) resulten cuatro o menos unidades defectuosas en la 2a planta. c) resulten ocho o ms unidades defectuosas del total de la produccin de la fbrica. Solucin: a) X1: "nmero de unidades defectuosas en la 1a planta". ! P(4)
P( X1 ! 5) = 1" P(X1 < 5) = 1 " [ P( x1 = 0 )+...+ P(x1 = 4)]
P( X1 ! 5) = 0, 3711
P( X2 ! 4 ) = P( x2 = 0)+...+P (x 2 = 4) = 0, 2851
c) X3: "nmero de unidades defectuosas del total de la produccin."
165
una de las pruebas. Supongamos que esto no ocurre, no hay reemplazamiento y la variable aleatoria sigue otro tipo de distribucin. Veamos un ejemplo: Sea N el nmero de profesores de un Centro de Enseanza Secundaria que deben elegir Director entre dos candidatos A y B. Sea n el nmero de profesores que apoyan al candidato A y N-n el nmero de profesores que apoyan al candidato B. Supongamos que queremos hacer un sondeo antes de la votacin final, tomamos una muestra con K profesores y le preguntamos el candidato al que piensan votar. Supongamos que X es la variable aleatoria que nos mide el nmero de profesores de la muestra que piensan votar al candidato A. El inters est en calcular la probabilidad de que X=r, es decir, que en la muestra haya r personas que piensan votar al candidato A. Deduciremos la frmula utilizando la Ley de Laplace. De cuntas maneras puedo elegir muestras de tamao n entre N elementos que tiene la poblacin?.
Es preciso conocer la probabilidad de xito y la probabilidad de fracaso en la poblacin. El nmero de casos favorables ser:
Media:
E [x] = np
166
Varianza:
V[x] = npq
N !n N !1
Cuando
EJEMPLO 3.18: Un fabricante asegura que slo el 1% de su produccin total se encuentra defectuosa. Supngase que se ordenan 1000 artculos y se seleccionan 25 al azar para inspeccionarlos. Si el fabricante se encuentra en lo correcto, cul es la probabilidad de observar dos o ms artculos defectuosos en la muestra?. Solucin: Tenemos una poblacin de tamao N=1000 X: "nmero de artculos defectuosos en la muestra". P(xito)=0,0 l Tamao de la muestra n=25 Si inspeccionamos uno de los 25, ese no lo volvemos a inspeccionar, luego no hay reemplazamiento, la p de las distintas pruebas no se mantiene constante. Se trata de una distribucin hipergeomtrica.
167
Puesto que
P( x ! 2) = l " [ P( x = 0) + P( x = 1)] = # 25& # 25& =1"% 0, 010 0, 9925 " % 0, 011 0, 9924 = $0' $1' 1 " 0, 7778 " 0,1964 = 0, 0258
EJEMPLO 3.19: Supngase que se tienen 50 representantes de cierto estado, en una convencin poltica nacional, de los cuales 30 apoyan al candidato A y 20 al candidato B. Si se seleccionan aleatoriamente 5 representantes, cul es la probabilidad de que, entre estos cinco, por lo menos dos apoyen al candidato A?. Solucin: X: "nmero de personas de la muestra que apoyan al candidato A.
N = 50! # 3 & n = 5 "X % H' 50, 5, ( 5) 3 p= # 5$ P( x ! 2) = l " P(x < 2) = 1 " [ P(x = 0) + P( x = 1)] 3 # 2 ) # 50 & 50 & % 5( % 5( + $ 0 '$ 5 ' + P(X = 0) = # 50& % + + $ 5' P( X ! 2) = 0, 9241 3& # 2& * # 50 50 % 5( % 5( + $ 1 '$ 4 ' + P(X = 1) = # 50& + % + $ 5' ,
No hay duda de que al menos dos apoyarn al candidato A. con una probabilidad del 92%.
168
EJEMPLO 3.20: En una clase en la que hay 20 estudiantes, 15 estn insatisfechos con el texto que se utiliza. Si se le pregunta acerca del texto a cuatro estudiantes tomados al azar, determine la probabilidad de que: a) exactamente tres estn insatisfechos con el texto. b) cuando menos tres estn insatisfechos. Solucin: Hay dos sucesos mutuamente excluyentes: P(estar satisfechos) = 5/20 = 1/4 P(no estar satisfecho) = 15/20 = 3/4 Las pruebas son sin reemplazamiento, no tiene sentido volver a preguntar al mismo estudiante que se le pregunt antes. X: "nmero de alumnos que estn insatisfechos con el texto".
! Np$ ! Nq $ ! 15$ ! 5$ # # # # " r % " n & r% " 3 % " 1% P( X = 3) = = = 0, 469 ! N$ ! 20$ # # " n% " 4%
b)
P( X ! 3) = P(x = 3) + P(x = 4 ) = 0, 75
EJEMPLO 3.21: Un equipo departamental incluye cinco bilogos especialistas en microbiologa y nueve mdicos. Si se eligen al azar cinco personas y se les asigna un proyecto, cul es la probabilidad de que el equipo del proyecto incluya exactamente a dos bilogos?.
169
5 " X ! H# 14;5, $ 14 %
! 5$ ! 9$ # # " 2% " 3% P( X = 2 ) = = 0, 42 ! 14$ # " 5%
EJEMPLO 3.22: Considrese un fabricante de ordenadores que compra los microprocesadores a una compaa donde se fabrican bajo estrictas especificaciones. El fabricante recibe un lote de 40 microprocesadores. Su plan para aceptar el lote consiste en seleccionar 8, de manera aleatoria y someterlos a prueba. Si encuentra que ninguno de los microprocesadores presenta serios defectos, el fabricante acepta el lote; de otra forma lo rechaza. Suponiendo que el lote contenga dos microprocesadores con serios defectos, cul es la probabilidad de que sea aceptado? Solucin: X: "nmero de microprocesadores defectuosos en la muestra".
20 1 19 " X ! H# 40;8, $ p = q= 40 % 20 20 " 2 $ " 38$ & & # 0% # 8 % P( X = 0) = = 0, 6359 " 40$ & # 8%
Si la persona que vende sabe que le controlarn el producto, procurar que la empresa efecte un control de calidad antes de iniciar las ventas. Aumentar la calidad del producto.
170
EJEMPLO 3.23: Una compaa dedicada a la produccin de artculos electrnicos, utiliza un esquema para la aceptacin de artculos, para su ensamblaje, antes de ser embarcados, que consiste en lo siguiente: Los artculos estn embalados en cajas de 25 unidades y un tcnico de la compaa selecciona aleatoriamente tres artculos, de tal manera que si no encuentra ningn artculo defectuoso, la caja se embarca. a) Cul es la probabilidad de que se embarque una caja que contiene tres artculos defectuosos'?. b) Cul es la probabilidad de que una caja que contiene slo un artculo defectuoso regrese para su verificacin?. Solucin: X: "nmero de artculos defectuosos en la muestra". a) Si la caja contiene tres artculos defectuosos, la distribucin es:
3 22 q= 25 25 ! Np$ ! Nq $ ! 3$ ! 22 $ # # # # " xi % " n & x i % " 0% " 3 & 0% P( X = 0 ) = = = 0, 6696 ! N$ ! 25$ # # "n% " 3% N = 25 N1 = 3 N2 = 22 p=
Hay una probabilidad del 67% de que se embarque la caja. b) La caja slo contiene un articulo defectuoso. 1 24 N = 25 p= q= 25 25 1 $! 24 $ ! 25 25 # &# 25 25 & " 0 %" 3 % P( X = 0 ) = = 0, 88 ! 25$ # "3% Lgicamente la probabilidad de que no embarque es: 1-0,88 = 0,12 Lo ms probable es que las cajas que tengan un artculo defectuoso sean embarcadas.
171
EJEMPLO 3.24: Supongamos que una compaa hace el estudio de la calidad conforme a otro esquema. Se toma un artculo, se inspecciona y se devuelve a la caja; lo mismo ocurre con un 2 y un 3er artculo. La caja no se embarca si cualquiera de los tres artculos es defectuoso. Solucin:
! 3 a) B 3, # " 25 $
! 1 b) B 3, # " 25 $
EJEMPLO 3.25: Considrese un fabricante de automviles que compra los motores a una compaa donde se fabrican bajo estrictas especificaciones. El fabricante recibe un lote de 40 motores. Su plan para aceptar el lote consiste en seleccionar 8, de manera aleatoria, y someterlos a prueba. Si encuentra que ninguno de los motores presenta serios defectos, el fabricante acepta el lote; contiene dos motores con serios defectos, cul es la probabilidad de que sea aceptado?. Solucin: X: "nmero de motores defectuosos en la muestra".
172
N = 40
2 1 ! H" 40;8, # 40 20 $ ! 2# ! 38# % % " 0$ " 8 $ P(X = 0) = = 0, 6359 ! 40# % " 8$ n=8 p=
173
174
175
El nombre de distribucin normal se debe al hecho de que una mayora de las variables aleatorias de la Naturaleza siguen esta distribucin, lo que hizo pensar que todas las variables continuas de la Naturaleza eran normales, llamando a las dems distribuciones "anormales". No obstante, hoy en da, ya no se piensa de la misma manera, ya que ningn estadstico dice que una distribucin que no sea normal, es anormal. No obstante, la distribucin normal es la ms importante por sus propiedades sencillas, porque aparece frecuentemente en la Naturaleza, (fenmenos relacionados con psicologa, biologa, etc. ), y por una propiedad de algunos fenmenos que se aproximan asintticamente a la distribucin normal (Teorema Central del Lmite).
3.2.1.2 Definicin
De modo riguroso, se dice que una variable aleatoria sigue una distribucin normal de media , y desviacin tpica , y se designar por N(, ), si se cumplen las siguientes condiciones: La variable recorre toda la recta real, y la funcin de densidad es de la forma:
f(x) =
1 # 1 ( x# ) 2 e 2 ! ! 2"
donde e = 2.71828; = 3.14159; es la media de la distribucin y es la desviacin tpica. Esta funcin de densidad que parece en principio con una expresin matemtica aparentemente complicada, tiene la siguiente representacin (figura 3.3):
0
Figura 3.3: Representacin grfica da la campana de Gauss conocida como campana de Gauss, y con las siguientes propiedades:
176
1.- La curva tiene forma campaniforme y es simtrica respecto a la recta vertical x = . ya que el valor de la densidad es idntico en + c y en - c, para todo valor de c, pues:
# ( +c #2) #c2 1 1 f( + c) = e 2! = e 2! ! 2" ! 2" # 1 f( # c) = e ! 2"
( #c # ) 2 2!2 2 # c2 1 2! = e ! 2" 2 2
(x# ) 2 2! 2
(x # )
! (x!) 2
2"
=! 3 e " 2#
como se verifica que :
! (x !) 2
2"
f() =
1 ! 2"
177
3.- El rea del recinto encerrado bajo la campana y el eje x es igual a la unidad. Por tratarse de una funcin de densidad. Y al ser simtrica, deja igual rea, 0,5, a la izquierda y a la derecha de la recta x = . Esto se verifica porque:
+"
+"
(x !) 2 2$ 2
dx =
+$
2! , ya que:
#!"
+" ! y 2 2
dy = 2
#0
+" ! y 2 2
dy = 2I1
y al multiplicar I1 por s misma, y mediante mtodos de integracin doble, resulta su cuadrado igual a /2.
4.- Presenta puntos de inflexin en los puntos de abscisas + y - , donde cambia de concavidad (lo que determina que cunto mayor sea , ms achatada sea la curva). El punto de inflexin se obtiene al igualar a cero la derivada segunda, por lo tanto:
(x " )2 x" = 0! = 1 ! x = # 2 # #
As, pues, presenta puntos de inflexin en los puntos x = + y en x = - , donde las coordenadas de los puntos son: en x = +
# 1 f( + !) = e ! 2"
( +! # )2 2! 2
y en el punto x = -
178
! 1 f( ! ") = e " 2#
( !" ! )2 2" 2
5.- Es asinttica al eje de abscisas. Pues como ex tiende a 0 cuando x tiende a infinito, entonces:
% 1 lim f(x) = lim e x!+" x!+" # 2$
(x% ) 2 2# 2
=0
En la figura 3.4 puede observarse que para fijo, el variar tiene el efecto de desplazar la curva hacia la derecha o la izquierda; manteniendo constante, el cambio de tiene por efecto acercar o alargar del valor medio los puntos de inflexin, es decir, un apuntamiento o aplastamiento de la curva (ver figura 3.5).
-a
+a
179
F( x) = P( ! " x) = 1
2#
$%
&
e$
x2
dx
180
1,2 1 ,8 ,6 ,4 ,2 0 -,2 -4 -3 -2 -1 0 1 2 3 4
1 2!
La funcin de distribucin de la ley normal estndar proporciona el rea del recinto que encierra la funcin de densidad, hasta el punto x, y con el fin de facilitar el clculo de sta superficie, y no tener que utilizar en todo momento el clculo integral, se han elaborado unas tablas de fcil uso, entre las que se encuentran las que aparecen a continuacin:
x
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9
0.00 0.5000 0.5398 0.5793 0.6179 0.6554 0.6915 0.7257 0.7580 0.7881 0.8159 0.8413 0.8643 0.8849 0.9032 0.9192 0.9332 0.9452 0.9554 0.9641 0.9713 0.9772 0.9821 0.9861 0.9893 0.9918 0.9938 0.9953 0.9965 0.9974 0.9981
0.01 0.5040 0.5438 0.5832 0.6217 0.6591 0.6950 0.7291 0.7611 0.7910 0.8186 0.8438 0.8655 0.8869 0.9049 0.9207 0.9345 0.9463 0.9564 0.9649 0.9719 0.9778 0.9826 0.9864 0.9896 0.9920 0.9940 0.9955 0.9966 0.9975 0.9982
0.02 0.5080 0.5478 0.5871 0.6255 0.6628 0.6985 0.7324 0.7642 0.7939 0.8212 0.8461 0.8686 0.8888 0.9066 0.9222 0.9357 0.9474 0.9573 0.9656 0.9726 0.9783 0.9830 0.9868 0.9898 0.9922 0.9941 0.9956 0.9967 0.9976 0.9982
0.03 0.5120 0.5517 0.5910 0.6293 0.6664 0.7019 0.7357 0.7673 0.7967 0.8238 0.8485 0.8708 0.8907 0.9082 0.9236 0.9370 0.9484 0.9582 0.9664 0.9732 0.9788 0.9834 0.9871 0.9901 0.9925 0.9943 0.9957 0.9968 0.9977 0.9983
0.04 0.5160 0.5557 0.5948 0.6331 0.6700 0.7054 0.7389 0.7704 0.7995 0.8264 0.8508 0.8729 0.8925 0.9099 0.9251 0.9382 0.9495 0.9591 0.9671 0.9738 0.9793 0.9838 0.9875 0.9904 0.9927 0.9945 0.9959 0.9969 0.9977 0.9984
0.05 0.5199 0.5596 0.5987 0.6368 0.6736 0.7088 0.7422 0.7734 0.8023 0.8289 0.8531 0.8749 0.8944 0.9115 0.9265 0.9394 0.9505 0.9599 0.9678 0.9744 0.9798 0.9842 0.9878 0.9906 0.9929 0.9946 0.9960 0.9970 0.9978 0.9984
0.06 0.5239 0.5636 0.6026 0.6406 0.6772 0.7123 0.7454 0.7764 0.8051 0.8315 0.8554 0.8870 0.8962 0.9131 0.9279 0.9406 0.9515 0.9608 0.9686 0.9750 0.9803 0.9846 0.9881 0.9909 0.9931 0.9948 0.9961 0.9971 0.9979 0.9985
0.07 0.5279 0.5675 0.6064 0.6443 0.6808 0.7157 0.7486 0.7794 0.8078 0.8340 0.8577 0.8790 0.8980 0.9147 0.9292 0.9418 0.9525 0.9616 0.9693 0.9756 0.9808 0.9850 0.9884 0.9911 0.9932 0.9949 0.9962 0.9972 0.9979 0.9985
0.08 0.5319 0.5714 0.6103 0.6480 0.6844 0.7190 0.7517 0.7823 0.8106 0.8365 0.8599 0.8810 0.8997 0.9162 0.9306 0.9429 0.9535 0.9625 0.9699 0.9761 0.9812 0.9854 0.9887 0.9913 0.9934 0.9951 0.9963 0.9973 0.9980 0.9986
0.09 0.5359 0.5753 0.6141 0.6517 0.6879 0.7224 0.7549 0.7852 0.8133 0.8389 0.8621 0.8830 0.9015 0.9177 0.9319 0.9441 0.9545 0.9633 0.9706 0.9767 0.9817 0.9857 0.9890 0.9916 0.9936 0.9952 0.9964 0.9974 0.9981 0.9986
181
y se encuentra directamente en la tabla sin ms que buscar 1.3 en la primera columna, y 0.07 en la primera fila; su interseccin nos da la probabilidad:
Es decir: P(Z 1.37) = 0.9147 que quiere decir que el 91.47% de las observaciones se encuentran distribuidas entre - y 1.37.
182
Existen adems de las tablas anteriores otros tipos de tablas publicadas de la distribucin normal estndar. Quiz las ms importantes sean las siguientes:
1.- Tabla de dos colas : Esta tabla da las reas de las dos colas de la distribucin, es decir, da la siguiente probabilidad P( |Z| a ) = P( - < Z -a ) + P( a Z < + )
-a
2.- Tabla de una cola : Nos da el rea de la cola derecha de la distribucin, es decir, la siguiente probabilidad P( Z a )
3.- Tabla de valores : Que contiene todos los valores entre 0 e infinito.
183
4.- Tabla de reas acumuladas : Nos da la probabilidad de que un valor est comprendido entre - y a, es decir, la siguiente probabilidad P( - < Z -a ) Este ltimo tipo de tablas es el que hemos utilizado anteriormente, pues nos proporciona la funcin de distribucin de la variable.
Z=
X! "
184
Valores de X
-2! -2 -! +! +2!
Valores de Z
-1 0 1 2
TEOREMA DE DE MOIVRE Si X es una variable binomial de parmetros n y p; entonces si n es grande y p, ni pequeo ni grande, (o sea, ni p ni q prximos a cero) podemos considerar que esa variable X sigue una ley normal de media np y varianza npq, y por lo tanto, la variable
Z=
X ! np npq
sigue una distribucin normal N(0,1). En este caso hemos de tener en cuenta que X era una variable aleatoria discreta y queremos tratarle cmo continua, por lo que es preciso hacer una correccin para continuidad. As se verifica que: P(X = 3) = P(2.5 < X 3.5) P(X 3) = P(X 3.5) P(X < 3) = P(X 2.5)
185
Obviamente stas no son igualdades ciertas, pero permiten tratar la variable discreta como continua. Si en lugar de trabajar con una variable aleatoria binomial partisemos de una variable de Poisson o una Hipergeomtrica, la aproximacin sera absolutamente similar.
TEOREMA CENTRAL DEL LMITE Si X es una variable aleatoria (no importa como se distribuya) con media y varianza 2, y tomamos una muestra de n elementos, entonces la distribucin muestral de la media aritmtica de la muestra es aproximadamente normal con media y varianza 2/n, siendo mejor la aproximacin a medida que aumenta el tamao de la muestra. Lgicamente, si X es una variable que se distribuye normalmente, la media muestral se distribuye exactamente como una distribucin normal. Este teorema es importante en posteriores unidades, ya que nos dar pie a resultados fundamentales de la Inferencia Estadstica.
186
siendo cada Zi una variable normal N(0,1), e independientes. Esta variable depende, pues, del nmero de sumandos que la forman, llamado "grados de libertad", y el rango es el semieje real positivo (ya que es una suma de cuadrados). La funcin de densidad de una variable 2 n es la siguiente:
x# 0* x<0
Para cada valor de n se tiene una curva distinta, como representacin de su funcin de densidad. La figura 3.9 representa las funciones de densidad de variables Chi-cuadrado para diferentes valores de n.
187
Figura 3.9: Comparacin entre las funciones de densidad de la variable chi-cuadrado para distintos valores de n.
7.- En una variable aleatoria normal N(, ), si tomamos una muestra de tamao n se verifica que
188
(n ! 1)s2 "
2
es aproximadamente 2n-1
189
g.l \
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
0.9950 0.0000393 0.0100 0.0717 0.207 0.412 0.676 0.989 1.344 1.735 2.156 2.603 3.074 3.565 4.075 4.601 5.142 5.697 6.265 6.844 7.434 8.034 8.643 9.260 9.886 10.520 11.160 11.808 12.461 13.121 13.787
0.9750 0.000982 0.0506 0.216 0.484 0.831 1.237 1.690 2.180 2.700 3.247 3.816 4.404 5.009 5.629 6.262 6.908 7.564 8.231 8.907 9.591 10.283 10.982 11.689 12.401 13.120 13.844 14.573 15.308 16.047 16.791
0.950 0.00393 0.103 0.352 0.711 1.]45 1.635 2.167 2.733 3.325 3.940 4.575 5.226 5.897 6.571 7.261 7.962 8.672 9.390 10.117 10.851 11.591 12.338 13.091 13.848 14.611 15.379 16.151 16.928 17.708 18.493
0.900 0.0158 0.211 0.584 1.064 1.610 2.204 2.833 3.490 4.168 4.865 5.578 6.304 7.047 7.790 8.547 9.312 10.085 10.865 11.651 12.443 13.240 14.041 14.848 15.659 16.473 17.292 18.114 18.939 19.769 20.599
0.200 1.642 3.219 4.642 5.989 7.289 8.558 9.803 11.030 17.242 13.442 14.631 15.812 16.985 18.151 19.311 20.465 21.615 22.760 23.900 25.038 26.171 27.301 28.429 29.553 30.675 31.795 32.912 34.027 35.139 36.250
0.10 2.706 4.605 6.251 7.779 9.236 10.645 17.017 13.362 14.684 15.987 17.275 18.549 19.812 21.064 22.307 23.452 24.769 25.989 27.204 28.412 29.615 30.813 32.007 33.196 34.382 35.563 36.741 37.916 39.087 40.256
0.050 3.841 5.g91 7.851 9.488 11.070 17.592 14.067 15.507 16.919 18.307 19.675 21.026 22.362 23.685 24.996 26.296 27.587 28.869 30.144 31.410 32.671 33.924 35.172 36.415 37.652 38.885 40.113 41.337 42.557 43.773
0.025 5.024 2.378 9.348 11.143 12.833 14.449 16.013 17.535 19.023 20.483 21.920 23.337 24.736 26.119 27.488 28.845 30.191 31.526 32.857 34.170 35.479 36.781 38.076 39.364 40.646 41.923 43.195 44.461 45.722 46.979
0.010 6.631 9.210 11.345 13.277 15.086 16.812 18.475 20.090 21.666 23.209 24.725 26.217 27.588 29.141 30.578 32.000 33.409 34.805 36.191 37.566 38.932 40.289 41.638 42.980 44.314 45.642 46.963 48.278 49.588 50.892
0.001 10.828 13.816 16.266 18.467 20.515 22.458 74.327 26.124 77.877 29.588 31.264 32.909 34.528 36.173 37.697 39.752 40.790 42.312 43.820 45.315 46.797 48.268 49.728 51.179 57.620 54.052 55.476 56.892 58.301 59.703
EJEMPLO 3.26: Si X sigue una distribucin Chi-cuadrado con 12 grados de libertad. Cul es el valor de la variable que deja a su derecha un rea de 0.05? Solucin: Buscando en la tabla: 21.026
190
(x ! ) s n
como una variable normal. En su definicin matemtica, sean (, 1, 2, ....., n) n+1 variables aleatorias normales N(0,1) e independientes
tn =
!
2 !1 + !2 +!+!2 2 n
Tambin puede definirse a travs de una variable Z normal estndar N(0,1), y una variable 2 que siga una distribucin Chi-cuadrado con n grados de libertad; se define entonces la variable "t" de STUDENT con n grados de libertad como
tn =
Z
!2 n n
191
Distr. Normal
Distr. t de Student
0
Figura 3.10: Funcin de densidad de la distribucin normal y de la "t".
6.- En el muestreo de una poblacin normal N(, ), si tomamos una muestra de tamao n de media x y varianza S2, la variable
(x ! ) t n!1 = s n !1
sigue una distribucin "t" de STUDENT con n-1 grados de libertad. Esta propiedad es muy utilizada en la estimacin y el contraste de hiptesis sobre la media de la poblacin.
192
0.50
1.000 0.816 0.765 0.741 1.727 0.718 0.711 0.706 0.703 0.700 0.697 0.695 0.694 0.692 0.691 0.690 0.689 0.688 0.688 0.687 0.686 0.686 0.685 0.685 0.684 0.684 0.684 0.683 0.683 0.683 0.682 0.681 0.680 0.679 0.679 0.678 0.677 0.674
0.40
1.376 1.061 0.978 0.941 0.920 0.906 0.896 0.889 0.883 0.879 0.876 0.873 0.870 0.868 0.866 0.865 0.863 0.862 0.861 0.860 0.859 0.858 0.858 0.857 0.856 0.856 0.855 0.855 0.854 0.854 0.852 0.851 0.850 0.849 0.848 0.846 0.845 0.842
0.30
1.963 1.386 1.250 1.190 1.156 1.134 1.119 1.108 1.100 1.093 1.088 1.083 1.07~ 1.076 1.074 1.071 1.069 1.067 1.066 1.064 1.063 1.061 1.060 1.059 1.058 1.058 1.057 1.056 1.055 1.055 1.052 1.050 1.049 1.047 1.046 1.043 1.042 1.036
0.20
3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 1.356 1.350 1.345 1.341 1.337 1.333 1.330 1.328 1.325 1.323 1.321 1.319 1.318 1.316 1.315 1.314 1.313 1.311 1.310 1.306 1.303 1.301 1.299 1.296 1.292 1.290 1.282
0.10
6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.729 1.725 1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 1.699 1.697 1.690 1.684 1.679 1.676 1.671 1.664 1.660 1.645
0.05
12.706 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262 2.228 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093 2.086 2.080 2.074 2.069 2.064 2.060 2.056 2.052 2.048 2.045 2.042 2.030 2.021 2.014 2.009 2.000 1.990 1.984 1.960
0.02
31.821 6.965 4.541 3.747 3.365 3.143 2.998 2.896 2.821 2.764 2.718 2.681 2.650 2.624 2.602 2.583 2.567 2.552 2.539 2.528 2.518 2.508 2.500 2.492 2.485 2.479 2.473 2.467 2.462 2.457 2.438 2.423 2.412 2.403 2.390 2.374 2.364 2.326
0.01
63.657 9.925 5.841 4.604 4.032 3.707 3.499 3.355 3.250 3.169 3.106 3.055 3.012 2.977 2.947 2.921 2.898 2.878 2.861 2.845 2.831 2.819 2.807 2.797 2.787 2.779 2.771 2.763 2.756 2.750 2.724 2.705 2.690 2.678 2.660 2.639 2.626 2.576
0.001
636.619 31.598 12.929 8.610 6.869 5.959 5.408 5.041 4.781 4.587 4.437 4.318 4.221 4.140 4.073 4.015 3.965 3.922 3.883 3.850 3.819 3.792 3.767 3.745 3.725 3.707 3.690 3.674 3.659 3.646 3.592 3.551 3.521 3.497 3.461 3.417 3.391 3.291
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 35 40 45 50 60 80 100
en ellas aparece el valor de la variable que para los grados de libertad indicados en la primera columna, deja un rea en las dos colas de valor indicado en la primera fila. EJEMPLO 3.27: Si X es una distribucin que sigue una distribucin "t" con 10 grados de libertad, calcular el valor de la variable, tal que a la izquierda de -2.228 y a la derecha de 2.228 deja un rea total de 0.05.
193
Solucin:
194
X=
!
i=1
X2 i
Y=
! Yj2
j=1
siendo las variables Xi e Yj que siguen distribuciones normal estndar. Se define la variable F de Snedecor (o de Fisher-Snedecor), la definida por
X F= Yn m
denominada distribucin F de Fisher-Snedecor con n y m grados de libertad. Su funcin de densidad est definida por la funcin: n %!( n + m )( n ) n 2 x 2 #1 ' 2 m " si x > 0 fn,m (x) = & !( n )!( m ) (1 + n x)(n+ m) 2 2 2 m ' 0 si x $ 0 ( Su representacin grfica es de la siguiente forma:
195
sigue una distribucin Chi-cuadrado con n1-1 grados de libertad, y anlogamente, la variable
"2 sigue una distribucin Chi-cuadrado con n2-1 grados de libertad. Entonces, el cociente
s2 ( n1 ! 1)1 (n1 ! 1)" 2 2 ( n2 ! 1)s2 (n 2 ! 1)" 2
s2 (n 2 ! 1) 2
sigue una distribucin F de Snedecor con n1-1 y n2-1 grados de libertad, y si las varianzas poblacionales son iguales, se verifica entonces el resultado indicado.
196
5.- La distribucin F juega un papel importante en el anlisis de la varianza (ANOVA) y en el anlisis de la regresin.
EJEMPLO 3.28: Calcular F para =0.05, y n=5; m=15 grados de libertad. Solucin: Se busca en la tabla correspondiente al nivel del 5%, en la primera fila, los grados de libertad del numerador (5), y en la primera columna los grados de libertad del denominador (15), apareciendo el valor de F en la confluencia de dicha fila y columna:
197
EJEMPLO 3.29: Calcular F para =0.95, y n=15; m=5 grados de libertad. Solucin: Teniendo en cuenta la siguiente propiedad
F !;n,m =
1 F1"!;m,n
se verifica que
F0.95;15,5 = 1 F1!0.95;5,15 = 1 F0.05;5,15 = 1 = 0.345 2.90
198
"DISTRIBUCIN NORMAL"
3.3 Ampliacin
199
Obviamente al profesor le bastara con tener en cuenta que la representacin grfica de la funcin de densidad es una curva simtrica y que el rea bajo la curva es la unidad, pero entendemos que puede resultarle cmodo disponer de un juego de ejercicios que contemplen distintos casos de uso frecuente. El siguiente apartado est redactado de acuerdo a esta idea.
PRIMER CASO Supondremos como primer caso, el ms trivial: calcular la probabilidad de que la variable aleatoria Z, que sigue una distribucin normal estndar, sea menor o igual que un valor positivo a. Basta con buscar en la tabla directamente el valor de a, teniendo en cuenta que en la primera columna de la tabla aparecen las unidades y las dcimas del valor a y en la primera fila el valor de las centsimas. Como interseccin de la fila y la columna correspondiente aparece el valor
P( Z ! a )
200
Figura 3.12: Representacin grfica de la informacin que nos suministra de manera directa la tabla de la normal con la que vamos a trabajar: P ( Z ! a )
N(0,1)
calcular
P( Z ! "a ) .
Como segundo caso consideraremos, por ejemplo, calcular la probabilidad de que la variable aleatoria Z tome valores menores o iguales que una cierta cantidad a negativa, o sea P( Z ! "a ) La tabla no distingue entre desviaciones positivas y negativas; es decir, en la tabla slo aparecen valores positivos. Analicemos, pues, geomtricamente la situacin.
P (Z ! " a )
P (Z ! a )
La probabilidad pedida se corresponde con el rea rayada en la figura 3.13a. El rea rayada en la figura de la izquierda (figura 3.13a) es igual al rea rayada en la figura de la derecha (figura 3.13b). A su vez, ese rea es igual al rea total, que vale 1, menos el rea no rayada. El rea de la superficie no rayada en la grfica de la derecha es la que viene en la tabla. Por tanto:
201
P( Z ! "a ) = 1 " P( Z ! a )
EJEMPLO 3.30: Calcular P(Z-2) Solucin:
N(,!) ,
calcular
P( Z ! a )
Como tercer caso consideraremos la misma situacin que en el caso primero pero suponiendo ahora, que la variable aleatoria sigue una distribucin normal no estndar, de parmetros , .
En este caso, hemos de cambiar previamente de escala de medida; es decir, es x! preciso tipificar primero la variable. El cambio adecuado es z = y por tanto: "
202
N(,!) ,
obtener
P( Z ! "a ) .
Se trata, lo mismo que en el caso anterior de dar solucin a uno de los supuestos ya vistos, en concreto al supuesto segundo, pero considerando ahora que trabajamos con una normal no estndar. Lo primero que tenemos que hacer es tipificar ya que si no, la igualdad anterior no se verifica, por tanto:
a " & a " & $ x " "a " & $ $ P( X ! "a ) = P% ! = P% z ! " = 1" P% z < # # ' # ' # '
13 % 13 % # x " 5 "8 " 5% # # P( X ! "8) = P$ ! & = P$ z ! " 3 & = 1 " P$ z < 3 & = 3 3
N (0,1)
calcular
P( Z ! a )
203
N(,!)
Obtener
P( X ! a ) :
Observando el grfico de la figura 3.15 y teniendo en cuenta las propiedades de la Normal, tenemos:
OCTAVO CASO: En una N(,!) obtener P(a ! X ! b) Si en lugar de trabajar con una N(0,1) trabajsemos con una N(,!) sera preciso, como en casos anteriores, tipificar. Es decir:
b " & a " & $a " x " b " & $ $ P(a ! X ! b) = P% ! ! = P% z ! " P% z < # # # ' # ' # '
204
P(1! X ! 1.85) = P(X ! 1.85) " P( X < 1) = 0.9678 " 0.8413 = 0.1265
calcular
P( Z ! "b) " P(Z < "a ) = 1" P( Z < b) " [1 " P(Z ! a )] = = 1 " P (Z < b ) " 1 + P (Z ! a ) = P ( Z ! a ) " P (Z < b )
EJEMPLO 3.34: En una N(0,1) calcular P( !2.3 " Z " !1.8) Solucin:
P( !2.3 " Z " !1.8) = P(Z " !1.8) ! P(Z < !2.3) = = 1! P( Z < 1.8) ! 1 + P( Z " 2.3) = P( Z " 2.3) ! P( Z < 1.8) = = 0.9893 ! 0.9641 = 0.0252
205
Si en lugar de estar en una N(0,1) estuvisemos en una N(,!) , hubisemos seguido el mismo razonamiento pero despus de tipificar.
DCIMO CASO: Clculo del percentil correspondiente a una probabilidad dada. Puede ocurrir que conocida la probabilidad p, se nos pregunte qu valor de a verifica que P( X ! a ) = p Podemos distinguir dos casos: a) La variable aleatoria sigue una N(0,1): En este caso, basta buscar en el interior de la tabla el valor ms aproximado a p y anotar cual es el correspondiente valor de a (en las filas y columnas exteriores de la tabla)
EJEMPLO 3.35: Cul es el valor de a para el que P( Z ! a ) = 0.9251 ? Solucin: Buscamos dentro de la tabla el valor 0.9251 y vemos que el correspondiente valor de a es 1.44. b) La variable aleatoria sigue una normal de parmetros N(,!) En este caso, hemos de tipificar previamente; es decir, expresar a en la escala correspondiente a una N(0,1)
EJEMPLO 3.36: Obtener el valor de a que verifica que P( X ! a ) = 0.8413 en una distribucin N(5,3)
206
Solucin:
a!5 = 1" a = 3 + 5 = 8 3
207
"DISTRIBUCIN NORMAL"
208
209
0 6.5
7.5 M=?
8.5
9.5
10
Figura 3.17. Representacin grfica de la distribucin del dimetro de los hemates en individuos sanos y en individuos cirrticos. M ser el punto de corte a partir del cual el individuo ser clasificado en una o en otra categora.
La cantidad M se calcula de forma que se verifique que P (X ! M ) = 0. 95 teniendo en cuenta que la variable X sigue una ley Normal de media 7.5 y desviacin tpica 0.2. El clculo es inmediato: M / P(X<M) = 0.95 en una N(7.5 , 0.2)
P(X<M) = P(Z < (M-7.5)/0.2) = 0.95 (M-7.5)/0.2= 1.645 M = 7.5 + 1.645 . 0.2 = 7.829 Por tanto: Declararemos enfermo (cirrtico) a todo individuo con dimetro de los hemates superior a 7.829
210
Debemos tener en cuenta que, segn este convenio de clasificacin, el 5% de los individuos sanos sern declarados patolgicos errneamente, es decir, el procedimiento propuesto proporciona un 5% de "falsos positivos". Llamaremos a este error, por ejemplo error
! .
Teniendo en cuenta que el dimetro de los hemates en individuos cirrticos se ajusta a una ley Normal de media 8.5 y desviacin 0.6 es evidente que, con este criterio, algn individuo enfermo puede ser declarado errneamente normal. Llamaremos a este error , que nos indica el porcentaje de "falsos negativos." Hemos de determinar qu error cometemos cuando fijamos un riesgo sanos o en patolgicos es de 7.829. Para obtener el porcentaje de personas que declararemos como sanas cuando en realidad son cirrticas basta con determinar en una N (8.5, 0.6) (la de los individuos cirrticos) la probabilidad de que la variable aleatoria tome valores menores al valor prefijado como cota. Es decir: P(X < 7.829) en una normal N(8.5, 0.6)
P(X < 7.829) = P(Z < (7.829 - 8.5)/0.6) = P(Z < -1.12) = P(Z> 1.12) = 1 - P(Z<1.12) = 1 - 0.8686 = 0.1314 Observamos como siguiendo el criterio de partida, de prefijar el porcentaje de falsos positivos en un 5%, obtenemos un 13.14% de malas clasificaciones en individuos enfermos: El 13.14% de los cirrticos sern declarados normales. La regla: DECLARAR CIRRTICO a un individuo con dimetro de hemates superior a 7.829 y NORMAL en caso contrario, da lugar a que: Un 5% de los normales sern declarados cirrticos (falsos positivos) y un 13.14% de los cirrticos sern declarados sanos (falsos negativos) Grficamente la situacin sera (figura 3.18):
211
" = 0.1314
0 6.5
7.5
8 M = 7.8 29
8.5
9.5
10
Figura 3.18: Representacin grfica de la distribucin del dimetro de hemates en las dos poblaciones. Prefijado queda delimitado el valor de M y el valor de
Al observar esta situacin podramos pensar en ser ms restrictivos y prefijar un error ms pequeo, por qu no un 1% por ejemplo. Por qu habramos de arriesgarnos en declarar enfermos a un 5% de los sanos, lo que socialmente podra tener connotaciones negativas (declaramos cirrticos a individuos que no lo son), si podemos prefijar este error tan pequeo como queramos.? Desafortunadamente disminuir el trae consigo aumentar el .
Observemos qu ocurrira si quisiramos disminuir cualquiera de los errores, por ejemplo qu ocurrira si disminuysemos ?: Si disminuye, aumenta En efecto: Si
Veamos como esta afirmacin es cierta. Realizar este clculo es idntico al caso anterior slo que ahora la regla de decisin es distinta:
212
Buscamos un M' (dimetro de las hemates) que slo lo superan un 1% de individuos normales. Se trata de localizar en una N(7.5, 0.2) un valor de la variable que verifique que el 1% es mayor que l, o lo que es lo mismo un 99% de los individuos tenga el dimetro de los hemates menor que dicho valor. Sea M / P(X<M)=0.99 en una N(7.5 , 0.2)
P(X<M) = P(Z < (M-7.5)/0.2) = 0.99 (M-7.5)/0.2 = 2.33 M = 7.5 + 2.33 x 0.2 = 7.966 Observamos que segn este criterio el valor de corte es ahora mayor M> M Hemos conseguido disminuir el porcentaje de falsos positivos pero cmo saber cmo se ha modificado el ! . Se trata de buscar en la normal de los cirrticos la probabilidad de encontrarnos valores menores que 7.966 P(X < 7.966) = P(Z < (7.966-8.5)/0.6) = 0.1867 El 18.67% de los cirrticos sern declarados normales. Luego: Si el porcentaje de falsos positivos disminuye hasta el 1%, el porcentaje de falsos negativos sobrepasa el 18%. Nos interesa prefijar los errores pequeos, obviamente a nadie le gusta asumir riesgos grandes, pero hay que tener cuidado al prefijar los riesgos ya que ambos tipos de errores estn claramente relacionados y disminuir uno de ellos trae consigo aumentar el otro considerablemente.
213
"ESTADSTICA INFERENCIAL"
214
215
encuestado. El Mtodo Estadstico, tal y como est concebido en la actualidad, forma parte del saber cientfico y es aceptado lo mismo que lo es, por ejemplo, la Teora de la Relatividad en Fsica; no es, por tanto, terreno de las creencias y seguir siendo aceptado como vlido hasta que alguien proponga una nueva teora que lo modifique. Recapitulando sobre lo expuesto, la Estadstica se configura como la tecnologa del mtodo cientfico que proporciona instrumentos para la toma de decisiones cuando estas se adoptan en ambientes de incertidumbre, siempre que esta incertidumbre pueda ser cuantficada en trminos de probabilidad. (MARTIN PLIEGO, 1994). El procedimiento de toma de decisiones, o de aprendizaje, en el mbito cientfico se resume en la figura 1, y consiste bsicamente en plantear una hiptesis, contrastarla mediante datos experimentales y modificarla si no puede ser aceptada. Es precisamente en el paso de contraste en el que el Mtodo Estadstico juega un papel fundamental y aunque cualquier cientfico puede realizar una investigacin sin estadstica, sin embargo es mucho ms fiable si el resultado est basado en mtodos estadsticos. No se concibe la investigacin aplicada actual sin la utilizacin de la Estadstica en el proceso de induccin.
El cuadro 1 muestra los pasos fundamentales del mtodo cientfico en relacin con el mtodo estadstico.
216
Figura 4.1: El Mtodo Estadstico es una parte importante de la investigacin cientfica actual.
MTODO CIENTFICO
1.- PLANTEAR UNA IDEA (HIPOTESIS) 2.- CONTRASTAR LA IDEA a) Establecer la poblacin o poblaciones a estudiar. b) Decidir el mtodo para la recoleccin de los datos. c) Suponer un modelo, especificando las distribuciones de las poblaciones en estudio. d) Formular las hiptesis de inters en trminos de los parmetros del modelo. e) Calcular el tamao muestral necesario para conseguir los objetivos tan eficientemente como sea posible. El clculo requiere el conocimiento de la mnima diferencia en la que el investigador est interesado, as como un estimador de la variabilidad subyacente. f) Recoger los datos. g) Revisar si el modelo supuesto puede considerarse una aproximacin razonable. h) Revisin del anlisis si las suposiciones de partida del modelo no son ciertas. i) Analizar los datos. j)Escribir las conclusiones en lenguaje simple (no estadstico). 3.- REVISAR LA IDEA SI NO SE ACEPTA A PARTIR DEL PROCEDIMIENTO EXPERIMENTAL. Cuadro 4.1: El mtodo cientfico y su relacin con la Estadstica.Se han sealado en cursiva los pasos del mtodo directamente relacionados con la Estadstica, que van desde la recogida de los datos hasta el anlisis de los mismos.
217
Estudiaremos cada uno de los apartados mencionados aunque no necesariamente en el orden en el que aparecen en el cuadro anterior. Se plantea ahora un problema que suscita polmica entre los profesionales de las Estadstica, el enfoque que debe darse a la explicacin de los conceptos fundamentales. Trataremos de exponer nuestro punto de vista al respecto antes de comenzar con la explicacin propiamente dicha. Dos son los enfoque predominantes, si bien pueden considerarse posturas intermedias; el primer bloque estara formado por aquellos que consideran la Estadstica como una especialidad ms de las Matemticas sin caractersticas diferenciales claras con respecto al resto de las disciplinas; el segundo bloque estara formado por aquellos que piensan que la Estadstica tiene entidad propia como disciplina cientfica en la que las Matemticas han de entenderse simplemente como una herramienta. Como profesionales de la Estadstica Aplicada, nos inclinamos por la segunda de las posibilidades si bien no se debe olvidar el fondo terico de la disciplina y las herramientas matemticas bsicas, que se entendern como un medio y no como un fin en si mismas. Trataremos de explicar esta postura ms ampliamente en los prrafos que siguen. La Estadstica como disciplina tiene fundamentalmente un carcter inductivo en contraposicin al carcter deductivo de las Matemticas, el objeto ltimo de la misma es sacar conclusiones sobre una poblacin a partir de la informacin que proporciona una muestra de la misma, y no el desarrollo de los teoremas propiamente dichos que sera objeto de la denominada Estadstica Matemtica. Un ejemplo similar sera el de la Fsica, con un campo propio, y el de los mtodos matemticos aplicados a la Fsica que forman parte de las Matemticas. El objeto de la Estadstica Aplicada son los Mtodos Estadsticos, los resultados y su aplicacin en otras disciplinas cientficas; la obtencin terica de dichos mtodos utiliza
218
herramientas matemticas (Clculo, Algebra o Geometra) o conceptos de Clculo de Probabilidades. Siguiendo a WOLFOWITZ (1969)1: Excepto quizs unos pocos de los ms profundos teoremas, y quizs ni siquiera esos, la mayor parte de los teoremas de la Estadstica no sobreviviran en las Matemticas si el sujeto de la propia estadstica (la aplicacin) desapareciera. Para sobrevivir al sujeto deben responder ms a las necesidades de aplicacin. De lo que debemos protegernos es del desarrollo de una teora que, por una parte, tiene poca o ninguna relacin con los problemas reales de la Estadstica, y que, por otra parte, cuando se ve como Matemtica pura, no es lo suficientemente interesante, por si misma, ni para sobrevivir. Tambin en este sentido TUKEY (1962)2, que podra ser considerado como el padre de la aproximacin exploratoria del anlisis de datos, apunta lo siguiente: La mxima ms importante a la que el anlisis de datos debe prestar atencin, y una de las que muchos estadsticos parecen haber olvidado, es sta: Mucho mejor una respuesta aproximada a una pregunta correcta, que es a menudo vaga, que una respuesta exacta a la pregunta errnea, que puede hacerse siempre de forma precisa. El anlisis de datos debe progresar aproximando respuestas, en el mejor de los casos, ya que su conocimiento de lo que es realmente el problema ser en el mejor de los casos aproximado. Todo lo dicho pone de manifiesto que hay distintas formas de entender las cosas probablemente debido a la conjuncin de la parte inductiva en la esencia de la disciplina y la parte deductiva en su desarrollo. Es la parte deductiva (matemticas) la que ha situado a la Estadstica, hasta hace pocos aos, como una especialidad de la licenciatura
1
-WOLFOWITZ, J. (1969): 'Reflections on the future of mathematical statistics'. en R. c. Bose et al. (eds.) "Essays in Probability and Sraristics". University of North Carolina Press. Chapel Hill. 2 -TUKEY, J.W. (1962): 'The future of Data Analysis'. Annals of Mathematical Statistics, 33, 1-67.
219
de Matemticas, y es probablemente la parte inductiva la que ha hecho que en esas mismas facultades fuera considerada como la hermana pobre, o cuando menos, como algo extrao y diferente, por los matemticos tradicionales. El proceso futuro que seguir la Estadstica como disciplina cientfica pasar, sin duda, por la separacin de las Matemticas, como lo hizo en su momento la Fsica, que tiene su propia entidad aunque utilice el mtodo matemtico como herramienta. De hecho, ya es posible cursar estudios de Estadstica (tanto de primer como de segundo ciclo) en Facultades de Estadstica separadas de las de Matemticas. (Aunque desgraciadamente en la mayora de los casos siguen controlados por los matemticos). Es esta misma disyuntiva es la que ha colocado los conceptos de Estadstica necesarios en las Enseanzas Medias dentro de la asignatura de Matemticas, y la que ha hecho que muchos de los profesores, con formacin matemtica tradicional, prefieran relegarla a un segundo plano cuando, en realidad, es la nica parte del programa que prcticamente todos los que tomen el camino universitario van a estudiar. En Facultades Aplicadas (Medicina, Biologa, Economa, Psicologa, Geografa, Derecho, Biblioteconoma, Traduccin y documentacin, etc ... ) enseamos Estadstica Aplicada, es decir, los resultados ms relevantes que permiten al alumno resolver problemas que se encontrar en su ejercicio profesional, aprendiendo el lenguaje y las tcnicas bsicas que le permitan comprender no slo las situaciones que se le plantean en el curso sino tambin posibles situaciones futuras. No es necesario ensear la parte deductiva completamente, ya que se trata de usuarios de los mtodos, y no es preciso profundizar en aspectos meramente tcnicos que pertenecen exclusivamente al mundo de las Matemticas. De alguna manera, el rigor conceptual para transmitir la filosofa bsica de trabajo dentro del mtodo cientfico, sustituye al rigor matemtico en la presentacin de resultados ya que los alumnos han de resolver problemas de investigacin en su propia rama y no en Matemticas.. En Facultades de Matemticas y Estadstica el enfoque estar ms dirigido al aspecto tcnico-matemtico, especialmente en las primeras. En las nuevas facultades de
220
Estadstica tendrn que aprender que el objeto es la aplicacin y que los resultados matemticos necesarios para el desarrollo deductivo de los "Mtodos Estadsticos" son slo una herramienta y no el objeto en si mismos. La mayor parte de nuestros alumnos cursar estudios en Facultades Aplicadas por lo que trataremos de centrar nuestra atencin en el "Mtodo Estadstico" y no en su deduccin tcnica, si bien puede realizarse algn ejercicio para aplicar, en este contexto, los conceptos aprendidos en el resto de la asignatura de Matemticas. Es posible, tambin utilizar ejercicios en conexin con los profesores de otras asignaturas como Biologa, Geografa Econmica, etc.
INFERENCIA Y MUESTRAS La Inferencia Estadstica es aquella rama de la Estadstica mediante la cual se trata de sacar conclusiones de una poblacin en estudio, a partir de la informacin que proporciona una muestra representativa de la misma. Tambin es denominada Estadstica Inductiva o Inferencia Inductiva ya que es un procedimiento para generar nuevo conocimiento cientfico. La muestra se obtiene por observacin o experimentacin. La necesidad de obtener un subconjunto reducido de la poblacin es obvia si tenemos en cuenta los costes econmicos de la experimentacin o el hecho de que muchos de los mtodos de medida son destructivos. Toda inferencia inductiva exacta es imposible ya que disponemos de informacin parcial, sin embargo es posible realizar inferencias inseguras y medir el grado de inseguridad si el experimento se ha realizado de acuerdo con determinados principios. Uno de los propsitos de la inferencia Estadstica es el de conseguir tcnicas para hacer inferencias inductivas y medir el grado de incertidumbre de tales inferencias. La medida de la incertidumbre se realiza en trminos de probabilidad.
221
Figura 4.2: Esquema de Inferencia Estadstica. El primer concepto importante es el de poblacin, que es el conjunto de individuos sobre los que se desea informacin. La poblacin ha de estar perfectamente definida a la hora de comenzar el estudio. (paso 2-a de la descripcin del mtodo cientfico en el Cuadro 1). Por ejemplo, en un ensayo clnico en el que se pretende demostrar la efectividad de un tratamiento han de estar muy claros cuales son los criterios de inclusin de un paciente en la poblacin (muestra) a estudiar. De la poblacin se extrae un subconjunto que se denomina muestra. La muestra ha de ser representativa de la poblacin, en el sentido de que debe tener una composicin similar en cuanto a la proporcin de distintas caractersticas. Por ejemplo, una muestra para un estudio de estaturas no incluir solamente individuos bajos o altos, sino individuos de ambas clases en proporciones similares a las de la poblacin. La representatividad de la muestra queda garantizada con la eleccin correcta del mtodo de muestreo, que se estudiarn en el punto siguiente. Sobre cada uno de los individuos medimos una o varias caractersticas que denominamos variables. As a cada poblacin le corresponde una variable aleatoria que denotaremos con X. En la teora de la Estadstica quedan identificadas Poblacin y variable aleatoria asociada. As en toda la teora de la Inferencia poblacin significar el conjunto de individuos a estudiar, pero tambin la variable aleatoria asociada a la caracterstica que medimos sobre los individuos. En general, trataremos con poblaciones infinitas, entendiendo que en la prctica
222
"poblacin infinita" significa lo mismo que "poblacin muy grande" ya que conceptualmente la mayor parte de las poblaciones no pueden ser consideradas infinitas. En general, supondremos un modelo de distribucin de probabilidad para la variable aleatoria en estudio que resuma las caractersticas de la misma (apartado 2c del mtodo cientfico en el Cuadro 1), aunque desconocemos los parmetros que trataremos de estimar a partir de una muestra. Por ejemplo suponemos que X es N(, ) donde los dos parmetros, o uno de ellos, son desconocidos. En algunos casos no es necesario especificar tales distribuciones y las inferencias se hacen sobre caractersticas de la distribucin que no son necesariamente parmetros. La inferencia Estadstica puede dividirse en dos apartados de acuerdo con el conocimiento sobre la distribucin en la poblacin.
Inferencia Paramtrica: Se conoce la forma de la distribucin (Normal, Binomial, Poisson, etc .... ) pero se desconocen sus parmetros. Se realizan inferencias sobre los parmetros desconocidos de la distribucin conocida. Inferencia No Parmetrica: Forma y parmetros desconocidos. Se realizan inferencias sobre caractersticas que no tienen porque ser parmetros de una distribucin conocida (Mediana, Estadsticos de Orden). De acuerdo con la forma en que se estudian los parmetros o caractersticas desconocidas, la inferencia puede dividirse en dos apartados: Estimacin: Se intenta dar estimaciones de los parmetros desconocidos sin hacer hiptesis previas sobre posibles valores de los mismos. Estimacin puntual: Un nico valor para cada parmetro. Estimacin por intervalos: Intervalo de valores probables para el parmetro. Contraste de Hiptesis: Se realizan hiptesis sobre los parmetros desconocidos y se desarrolla un procedimiento para comprobar la verosimilitud de la hiptesis planteada. Veamos los conceptos con un ejemplo concreto tomado de un estudio de investigacin real. El estudio pertenece a otro ms amplio llevado a cabo en colaboracin por los
223
Departamentos de Qumica Analtica, Nutricin y Bromatologa , y Estadstica y Matemtica Aplicada. El objetivo original del trabajo consiste en estudiar los vinos jvenes embotellados de dos denominaciones de origen, Ribera de Duero y Toro, mediante tcnicas de laboratorio objetivas, con el fin de buscar las caractersticas que los diferencian y evitar los posibles fraudes producidos por el intercambio debido a la proximidad geogrfica de ambas denominaciones. Por el momento nos centraremos en una sola variable, el grado alcohlico, y en una sola de las poblaciones, la de Ribera de Duero. Fijaremos adems un momento del tiempo, la cosecha del ao 1986. El primer paso de cualquier investigacin, la definicin clara de la poblacin en estudio, se obtiene de los propios objetivos del mismo. Estudiaremos vinos jvenes embotellados de la denominacin de origen "Ribera de Duero" en la cosecha de 1986. La variable a medir es el grado alcohlico. Seguramente todos hemos observado que en las botellas de vino aparece el grado alcohlico de las mismas, que suele ser entre 12 y 12,5 grados. Es obvio que este valor no es el contenido exacto de cada una de las botellas, sino que se trata de un contenido medio. Supongamos que desconocemos ese contenido medio para la poblacin y deseamos averiguarlo, para lo cual hemos de seleccionar una muestra de la poblacin. La necesidad de seleccionar una muestra es clara ya que el anlisis del contenido alcohlico implica la destruccin del individuo, la botella de vino. Aunque la poblacin no puede ser infinita supondremos que lo es ya que el nmero de botellas es muy grande y supondremos que la variable aleatoria sigue una distribucin normal. La hiptesis sobre la distribucin de probabilidad ha de hacerse a priori, teniendo en cuenta las caractersticas conocidas de la poblacin en estudio (hay que tener en cuenta que se trata solamente de un modelo para ajustar la realidad.) El ejemplo parece lgico utilizar una distribucin normal ya que es posible suponer que los posibles valores del grado alcohlico se concentran de forma simtrica en torno a un valor medio, y que la probabilidad de encontrar valores decrece a medida que aumenta la distancia a dicho valor medio. (Figura 4).
224
Figura 4.3: Distribucin poblacional del grado alcohlico de los vinos de Ribera de Duero.
Si tuviramos, por ejemplo, la distribucin de los salarios de los empleados de una Empresa dedicada a la fabricacin de automviles, en principio no podemos suponer la distribucin normal ya la distribucin es probablemente asimtrica con una cola hacia los salarios altos determinada por los salarios de los ejecutivos.
En la mayor parte de las investigaciones reales suponemos que las variables o transformaciones de las mismas (logaritmos, aproximadamente normales. etc, ...) tienen distribuciones
225
El paso siguiente consiste en determinar posibles valores para los parmetros desconocidos, para lo cual hemos de obtener una muestra representativa de la poblacin. La obtencin de una muestra representativa se trata en el punto siguiente.
Hemos utilizado letras minsculas, como en descriptiva, para denotar las observaciones
226
particulares de una muestra, y letras maysculas para denotar las variables aleatorias de las que se han tomado. A lo largo de la exposicin terica ambas sern intercambiables y sern utilizadas indistintamente para representar a las correspondientes variables aleatorias. Otra forma de ver la muestra es como una variable aleatoria multivariante con funcin de densidad de probabilidad es el producto de las funciones de densidad de cada una de las componentes (ya que son independientes) f(X1, X2, ... , Xn) = f(X1) f(X2) ... f(Xn) donde las funciones de densidad son iguales a la de X. Esta forma de entender la muestra supera el mbito de un curso introductorio. Una vez obtenida la muestra la describimos en trminos de algunas de sus caractersticas fundamentales como la media, la desviacin tpica, etc ... A tales caractersticas las solemos denominar estadsticos.
Definicin: Un estadstico es una funcin de los valores muestrales que no depende de ningn parmetro poblacional desconocido.
Un estadstico es tambin una variable aleatoria ya que es una funcin de variables aleatorias. Por ejemplo la media muestral
X=
!X
i=1
x=
!x
i=1
Cuando el contexto est claro, identificaremos la variable con sus observaciones, es decir utilizaremos tambin letras minsculas para la representacin de la variable. A continuacin ilustraremos, con un ejemplo sencillo, el concepto de distribucin
227
muestral de un estadstico. Supongamos que disponemos de una poblacin finita en la que disponemos de 4 individuos que toman los valores {1, 2, 3, 4}. Supongamos que obtenemos una muestra sin reemplazamiento de tamao 2. Las distintas posibilidades son {1, 2} {1, 3} {1, 4} {2, 3} {2, 4} Obtendremos, dependiendo de la muestra elegida, {3, 4} las siguientes medias
Es claro que la media muestral no es un valor fijo sino que puede considerarse tambin como una variable aleatoria de la que tenemos una sola observacin, la media de la muestra concreta seleccionada. Dicha variable tendr una distribucin de probabilidad asociada. (En este caso una distribucin discreta que toma los valores 1.5, 2, 2.5, 3 y 3.5 con probabilidades 1/6, 1/6, 2/6, 1/6, 1/6, respectivamente.
Definicin: A la distribucin de un estadstico calculado a partir de los valores tomados de una muestra se la denomina distribucin muestral del estadstico.
En la mayor parte de los casos supondremos que nuestra poblacin tiene distribucin normal y que los estadsticos que vamos a utilizar son la media y la desviacin tpica (o la cuasi desviacin tpica).
228
Var(X) = Desv(X) =
!2 n !
n
La comprobacin del resultado es obvia si tenemos en cuenta que la esperanza de la suma de varias variables aleatorias independientes es la suma de las esperanzas, y que la varianza es la suma de las varianzas, y adems que si multiplicamos una variable por una constante, la varianza queda multiplicada por la constante al cuadrado. Entonces
"1 n % 1 n 1 E(X) = E $ ! X i ' = ! E(X i ) = n = n # n i=1 & n i=1
n " n Xi % 1 (2 (2 Var(X) = Var $ ! ' = ! 2 Var X i = n 2 = n n # i=1 n & i=1 n
( )
Si adems, la poblacin es normal, es decir, X ! N( , " ) entonces la media muestral es tambin normal X ! N( , " ) . Basta tener en cuenta las propiedades de la normal que ya se vieron en su momento. El resultado es importante en estimacin ya que, aunque la media poblacional y la media muestral no coincidan, los posibles valores de la media muestral se concentran de forma simtrica alrededor de la media poblacional, adems, la dispersin es menor a medida que aumenta el tamao muestral.
229
Figura 4.5: Distribucin muestral de las medias. La distribucin muestral asociada a varianzas y cuasivarianzas es un poco ms compleja y su obtencin supera los objetivos del curso, de forma que nos limitaremos a exponerlas. Sea X1, X2, ... , Xn , una muestra aleatoria simple de una poblacin X N(, 2), entonces la variable aleatoria
" (X
i=1
! X)2
#2
sigue una ji-cuadrado con n-1 grados de libertad.
n S2 !2
(n " 1) S2 !2
230
Sea X1, X2, ... , Xn , una muestra aleatoria de una poblacin X con una distribucin de probabilidad no especificada para la que la media es E(X) = y la varianza Var(X)= 2 finita. La media muestral tiene una distribucin con media y varianza 2 /n que tiende a una distribucin normal cuando n tiende a infinito. La demostracin del resultado excede los lmites de un curso introductorio. La aproximacin a la distribucin normal es mejor para n grande ya que se trata de una aproximacin y no de una distribucin exacta como en el caso de poblaciones normales. En Estadstica consideramos n grande cuando es mayor de 30. Una consecuencia directa del teorema es que la suma de los valores muestrales sigue una distribucin normal de media n y varianza n2.
El teorema de De Moivre que se explic en el apartado de la normal puede entenderse tambin como un caso particular del Teorema Central del Lmite.
Sea una poblacin en la que se mide una v.a. X con distribucin binomial B(1,p), es decir, toma el valor 1 con probabilidad p y el valor 0 con probabilidad q, tiene una media p y una varianza pq. Una distribucin B(n,p) puede entenderse como la suma de n binomiales B(1,p), luego aplicando el TCL, si n es grande la distribucin B(n,p) se puede aproximar por una normal que tiene como media a np y como varianza npq.
231
232
con media y varianzas desconocidas como en el caso prctico que plantebamos anteriormente. De la poblacin se extrae una muestra aleatoria simple de tamao n, X1, X2, ... , Xn. Se trata de calcular, a partir de los valores muestrales, una funcin de los mismos que
Por ejemplo, por simple analoga, si la distribucin en la poblacin es normal, la media muestral puede considerase como un estimador de la media poblacional. La distancia entre el estimador y el parmetro a estimar puede medirse mediante los que se denomina el error cuadrtico medio, que se define como el valor esperado de la diferencia entre el estimador y el verdadero parmetro. ECM(! ) = E(! " ! ) El ECM es importante ya que puede escribirse como ECM(! ) = Var(! ) + [! " E(! )]2 una es la varianza del estimador y otra el cuadrado del sesgo (concepto que veremos posteriormente). Consideraremos criterios adicionales para seleccionar estimadores. Las propiedades deseables que ha de tener un estimador para considerarse adecuado son las siguientes: -Ausencia de sesgoSe dice que un estimador es insesgado (o centrado) si la esperanza del estimador coincide con el parmetro a estimar. E(! ) = ! . En caso contrario se dice que es sesgado y a la cantidad b(! ) = [! " E(! )] se la denomina sesgo. La propiedad es importante ya que los posibles valores del estimador fluctan alrededor del verdadero parmetro. Por ejemplo, si utilizamos la media muestral como estimador
233
de la media poblacional en una distribucin normal, se trata de un estimador insesgado ya que la esperanza de su distribucin muestral es la media poblacional . El hecho de que adems, tenga distribucin normal, es importante en la prctica, ya que aunque la media muestral y la poblacional no coinciden exactamente, los valores de aquella fluctan de forma simtrica alrededor de esta, son valores prximos con probabilidad alta y la dispersin disminuye cuando aumenta el tamao muestral. -Consistencia Se dice que un estimador ! es consistente si se aproxima cada vez ms al verdadero valor del parmetro a medida que se aumenta el tamao muestral. Ms formalmente, un estimador es consistente si Pr $ ! " ! > # & ( 0 cuando n ! " , para ! > 0 . o dicho de % ' otra forma la distribucin del estimador se concentra ms alrededor del verdadero parmetro cuando el tamao muestral aumenta. La media muestral es un estimador consistente de la media poblacional en una !2 distribucin normal, ya que, la varianza de la misma tiende a cero para n ! " , de n forma que la distribucin se concentra alrededor del verdadero valor cuando n crece. -EficienciaEs claro que un estimador ser tanto mejor cuanto menor sea su varianza, ya que se concentra ms alrededor del verdadero valor del parmetro. Se dice que un estimador insesgado es eficiente si tiene varianza mnima. Una cota inferior para la varianza viene dada por la denominada cota de Cramer-Rao. Sea X1, X2, ... , Xn. una muestra aleatoria simple de una distribucin con densidad f(x; ). Sujeto a ciertas condiciones de regularidad en la funcin de densidad, cualquier estimador insesgado verifica que
*$ # ln f (X;! ) ' 2 nE ,& ) / #! ( / ,% + . )# " ln f (X;! ) & 2 , A la cantidad I n (! ) = nE +% ( . se la denomina cantidad de informacin de "! ' . +$ * Var(! ) " 1
234
El mtodo de los mnimos cuadrados consiste en minimizar la suma de cuadrados de los errores (Diferencias entre valores observados y esperados)
D = " ! i2 = " (x i # )2
i=1 i=1 n n
235
# (x
i=1
" ) = 0
n i
#x
i=1
=x
Mtodo de la Mxima Verosimilitud - Consiste en sustituir los parmetros por aquellos valores que maximizan el logaritmo de la funcin de verosimilitud de la muestra (funcin de densidad conjunta de todos los valores muestrales en el supuesto de que son independientes). Ejemplo: Media y varianza de una poblacin normal Los valores muestrales X1, ... , Xn se supone que son variables aleatorias
independientes y todas con distribucin N(, ). La funcin de densidad conjunta ser el producto de las funciones de densidad de cada una de ellas.
L(x1 , , x n / , ! ) = $
i=1
! 2"
1 ( * )
n
1 ( xi # ) 2 !2
=
2 2
% =' &
Tomando logaritmos
! 2"
+#2
i=1
1 ( xi # )
Derivando con respecto a y y resolviendo el sistema se obtienen como estimadores para la media y la varianza
236
=x=
! xi
i=1
" 2 = S2 =
! (x
i=1
# x)2
Propiedades de los estimadores Mximo-verosmiles Los estimadores mximo-verosmiles juegan un papel importante en Estadstica debido a que se obtienen mediante un mtodo simple y tienen buenas propiedades con respecto a sesgo eficiencia y consistencia. Bajo ciertas condiciones de regularidad se verifica: -Si existe un estimador insesgado y de varianza mnima, cuya varianza alcance la cota de Cramer-Rao, este estimador es mximo verosmil y es la nica solucin de la ecuacin de verosimilitud. -Si el estimador es sesgado, su sesgo tiende a cero al aumentar el tamao de la muestra, adems es asintticamente eficiente (Eficiente para n grande). - Existe una solucin de la ecuacin de verosimilitud que proporciona un estimador consistente y asintticamente normal. N(! , mnima o cota de Cramer-Rao.
1 1 ) . Donde I n (! ) I n (! )
es la varianza
237
variable aleatoria discreta, y la distribucin Normal N(,), de variable aleatoria continua. As pues, y dado que las distribuciones anteriores vienen determinadas por sus parmetros, podremos hacer inferencias sobre la poblacin haciendo inferencias acerca de stos; veamos a continuacin cules son los estimadores , !, y " para los p parmetros p, , y , respectivamente.
ESTIMADOR DEL PARMETRO p DE UNA DISTRIBUCIN BINOMIAL B(n,p) Consideremos un experimento aleatorio cuyos resultados son dos sucesos A, A , mutuamente excluyentes, de probabilidades p y q=1-p, respectivamente. Sabemos que la variable aleatoria ligada a un experimento con las caractersticas anteriores sigue una distribucin Binomial B(n,p); pues bien, como estimador puntual de p, que llamaremos , tomaremos la frecuencia relativa del suceso A, al realizar n p pruebas, es decir: p = (n de veces que ocurre A)/(n de pruebas). Este estimador es eficiente, pues la distribucin de tiene de media p, y su p pq varianza, que vale n es mnima; adems, para un tamao de muestra n ! suficientemente grande, se distribuye segn una distribucin Normal N p, pq n # . p " $
238
ESTIMADOR DEL PARMETRO DE UNA DISTRIBUCIN DE POISSON P() Consideremos una determinada poblacin en la cual estudiamos una caracterstica que sigue una distribucin de Poisson P(), y sea x1, ... , xn una muestra genrica aleatoria de dicha poblacin; en estas condiciones se verifica que un buen n x estimador de es la media muestral ! = " i . i=1 n
El estimador ! es insesgado ya que su distribucin en el muestreo tiene de media , y como su varianza es mnima, resulta ser un estimador eficiente; adems, para n " !% '. suficientemente grande, ! sigue una distribucin Normal N$ !, # n&
ESTIMACIN DE LOS PARMETROS Y DE UNA DISTRIBUCIN NORMAL N(,) Consideremos una poblacin en la que estudiamos una determinada caracterstica que se distribuye segn una distribucin Normal N(,), y sea x1, ... , xn una muestra tomada al azar de dicha poblacin.
n x En estas condiciones se verifica que un estimador eficiente de es = ! i = x i=1 n
(media
!2 = #
n ( x " x )2 i
muestral);
adems,
puesto
que
2
la
cuasi-varianza
muestral:
i=1
n "1
= s2 es un buen estimador de !
2 Tanto como ! son estimadores eficientes, verificndose adems, que sigue 2 2 (n ! 1)s " ! $ una distribucin N , y que sigue una distribucin ! con n-1 grados # n% "2
de libertad. Para un estudio ms detallado de estos apartados consultar, por ejemplo, MOOD & GRAYBILL (1978).
239
240
de que el estimador "cubra" el verdadero valor del parmetro ), probabilidad que recibe el nombre de nivel de confianza y que denotaremos por 1-. Teniendo en cuenta lo anterior tambin podemos definir un intervalo de confianza de un parmetro poblacional , al nivel de confianza 1-, como un intervalo para el que se verifica que la probabilidad de que sus extremos tomen valores a, b tales que el parmetro poblacional est comprendido entre ellos es 1-, es decir: P( a b ) = 1-
241
En consecuencia, y dado que para una muestra en particular obtendramos valores concretos a y b para los que se verifica o no que a b es una clara incorreccin afirmar que "el parmetro pertenece al intervalo de confianza de extremos a, b con probabilidad 1- ", toda vez que la probabilidad de que tal cosa suceda es 1 si se verifica que a b, 0 en caso contrario. Ntese que el valor es fijo, mientras que a y b, por el contrario, son variables aleatorias!. Es claro que, para una muestra concreta, es imposible saber si el intervalo de confianza correspondiente contiene, o, no al parmetro . Veamos ahora cmo obtener intervalos de confianza para los parmetros ms importantes.
242
Figura 4.7: Seleccin de los puntos crticos para el clculo del intervalo de confianza. o lo que es igual:
% # # ' P !x ! Z " 2 $ ! $ !x + Z" 2 = 1! " & n n(
es decir:
% # # ' P x ! Z" 2 $ $ x + Z" 2 =1!" & n n(
" . n
Es conveniente aclarar que, dado que la media muestral x es una variable aleatoria, para una muestra concreta y un valor fijado, obtendramos un intervalo de # # & $ ;x0 + Z " 2 confianza concreto x0 ! Z " 2 que contendr, o no, a , sin que % n n' tengamos medio de saberlo a ciencia cierta; lo que afirmamos es que con un nivel de confianza 1-, dicho intervalo contendr a , es decir, de cada 100 intervalos correspondientes a 100 muestras tomadas, 100- contendrn a , mientras que los restantes no lo contendrn.
243
La importancia del intervalo de confianza para la estimacin est en el hecho de que el intervalo contiene informacin sobre el estimador puntual (valor central del intervalo) y sobre el posible error en la estimacin a travs de la dispersin y de la distribucin muestral del estimador. Una estimacin ser tanto ms precisa cuanto menor sea la amplitud del intervalo de confianza, es decir, cuanto menor sea el error de estimacin. Obsrvese que el error en la estimacin est directamente relacionado con la distribucin muestral del estimador y con la varianza poblacional, e inversamente relacionado con el tamao muestral. El grfico siguiente ilustra la interpretacin del nivel de confianza para el intervalo de confianza para la media de una distribucin normal con varianza conocida. Para los distintos posibles valores de la media, representados mediante su distribucin muestral, obtenemos distintos intervalos de confianza. La mayor parte incluye al verdadero valor del parmetro, pero el resto no. Concretamente el 95% lo incluye y el 5% no, si el nivel de confianza es del 95%. En la prctica disponemos de una nica repeticin del experimento, y por tanto de un nico intervalo de confianza, el sealado en negro en el grfico, por ejemplo. Confiamos en que nuestro intervalo sea de la mayora que con tiene al verdadero valor objetivo aunque no tenemos la seguridad de que sea as, tenemos concretamente un riesgo del 5% de equivocarnos.
95%
2.5%
2.5%
Figura 4.8: Interpretacin del nivel de confianza en el intervalo para la media de una distribucin normal. El procedimiento anterior para determinar el intervalo de confianza para la media poblacional, supuesta conocida la varianza, es vlido an en el caso de que la poblacin
244
de partida no sea Normal, con solo tomar un tamao de la muestra suficientemente grande n30. Es claro que cuanto mayor sea el nivel de confianza, mayor ser la amplitud del intervalo resultante (ntese que el intervalo (!", +") seguro que contiene a , es decir, contiene a , con probabilidad 1), as como que en las condiciones presentes, los intervalos resultantes para cada muestra concreta difieren en su centro x0 , pero tienen " igual amplitud Z ! 2 . n As mismo, cuanto menor sea menor ser la amplitud y cuanto mayor sea n, tamao de la muestra, menor ser la amplitud del intervalo (para n = tamao de la poblacin, el intervalo resultante sera un solo punto , es decir, no tendramos que hacer estimacin alguna ). De acuerdo con lo anterior, para reducir la longitud del intervalo podemos optar por: 1.- Reducir el nivel de confianza. 2.- Reducir la varianza restringiendo la poblacin, eliminando casos extremos. 3.- Aumentar el tamao de la muestra.
4.1.7.2 Intervalo de confianza para la media de una poblacin Normal de varianza desconocida.
En el caso anterior hemos supuesto conocida la varianza poblacin, cosa que no suele ser frecuente, toda vez que en su clculo interviene , y sta es desconocida (por eso se desea estimar!). En el caso de desconocer ! , lo lgico ser sustituirla en el razonamiento anterior 2 s por su estimador (cuasi-varianza muestral), de tal modo que el estadgrafo que x ! usaremos para determinar el intervalo de confianza ser , estadgrafo que, n !1 s como variable aleatoria que es, para muestras pequeas sigue una distribucin t de Student con n-1 grados de libertad (siendo n = tamao de la muestra ).
2
245
La distribucin muestral asociada a la cuasi-varianza es la siguiente: (n ! 1) S 2 # $2 n!1 2 Teniendo en cuenta la distribucin normal asociada a las medias y combinndola con la ji-cuadrado, obtenemos una distribucin t de Student:
"
X " t= N (0,1)
!2 n"1 n "1
# n
(n"1) S 2 #2
X " $ t n"1 S n
n "1
# I1!" = x ! t" $
s s % ;x + t " n !1 n !1 &
Obsrvese la similitud con el intervalo calculado para la distribucin normal, salvo en el valor crtico y en que la varianza ha sido estimada a partir de la muestra.
Figura 4.9: Diferencia entre la distribucin normal y la t de Student. Desde el punto de vista prctico esto implica que los valores crticos son un poco ms grandes y, por tanto el intervalo tiene mayor longitud, este es el precio que debemos pagar a cambio de no conocer la varianza de la poblacin. Si la muestra es grande n>30 sabemos que la distribucin de Student se aproxima a una Normal; en consecuencia, en el caso de muestras grandes, aunque la varianza sea
246
desconocida, podemos considerar que el estadgrafo sigue una distribucin Normal para calcular el intervalo de confianza.
4.1.7.3 Intervalo de confianza para la varianza y la desviacin tpica de una poblacin Normal
s2 Dado que la cuasi-varianza muestral es un estimador eficiente de la varianza poblacional 2, parece lgico estima sta a partir de aqulla.
(n ! 1) 2 s 2 Sabemos que el estadgrafo sigue una distribucin ! con n-1 grados de 2 " libertad, as pues, se verificar que:
$ ' (n " 1) 2 s P& !2 # * * !2 # $ 1" ,n"1' $ ,n "1' ) = 1" # & ) & ) +2 % % 2 ( %2 ((
y dividiendo entre (n-1)s2 obtenemos que
$ !2 ' !2 # $ 1" # ,n"1' $ ,n"1' & ) & )) & % 2 1 ( %2 ( P& 2 * 2 * 2 ) =1"# + (n " 1) ) s & (n " 1)s % (
as pues, tomando los respectivos inversos, se verificar que
$ ' 2 2 ) & (n ! 1)s (n ! 1) s P& 2 * +2 * 2 =1!# ) "$ # "$ # & & ,n!1' ) &1! ,n!1' ) ) % %2 ( % 2 ((
247
% ( 2 (n " 1)s 2 * ' (n " 1) s I1"# = ' 2 2 , 2 ! * $% # ' $% # * ' ,n"1( * ' 1" ,n"1( * & &2 ) & 2 ))
En consecuencia, para la desviacin tpica poblacional, tendremos el siguiente intervalo de confianza:
% ' (n " 1) 2 s (n " 1)2 s I1"# = ' 2 , 2 ! ' $ % # ,n"1( $ %1" # ,n"1( ' * ' * & &2 ) & 2 )
( * * * )
En estas condiciones, si la variable aleatoria X sigue una distribucin Binomial ! pq $ & ; as pues, B(n,p), la variable X/n seguir, aproximadamente, una Normal N# p, " n % X !p x tipificando la variable = obtenemos que Z = n sigue una Normal N(0,1) y p pq n n segn lo visto en puntos anteriores, ser:
248
' ) 2 = 1! " ) (
pq mediante n
pq , con lo que el n
249
4.1.8 Clculo del tamao muestral para estimar la media de una poblacin con una determinada precisin
Supngase que un investigador est interesado en estimar la media de una poblacin normal de forma que la diferencia existente entre la media muestral que obtendr del experimento y la media poblacional verdadera, est por debajo de un error prefijado de antemano.
P(x ! z" /2
podemos escribir
# # $ $ x + z" /2 ) =1!" n n
E = z! /2
" n
Despejando n de la igualdad
obtenemos la expresin deseada para el tamao muestral. Obsrvese que n ha sido calculado en el supuesto de que la variabilidad es conocida. Si no es as, la variabilidad aproximada puede obtenerse de trabajos bibliogrficos o experimentos previos o a partir una muestra piloto con unas pocas observaciones. Obsrvese que en el clculo del tamao muestral se han igualado el error fijado a priori con el error en la estimacin obtenido del intervalo de confianza y que este ltimo incluye el nivel de confianza. En este apartado un nivel de confianza del 95%, por ejemplo, implicara que en el 95% de las veces que repitiramos el experimento con el tamao muestral calculado, obtendramos un error por debajo del prefijado, mientras que en el 5% restante obtendramos un error superior.
250
1.- Intervalo de confianza para la media de una distribucin Normal de varianza conocida.
# # & $ I1!" = x ! Z" 2 ; x + Z" 2 % n n'
2.- Intervalo de confianza para la media de una distribucin Normal de varianza desconocida.
# I1!" = x ! t" $ s s % ;x + t " n !1 n !1 &
3.- Intervalo de confianza para la varianza y la desviacin tpica de una distribucin Normal.
% ( 2 (n " 1)s 2 * ' (n " 1) s I1"# = ' 2 2 , 2 ! * ' $ % # ,n"1( $ % 1" # ,n"1( * ' * ' * & &2 ) & 2 ))
% ' (n " 1) 2 s (n " 1)2 s 1"# I! = ' 2 , 2 ' $ % # ,n"1( $ %1" # ,n"1( ' * ' * & &2 ) & 2 )
( * * * )
251
4.2 Ampliacin
252
4.2.1 Introduccin
El objetivo de una encuesta por muestreo es hacer inferencia acerca de la poblacin, en base a la informacin contenida en una muestra. En la mayora de los casos la inferencia se llevar acabo en forma de estimacin de parmetros de la poblacin (una media, un total, una proporcin, etc.), con un lmite prefijado para el error de estimacin. La informacin obtenida de las encuestas por muestreo afecta a casi todos los aspectos de la vida cotidiana, por ejemplo:
Sirven como base para el clculo del IPC, a partir del cual las empresas calculan las tasas de salarios y las tasas de jubilacin, se actualizan las clusulas de contratos para rentas e hipotecas, etc. Es la base del anlisis de mercado, para decidir qu productos se deben comercializar, donde hacerlo, cmo anunciarlos, etc. Es la base de muchas de las noticias que divulgan los medios de comunicacin y por supuesto, la forma ms comn de obtener datos de inters sociolgico ya que hace posible que la investigacin social se extienda a los aspectos subjetivos de los miembros de la sociedad.
Cada observacin contiene cierta cantidad de informacin en relacin al parmetro poblacional, pero la informacin cuesta dinero. Por esta razn, debemos determinar cuidadosamente la "cantidad de informacin" que hemos de maneja: poca informacin impide buenas estimaciones, y mucha supone un despilfarro de dinero. Para llevar a cabo un estudio fiable es necesario realizar una encuesta a una muestra representativa. Dos son, por tanto los puntos a tratar en adelante: el cuestionario base de la encuesta y la seleccin de la muestra. A su vez, para la seleccin de una muestra representativa tendremos que especificar el tipo de muestreo que se va a llevar a cabo, y el tamao de muestra necesario para conseguir esa representatividad.
253
Desarrollaremos los tres apartados a continuacin: mtodos de recoleccin de datos, tipos de muestreo y tamao de muestra.
4.2.2.1 El cuestionario
El instrumento bsico de la informacin por encuesta es el cuestionario. Este consiste en una serie de preguntas preparadas cuidadosamente, sobre los hechos y aspectos que interesan en la investigacin las cuales deben ser contestadas por la poblacin, o ms generalmente, por la muestra seleccionada para llevar a cabo el estudio. La finalidad del cuestionario es obtener de una forma sistemtica y ordenada, informacin sobre la poblacin objeto de estudio. Traduce los objetivos de la investigacin en preguntas concretas y debe suscitar en los encuestados respuestas sinceras y claras a cada pregunta. Juega, pues, un papel central en la investigacin por encuesta. Hemos de distinguir entre dos tipos de cuestionarios: el cuestionario simple y la entrevista. El cuestionario simple es aqul en el que los encuestados, previa lectura del mismo, contestan por escrito, sin intervencin alguna de las personas que llevan a cabo la investigacin. En las entrevistas, el cuestionario es aplicado por personas especializadas en estas tareas, que son los que formulan las preguntas y los que anotan en l sus respuestas. Una situacin intermedia, tambin muy frecuente, consiste en la contestacin
254
individual, por escrito, de los encuestados los cuales han sido reunidos en un mismo lugar, bajo la supervisin del investigador. Este procedimiento es el que se utiliza para hacer la valoracin de la actividad docente del los profesores universitarios, por parte del alumnado al que imparten docencia. Una forma frecuente consiste en enviar las preguntas por correo. Este procedimiento suele ser barato ya que no precisa entrevistadores, pero generalmente el nivel de respuesta obtenido es muy bajo. La no respuesta puede sesgar la informacin, por lo que generalmente se establece un contacto posterior con los que no respondieron a las cartas, a travs de entrevista telefnica, o personal. Obviamente las preguntas deben estar redactadas de forma que no precisen ningn tipo de aclaracin. Con la instalacin de lneas de servicio telefnico (STAA), el entrevistador puede hacer cualquier nmero de llamadas en reas muy amplias por una cuota fija mensual. este hecho ha facilitado la encuesta telefnica, por su bajo costo y por la rapidez en obtener la respuesta. El inconveniente clave est en conseguir representatividad de la poblacin: muchos nmeros de telfono no pertenecen a hogares, muchos hogares no tienen telfono, etc. Se aconseja marcar los nmeros aleatoriamente para paliar en lo posible este problema: Se selecciona un nmero de rea al azar y los ltimos dgitos son marcados aleatoriamente hasta que se obtienen un nmero determinado de hogares del tipo establecido. La entrevista personal, en la cual el entrevistador realiza preguntas ya preparadas y registra las respuestas es, probablemente, la forma ms interesante de obtener datos sociolgicos, epidemiolgicos, etc. Es obvio que esta forma de recoger informacin aumenta el porcentaje de respuesta y evita interpretaciones incorrectas; los inconvenientes son el costo y la
255
necesidad de que los entrevistadores sean personal convenientemente adiestradas al afecto. Cualquier aseveracin, gesto, etc., puede modificar la respuesta. Evidentemente, no es lo mismo preguntar A qu partido poltico vota?, que preguntar Ud., tampoco vota al PSOE...?
256
Si a continuacin le preguntamos Es partidario de que se aumenten los impuestos para educacin?. Aunque considere que s, la respuesta probablemente ser no, ya que la afirmacin sera inconsistente con la respuesta anterior. No solo es importante el orden de las preguntas sino tambin el orden de las respuestas; est comprobado que tras una larga lista de respuestas, hay una tendencia a marcar las ltimas respuestas propuestas. La redaccin de las preguntas, es el elemento esencial. Es bien conocido que mnimas modificaciones en la redaccin, proporcionan cambios sustanciales en los porcentajes de respuesta.
Segn el tipo de respuesta que pueda dar el encuestado, se dividen en preguntas abiertas, preguntas cerradas, y preguntas categorizadas. Segn la naturaleza del contenido de las preguntas.
257
TIPO DE RESPUESTA QUE PUEDE DAR EL ENCUESTADO Las preguntas estrictamente cerradas son las que slo ofrecen dos posibles respuestas; generalmente: SI o NO. Las categorizadas tambin son cerradas pero el encuestado puede elegir entre varias alternativas o categoras. Las preguntas abiertas solo contienen la pregunta y no establecen ningn tipo de respuesta, dejando sta completamente al arbitrio del encuestado. Las preguntas abiertas permiten ms matices en la respuesta, pero dificultan los anlisis posteriores. Se suelen utilizar en las fases previas a la encuesta definitiva, cuando no se tiene un conocimiento exhaustivo del problema en el que se pretende trabajar ya que son esenciales para conocer el marco de referencia del encuestado y para redactar despus las alternativas que deben aparecer en las preguntas categorizadas. En cuanto a las preguntas cerradas, con solo dos alternativas de respuesta, debemos prestar atencin a la influencia que puede tener el presentar la pregunta referida a una sola de las alternativas. Por ejemplo, no es lo mismo preguntar Est Ud. a favor del divorcio? con posibles respuestas (Si , No), que decir Est a favor o en contra del aborto? con posibles respuestas (A favor, En contra)
EN RELACIN A LA NATURALEZA DEL CONTENIDO DE LAS PREGUNTAS: Podemos distinguir: Variables de identificacin, que son las que se refieren a caractersticas bsicas de la unidad de investigacin. Si son personas, este apartado contemplara, edad, sexo, estado civil, residencia, profesin, estudios, ingresos. religin, filiacin poltica, nacionalidad, etc. Preguntas filtro cuya funcin es eliminar un grupo de preguntas del cuestionario en aquellos encuestados que no le afecten. Por ejemplo, piensa comprase un piso? La respuesta puede ser No por
258
varias razones pero una de ellas, es que ya tenga piso. Por eso debe ponerse previamente una pregunta filtro del tipo Tiene piso propio?. Preguntas de control cuya finalidad es asegurarse del inters y buena fe del encuestado, o de la veracidad y fiabilidad de sus respuestas. A veces incluyen preguntas trampa para ver si el encuestado cae en ellas, porque en ese caso debe desestimarse su informacin, o preguntas de control para valorar la consistencia de la respuesta. Preguntas introductoras, cuya finalidad es tomar contacto y ganarse la confianza del entrevistado, o pasar de un tema otro. Preguntas muelle, que anteceden a preguntas escabrosas. etc., etc. A veces las preguntas del cuestionario son tan embarazosas que se sabe de antemano que el resultado va a estar sesgado; si eso ocurre puede hacerse imprescindible el recurrir a preguntas indirectas.
Un curioso ejemplo puede ser el siguiente: Supongamos que una empresa desea conocer la incidencia del consumo de drogas entre sus empleados. Si realizase la pregunta directamente, es posible que muchos empleados se nieguen o no contesten la verdad por miedo a represalias, a pesar de la promesa de que la encuesta es annima. Un mtodo recogido de la literatura consiste en lo siguiente: Se plantean dos preguntas, una inocua, como por ejemplo, Es el helado de vainilla, su favorito?* y otra que es la pregunta en la que estamos realmente interesados, en este caso podra ser Ha tomado marihuana, cocana o herona en los ltimos 15 das?. Se le pide al sujeto que lance una moneda al aire y conteste a la primera cuestin si sali cara y a la segunda si en la moneda sali cruz.
*
Evidentemente cualquier pregunta inocua valdra con tal de que se conoca la proporcin de posibles respuestas afirmativas en la poblacin.
259
De esta forma, an con los cuestionarios marcados, nadie puede saber a cul de las preguntas se ha respondido. De este modo es posible estimar el porcentaje de individuos de la empresa que consumen drogas. Veamos: Consideremos un ejemplo ficticio en el que suponemos que participan 100 empleados, elegidos al azar. Supongamos que conocemos que el 60% de los individuos de la poblacin prefieren el sabor vainilla a cualquier otro sabor de helado y que en 50 cuestionarios apareca la respuesta SI. Suponiendo que las monedas que emplean los empleados no estn trucadas (y que la teora de la probabilidad funciona), aproximadamente el 50% de los encuestados habr respondido a la pregunta del helado de vainilla y la otra mitad a la pregunta sobre el consumo de droga. As, de los 50 que contestaron a la pregunta del helado, el 60%, es decir, 30, contestaran afirmativamente. Si 50 personas contestaron SI a la pregunta conflictiva cabe esperar, pues, que 20 lo estn haciendo a la pregunta sobre las drogas. Por tanto, la estimacin del porcentaje de empleados que consume algn tipo de droga sera: 20/50= 40%
260
Errores "No de muestreo", estos ltimos pueden ser debidos a la No respuesta, a respuestas inexactas y a sesgos de seleccin.
261
En una pregunta sobre empleo Qu significa exactamente desempleado? Incluiremos a los adolescentes que no pueden encontrar trabajo en vacaciones? Debemos incluir a los que trabajan por su cuenta pero estn apuntados al paro?. etc.
El indice de TV de Nielsen (ITN) es el servicio ms ampliamente usado para medir la audiencia. Se basa en una muestra aleatoria de 1200 hogares que tienen conectado un audimetro de almacenaje automtico al televisor, el cual registra si funciona o no el televisor, qu canal se ve, y los cambios que se producen. * Datos tomados de la Tesis Doctoral: "Estudios sobre el nivel de salud en la poblacin salmantina" del que es autor D. Rafael Gonzalez Celador. Universidad de Salamanca. Facultad de Medicina. Ctedra de medicina Preventiva y Social. 1985.
262
La seleccin aleatoria de los individuos debe llevarse a cabo por un procedimiento riguroso; generalmente se utiliza una tabla de nmeros aleatorios. Debe tenerse en cuenta que este tipo de muestreo requiere disponer de un listado completo de los elementos de la poblacin para poder asignarles, consecutivamente, nmeros desde 1 hasta n.
263
La muestra estratificada reduce la variacin de los resultados de la muestra respecto a la poblacin total y proporciona una mayor precisin en las estimaciones. El muestreo estratificado ser constante o proporcional, segn que los estratos tengan, o no, el mismo tamao. La seleccin de los estratos no es siempre sencilla, sin embargo, debe estar perfectamente especificada al comenzar el estudio, ya que cada unidad muestral tiene que pertenecer claramente a un nico estrato. Por ejemplo, los hogares de Santa Marta, o los de Valdelagua, deben ser considerados rurales o urbanos? Si no se puede formar una base de la muestra por estratos, pero sabemos la composicin por estratos del universo en tantos por ciento, y la encuesta se realiza por entrevista, se recurre al muestreo por cuotas el cual consiste en asignar a cada entrevistador un nmero de entrevistas a realizar, indicndole las que tienen que corresponder a cada estrato, y dejando a su arbitrio la eleccin concreta de la poblacin a entrevistar. El error que se comete es mayor que el que se obtendra con un muestreo estratificado; se ha estimado que el tamao de la muestra realizado por cuotas debe ser mayor, en un 50%, al de la muestra elegida al azar, para que los errores sean equivalentes. Los inconvenientes fundamentales de este tipo de muestreo estn en el hecho de que no pueden aplicarse las frmulas estadsticas tpicas para estimar el error, aunque tambin puede ser importante el hecho de que los entrevistadores opten por elegir personas de su entorno ms prximo, hecho ste que contribuir aun ms a incrementar el error de muestreo. Para obviar en cierta medida estos problemas, se ha ideado el muestreo por rutas que consiste en fijar a cada entrevistador un itinerario definido en todos sus detalles, indicndole exactamente en qu puntos debe realizar la entrevista. A veces es necesario estratificar en todos aquellos caracteres con influencia en los resultados de la investigacin: sexo, edad, nivel socioeconmico, etc.
264
265
Adems debemos especificar la proporcin de veces que, en un muestreo repetido, se requerir que el error de estimacin sea menor que la cantidad prefijada E. Generalmente esta informacin se expresa en trminos probabilsticos, se conoce como nivel de confianza, y se denota como 1 - ; es decir,
266
se utiliza es el correspondiente estimador eficiente (insesgado y de varianza mnima); es decir, la media muestral. Si el parmetro que se pretende estudiar es la proporcin de xitos en la poblacin, el estimador que se utiliza es la proporcin muestral cuyo error estndar es pq N ! n pq en el caso de poblaciones finitas y si la poblacin no es finita. n n !1 n A continuacin se resuelve detalladamente un ejemplo real que ayudar al lector en la comprensin de los conceptos expuestos.
267
268
N es el tamao de la poblacin n el nmero de pruebas p la probabilidad de xito. El siguiente problema a resolver ser la estimacin del tamao adecuado de la muestra para que sta sea representativa.
La forma ms rpida y ms frecuente de resolverlo es escribir directamente la expresin matemtica para estimar el tamao en un modelo hipergeomtrico.
269
E[X' ] = n p
V[X' ] = n pq
N! n N !1
3.- Teniendo en cuenta el Teorema de De-MOIVRE, X' puede aproximarse por un modelo normal , de qu parmetros?.
X' = N(n p, n pq
N! n ) N !1
4.- Teniendo en cuenta las propiedades de la esperanza matemtica y de la varianza, si definimos una nueva variable aleatoria X=X'/n, podemos asegurar que esta nueva variable sigue un modelo normal, de qu parmetros?.
270
X' pq N" n = p ! N(p , ) n n N "1 X' ( )"p n ! N(0 , 1) pq N " n n N "1 p" p P("z #/ 2 $ $ z #/ 2 ) = 1" # pq N "n n N "1 X=
5.- Teniendo en cuenta la respuesta anterior el intervalo aleatorio de confianza para el parmetro 'p' de la distribucin hipergeomtrica es:
$ pq N ! n P& ! z "/ 2 p % n N !1 pq N ! n ' ) = 1! " n N !1 (
# p#
+ z "/ 2 p
* pq N ! n I1!" = p z "/ 2 p , n N !1 / + .
6.- A partir de la respuesta anterior, la expresin que nos permite calcular el tamao de la muestra, sabiendo que la diferencia entre el estimador insesgado y de varianza mnima y el verdadero valor del parmetro 'p' en la poblacin es una cantidad prefijada E, es:
p !p " E p !E " p " p+ E E = z #/ 2 pq n pq E2 = z2 2 #/ n N !n N !1 N!n N !1
n= 2 E (N ! 1) + z 2 2 p q #/
z2 2 N p q #/
271
7.- Dado el valor del error en funcin de 'n' y de 'p' , el valor de 'p' que hace lo mximo, fijado un valor de 'n' es:
1
1 # N" n &2 % E = z !/ 2 ( p(1 " p)) 2 $ n(N " 1)' 1 # N" n &2 (E ( p(1 " p)) " 2 = z !/ 2 % $ n(N " 1)' (p (1" 2p) = 0 1 p= 2 1
(1" 2p) = 0
8.- Con un error prefijado del 4%, un nivel de confianza elegido del 95.44 %, y tomando como valor de 'p' el obtenido en el apartado anterior; Para los datos del censo de la ciudad de Salamanca, el nmero de entrevistas necesario para llevar a cabo la investigacin propuesta es:
1! " = 0, 9544 p = 0, 5 z "/ 2 = 2
Supongamos un muestreo estratificado aleatorio proporcional; es decir el nmero de entrevistas a realizar en cada barrio ser proporcional al nmero de familias que habitan en ellos.
272
Calcule el tamao de muestra, por estratos, teniendo en cuenta que la distribucin de familias por barrios es la siguiente.
Barrio
Centro-Mercado San Juan Gran Via-Canalejas Antiguo Prosperidad-Rollo Salas Pombo Carmelitas-Oeste Pizarrales Vidal Garrido Tejares San Jose-La Vega
N de familias 6632 3539 856 5561 3318 4330 3786 3104 13690 976 2285 48069
% del total 13.79 7.34 1.77 11.56 6.90 9.00 7.87 6.45 28.47 2.02 4.75 100.00
TOTAL
3. El tercer problema, dado que el error est en funcin del tamao de la muestra, es estimar el verdadero error con el que se trabaja en cada estrato (barrio)
Calcule el verdadero error para los siguientes barrios: Centro-San Juan, Antiguo, Garrido y Tejares. Es realmente del 4%, como habamos previsto al principio?
E i = z !/ 2
p i q i Ni " n i ni N i " 1
273
Barrio
Centro-Mercado San Juan Gran Via-Canalejas Antiguo Prosperidad-Rollo Salas Pombo Carmelitas-Oeste Pizarrales Vidal Garrido Tejares San Jose-La Vega
Ni
6632 3539 856 5561 3318 4330 3786 3104 13690 976 2285 48069
ni
85 45 11 71 43 56 49 40 176 12 29 617
Error (%)
10,78 14,80 29,01 11,80 15,24 13,35 14,27 15,80 7,50 29,00 18,56 4,00
TOTAL
274
Supongamos que ese valor para el estimador puntual se hubiera obtenido para el estudio global de la ciudad de Salamanca; es decir, el 20% de los encuestados tiene hijos. b) Calcule los extremos del intervalo aleatorio de confianza para la proporcin de familias con hijos, en toda la ciudad de Salamanca y compare el resultado con el anterior.
275
700 600 500 400 300 200 100 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9
c) Si suponemos que en la poblacin salmantina la probabilidad de tener hijos es del 80% (p=0.8) Qu tamao de muestra es realmente necesario para detectar un error del 4%? (397) d) Cuantas entrevistas resultaran innecesarias?
(220)
276
"CONTRASTES DE HIPTESIS"
277
278
279
En el ejemplo anterior, el estadstico de contraste puede ser la media muestral, pero segn hemos visto en unidades anteriores, conocemos que la variable
x! Z= "
n
con n > 30
sigue una distribucin normal N(0,1), por lo que puede utilizarse sta variable como un estadstico de contraste, ya que se conoce su distribucin.
280
de
significacin
potencia
del
Nivel de significacin del contraste es la probabilidad de cometer un error del tipo I, es decir, de rechazar la hiptesis nula siendo cierta, acostumbra a denotar por = P(cometer error tipo I) = P(rechazar Ho siendo cierta) y se
La interpretacin estadstica del error tipo I es la siguiente: Si el experimento se repitiera un gran nmero de veces, sobre una poblacin con media de 150 unidades, en el 100(1 - a)% de los casos, ese experimento llevara a la conclusin verdadera de que = 150, y en el 100 a% de las veces conducira a la decisin falsa de que 150.
281
La probabilidad de cometer error del tipo II se denota por = P(cometer error tipo II) = P(aceptar Ho siendo falsa) Su complementario hasta uno es lo que se llama potencia del contraste La potencia del contraste, es la probabilidad de rechazar la hiptesis nula siendo sta falsa., es decir, aceptar la hiptesis alternativa siendo cierta. La interpretacin estadstica del error tipo II es la siguiente: Si el experimento se repitiera un gran nmero de veces, sobre una poblacin con media de 150 unidades, en el 100% de los casos, ese experimento llevara a la conclusin falsa de que = 150, y en el 100 (1 - )% de las veces conducira a la decisin verdadera de que 150. Estas probabilidades se pueden conocer: Si en el ejemplo de una poblacin normal N(, 30) tomamos una muestra de 36 elementos, y contrastamos Ho (=150) contra la hiptesis alternativa Ha (=165), y consideramos como regin de aceptacin el intervalo (140, 160), entonces la probabilidad de cometer error tipo I, es la probabilidad de que la media muestral pertenezca a la regin crtica; es decir, sea mayor que 160, o menor que 140 unidades, y la hiptesis nula sea cierta. As = P(cometer error tipo I) = P( x 160/N(150,30))+P( x 140/N(150,30))= =P(Z 2) + P(Z -2) = 0.0228 + 0.0228 = 0.0456 lo que nos da cierta informacin sobre la posibilidad de acertar en nuestra decisin, aunque no sepamos el verdadero valor del parmetro poblacional. Anlogamente se puede calcular la probabilidad de cometer error tipo II, es decir, de que la media muestral pertenezca al intervalo (140, 160) y sea cierta la hiptesis alternativa: = P(cometer error tipo II) = P(140 x 160/N(165,30))= P(-5 Z -1) = P(Z -1) - P(Z -5) = 0.1687 - 0.00001 = 0.168699.
282
Estos son los conceptos iniciales que deben tenerse en cuenta en un contraste de hiptesis.
283
En ste caso, la hiptesis nula ser, en general: Ho ( = o ) Mientras que la hiptesis alternativa puede tener diversas expresiones:
Ha ( = 1 ) , o bien, Ha ( < o ), Ha ( > o ), o bien Ha ( o ). Estadgrafo de contraste: El contraste se efectuar tomando muestras aleatorias de tamao n. Conocemos que la distribucin de la media muestral sigue una distribucin normal N(, /n). Entonces, si x es la media de una muestra de tamao n, entonces la variable
x! Z= " o
n
seguir, cuando la hiptesis nula sea cierta una distribucin normal estndar N(0,1). Se puede utilizar as pues sta variable como estadstico de contraste en ste caso. Nivel de significacin: El nivel de significacin ser , que, generalmente
tomar los valores 0.1, 0.05 0.01. Regin crtica: Si la hiptesis nula fuese cierta y = o , cabe esperar que la media muestral x se distribuya en torno al valor o, es decir, x - o tendr un valor elevado para que existan evidencias de que la hiptesis nula sea falsa, es decir, la variable Z tomar un valor absoluto grande; as pues, la regin crtica estar formada por los valores de Z elevados, tanto positivos como negativos. Para especificar cuando se consideran
284
elevados, teniendo en cuenta la distribucin de Z, sern aquellos que sean mayores, en valor absoluto, que z/2, en el contraste bilateral, o que z en el contraste unilateral. Si la hiptesis nula fuese Ho ( o ), entonces dejaran de pertenecer a la regin crtica los valores positivos grandes, y el contraste es, en ste caso, unilateral. (Ver figuras 4.2 y 4.3).
nivel de significacin
!/2 0
Regin de Aceptacin
z!/2
Regin crtica
Figura 4.10: Regiones crtica y de aceptacin en un contraste bilateral cuando la distribucin es normal estndar.
1- !
nivel de significacin
0
Regin de Aceptacin
z!
Regin crtica
Figura 4.11: Regiones crtica y de aceptacin en un contraste unilateral cuando la distribucin es normal estndar.
285
4.4.3.2 Contraste para la media de una poblacin normal, con varianza poblacional desconocida
MUESTRAS GRANDES
Estadgrafo de contraste: En el mismo caso que en el prrafo anterior, y con las mismas hiptesis, si el tamao de la muestra es suficientemente grande (n > 30), aunque sea desconocida la varianza poblacional, se consiguen buenos resultados utilizando como estimador de la varianza poblacional la cuasi-varianza muestral y, por lo tanto, se puede tomar como estadstico de contraste el mismo que se tom cuando la varianza poblacional era conocida; es decir
Z=
x ! o
s n
es una variable que sigue una distribucin normal estndar N(0,1), por lo que el razonamiento es idntico al caso anterior.
MUESTRAS PEQUEAS
Estadgrafo de contraste: Si el tamao de la muestra es pequeo (n < 30), sabemos de unidades anteriores que la variable
t=
x ! o
s n !1
difiere sensiblemente de una distribucin normal, aproximndose bastante mejor por una distribucin t de Student, con n-1 grados de libertad, por lo que sta variable t puede utilizarse con un estadstico de contraste. Regin crtica: La regin crtica, en ste caso, estar determinada por los valores de la variable t que sean excesivamente grandes en valor absoluto, si el contraste es bilateral, y para especificar el nivel de cuando pueden considerarse grandes, teniendo en cuenta la
286
distribucin de la variable t, que sigue una distribucin t con n-1 grados de libertad, sern aquellos valores mayores que t/2,n-1 en el contraste bilateral, o que t,n-1 en el contraste unilateral. Las regiones crticas sern pues, anlogamente al caso de la varianza poblacional conocida, los siguientes (ver figuras 4.4 y 4.5):
nivel de confianza
!/2
1"!
!/2
nivel de significacin
-t !/2
Regin crtica
0
Regin de Aceptacin
t !/2
Regin crtica
Figura 4.12: Regiones crtica y de aceptacin en el contraste bilateral cuando la variable se distribuye segn una t de Student.
Figura 4.13: Regiones crtica y de aceptacin en el contraste unilateral cuando la variable se distribuye segn una t de Student.
287
4.4.4.1 Contraste de hiptesis para la igualdad de medias de dos poblaciones normales con varianzas poblacionales conocidas.
Estadgrafo de contraste: Conocemos del tema relacionado con las distribuciones normales, que la diferencia de dos distribuciones normales se distribuye tambin normalmente con media la diferencia de las medias, y varianza la suma de las varianzas, por lo que la variable # 2 "1 " 2 & + 2 ( , por x1 ! x2 ser una variable que se distribuye normalmente N% 1 ! 2 , n1 n2 ' $ lo que en el caso particular de conocer las varianzas poblacionales, podemos utilizar como estadstico de contraste la variable
Z=
x1 ! x2
2 "1 " 2 + 2 n1 n 2
288
que, en el caso de que la hiptesis nula sea cierta (1 = 2 ), se distribuye como una distribucin normal estndar N(0,1), y, por lo tanto, puede utilizarse como estadstico de contraste, dado que conocemos su distribucin.
Regin crtica: La regin crtica estar formada por los valores de Z elevados, tanto positivos como negativos. Para especificar cuando se consideran elevados, teniendo en cuenta la distribucin de Z, sern aquellos que sean mayores, en valor absoluto, que Z/2, en el contraste bilateral, o que z en el contraste unilateral.
4.4.4.2 Contraste de hiptesis para la igualdad de medias de dos poblaciones normales con varianzas poblacionales desconocidas pero iguales
MUESTRAS GRANDES Estadgrafo de contraste: Supongamos ahora que las varianzas son desconocidas pero iguales (1 = 2 = ). Si las muestras tienen tamao grande, aunque no se conozca la varianza poblacional, se trabaja como si se conociese utilizando en lugar de la varianza poblacional, su estimador la cuasivarianza muestral, por lo que la distribucin de la diferencia de " 1 1 % ' , medias muestrales es ahora N $ 1 ! 2 , s + n1 n2 & # siendo = s estndar
2 (n1 ! 1)1 + (n2 ! 1)s2 s2 , por lo que la variable tipificada es una normal n1 + n2 ! 2
Z=
( x1 ! x2 ) ! (1 ! 2 )
1 + 1 S n1 n2
Z=
( x1 ! x2 )
S 1 1 + n1 n 2
289
se distribuye como una distribucin normal estndar, por lo que se puede utilizar como un estadstico de contraste.
Regin crtica: La regin crtica se determina igual que en el prrafo anterior, es decir, para los valores de Z mayores, en valor absoluto, que z/2 (contraste bilateral), o que z (contraste unilateral).
MUESTRAS PEQUEAS Estadgrafo de contraste Pero, si las muestras son pequeas (n1 + n2 < 30), entonces la variable siguiente
t=
(x1 ! x2 ) ! (1 ! 2 ) 1 + 1 S n1 n2
con S =
2 2 (n1 ! 1)S1 + (n2 ! 1)S2 , sigue una distribucin t de Student con n1+n2-2 n1 + n2 ! 2
t=
(x1 ! x2 ) 1 + 1 S n1 n 2
porque se distribuye como una t de Student con n1+n2-2. Regin crtica: La regin crtica viene determinada por los valores de esta variable t, que son mayores en valor absoluto que t/2 en el contraste bilateral, o bien los valores de t, que son mayores en valor absoluto que t en el contraste unilateral.
290
para
distribuciones
Estudiaremos slo contrastes en los que sea posible aproximaciones de la binomial mediante la normal, por lo que estudiaremos slo los casos de muestras
Hiptesis de partida En ste caso, la hiptesis nula ser: Ho : p = p o y la hiptesis alternativa puede ser: Ha : p po en el contraste bilateral, o bien Ha : p > po , en el contraste unilateral (tambin Ha : p < po).
Estadgrafo de contraste: Como conocemos que la distribucin binomial B(n, p) se aproxima mediante una variable normal N(np, npq ), entonces, se verifica que la variable p ! po Z= p(1 ! p) n se distribuye como una distribucin normal estndar N(0,1).
291
Regin crtica: La regin crtica, ahora, ser la determinada por los valores de la variable Z que son mayores en valor absoluto que z/2 , en el contraste bilateral, o bien, mayores que z , en el contraste unilateral.
Hiptesis de partida: La hiptesis nula ser: Ho : p 1 = p 2 mientras que la hiptesis alternativa puede ser : Ha : p 1 p 2
Estadgrafo de contraste: Ahora, teniendo en cuenta las propiedades de las distribuciones normales, por las que se aproximan las binomiales, se verifica que la variable
Z=
! ! p1 ! p2 ! ! ! ! p1(1 ! p1) p2 (1 ! p 2 ) + n1 n2
se distribuye, cuando la hiptesis nula es cierta, como una distribucin normal estndar N(0,1)
Regin crtica:
292
La regin crtica ser anloga a todas aqullas en el que el estadstico de contraste sigue una distribucin normal.
293
"CONTRASTES DE HIPTESIS"
4.5 Ampliacin
294
Comenzaremos ilustrando las ideas generales sobre el contraste ms simple, el de la media de una poblacin Normal, para ir extendiendo progresivamente las ideas a dos poblaciones, a la comparacin de proporciones y a las poblaciones no normales. Analizaremos la problemtica de realizar un nmero elevado de contrastes sobre el mismo conjunto de datos, y extenderemos las ideas fundamentales al diseo de experimentos con varios grupos experimentales.
295
La definicin del problema a estudiar nos permite determinar la poblacin que queremos estudiar, los vinos jvenes de ribera de Duero en el ao actual; la variable que queremos medir, el grado alcohlico de los mismos, y la hiptesis de trabajo inicial Se ha modificado el grado alcohlico?. El paso siguiente consiste en suponer un modelo de comportamiento terico para la poblacin (a priori). Suponemos que la variable que estamos midiendo en la poblacin a estudiar sigue una distribucin Normal. La suposicin de normalidad la haremos de acuerdo con el conocimiento previo que tengamos sobre la poblacin objeto de estudio tratando de que las caractersticas de la distribucin reflejen en la mayor medida posible las de la poblacin, se trata simplemente de buscar un modelo probabilstico que aproxime la variable a estudiar. En el caso que nos ocupa, parece razonable suponer, a priori, que el grado alcohlico se concentra de forma simtrica alrededor de un valor medio. Si considerramos, por ejemplo, los salarios de una empresa la hiptesis de normalidad no es plausible puesto que cabe esperar que la distribucin de los mismos sea marcadamente asimtrica debido a los altos salarios de un grupo reducido de ejecutivos. Formularemos ahora la hiptesis de trabajo en trminos de los parmetros del modelo (media y/o desviacin tpica en el caso de la Normal). La hiptesis principal la denominamos hiptesis nula (H0).
H0 = = 0 = 12.5
La hiptesis nula suele ser la de igualdad del parmetro a un nico valor concreto o procedente de la hiptesis de trabajo. Junto con la hiptesis nula planteamos la que denominamos hiptesis alternativa (Ha o H1) que ser aceptada cuando se rechace la nula y viceversa. Por el momento tomaremos la ms sencilla, la hiptesis e que la media es diferente de 12 que resultar en un contraste bilateral.
Ha = ! 0 = 12.5
Trataremos de disear un procedimiento para decidir entre ambas hiptesis a partir de la informacin contenida en una muestra de tamao n, por ejemplo 14 observaciones.
296
Supongamos que la muestra ha sido seleccionada al azar de la poblacin y que se han obtenido los resultados siguientes.
RIBERA DE DUERO 12,8 12,8 12,5 11,9 12,5 12,1 12,2 12,6 13,0 12,4 12,6 12,2 12,8 13,0
Tabla 4.1: Grado alcohlico de 14 vinos de la denominacin de Ribera de Duero.
La primera cuestin que hemos de tener en cuenta es que la decisin por una hiptesis concreta ha de tomarse con un cierto riesgo de equivocarse al no disponer de la informacin de todos los individuos de la poblacin. Trabajaremos con la media muestral como estimador de la media poblacional desconocida. En el ejemplo la media muestral es de 12,529, que como ya sabemos no coincide con la media poblacional. Trataremos de decidir entre las dos hiptesis a partir del valor de la media muestral pero, si la media muestral no coincide con la media poblacional, ser la diferencia entre el valor observado y el terico lo suficientemente grande como para rechazar la hiptesis nula? o la diferencia observada es lo suficientemente pequea como para ser debida simplemente al azar o al desconocimiento de la poblacin?. Daremos respuesta a ambas preguntas utilizando los conceptos sobre distribuciones aprendidos en temas anteriores.
conocida. Sabemos que la media muestral para distintas muestras sigue una distribucin ! ) , luego, cuando la hiptesis nula es cierta Normal N(, n
x ! N(0 ,
" ) n
En la prctica, este resultado tiene implicaciones importantes. Vemoslo con un dibujo (figura 4.7).
297
x ! N( 0 , " ) n
0
Figura 4.14: Distribucin de la media muestral.
El dibujo muestra cmo, aunque los valores de la media muestral no coinciden con la media poblacional, se concentran en torno a ella y por tanto es muy probable que sean cercanos aunque, con el modelo supuesto puede tomar cualquier valor. Obsrvese tambin que cuanto mayor es el tamao muestral ms se concentran los valores de la media muestral en torno a la media poblacional. Intuitivamente, aceptaremos la hiptesis nula cuando la media muestral sea prxima a 0 y la rechazaremos (aceptando la alternativa) cuando la media muestral sea muy diferente de 0 , es decir, utilizamos la media muestral como estadstico, o estadgrafo, de contraste. Nos queda por determinar cual es el criterio para decidir si la media muestral est prxima o no al valor terico propuesto utilizando el concepto de riesgo tipo I definido previamente. Fijamos el riesgo tipo Y en (por ejemplo en 0.05 o el 5%) Nos plantearemos el contraste como un juicio en el que la media muestral es inocente (procede de una poblacin con media 0 ) y no la declararemos culpable (no procede de una poblacin con media 0 ) hasta que no se demuestre claramente lo contrario. Sobre la distribucin de la media seleccionamos dos puntos 0 ! a y 0 + a , simtricos alrededor de 0 de forma que si la hiptesis nula cierta en el (1-)100% (por ejemplo el 95%) de las muestras la media muestral est entre esos dos valores (figura 4.8).
298
Aceptaremos la hiptesis nula si la media muestral est dentro del intervalo seleccionado y la rechazaremos en caso contrario. Es claro que si la media est fuera del intervalo seleccionado hay una clara evidencia de que la hiptesis no es cierta ya que toma los valores correspondientes solo en el 5% de los casos en los que la hiptesis nula es cierta. Por supuesto, estamos asumiendo un riesgo del 5% de equivocarnos y rechazar indebidamente. Como ya es conocido, al conjunto de valores que nos llevan a aceptar la hiptesis nula lo denominamos Regin de Aceptacin, y al conjunto de valores que nos llevan a rechazarla Regin Crtica. En este caso la regin crtica se ha dividido en las dos colas de la distribucin por lo que se dice que el contraste es bilateral o de dos colas. En la prctica no se trabaja directamente con la media muestral y su distribucin asociada sino con la distribucin Normal estndar. Teniendo en cuenta las propiedades de la Normal podemos escribir
x ! P(0 ! a " x " 0 + a) = P(!z# /2 " $ 0 " z #/ 2 ) = 1 ! # n
de forma que el procedimiento descrito se convierte ahora en el que se muestra en la x! figura 4.9. El estadgrafo de contraste es ahora " 0 y mide la discrepancia entre el n valor observado de la media l valor terico de la misma, en la escala de la desviacin
299
tpica. No es lo mismo una diferencia de una unidad en una escala de centmetros que en una escala de kilmetros.
La interpretacin intuitiva del nuevo procedimiento sigue siendo clara, rechazaremos la hiptesis nula solamente cuando la discrepancia entre la media observada y la terica ( x ! 0 ) sea grande, en relacin a la variabilidad intrnseca ! medida por . La magnitud de la diferencia necesaria para rechazar se determina a n travs del riesgo de tipo 1 mediante la distribucin Normal estndar. A los valores de z/2 se les suele denominar valores crticos ya que determinan la frontera entre la regin crtica y la regin de aceptacin. El cuadro 4.2 muestra el procedimiento completo con los pasos que se siguen habitualmente en la construccin de cualquier contraste.
300
Hiptesis H0 : = 0
Ha : ! 0
Nivel de significacin: x ! Estadgrafo de contraste: Z = " 0 n Distribucin del estadgrafo cuando la hiptesis nula es cierta: N(0,1) Regin de aceptacin: {Z / Z ! z "/ 2 } Regin critica: {Z / Z > z !/ 2 }
Cuadro 4.2: Contraste para la media de una poblacin Normal con varianza conocida.
Una vez que hemos determinado la forma general del contraste pasamos a aplicarlo a los datos del problema inicial que nos ocupa (ver cuadro 4.3). Hiptesis:
H0 : = 12.5 Ha : ! 12.5
Nivel de significacin: 5% y 1%. x ! 12.529 ! 12.5 = 0.217 Estadgrafo de contraste: Z = " 0 = 0.5 n 14 Valores crticos : para el 5% z0.025= 1,96 para el 1% z0.005= 2,57 Decisin estadstica: El valor del estadgrafo de contraste pertenece a la regin de aceptacin, por tanto aceptamos la hiptesis nula. Conclusin no estadstica: La modificacin en el proceso de fabricacin no ha modificado significativamente el grado alcohlico.
Cuadro 4.3: Aplicacin del contraste para la media de una poblacin Normal con varianza conocida al problema de la modificacin en el grado alcohlico del vino de Ribera de Duero
Una vez que hemos tomado la decisin final, no sabemos si es correcta o no, simplemente esperamos que sea del 95% de las muestras en las que aceptamos la hiptesis correctamente. Si aceptamos la hiptesis nula no quiere decir que sea cierta y el grado medio sea exactamente de 12.5 grados (probablemente no lo es), sera ms correcto interpretar que, con la informacin de la que disponemos no hemos encontrado evidencia suficiente de que la media sea distinta de 12.5. Evidentemente, los valores muestrales son compatibles con muchos otros posibles valores tericos. Si aumentamos el tamao de muestra indefinidamente, la variabilidad de la media
301
sera cada vez menor y conseguiramos que la pequea diferencia observada sea lo suficientemente grande como para considerarla significativa. Es por esto por lo que en Estadstica decimos que es tan malo tener un tamao de muestra demasiado alto como tenerlo demasiado bajo ya que en el primer caso cualquier pequea diferencia es considerada como significativa mientras que en el segundo no se declara significacin incluso en el caso en el que la diferencia sea elevada.
302
Figura 4.17: Clculo de la potencia del contraste para una alternativa predeterminada.
En la figura 4.11 se muestra la funcin de potencia para distintos valores posibles de la hiptesis alternativa.
El grfico muestra como la potencia es mayor cuando los valores de la alternativa se alejan del valor para la hiptesis nula. En la prctica este hecho tiene una implicacin obvia: es ms fcil detectar diferencias o efectos experimentales de gran magnitud. Aunque no es posible un control directo de la potencia, a la vista de la figura 4.10
303
es claro que la potencia puede modificarse modificando el nivel de significacin o el tamao muestral ya que la forma de las curvas depende de ste. Cuanto mayor sea el tamao muestral ms concentrada es la curva Normal y, por tanto, mayor es la potencia para el mismo nivel de significacin. En la prctica suele hacerse un estudio de potencia para los contrastes no significativos, calculando cual sera el tamao muestral necesario para que la diferencia observada en los datos sea significativa. Si este tamao es muy grande es difcil declarar la significacin por lo que consideraremos que estamos haciendo lo correcto, si el tamao muestral necesario es pequeo, sera conveniente revisar el experimento. El clculo es muy simple cuando se trabaja con distribuciones normales. La x ! 0 > z #/ 2 de forma que, para que la diferencia hiptesis nula se rechaza cuando " n sea significativa el valor de n ser
z2 "2 n > !/ 2 x # 0
para el ejemplo del grado alcohlico, n> 1141,97, es decir, para que la diferencia observada fuera significativa tendramos que haber recogido ms de 1142 observaciones lo que da una idea de que la diferencia observada es muy pequea y, por tanto es muy probable que la hiptesis nula sea cierta.
304
De forma general, el p-valor para el contraste actual se puede calcular como # x ! & P% Z > " 0 ( en una distribucin Normal estndar. $ n ' Para el ejemplo anterior el p-valor es 1-P(-0.217 < Z < 0.217) = 2 P(Z > 0.217) = 0.8285, es decir el p-valor puede considerarse grande. En la prctica se suele adoptar el criterio de aceptar la hiptesis cuando el p-valor es mayor que el nivel de significacin fijado en el procedimiento de contraste.
305
Hiptesis H0 : = 0
Ha : > 0
Nivel de significacin: x ! Estadgrafo de contraste: Z = " 0 n Distribucin del estadgrafo cuando la hiptesis nula es cierta: N(0,1) Regin de aceptacin: {Z / Z ! z "/ 2 } Regin critica: {Z / Z > z !/ 2 }
Cuadro 4.4: Contraste unilateral superior para la media de una poblacin Normal con varianza conocida.
El contraste as obtenido se denomina contraste unilateral superior ya que solo estamos interesados en las desviaciones positivas. La diferencia fundamental con el contraste bilateral es que se produce un incremento en la potencia para detectar diferencias positivas de la hiptesis nula y un decremento drstico para detectar las negativas. El p-valor sigue teniendo la misma interpretacin aunque ahora se calcula como # x ! & P% Z > " 0 ( . $ n '
De la misma manera que se ha construido el contraste unilateral superior es posible construir el contraste unilateral inferior (ver cuadro 4.5) si estamos interesados
306
exclusivamente en detectar diferencias negativas con respecto a la hiptesis nula. La construccin del contraste es completamente anloga con la correspondiente modificacin de la hiptesis alternativa. El contraste unilateral inferior incrementa la potencia para detectar diferencias negativas aunque no tiene potencia para detectar las positivas. Hiptesis H0 : = 0
Ha : < 0
Nivel de significacin: x ! Estadgrafo de contraste: Z = " 0 n Distribucin del estadgrafo cuando la hiptesis nula es cierta: N(0,1) Regin de aceptacin: {Z / Z ! z "/ 2 } Regin critica: {Z / Z < z !/ 2 } # x ! 0 & p-valor: P% Z > ( " $ n '
Cuadro 4.5: Contraste unilateral inferior para la media de una poblacin Normal con varianza conocida.
La decisin por el tipo de contraste debe hacerse a priori, antes de tomar los datos. Supongamos, por ejemplo, que sospechamos, antes de realizar el experimento, que la modificacin en el proceso de fabricacin, aumenta el grado alcohlico. El procedimiento de contraste para los datos de la tabla 1 se muestra en el cuadro 4.6.
307
Hiptesis:
H0 : = 12.5 Ha : > 0
Nivel de significacin: 5% y 1%. x ! 12.529 ! 12.5 = 0.217 Estadgrafo de contraste: Z = " 0 = 0.5 n 14 Valores crticos : para el 5% z0.025= 1,65 para el 1% z0.005= 2,33 p-valor: 0.4129 Decisin estadstica: El valor del estadgrafo de contraste pertenece a la regin de aceptacin, por tanto aceptamos la hiptesis nula. Conclusin no estadstica: La modificacin en el proceso de fabricacin no ha aumentado significativamente el grado alcohlico.
Cuadro 4.6: Aplicacin del contraste para la media de una poblacin Normal con varianza conocida al problema de la modificacin en el grado alcohlico del vino de Ribera de Duero
La funcin de potencia para distintos valores de la alternativa aparece en la figura 4.15. Obsrvese como el contraste no tiene ninguna potencia para detectar valores a la izquierda de la hiptesis nula.
308
t=
sigue una distribucin t de Student con n-1 grados de libertad. El procedimiento de contraste en este caso es anlogo al anterior pero sustituyendo la distribucin Normal por la distribucin t. El cuadro 4.7 muestra el procedimiento de contraste completo.
309
Hiptesis H0 : = 0
Ha : ! 0
Nivel de significacin: x ! 0 Estadgrafo de contraste: t = S n Distribucin del estadgrafo cuando la hiptesis nula es cierta: tn-1 Regin de aceptacin: {t / t ! t n "1,# } Regin critica: {t / t > t n !1," } *
Cuadro 4.7: Contraste para la media de una poblacin Normal con varianza desconocida.
En la prctica, la sustitucin de la distribucin Normal por la distribucin t de Student implica un aumento de la dispersin por lo que es ms difcil detectar diferencias. La situacin se muestra el la figura 4.16 en la que se comparan la distribucin Normal estndar (en lnea discontinua) y la distribucin t (en lnea continua).
1"! !/2
-t !
t!
Es posible construir contrastes unilaterales de la misma manera que en el caso de varianza conocida. El cuadro 4.8 muestra el contraste unilateral superior, el contraste unilateral inferior se deja como ejercicio al lector.
tn-1, es el valor crtico de la t de Student tal que P(-tn-1, tn-1 tn-1, ) = 1-. Se ha denotado con el
310
Hiptesis H0 : = 0
Ha : > 0
Nivel de significacin: x ! 0 Estadgrafo de contraste: t = S n Distribucin del estadgrafo cuando la hiptesis nula es cierta: tn-1 Regin de aceptacin: {t / t ! t n "1,2# }* Regin critica: {t / t > t n !1,2" }
Cuadro 4.8: Contraste para la media de una poblacin Normal con varianza desconocida.
Para el ejemplo del grado alcohlico de los vinos de la denominacin de origen de Ribera de Duero los resultados del contraste bilateral se muestran en el cuadro 4.9 Hiptesis:
H0 : = 12.5 Ha : ! 12.5
Nivel de significacin: 5% y 1%. x ! 0 12.529 ! 12.5 = 0.338 = 0.316 Estadgrafo de contraste: Z = S 14 n Valores crticos : para el 5% t0.05= 1,96 para el 1% t0.01= 2,57 p-valor : 0,7571 Decisin estadstica: El valor del estadgrafo de contraste pertenece a la regin de aceptacin, por tanto aceptamos la hiptesis nula. Conclusin no estadstica: La modificacin en el proceso de fabricacin no ha modificado significativamente el grado alcohlico.
Cuadro 4.9: Aplicacin del contraste para la media de una poblacin Normal con varianza conocida al problema de la modificacin en el grado alcohlico del vino de Ribera de Duero
Todos los conceptos explicados para el contraste de la media de una poblacin Normal con varianza conocida siguen siendo vlidos aqu.
tn-1,2 es el valor crtico de la t de Student tal que P( tn-1 > tn-1,2 ) = . Se ha denotado con el subndice
311
Hiptesis:
H0 : = 0 Ha : ! 0
Nivel de significacin: x ! 0 Estadgrafo de contraste: Z = S n Distribucin del estadgrafo cuando la hiptesis nula es cierta: N(0, 1) Regin de aceptacin: {Z / Z ! z "/ 2 } Regin critica: {Z / Z > z !/ 2 }
Cuadro 4.10: Contraste para la media de una poblacin Normal con varianza desconocida cuando la muestra es grande.
312
4.5.3 Contraste para la diferencia de medias de dos poblaciones normales con datos independientes
4.5.3.1 Planteamiento general
En la investigacin aplicada la situacin ms habitual es aquella en la que se quieren comparar dos poblaciones a las que se les ha aplicado, por ejemplo, dos tratamientos diferentes. Pongmonos en el mismo supuesto que en el ejemplo que sirvi para ilustrar el contraste para una poblacin, y supongamos que lo que deseamos es conocer si los vinos de nuestra denominacin de origen tienen el mismo contenido alcohlico que los de otra denominacin de origen, por ejemplo la de Toro. Se trata de saber si existe una clara diferenciacin en los mismos ya que, debido a la proximidad geogrfica de ambas regiones, es posible que haya fraudes y se intercambien vinos de ambas dependiendo del mercado de los mismos. La hiptesis de trabajo inicial es entonces Existen diferencias en el grado alcohlico de ambas denominaciones?. Procediendo de la misma manera que en el caso de una poblacin, suponemos una distribucin de probabilidad para la poblacin que es la distribucin Normal. En la primera poblacin (Ribera de Duero) el grado alcohlico sigue una distribucin Normal N(1, 1); en la segunda poblacin (Toro) el grado alcohlico sigue un Modelo Normal N(2, 2). Formulamos a continuacin las hiptesis de trabajo en trminos de los parmetros de los modelos. Las hiptesis nula y alternativa son ahora
H0 :1 = 2 Ha :1 " 2 (1 ! 2 = 0) (1 ! 2 " 0)
para el contraste bilateral. Vemos como el contraste de que las medias son iguales es equivalente al contraste de que la diferencia de medias vale 0.
Supongamos que los datos obtenidos son los siguientes para muestras aleatorias
313
de tamao
n1 = 14 y n2 = 6.
Ribera de Duero 12,8 12,8 12,5 11,9 12,5 12,1 12,2 12,6 13,0 12,4 12,6 12,2 12,8 13,0 Toro 13,0 14,0 13,2 13,4 13,2 13,9
Tabla 4.2: Grado alcohlico de 20 vinos de las denominaciones de origen de Ribera y Toro.
Se supone que las muestras se han obtenido de forma independiente en ambas denominaciones. La estadstica descriptiva bsica para ambos grupos aparece en la tabla 4.3.
Una primera aproximacin a las diferencias entre los dos grupos sera la construccin de grficos comparativos que muestren la estructura de los mismos, por ejemplo, un Box-Plot con los grupos separados. (Ver figura 4.17). Una simple inspeccin visual del grfico nos muestra que hay una clara diferencia entre los grados de ambas denominaciones, a pesar de que la diferencia muestral es muy evidente necesitamos un procedimiento ms formal para establecer si las diferencias observadas pueden ser consideradas estadsticamente significativas. Construiremos el procedimiento de contraste en varios supuestos comenzando desde el ms sencillo hasta los ms complejos.
314
Figura 4.24: Box plot para la comparacin del grado alcohlico de las denominaciones de Ribera y Toro.
y ambas distribuciones son independientes. El estimador de la diferencia de medias poblacionales ser la diferencia de medias muestrales y, como la diferencia de normales independientes es tambin una distribucin Normal, tenemos que
x1 ! x2 " N(1 ! 2 , #2 # 2 1 + 2) n1 n2
315
Z=
# N(0,1)
Z=
(x1 ! x2 )
2 "1 " 2 + 2 n1 n 2
# N(0,1)
El procedimiento de contraste completo se muestra el cuadro 4.11. Solo se incluye el contraste bilateral ya que la construccin de los correspondientes unilaterales es la misma que en los casos previos y se deja como ejercicio al lector. Hiptesis:
H0 :1 = 2 Ha :1 " 2 (1 ! 2 = 0) (1 ! 2 " 0)
Nivel de significacin: (x1 ! x2 ) Estadgrafo de contraste: Z = 2 "1 " 2 + 2 n1 n 2 Distribucin del estadgrafo cuando la hiptesis nula es cierta: N(0, 1) Regin de aceptacin: {Z / Z ! z "/ 2 } Regin critica: {Z / Z > z !/ 2 }
Cuadro 4.11: Contraste para la diferencia de medias de dos poblaciones normales con varianza conocida.
Si aplicamos el contraste a los datos del ejemplo, obtenemos los resultados del cuadro 4.12.
316
Hiptesis:
H0 :1 = 2 Ha :1 " 2
(1 ! 2 = 0) (1 ! 2 " 0)
Nivel de significacin: = 0.05 (5%) 0.01 (1%) (12.529 ! 13.450) Estadgrafo de contraste: Z = = !10.829 0.25 0.36 + 14 6 Valores crticos : para el 5% z0.025= 1,96 para el 1% z0.005= 2,57 Decisin estadstica: El valor del estadgrafo de contraste pertenece a la regin crtica, por tanto rechazamos la hiptesis nula. Conclusin no estadstica: La modificacin en el proceso de fabricacin ha aumentado significativamente el grado alcohlico.
Cuadro 4.12: Contraste para la diferencia de medias de dos poblaciones normales con varianza desconocida.
Z=
Tenemos que eliminar el parmetro , para lo cual utilizaremos las distribuciones muestrales asociadas a las cuasi-varianzas muestrales
2 (n 2 ! 1)S2 # $ 2 2 !1 n 2 "
La suma de dos ji-cuadrado es tambin una ji-cuadrado, sumando las dos anteriores
317
Suponiendo que ambas distribuciones son independientes* , podemos combinarlas para obtener una distribucin t de Student. La variable aleatoria
t=
(x1 ! x2 ) ! (1 ! 2 ) 1 + 1 S n1 n2
con S =
t=
(x1 ! x2 ) = t n1 +n 2 !2 1 + 1 S n1 n 2
Es posible considerar un estadgrafo de contraste alternativo si se utilizan las varianzas muestrales en lugar de las cuasi-varianzas. Para ello basta tener en cuenta que las distribuciones muestrales asociadas a las varianzas son
2 n1 S1 2 2 " # n1 $1 !
n2 S 2 2 2 2 " # n 2 $1 !
t=
(x1 ! x2 ) = t n1 +n 2 !2 1 1 S + n1 n 2
con S =
que pueden utilizarse indistintamente. Usaremos el calculado a partir de las cuasivarianzas porque son estimadores insesgados de la varianza poblacional.
*
La demostracin puede encontrarse en cualquier libro de Estadstica Matemtica. No se ha incluido aqu porqwue supera los propsitos de este trabajo.
318
En ambos casos lo que se ha hecho es estimar la varianza comn de ambas poblaciones mediante una media ponderada de las varianzas estimadas en cada poblacin, y se ha cambiado la distribucin Normal por la t de Student con el correspondiente aumento en la dispersin que hace que sea ms difcil encontrar diferencias. En este caso es necesario que las varianzas sean iguales para poder despejarlas y eliminarlas en el clculo del estadgrafo de contraste. La comprobacin de la igualdad de varianzas se har posteriormente aunque sea un paso previo a la decisin del tipo de contraste. Las cuestiones relacionadas con la potencia del contraste se interpretan de la misma manera que en todos los casos anteriores. Cuanto mayor sea la diferencia que queremos detectar mayor ser la potencia para detectarla. Cuanto ms pequeo sea el efecto que queremos detectar mayor ser el tamao de muestra necesario para hacerlo. Si aumentamos indefinidamente el tamao muestral conseguiremos que la diferencia muestral sea siempre estadsticamente significativa por pequea que sea. El contraste completo se muestra en el cuadro 4.13.
H0 :1 = 2 (1 ! 2 = 0) Ha :1 " 2 (1 ! 2 " 0) Nivel de significacin: (x1 ! x2 ) (x1 ! x 2 ) t= Estadgrafo de contraste: t = 1 1 1 + 1 S S + n1 n 2 n1 n 2
Hiptesis:
2 2 2 2 (n1 ! 1)S1 + (n 2 ! 1)S2 n1 S1 + n2 S2 S= n1 + n 2 ! 2 n1 + n2 ! 2 Distribucin del estadgrafo cuando la hiptesis nula es cierta: t de Student t n1 +n 2 !2 con S =
Cuadro 4.13: Contraste para la diferencia de medias de dos poblaciones normales con varianzas desconocidas pero iguales.
El contraste se ha aplicado a los datos del ejemplo inicial y se han obtenido los siguientes resultados (ver cuadro 4.14).
319
H0 :1 = 2 (1 ! 2 = 0) Ha :1 " 2 (1 ! 2 " 0) Nivel de significacin: = 0.05 (5%) 0.01 (1%) (12.529 ! 13.450) Estadgrafo de contraste: t = = !5.256 1 1 0.359 + 14 6 Valores crticos : para el 5% t18,0.025= 2.101 para el 1% t18,0.005= 2.878
Hiptesis:
Decisin estadstica: El valor del estadgrafo de contraste pertenece a la regin crtica, por tanto rechazamos la hiptesis nula. Conclusin no estadstica: El grado alcohlico es significativamente diferente en Ribera de Duero y Toro.
Cuadro 4.14: Contraste para la diferencia de medias de dos poblaciones normales con varianzas desconocidas pero iguales, aplicado a los datos sobre el grado alcohlico.
Hiptesis:
Cuadro 4.15: Contraste para la diferencia de medias de dos poblaciones normales con varianzas desconocidas y distintas.
320
Hiptesis:
Distribucin del estadgrafo cuando la hiptesis nula es cierta: N(0,1) Regin de aceptacin: {Z / Z ! z "/ 2 } Regin critica: {Z / Z > z !/ 2 }
Cuadro 4.16: Contraste para la diferencia de medias de dos poblaciones normales con varianzas desconocidas y tamaos muestrales grandes.
Obsrvese que estamos suponiendo implcitamente que la cuasi-varianza muestral es un buen estimador de la varianza poblacional, prximo al verdadero valor.
321
Los datos experimentales se corresponden con experimentos planificados en los que se asignan dos tratamientos distintos a un grupo de individuos. En este tipo de diseos es necesario que todas las caractersticas que no intervienen en el diseo y puedan modificar la respuesta, estn controlados y sean similares en los dos grupos a comparar. Por ejemplo, si se desea hacer un ensayo clnico en el que se dispone de un grupo de pacientes de forma que a un subconjunto se le aplicar el tratamiento a comparar y el resto ser utilizado como control sobre el que se utilizar un placebo (substancia no activa) con la misma apariencia que el tratamiento, los pacientes de ambos grupos han de ser similares en composicin con respecto a caractersticas como la edad peso u otros factores que pudieran alterar la respuesta y que no intervienen directamente en el diseo. Se tratar de evitar sesgos de forma que los efectos puedan ser asignados a los tratamientos, por ejemplo, en un experimento con ratones de laboratorio en el que se dispone de dos camadas distintas, no sera correcto asignar un tratamiento diferente a cada una de las camadas ya que sera imposible separar los efectos del tratamiento y de la camada. En Estadstica decimos que los tratamientos estn confundidos. La forma de asignar tratamientos a individuos para que no existan errores sistemticos es hacerlo al azar, por ejemplo, sorteando cual es el tratamiento que se aplica a cada individuo. A este procedimiento se le denomina aleatorizacin, y juega un papel fundamental en el diseo de experimentos planificados. Hay que hacer notar que al azar no significa "de cualquier manera" o "cualquiera de los tratamientos", para conseguir una verdadera aleatorizacin es necesario utilizar la probabilidad. En los experimentos diseados es muy importante realizar estudios previos sobre el tamao de muestra necesario para detectar un determinado efecto. Este problema est fuera del alcance de un curso introductorio aunque las ideas bsicas fueron expuestas cuando se trat con los intervalos de confianza. Este tipo de experimentos se comenz en Agricultura para extenderse despus a otras aplicaciones como la Industria o la Medicina. Actualmente los ensayos clnicos controlados, basados fundamentalmente en conceptos de Estadstica, forman una parte importante de la investigacin mdica. Todo el mundo ha odo alguna vez en las noticias los resultados de ensayos clnicos controlados antes de lanzar al mercado un nuevo medicamento.
322
Como las variables estn relacionadas, todos los clculos que realizamos en el caso de datos independientes ya no son vlidos. Para evitar este problema nos centraremos en una sola variable aleatoria que es la diferencia entre los dos valores obtenidos para cada uno de los individuos estudiados que mide el efecto del tratamiento aplicado. Tenemos ahora una nueva variable D que suponemos que tiene una distribucin Normal de media d desviacin tpica d . La hiptesis de inters es ahora que, en promedio, el tratamiento aplicado a los individuos es 0, es decir, d = 0. El contraste es ahora exactamente igual que el descrito para la media de una poblacin Normal (ahora la poblacin de las diferencias.
323
Describimos a continuacin el contraste para muestras pequeas y varianza desconocida para datos apareados. Llamaremos d , a la media muestral de las diferencias y Sd a la cuasi desviacin tpica. El contraste se muestra en el cuadro 4.17.
Hiptesis:
H0 : d = 0 Ha :d ! 0
d
Cuadro 4.17: Contraste para la diferencia de medias de dos poblaciones normales con datos apareados.
El resto de los contrastes se construye de la misma manera que en el caso de una sola poblacin. El cuadro 4.18 muestra ejemplo.
Hiptesis:
H0 : d = 0 Ha :d ! 0
Nivel de significacin: 5% y 1% 6 = 2.250 Estadgrafo de contraste: t = 8.433 10 Distribucin del estadgrafo cuando h0 es cierta: t9 Valores crticos : para el 5% t9, 0.05= 2,262 para el 1% t9, 0.01= 3,250 p-valor : 0,0510 Decisin estadstica: El valor del estadgrafo de contraste pertenece a la regin de aceptacin, por tanto aceptamos la hiptesis nula. Conclusin no estadstica: Con los datos de los que disponemos no existe una evidencia significativa de que exista una diferencia entre la presin sistlica antes y despus de haber dejado de beber.
Cuadro 4.18: Contraste para la diferencia de medias de dos poblaciones normales con datos apareados aplicado al ejemplo de la reduccin de la tensin arterial en alcohlicos.
324
325
4.5.3.9 Contraste para la comparacin de la tendencia central cuando las poblaciones no son normales
En muchas situaciones prcticas es difcil aceptar la hiptesis previa de que los datos son normales al disponerse, por ejemplo, de distribuciones muy asimtricas. En estos casos los contrastes anteriores no detectan claras diferencias en el comportamiento de las poblaciones, debido a que la dispersin es muy grande o debido a que la medida de tendencia central utilizada (la media) no es la correcta porque est afectada por los valores extremos. Los contrastes paramtricos descritos antes son especialmente sensibles a valores extremos de la variable. Para solucionar el problema se utiliza la mediana en lugar de la media construyndose los que se denominan contrastes no paramtricos al no referirse ya a parmetros de una distribucin concreta.
Me1
x1
x2
Me2
En la figura se muestra como para distribuciones asimtricas es mucho ms intuitiva la comparacin de las medianas que la comparacin de las medias, ya que estas estn afectadas por los valores muy extremos de la distribucin. La situacin del esquema es muy tpica, por ejemplo, en problamas mdicos en los que la mayora de los controles (curva de la izquierda) presentan valores normales de la variable, y solamente algunos de ellos presentan valores elevados, en el grupo de los pacientes enfremos, la mayora presenta valores elevados y solamente alguno presenta valores normales. El problema es particularmente crtico cuando el tamao de muestra es pequeo pero, incluso cuando el tamao de muestra es grande y se utiliza errneamente el contraste paramtrico
326
correspondiente, se subestima el tamao del efecto a pesar de que la distribucin normal est correctamente utilizada aplicando el Teorema Central del lmite. La prctica habitual, especialmente en el mbito mdico, de aplicar contrastes no paramtricos cuando la muestra es pequea y paramtricos cuando es grande es claramente errnea y puede llevar a no encontrar efectos experimentales que aparecen claramente definidos en los datos. Para la comparacin de medianas de dos poblaciones con datos independientes el contraste ms utilizado es el conocido como U de Mann-Withney, est basado en la suma de los rangos de orden de las observaciones de las dos poblaciones consideradas conjuntamente y consiste bsicamente en calcular todas las ordenaciones posibles con muestras de los mismos tamaos en el caso de que las medianas fueran iguales, para comprobar el percentil en el que se encuentra nuestro caso particular. Cabe esperar que si las medianas de las dos poblaciones son iguales los datos estn mezclados y las sumas de rangos de orden sean similares en amos grupos. El resto del razonamiento es similar al de cualquier contraste, si el valor muestral obtenido es muy probable aceptamos la hiptesis nula y si no la rechazamos. Para el caso de datos apareados se utiliza el test de Wilcoxon que contrasta la hiptesis de que la mediana de las diferencias es cero. La base del contraste es similar al caso de muestras independientes.
Comparacin de medianas de dos poblaciones con datos independientes: el contraste U de Mann-Withney Est basado en la suma de los rangos de orden de las observaciones de las dos poblaciones consideradas conjuntamente y consiste bsicamente en calcular la distribucin muestral a partir de todas las ordenaciones posibles con muestras de los mismos tamaos en el caso de que las medianas fueran iguales. Cabe esperar que si las medianas de las dos poblaciones son iguales los datos estn mezclados y las sumas de rangos de orden sean similares en ambos grupos.
327
HIPOTESIS:
ESTADIGRAFO DE CONTRASTE: Ordenar las observaciones, asignar el rango correspondiente y calcular las sumas de rangos de las observaciones de cada grupo.(R1 y R2)
n (n + 1) U = min(U 1 , U 2 ) U i = n 1n 2 + i i ! Ri 2
Para muestras grandes: Z =
n n U! 1 2 2 n 1 n 2 (n 1 + n 2 + 1) 12
DISTRIBUCION DEL ESTADIGRAFO CUANDO H0 ES CIERTA: Distribucin emprica o N(0,1) para muestras grandes. REG. DE ACEP.:
inf {U / U!;n ,n
1 2
REGION CRITICA:
sup
{Z /
Z ! z " /2 }
{Z /
Z > z ! /2 }
Comparacin de medianas de dos poblaciones con datos apareados: el test de Wilcoxon Contrasta la hiptesis de que la mediana de las diferencias es cero. La base del contraste es similar al caso de muestras independientes.
HIPOTESIS:
H 0 : Me d = 0 H a : Me d ! 0
ESTADIGRAFO DE CONTRASTE: Calcular las diferencias entre los valores de ambos grupos, Suprimir las observaciones nulas, Ordenar las observaciones en valor absoluto, asignar el rango correspondiente y calcular las sumas de rangos de las observaciones positivas y negativas.(T+ y T-)
T = min(T+ , T! )
328
sup inf {T / T!;n " T " T!;n } sup inf REGION CRITICA: {T / T ![T";n ; T";n ]}
REG. DE ACEP.:
{Z /
Z ! z " /2 } Z > z ! /2 }
{Z /
H0 :1 = = i = = r
La hiptesis es cierta si y solo si las hiptesis por parejas H0 : i = j para todas ! r $ r(r & 1) las k = # = combinaciones posibles de i y de j. " 2% 2 Si contrastamos la hiptesis por separado a un nivel de significacin , tenemos
P(Aceptar H i, j / Hi, j 0 0 cierta ) = 1 ! "
i, j
329
P(Aceptar
H0 / H0
cierta ) = P( ! Aceptar
i!j
Hi, j / H0 0
cierta ) =
i!j
Por ejemplo, para tres poblaciones en las que se realizan comparaciones 3 individuales al 5%, hay una probabilidad de 1 ! 0.95 = 1! 0.8574 = 0.1426 de rechazar la hiptesis nula indebidamente. Con 5 poblaciones la probabilidad sera 1 ! 0.9510 = 1! 0.5987 = 0.4013 . Con 10 poblaciones 1 ! 0. 95
45
poblaciones, aunque todas las medias fueran iguales tendramos una probabilidad del 90% de encontrar diferencias en alguna de las parejas. Este problema es importante no solo en la comparacin de medias por parejas sino tambin cuando se quieren realizar muchas comparaciones sobre el mismo conjunto de datos. Supongamos, por ejemplo, que un investigador desea demostrar que es capaz de encontrar diferencias entre personas convictas por algn tipo de delito y personas que no. A tal fin realiza 100 medidas biomtricas como el permetro torcico, el permetro craneal, etc.... que compara en los dos grupos. En cada comparacin tiene una probabilidad del 5% de rechazar indebidamente, sin embargo (si las medidas fueran independientes) tendra una probabilidad del 99,41% de encontrar diferencias en alguna de las variables. El nmero esperado de contrastes significativos sera de 5.
El problema de mantener el nivel de significacin global en la comparacin de las medias de varios grupos se soluciona mediante la tcnica denominada Anlisis de la varianza seguido de las comparaciones por parejas en las que se hace algn tipo de correccin en el nivel de significacin individual.
330
Figura 4.26: Box plot para la comparacin del grado alcohlico de las
331
El grfico muestra como no hay observaciones muy extremas, las dos distribuciones tienen aproximadamente la misma dispersin y la correspondiente a la denominacin de origen de Toro parece ms asimtrica. La asimetra podra ser debida simplemente a que el tamao muestral es muy pequeo en este grupo. En lneas generales parece que las hiptesis se verifican y es posible aplicar el contraste par la igualdad de medias de dos poblaciones normales con varianzas desconocidas pero iguales. Para contrastar ms formalmente que las varianzas son iguales se puede construir un contraste muy simple teniendo en cuenta la distribucin del cociente de varianzas basado en el cociente de las distribuciones ji-cuadrado asociadas. El cociente
S2 " 2 = 1 2 2 S2 "1 2
libertad.
332
Hiptesis:
Para el ejemplo de la comparacin del grado alcohlico en las dos denominaciones de origen consideradas el contraste de comparacin de varianzas se muestra en el cuadro 4.20. Hiptesis:
2 H0 :!1 = !2 2 2 Ha :!1 " ! 2 2
Distribucin del estadgrafo cuando h0 es cierta: F n1 !1, n 2 !1 p-valor : 0.6261 Conclusin : Se acepta la hiptesis nula.
Cuadro 4.20: Contraste de comparacin de las varianzas de dos poblaciones normales aplicado a la comparacin de la variabilidad del grado alcohlico.
Como se acepta la hiptesis de igualdad de varianzas, la comparacin de medias ha de hacerse en el supuesto de que las varianzas son iguales.
El valor F n !1,n !1, 1!" /2 es el valor crtico que deja a la derecha un rea de 1 ! " / 2 . En la 1 2 prctica puede calcularse como F n !1,n !1, 1!" /2 = 1 F n !1, n !1, " / 2 1 2 2 1
*
333
"TABLAS DE CONTINGENCIA"
334
5.1.1 Introduccin
La existencia de distintas pruebas estadsticas es consecuencia, en parte, de las distintas escalas de medida que se utilizan para tratar las variables objeto de una determinada investigacin. Los investigadores de distintos campos utilizan de modo habitual variables medidas en escala nominal y pasan buena parte de su tiempo clasificando y contando individuos. As por ejemplo cualquier individuo puede ser clasificado en categoras (varn, mujer; enfermo, sano; ausencia, presencia; soltero, casado, viudo, separado). El resultado de tales clasificaciones da lugar a lo que en la terminologa estadstica se le conoce como tablas de contingencia o tablas de frecuencias. Tablas de contingencia son tablas de variables aleatorias cualitativas cuyos datos estn recogidos en forma de tablas de frecuencias.
1) Test de bondad de ajuste a distribuciones: Para comprobar si nuestros datos muestrales se ajustan a un determinado modelo terico. (Ejemplo: Sigue la estatura media de los espaoles una ley normal?) 2) Test de homogeneidad de varias muestras cualitativas: Contraste para probar si varias muestras de un carcter cualitativo proceden de igual poblacin. (Ejemplo: Es la proporcin de parados en Espaa la misma que en el resto de los pases Europeos?)
335
3) Test de asociacin: Para comprobar si dos o mas caractersticas cualitativas estn relacionadas entre s. (Ejemplo: Est la intencin de voto, a un determinado partido poltico, relacionada con el sexo?).
En el desarrollo del captulo nos vamos a centrar en este ltimo tipo de contrastes.
EJEMPLO 5.1: Supongamos una muestra de 100 individuos de una poblacin en los que estamos estudiando el estado civil. Esta variable aleatoria puede tener cuatro categoras: soltero, casado, viudo y divorciado. Supongamos que el nmero de individuos en
336
nuestro estudio ha sido: 50 casados, 30 solteros, 15 viudos y 5 divorciados, estos nmeros representan nuestras frecuencias observadas. Solucin: Nuestra hiptesis de partida (H0) podra ser que las cuatro categoras estn igualmente representadas. En este caso cabra esperar que nuestra muestra constara de 25 individuos en cada casilla, que se corresponden con nuestras frecuencias esperadas.
Solteros frecuencia Observada frecuencia Esperada 25 25 25 25 30 Casados 50 Viudos 15 Divorciados 5
esperadas discreparan poco y, seran muy diferentes en caso contrario. Se nos plantea
Cmo medir las discrepancias?. La forma ms simple de medir divergencias entre ambas magnitudes sera efectuar la diferencia entre ambas (foi -fei ), en todas y cada una de las casillas de la tabla y, obtener, de este modo, una magnitud que: si es grande nos har pensar en rechazar la hiptesis de partida, y si es pequea en aceptarla.
En realidad el estadstico con el que vamos a trabajar se basa en esta idea, si bien tiene algunas correcciones (no trabaja con diferencias sino con diferencias al cuadrado, para evitar problemas de signos, y trabaja con discrepancias normalizadas, obtenindolas en valores relativos).
Estadgrafo de contraste:
!2 = #
i
(fo i " fe i )2
fei
foi= Frecuencia observada para la i-sima categora fei= Frecuencia esperada para la i-sima categora
337
El siguiente problema que se nos plantea: qu entendemos por magnitud grande? Necesitamos un criterio uniforme para declarar rechazos o aceptaciones. Pearson nos soluciona este problema demostrando que el estadgrafo de contraste propuesto segua un modelo terico: Una Ji-cuadrado con (r-1)(s-1) grados de libertad, cuando la hiptesis nula se verificaba. (Siendo r= n de filas de la tabla y s= n de columnas de la tabla). De este modo el criterio de decisin ya est establecido, declararemos rechazo, es decir declararemos diferencias grandes, cuando nuestro valor del estadgrafo experimental supere al valor crtico encontrado en la tabla de la distribucin Ji-cuadrado con esos grados de libertad, al nivel de significacin elegido.
Recurdese que un valor crtico no es ms que un valor de la variable aleatoria que slo es superado por un porcentaje pequeo, preestablecido de antemano, de individuos cuando la hiptesis nula es cierta
338
EJEMPLO 5.2: Supongamos cuatro tratamientos (Ai) que se piensa efectivos para curar una determinada enfermedad, estos tratamientos se aplican a enfermos de dicha enfermedad y se anota el tipo de respuesta que presentan (Bj). La respuesta se clasifica en tres posibles clases: "peor", "igual", "mejor". Ejemplo tomado de MARTN ANDRS, A. et al. (1995).
TOTAL 150 f1. 120 f2. 130 f3. 160 f4. 560 f..
37 f .1
fi. = Total fila i f.j = Total columna j f.. = Gran total Solucin: Disponemos de nuestra tabla de frecuencias observadas, se necesita establecer una hiptesis de partida que nos permita el clculo de las correspondientes frecuencias esperadas. La hiptesis de la que se parte es la hiptesis de independencia, es decir vamos a suponer que ambos caracteres no estn relacionados (no estn asociados). Si denotamos: Ai= Suceso de que un individuo pertenezca a la clase i de A Bj= Suceso de que un individuo pertenezca a la clase j de B Podemos escribir las hiptesis como: Ho: Los caracteres A y B son independientes bien los caracteres A y B no estn relacionados los caracteres A y B no estn asociados Ha: Son dependientes, relacionados, asociados
339
En nuestro ejemplo: Ho: El tipo de tratamiento no condiciona la respuesta del individuo. Ha: Si condiciona.
Si ambas caractersticas son independientes podemos escribir las hiptesis de la siguiente forma:
fe 21 = f .. P(A2 )P(B1 )
Para su clculo necesitamos P(A2) , es decir la probabilidad de los individuos a recibir el tratamiento 2, y la P(B1) es decir la probabilidad de los individuos de empeorar. Ntese que en la frmula aparecen, ademas de estas dos probabilidades el total global. El total global es necesario para pasar de probabilidades a frecuencias Ambas probabilidades son desconocidas pero estimables a partir de la tabla (casos favorables entre casos totales). A los correspondientes estimadores de las probabilidades les vamos a denotar con: pij
(A 2 ) = p
(B1 ) = p
340
De donde se desprende la regla general que nos permitir calcular la frecuencia esperada de cualquiera de las casillas de la tabla: feij= (Total fila i-sima)(Total col. j-sima)/Total global Sin ms que aplicar esta frmula general obtendremos la tabla de frecuencias esperadas:
Peor 7 9.91 15 7.93 10 8.59 5 10.57 37 Igual 28 31.61 20 25.28 30 27.39 40 33.72 118 mejor 115 108.48 85 86.79 90 94.02 115 115.71 405 TOTAL 150 120 130 160 560
Obtencin de la cantidad experimental: Para medir las discrepancias entre ambas utilizamos el estadgrafo de contraste adecuado que como veamos era:
!2 = exp
##
i j
(7 " 9.91)2
9. 91
+... +
= 13.87
Ya sabemos que valores grandes nos llevaran a rechazar la hiptesis de independencia, y los pequeos a aceptarla. Sabemos tambin que la regla de decisin est clara pues basta con buscar el valor crtico en la tabla de la Ji-cuadrado ( con los grados de libertad adecuados, y al nivel de significacin deseado, 5% por ejemplo), y
341
comparar nuestro valor experimental con l. Declararemos significacin siempre que el valor experimental supere el valor crtico.
2 2 ! exp " o# ! $ , % "
2 ! 0. 05,6 = 12. 59
12.59<13.87 , por tanto Rechazo Ho En nuestro caso concreto son 6 los grados de libertad y 12.59 el valor crtico. El valor experimental, 13.87, supera al valor crtico. Conclusin: El tipo de tratamiento condiciona el tipo de respuesta encontrada en el paciente. No podemos suponer independencia de las dos variables en estudio.
1 Clculo individual de las frecuencias esperadas que cabra esperar si H0 fuera cierta. La hiptesis de la que partiremos es siempre la de independencia entre las dos variables, ya que slo bajo este supuesto conocemos la distribucin del estadgrafo de contraste (distribucin ji-cuadrado de Pearson) 2 2 Clculo de los componentes individuales de ! , es decir clculo de las divergencias entre observadas y esperadas para cada casilla. 3 Suma de los valores obtenidos en el apartado anterior y obtencin , de esta forma, del valor experimental de nuestro estadgrafo de contraste. 4 Determinacin de los grados de libertad de la forma (r-1)(s-1) 2 5 Obtencin del valor crtico en la tabla de la distribucin ! con los grados de libertad correspondientes y decidir si el estadstico calculado en el paso 3 excede este valor crtico con p=0.05 o bien con p=0.01 6 Concluir en consecuencia. Es decir, hablar de que existe o no asociacin entre ambas variables segn el valor experimental exceda o no al valor crtico.
342
343
344
independencia entre las variables, el problema acaba ah, pero, si la significacin se produce, lo inmediato es intentar localizar la causa de la misma. La idea ahora es la descomponer la tabla original en subtablas que nos expliquen 2 las causas de la significacin. Para ello nos basamos en la propiedad aditiva de la ! .
Es decir: si tenemos dos variables aleatorias que siguen respectivamente un modelo terico Ji-cuadrado con !1 y !2 grados de libertad, la suma de las dos nos da otra variable aleatoria que sigue un modelo Ji-cuadrado con la suma de los grados de libertad de las de partida.
345
(fo i ! fe i )2
fe i
Tabla de contribuciones
Trat 1 Trat 2 Trat 3 Trat 4 Peor 0.85 6.31 0.23 2.94 Igual 0.41 1.11 0.25 1.17 mejor 0.39 0.04 0.17 0.00 TOTAL 1.65 7.46 0.65 4.11 13.87
(7 ! 9.91) 2
9.91
= 0.85
(28 ! 31.61)2
31.61
= 0.41 etc.
El anlisis de la tabla nos sugiere que el principal responsable de la significacin es el tratamiento 2 con una contribucin total de 7.46, superior a la de los otros 3 conjuntamente. Esto parece sugerir que los tratamientos 1,3,4 son homogneos entre si (la respuesta es independiente de estos tratamientos) y difieren del 2. De ah que intentemos realizar estos dos contrastes: Primero: Los tratamientos 1,3,4 son homogneos Segundo: Los tratamientos anteriores difieren del 2 Para llevar a cabo el primero de ellos construimos una subtabla en la que hemos de eliminar el tratamiento 2 (el aparentemente responsable de la significacin):
PEOR 7 IGUAL 28 MEJOR 115 TOTAL 150
T1
346
T3 T4 TOTAL
10 5 22
30 40 98
90 115 320
En dicha tabla realizaremos el contraste de independencia del mismo modo a como lo hicimos en la tabla original, con la esperanza de que en este caso la conclusin sea la de aceptar la Ho (lo que sugiere la observacin de los datos). Ahora las frecuencias esperadas no van a coincidir con el primer supuesto ya que los marginales de columnas son distintos (hemos eliminado a los enfermos tratados con el segundo de los tratamientos), tampoco coincidir el valor experimental ni los grados de libertad de la tabla. Siguiendo los pasos enunciados en el ejercicio de los alumnos obtenemos para este caso:
Concusin: ACEPTO Ho : HOMOGENEIDAD Como era de esperar hemos llegado a la conclusin de que estos tres tratamientos eran igualmente efectivos. Por tanto no se trata de tres tratamientos distintos sino de uno slo que llamaremos a partir de ahora tratamiento (1+3+4).
Para llevar a cabo el segundo de los contrastes, que nos ponga de manifiesto que es el tratamiento 2 el que difiere del resto necesitamos construir otra subtabla en la que se disponga de la informacin que nos interesa, es decir el tratamiento 2 y el tratamiento (1+3+4).
347
T2 T(1+3+4) Total
PEOR 15 22 37
IGUAL 20 98 118
Realizado el contraste de independencia en esta subtabla obtenemos: 2 ! exp = 9.488 que hemos de comparar con un valor crtico, correspondiente a esta 2 situacin, con 2 grados de libertad. Dicho valor es: ! 2;0.05 = 9.21
La conclusin a la que llegamos es pues: Rechazo la H0 de independencia entre la respuesta y los dos tratamientos el 2 cualquiera de los otros.
Obsrvese que la descomposicin realizada de la tabla original es lcita puesto que se verifica la propiedad aditiva de la Ji-cuadrado. Hemos obtenido dos subtablas en la que las sumas de sus grados de libertad (4 y 2 respectivamente) coinciden con los grados de libertad de la tabla de partida (6). En resumen lo que hemos hecho es:
g.l. 4 2 6
!2 exp.
5.04 9.48 14.52 13.87
significacin No ** **
tratamientos 1,2,3,4
Con esta descomposicin hemos probado que el tratamiento 2 difiere del resto como pareca intuirse de la tabla de contribuciones, pero esta afirmacin, aunque vlida no deja de ser incompleta ya que nada nos dice de en qu sentido es diferente, dicho de otra forma, difiere el tratamiento 2 del resto porque es peor o porque es mejor. Faltara,
348
pues, descomponer la ltima tabla que nos dio significativa, y que tena dos grados de libertad, en otras dos subtablas de 1 grado de libertad cada una para saber el sentido de las diferencias. Un esquema global de los pasos pueden verse en la figura 5.1.
P T1 P T1 T2 T3 T4 T2 I M T3 T4 P I M T1+T2+T3 T2 NS NS I M I M
*
T1+T2+T3 T2
(I+M)
*
T1+T2+T3
Figura 5.1: Esquema de descomposicin de la tabla de contingencia de partida para la bsqueda de la significacin
349
MEJORAN
NO MEJORAN 20 24 20 16
De acuerdo con la tabla, 20 de los 40 individuos que reciben el nuevo tratamiento mejoraron y 24 de los 40 individuos que recibieron el estndar mejoraron. Por tanto el 50% de los individuos mejoraron con el nuevo tratamiento, mientras que el 60% de los individuos mejoraron con el tratamiento estndar. El nuevo tratamiento parece inferior al tratamiento estndar. Para investigar la eficacia del nuevo tratamiento ms a fondo, se podra comparar con el tratamiento estndar slo para los hombres de la muestra y separadamente slo para las mujeres. Podramos pues desagregar esta tabla en otras dos subtablas: la de hombres y la de mujeres. Supngase que tenemos informacin suficiente para construir estas subtablas y que el resultado es el siguiente:
SOLO HOMBRES MEJORAN NO MEJORAN
12 3
18 7
MEJORAN
NO MEJORAN
8 21
2 9
350
Obsrvese que si agregamos de nuevo las dos subtablas obtendramos de nuevo la tabla de partida. Sin embargo, el anlisis de las subtablas nos pone de manifiesto algo sorprendente, ya que el nuevo tratamiento parece ser ms efectivo que el estndar tanto en hombres como en mujeres. Especficamente, el 40% de los hombres (12 de cada 30) que reciben el nuevo tratamiento mejoraron, pero slo el 30% de los hombres (3 de cada 10) que recibieron el estndar mejoraron. Adems el 80% de las mujeres (8 de cada 10) que recibieron el nuevo tratamiento mejoraron pero slo el 70% de ellas (21 de cada 30) que recibieron el tratamiento estndar mejoraron. Est claro que la tabla inicial y las subtablas proporcionan resultados contradictorios. De acuerdo con la primera el tratamiento estndar es mejor para todos pero con las subtablas, el nuevo es superior, para hombres y para mujeres. A este tipo de resultados se le conoce como paradoja de Simpson. La paradoja de Simpson no es realmente una paradoja, slo es un resultado que sorprende y confunde cuando no se ha observado antes. Se puede ver en la subtabla correspondiente a mujeres que stas tienen una tasa de recuperacin de la enfermedad mayor que la de los hombres, independientemente del tratamiento que reciban. Adems, entre los 40 hombres de la muestra, 30 recibieron el nuevo tratamiento y slo 10 el estndar, mientras que para las mujeres estos nmeros son justamente al revs. Por tanto aunque los nmeros de hombres y de mujeres en el experimento fueron iguales, una alta proporcin de mujeres y una baja proporcin de hombres recibieron el tratamiento estndar. Puesto que las mujeres tienen una tasa de recuperacin mayor, se encuentra en la tabla agregada que el tratamiento estndar manifiesta una mayor tasa global de recuperacin que el nuevo tratamiento. La paradoja de Simpson demuestra de una forma drstica los peligros de realizar inferencias a partir de tablas agregadas. Para estar seguros de que la paradoja no est presente en un experimento las proporciones de relativas de hombres y de mujeres entre los individuos que reciben el nuevo tratamiento debe ser aproximadamente la misma, as como las proporciones relativas de hombres y de mujeres entre los individuos que reciben el tratamiento estndar. La posibilidad de la paradoja subyace en cualquier tabla de contingencia. An cuando se tuviera cuidado al disear un experimento particular de forma que no pudiera
351
ocurrir la paradoja cuando se desagrega para hombres y mujeres, siempre es posible que exista alguna otra variable, como la edad de los individuos o la intensidad y grado de avance de la enfermedad, con respecto a la cual la desagregacin podra conducir a una conclusin directamente opuesta a la indicada por la tabla agregada.
352
"REGRESIN Y CORRELACIN"
353
6.1.1 Introduccin
Regresin es una palabra un tanto rara. La utilizan los bilogos, los mdicos, los psiclogos... y suena como "ir hacia atrs", "volver al pasado", y realmente este es verdadero significado del vocablo. Fue un bilogo y estadstico ingls, SIR FRANCIS GALTON*, quien introdujo en 1889 el trmino regresin en Estadstica. Emple este concepto para indicar la relacin que exista entre la estatura de los nios de una muestra y la estatura de su padre. Observ, que si los padres son altos, los hijos generalmente tambin lo son, y si los padres son bajos los hijos son tambin de menor estatura. Pero ocurra un hecho curioso: cuando el padre es muy alto o muy bajo, aparece una perceptible "regresin" hacia la estatura media de la poblacin, de modo que sus hijos retroceden hacia la media de la que sus padres, por cierto, estn muy alejados. Hoy da, el trmino no se utiliza en ese sentido. En muchas ocasiones, se desea conocer algo acerca de la relacin o dependencia entre dos caractersticas cuantitativas, o msde una, consideradas sobre la misma poblacin objeto de estudio (por ejemplo la talla y el peso). Hay muchos casos en los que ya de antemano se "sospecha" que puede existir algn tipo de relacin, y por consiguiente, se pretende saber por ejemplo, en el caso de que tengamos nicamente dos variables: 1.- Si ambas variables estn realmente relacionadas entre s o si, por el contrario, pueden considerarse independientes. 2.- Si existe dependencia, es necesario conocer el "grado de relacin", as como el "tipo" de relacin entre ambas. 3.- Si puede predecirse la variable que es considerada como dependiente a partir de los valores de la otra, que es considerada independiente, y si es as, con qu precisin.
354
355
El caso de la figura 6.1a se corresponde con el de ausencia de relacin, o independencia. En la dependencia estocstica, se distinguen dos tipos de tcnicas: 1.- Anlisis de Regresin 2.- Anlisis de Correlacin* El Anlisis de correlacin, tiene como fin dar respuesta a las preguntas: a.- Existe dependencia estocstica entre las variables? b.- Cul es el grado de dicha dependencia?
*
El orden de exposicin de los dos Anlisis es arbitrario. El orden para su estudio puede invertirse.
356
El Anlisis de regresin, : a.- Cul es el tipo de dependencia entre las dos variables? b.- Pueden estimarse los valores de Y a partir de los de X?. Con qu precisin?. De modo general, diremos que existe regresin de los valores de una variable con respecto a los de otra, cuando hay alguna lnea, llamada lnea de regresin que se ajusta ms o menos claramente a la nube de puntos. Si existe regresin, a la ecuacin que nos describe la relacin entre las dos variables la denominamos ecuacin de regresin. Por ejemplo: Y=a+bX Y=a+bX+cX2 En general, la variable X se conoce como variable independiente, y la Y como variable dependiente. Evidentemente puede ser arbitrario el determinar la existencia de regresin as como el tipo de la misma, ya que depende del autor o del estado de nimo de la persona en un momento determinado. Por lo tanto, se hacen necesarios mtodos estadsticos objetivos, independientes del investigador, para determinar la existencia o no de relacin y el tipo de la misma.
357
en el apartado 6.2. A las variables Xi, se las denomina, regresoras, predictoras o independientes.
SXY = i =1
" (x i ! x)( yi ! y ) n
Si cada pareja de observaciones (xi,yi) se repitiese un nmero de veces, deberamos introducir en la expresin anterior la correspondiente frecuencia, anlogamente a como se hace en la expresin de la varianza. La covarianza, puede ser utilizada como una medida inicial de la asociacin lineal entre las dos variables. Para ello, observaremos detenidamente el grfico de la figura 6.2.
358
Figura 6.2: Grfico que pone de manifiesto la importancia de la covarianza como medida de la asociacin lineal
En ella aparece la nube de puntos para un par de variables X e Y. Se pone de manifiesto cmo aquellos pares de valores que ocupan el cuadrante superior derecho (tomando como origen el punto de medias) nos dan como resultado sumandos positivos en la expresin de la covarianza. Lo mismo ocurre con aquellos que se encuentran en el cuadrante inferior izquierdo. Sin embargo, los del cuadrante superior izquierdo e inferior derecho, nos dan sumandos negativos. Ello tiene como consecuencia, que dependiendo del nmero de observaciones situado en cada uno de dichos cuadrantes, obtendremos un signo diferente en la covarianza, de modo que si predominan las diferencias positivas, esta ser positiva, y si predominan las negativas, la covarianza tambin lo ser. Esto nos lleva a utilizar la covarianza como una medida de la asociacin lineal entre las variables, de modo que si sta es positiva, nos indica una relacin directa entre ellas y si es negativa, nos indica una relacin inversa. Si las variables son independientes, entonces la covarianza es aproximadamente 0. Un ejemplo, de este ltimo caso se correspondera con la figura 6.3a.
359
SIGNIFICADO DE a y b a es la ordenada en el origen, es decir, es la altura a la que la recta corta al eje Y. Se denomina tambin trmino independiente. b, tambin denominada pendiente es la inclinacin de la recta, es decir, es el incremento que se produce en la variable Y cuando la variable X aumenta una unidad. Por ejemplo, en el caso anterior Y=3+2X:
360
En la recta de regresin -como ya veremos- b recibe el nombre de Coeficiente de regresin. Si b>0, entonces cuando X aumenta Y tambin lo hace (relacin directa). Si b<0, entonces, cuando X aumenta Y disminuye (relacin inversa). Ver figura 6.4a y b respectivamente.
ESTIMACIN DE LA RECTA DE REGRESIN POR EL MTODO DE LOS MNIMOS CUADRADOS Sean X e Y dos variables aleatorias medidas sobre los mismos individuos, y sean (xi,yi) los pares de observaciones sobre dichos individuos. En primer lugar procederemos a representar el diagrama de dispersin, o nube de puntos. Supongamos que es la obtenida en la figura 6.5. Aunque la nube revele una gran dispersin, podemos observar una cierta tendencia lineal al aumentar X e Y (tendencia que no es del todo exacta; por ejemplo si suponemos que X es la edad e Y es la talla, obviamente, la talla no slo depende de la edad, adems tambin puede haber errores de medida). Por esa nube de puntos podemos hacer pasar infinitas rectas. De todas ellas debemos elegir una cual?... Obviamente elegiremos la mejor de todas en algn sentido. La recta de regresin debe tener carcter de lnea media, debe ajustarse bien a la mayora de los datos, es decir, pasar lo ms cerca posible de todos y cada uno de los puntos.
361
Llamaremos a la mejor de todas Y*=a+bX (Y* para distinguir los valores de la tabla de los que se habran producido con la recta si la relacin fuese funcional).
Figura 6.5: Nube de puntos y posibles rectas que pueden pasar por ella.
Que pase lo ms cerca posible de todos los puntos, es decir que diste poco de todos y cada uno de ellos significa que hemos de adoptar un criterio particular que en general se conoce como MNIMOS CUADRADOS. Este criterio significa que la suma de los cuadrados de las distancias verticales de los puntos a la recta debe ser lo ms pequea posible (ver figura 6.6). (Obviamente, este es uno de los posibles criterios a adoptar, pero es el ms utilizado).
Y yi
xi
Figura 6.6: Recta de regresin mostrando los residuos o errores que se minimizan en el procedimiento de ajuste de los Mnimos cuadrados.
362
Estas distancias verticales se denominan errores o residuos. Entonces el criterio puede expresarse:
D = ! ei
i=1
mnima
Dado que la recta de regresin deber tener carcter de lnea media, esa suma de distancias deber anularse (lo mismo que suceda, como veamos en la primera unidad didctica al tratar de hallar la suma de las diferencias con respecto a la media aritmtica). Por las mismas razones que entonces, para evaluar la dispersin, trabajaremos con esas distancias, pero al cuadrado, de modo que la funcin que deberemos minimizar ser:
D = ! e 2 = ! yi " y# i i
i=1
( i=1
n
donde y! son los valores estimados segn el modelo Y=a+bX i En la anterior expresin lo conocemos todo, excepto a y b. Para encontrar dichos valores, con la condicin de que D sea mnima, deberemos hallar las derivadas parciales de D con respecto a a y a b, y resolver el sistema resultante, al igualar las ecuaciones obtenidas a 0. Es decir, el problema se reduce a un problema de mnimos. As, obtendremos:
n !D = 2 # (y i " a " bxi )("1) = 0 !a i=1 n !D = 2 # (y i " a " bxi )(" xi ) = 0 !b i=1
i =1 n i =1
363
a ! x i + b ! x2 = ! x iy i i
i =1 i=1 i =1
a = y ! bx S b = XY s2 X
La interpretacin de a y b, es anloga a la que comentbamos en el apartado 6.1.3.2, slo que como ya dijimos entonces, b recibe el nombre de Coeficiente de Regresin. Como podemos observar, en el numerador de b, aparece la covarianza, y en el denominador la varianza de la variable independiente. Esto hace que el signo de b sea el mismo signo que el de la covarianza, por lo que si b>0, entonces, existe una relacin directa entre las variables, y si b<0 entonces la relacin es inversa. En nuestro ejemplo de talla y edad, b sera el incremento medio que se produce en la talla, por cada incremento unitario de edad; si la edad est en aos, por cada ao aumente la edad. Si queremos predecir un valor yi a partir de un valor concreto de xi, utilizaremos la expresin de la ecuacin donde ahora ya, a y b son conocidos. No olvidemos que ese era uno de los objetivos del anlisis, tratar de conocer valores de Y a partir de los de X: y*i = a+bxi
364
La recta de regresin, tiene carcter de lnea media, como ya se ha sealado con anterioridad, tratando por lo tanto de resumir o sintetizar la informacin suministrada por los datos. Si tiene carcter de linea media (de promedio, en definitiva), deber ir acompaada siempre de una medida que nos hable de su representatividad, es decir, de lo buena que es la recta, ya que el haber obtenido la mejor de todas no da garantas de que sea buena. Necesitamos, por tanto, una medida de dispersin, que tenga en cuenta la dispersin de cada observacin con respecto a la recta, es decir, lo alejado que se encuentra cada punto de la recta. Es decir, deberemos evaluar esas distancias verticales a la recta, es decir, los errores o residuales. Si las dispersiones son pequeas, la recta ser un buen representante de la nube de puntos, o lo que es lo mismo, la bondad de ajuste del modelo ser alta. Si la dispersin es grande, la bondad de ajuste ser baja. Una forma de medir dicha bondad de ajuste es precisamente evaluando la suma de los cuadrados de los errores. Por tanto, llamaremos Varianza residual a la expresin:
Se =
( i =1
n
# yi ! y" i n
Si la varianza residual es grande, el modelo ser malo, es decir, la recta no explicar el comportamiento general de la nube. La frmula prctica para el clculo de la varianza residual, si el procedimiento de ajuste es el de los mnimos cuadrados es la siguiente:
S2 = i =1 e
La cota mxima de la varianza residual es la varianza que tratamos de explicar mediante el modelo de regresin, es decir, la varianza de la variable dependiente. Por tanto, sin ms que hacer relativa la varianza residual respecto de su mximo valor, y
365
Ahora, ya es fcil obtener una media que nos indique el porcentaje de variaciones controladas o explicadas mediante el modelo, que se conoce como Coeficiente de Determinacin, que denotaremos con R2. Su expresin en tantos por 1, ser:
S2 e R 2 = 1! 2 sy
Como puede observarse, a partir de la expresin anterior: 0< R2 <1. Por tanto: Si R2=1, entonces no hay residuos, habr una dependencia funcional. Cuanto ms se acerque dicho valor a la unidad, mayor poder explicativo tendr el modelo de regresin. Si R2=0, X no explica en absoluto ninguna de las variaciones de la variable Y, de modo que o bien el modelo es inadecuado, o bien las variables son independientes. Cuanto ms cercano a 0 est dicho valor, menor poder explicativo.
Poder explicativo vs poder predictivo Un modelo de regresin con un alto porcentaje de variaciones explicado, puede no ser bueno para predecir, ya que el que la mayora de los puntos se encuentren cercanos a la recta de regresin, no implica que todos lo estn, y puede ocurrir, que justamente para aquel rango de valores en el que el investigador est interesado, se alejen de la recta, y por tanto, el valor predecido puede alejarse mucho de la realidad. La nica forma de poder evaluar el poder predictivo del modelo es tras la observacin y el anlisis de los grficos de residuales, es decir, de diagramas de dispersin, en los que en el eje de ordenadas se colocan los residuales, y en el eje de abscisas se colocan o bien X, Y, o Y*.
366
Slo si la banda de residuales es homognea, y se encuentran todos los puntos no demasiado alejados del 0 (aunque depende de la escala de medida), diremos, que un modelo con un alto poder explicativo, tambin es bueno para predecir. Un anlisis detallado de los residuales se realizar en la seccin 6.2. CAUSALIDAD Es muy importante resaltar el hecho, de que un modelo sea capaz de explicar de manera adecuada las variaciones de la variable dependiente en funcin de la independiente, no implica que la primera sea causa de la segunda. Es un error muy comn confundir causalidad con casualidad. El hecho de que las variables estn relacionadas no implica que una sea causa de la otra, ya que puede ocurrir el hecho de que se est dando una variacin concomitante, por el simple hecho de que las dos son causa de una tercera. Por ejemplo, si realizamos un estudio en el que se analice el nmero de canas (X) y la presin arterial (Y), podramos encontrar una relacin lineal casi perfecta. Eso no significa que el tener canas aumente la presin arterial, lo que verdaderamente est ocurriendo es que es la edad, la causante, de que se tengan ms canas y una tendencia a tener ms alta la presin arterial.
EXTRAPOLACIN Es importante, resaltar el hecho de que a la hora de hacer predicciones, no deben extrapolarse los resultados ms all del rango de la variable X utilizado para ajustar el modelo, ya que ms all de ese rango no sabemos qu puede estar ocurriendo. Por todos es conocido que las plantas necesitan abono para poder crecer. Desde pequeos hemos aprendido que hay que abonarlas, de modo que en principio, cuanto ms abono se les suministre ms crecern. Pero... qu ocurrira si abonsemos demasiado el suelo?. Obviamente la planta morira. Bien, esto se traduce, en que conforme aumenta la cantidad de abono, el crecimiento es ms notable, pero a partir de un punto, la planta deja de crecer, y es ms se muere. Esto queda reflejado en la figura 6.7. De ah el peligro de extrapolar los resultados.
367
Figura 6.7: Comparacin de una posible verdadera relacin entre cantidad de abono y crecimiento de una planta, con los resultados de una recta de regresin obtenida mediante el estudio de un rango limitado de valores de abono.
PARBOLA DE REGRESIN En muchos casos, es una funcin de segundo grado la que se ajusta lo suficiente a la situacin real dada. La expresin general de un polinomio de 2 grado es:
368
Y=a+bX+cX2 donde a, b y c son los parmetros. El problema consiste, por tanto, en determinar dichos parmetros para una distribucin dada. Seguiremos para ello, un razonamiento similar al que hicimos en el caso del modelo de regresin lineal simple, utilizando el procedimiento de ajuste de los mnimos cuadrados, es decir, haciendo que la suma de los cuadrados de las desviaciones con respecto a la curva de regresin sea mnima:
D = # (y i ! y" )2 i
i=1
donde, siguiendo la notacin habitual, yi son los valores observados de la variable dependiente, e y! los valores estimados segn el modelo; por tanto, podemos escribir D i de la forma:
Para encontrar los valores de a, b y c que hacen mnima la expresin anterior, deberemos igualar las derivadas parciales de D con respecto a dichos parmetros a cero y resolver el sistema resultante. Las ecuaciones que forman dicho sistema se conocen como ecuaciones normales de Gauss (igual que en el caso de la regresin lineal simple).
i =1 n
! yi = na + b ! x i + c ! x 2 i
i=1 i =1
i =1 n ! x2 yi i i =1
! xi yi = a ! xi + b ! x2 + c ! x 3 i i =
369
FUNCIN EXPONENCIAL, POTENCIAL Y LOGARTMICA El problema de ajustar un modelo potencial, de la forma Y=AXb y uno exponencial Y=ABX se reduce al de la funcin lineal, con solo tomar logaritmos. Modelo potencial: Si tomamos logaritmos en la expresin de la funcin potencial, obtendremos: logY = logA +b logX Como vemos es la ecuacin de una recta: Y=a+bX, donde ahora a = logA. De modo que el problema es sencillo, basta con transformar Y en logY y X en logX y ajustar una recta a los valores transformados. El parmetro b del modelo potencial coincide con el coeficiente de regresin de la recta ajustada a los datos transformados, y A lo obtenemos mediante el antilog(a).
Modelo exponencial: Tomando logaritmos en la expresin de la funcin exponencial, obtendremos: logY = logA + logB X Tambin se trata de la ecuacin de una recta Y=a+bX, pero ahora ajustndola a logY y a X; de modo que, para obtener el parmetro A del modelo exponencial, basta con hacer antilog(a), y el parmetro B se obtiene tomando antilog(b).
Modelo logartmico: La curva logartmica Y = a + b logX es tambin una recta, pero en lugar de estar referida a las variables originales X e Y, est referida a logX y a Y.
Hemos visto, cmo, a pesar de ser inicialmente modelos mucho ms complejos que el de una recta, estos tres ltimos se reducen al modelo lineal sin ms que transformar adecuadamente los datos de partida.
370
6.1.4 Correlacin
Como hemos visto con anterioridad, al analizar las relaciones existentes entre dos variables aleatorias cuantitativas, deberemos responder a las preguntas, de si existe dependencia estocstica entre ellas y de qu grado. El anlisis de correlacin nos dar respuesta a dichas preguntas.
de
dos
Dos variables X e Y son independientes, es decir, no estn relacionadas, cuando la variable Y tiene el mismo valor, en media, sea cual sea el valor de la variable X y viceversa. (Ver por ejemplo la figura 6.1a). Como vimos en la seccin 6.1.3.1, la covarianza poda ser un medida que nos habla de la dependencia entre las dos variables. Sin embargo, la covarianza presenta el inconveniente de que no se trata de una medida adimensional, y por lo tanto se hace necesario conocer la fuerza de la relacin -si existe- as como poder realizar comparaciones entre parejas de variables que vienen medidas en unidades diferentes. Por ello, y dado que viene medida en unidades de la variable X por unidades de la variable Y, la dividimos entre las correspondientes desviaciones tpicas, obteniendo as, el denominado Coeficiente de correlacin lineal de Pearson y que denotamos con una r minscula:
r=
Sxy sxsy
Es importante fijarnos en que hemos denominado a dicho coeficiente: coeficiente de correlacin lineal de Pearson. El "apellido lineal" es conveniente utilizarlo porque dicho coeficiente solo tiene potencia para analizar si la relacin entre las dos variables es o no de tipo lineal. Si las variables son independientes, es un hecho de que el coeficiente de correlacin lineal debe ser cero. Sin embargo, si el coeficiente de correlacin lineal es 0, no implica que las variables sean independientes, simplemente que la relacin no es lineal.
371
Como vemos, el coeficiente de correlacin lleva asociado el mismo signo que la covarianza, por lo que si ste resulta ser positivo, indicar que se trata de una relacin lineal directa, mientras que si es negativo, la relacin ser inversa.
r 2 = R2
En el apartado 6.1.3.2 vimos que el coeficiente de determinacin era un valor acotado entre 0 y 1. Teniendo en cuenta la relacin anterior, podemos asegurar que el coeficiente de correlacin es un valor acotado entre -1 y +1. Si r=+1, existe una correlacin positiva perfecta, y si r=-1, analogamente pero negativa (en ambos casos R2=1, por lo tanto no hay errores, sera una dependencia funcional). A nivel muestral, es difcil encontrarnos con un valor de r = 0 aun cuando las variables sean independientes, de modo que podramos pensar que cuanto ms se acerque r a 1, el grado de relacin entre X e Y ser ms fuerte. Sin embargo, a partir de qu valor muestral de r decidiremos que las variables son independientes, y a partir de cul diremos que estn relacionadas?
372
5% .997 .950 .878 .811 .754 .707 .666 .632 .602 .576 .553 .532 .514 .497 .482 .468 .456 .444 .433 .423 .413 .404 .396
1% 1.000 .990 .959 .917 .874 .834 .798 .765 .735 .708 .684 .661 .641 .623 .606 .590 .575 .561 .549 .537 .526 .515 .505
grados de libertad (n-2) 24 25 26 27 28 29 30 35 40 45 50 60 70 80 90 100 125 150 200 300 400 500 1000
5% .388 .381 .374 .367 .361 .355 .349 .325 .304 .288 .273 .250 .232 .217 .205 .195 .174 .159 .138 .113 .098 .088 .062
1% .496 .487 .478 .470 .463 .456 .449 .418 .393 .372 .354 .325 .302 .283 .267 .254 .228 .208 .181 .148 .128 .115 .081
Realmente no se trata ms que de un contraste de hiptesis. La hiptesis nula es: Ho: =0, de modo que la hiptesis se rechaza slo si el coeficiente de correlacin muestral es, en valor absoluto, mayor que el valor crtico de la tabla, al nivel de significacin elegido, y con los grados de libertad adecuados, ya que slo rechazaremos Ho si el valor muestral encontrado es poco probable que ocurra cuando =0.
373
6.2 Ampliacin
374
6.2.1 Introduccin
En la investigacin prctica nos encontramos frecuentemente con situaciones en las que una variable, Y, viene determinada por otra u otras variables, X1, X2, ... , Xk , sin que a su vez la primera determine las ltimas. Podemos escribir la relacin como Y = f(X1, X2, ... , Xk). La variable Y es denominada dependiente, respuesta endgena mientras que las variables X se denominan independientes, predictoras o regresoras. Utilizaremos este tipo de relaciones para: - Predecir los valores de la respuesta (a partir de los de las regresoras). - Determinar el efecto de cada predictora (sobre la respuesta). - Confirmar, sugerir o refutar relaciones tericas. Conocida la posible dependencia entre las variables tendremos que determinar la forma de la relacin, generalmente sugerida a travs de la teora de la materia objeto de estudio o travs de la revisin de experimentos anteriores. La forma ms usada en la prctica es aquella en la que podemos suponer que el modelo es lineal en sus parmetros o al menos que podemos linealizarlo. Y = 0 + 1 X1 + 2 X2 + ... + k Xk Debido a la naturaleza de los fenmenos estudiados es necesario introducir un error procedente de: -No incluir variables importantes. -Errores aleatorios y errores de medida. -Especificacin incorrecta de la forma de la ecuacin. En realidad solamente el segundo de los supuestos es realmente admisible como trmino de perturbacin aleatoria.
375
El modelo real ser entonces: Y = 0 + 1 X1 + 2 X2 + ... + k Xk + donde es el error o perturbacin aleatoria y los coeficientes 0, 1, 2, ... , k son los parmetros estructurales o estructura paramtrica de la relacin propuesta. El modelo propuesto en el que las Xi son variables observables no aleatorias y los
i son constantes fijas desconocidas se denomina Modelo Lineal General (MLG). Se presenta aqu
relevantes de la teora as como algunos aspectos prcticos importantes olvidados generalmente en los libros de teora. No olvidemos que el objeto final de lo que vamos a ver es la aplicacin a datos reales en la investigacin aplicada en campos tan diversos como el Diseo de Experimentos o la Econometra. Para ampliar el tema, una excelente revisin terica puede encontrarse en SEBER (1977)* ; una versin ms aplicada dirigida tanto a profesionales de la Estadstica como a investigadores puede encontrarse en el libro de FOX (1984)** . En castellano podemos encontrar el tema dirigido especialmente al campo de la Economa en libros sobre Econometra, pueden consultarse, PEA (1994)*** .
! 1 x11 x1k $ ! x1 $ # 1 x 21 x2 k & # x2 & X =# = ! " ! & #! & #! & # & " 1 x n1 x nk % " x n %
SEBER, G.A.F. (1977); Linear Regression Analysis. Wiley. New York. FOX, J. (1984): Linear Statistical Models and Related Methods. With Applications to Social Researh. Wiley. New York. *** PEA, D. (1994) Estadstica: Modelos y Mtodos. Vols. I y II. Alianza Universidad. Textos.
**
376
Se ha incluido una columna de unos para tener en cuenta el trmino independiente del modelo. El modelo para cada una de las n observaciones muestrales es:
Obsrvese que los estimadores muestrales se han denotado con ! i , los errores
aleatorios desconocidos con i y los errores estimados una vez que se han estimado los parmetros (residuales) con ei.
377
error puro con media nula. 3.- Linealidad de la relacin: E(y)=X. Las medias de la distribucin de Y condicionadas a cada valor de X se encuentran sobre una lnea (en el caso simple). 4.Esperanza matemtica nula del trmino de perturbacin: La
especificacin correcta del modelo hace que no se introduzca ninguna componente sistemtica en los errores al compensarse, en promedio, los positivos y negativos. Esta hiptesis es consecuencia directa de la anterior. 5.- Homocedasticidad: Varianza constante de los errores: Var(i) = 2, para todo i. 6.- No autocorrelacin: Ausencia de covarianza (o correlacin) entre los errores: Cov(i , j) = 0 si i j. 7.- Variables explicativas deterministas o no aleatorias:. Variables controladas por el investigador y medidas sin error. De esta forma el modelo lineal general est especialmente indicado en el anlisis de experimentos diseados en los que se controlan las condiciones experimentales. Esta hiptesis se puede relajar suponiendo que las variables regresoras son independientes del error aunque no sean constantes. En la mayor parte de las aplicaciones del modelo lineal las variables regresoras son aleatorias. 8.- No multicolinealidad: Es decir la variables explicativas no son linealmente dependientes. (ninguna de ellas puede obtenerse como combinacin lineal de las dems). El problema ser estudiado posteriormente con ms detalle. 9.- Constancia de los parmetros: Debemos admitir una nica estructura vlida para el periodo de observacin y el horizonte de prediccin. 10.- Normalidad: Los errores tienen distribucin normal, de media nula y desviacin tpica . En estas condiciones iniciales, pasaremos a la estimacin de los parmetros del modelo as como a la comprobacin de las hiptesis bsicas que permiten la validez de los resultados. Trataremos tambin de hacer inferencias sobre los parmetros del modelo suponiendo que disponemos de una muestra de una poblacin ms general.
378
La ecuacin del plano que buscamos es de la forma Y = 0 + 1X1 + 2X2 que para una muestra concreta ser Y = ! 0 + !1X1 + ! 2 X2 . Los parmetros a los que tenemos que dar valor son 0, 1 y 2. La interpretacin es simple 0 es lo que vale la variable dependiente cuando todas las independientes son cero y i es lo que aumenta la variable dependiente cuando la variable Xi aumenta en una unidad, manteniendo el resto constantes, es por esto por lo que se les denomina coeficientes de regresin parcial.
379
Llamando
y* = ! 0 + !1x i1 ++ ! k xik i
siendo
380
los residuales del modelo. Hemos descompuesto as el valor observado en dos partes, el valor esperado (o ajustado) sobre el hiperplano de regresin y* que representa la parte i controlada por el modelo y el residual ei que representa la parte no controlada. En forma matricial y* = X ! , e = y ! X" .
(X! X)" = X! y
La hiptesis de no multicolinealidad es necesaria para que (X! X) sea invertible. Obsrvese que de momento es la nica de las hiptesis previas que hemos utilizado. Esto quiere decir que si lo que se pretende es simplemente ajustar un hiperplano de regresin a un conjunto de datos de forma descriptiva, puede utilizarse el criterio de los mnimos cuadrados sin ninguna suposicin adicional.
381
f(yi ) =
1 e ! 2"
La funcin de verosimilitud de los datos es la funcin de densidad conjunta de los valores muestrales que, como son independientes, coincide con el producto de las funciones de densidad individuales.
& (yi $ x %!) 2 ) i ($ 2 "2 + ' * e
L(y1, , y n / !,") = ,
& -i (y i $ x %!)2 ) i ($ + 2 2" ' * e
1 i=1 " 2# 1
("
2# )
(2#"2 )
n/ 2
382
! log L 1 = # 2 (2 X% X" # 2X%y) = 0 !" 2$ ! log L n& 1 ( 1 2 = # 2 ' $ 2 ) + 2$ 4 (y # X" )%(y # X") = 0 !$
2.- El estimador es insesgado: La esperanza matemtica del estimador coincide con el parmetro a estimar.
383
Hemos utilizado aqu la hiptesis de homocedasticidad. Las varianzas de los estimadores estn contenidas en la diagonal de la matriz de covarianzas. El siguiente resultado justifica la eleccin de los estimados dentro de todos los estimadores lineales e insesgados. Se muestra solamente el resultado sin la correspondiente demostracin que puede consultarse en los libros citados anteriormente.
Teorema de Gauss-Markov El estimador mnimo cuadrtico es entre todos los estimadores lineales insesgados el que tiene la varianza mnima (eficiente).
4.- La distribucin muestral del estimador es normal Basta tener en cuenta que una combinacin lineal de variables independientes, todas con distribucin normal, tiene tambin distribucin normal.
384
5.- Estimacin de la varianza de los errores: El estimador de la varianza del error obtenido a partir del mtodo de mxima verosimilitud era sesgado. El estimador insesgado que utilizaremos es:
S2 = e
# e2 i
6.2.7 Contraste de significacin del modelo global: anlisis de la varianza en los modelos lineales
El primer paso que debemos realizar una vez ajustado el modelo es comprobar si existe realmente una relacin entre las variables, lo que se traduce en que alguno de los parmetros del modelo sea distinto de cero en la poblacin. El contraste para el ajuste global es de la forma
Es decir, comparamos el modelo reducido que tiene solamente el trmino independiente frente al modelo completo con todas las variables consideradas. La comparacin la realizaremos comprobando si las variables regresoras consiguen explicar una parte significativa en la variabilidad de la variable dependiente. Ilustraremos el procedimiento con grficos para el caso de una sola variable regresora.
385
Estudiemos primero el comportamiento del modelo reducido Y = ! 0 en el que el estimador del parmetro es ! = y la media de los valores en y. Luego si no tenemos
0
ninguna informacin sobre las variables regresoras, la cantidad que mejor explica el comportamiento de la variable dependiente es la media de sus valores. A la suma de las desviaciones cuadrticas de cada valor con respecto a la media la denominaremos Suma de Cuadrados Total (SCT) ya que mide la dispersin mxima cuando no se tiene informacin sobre las regresoras.
SCT = "in=1 (yi ! y )2 = y#y ! ny 2
El valor de la suma de cuadrados total es el objetivo que trataremos de explicar al introducir la informacin de las variables regresoras. Introducimos ahora las regresoras y ajustamos el modelo completo, Y = ! 0 + !1X1 ++!k X k . La Suma de Cuadrados de los Residuales (SCR) del modelo completo
mide la dispersin en torno al hiperplano ajustado, es decir, mide la dispersin que todava queda despus de haber introducido las variables regresoras o dispersin residual no explicada. La suma de cuadrados de los residuales mide tambin la dispersin intrnseca de los datos. La figura 6.10 muestra esquemticamente la situacin descrita en los prrafos anteriores.
386
A la vista del grfico es claro que dispersin es mayor en torno a la media que en torno al modelo de regresin, ya que este posee mayor informacin. La diferencia entre ambas ser la parte de la dispersin que se ha conseguido explicar mediante la introduccin de las variables regresoras. Llamaremos Suma de Cuadrados Explicada (SCE) dicha diferencia (SCE = SCT - SCR). Obtenemos as la descomposicin de la variabilidad total de la variable dependiente en dos partes, una parte explicada por las variables regresoras y una parte residual que todava queda sin explicar despus de haber ajustado el modelo.
2 *! * 2 y !y " ny = (y y " ny ) + [(y " X# )!(y " X#)]
y !y " ny2 = (# !X!y " ny 2 ) + [(y " X#)! (y " X#)] SCT = SCE + SCR
El problema es ahora saber si la dispersin explicada es lo suficientemente grande como para considerarla estadsticamente significativa. El patrn de comparacin ser la dispersin residual o dispersin intrnseca. Las sumas de cuadrados no son estrictamente comparables ya que estn referidas a un nmero distinto de grados de libertad, concretamente k para la suma explicada, (n-k-1) para la residual y (n-1) para la total. Podemos construir estimadores de la variabilidad dividiendo la suma de cuadrados por los correspondientes grados de libertad, el cociente entre el estimador de la variabilidad explicada y la variabilidad residual ser utilizado como medida de la importancia de la parte explicada, adems dicho cociente sigue una distribucin F de Snedecor con k y (n-k-1) grados de libertad en el numerados y en el denominados
387
respectivamente. Obtenemos as el estadgrafo para el contraste que habamos planteado al principio, que hemos convertido en un contraste de comparacin de variabilidades.
Estimadores
F experimental
Conclusin
SCE
SCE/k
(SCE/SCR)((n-k1)/k)
n.s.= no significativo * = Probablemente sign. (al 5%) ** = Altamente sign. (al 1%)
Residual Total
SCR SCT
n-k-1 n-1
SCR/(n-k-1)
El anlisis de la varianza para el modelo de regresin forma parte de la salida estndar de cualquier programa de ordenador. En algunos casos es posible dividir la suma de cuadrados explicada en diversas partes explicadas por una o varias variables. En general, si las variables regresoras no son independientes no es posible separar la parte explicada debida a cada una de ellas. En los experimentos diseados es habitual tomar combinaciones de las variables explicativas con valores prefijados de forma que sean independientes para poder separar el efecto de cada una de ellas.
388
R2 =
Est acotado entre 0 y 1 y multiplicado por 100 representa el porcentaje de la variabilidad de la variable dependiente explicado por la introduccin de las regresoras en el modelo lineal modelo lineal. Para el modelo de regresin simple en el que se dispone de una sola variable regresora, el coeficiente de determinacin coincide con el cuadrado del coeficiente de correlacin de Pearson, para el modelo general, el coeficiente de determinacin puede interpretarse tambin como el cuadrado del coeficiente de correlacin entre los valores de y y los de y*. A dicho coeficiente de correlacin se le denomina Coeficiente de Correlacin Mltiple. El coeficiente de determinacin es sencillo y fcil de interpretar aunque tiene un problema importante, aumenta con el nmero de variables regresoras, estn o no relacionadas con la dependiente, de forma que es posible conseguir una bondad del ajuste prxima a 1 simplemente introduciendo en el modelo un nmero elevado de variables. Para evitar este problema se define el Coeficiente de Determinacin Ajustado, en el que las sumas de cuadrados se dividen por sus correspondientes grados de libertad.
R2 aj.
= 1!
SCR
(n ! k ! 1) SCT n !1
389
6.2.9 Suma de cuadrados explicada por un grupo de variables: contraste para un grupo de parmetros
En algunas situaciones es importante conocer, no solo la variabilidad explicada por el conjunto total de regresoras sino tambin la variabilidad explicada por un subconjunto de los mismos, para contrastar si consiguen explicar significativamente parte de la variabilidad. El contraste es ahora que los coeficientes de un subgrupo de p regresoras son todos iguales a cero frente a la alternativa de que alguno es distinto de cero. Sin prdida de generalidad podemos suponer que el subconjunto est formado por las p primeras variables y escribimos el modelo completo como
El procedimiento ser similar al del contraste global y consiste en la comparacin de las sumas de cuadrados explicadas en el modelo completo y un modelo reducido en el que se eliminan las variables que se quieren contrastar. La suma de cuadrados explicada en el modelo completo (con todas las variables) la vamos a dividir en dos partes, una parte explicada por las k-p, variables no incluidas en el subconjunto a contrastar y una parte explicada por las p variables a contrastar y que no ha sido explicada por el resto. La descomposicin de la suma de cuadrados en el modelo completo es SCT=SCE+SCR, donde SCE es la variabilidad explicada por todas las variables regresoras. La descomposicin al ajustar el modelo reducido la denotaremos como SCT=SCE0+SCR0, donde SCE0 representa la parte explicada por las k-p variables que no estn en el subconjunto objetivo. La diferencia entre ambas sumas de cuadrados explicados ser la parte explicada por las p variables objetivo y que no ha sido ya explicada por el resto. Denotaremos esta ltima suma de cuadrados como SCEp = SCE - SCE0. Los grados de libertad asociados son p.
390
sigue una distribucin F de Snedecor con p y n-k-1 grados de libertad en el numerados y denominados respectivamente. Obsrvese que se ha utilizado en el contraste la parte explicada por las p variables del subconjunto objetivo y que no ha sido ya explicada por el resto, en lugar de utilizar la suma de cuadrados explicada por las p variables sin tener en cuenta el resto. Ambas sumas de cuadrados slo coinciden cuando las p variables y el resto son independientes.
R2 Y,(1,,p)/(p+1,,k) =
Representa la parte que se ha conseguido explicar de la suma de cuadrados residual del modelo reducido al introducir el subconjunto de p variables en el modelo. La raz cuadrada del coeficiente de determinacin parcial se denomina Coeficiente de Correlacin Parcial
391
el signo de la raz cuadrada ha de ser el mismo que el signo del coeficiente de regresin estimado. Puede interpretarse como una medida de la relacin entre la variable dependiente y un subconjunto de las regresoras dadas. todas las dems. La interpretacin es similar a la del coeficiente de correlacin de Pearson cuando el subconjunto objetivo est formado por una nica variable, aunque slo coincide con ste cuando la variable objetivo y el resto son independientes.
6.2.11 Contrastes e intervalos de confianza para cada uno de los parmetros por separado
Hasta el momento hemos visto como realizar contrastes para el modelo completo o para un subconjunto de parmetros. Cuando el subconjunto est formado por un nico parmetro existe una forma alternativa de realizar el contraste individual basndose en la combinacin de la distribucin normal de los estimadores de los parmetros del modelo y en la distribucin ji-cuadrado asociada a la varianza de los residuales, para construir una distribucin t de Student. Las hiptesis del contraste individual son
H0 :! i = 0 Ha :!i " 0
y las correspondientes versiones unilaterales. La cantidad
! " !i ti = i Se a ii
donde aii es el i-simo elemento de la diagonal de (X'X)-1, sigue una distribucin t de Student con n-k-1 grados de libertad. La construccin del contraste es inmediata. Es necesario hacer notar que si el nmero de parmetros es elevado y cada uno se realiza al nivel , el contraste global de igualdad a cero de todos los parmetros a partir
392
de los contrastes individuales, tiene un considerable incremento en el riesgo tipo I. Es por esto por lo que puede ocurrir que el anlisis de la varianza global resulte ser no significativo y alguno de los parmetros individuales sea significativamente distinto de cero. El contraste, basado en la F, para un subgrupo formado por una sola variable es completamente equivalente al descrito aqu ya que se verifica que
t 2 = F Y, (i )/ (1,,i !1,i +1,,k ) i
Este valor es el que aparece en muchos programas de ordenador como F parcial. Los intervalos de confianza para los parmetros por separado calculados a partir de la distribucin t de Student son de la forma
393
Figura 6.11: Bondad del ajuste y Anlisis de la varianza para el modelo lineal.
Figura 6.12: Estimadores de los parmetros y contrastes individuales para el modelo lineal
394
descendente
(backward
-Comenzamos con el modelo completo. -Eliminamos aquella variable que al ser sacada fuera del modelo produce la menor prdida no significativa. -El proceso termina cuando todas las variables dentro del modelo producen una prdida (incremento) significativa.
395
INCONVENIENTES: -El subconjunto final obtenido no es ptimo, en general. -Si las variables estn relacionadas entre si (existe multicolinealidad) los procesos son muy inestables ya que no es posible separar el efecto debido a cada una de ellas. -El orden de entrada es irrelevante.
Es posible calcular intervalos de confianza para la prediccin en los dos casos mencionados:
396
!1
Han de tenerse las siguientes precauciones para la validez de la predicciones: 1.-Se supone que la estructura paramtrica no ha variado en el momento de la prediccin. 2.-Las predicciones han de realizarse para valores dentro del intervalo en el que las regresoras han sido medidas, es decir no deben extrapolarse los resultados. 3.-Los intervalos de confianza para las predicciones son menos precisos a medida que nos alejamos de los valores medios de las regresoras. 4.-El hecho de que un modelo presente un alto porcentaje de variaciones controladas no implica que sea siempre un buen modelo predictivo. Distinguiremos as entre lo que denominaremos poder explicativo, medido a travs del coeficiente de determinacin, y poder predictivo o capacidad de prediccin. Alcanzaremos un poder predictivo aceptable cuando adems de tener una explicacin correcta el modelo verifique las hiptesis bsicas y no se detecte la presencia de observaciones extraas, grupos con estructuras diferentes, etc. Este punto se tratar ms ampliamente en los apartados siguientes.
397
niveles de un factor cualitativo. La introduccin de este tipo de variables la haremos a travs de lo que denominaremos variables ficticias que describimos a continuacin.
Blancos
Negros Educacin
Figura 6.14: Relacin entre el nivel de ingresos y el de educacin para blancos y negros.
Es claro que si no incluimos la variable raza de alguna manera, el modelo conjunto que relaciona ingresos y educacin no se ajusta bien ni al grupo de los blancos
398
ni al de los negros. Una solucin sera ajustar un modelo por separado para cada grupo y compararlos, sin embrago, vamos a buscar una solucin que explique correctamente la situacin con un solo modelo. En lugar de ajustar el modelo conjunto
Y = ! 0 + !1 X
podemos ajustar el modelo
Y = ! 0 + !1 X + " D
donde la variable D se define de la siguiente manera
Y = ! 0 + !1 X + " 0 = !0 + !1 X
En el grupo de los blancos (D = 1)
399
de ! es el contraste de que no hay diferencias en el nivel de ingresos entre los dos grupos de la raza, sea cual sea el nivel de educacin. La situacin esquematizada se muestra en la figura 6.15.
Ingresos
"
Y = ! 0 + !1X Negros
(! 0 + " )
"
!0
Figura 6.15: Interpretacin de un modelo con variables ficticias.
Educacin
Cuando la variable cualitativa tiene ms de dos grupos tenemos que introducir varias variables ficticias.
Y = ! 0 + !1 X + " n Dn + " b Db
donde las variables Dn y Db se define de la siguiente manera
400
La interpretacin de los parmetros y el modelo para los distintos grupos es clara a partir del grfico de la figura 6.16.
Luego !1 es la pendiente (comn) de los modelos para los tres grupos. ! 0 es la constante en el modelo para el grupo de los hispanos, ! 0 + " n es la constante en el modelo para el grupo de los negros y ! 0 + " b es la constante en el modelo para el grupo de los blancos; entonces ! n es la diferencia entre el grupo de los negros y el de los hispanos, ! b es la diferencia entre el grupo de los blancos y el de los hispanos y ! b " ! n es la diferencia entre blancos y negros.
ficticias
en
presencia
de
Supongamos ahora que, en el ejemplo anterior, las diferencias entre los ingresos para las dos razas, aumentan a medida que aumenta el nivel de educacin, es decir, los efectos de la raza y del nivel de educacin no son aditivos, existe lo que se denomina interaccin entre la raza y el nivel de educacin. El concepto de interaccin es clave en la investigacin aplicada, ya que implica que las relacin de la variable dependiente con otra variable depende de los valores de una tercera. No debe confundirse
401
interaccin con relacin, en el ejemplo, raza y educacin interactan en el efecto que manifiestan sobre el nivel de educacin, pero no tienen porqu estar relacionadas entre si. La interaccin se traduce en que las pendientes de las rectas para ambos grupos no son las misma. La situacin se representa en la figura 6.17.
En este caso no es vlido el modelo anterior con variables ficticias, ya que, all suponamos que las pendientes de las rectas eran iguales y, por tanto, la diferencia entre blancos y negros era constante. Tomaremos ahora el modelo
Y = ! 0 + !1 X + " D + # DX
donde la variable D se define como antes, y DX es el producto de las variables D y X, es decir
402
Y = ! 0 + !1 X + " 0 + # 0 = !0 + !1 X
En el grupo de los blancos (D = 1)
! 0 es la constante en el modelo para el grupo de los negros, ! 0 + " es la constante en el modelo para el grupo de los blancos. ! ya no es la diferencia entre los ingresos de los blancos y los negros, ya que esta depende del nivel de educacin (ver figura 6.18).
Contrastar la presencia de interaccin en el modelo consiste en contrastar la nulidad del parmetro ! . Si se dispone de varios grupos es necesario introducir en el
403
modelo el producto de la variable continua por todas las variables ficticias. Si se dispone de dos variables cualitativas y se desea introducir la interaccin de las mismas en el modelo hay que multiplicar todos los pares posibles de variables ficticias resultantes. Si se desea introducir la interaccin entre dos variables continuas basta con introducir el producto de las mismas.
404
ASCOMBE, F.J. (1973) Graphs in Statistical Analysis. Am. Statist. 27, 17-21.
405
X 10 8 13 9 11 14 6 4 12 7 5
Y1 8,04 6,95 7,58 8,81 8,33 9,96 7,24 4,26 10,84 4,82 5,68
Y2 9,14 8,14 8,74 8,77 9,26 8,10 6,13 3,10 9,13 7,26 4,74
Y3 7,46 6,77 12,74 7,11 7,81 8,84 6,08 5,39 8,15 6,42 5,73
X4 8 8 8 8 8 8 8 19 8 8 8
Y4 6,58 5,76 7,71 8,84 8,47 7,04 5,25 12,50 5,56 7,91 6,89
Los cuatro conjuntos de datos presentan los mismos estimadores de los parmetros y la misma bondad del ajuste. A priori parece que el modelo lineal se ajusta igualmente bien en todos los casos, sin embargo, los ajustes son muy diferentes y solamente uno de ellos est en buenas condiciones. La figura 6.19 muestra los diagramas de dispersin.
11 10 9 8 y 1 = 3 + ,5 * x; R 2 = ,67 11 10 9 8 y 2 = 3 + ,5 * x; R 2 = ,67
y1
6 5 4 3 2 2 4 6 8 x y 3 = 3 + ,5 * x; R 2 = ,67 12 10 10 12 14 16
y2
7 6 5 4
(a)
3 2 2 4 6 8 x y 4 = 3 + ,5 * x4; R 2 = ,67 12 10 10 12
(b)
14 16
y3
6 4 2 2 4 6 8 x 10 12
y4
8 6 4
(c)
14 16
2 2 4 6 8 10 12 14 16 18 20 x4
(d)
406
El poder explicativo de todos los conjuntos de datos es el mismo, sin embrago, el nico en el que el ajuste es razonable es en el caso (a) en el que los datos varan de forma aleatoria alrededor de la recta de regresin. En el caso (b) se observa claramente como debera ajustarse una parbola a los datos. En el caso (c) existe una relacin casi perfecta entre las dos variables que est modificada por el punto aislado que, probablemente, es un outlier. En el caso (d) la relacin est completamente determinada por el punto aislado, si lo suprimimos, las variables seran independientes. Hemos descrito aqu problemas en regresin simple que pueden verse directamente sobre el diagrama de dispersin, en el caso mltiple la bsqueda es ms compleja al no poder representar directamente los grficos. Realizaremos los diagnsticos de forma indirecta utilizando grficos de residuales en diversas versiones.
407
Los residuales pueden servir para detectar diversos problemas como posibles datos aberrantes (outliers), desviaciones de la linealidad, heteroscedasticidad, autocorrelacin entre las observaciones, etc.
Y = !X
El ajuste de esta ecuacin por mnimos cuadrados conducira a un sistema de ecuaciones no lineales que ha de resolverse, generalmente, mediante mtodos numricos como por ejemplo el de Newton-Raphson. El problema puede tratarse de una forma mucho ms simple con la transformacin logartmica. Tomando logaritmos en ambos lados de la igualdad tenemos que el modelo original se convierte en un modelo
408
lineal el las variables log(Y) y log(X). log(Y ) = log(!) + " log(X) A cambio de trabajar en escala logartmica, podemos utilizar los mtodos de los modelos lineales. Los efectos de ajustar un modelo lineal a datos que no lo siguen estn relacionados con problemas de ajuste y prediccin.
incluidas. Se observarn relaciones entre las variables externas y los residuales. Grficos de residuales frente a las variables regresoras, la variable
dependiente o los valores ajustados. Se observarn tendencias en los residuales. Bandas no homogneas con tendencia curva definida (ver figura 6.21). Grficos de residuales parciales, que representan los residuales del ajuste del modelo completo frente al residual ms la componente de los valores ajustados debida a cada una de las variables regresoras e i + ! k x ik . El grfico se interpreta como la relacin entre Y y Xk pero ajustada para el resto de las variables, es decir cuando las otras variables han sido ya consideradas en el modelo. Se observarn tendencias en los residuales.
Figura 6.21: Grfico de residuales mostrando una tendencia no lineal y diagrama de dispersin correspondiente.
TRATAMIENTO
409
Inclusin de las variables externas que expliquen la componente no lineal. Transformacin de las variables regresoras causantes de la no linealidad o de la variable dependiente. En muchos casos, como el del ejemplo mencionado antes la transformacin de las variables regresoras, de la dependiente o de ambas, convierte un modelo no lineal en uno que lo es. Las transformaciones ms habituales son: Inclusin de trminos de orden mayor (cuadrticos, cbicos). Logaritmos de las regresoras o de la dependiente. Transformaciones inversas.
Para el investigador aplicado el proceso de transformacin de los datos y de seleccin del modelo ms adecuado suele ser un proceso interactivo en el que se van probando distintos modelo seleccionando aquel que proporcione un mejor ajuste, no solo en cuanto al poder explicativo sino tambin en cuanto al poder predictivo.
410
de ambas. En general, bandas de residuales con distintas anchuras para distintos valores ajustados (ver figura 6.22).
Figura 6.22: Grfico de residuales con problemas de heteroscedasticidad y diagrama de dispersin corresponden en el caso de la regresin simple.
sobre la naturaleza de la heteroscedasticidad. Por ejemplo cuando los datos son medias de distinto nmero de observaciones tomadas todas ellas de una poblacin con la misma varianza. Sabemos entonces que la varianza es inversamente proporcional al tamao muestral para cada caso. El estudio de los mnimos cuadrados generalizados est fuera del alcance de este trabajo. varianza. Por ejemplo si las observaciones variable dependiente son recuentos de Poisson es claro que media y varianza coinciden, de forma que si la media aumenta linealmente con las regresoras, tambin lo har la variabilidad. Tomar la raz cuadrada de la variable dependiente en lugar de la propia variable suele estabilizar la varianza. Transformaciones de la variable dependiente estabilizadoras de la
411
6.2.16.4 Autocorrelacin
El problema se produce cuando los errores de las distintas observaciones no son independientes. Es frecuente cuando se trabaja con datos temporales o recogidos con un determinado orden.
EFECTOS -Los estimadores mnimo cuadrticos son insesgados pero no tienen varianza mnima. -Varianza del error subestimada. -Varianza de los estimadores subestimada. -La inferencia (t y F) no es estrictamente aplicable.
DIAGNOSTICO: Grficos de residuales que muestran tendencias cclicas, tendencias lineales o no lineales o alternancia positivo-negativo (ver figura 6.23).
para cada momento del tiempo frente a residuales en el momento anterior) que mostrarn tendencias lineales (ver figura 6.24).
412
413
6.3 Ampliacin
414
415
Para que los estimadores de los coeficientes de regresin estn definidos, la matriz X'X debe ser no singular, ya que si no (X'X) !1 no estara definida. El rango de la matriz X es el mismo que el de X'X, siendo el nmero de variables regresoras (k); si tenemos 'n' observaciones debe cumplirse lo siguiente:
416
As la comn interpretacin de los coeficientes de regresin como medida del cambio en el valor esperado de la variable dependiente cuando la correspondiente variable independiente se incrementa en una unidad, cuando todas las dems variables regresoras permanecen constantes, no es totalmente aplicable cuando existe colinealidad.
417
2.-
Debe verificarse que n k+1, ya que sino el rango no sera k sino n, y por
tanto podramos detectar una falsa colinealidad. Siguiendo a GALINDO (1987), dividiremos el anlisis de esta problemtica en tres grandes apartados. El primero de ellos consistir en encontrar los indicios que nos puedan hacer sospechar sobre la existencia de colinealidad. Pasaremos en un segundo punto a estudiar cmo realizar el diagnstico adecuado de la misma, y en ltimo lugar analizaremos las tcnicas existentes para tratar de paliar dicho problema.
6.3.3 Sintomatologa
El primer paso para poder actuar frente a la colinealidad, es tomar conciencia de su posible existencia. Hay una serie de sntomas o indicios que pueden presentarse cuando se da el problema de la colinealidad. Entre otros citaremos los siguientes: 1.- El valor absoluto de la correlacin emprica entre dos variables regresoras vara entre 0 y 1 (en el caso de que no exista colinealidad o que sta sea total, respectivamente). Por ello, si al analizar la matriz de correlaciones, se detecta que un subconjunto de dichas variables est altamente correlacionado, ser un sntoma a tener en cuenta. 2.- Si las pruebas de nulidad de los coeficientes de regresin, conducen a eliminar del modelo variables que el investigador, basndose en su experiencia, considera relevantes. 3.- Si el signo de un coeficiente de regresin es opuesto al que cabra esperar. 4.- Si las varianzas de los estimadores de los coeficientes de regresin tienen valores anormalmente grandes, disminuyendo drsticamente al eliminar una o varias variables regresoras del modelo. 5.- Encontrar un coeficiente de correlacin mltiple entre cada regresora y las dems muy elevado. 6.- Intervalos de confianza grandes para los coeficientes de regresin que representan a variables importantes en el modelo.
418
De todas formas, puede haber colinealidad sin que estos sntomas se hagan patentes.
6.3.4 Diagnstico
Solamente la diagonalizacin de la matriz de correlaciones y el examen de los ltimos valores propios proporcionar una informacin precisa. Si tenemos k variables regresoras y llamamos 1, 2 , ... , k a los k valores propios de su matriz de correlaciones en orden descendente, es decir 1 > 2 > ... > k. Supondremos -sin prdida de generalidad- que las variables estn estandarizadas de forma que X'X sea proporcional a la matriz de correlaciones; entonces:
1.- El tamao relativo de estos valores propios nos puede servir como indicador
de la presencia de colinealidad, ya que como se verifica:
2.- Hemos visto que los estimadores mnimo cuadrticos de regresin para variables estandarizadas son ! = (X' X)"1 X' y con matriz de varianzas-covarianzas V ! = " 2 (X'X) #1 .
()
El j-simo valor de la diagonal de (X'X) !1 es precisamente 1 1! R j siendo R j el cuadrado del coeficiente de correlacin mltiple para la variable regresora Xj con el
2 2
resto de las variables. Al trmino 1 1! R j se le denomina Factor de Inflacin de la Varianza (VIF) y es la cantidad que aumenta el error estndar del estimador j-simo por efecto de la correlacin entre Xj y el resto de las variables regresoras. En condiciones ptimas (ausencia de colinealidad) VIFj = 1 (ya que R j = 0). Conforme aumenta el problema de colinealidad el valor VIF se va haciendo cada vez
2 2
419
mayor
haciendo cada vez ms inestable. (THEIL, 1971). Por lo tanto, un VIF grande nos indica que el coeficiente de regresin asociado se encuentra afectado por el problema de colinealidad. Realizando la descomposicin espectral de la matriz de correlaciones, tenemos:
X'X = ALA'
donde: A es la matriz de vectores propios L es la matriz diagonal de valores propios
Por lo tanto, podemos escribir: (X'X) !1 = AL!1A' Utilizando la anterior expresin, el VIFj se pueden expresar en funcin de los valores propios de la matriz de correlaciones como sigue: VIF j = ! A jr " r donde
r =1 k 2
A jr es la j-sima componente del l-simo vector propio, de modo que aquellos valores
propios ms pequeos son los que ms contribuyen a que las varianzas sean ms grandes, pero slo para aquellas regresoras que tienen coeficientes grandes asociados a vectores propios con valores propios muy pequeos. Por lo tanto, regresoras con coeficientes grandes para componentes cortas, son la implicadas en la colinealidad. Por ello, basta con realizar la descomposicin espectral de la matriz de correlaciones entre las regresoras, analizar los valores propios, cuando uno de ellos sea prximo a cero, nos est indicando un posible problema de colinealidad, de modo que aquellas regresoras cuyos coeficientes del vector propio asociado al valor propio cercano a cero, sean muy grandes sern las que se encuentren implicadas en la colinealidad.
3.- Adems, la relacin entre los valores propios nos sirve como indicador del
grado de colinealidad existente en nuestros datos. De este modo, la raz cuadrada de la razn existente entre el primer autovalor y el ltimo (mayor y menor respectivamente):
K=
!l
!k
se denomina "Condition number", y es un ndice de la inestabilidad global de los coeficientes de regresin mnimo cuadrticos (BELSLEY, KUH & WELSCH, 1980).
420
Los autores manifiestan que un "Condition number" grande, indica que, cambios relativamente pequeos en los datos, tienden a producir grandes cambios en la solucin mnimo cuadrtica; en este caso X'X ser casi singular, de modo que valores de K >30 se consideran como "peligrosos".
P jr
( A2jr ! r ) = (A2jr !r ) =
VIF j
k r=1
" A2 ! r jr
Si Pjr es grande (estudios de simulacin llevan a pensar en valores prximos a 0.5) y tambin Kr entonces la j-sima regresora est implicada en la colinealidad. Cuando hay varias relaciones de colinealidad coexistentes, no siempre es fcil separar las variables involucradas en cada una. Sin embargo, en la mayora de las situaciones es suficiente determinar: 1- Si est presente una colinealidad importante. 2- Qu coeficientes de regresin estn afectados por la colinealidad 3- Qu regresoras estn involucradas en cada cuasi-dependencia El punto 1 se sigue del "condition ndices"; el punto 2 del VIF; y el punto 3 de la contribucin de cada componente al factor de inflacin.
421
6.3.5 Tratamiento
6.3.5.1 Anlisis del origen de la colinealidad
En primer lugar hay que asegurarse de que lo que se detecta no es una colinealidad aparente, debida quizs a: - Una muestra sesgada, dndose relaciones en ella que realmente no son ciertas en la poblacin y que al elegir otra muestra quizs no las encontraramos. - Que tengamos en nuestro estudio menor n de individuos que de variables, con lo que la inversa de la matriz X'X no estara definida. Supongamos que el examen de los valores propios, mediante las pruebas sealadas en el apartado 'Diagnostico', nos indican la existencia de colinealidad, entonces la actitud a tomar depender de cul es su posible origen:
422
pueden identificar por distintos procedimientos como: Estudio del R2, el factor de tolerancia, los mtodos Biplot (GABRIEL, 1971; GALINDO, 1985, 1986), o con otros distintos como la REGRESIN RIDGE (HOERL Y KENNARD, 1970a, b), el mtodo de MALLOWS (1964), o bien con los procedimientos PASO A PASO. CARBONELL y cols (1983), propone el siguiente rbol de decisiones (figura 6.28) a la hora de analizar la problemtica de la colinealidad:
423
Pero hay algo que hay que tener muy en cuenta, y es que esta seleccin debe hacerse siempre despus de un detallado estudio de la colinealidad. Este problema puede estudiarse en profundidad en NETER, WASSERMAN & KUTNER, 1985 y CARBONELL y cols. (1983). Supongamos que se desea establecer una ecuacin de regresin lineal de la variable dependiente Y en funcin de las variables regresoras X1, X2, ... , XK, que sera el grupo total de variables entre las cuales estarn aquellas que formarn parte de la ecuacin buscada. Para que el modelo encontrado sea el ms adecuado, deberemos incluir en l el mayor nmero de variables posible, cuyo efecto en la variable dependiente pueda ser interpretado, para as poder evitar un modelo con una gran varianza en las predicciones. Obviamente, no existe un nico procedimiento estadstico para llevar a cabo esta tarea, y es ms, generalmente los diferentes mtodos no conducen a la misma solucin, por lo cual bajo nuestra experiencia, se deber tener cierta cautela a la hora de utilizarlos, y sobre todo nunca debe menospreciarse el criterio del investigador a la hora de la seleccin del subconjunto de variables ms adecuado, ya que su conocimiento sobre las variables en estudio puede ser vital a la hora de decidirse por la inclusin o exclusin de una de ellas en el modelo.
MTODO DE TODAS LAS REGRESIONES POSIBLES Este mtodo de seleccin consiste en calcular todas las posibles ecuaciones de regresin, combinando el nmero total de variables regresoras y luego hacer una seleccin de la ecuacin ptima. Como se puede intuir, se trata de un procedimiento laborioso y slo es posible cuando se puede acceder a un ordenador de alta velocidad. Por ello hay otros ms utilizados en la actualidad y que veremos con posterioridad. El procedimiento consiste en lo siguiente: El nmero de posibles ecuaciones de regresin es: 2 ! 1, lo cual nos da ya una idea de la magnitud del mismo, de modo que cada variable regresora Xi (i = 1, 2, ... , K), puede estar o no incluida en la ecuacin.
K
424
En primer lugar se separan las ecuaciones por grupos, de modo que tengamos un grupo con una variable regresora solamente, otro con dos, otro con tres, y as sucesivamente, hasta uno con K , que ser Y = ! 0 + !1X1 + ! 2 X2 +!+!K XK + " Si denotamos con p al nmero de variables que hay en un modelo, entonces habr p+1 parmetros en la funcin de regresin para ese grupo. Por lo tanto se verifica: 1pK Hay distintos criterios que pueden ser utilizados para comparar los distintos modelos de regresin obtenidos:
Criterio R p Lo que se hace es examinar el coeficiente de determinacin R p , para seleccionar uno o varios subconjuntos de las variables regresoras, y donde p 2 es el nmero de parmetros en el modelo. As R p nos indica que hay p parmetros o p-1 variables en el mismo, y se va observando cmo vara R p al pasar de un modelo a otro. Lo que se intenta es encontrar el modelo en el 2 que aadindole ms variables, no es ya til, porque el incremento en R p es nfimo.
2 2
Criterio Cp de Mallows. Nos permite seleccionar de entre todas las ecuaciones de regresin posibles cul es la que tiene mejor bondad de ajuste. Con Cp denotamos el "error cuadrtico medio total" definido por MALLOWS (1964) y lo componen: la suma de las desviaciones al cuadrado respecto del modelo completo, y el cuadrado de los errores aleatorios en Y, para el conjunto total de n observaciones, es decir:
425
Cp =
SCE p !2
+ 2p " n
**
Como estimador generalmente se utiliza el cuadrado medio del error del modelo de regresin completo, bajo la hiptesis de que este modelo es verdadero. El Cp de aquellos modelos con poco sesgo tiende a ser cercano a p, de modo que podremos identificar los modelos que tengan un pequeo valor (Ver figura 6.29)
MTODOS PASO A PASO Como hemos apuntado anteriormente, debido al alto grado de complejidad que posee el mtodo de todas las regresiones posibles, se hacen necesarios otros que evalen solamente un pequeo nmero de subconjuntos de variables, adicionando o eliminando stas segn determinados criterios. Se han desarrollado algunas tcnicas de estas caractersticas, que generalmente se denominan MTODOS PASO A PASO (Stepwise Methods), y que consisten en
**
426
variaciones de dos ideas bsicas: Eliminacin descendente* y Seleccin Ascendente**. Se ha hecho una breve referencia a estos mtodos en el apartado 6.13. Aqu comentaremos un poco ms.
Seleccin ascendente
Se comienza sin ninguna variable en el modelo y se va aadiendo una a una hasta que se obtenga una ecuacin satisfactoria -segn un determinado criterio- o bien hasta que se haya completado la inclusin de todas ellas. Generalmente el criterio de entrada, consiste en introducir aquella variable que proporcione el mximo incremento en el coeficiente de correlacin mltiple. HOCKING, propone en 1976, incluir la variable i-sima en la ecuacin con p trminos si:
F i = max i
> Finput
donde: SCRp es la suma de cuadrados de los residuales con un subconjunto p de variables SCRp+i es la suma de cuadrados de los residuales aadiendo la i-sima variable a un subconjunto p de variables.
Se calcula, por lo tanto el trmino Fi aadiendo una a una las variables que no estn en el modelo y se busca la variable para la cual ese valor es mximo, esa es precisamente la que entra en el modelo si Fi > Finput. Si para todo i, Fi < Finput el proceso termina.
Eliminacin descendente Se parte del modelo contrario, es decir, con todas las variables regresoras incluidas en el mismo, y segn un determinado criterio vamos eliminando variables del modelo hasta encontrar aquella ecuacin ms adecuada.
*
**
Del trmino ingls: Backward Elimination (BE) Del trmino ingls: Forward Selection (FS)
427
F i = min i
< F out
donde: SCRp-i denota la suma de cuadrados de los residuales cuando la variable i es borrada de la ecuacin en la que haba p trminos
Se calcula la expresin Fi, eliminando una a una las variables que forman parte del modelo, y se busca la variable para la cual es mnima esa expresin; esa variable es la que se elimina si Fi < Fout. Si para todo i, Fi > Fout el proceso termina.
El mtodo de inclusin de variables en el modelo de regresin (seleccin ascendente), presenta la ventaja de que slo se maneja el nmero de variables estrictamente necesario, pero en ningn caso se estudia el efecto que puede producir la inclusin de una variable en el papel que desempean las ya incluidas en modelos anteriores. "Regresin Stepwise" (EFROMYSON, 1960)
Para solventar el problema citado anteriormente, EFROMYSON propuso en 1960 el mtodo de Regresin Stepwise que se corresponde ms con lo que entendemos como mtodos paso a paso. Consiste en una seleccin ascendente (FS), pero en cada paso consideramos la posibilidad de eliminar una variable, de modo similar a como se hace en el mtodo de eliminacin descendente (BE). Una variable que fue la mejor candidata para ser incluida en el modelo en una fase anterior, puede resultar superflua en una fase posterior, debido a las relaciones existentes entre dicha variable y aquellas otras que se encuentran actualmente en el modelo.
428
El proceso Stepwise continua hasta que ninguna variable pueda ser introducida y ninguna eliminada. Es menos riguroso estadsticamente que los anteriores (CARBONELL y cols, 1983). Es el que se emplea normalmente al utilizar programas estndar. Una crtica a los mtodos FS y BE es que los investigadores, generalmente dan un grado de importancia a las variables, dependiendo del orden en el que entran (FS) o en el que salen (BE), lo cual no es correcto, ya que no es raro encontrarnos con que la primera que entra en uno es la primera que sale en el otro* , o que incluso en el mtodo stepwise entra en un paso y sale en el siguiente. Tambin se critican porque no proporcionan resultados ptimos, ya que puede que no identifiquen aquellos subconjuntos de regresoras de determinado tamao, de modo que maximicen R2, incluso cuando es ste el criterio utilizado para la inclusin en el modelo. Ms detalladamente se pueden encontrar estos mtodos en DRAPER y SMITH (1966) CHATTERJEE y PRICE (1977).
Regresin Ridge Hasta ahora el mtodo de ajuste de los coeficientes de regresin utilizado ha sido el de los mnimos cuadrados, y segn el teorema de Gauss-Markov, este mtodo de ajuste nos proporciona estimadores eficientes, es decir, insesgados y de varianza mnima, bajo las condiciones del modelo de regresin. En presencia de colinealidad, como hemos visto, se incrementa notablemente la varianza muestral de los estimadores, con lo que disminuye, por lo tanto, su eficiencia. Para intentar paliar esto, utilizaremos un mtodo mediante el cual podramos encontrar estimadores sesgados de modo que disminuya la varianza muestral, ya que el error cuadrtico medio de un estimador es la suma de su varianza muestral y el cuadrado del sesgo.
*
En el trabajo de investigacin correspondiente a este captulo veremos cmo, efectivamente, la primera de las variables que entra utilizando el mtodo de seleccin ascendente, y a la que por lo tanto, el investigador no familiarizado con estas tcnicas le dara la mxima importancia, es precisamente la que sale en primer lugar utilizando el mtodo de eliminacin descendente.
429
La Regresin Ridge fue originalmente propuesta por HOERL (1962)y posteriormente elaborada por HOERL y KENNARD (1970a,b) . Consiste en un mtodo de estimacin sesgado que busca mejorar la accin de la estimacin mnimocuadrtica en presencia de colinealidad. Se propone como vector de estimadores de los coeficientes de regresin:
k>0
Dando valores a k se encuentra una familia de estimadores denominada ESTIMADORES RIDGE. El mdulo del estimador Ridge es menor que el del estimado por el mtodo mnimo-cuadrtico, ya que stos son demasiado grandes cuando X'X es casi singular (HOERL & KENNARD, 1970 a). El principal problema al aplicar la regresin Ridge est en encontrar aquel valor de k de modo que se compense el sesgo y la reduccin de varianza. Se han desarrollado muchos mtodos para seleccionar el valor de k. Algunos son aproximativos y otros proporcionan frmulas especficas. HOERL & KENNARD (1970, a,b ) sugieren el "TRAZADO RIDGE", en el que se representan valores de los estimadores dependiendo del valor de k. En el se pone de manifiesto la inestabilidad de los coeficientes de regresin y el incremento de la suma de los cuadrados. (Veremos en el trabajo de investigacin este tipo de trazado grficamente) Llega un momento, cuando se contina incrementando k, en que los coeficientes se estabilizan. Durante este proceso los VIF decrecen, al principio rpidamente y luego de modo ms gradual.
2 2 La estimacin de la varianza de los errores SE! = " # ! aumenta suavemente cuando se incrementa k.
Entonces, para seleccionar k podremos tener en cuenta el trazado Ridge, los VIFs y la varianza del error.
430
HOERL & KENNARD, proponen en el mismo trabajo elegir k de modo que los coeficientes de regresin estn estabilizados y la varianza del error no se incremente desde su valor mnimo MARQUARDT & SNEE (1975) sugieren elegir k de modo que el mximo VIF sea menor de 10, y preferiblemente no mucho mayor que 1. La regresin Ridge tambin puede ser utilizada como mtodo de seleccin de variables, eliminando aquellas regresoras cuyos coeficientes de regresin tiendan a 0 tan rpidamente como se incremente k (MARQUARDT & SNEE (1975); HOCKING, 1976). Pone de manifiesto aquellos coeficientes inestables que deben ser eliminados del modelo porque no son capaces de mantener su poder predictivo. En la figura 6.30 puede verse un ejemplo de trazado Ridge (que ser el del ejemplo que
utilizaremos en el trabajo de investigacin)
Figura 6.30: Trazado Ridge correspondiente al ejemplo del trabajo de investigacin de este captulo
BIBLIOGRAFIA CITADA BELSLEY, D.A.; KUH, E. & WELSCH, R.E. (1980). Regression Diagnostics: Identifying Influential Data and Sources of Collinearity. Wiley. New York.
431
CARBONELL, E.; DENIS, J.B; CALVO, R; GONZALEZ, F. y PRUONOSA, V. (1983). Regresin Lineal: Un enfoque conceptual y prctico. I.N.I.A. CHATTERJEE, S & PRICE, B (1977). Regression Analysis by Example. Wiley. New York. DRAPER, N.R. & SMITH, H. (1966). Applied Regression Analysis. Wiley. New York. EFROMYSON, M.A. (1960). 'Multiple regression analysis'. In A. Ralston & H.S. Wilf (eds.) Mathematical Methods for Digital Computers. Vol. 1: 191-203. FOX, J. (1984). Linear Statistical Models and Related Methods. New York. Wiley. GABIEL, K.R. (1971). 'The biplot graphic display of matrices with applications to principal component analysis'. Biometrika, 58: 543-467. GALINDO, M.P. (1985). 'Contribuciones a la representacin simultnea de datos multidimensionales'. Ser. Resum. Tesis Doct. T.D. 395/1985. pgs 1-38. Universidad de Salamanca. GALINDO, M.P. (1986). 'Una alternativa de representacin simultnea: HJ-Biplot'. Questiio. Vol.10, n1: 13-23. GALINDO, M.P. (1987). 'Diagnstico y tratamiento de los problemas en los modelos lineales'. Cuadernos de Bioestadstica y su Aplicacin Informtica. Vol. 5, n1: 116-128. HOCKING, R.R. (1976). 'The analysis and selection fo variables in linear regression'. BIOMETRICS. 32: 1-49. HOERL, A.E. (1962). 'Application of Ridge Analysis to regression problems'. Chemical Engineering Progress, 58: 54-59. HOERL, A.E. & KENNARD, R.W. (1970a). 'Ridge Regression: Biased estimation for nonorthogonal problems'. Technometrics, 12: 55-67. HOERL, A.E. & KENNARD, R.W. (1970a). 'Ridge Regression applications to nonorthogonal problems'. Technometrics, 12: 69-82. MALLOWS, C.L. (1964). 'Choosing variables in a linear regression: a graphical aid'. Presented at the central Regional Meeting of the Inst. of Math. Statist. Manhattan, Kansas. MARQUARDT, D.W; & SNEE, R.D. (1975). 'Ridge regression in practice'. The American Statistician, 29: 3-20 NETER, J.; WASSERMAN, W. & KUTNER, M.H. (1985). Applied Linear Statistical Models. (2nd. Ed.) Richard D. Irwin, INC THEIL, H. (1971). Principles of Econometrics. New York. Wiley
432
433
En este apartado trabajaremos sobre un estudio de simulacin que nos permita poner de manifiesto cmo en presencia de colinealidad, los estimadores clsicos de Gauss-Marcov proporcionan estimaciones sesgadas e inestables que no son interpretables. Asimismo, se pretende poner de manifiesto la cautela con la que debe trabajarse al utilizar los mtodos de regresin paso a paso, tan profusamente utilizado por los investigadores en todos los mbitos cientficos.
6.4.2 Sintomatologa
6.4.2.1 Estimacin de los coeficientes de regresin
La matriz de correlaciones X'X entre las variables independientes es la que aparece a continuacin (ver tabla 6.2). 1 1 2 3 4 5 6 1.000 0.057 0.130 -0.115 0.048 0.152 2 0.057 1.000 0.231 0.063 0.051 -0.264 3 0.130 0.231 1.000 -0.956 0.010 -0.238 4 -0.115 0.063 -0.956 1.000 0.004 0.165 5 0.048 0.051 0.010 0.004 1.000 -0.245 6 0.152 -0.264 -0.238 0.165 -0.245 1.000
Vemos como el coeficiente de correlacin entre las variables X4 y X3 es prximo a 1, lo cual es ya un primer indicio sobre la posible existencia de colinealidad.
434
Los estimadores mnimo-cuadrticos para el modelo de regresin son los que aparecen en la tabla 6.3: Nmero Corte 1 2 3 4 5 6 Coeficiente Error estndar Estadstico t 21789.6569 -2.7580 1.8872 -1.4614 130.8591 32.0335 4.0851 -393.3484 102.6947 -3.8303 -3.0357 4.9657 -0.6113 23.4743 1.4740 15.9253 -15.1239 1.7799 -8.4971
Tabla 6.3: Parmetros del modelo de regresin
Los errores estndar para las variables 2. 3 y 4 son muy grandes lo cual es tambin un sntoma de una potencial colinealidad. Resumen del anlisis Varianza residual: % de variaciones no controladas: Coeficiente de determinacin: % de variaciones controladas Coeficiente de correlacin mltiple: 69992.3431 0.0293 0.9991 99.91% 0.9996
Obsrvese cmo a pesar de que el porcentaje de variaciones explicadas es 99.91%. los valores de los estimadores de algunos de los coeficientes de regresin difieren sensiblemente de los verdaderos coeficientes (ver tabla 6.2). siendo incluso en alguno de los casos de signo contrario al que debera (lo que ocurre con el de la variable 4). lo cual es tambin un sntoma del posible problema de colinealidad. Vemos asimismo cmo el coeficiente de correlacin mltiple es muy alto.
435
6.4.3 Diagnstico
Para hacer un efectivo diagnstico del problema. deberemos conocer: 1.- Si est presente una colinealidad importante 2.- Qu coeficientes de regresin estn afectados por la misma. 3.- Qu regresoras est involucradas en la cuasi-dependencia. Para ello deberemos. respectivamente. conocer el "condition number". los factores de inflacin de la varianza y la contribucin de cada componente al factor de inflacin. Seguiremos los siguientes pasos:
2 1.3341
3 1.0419
4 0.9634
5 0.5682
6 0.0001
Vemos como el ltimo valor propio es muy prximo a cero. lo cual nos indica ya que deberemos estar alerta por un posible problema de colinealidad. pues nos est indicando que la matriz X'X es casi singular.
6.4.3.2 Estudio de los vectores propios de la matriz de correlaciones entre las regresoras
Analizaremos ahora la matriz de vectores propios de las regresoras. puesto que deberemos localizar cules son las variables con coeficientes grandes en componentes
436
cortas (ver tabla 6.5) (vimos en el paso anterior. cmo el ltimo vector propio era prximo a cero).
1 1 2 3 4 5 6 0.1198 0.1838 0.6745 -0.6366 0.0854 -0.2905 2 -0.2757 0.4696 -0.1377 0.2813 0.4813 -0.6113 3 0.8602 0.3232 -0.0567 0.1517 0.3082 0.1856 4 -0.0337 0.6869 0.0593 0.1427 -0.7084 0.0375 5 -0.4107 0.3579 0.1697 -0.0644 0.4054 0.7113 6 0.0024 -0.2033 0.7004 0.6842 -0.0009 -0.0009
La tabla anterior (tabla pone de manifiesto que las variables X3 y X4 son las que estn implicadas en la colinealidad. (Vemos como esta afirmacin coincide con la construccin del
modelo. adems el siguiente coeficiente ms grande se corresponde con la variable X2).
"Condition
Index"
del
El valor para el "condicin number" es 135.21 lo cual evidencia la inestabilidad global de los coeficientes mnimo-cuadrticos (recordemos que se considera peligroso para valores mayores de 30). Los "condition index" para las distintas componentes principales aparecen en la tabla 6.6:
1 2 3 1 4 1.2523 5 1.4171 6 1.4737 1.9188 135.2131
El alto valor para el index correspondiente a la variable indica una vez ms que una colinealidad importante est presente.
437
6.4.3.4
Los factores de inflacin (V I F) para cada regresora son los que aparecen en la tabla 6.7:
1 1.1229 2 362.0870 3 4287.0318 4 4090.7179 5 1.0849 6 1.2528
Los V I F para las variables 2. 3 y 4 son muy grandes; valdran 1 en el caso de ser ortogonales. Nos estn indicando que. efectivamente. son los coeficientes para dichas variables los que se ven afectados por el problema de colinealidad. La misma informacin se obtiene estudiando el incremento en el error estndar de cada regresora.
Tabla 6.8: Incremento relativo en el error estndar del coeficiente para cada regresora
Obsrvese cmo el error estndar para las variables 2. 3 y 4 se ha incrementado sensiblemente por efecto de la colinealidad (ver para la comparacin la tabla 6.3) como cabra esperar. ya que la variable X4 se haba construido como combinacin de X2 y X3.
438
Tabla 6.9: Contribuciones proporcionales de las componentes a los VIF (los valores superiores a 0.5 se consideran peligrosos)
Como la contribucin proporcional de los componentes a los V I F son muy grandes para las variables 2.3.4. es evidente que estas tres variables estn implicadas en la cuasi-dependencia representada por la 6 componente.
6.4.4 Conclusiones
Segn hemos podido comprobar los estimadores mnimo cuadrticos son inestables y pierden. por tanto. su poder predictivo. poniendo de manifiesto la importancia de llevar a cabo un estudio sobre la posible colinealidad a la hora de llevar a cabo un anlisis de regresin mltiple. pues dicho problema puede llevarnos a conclusiones totalmente errneas.
439
En el paso nmero 2 entra la variable 5 y la tabla 6.11 recoge la prueba de significacin y los parmetros del modelo:
Var Corte X4 X5 Coeficiente -2847.09 15.92 27.51 0.14 2.93 Tabla 6.11 107.41 9.39 p=0.0001 p=0.0000 Error Est. Estadstico t Significac.
En el paso nmero 3 la variable introducida es la 5. En el paso nmero 4, la variable 2 y en el paso nmero 5 la variable 3. La prueba de significacin y los parmetros para el modelo de regresin aparecen en la tabla siguiente (tabla 6.12):
Var Corte X2 X3 X4 X5 X6 Coeficiente 22648.48 135.43 -408.95 15.92 27.51 -15.70 32.28 103.44 0.14 2.93 1.75 4.19 -3.95 107.41 9.39 -8.93 p=0.0001 p=0.003 p=0.0000 p=0.0000 p=0.0000 Error Est. Estadstico t Significac.
440
Tabla 6.12
El tanto por ciento de variaciones controladas es del 99.09% y el coeficiente de correlacin mltiple es altamente significativo. Sin embargo. los estimadores estn muy alejados de los valores reales. que recordemos. son los siguientes:
Var Corte X1 X2 X3 X4 X5 X6
Error Est.
Estadstico t
Significac.
Tabla 6.13: Parmetros del modelo de regresin con todas las variables.
El porcentaje de variaciones controladas fue del 99.91%. En el primer paso la variable eliminada es la 4; conviene destacar que era la primera que entraba en la seleccin ascendente; lo cual evidencia que el orden de entrada de las variables en ningn caso implica su grado de importancia en el modelo.
441
El modelo con todas las variables excepto la cuarta, es el que se muestra a continuacin:
Var Corte X1 X2 X3 X5 X6 Coeficiente 17942.8551 -2.8750 111.3014 -330.5757 23.5596 -15.0869 1.8641 1.6131 1.5204 1.4569 1.7662 -1.5424 68.9997 -217.4230 16.1707 -8.5422 p=0.1300 p=0.0000 p=0.0000 p=0.0000 p=0.0000 Error Est. Estadstico t Significac.
En el paso nmero 2 se elimina la variable 1. La prueba de significacin y los parmetros para el modelo de regresin resultante son:
Var Corte X2 X3 X5 X6 Coeficiente 17863,4888 111,1179 -330,9589 23,3354 -15,6846 1,6331 1,5228 1,4717 1,7493 68,0394 -217,3356 15,8560 -8,9660 p=0.0000 p=0.0000 p=0.0000 p=0.0000 Error Est. Estadstico t Significac.
Ya nos salen ms variables, por lo que le modelo final es: Y= 17863,4888 + 111,1179 X2 - 330,9589 X3 + 23,3354 X5-15,6846 X5 Como puede observarse las variables implicadas en la colinealidad no desaparecen del modelo y los estimadores siguen siendo muy diferentes. aunque si tienen el mismo signo que los verdaderos coeficientes del modelo. El tanto por ciento de variaciones controladas tambin en este caso supera el 99%. pero el tratamiento de la colinealidad no es bueno.
-1-
T1 x11 ! x1n1
T2 x21 ! x2n2
-2-
ANALISIS DE LA VARIANZA
DISEO DE UNA VIA
Disponemos de r poblaciones, generalmente correspondientes a r tratamientos experimentales. Cada uno de los tratamientos Ti, (i=1, , r) se supone que tiene distribucin normal con media i y varianza 2, comn a todos ellos, es decir se trata de poblaciones normales y homoscedsticas. De cada una de las poblaciones (o tratamientos), tomamos una muestra de tamao ni. Las observaciones obtenidas se pueden recoger en una tabla de la forma
T1 x11 ! x1n1
T2 x21 ! x2n2
es decir xij es la observacin j del grupo experimental i. Llamaos x1,, xr a las medias muestrales de los grupos y media de todas las observaciones.
a la
Cuando se trata de un experimento diseado, es decir, cuando se trata de la aplicacin de r tratamientos a un conjunto de unidades experimentales, estas deben seleccionarse para que sean homogneas, de forma que no se introduzcan factores de variacin distintos del que se desea controlar. La asignacin de los tratamientos a cada una de las unidades debe hacerse al azar. Es lo que se conoce como diseo completamente al azar. El modelo matemtico subyacente a este tipo de diseo es
-3-
H0 : 1 = = r = Ha : !i, j / i " j
El anlisis de la varianza se basa en la descomposicin de la variabilidad total en dos partes, una parte debida a la variabilidad entre las distintas poblaciones o tratamientos (variabilidad entre grupos o variabilidad explicada por el diseo) y otra parte que puede considerarse como la variabilidad intrnseca de las observaciones (variabilidad dentro de los grupos o residual).
Q = QE + QR
La variabilidad entre grupos
QE = " ni ( xi ! x ) 2
i=1
mide la discrepancia entre los grupos y la media global, de forma que si no hay diferencias entre ellos (la hiptesis nula es cierta) obtendremos variabilidades pequeas. Si, por el contrario, la
-4-
hiptesis nula es falsa, cabe esperar que la variabilidad entre grupos sea grande. La variabilidad dentro de los grupos
ni
-5-
Fuente Entre
g.l. r-1
r !1
2 SE S2 R
Residua l Total
ni
n-r
2 SR =
QR n!r
n-1
El cociente entre la variabilidad entre y la variabilidad dentro, una vez que se han hecho comparables, sigue una distribucin F de Snedecor con r-1 y n-r grados de libertad. La distribucin nos sirve para buscar el valor a partir del cual el cociente es lo suficientemente grande como para declarar las diferencias entre grupos estadsticamente significativas. Los estimadores de los efectos de los tratamientos se estiman a partir de
! i = i " = xi " x
y la parte propia de cada observacin (o residual)
-6-
hacerse entonces de la misma manera que en un modelo re regresin, utilizando grficos de residuales.
H 0 : i = j H a : i ! j
i, j
= SR
xi ! x j 1 1 + ni n j
" t N !r
que sigue Una distribucin t de Student con N-r grados de libertad. La realizacin directa de cada contraste para un nivel de significacin incrementa la probabilidad de cometer un error de tipo I para el contraste global de igualdad de todas las medias por lo que, en general, el nivel de significacin de cada contraste particular tiene que ser corregido. Si no importa el incremento en el riesgo tipo I puede realizarse directamente el contraste t de Student, asumiendo que probablemente encontraremos ms diferencias de las que se encuentran realmente en los datos. Se rechaza la hiptesis nula si el estadstico de contraste supera el valor crtico de la distribucin t de Student al nivel .
i, j exp
= SR
xi ! x j 1 1 + ni n j
> t N !r,"
o lo que es lo mismo,
-7-
xi ! x j > t N !r," SR
1 1 + ni n j
mnima (lest significant difference). Por esta razn, a veces al test se le conoce como LSD. Si se est interesado en mantener el nivel de significacin global por debajo del nivel predeterminado, es necesario corregir el nivel que se utilizar en cada contraste individual de forma que al aumentar el riesgo, permanezca por debajo del fijado. La correccin consiste en utilizar para cada contraste un nivel , ms pequeo que y que resulta de dividir ste por una constante de penalizacin K.
!'=
! K
Dependiendo de los valores que tomemos para K obtendremos distintos procedimientos de contraste. TEST DE BONFERRONI K es el nmero de comparaciones posibles por parejas.
-8-
Tukey (3)
Bonferroni (4)
-9-
-10-
Obsrvese que solamente hemos sustrado del residual la parte correspondiente a los bloques. -Anlisis estadstico: Anlisis de la varianza de dos vas. Las hiptesis de que los distintos tratamientos y los bloques no producen ningn efecto se contrasta mediante el anlisis de la varianza de dos vas, comparando la variabilidad entre bloques y la variabilidad entre tratamientos con la variabilidad dentro de los grupos. Los resultados fundamentales se resumen en la tabla siguiente. Fuente Suma de cuadrados s Entre QB = " r( xi ! x )2 Bloques i=1 g.l. s-1 Estimador Fexp Q F = 2 SB = B B s ! 1 S2 B 2 SR
Entre Tratam.
QT = " s(x j ! x )
j =1
r-1
ST =
QT FT = r ! 1 S2 T 2 SR
Residual
QR =
i=1 j=1 2 " " ( xij ! xi ! x j + x )
s r
(r-1)(s-1)
2 SR = QR (r!1)(s!1)
Total
n-1
-11-
=x ! i = xi " x # j = x j " x
y la parte propia de cada observacin (o residual)
-12-
-Tipos de factores
-Factores cualitativos especficos. Factores susceptibles de aplicacin Factores de clasificacin -Factores cuantitativos -Factores cualitativos ordenados. -Factores cualitativos muestreados.
-13-
Efectos principales e interaccin en un experimento de dos factores. Supongamos que tenemos un experimento de dos factores A y B con cuatro niveles cada uno, y supongamos, para simplificar que no existe variacin no controlada. Factor B nivel 2 nivel 3 11 14 14 17 12 15 15 18 13 16
nivel 1 9 12 10 13 11
nivel 4 15 18 16 19 17
Tenemos varias formas de cacterizar esta tabla: a)La diferencia entre las observaciones de dos niveles cualesquiera de A es la misma para todos los niveles de B. b)La diferencia entre las observaciones de dos niveles cualesquiera de B es la misma para todos los niveles de A. c) Los efectos de los dos factores son aditivos. d) Los residuales al restar los efectos fila y columna son cero. En este caso se dice que los factores no interactuan o que sus efectos son aditivos. Si estas condiciones no se verifican decimos que hay una interaccin entre A y B. Se dice que hay interaccin cuando las diferencias entre dos niveles cualesquiera de uno de los factores dependen de los niveles del otro factor. Factor B nivel 2 nivel 3 11 14 14 17 11 14 16 19 13 16
nivel 1 9 12 11 12 11
nivel 4 15 18 17 18 17
-14-
Efectos principales: Efectos de cada uno de los niveles de los factores por separado (promediando sobre el otro factor). Interaccin: Efectos producidos por la aplicacin conjunta de los niveles de los dos factores. Grficos de interaccin
20 18 16 14 12 10 8 6 4 2 0
n1 n2 n3 n4
Efectos aditivos
20 18 16 14 12 10 8 6 4 2 0
n1 n2 n3 n4
Efectos no aditivos
-15-
Experimento factorial con dos factores de variacin y el mismo nmero de observaciones por casilla. Se dispone de un conjunto de observaciones homogneas y se asigna los tratamientos (combinacin de niveles de los dos factores) aleatoriamente a las unidades. Los datos resultantes seran los siguientes
Factor A B1 Factor B ! Bs
A1 ! x111 $ # & #! & #x & " 11t % ! ! x s11 $ # & ! & # #x & " s1t %
Ar ! x1r1 $ # & #! & #x & " 1rt % " ! ! x rs1 $ # & #! & #x & " rst %
-Anlisis estadstico: Anlisis de la varianza de dos vas. Las hiptesis de que los distintos factores no producen ningn efecto y de que no existe interaccin se contrastan mediante el anlisis de la varianza de dos vas con interaccin, comparando la
-16-
variabilidad entre los niveles del factor A, la variabilidad entre los niveles del factor B, y la variabilidad debida a la interaccin con la variabilidad dentro de los grupos o residual. Fuente
Filas
g.l.
s-1
Columnas
r-1
Interacc.
QFC =
i, j,k
(r-1)(s-1)
" (xij ! xi ! x j + x )2
s r t
(r!1)(s!1)
2
rs(t-1)
Resid.
2 SR = QR rs(t !1)
Total
rst-1
=x ! i = xi " x
# j = x j " x
-17-
-18-
EJEMPLO
Se est investigando cual es el efecto de tres tipos de abono sobre dos tipos de suelo. Se espera que el efecto de los distintos abonos se manifieste de forma diferente dependiendo del tipo de suelo. Para el presente estudio tomaremos dos tipos de suelo, cido y alcalino y tres tipos de abono que denotaremos con A, B y C. Tenemos as dos factores (suelo y abono) con 2 y 3 niveles respectivamente, que resultan en 6 combinaciones. Tomaremos un diseo factorial con dos factores y tres rplicas en cada una de las combinaciones de los niveles de los dos factores. La respuesta es un ndice de abundancia de una determinada especie tras la aplicacin de los distintos abonos. Los resultados se muestran en la tabla siguiente.
cido Alcalino
A 8 4 0 14 10 6
B 10 8 6 4 2 0
C 8 6 4 15 12 9
ANOVA Table for RESPUESTA DF SUELO ABONO SUELO * ABONO Residual 1 2 2 12 Sum of Squares 18,000 48,000 144,000 106,000 Mean Square 18,000 24,000 72,000 8,833 F-Value 2,038 2,717 8,151 P-Value ,1789 ,1063 ,0058 Lambda 2,038 5,434 16,302 Power ,248 ,428 ,905
Means Table for RESPUESTA Effect: SUELO * ABONO Count ACIDO, A ACIDO, B ACIDO, C ALCALINO, A ALCALINO, B ALCALINO, C 3 3 3 3 3 3 Mean 4,000 8,000 6,000 10,000 2,000 12,000 Std. Dev. 4,000 2,000 2,000 4,000 2,000 3,000 Std. Err. 2,309 1,155 1,155 2,309 1,155 1,732
-19-
Cell Mean
Fisher's PLSD for RESPUESTA Effect: ABONO Significance Level: 5 % Mean Diff. A, B A, C B, C 2,000 -2,000 -4,000 Crit. Diff 3,739 3,739 3,739 P-Value ,2664 ,2664 ,0380 S
Bonferroni/Dunn for RESPUESTA Effect: ABONO Significance Level: 5 % Mean Diff. A, B A, C B, C 2,000 -2,000 -4,000 Crit. Diff 4,769 4,769 4,769 P-Value ,2664 ,2664 ,0380
Comparisons in this table are not significant unless the corresponding p-value is less than ,0167. Tukey/Kramer for RESPUESTA Effect: ABONO Significance Level: 5 % Mean Diff. A, B A, C B, C 2,000 -2,000 -4,000 Crit. Diff 4,574 4,574 4,574
-20-
ANOVA Table for RESPUESTA Split By: SUELO Cell: ACIDO DF ABONO Residual 2 6 Sum of Squares 24,000 48,000 Mean Square 12,000 8,000 F-Value 1,500 P-Value ,2963 Lambda 3,000 Power ,207
Tukey/Kramer for RESPUESTA Effect: ABONO Significance Level: 5 % Split By: SUELO Cell: ACIDO Mean Diff. A, B A, C B, C -4,000 -2,000 2,000 Crit. Diff 7,087 7,087 7,087
ANOVA Table for RESPUESTA Split By: SUELO Cell: ALCALINO DF ABONO Residual 2 6 Sum of Squares 168,000 58,000 Mean Square 84,000 9,667 F-Value 8,690 P-Value ,0169 Lambda 17,379 Power ,822
Tukey/Kramer for RESPUESTA Effect: ABONO Significance Level: 5 % Split By: SUELO Cell: ALCALINO Mean Diff. A, B A, C B, C 8,000 -2,000 -10,000 Crit. Diff 7,791 7,791 7,791 S S