Cap 07. Analisi de La Varianza.
Cap 07. Analisi de La Varianza.
Cap 07. Analisi de La Varianza.
ANÁLISIS DE VARIANZA
7.1. Introducción
El análisis de varianza es una técnica estadística para comprobar si son iguales
las medias de más de dos poblaciones mediante el análisis y la comparación de
diversos tipos de varianzas muestrales insesgadas.
El nombre de análisis de varianza (ANOVA) que se da a esta prueba de varias
medias, proviene del hecho de que este método se basa en la comparación de
varianzas estimadas de diversas fuentes.
En este capítulo consideraremos el problema de decidir si las diferencias
observadas entre más de dos medias muestrales se puede atribuir a la casualidad
ó si existen diferencias reales entre las medias de las poblaciones muestreadas.
Por ejemplo podemos desear decidir, con base en datos muestrales, si existen
diferencias:
- En la efectividad de tres métodos de enseñanza de estadística
- En las ventas mensuales promedio de varios agentes de seguros
- En el kilometraje promedio que se obtiene con 4 tipos de gasolina
- En la durabilidad de cinco tipos de alfombras.
El método que presentamos para este fin es una poderosa herramienta estadística
conocida como ANALISIS DE VARIANZA o ANOVA para abreviar.
La técnica conocida como análisis de varianza ( ANOVA) nos permitirá probar la
significación de las diferencias entre más de dos medias muestrales. Usando el
análisis de varianza, seremos capaces de hacer inferencias acerca de si las
muestras fueron tomadas de poblaciones que tienen la misma media.
H0: 1 = 2 = ...... = a
contra la hipótesis alternativa
1
Resulta evidente que la hipótesis nula se cumplirá si las diferencias entre las
medias muestrales fuesen pequeñas y, por el contrario, se cumplirá la hipótesis
alternativa si las diferencias entre las medias muestrales fuesen grandes.
Con el fin de usar el ANOVA, se supone que cada una de las muestras es tomada
de una población normal y que cada una de tales poblaciones tiene la misma
varianza, 2 . Sin embargo, si los tamaños de las muestras son suficientemente
grandes, no es necesaria la suposición de normalidad.
El análisis de varianza está basado en una comparación de dos estimaciones
diferentes de la varianza 2 , de la población total. Luego se comparan estas dos
estimaciones de la varianza de la población, como ambas son estimaciones de
2 , deben tener un valor aproximadamente igual cuando la hipótesis nula es
verdadera. Si la hipótesis nula no es verdadera, estas dos estimaciones diferirán
de manera considerable.
Los datos observados pueden aparecer tal como se muestra en la siguiente tabla.
Una entrada de esta tabla, por ejemplo Yij , representa la j-ésima observación
tomada bajo el tratamiento i .
3
OBSERVACIÓN
TRATAMIENTO 1 2 3 · · · n TOTAL
1 Y11 Y12 Y13 · · · Y1n Y1
2 Y21 Y22 Y23 · · · Y2 n Y2
3 Y31 Y32 Y33 · · · Y3n Y3
· · · · · · ·
· · · · · · ·
· · · · · · ·
a Ya1 Ya 2 Ya 3 · · · Yan Ya
TOTAL Y1 Y2 Y3 · · · Yn Y
Si µi = µ + i, entonces:
En esta forma del modelo, se observa que cada tratamiento define una población
que tiene una media µi, consistente de la media global µ más un efecto i que se
debe al tratamiento.
Como alternativa, los a tratamientos pueden ser una muestra aleatoria de una
población grande de tratamientos. En esta situación, lo que se desea es estar en
posibilidad de extender las conclusiones (las cuales se basan en la muestra de los
tratamientos) a todos los tratamientos contenidos en la población, ya sea que
hayan sido o no considerados en el experimento. En este caso, los efectos de los
tratamientos i son variables aleatorias, y el conocimiento sobre aquellos
investigados tiene relativa poca importancia. En su lugar, se prueban hipótesis
sobre la variabilidad de los i y se hacen intentos por estimar esta variabilidad.
Esto se conoce como modelo de efectos aleatorios o de componentes de
varianza.
MODELO DE EFECTOS FIJOS: En este modelo, los efectos de los tratamientos i,
usualmente se definen como desviaciones de la media global µ de modo que
a
i 0
i 1
n
a n
N N
Total de observaciones: N=an
i 1 j 1 i 1 j 1 N
a
Yi 2 Y2
a
SCTratamientos = n (Y i Y )
2
i 1 i 1 n N
a n
SCError = (Yij Y i )
2
i 1 j 1
SC ( a 1) CM Tratamientos
Tratamientos
F0 = SC ~ F( a 1),a ( n 1)
Error a ( n 1) CM Error
6
FUENTE DE GRADOS DE SUMA DE CUADRADO F0
VARIACIÓN LIBERTAD CUADRADOS MEDIO
Factor SCTratamient os SCTratamient os ( a 1)
a–1 SCTratamientos SC Error a ( n 1)
(entre grupos) ( a 1)
Error (dentro SC Error
a(n – 1) SCError a ( n 1)
de grupos)
Total an – 1) SCTotal
Donde:
ESTIMADORES PUNTUALES:
n
̂ Y Yij ˆi Y i Y
̂i Y i i 1
n
CM Error
i Y i t1 2 , a ( n 1)
ni
1 1
i k Y i Y k t1 2 ,a ( n 1) CM Error
ni nk
OBSERVACIÓN
MATERIA PRIMA
1 2 3 4 5 6 TOTAL
(TRATAMIENTO)
5 7 8 15 11 9 10 60
10 12 17 13 18 19 15 94
15 14 18 19 17 16 18 102
20 19 25 22 23 18 20 127
TOTAL 52 68 69 69 62 63 383
i = 1, 2, ..., 4
Yij i ij j = 1, 2, ..., 6
N = an = 4 6 = 24
a
Y2
n
(383) 2
SCTotal Y
2
= 72 82 .. 202
ij 512.9583
i 1 j 1 N 24
Yi 2
a
Y2 602 942 1022 1272 (383) 2
SCTratamientos = = 382.7917
i 1 n N 6 24
ESTIMADORES PUNTUALES:
ˆ 15.95833 ˆ1 10 ˆ 2 15.6 ˆ 3 17 ˆ 4 21.166
6.51 6.51
3 17 2.086 4 21.166 2.086
6 6
8
INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS DE DOS
TRATAMIENTOS:
1 1
1 2 10 15.6 2.086 6.51
6 6
PRUEBA DE HIPÓTESIS
1. H0: 1 = 2 = 3 = 4 (1= 2 = 3 = 4 = 0)
H1: Al menos dos i son diferentes (i 0)
2. Nivel de significación = 0.01 (1%)
3. Distribución muestral F y estadístico de prueba F0
4. Para = 0.01, una prueba de cola derecha, v1 = a – 1 = 4 – 1 = 3 gl y
v2 = a(n – 1) = 4(6 – 1) = 20 gl, la regla de decisión es:
(a) Aceptar H0 si F0 < +4.9382 (F0 < F1 ,v ,v = +4.9382)
1 2
5. Muestras aleatorias:
FUENTE DE VARIABILIDAD GL SC CM F0
Tratamientos (Concentración) 3 382.7917 127.5972 19.6053
Error 20 130.1666 6.5083
Total 23 512.9583
MINITAB:
OBSERVACIÓN
MÁQUINA
1 2 3 4 5 TOTAL
(TRATAMIENTO)
1 25 30 36 38 31 160
10
2 31 39 38 42 35 185
3 24 30 28 25 28 135
TOTAL 80 99 102 105 94 480
1. H0: 1 = 2 = 3 (1= 2 = 3 = 0)
H1: Al menos dos i son diferentes (i 0)
2. Nivel de significación = 0.01 (1%)
3. Distribución muestral F y estadístico de prueba F0
4. Para = 0.01, una prueba de cola derecha, v1 = a – 1 = 3 – 1 = 2 gl y
v2 = a(n – 1) = 3(5 – 1) = 12 gl, la regla de decisión es:
(a) Aceptar H0 si p-value >
(b) Rechazar H0 si p-value <
5. Muestras aleatorias:
Ejemplo 3.- Tres tipos distintos de motores de gasolina fueron probados para
precisar cuanto tiempo son útiles antes de necesitar una reparación; si los
tiempos de vida de los motores de cada tipo se distribuyen normalmente y tienen
la misma varianza, hacer una prueba usando = 0.05 para hallar si difieren las
medias de vida útil antes de requerir una reparación. En la siguiente tabla
aparecen los tiempos de vida útil, en decenas de miles de kilómetros, para cada
tipo de motor.
OBSERVACIÓN
TIPO DE MOTOR 1 2 3 4 5 TOTAL
11
(TRATAMIENTO)
A 6 2 4 1 7 20
B 8 7 7 2 6 30
C 3 2 5 4 1 15
TOTAL 17 11 16 7 14 65
1. H0: 1 = 2 = 3 (1= 2 = 3 = 0)
H1: Al menos dos i son diferentes (i 0)
2. Nivel de significación = 0.05 (5%)
3. Distribución muestral F y estadístico de prueba F0
4. Para = 0.05, una prueba de cola derecha, v1 = a – 1 = 3 – 1 = 2 gl y
v2 = a(n – 1) = 3(5 – 1) = 12 gl, la regla de decisión es:
(a) Aceptar H0 si p-value >
(b) Rechazar H0 si p-value <
5. Muestras aleatorias:
One-way ANOVA: vidautil versus motor
Analysis of Variance for vidautil
Source DF SS MS F P
motor 2 23.33 11.67 2.41 0.132
Error 12 58.00 4.83
Total 14 81.33
Individual 95% CIs For Mean
Based on Pooled StDev
Level N Mean StDev ------+---------+---------+---------+
A 5 4.000 2.550 (----------*----------)
B 5 6.000 2.345 (----------*----------)
C 5 3.000 1.581 (----------*----------)
------+---------+---------+---------+
Pooled StDev = 2.198 2.0 4.0 6.0 8.0
OBSERVACIÓN
PASTA DENTAL 1 2 3 4 5 TOTAL
12
(TRATAMIENTO)
R 19 15 22 17 19 92
S 20 25 22 19 23 109
T 18 12 16 17 15 78
TOTAL 57 52 60 53 57 279
1. H0: 1 = 2 = 3 (1= 2 = 3 = 0)
H1: Al menos dos i son diferentes (i 0)
2. Nivel de significación = 0.01 (1%)
3. Distribución muestral F y estadístico de prueba F0
4. Para = 0.01, una prueba de cola derecha, v1 = a – 1 = 3 – 1 = 2 gl y
v2 = a(n – 1) = 3(5 – 1) = 12 gl, la regla de decisión es:
(a) Aceptar H0 si p-value >
(b) Rechazar H0 si p-value <
5. Muestras aleatorias:
One-way ANOVA: caries versus pasta
Analysis of Variance for caries
Source DF SS MS F P
pasta 2 96.40 48.20 8.12 0.006
Error 12 71.20 5.93
Total 14 167.60
Individual 95% CIs For Mean
Based on Pooled StDev
Level N Mean StDev ------+---------+---------+---------+
R 5 18.400 2.608 (-------*-------)
S 5 21.800 2.387 (-------*-------)
T 5 15.600 2.302 (-------*-------)
------+---------+---------+---------+
Pooled StDev = 2.436 15.0 18.0 21.0 24.0
Utilizar un nivel de significación de 0.05 para probar si las diferencias entre las
medias de las tres muestras son significativas.
13
1. H0: 1 = 2 = 3 (1= 2 = ... = 3 = 0)
H1: Al menos dos i son diferentes (i 0)
2. Nivel de significación = 0.05 (5%)
3. Distribución muestral F y estadístico de prueba F0
4. Para = 0.05, una prueba de cola derecha, v1 = a – 1 = 3 – 1 = 2 gl y
v2 = a(n – 1) = 3(6 – 1) = 15 gl, la regla de decisión es:
(a) Aceptar H0 si p-value >
(b) Rechazar H0 si p-value <
5. Muestras aleatorias:
One-way ANOVA: metano versus mina
Analysis of Variance for metano
Source DF SS MS F P
mina 2 6.50 3.25 0.84 0.451
Error 15 58.00 3.87
Total 17 64.50
Individual 95% CIs For Mean
Based on Pooled StDev
Level N Mean StDev ------+---------+---------+---------+
1 6 3.683 2.733 (-----------*----------)
2 6 2.400 1.540 (----------*----------)
3 6 2.417 1.326 (----------*-----------)
------+---------+---------+---------+
Pooled StDev = 1.966 1.5 3.0 4.5 6.0
Ejemplo 6.- Se seleccionan al azar muestras de cinco madejas de hilo para tejer
del mismo tipo y peso de tres fabricantes y la longitud de cada madeja se mide
en metros.
MARCA A 511 486 510 512 486
MARCA B 490 520 484 496 485
MARCA C 478 513 503 505 516
14
1. H0: 1 = 2 = 3 (1= 2 = 3 = 0)
H1: Al menos dos i son diferentes (i 0)
2. Nivel de significación = 0.05 (5%)
3. Distribución muestral F y estadístico de prueba F0
4. Para = 0.05, una prueba de cola derecha, v1 = a – 1 = 3 – 1 = 2 gl y
v2 = a(n – 1) = 3(6 – 1) = 15 gl, la regla de decisión es:
(a) Aceptar H0 si p-value >
(b) Rechazar H0 si p-value <
5. Muestras aleatorias:
One-way ANOVA: longitud versus marca
Analysis of Variance for longitud
Source DF SS MS F P
marca 2 173 87 0.41 0.671
Error 12 2522 210
Total 14 2695
Individual 95% CIs For Mean
Based on Pooled StDev
Level N Mean StDev ----------+---------+---------+------
A 5 501.00 13.71 (-------------*-------------)
B 5 495.00 14.76 (-------------*-------------)
C 5 503.00 14.98 (-------------*-------------)
----------+---------+---------+------
Pooled StDev = 14.50 490 500 510
15