Diapositivas Anova
Diapositivas Anova
Diapositivas Anova
=
1
en donde:
MSTR: cuadrado medio entre tratamientos.
MSE : cuadrado medio debido al error. Tambin se denomina cuadrado
medio dentro de tratamiento.
SST : suma de cuadrados de tratamiento.
Se obtiene mediante la siguiente frmula:
=
N
X
n
T
SST
c
c
2
2
) (
en donde:
2
c
T : indica elevar al cuadrado el total de cada columna
(el subndice c se refiere a la columna)
c
n : es el nmero de observaciones para cada
tratamiento respectivo (columna). Hay cinco cifras de
ventas para el Sr. Quiroz, cinco para el Sr. Huarote y
cinco para el Sr. Martnez.
+ + =
(
=
N
X
n
T
SST
c
c
Clculo de SSE
122 605 , 2 727 , 2
2
2
= =
(
=
c
c
n
T
X SSE
La variacin total (Total SS) es la suma de la variacin entre columnas y entre renglones; es decir,
Total SS = SST + SSE = 70 + 122 = 192.
Verificacin
192 535 , 2 727 , 2
15
) 195 (
727 , 2
) (
2
2
2
= = = =
N
X
X SS Total
Las tres sumas de cuadrados y los clculos necesarios para determinar F, se presentan en el
siguiente cuadro:
Fuente de Suma de Grados de Cuadrados
variacin cuadrados libertad medios
Entre tratamientos SST= 70 k 1=3-1=2 70/2=35 = MSTR
Error (en los tratamientos) SSE=122 N k=15-3=12 122/12 =10.17= MSE
Total SS Total SS=192
Clculo de F
44 . 3
17 . 10
35
1
= = =
=
MSE
MSTR
k N
SSE
k
SST
F
La regla de decisin indica que si el valor calculado de F es
menor que o igual al valor crtico de 3.89, la hiptesis nula
se acepta. Si el valor de F es mayor que 3.89, la hiptesis
nula se rechaza y la hiptesis alternativa se acepta. Puesto
que 3.44 < 3.89, la hiptesis nula se acepta al nivel 0.05. En
otras palabras, las diferencias en las ventas medias
mensuales ($11,000, $12,000 y $16,000) se atribuyen al azar
(muestreo). Desde el punto de vista prctico, los niveles de
ventas de los tres vendedores que se consideran para el
puesto de gerente de almacn son iguales. No puede tomarse
una decisin respecto al puesto, con base en las ventas
mensuales
Ejemplo
Un profesor pidi a los estudiantes de un grupo grande del curso de
estadstica que evaluara su desempeo en el curso como 1 (excelente),
2 (bueno), 3 (aceptable) o 4 (deficiente). Un ayudante del profesor
recolect las evaluaciones y asegur a los estudiantes que el profesor
no las recibira hasta despus que las calificaciones del curso se
hubieran ingresado en la Direccin Acadmica. La evaluacin (el
tratamiento) que un estudiante asign al profesor se compar con su
calificacin final del curso. Lgicamente, se esperara que en general, el
grupo de estudiantes que pens que el profesor era excelente tuvieran
una calificacin promedio final del curso significativamente ms alta que
los alumnos que lo evaluaron como bueno, aceptable o regular, o
deficiente. Tambin se esperara que los alumnos que lo evaluaron
como deficiente tuvieran las calificaciones promedio ms bajas.
Se seleccionaron muestras de cada grupo de evaluacin. Los resultados son:
Excelente Bueno Regular Deficiente
94 75 70 68
90 68 73 70
85 77 76 72
80 83 78 65
88 80 74
68 65
65
La pregunta es si existe o no una diferencia estadstica entre la puntuacin media de los
cuatro grupos.
Se seleccion el nivel de significacin 0.01.
La regla de decisin es que la hiptesis nula, que plantea que no
hay diferencia entre las medias, no se rechazar si el valor
calculado de F es menor que el valor crtico. De otra manera, la
hiptesis nula se rechazar y se aceptar la hiptesis alternativa.
Recurdese que los grados de libertad en el numerador de la
razn F se obtienen por k 1, donde k es el nmero de
tratamientos (grupos de evaluacin del profesor). Hay cuatro
tratamientos, de manera que 4 1 = 3 g.l. Los grados de libertad
en el denominador son en total 18, que se obtienen mediante N
k, en donde N es el nmero total de estudiantes en la muestra.
Hay 22 estudiantes, por lo que 22 4 = 18 g.l.
Obsrvese que el valor crtico de F es 5.09, de acuerdo al
valor indicado en la tabla correspondiente. La regla de decisin
ser: acepte la hiptesis nula al nivel 0.01 si el valor calculado de
F es menor que o igual a 5.09, y rechace la hiptesis nula si el
valor calculado es mayor que 5.09.
Los clculos necesarios para determinar la razn F se muestran en la siguiente tabla:
Excelente Bueno Aceptable Deficiente
1
X
2
1
X
2
X
2
2
X
3
X
2
3
X
4
X
2
4
X
94 8836 75 5625 70 4900 68 4624
90 8100 68 4624 73 5329 70 4900
85 7225 77 5929 76 5776 72 5184
80 6400 83 6889 78 6084 65 4225
88 7744 80 6400 74 5476
68 4624 65 4225
65 4225
c
T
349 391 510 414
c
n
4 5 7 6
2
X
30561 30811 37338 28634
Ntese que la suma de los totales por columna
) (
i
x es 1 664; el total de los tamaos de
muestras (N) es 22; y la suma de los cuadrados 127344.
Calculando SST, SSE y total SS, se obtiene:
68 . 890
22
) 1664 (
6
) 414 (
7
) 510 (
5
) 391 (
4
) 349 (
) (
2 2 2 2 2
2
2
=
(
+ + + =
(
=
N
X
n
T
SST
c
c
41 . 594 59 . 126749 127344
2
2
= =
(
=
c
c
n
T
X SSE
Total SS = SST + SSE = 890.68 + 594.41 = 1485.09
Como verificacin:
09 . 1485 9 . 125858 127344
22
) 1664 (
127344
) (
2
2
2
= = = =
N
X
X SS Total
Estos valores se colocan en la tabla ANOVA:
Fuente de Suma de Grados de Cuadrados
variacin cuadrados libertad medios
Tratamiento (entre columnas) SST= 890.68 k 1=4-1=3 890.68/3=296.89 MSTR
Error (entre renglones) SSE=594.41 N k=22-4=18 594.41/18 =33.02= MSE
Total SS Total SS=1485.09
Introduciendo los cuadrados medios en la frmula de F, se obtiene:
99 . 8
02 . 33
89 . 296
= = =
MSE
MSTR
F
La decisin: como el valor calculado de F de 8.99 es
mayor que el valor crtico de 5.09, la hiptesis nula de
que no existe diferencia entre las medias se rechaza al
nivel 0.01. Bsicamente esto indica que es muy
probable que las diferencias observadas entre las
medias no se deban al azar. Desde el punto de vista
prctica, se sugiere que las calificaciones que
obtuvieron los estudiantes en un curso estn
relacionadas con las opiniones que tienen de la
capacidad general y la forma como se conduce en clase
el profesor.
Inferencias acerca de las medias de
tratamiento
Supngase que al aplicar el procedimiento ANOVA,
se decide rechazar la hiptesis nula. Esto permite concluir
que todas las medias de tratamiento no son iguales. Algunas
veces esta conclusin puede considerarse satisfactoria, pero
en otros casos se desea saber cules medias de tratamiento
son diferentes.
En este ejemplo, la hiptesis nula se rechaz y la
alternativa se acept. Si las opiniones de los estudiantes
son en realidad diferentes, la pregunta es: Entre qu
grupos difieren las medias de tratamiento?
Existen varios procedimientos para responder esta
pregunta. Tal vez el ms sencillo es mediante el uso de
niveles de confianza.
La distribucin t se utiliza como base para esta
prueba. Recurdese que una suposicin bsica
de ANOVA es que las varianzas poblacionales
son iguales para todos los tratamientos. Como
se observ, este valor poblacional comn se
denomina error cuadrado medio (MSE) que
se obtiene mediante SSE/(N-k).
Un intervalo de confianza para la diferencia entre dos medias poblacionales
se logra mediante:
|
|
.
|
\
|
+
2 1
2 1
1 1
) (
n n
MSE t x x
1
x : es la media del primer tratamiento.
2
x : es la media del segundo tratamiento
t : se obtiene a partir del la tabla t. Los grados de libertad son N k.
MSE : es el error cuadrado medio que se obtiene a partir de la tabla
ANOVA.
1
n : es el nmero de observaciones en el primer tratamiento.
2
n : es el nmero de observaciones en el segundo tratamiento.
Si el intervalo de confianza incluye al 0, se
concluye que no hay diferencia en el par de medias de
tratamiento. Sin embargo, si ambos extremos del intervalo
de confianza tienen el mismo signo, esto indica que las
medias de tratamiento son diferentes.
Utilizando el ejemplo anterior acerca de las
opiniones de estudiantes y el nivel de confianza de 0.95,
los extremos del intervalo de confianza son 10.46 y 26.04,
que se obtienen por:
04 . 26 46 . 10
79 . 7 25 . 18
6
1
4
1
0 . 33 101 . 2 ) 00 . 69 25 . 87 (
1 1
) (
2 1
2 1
y
n n
MSE t x x
|
.
|
\
|
+
|
|
.
|
\
|
+
Se conoce que el intervalo de confianza de 95% vara de 10.46 hasta 26.04. Ambos extremos
son positivos; en consecuencia, podemos concluir que estas medias de tratamiento difieren
significativamente. Es decir, los estudiantes que evaluaron al profesor como excelente tienen
calificaciones ms altas que los que lo evaluaron como malo.
Precaucin
La investigacin de diferencias de medias
de tratamiento es un proceso secuencial. El
paso inicial es realizar la prueba ANOVA.
Slo si se rechaza, la hiptesis nula de que
la medias de tratamiento son iguales, debe
intentarse llevar a cabo cualquier anlisis
de las medias de tratamiento
ANOVA en dos sentidos
Una compaa de autobuses, est ampliando el
servicio desde el centro de Lima al Aeropuerto por cuatro
rutas diferentes. La Empresa realiz recorridos de prueba
para determinar si hay diferencia significativa en los tiempos
medios del trayecto en las cuatro rutas. Los tiempos del
trayecto en minutos en cada una de las cuatro rutas se
muestran a continuacin:
Tiempo del recorrido del Centro al Aeropuerto
Da Ruta 1 Ruta 2 Ruta 3 Ruta 4
Lunes 18 20 20 22
Martes 21 22 24 24
Mircoles 20 23 25 23
Jueves 25 21 28 25
Viernes 26 24 28 25
Al nivel de significancia 0.05, puede concluirse que hay diferencia en las cuatro rutas?
Existe una diferencia dependiendo de qu da de la semana se trata?
En este caso, el da de la semana se denomina variable de bloque. En consecuencia, se tiene
variacin debida al tratamiento y debida a los bloques. La suma de cuadrados debida a los bloques
(SSB) se calcula como sigue:
N
x
k
B
SSB
r
2
2
) (
=
en donde B
r
se refiere al total del bloque, es decir, al total de cada rengln, y k es el nmero de
elementos en cada bloque.
El mismo formato que sirve para el caso de ANOVA en un sentido se utiliza para la tabla
ANOVA en dos sentidos. Los totales de SST y SS se calculan igual que antes. SSE se obtiene por
sustraccin (SSE = Total SS SST SSB). En la siguiente tabla se muestran los clculos necesarios:
Tiempo de viaje, por ruta (minutos)
Da Ruta 1 Ruta 2 Ruta 3 Ruta 4
Suma de
renglones B
r
Lunes 18 20 20 22 80
Martes 21 22 24 24 91
Mircoles 20 23 25 23 91
Jueves 25 21 28 25 99
Viernes 26 24 28 25 103 Totales
Totales por
columna, T
c
110 110 125 119 464
Suma de
cuadrados 2446 2430 3169 2839 10904
Tamao de la
muestra n
c
5 5 5 5 20
Anlogo a la tabla ANOVA para un anlisis en un sentido, el formato general en dos sentidos
es:
Fuente de variacin Suma de cuadrados Grados libertad Cuadrado medio
Tratamientos
SST
k - 1
MSTR
k
SST
=
1
Bloque
SSB
n -1
MSB
n
SSB
=
1
Error
SSE
(k-1)(n-1)
MSE
n k
SSE
=
) 1 )( 1 (
Total Total SS
Como antes, para calcular SST:
4 . 32
20
) 464 (
5
) 119 (
5
) 125 (
5
) 110 (
5
) 110 (
) (
2 2 2 2 2
2
2
=
(
+ + + =
(
=
N
X
n
T
SST
c
c
SSB se obtiene mediante:
2 . 78
20
) 464 (
4
) 103 (
4
) 99 (
4
) 91 (
4
) 91 (
4
) 80 (
) (
2 2 2 2 2 2
2
2
= + + + + =
(
N
x
k
B
SSB
r
Los dems trminos de suma de cuadrados son:
2 . 139
20
) 464 (
10904
) (
2
2
2
= = =
N
X
X SS Total
SSE = Total SS SST SSB=139.2 32.4 78.2 = 28.6
Los valores para los diferentes componentes de la tabla ANOVA se calculan de la siguiente manera:
Fuente de variacin Suma de cuadrados Grados libertad Cuadrado medio
Tratamientos
32.4
3
8 . 10
3
4 . 32
=
Bloque
78.2
4
55 . 19
4
2 . 78
=
Error
28.6
12
38 . 2
12
6 . 28
=
Total 139.0
1.-
4 3 2 1 0
: = = = H
. Las medias de tratamiento son iguales.
:
1
H Las medias de tratamiento no son iguales.
2.-
5 4 3 2 1 0
: = = = = H
. Las medias de bloques son iguales.
1
H : Las medias de bloques no son iguales.
Primero se demostrar la hiptesis sobre las medias de tratamiento. Hay k 1 = 4 1 = 3 grados de
libertad en el numerador y (k 1) (n 1) = (4 1) (5 1) = 12 grados de libertad en el
denominador. Al nivel de significancia 0.05, el valor crtico de F es 3.49. La hiptesis nula de que
los tiempos medios para las cuatro rutas son iguales se rechaza si la razn F es mayor que 3.49.
54 . 4
38 . 2
8 . 10
= = =
MSE
MSTR
F
La hiptesis nula se rechaza y se acepta la hiptesis alternativa. Se concluye que el tiempo
promedio de trayecto no es igual para todas las rutas. La empresa desea efectuar algunas pruebas
para determinar qu medias de tratamiento difieren.
A continuacin, se hace una prueba para determinar si el tiempo del trayecto es igual para
diferentes das de la semana. Los grados de libertad en el numerador para bloques es n 1 = 5 1 =
4. Los grados de libertad en el denominador son igual que antes, es decir, 12. La hiptesis nula de
que las medias de bloques son iguales se rechaza si la razn F es mayor que 3.26.
21 . 8
38 . 2
55 . 19
= = =
MSE
MSB
F
La hiptesis nula se rechaza, y la hiptesis alternativa se acepta. El tiempo promedio del
trayecto no es igual para los diferentes das de la semana.
En MINITAB los resultados son los siguientes:
Two-way Analysis of Variance
Analysis of Variance for Tiempos
Source DF SS MS F P
rutas 3 32.40 10.80 4.53 0.024
dias 4 78.20 19.55 8.20 0.002
Error 12 28.60 2.38
Total 19 139.20
Individual 95% CI
rutas Mean ----+---------+---------+---------+-------
1 22.00 (---------*---------)
2 22.00 (---------*---------)
3 25.00 (---------*---------)
4 23.80 (---------*---------)
----+---------+---------+---------+-------
21.00 22.50 24.00 25.50
Individual 95% CI
dias Mean -------+---------+---------+---------+----
1 20.00 (------*------)
2 22.75 (------*------)
3 22.75 (------*------)
4 24.75 (------*------)
5 25.75 (------*------)
-------+---------+---------+---------+----
20.00 22.50 25.00 27.50
Estadstica para Administracin y Economa, Mason y Lind