ANOVA
ANOVA
ANOVA
Experimento Factorial
En general, un experimento factorial implica varias variables.
Una de éstas es la variable respuesta, que en ocasiones se llama variable de salida o variable
dependiente.
La pregunta indicada por un experimento factorial es si la variación de los niveles de los factores produce
una diferencia en la media de la variable respuesta.
En el experimento descrito en la tabla , la dureza es la respuesta, y hay un factor: tipo de flujo.
Hay cuatro valores diferentes para el factor tipo de flujo en este experimento.
Hay cuatro valores diferentes para el factor tipo de flujo en este experimento.
La determinación formal respecto a si las medias del tratamiento son diferentes requiere una
prueba de hipótesis. Se inicia introduciendo la notación. Se tienen I muestras, cada una proveniente
de un tratamiento diferente. Las medias del tratamiento se denotan por
No es necesario que los tamaños de muestra sean iguales, aunque es deseable, como se analizará
posteriormente en esta sección. Los tamaños de muestra se denotan por
Si había solamente dos muestras, se podría utilizar la prueba t de dos muestras para probar la hipótesis nula.
Debido a que hay más de dos muestras, se utiliza un método conocido como análisis de varianza de un sentido
(ANOVA, por sus siglas en inglés).
Para definir el estadístico de prueba de un ANOVA, primero se desarrolla la notación para las observaciones
muestrales. Debido a que hay varias muestras, se usa un subíndice doble para denotar las observaciones.
Específicamente, sea Xij la j-ésima observación en la i-ésima muestra.
La cantidad X–3. es la media muestral de la tercera muestra. Este valor es X–3. =271.0
La SSTr indica cómo son diferentes las medias del tratamiento entre sí.
Si la SSTr es grande, entonces las medias muestrales están muy dispersas, y es razonable concluir que las medias
del tratamiento son diferentes y se rechaza H0.
Para determinar si la SSTr es suficientemente grande para rechazar H0, se compara con otra suma de cuadrados,
que se llama suma de los cuadrados del error (SSE, por sus siglas en inglés).
Las cantidades Xij X–i. se llaman residuos, por lo que la SSE representa la suma de los cuadrados
de los residuos
EJ: Para los datos en la tabla , calcule la SSTr y la SSE.
Supuestos para el ANOVA de un sentido
Las pruebas de hipótesis usuales del ANOVA de un sentido son válidas en las condiciones
siguientes:
Es razonable concluir que las medias poblacionales no son todas iguales, y, por consiguiente, la
composición del flujo afecta la dureza.
Anova en R
Datos: El archivo Diet.csv contiene información de 78 persona que se sometieron a tres
dietas diferentes. Contiene variables como la edad, genero (Female=0, Male=1) y estatura. El
objetivo del studio es conocer la major dieta para perder peso. Por lo atanto, la variable
independiente es la dieta.
dietR<-read.csv("D:\\diet.csv",header=T,sep=",")
attach(dietR)
Diet<-as.factor(Diet)
gender<-factor(gender,c(0,1),labels=c('Female','Male'))
dietR$weightlost<-pre.weight-weight6weeks
attach(dietR)
Antes de hacer el análisis, reumimos la Perdida de peso por dieta usando graficas y estadisticos.
Calculamos las medias y desviaciones standard para la Perdida de peso por dieta usando
tapply(dependent, independent, summary statistic required, na.rm=T)
mean<-tapply(weightlost,Diet,mean,na.rm=T)
sd<-tapply(weightlost,Diet,sd,na.rm=T)
results1<-cbind(mean,sd)
rownames(results1)<-paste("Diet",1:3,sep=" ")
round(results1,2)
anovaD<-aov(weightlost~Diet)
summary(anovaD)
Podemos reporter que existe una diferencia significativa entre la media del peso
perdido [F(2,75)=6.197, p = 0.003] entre las dietas.
En un ANOVA de un sentido se utiliza una prueba F para probar la hipótesis nula de que todas las medias de
tratamiento son iguales.
Si ésta es rechazada se puede concluir que las medias de tratamiento no son todas iguales.
Otras veces, un experimentador tal vez desee determinar todos los pares de medias que se pueda
concluir que difieren de otro.
En este caso se debe utilizar otro tipo de procedimiento que se llama método de comparaciones
múltiples.
cuando el diseño es balanceado, con todos los tamaños de muestra iguales a J, la cantidad
es igual a
Es el método de Tukey.
Para los datos de la tabla ¿cuáles pares de flujos, si hay, se puede concluir, con un nivel de 5%, que difieren en
su efecto en la dureza?
Hay I = 4 niveles, con J = 5 observaciones en cada nivel, para un total de N =20 observaciones
en total.
Hay solamente un par de medias muestrales, 271.0 y 253.8, cuya diferencia es mayor a 14.49.
Por tanto, se concluye que las soldaduras producidas con el flujo A tienen una media de dureza
diferente que las soldaduras producidas con el flujo C.
TukeyHSD(anovaD)
Los resultados indicant que existe diferencia significativa entre la dieta 3 y la dieta 1 (p = 0.02) y
entre la dieta 3 y 2 (p=0.004).
La diferencia entre cada par indica por ejemplo que las personas con dieta 3 perdieron en promedio
1.85 kg más que las sometidas a la dieta 1.