(Anova) 2
(Anova) 2
(Anova) 2
ANOVA
Análisis de la Varianza
EAAA 1
Comprender la noción general del análisis de
variancia (ANOVA).
Realizar una prueba de hipótesis para determinar
si dos variancias muestrales provienen de las
mismas poblaciones o de poblaciones iguales.
Establecer y organizar datos en una tabla de
ANOVA.
Realizar una prueba para determinar si existe
diferencia entre tres o más medias de tratamiento.
Realizar una prueba de hipótesis para determinar
si hay alguna diferencia entre medias de bloques.
EAAA 2
EXPERIMENTOS FACTORIALES
EAAA 3
ANÁLISIS DE LA VARIANZA (ANOVA)
EAAA 4
Aplicación:
-Para la comparación de múltiples columnas de datos
EAAA 5
EAAA 6
Comparación de múltiples poblaciones
La comparación de diversos conjuntos de resultados es habitual en los:
Laboratorios analíticos. Así, por ejemplo, puede interesar comparar diversos métodos de
análisis con diferentes características, diversos analistas entre sí, o una serie de
laboratorios que analizan una misma muestra con el mismo método (ensayos
colaborativos).
También sería el caso cuando queremos analizar una muestra que ha estado sometida a
diferentes tratamientos o ha estado almacenada en diferentes condiciones. En todos
estos ejemplos hay dos posibles fuentes de variación: una es el error aleatorio en la
medida y la otra es lo que se denomina factor controlado (tipo de método, diferentes
condiciones, analista o laboratorio,...).
EAAA 7
Cuando tengamos un factor, controlado o aleatorio, aparte del error propio de
la medida, hablaremos del ANOVA de un factor.
En los casos donde tenemos dos o más factores que influyen, se realizan los
experimentos para todas las combinaciones de los factores estudiados,
seguido del ANOVA. Se puede deducir entonces si cada uno de los factores o
una interacción entre ellos tienen influencia significativa en el resultado.
EAAA 8
Para utilizar el ANOVA de forma satisfactoria deben
cumplirse tres tipos de hipótesis, aunque se aceptan ligeras
desviaciones de las condiciones ideales:
EAAA 9
EAAA 10
El análisis de la varianza (ANOVA) de un conjunto de muestras
consiste en contrastar:
Contra
EAAA 11
ANOVA de un factor
El objetivo del ANOVA aquí es comparar los errores sistemáticos con los
aleatorios obtenidos al realizar diversos análisis en cada laboratorio.
EAAA 12
RESULTAD LABORAT LABORAT LABORAT LABORAT LABORAT
OS 1 2 3 4 5
1 2.3 6.5 1.7 2.1 8.5
2 4.1 4.0 2.7 3.8 5.5
3 4.9 4.2 4.1 4.8 6.1
4 2.5 6.3 1.6 2.8 8.2
5 3.1 4.4 4.1 4.8 --
6 3.7 -- 2.8 3.7 --
7 -- -- -- 4.2 --
VALOR 3.4 5.1 2.8 3.7 7.1
MEDIO x
n 6 5 6 7 4
k
suma 20.6 25.4 17.0 26.2 28.3
Aritmetica De todos Resultados X= 4.2
Media los X 13
EAAA
Observando los valores medios todo parece indicar que existen
diferencias entre los laboratorios. Ahora bien, ¿son dichas diferencias
significativas? El ANOVA responde a esta cuestión.
Ho : 1 2 3 ......... a
Ha : A lg unas. ' s.son.diferentes
EAAA 15
CONDICIONES
EAAA 16
ANOVA – Suma de cuadrados total
SStotal x
x 2
2
EAAA
17
suma de los cuadrados de los tratamientos
x
2
T 2
SCTr r
nr n
EAAA 18
SUMA DE LOS CUADRADOS DEL ERROR SSE
Cuando se divide SSE por los correspondientes grados de libertad, (N - K), se obtiene el
cuadrado medio "dentro de los laboratorios", MSE.MSE = SSE/(N – K)
EAAA 19
PROCEDIMIENTO DE ANOVA
Paso 1: Plantear (H0) y la (H1)
H0 expresa que no hay diferencias significativas entre las
ventas medias de los tres vendedores; es decir,
Ho : 1 2 3 ......... a
Ha : A lg unas. ' s.son.diferentes
EAAA 20
Fuente Suma de Grados Cuadrado Fcal p
cuadrado de medio
s libertad
Entre 53.13 4 13.28 10.30 0.3
laboratori
o
Dentro 29.64 23 1.29
de los
laboratori
o
Total 82.77 27 Ftab = 2.80 (a = 0.05, 4, 23, 1 cola)
Como Fcal > Ftab, en este caso se podría concluir que al menos uno de los
.
laboratorios ha producido resultados la media de los cuales difiere de forma
estadísticamente significativa del resto de laboratorios. El valor de
probabilidad que aparece en la Tabla 3 indica aquel valor de alfa a partir del
cual el ANOVA no detectaría ninguna diferencia significativa. Así pues, a menor
valor de probabilidad, mayor seguridad de que existen diferencias
significativas.
EAAA 21
Ejemplo : Se quiere evaluar la eficacia de distintas dosis de un fármaco
contra la hipertensión arterial, comparándola con la de una dieta sin sal.
Para ello se seleccionan al azar 25 hipertensos y se distribuyen
aleatóriamente en 5 grupos. Al primero de ellos no se le suministra ningún
tratamiento, al segundo una dieta con un contenido pobre en sal, al tercero
una dieta sin sal, al cuarto el fármaco a una dosis determinada y al quinto
el mismo fármaco a otra dosis. Las presiones arteriales sistólicas de los 25
sujetos al finalizar los tratamientos son:
Grupo
1 2 3 4 5
EAAA 22
La tabla de anova es:
Fuente de variación GL SS MS F
Tratamiento 4 2010.64 502.66 11.24
Error 20 894.40 44.72
Total 24 2905.04
Como
ComoF0,05(4,20) =2,87 y y11,24>2,87
F0,05(4,20) =2,87 11,24>2,87 rechazamos
rechazamos la hipótesis
la hipótesis nula ynula y
concluimos
concluimosqueque
loslos
resultados de los
resultados detratamientos son diferentes.
los tratamientos son diferentes.
EAAA 23
Un fabricante de papel para hacer bolsas para comestibles, se encuentra interesado en
mejorarla resistencia a la tensión del producto. El departamento de ingeniería del producto
piensa que la resistencia a la tensión es una función de la concentración de madera dura en
la pulpa y que el rango de las concentraciones de madera dura de interés práctico está entre
5% y 20%. El equipo de ingenieros responsable del estudio decide investigar cuatro niveles
de concentración de madera dura: 5%, 10%, 15% y 20%. Deciden hacer seis ejemplares de
prueba con cada nivel de concentración, utilizando una planta piloto. Las 24 muestras se
prueban, en orden aleatorio, con una máquina de laboratorio para probar la resistencia. En la
tabla 12-1 se muestran los datos de este experimento.
EAAA 24
a ) Diagramas de caja de los datos de la concentración de madera dura,
b) Gráfica del modelo de la ecuación 12-1 para el experimento completamente autorizado con
un solo factor.
EAAA 25
HIPOTESIS NULA
Puede usarse el análisis de varianza para probar la hipótesis de que diferentes
concentraciones de madera dura no afectan la resistencia a la tensión media del papel.
Las hipótesis son;
Las formulas para calcular las sumas de cuadrados para el análisis de varianza con
tamaños de las muestras n1 diferentes en cada tratamiento son:
Solución a a
y2
SS T = yij2 −
N
i=j i=j
a
yi2 yi2
SS Tratamient os = −
n1 N
i=j
EAAA 26
EAAA 27
Tabla 12-4 Análisis de varianza para los datos de la resistencia a la tensión
Puesto que el valor P = 3.59 x 10-6 es considerablemente más pequeño que α = 0.01,
se cuenta con evidencia sólida para concluir que Ho no es verdadera.
EAAA 28
Un intervalo de confianza del 100(1 - a) por ciento para la media del tratamiento , p es:
EAAA 29
Un intervalo de confianza del 100(1 - a) por ciento para la diferencia de las medias
de dos tratamientos i, - i, es:
Un intervalo de confianza de 95% para la diferencia de las medias 3, - 2, se calcula con
la ecuación 12-13 como sigue:
EAAA 31
Análisis de residuales y verificación del modelo
En el análisis de varianza del modelo simple o de un solo factor, se supone que las
observaciones siguen una distribución normal e independiente con la misma
varianza para cada tratamiento o nivel del factor.
EAAA 32
En la tabla 12-6 se muestran los residuales para el experimento del porcentaje de madera dura. Al
utilizar yj. para calcular cada residual en esencia, se elimina el efecto de la concentración de
madera dura de esos datos; por consiguiente, los residuales contienen información acerca de la
variabilidad no explicada.
Concentración
de madera dura Residuales
5% -3.00 -2.00 5.00 1.00 -1.00 0.00
10% -3.67 1.33 -2.67 2.33 3.33 -0.67
15% -3.00 1.00 2.00 0.00 -1.00 1.00
20% -2.17 3.83 0.83 1.83 -3.17 -1.17
Tabla 1
EAAA 35
El modelo para esta estimación se puede considerar como sigue. Hay 6
observaciones que se toman cada una de las cinco poblaciones con medias
m1, m2,..m5 respectivamente y deseamos probar
H0 : m1 = m2 = m3 = m4 = m5
EAAA 36
Formulas para el cálculo de sumas de cuadrados.
A continuación presentamos un conjunto de formulas mas simples para calcular la suma de cuadra
2
k
n
yij
SST yij2
k n
i 1 j 1
i 1 j 1 nk
2
k n
yij
SSA n yi
k
2 i 1 j 1
i 1 nk
SSE SST SSA
EAAA 37
ANALISIS DE VARIANZA DE DOS VÍAS o
DIRECCIONES (ANOVA 2 VIAS)
1. Introducción En este caso las fórmulas son parecidas a la del ANOVA de una
vía pero ahora agregando el cálculo por renglones adicional al de columnas
donde se incluye la variable de bloqueo.
EAAA 38
LAS HIPÓTESIS SON:
EAAA 39
La SSTotales y SSTr (columnas)se determina
de la misma forma que para la ANOVA de una
dirección o factor
EAAA 40
B x
2
2
SSBi
i
ni n
gl.SSBi b 1
MSB SSB /(b 1
EAAA 41
SSE SST SSTr SSBi
gl.MSE (n k )( n b)
MSE MSBi /( n k )( n b)
EAAA 42
MSTr
Fc
MSE
MSBi
Fc
MSE
EAAA 43
FUENTE DE VARIACIÓN SUMA DE GRADOS DE CUADRADO VALOR F
CUADRADOS LIBERTAD MEDIO
Regla: No rechazar si la F de la muestra es menor que la F de Excel para una cierta alfa
EAAA 44
Tabla de Análisis de varianza para dos criterios de
clasificación
EAAA 45
Si Fc (Tr o Bi) es mayor que F del nivel de
confianza se rechaza Ho Aceptando Ha donde
las medias son diferentes
EAAA 46
Un químico desea probar el efecto que tienen cuatro agentes químicos sobre la
resistencia de un tipo particular de tela. Como puede existir variación entre un rollo de
tela y otro, decide utilizar un diseño aleatorizado por bloques, considerando los rollos de
telas como bloques. El químico dispone de cinco rollos y les aplica los cuatro agentes
químicos a sendas porciones de cada rollo, en un orden aleatorio. A continuación se
proporcionan los resultados de la resistencia a la tensión:
Rollos de Tela
Agente Químico 1 2 3 4 5
1 64 68 67 67 67
2 73 67 75 72 70
3 75 78 68 73 68
4 73 71 75 75 69
EAAA 47
Las hipótesis son:
i
y 2
y2 (333) 2 (352) 2 (362) 2 (363) 2 (1410) 2
SC A i 1
= 116,20
ni n 5 20
k
j
y 2
y2 (285) (284) (280) (287) (274) (1410)
2 2 2 2 2 2
SC B i 1
= 26,50
k n 5 20
donde n = ni
k ni2 2
y (1410 )
SCT yij2 (64) 2 (68) 2 ..... (69) 2 251,00
i 1 j 1 n 20
EAAA 48
Grados Suma de Cuadrados
Fuente de Variación de Cuadrados Medios Fobserv Ftabla
Libertad (SC) (CM)
Tipo de circuito (k - 1) 3 118.95 339,650 *3,83 3,49 F(0,05
Bloques (b – 1) 4 26,50 6,62 0,64 3,25 F(0,05
Error (k - 1) (b – 1) 12 124,30 10,358
Total (n - 1)-1 19 269,75
EAAA 49
Suponiendo que se quiere investigar si la producción de tres diferentes
máquinas es igual, tomando en cuenta la experiencia de los operadores a un
nivel de significancia del 5%.
Experiencia Máquinas
de ops. En
años Maq 1 Maq 2 Maq 3 Promedios
1 27 21 25 24.33333
2 31 33 35 33
3 42 39 39 40
4 38 41 37 38.66667
5 45 46 45 45.33333
Promedios 36.6 36 36.2 36.26667
EAAA 50
TABLA ANOVA
Conclusión: No hay diferencia entre máquinas a pesar de la diferencia en experiencia
de los operadores.
SS GL CM Fc Falfa
EAAA 51
Ejemplo: Para el ensamble de un artículo se considera comparar 4 máquinas
diferentes. Como la operación de las máquinas requiere cierta destreza se
anticipa que habrá una diferencia entre los operarios en cuanto a la velocidad
con la cual operen la maquinaria. Se decide que se requerirán 6 operarios
diferentes en un experimento de bloques aleatorizado para comparar las
máquinas.
Tiempo en segundos para el ensamble del producto
Operario
Máquina 1 2 3 4 5 6 Total Medias
1 42,5 39,3 39,6 39,9 42,9 43,6 247,8 41,3
2 39,8 40,1 40,5 42,3 42,5 43,1 248,3 41,4
3 40,2 40,5 41,3 43,4 44,9 45,1 255,4 42,6
4 42,3 43,2 44,5 45,2 46,9 43,3 265,4 44,2
Total 164,8 163,1 165,9 170,8 177,2 175,1 1016,9
Medias 41,2 40,775 41,475 42,7 44,3 43,775 254,225 42,4
EAAA 52
Si las máquinas no difieren en cuanto a la velocidad de
ensamblado de la pieza, tendrían igual velocidad promedio y las
curvas se superpondrían exactamente.
H0 : µ1= µ2 = µ3= µ4 ó H0 =
α1=α2=α3=α4=0
µ
Pero si las máquinas difieren en cuanto a la velocidad de ensamblado
de la pieza, pensaríamos que las muestras provienen de poblaciones
diferentes, e
H1: algún promedio es
distinto de los
restantes
EAAA 53
EAAA 54
EL MODELO (DE EFECTOS FIJOS)
Yij = µ + αi + βj + eij
EAAA 55
Consideremos que se lleva a cabo un experimento para comparar el
tiempo que tardan tres marcas de ordenadores de diferente marca en
cargar un mismo sistema operativo. Se toma una muestra de cuatro
ordenadores de la marca A, es decir, se mide el tiempo (ensegundos) que
tardan en cargar el sistema operativo cuatro ordenadores de esta marca.
De la marca B se toman seis medidas y cinco de la marca C. La tabla
siguiente registra los resultados del experimento:
EAAA 56
Muestra j = 1 Muestra j = 2 Muestra j = 3
x 11 = 10,7 x12 = 13,4 x13 = 11,5
x 21 = 11,2 x22 = 11,5 x23 = 12,7
x31 = 12,0 x32 = 11,2 x33 = 15,4
x41 = 15,5 x42 = 15,1 x43 = 16,1
x52 = 13,3 x53 = 15,2
x62 = 12,9
Media = 12,35 = 12,90 = 14,18
Varianza = 4,70 = 2,02 = 3,90
x1 x2 x3
s1 2 s2 2 s3
EAAA 57
EAAA 58
Es posible representar esta situación mediante los diagramas de caja de las tres
muestras:
EAAA 59
Un experimento en el que se prepararon nudos de soldadura con diferentes
composiciones químicas. Se hicieron varias soldaduras utilizando cada flujo
sobre metal con base de acero AISI-1018. La tabla 9.1 presenta los resultados
de las mediciones de la dureza, en la escala de Brinell, de cinco soldaduras
que usan cada uno de los cuatro flujos.
Se puede concluir que hay diferencias en las medias poblacionales entre los
cuatro tipos de flujos?
Determine un intervalo de confianza del 95% para la media de la dureza de
soldaduras producidas con el flujo A.
EAAA 60
EXPERIMENTOS DE DOS FACTORES
EAAA 61
Un ingeniero químico está estudiando los efectos de varios reactivos y
catalizadores en la producción de cierto proceso. Esta última se expresa como
un porcentaje de un máximo teórico. Se hicieron cuatro operaciones del
proceso para cada combinación de tres reactivos y cuatro catalizadores. Los
resultados se presentan en la tabla 9.2. En este experimento hay dos factores,
el catalizador y el reactivo. El primero se llama factor renglón, ya que su valor
varía de renglón a renglón en la tabla; el segundo se denomina factor columna.
Estas designaciones son arbitrarias, en la tabla se podía haber presentado tan
fácilmente como que los renglones representen los reactivos y las columnas,
los catalizadores
A 86.8 82.4 86.7 83.5 93.4 85.2 94.8 83.1 77.9 89.6 89.9 83.7
B 71.9 72.1 80.0 77.4 74.5 87.1 71.9 84.1 87.5 82.7 78.3 90.1
C 65.5 72.4 76.6 66.7 66.7 77.1 76.7 86.1 72.7 77.8 83.5 78.8
D 63.9 70.4 77.2 81.2 73.7 81.6 84.2 84.9 79.8 75.7 80.5 72.9
EAAA 62
TABLA Promedio de las producciones ij para operaciones de un proceso
químico utilizando diferentes combinaciones de reactivos y catalizadores
Reactivo
Catalizador Media del renglón X,..
1 2 3
A 84.85 89.13 85.28 86.42
B 75.35 79.40 84.65 79.80
C 70.30 76.65 78.20 75.05
D 73.18 81.10 77.23 77.17
Media de la 75.92 81.57 81.34 Gran media muestral
columna X, X... =79.61
2Para probar si la media del resultado es igual para todos los niveles del factor renglón,
se prueba la hipótesis nula de que todos los efectos renglón son iguales a 0:
Si esta hipótesis nula es verdadera, entonces la media del resultado es igual para todos
los niveles del factor renglón.
3Para probar si la media del resultado es igual para todos los niveles del factor
columna, se prueba la hipótesis nula de que todos los efectos columna son iguales a 0:
Si esta hipótesis nula es verdadera, entonces la media del resultado es igual para todos
los niveles del factor columna
EAAA 64
Igual que con un ANOVA de un sentido, las pruebas usuales
para estas hipótesis nulas están basadas en las sumas de los
cuadrados.
EAAA 65
El siguiente resultado de MI-NITAB presenta la tabla ANOVA para los datos de
la tabla 9.2.
EAAA 67