Clase 6 Andeva

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 42

Anova

Profesor
Juan Barile Sanhueza
Anova = (andeva)

Captulo fundamental de la estadstica,


como herramienta bsica para el diseo de
experimentos

Fundamental para adentrarse en la


naturaleza de la variacin de los
acontecimientos; permite discernir mejor las
causas de los fenmenos y los efectos de
los factores involucrados.
Qu hace el Anova ?

)Verifica si dos o ms medias muestrales


fueron extradas de una misma poblacin.

) En consecuencia, cuando estas medias


muestrales no sean coincidentes habr
que suponer que provienen de poblaciones
diferentes por el efecto causado por un
factor en estudio.
Supuestos del ANOVA

1. Muestreo Aleatorio

Un muestreo no aleatorio introducir sesgo


en los datos.

Un muestreo sesgado en el caso de no


desearse NO tiene solucin.

As mismo, la asignacin de rplicas a


distintos tratamientos de un experimento
debe tambin ser al azar.
2. Independencia de los Errores

Aquellos factores que tienen un efecto sobre la


variable a analizar pero que no forman parte del
o los tratamientos bajo estudio, no deben estar
correlacionados con los tratamientos.

La nica manera de garantizar independencia


de errores es tomar muestras o asignar rplicas
completamente al azar.

La falta de independencia de errores en un


diseo NO tiene solucin.
3. Normalidad

Los datos de cada grupo a comparar deben seguir


una distribucin normal.

Si los datos NO cumplen con este supuesto,


es posible transformar los datos.

En muchos casos es difcil determinar si los datos


siguen o no una distribucin normal debido al bajo
nmero de rplicas. En estos casos se hace uso
del teorema que dice que si los datos estn
normalmente distribuidos, entonces los errores
(variacin no explicada alrededor de la media)
deben estar tambin normalmente distribuidos.
El Anova es muy robusto a desviaciones de
normalidad. Esto significa que desviaciones
del supuesto de distribucin normal no
afectarn grandemente las conclusiones
respecto de la significancia de la variable de
inters.

La mayora de las pruebas de distribucin libre


(no paramtricas) no requieren de este
supuesto de normalidad en los datos. En su
lugar, estas pruebas casi siempre suponen que
todos los grupos a comparar tienen la misma
distribucin (no necesariamente la normal).
4. Homocedasticidad (varianzas homogeneas)

Es el supuesto ms importante del Anova porque


es ms sensitivo a desviaciones de este supuesto
que ha desviaciones de normalidad. Sin embargo,
pequeas desviaciones de homogeneidad de
varianza tampoco afectarn los resultados.

Puesto que la varianza dentro de grupos estima


la misma varianza poblacional que la varianza
entre grupos (si Ho es verdadera), Todos los
grupos a comparar deben tener la misma
varianza.
La transformacin de los datos que
solucionan este problema de varianzas
heterogneas, al mismo tiempo pueden
solucionar desviaciones de normalidad.
La mayora de las pruebas estadsticas no-
paramtricas tambin son sensibles a
desviaciones de homogeneidad de varianza
y en algunos casos son ms sensibles que el
Anova.
Qu significa que una prueba
estadstica sea sensible a normalidad
u homogeneidad de varianza?

Significa que si se realiza una ANDEVA


con datos que presentan varianzas
heterogneas, no se esta seguro que el
Error Tipo I sea realmente 0.05.
Verificacin de homogeneidad de varianza

Las mas usadas son:


Test de Bartlett (no muy recomendable pues es
muy sensitiva a normalidad)
a) Test de Levene (bastante utilizado, no depende
del supuesto de normalidad)
c) Test de Fmx de Hartley (la ms fcil de aplicar,
pero la menos confiable)
Ejemplo para verificar homocedasticidad
T1 T2 T3
32 36 35
37 38 30
34 37 36
33 30 29
30 34 31

Dieta 1 Dieta 2 Dieta3 Total


N 5 5 5 15
Media 33,2000 35,0000 32,2000 33,4667
Desviacin tpica 2,58844 3,16228 2,58844 2,99682

Error tpico 1,15758 1,41421 1,39284 ,77378


Intervalo de confianza Lmite inferior 29,9860 31,0735 28,3329 31,8071
para la media al 95% Lmite superior 36,4140 38,9265 36,0671 35,1263
Prueba de homogeneidad de varianzas

VAR00001
Estadstico
de Levene gl1 gl2 Sig.
,404 2 12 ,676

Se acepta la hiptesis nula. La significancia


excede el nivel 0,05 y se asume que las
varianzas de los tres grupos son iguales
Computo del Anova
VAR00001
Suma de Media
cuadrados gl cuadrtica F Sig.
Inter-grupos 20,133 2 10,067 1,144 ,351
Intra-grupos 105,600 12 8,800
Total 125,733 14

La variacin total esta particionada en dos componentes


Entre grupos representa la variacin de las medias de
los grupos de la media general
Dentro de grupos representa la variacin de los datos
individuales respecto de la media de su respectivo
grupo
En este caso no hay diferencias significativas entre los
grupos (significancia> 0,05)
PASOS PARA REALIZAR UNA ANDEVA

1. Verificar normalidad de los datos


a) graficar las frecuencias de los datos crudos
b) Aplicar test de normalidad
c) Transformar los datos si existen
desviaciones muy grandes de normalidad
d) Verificar normalidad de datos transformados
e) Si aun no existe normalidad pero los datos
son cercanos a los normal, seguir adelante con
precaucin (cuidado con valores de
significancia muy cercanos a 0.05).
2. Verificar homogeneidad de varianza
a) correlacin entre medias y varianzas de los grupos
b) aplicar test de homogeneidad
c) Transformar datos si varianzas son muy heterogneas
d) Verificar homogeneidad de varianzas de datos
transformados
e) Si los datos an NO presentan homogeneidad de
varianzas, PARAR aqu y consultar

3. Si todo esta bien, realizar el ANDEVA

4. Si hay ms de dos grupos y el ANDEVA muestra que al


menos uno difiere significativamente, se requiere aplicar
una prueba de comparacin mltiple, para determinar
cul o cules difieren de otros.
Comparaciones mltiples

Los diversos mtodos de hacer comparaciones


mltiples se emplean slo cuando el resultado del
ANOVA resulta significativo. En tal caso, se sabe
que existen diferencias entre las muestras, pero sin
poder especificar entre cuales de ellas. Se necesita,
entonces, alguna forma de poder compararlas entre
s, y alcanzar as el objetivo final del ANOVA.

Para un Modelo II el trabajo es mucho ms simple,


solo se trata de cuantificar a la componente aadida
de varianza. En cambio, para un Modelo I se debe
analizar primero si las comparaciones fueron
planeadas antes de realizar el experimento o
despus.
Cuando se analizan los datos y se encuentran
resultados sorpresivos, no previstos, a veces
conviene un anlisis posterior que se disea en
funcin de estos resultados, en cuyo caso se deben
usar los mtodos para comparaciones no
planeadas. Existen numerosos modelos estadsticos
para todas estas posibilidades, tanto para tamaos
muestrales iguales como distintos.

Cuando se trata de un modelo I de Anova, lo que


ms interesa es poder comparar las medias
muestrales entre s, una vez que se sabe que hay
diferencia significativa entre ellas.
Hay dos formas bsicas de poder efectuar estas
comparaciones :

Comparaciones a priori: Son aquellas


comparaciones planificadas previamente, durante la
etapa del diseo experimental. Es decir, las que el
experimentador cree que va a encontrar diferencias
significativas, antes de hacer el experimento.

Comparaciones a posteriori: Son aquellas


comparaciones no planificadas de antemano.
Surgen a partir de los datos experimentales, cuando
el investigador descubre diferencias inesperadas y
quiere testearlas.
Comparaciones planeadas o a priori

Estas comparaciones son diseadas y planeadas en


forma independiente de los resultados obtenidos.

Deben ser planeadas antes de realizar el experimento


de acuerdo al inters especifico de los investigadores.

Las comparaciones a realizar NO pueden cambiarse


despus de realizado el experimento y de obtener los
resultados.

En general NO es posible comparar todos los grupos


unos contra otros (existen restricciones).
Comparaciones no planeadas o a posteriori

Al contrario de las comparaciones planeadas, las


comparaciones a posteriori son realizadas despus
de realizado el experimento y de que se conocen los
resultados.

Estas comparaciones son sugeridas por los


resultados mismos y NO son planeadas antes del
experimento por los investigadores. .

Puesto que las comparaciones se realizan despus


de conocerse los resultados, las pruebas de hiptesis
deben considerar el hecho que ya no se trata de una
muestra completamente aleatoria de una poblacin
normal, sino que de una muestra selectiva o parcial.
Modelos a posteriori con tamaos muestrales iguales:
- Modelo de Tukey (T-method).
- Modelo de Tukey corregido (T-method) cuando las
muestras son aproximadamente iguales.
- Modelo de Welsch (Welsch-method).
- Modelo de Dunn-Sidk.

Modelos a posteriori con tamaos muestrales


distintos:
- Modelo de Hochberg (GT2-method).
- Modelo de Tukey Kramer (TK-method).
- Modelo de Student Neumann Keuls (SNK-method).
- Modelo de Scheff.
- Modelo de Gabriel (SS-STP method) para hacer todas las
comparaciones posibles.
Aplicaciones
Anova univariado
Ejemplo. En 15 laboratorios se desea investigar las fluctuaciones
entre 3 diferentes maneras de medir RGR (Recuento de Glbulos
Rojos).

Grupo 1. Quienes usan contador hematolgico, de entre todos los


laboratorios que usan este mtodo se eligen 5 de ellos al azar.

Grupo 2. Quienes usan el mtodo del microhematocrito, se eligen


al azar, otros 5 laboratorios.

Grupo 3. Quienes usan otros mtodos ej., recuento en cmara,


macrohematocrito etc. se eligen al azar, otros 5 laboratorios.

Los 15 laboratorios siguen un programa de Control de Calidad


interno y se suponen calibrados.

Se enva a cada laboratorio una muestra ciega, con una sangre


calibrada en el laboratorio de referencia de: (2,9467*10 6 glob/ml)
0,0004.
Se realiza el conteo y cada laboratorio enva sus
resultados

) Los datos se someten a un anlisis de varianza


simple
Tabla de anova

Valor tabla (2/12) 0,05 = 3,89 y al 0,01= 6,93. Si el valor obtenido es mayor que el de tabla es significativo

Conclusin:
Se rechaza la hiptesis nula, la muestra no proviene de la
misma poblacin. Se concluye que las tres tcnicas de
laboratorios arrojan valores diferentes.

Con este anlisis, solo se sabe que hay una diferencia entre
los tres grupos testeados, pero no se puede determinar entre
quienes. Por lo tanto se debe realizar un test que permita
conocer entre que grupos hay diferencias
Test a posteriori
a travs de este test se conocer entre que grupos hay
diferencias. Dado que son muestras tienen igual n podemos
ocupar por ejemplo a Tukey
Comparaciones mltiples

Variable dependiente: VAR00001


HSD de Tukey
Intervalo de confianza al
95%
Diferencia de Lmite
(I) VAR00002 (J) VAR00002 medias (I-J) Error tpico Sig. Lmite inferior superior
1,00 2,00 -,10000* ,03307 ,027 -,1882 -,0118
3,00 -,27000* ,03307 ,000 -,3582 -,1818
2,00 1,00 ,10000* ,03307 ,027 ,0118 ,1882
3,00 -,17000* ,03307 ,001 -,2582 -,0818
3,00 1,00 ,27000* ,03307 ,000 ,1818 ,3582
2,00 ,17000* ,03307 ,001 ,0818 ,2582
*. La diferencia entre las medias es significativa al nivel .05.
Exactitud

Para controlar la exactitud de una tcnica, se necesita de un


patrn. Con este valor se pueden comparar los valores
promedios de cada grupo analizado, para ver si cada uno
est calibrado. El procedimiento es sencillo y se puede
realizar de dos maneras.

1. Realizando un test de hiptesis con el t-Student.

2. Determinando el intervalo de confianza de cada valor


promedio encontrado, para cada grupo, y ver si el valor
patrn cae dentro o fuera del mismo. Cuando no caiga
dentro hay evidencia como para pensar que el sistema est
descalibrado, hay un error de tipo sistemtico que se puede
calcular.
Con los datos del ejemplo anterior determinar en forma
analtica el control de exactitud que se le puede realizar a los
tres grupos investigados, con un test y con un intervalo.

Mtodo 1. Calibracin con el t-Student


Ho : El mtodo est calibrado :=X
H1 : El mtodo no est calibrado :X
Grupo 1: Contador Hematolgico.

Se acepta la Ho, por lo tanto, se acepta que el Grupo 1 est


calibrado, con respecto al laboratorio de referencia.
A su vez, se puede proceder con cada dato individual. El
programa, le enva esta informacin a cada uno de ellos, y le
suele agregar un ranking. As, el laboratorio que envi el dato
nmero 3 resultara el primero de los 15, pues es el ms
cercano al valor control. Para el investigador significa que la
tcnica a utilizar debera ser la que utiliza el contador
hematolgico.
Grupo 2: Microhematocrito.

Se rechaza la Ho al (95% de confianza). El grupo 2 no est


calibrado. concluyendo que hay un error sistemtico con
respecto al laboratorio de referencia. Se debe informar a los 5
laboratorios de esta situacin, adems de darles el ranking
obtenido a cada uno de ellos y debern arbitrar las soluciones
del caso.
El error sistemtico que afecta a su tcnica usual es evaluado
en 3,052,947(ES)= 0,1033x106 gl/ml. Puede seguir dos
caminos: El ms rpido y sencillo es corregir los resultados
que logre, restando el valor del ES a cada medicin efectuada
con esa tcnica. El segundo camino, ms cientfico, es
ponerse a investigar las causas que originan ese tipo de error,
y as poder corregir su tcnica.
Grupo 3: Otras tcnicas.

Hay evidencia para rechazar la Ho al (95% de confianza). El


grupo 3 no esta calibrado.
Se concluye que los 5 laboratorios que usan tcnicas, como
recuento en cmara o macrohematocrito, deben ser
informados de la gran diferencia que tienen con el laboratorio
de referencia, se ha encontrado evidencia muy fuerte de un
ES = 0,2733x106 gl/ml.
Para los responsables de cada uno de estos 5 laboratorios,
significa que la tcnica usual, no solo debe ser desechada
como confiable, sino que es la peor de todas y por ello se
desaconseja su uso en el laboratorio moderno.
Mtodo 2 Calibracin con intervalos de confianza (95%)
MODELO I y II DE ANOVA

Modelo I
Supone que el efecto de factor analizado es constante en
cada grupo.

Modelo II
Supone que el efecto del factor analizado es aleatorio en
cada grupo.

Hasta ac, tanto el Modelo I como el Modelo II, usan los


mismos clculos y se llega al Cuadro de ANOVA. Si no se
encuentran diferencias significativas entre las muestras, no
tiene sentido seguir adelante. Pero, si se rechaza la Ho,
entonces el problema siguiente es descubrir donde las
diferencias se hacen significativas.
De acuerdo a lo visto anteriormente, para un modelo
unifactorial de ANOVA se requiere:
1 ) Las muestras deben ser aleatorias.
2 ) Las muestras deben ser independientes.
3 ) La poblacin de donde son extradas debe ser gaussiana.
4 ) Sus varianzas deben ser iguales.

Si se verifican estos supuestos, entonces con hiptesis nula


de igualdad de medias muestrales se testea si todas las
muestras fueron extradas de la misma poblacin, contra la
hiptesis alternativa de que el efecto del factor analizado es
significativo.
Cuando no se verifique alguno de los cuatro supuestos
bsicos del Anova o bien, la magnitud estudiada no sea
continua, se tiene el recurso de usar un modelo no
paramtrico equivalente: Modelo de Kruskal-Wallis.
Modelo no paramtrico de Kruskal-Wallis
Su clculo es sencillo y no cumplir las hiptesis del Anova. Sin
embargo, el Anova tiene mayor efectividad para detectar las
diferencias entre las medias muestrales.
La manera de proceder con el modelo de Kruskal-Wallis es
similar al de la U de Mann y Whitney, se trata de ordenar
primero los datos en forma creciente, ignorando la divisin en
grupos. Se le asigna un rango a cada dato y en el caso de
empates o ligas se usa el rango promedio entre ellos. Luego
se reemplaza cada dato de la tabla original, por su rango
equivalente y con los nuevos datos se calcula el Tabla H de
Kruskal-Wallis,
El estadgrafo H depende de dos cosas: el rango de cada uno
de los valores obtenidos y del tamao muestral respectivo.
Ejemplo
Para muestras grandes el estadgrafo H se distribuye
aproximadamente segn una distribucin Chi cuadrado,
mientras que si los tamaos muestrales son pequeos (N<6)
se puede emplear
la distribucin exacta. En este caso, como N=50 se formula la
hiptesis nula Ho de que los 5 grupos testeados no difieren
en localizacin, es decir no hay diferencia entre ellos, y se
contrasta con. Como este resulta menor que el
valor del estadgrafo Hcorregido = 38,44** se rechaza la
hiptesis nula. Se puede afirmar que hay evidencia cientfica
de que hay diferencias entre los grupos investigados.
Diseo de experimentos
Las reglas de oro a tener en cuenta son:
- Cuanto mayor sea el nmero de muestras, ms confiables
sern las conclusiones.
- Siempre que se pueda, se deben tomar muestras de igual
tamao.
- Se debe tratar de usar modelos paramtricos en lugar de
no paramtricos ( es ms potente).
- Cuando haya que investigar a ms de dos grupos, disear
con modelos de Anova y planificar de antemano las
comparaciones entre muestras a realizar.

También podría gustarte