Pruebas de Comparación Multiple

PRUEBAS DE COMPARACIÓN MULTIPLE
YESICA YULISA MORENO GARCÍA
UNIVERSIDAD DEL CAUCA
FACULTAD DE CIENCIAS NATURALES, EXACTAS Y DE LA EDUCACIÓN
DEPARTAMENTO DE BIOLOGÍA
POPAYÁN
2020
1. RESUMEN COMPARACION DE MEDIAS
Para realizar un análisis de comparación de medias, se debe tener en cuenta que método aplicar. Para ello
debemos tener en cuenta si los datos cumplen los supuestos previos: Si se ajustan a la curva normal, el
principio de homocedasticidad y los datos se ajustan en un análisis de varianza.
2. ¿QUÉ ANÁLISIS APLICAR?
El estudio transversal se define como un estudio observacional en el que los datos se recopilan para estudiar
a una población en un solo punto en el tiempo y para examinar la relación entre variables de interés.
El estudio longitudinal, al igual que el estudio transversal, también es un estudio de tipo observacional en el
que se recopilan datos de la misma muestra repetidamente durante un periodo prolongado de tiempo.
COMPARACIÓN DE
2 MEDIAS > 2 MEDIAS
ANÁLISIS PARAMETRICA NO PARAMETRICA PARAMETRICA NO PARAMETRICA
TRASVERSAL T - Student U de Mann- ANOVA H de Kruskall

Whitney Wallis
LONGITUDINAL T- Student Wilcoxon GLM Para medias Friedman
repetidas
ANOVA Medias
repetidas
3. PRUEBAS DE COMPARACIÓN MULTIPLE
Son también llamadas pruebas de diferencia de medias o pruebas Post Hoc.
3.1 ¿CUÁNDO SE DEBEN APLICAR LAS PRUEBAS DE COMPARACIÓN MÚLTIPLE O PRUEBAS POST HOC?
Se utilizan luego de que se ha rechazado una Hipótesis nula H 0 en un análisis de varianza (Aceptó H1= Si
existen diferencias estadísticas entre los grupos analizados de acuerdo a un tratamiento). Es necesario tener
en cuenta que el análisis de varianza nos dice si hay diferencia significativa o no hay diferencia pero no nos
indica en donde están esas diferencias. Por ello, las pruebas de comparación múltiple están diseñadas para
mostrarnos en donde están las diferencias que hemos encontrado después de un análisis de varianza dentro
de una población normal.
3.2 DESCRIPCIÓN DE CADA PRUEBA
A continuación se listan algunas de las pruebas a posteriori más comunes; sin embargo en un caso real el
investigador deberá seleccionar aquella que mejor se ajuste a los objetivos de su investigación.
3.2.1 BASADAS EN LA DISTRIBUCIÓN T
 Dunn – Bonferroni
La prueba de Bonferroni permite comparar las medias de los t niveles de un factor después de haber
rechazado la hipótesis nula (Ho) de igualdad de medias mediante la técnica ANOVA. La corrección de
Bonferroni lleva el nombre del matemático italiano Carlo Emilio Bonferroni, por su uso de las desigualdades
de Bonferroni. A menudo, su desarrollo se atribuye a Olive Jean Dunn, quien describió la aplicación del
procedimiento a intervalos de confianza.
En el Test de Bonferroni el nivel de significación se modifica en función del número de comparaciones a

hacer. Esto elimina el problema de hacer comparaciones múltiples. Reduce el nivel de significación en tal
medida que elimine el error de aplicar el test tantas veces al mismo tiempo. Es un método que se utiliza para
controlar el nivel de confianza simultáneo para un conjunto completo de intervalos de confianza. Suele ser
bastante conservador y se utiliza más que todo cuando no son muchas las comparaciones a realizar y
además, los grupos son homogéneos en varianzas.
La corrección de Bonferroni compensa ese aumento al probar cada hipótesis individual en un nivel
significativo de α/ m, donde α es el nivel de alfa general deseado y m es el número de hipótesis. Por
ejemplo, si un ensayo está probando m=15 hipótesis con un α deseado, entonces la corrección de
Bonferroni probaría cada hipótesis individual en α=0,05/15=0,0033.
 Dunn- Sidak
Es un método simple para controlar la tasa de error familiar. Entonces, dadas m hipótesis nulas diferentes y
un nivel alfa familiar de α, se rechaza cada hipótesis nula que tenga un valor p inferior a:
Esta prueba produce una tasa de error Tipo I familiar de exactamente α cuando las pruebas son
independientes entre sí y todas las hipótesis nulas son verdaderas. Es menos estricto que la corrección de
Bonferroni, pero solo un poco. Por ejemplo, para α = 0.05 y m = 10, el nivel ajustado por Bonferroni es 0.005
y el nivel ajustado por Šidák es aproximadamente 0.005116.
También se pueden calcular los intervalos de confianza que coinciden con la decisión de la prueba usando la
corrección de Šidák usando 100 (1 - α) 1 / m % de intervalos de confianza.
 Holm Shaffer y Shaffer
Holm ordena los P valores de más a menos significativos y los pone a prueba sucesivamente ajustando
(Bonferroni) cada uno sólo por las hipótesis aún no rechazadas.
αj=αG/k
Donde αj=αG es el nivel de significancia y k el número de hipótesis aún no rechazadas.
3.2.2 BASADAS EN LA DISTRIBUCIÓN DEL RANGO STUDENTIZADO
 La prueba de Tukey
La prueba de Tukey, nombrado después Juan Tukey en 1949, es una prueba estadística utilizada general y
conjuntamente con ANOVA, La prueba Tukey se usa en experimentos que implican un número elevado de
comparaciones y compara las medias individuales provenientes de un análisis de varianza de varias muestras
sometidas a tratamientos distintos.
El procedimiento DHS de Tukey es el más potente cuando en el diseño se ejecutan:
1) todas las comparaciones posibles entre las medias (exhaustivo) y además
2) son comparaciones simples
Prueba:
Donde:
q es un valor que se obtiene de una tabla (Tabla de Tukey), de manera parecida a la tabla de F.
Horizontalmente se coloca el número de los tratamientos y verticalmente los grados de libertad del error.
Solamente existen tablas para niveles de significancia del 5% y del 1%.
El término que está dentro de la raíz cuadrada se llama error estándar de la media y es igual al cuadrado
medio del error, dividido entre el número de repeticiones.
Se utiliza el mismo comparador para todos los pares de promedios que se comparan. Pero ésta fórmula
solamente es válida para el caso de experimentos con igual número de repeticiones (balanceado). Un
experimento puede ser desbalanceado (desiguales repeticiones) por varios motivos: por causa de los
tratamientos, por fallas en el manejo del experimento, o por causas desconocidas que el experimentador no
pudo controlar. El análisis de un experimento desbalanceado se complica.
En el caso del diseño al completo azar el procedimiento es directo, pero en el de bloques al azar, cuadrado
latino y otros, es necesario estimar los datos faltantes antes de realizar el análisis. Lo mismo sucede para la
prueba de Tukey. No se puede usar un solo comparador, se deben calcular varios comparadores para realizar
la comparación por pares. Esta variante de la prueba se conoce como Tukey-Kramer:
ri, rj son las repeticiones de los tratamientos i,j.

 Newman-Keuls
Este método fue desarrollado por Newman en 1939 y ampliado por Keuls en 1952, se suele denominar
contraste de Newman-Keuls. El Test Newman-Keuls es un test que permite comparar las medias de los t
niveles de un factor después de haber rechazado la Hipótesis nula de igualdad de medias mediante la técnica
ANOVA.
Este Test utiliza un umbral móvil basado en el número de medias que están implicadas en el recorrido de
medias comparada sin que el nivel de significación cambie, se altere, es decir, se mantiene en el general, que
suele ser 0.05. Esto le convierte en un Test más conservador. Por ejemplo, para un ANOVA significativo a un
nivel de 5% (a = 0,05), se realizan comparaciones múltiples al 5%.
Este método es similar a la prueba de Tukey, a diferencia de esta, el método de Newman-Keuls usa
diferentes valores críticos para diferentes pares de comparaciones, por lo tanto, es más probable que el
procedimiento revele diferencias significativas entre las medias de los grupos y cometa errores tipo I.
entonces se puede decir, que el procedimiento de Newman-Keuls es más poderoso pero más conservador
que la prueba de rango Tukey.
Algunas de las condiciones para esta prueba es que las varianzas deben ser homogéneas y las unidades
experimentales de los grupos deben ser parecidas, ya que para grupos desiguales, esta prueba no es exacta,
funcionaria con la reformas recomendadas por Krammer en el método de Tukey.
 Duncan
Se utiliza para comparar todos los pares de medias. Fue desarrollado por primera vez por Duncan en 1951
pero posteriormente él mismo modificó su primer método generando el que ahora se denomina Nuevo
método de Rango Múltiple de Duncan. Esta prueba no requiere de una prueba previa de F, como sucede con
la DMS o sea que aún sin ser significativa la prueba F puede llevarse a cabo.
Muy eficaz y popular debido a su poder de discriminación.
Donde es el número de medias inclusive entre las dos medias a comparar para diseños balanceados. Para
aplicar esta prueba al nivel se debe pasar por las siguientes etapas:
1. Determine el error estándar (desviación estándar) de cada promedio, , el cual es dado por la
expresión:
Donde el CM es obtenido de la tabla Anova
2. Con los grados de libertad del error y el nivel de significancia determinar los valores de (intervalos o
amplitudes estandarizadas significativos) utilizando las tablas de amplitudes estandarizadas de Duncan dadas
por Harter (1960) y que se encuentran en el libro de Miller (1992). Para encontrar estos valores, se requieren
los grados de libertad del error y el valor de .
3. Determinar las amplitudes mínimas significativas denotadas por calculados por la

expresión:
4. Se ordenan de manera creciente los resultados promedios del experimento
5. Se comparan las medias ordenadas así: comienza a comparar en el siguiente

orden:
a) El promedio más alto, con el más bajo, comparando esta diferencia con el intervalo mínimo
significativo . Si esta diferencia es no significativa entonces todas las otras diferencias son no significantes.
Si la diferencia es significativa se continúa con b)
b) Posteriormente se calcula la diferencia entre el valor más alto y el penúltimo y se compara con
el intervalo mínimo significativo
c) Este procedimiento se continúa hasta que todas las medias se han comparado con la media más grande
.
d) A continuación se compara la segunda media más grande con la más pequeña y se compara
con el intervalo mínimo significativo .
Este proceso continúa hasta que han sido comparadas las diferencias entre todos los posibles
pares.
Si una diferencia observada es mayor que el intervalo mínimo significativo, se concluye que la pareja de
medias comparadas son significativamente diferentes.
Para evitar contradicciones, ninguna diferencia entre una pareja de medias se considera significativamente
diferentes si éstas se encuentran entre otras dos que no difieren significativamente. A manera de ilustración
se tiene:
Cuando el diseño es desbalanceado pero los tamaños de réplicas difieren

marcadamente este método puede adaptarse utilizando en vez de en la estadística, el valor de la media
armónica de los tamaños de muestras.
 Ryan
Prueba Tipo de Comparac Potencia Control Característic

distribución iones as
Ryan, Einot, Distribución Comparac Super ERFW (Error Rate Variante de
Gabriel y de Q de rango ión de potencia que Familywise). Tasa de la prueba de
Welsch Studentizado dos a dos la prueba de error por Newman
Tukey pero comparación. La Keuls.
inferior a la probabilidad de
de Newman- cometer, al menos un
Keuls. erro tipo i en un grupo
de comparaciones es X
< o = 1-(1-x’).
3.2.3 BASADAS EN LA DISTRIBUCIÓN F
 La prueba de Scheffé
Scheffé (1953) propuso un método para realizar cualquier contraste entre medias de tratamientos. Dicho
procedimiento no requiere que el modelo sea equilibrado.
Sea una familia de contrastes de la forma
El objetivo de este procedimiento es decidir, para cada uno de estos contrastes, entre las hipótesis:
El método de Scheffé está basado en la construcción de intervalos de confianza para todos los posibles
contrastes de la forma. Estos intervalos tienen un nivel de confianza simultáneo 1 − α, es decir, la
probabilidad de que todos los intervalos sean correctos simultáneamente es igual a 1 − α. Scheffé demostró
que dichos intervalos de confianza tienen la siguiente expresión:
El procedimiento de Scheffé es válido en cualquier circunstancia de investigación pero normalmente es la
prueba menos potente.
La principal diferencia entre Scheffe y los otros métodos de comparaciones múltiples es que utiliza la tabla F
y no las tablas de rangos estandarizados según la distribución ―t‖ de estudiante de las otras pruebas.
 Generalmente, se usa cuando las muestras tienen tamaños diferentes.

 Basado en la distribución F
 Permite no solo comparar las medias de los niveles del análisis de varianza dos a dos, sino también
realizar comparaciones complejas.
 Puede utilizarse para examinar todas las combinaciones lineales de grupos de medias posibles, no
solo las comparaciones.
 F de Newman- Keuls
Prueba Tipo de Comparac Potencia Control Característic

distribución iones as
F de Distribución F Comparac Superiror a la Control de la tasa de No es
Newman - ión de prueba de F error alfa para cada adecuado
Keuls dos a dos de Ryan grupo p medias, más debido a
que para todas las J que se
medias del asocia a una
experimento. alta
probabilidad
de cometer
el error tipo
I. .
 F de Ryan
Este método se basa en la distribución F. Se trata de un método por pasos. Tras ordenar de forma
ascendente las J medias por su tamaño, se efectúan todas las comparaciones posibles entre pares de medias
teniendo en teniendo en cuenta en número de escalones (r) que las separa: con Jj medias, la medida más
pequeña y la más grande están separadas r=j escalones; a media más pequeña y la segunda más grande
están separadas r=j-2 escalones… etc. Dos medias adyacentes tras la ordenación están separadas en dos
escalones. El número de escalones existente entre las medias comparadas condiciona el nivel de significancia
de cada comparación, siendo este mayor cuanto más alejadas se encuentran las medias de ser ordenadas.
En el método de Ryan, cada comparación se evalúa utilizando un estadístico F y un nivel de significancia α c=
1-(1-α) elevado r/j. Es un método por pasos más potente que el de Duncan y de Newman – Keuls, pero no es
apropiado para grupos de distintos tamaños.
3.2.4 BASADAS EN UNA PRUEBA T PROTEGIDA
 LSD de Fisher
Este procedimiento fue sugerido por Fisher en 1935. Dicho procedimiento consiste en una prueba de
hipótesis por parejas basada en la distribución t. Este método debe aplicarse cuando previamente se haya
rechazado la hipótesis nula del test F del análisis de la varianza. Para ello, se determina el siguiente
estadístico:
Que, por las hipótesis del modelo de ecuación, sigue una distribución t de Student con N − I grados de
libertad.
Por lo tanto, se concluye que la pareja de medias µi y µj son estadísticamente diferentes Si:
Donde la cantidad LSD, denominada mínima diferencia significativa, viene dada por:
Siendo:
∗ ni y nj el número de observaciones correspondiente a cada media,
∗ N − I el número de grados de libertad de la varianza residual,
∗ tα/2;N−I el valor crítico de la distribución t con N − I grados de libertad que deja una probabilidad a su
derecha igual a α/2.
Si el diseño es balanceado, el valor de LSD se reduce a:
El procedimiento LSD es sencillo de utilizar; se puede aplicar tanto en modelos equilibrados como no-
equilibrados. Además proporciona también intervalos de confianza para diferencias de medias. Dichos
intervalos son de la forma.
 Shaffer- Ryan
Prueba Comparaci Potencia Control Características

ones
Shaffer – Ryan Comparaci No se puede ERFW (Error Rate Es necesario
ón de dos a establecer la Familywise). Tasa de relaizar una prueba
dos potencia relativa de error por F global previa, lo
esta prueba respecto comparación. La cual hace que esta
a otras debido a que probabilidad de prueba se conozca
requiere que la cometer, al menos un como prueba
prueba F global, sea erro tipo i en un grupo protegida.
significativa. de comparaciones es X
< o = 1-(1-x’).
3.2.5 BASADAS EN LA COMPARACIÓN DE UN CONTROL
 La prueba de Dunnett
Estamos ante el caso de un experimento en el que uno de los tratamientos es un control y el

experimentador puede estar interesado en comparar los restantes tratamientos con este control. Por tanto,
sólo deben realizarse I − 1 comparaciones. Un procedimiento que realiza dichas comparaciones fue
desarrollado por Dunnett (1964).
Supongamos que el control es el tratamiento I. Entonces se desean probar las hipótesis:

El procedimiento de Dunnett es una modificación de la prueba t. Para cada hipótesis se calculan las
diferencias que se observan entre las medias muestrales:
La pareja de medias µi y µI se consideran diferentes, a un nivel de significación conjunto α asociado a las I − 1

comparaciones, si
En donde la cantidad dα;I−1,N−I se obtiene a partir de la Tabla VIII del Apéndice C.
Para ilustrar la prueba de Dunnett, consideramos el ejemplo de referencia y aunque en el desarrollo teórico
hemos dicho que el control es el último tratamiento, la posición que ocupe el control es arbitraria, por ello,
en este ejemplo vamos a considerar que es la primera posición, el tratamiento 1. En dicho ejemplo, I=5, ν=21
y para un nivel de significación del 5 % el valor de d0, 05; 4,21 es 2.64. Por tanto, las diferencias críticas y
observadas son, respectivamente,
Observamos que las parejas de medias 2 vs 1 y 5 vs 1 resultan significativamente diferentes.
Al comparar tratamientos con un control es conveniente tomar más observaciones para el tratamiento de
control que para los otros tratamientos. Como norma general, se debe verificar que la razón nI/ni sea
aproximadamente igual a la raíz cuadrada del número total de tratamientos. Es decir,
4. EJEMPLOS
4.1 BASADAS EN LA DISTRIBUCIÓN t
 Dunn - Bonferroni:
Se desea comparar el efecto de 3 nuevos tratamientos para el cáncer de Mama frente al tratamiento
convencional, con el objetivo de sacar al mercado uno de los tratamientos. Si quiere tener un riesgo global
αj=0.05, el individual será:
 Dunn - Sidak:
Siguiendo con el ejemplo anterior, si se deseara utilizar el método de Sidák para controlar la multiplicidad y
garantizar αG= 0.05:
Valor muy similar al obtenido por Bonferroni (0.0167).
 Holm- Shaffer:
Los 5 valores de P observados han sido: 0.0021, 0.0093, 0.0137, 0.0324 y 0.1188. Al contrastar primero debe
controlar que hasta k=5 hipótesis nulas podrían ser ciertas, por lo que αj = αG /k = 0,05/5 = 0.01>P=0.0021, se
rechaza H0. Pero para contrastar la segunda H02, ya no es necesario protegerse por si H01 fuera cierta, por lo
que K=4 y 0,05/4 = 0.0125>P=0.0093 también se rechaza H0.
https://ocw.upc.edu/sites/all/modules/ocw/estadistiques/download.php?file=715001/2013/1/54994/
t14_control_del_riesgo_alfa-5228.pdf = documento
4.2 BASADOS EN LA DISTRIBUCIÓN DE RANGO STUDENTIZADO
 Tukey
https://www.youtube.com/watch?v=hz3fuGVm2js
 Newman Keuls
https://www.youtube.com/watch?v=QXQIKLlKsLw
https://www.youtube.com/watch?v=kd6fdhYJf6w
 Duncan
Ejemplo en Excel:
https://www.youtube.com/watch?v=Tl2OK7yViEM
http://red.unal.edu.co/cursos/ciencias/2000352/html/un3/cont_317-60.html
https://www.researchgate.net/publication/
333323638_APLICACION_DEL_METODO_DE_DUNCAN
4.3 BASADAS EN LA DISTRIBUCIÓN F

 Scheffé
https://www.youtube.com/watch?v=CFY9oKblSco
4.4 BASADAS EN UNA PRUEBA T PROTEGITA

 LSD de Fisher
https://www.youtube.com/watch?v=J9iwr3QCpPA
http://www.how2statsbook.com/p/chapters.html
4.5 BASADAS EN LA COMPARACIÓN CON UN CONTROL

 Dunnet
https://www.youtube.com/watch?v=tCg3n7sy62E
1.1 ¿Cómo saber que prueba usar?
Existen problemas debidos a la mala utilización y además la falta de uso de este tipo de pruebas que, como
veremos, se da en nuestro país y que a nuestro juicio se da por dos circunstancias:
1) La falta de claridad en los textos de estadística sobre los distintos procedimientos de comparaciones
múltiples con una clara clasificación de las pruebas en sus aspectos más relevantes como: conveniencia
respecto al diseño experimental utilizado, tratamiento del control del error de tipo I, o incluso a nivel de los
supuestos estadísticos necesarios para su aplicación (Por lo que se refiere a manuales, solamente se cuenta
con algunos, el trabajo primigenio de síntesis de Miller, ya actualizado (Miller, 1981), y las recientes
exposiciones en los textos de Klockars y Sax (1986) y Toothaker (1993) en la colección de Sage y el más
completo de Hochberg y Tamhane (1987); ninguno de ellos traducido al castellano.
2) La falta de implementación en paquetes estadísticos de ordenador de muchas de las pruebas para los
diseños experimentales más utilizados. Aunque todos los paquetes suelen cubrir los diseños de una vía entre
grupos, hemos detectado una carencia de pruebas de comparaciones múltiples para diseños factoriales de
medidas repetidas o en los diseños mixtos o en los diseños de ANOVA no paramétricos.
-----------------------------------------------------------------------------------------------------------------------------------------------
En este punto el investigador debe tomar una decisión de nuevo: tiene que elegir la prueba de contraste de
hipótesis específicas que controle correctamente la tasa de error de Tipo I y además que la potencia
estadística sea máxima (menor error de Tipo II). Es decir, en un mismo diseño se podría optar por varias
pruebas de contraste de hipótesis específicas y el investigador debe seleccionar la más adecuada para que la
validez de conclusión estadística sea adecuada. La más adecuada es aquella que controla la tasa de error de
tipo I y fija el alfa por experimento en 0.05 y al mismo tiempo es la prueba que facilita la mayor potencia
estadística para de este modo reducir el error de tipo I.
Para tomar la decisión el investigador debe considerar los siguientes aspectos:
1. El número de comparaciones (C ) que la hipótesis plantea:
 Comparaciones exhaustivas (a posteriori): El contraste de hipótesis específicas es exhaustivo

cuando se realizan todas las comparaciones posibles entre los padres de medias que tiene el
diseño de investigación. Por ejemplo, si A=3 entonces el número de todos los pares posibles de
diferencias de medias es igual a 3. Si se analizan las tres diferencias simples de medias entonces
se considera que se han realizado comparaciones exhaustivas. Son comparaciones que se
deciden ejecutar después de que el experimento ha sido ejecutado y analizado (generalmente
con el test ‘omnibus’ de ANOVA). Y se ejecutan todas las comparaciones posibles a posteriori.
 Comparaciones planificadas (a priori): Cuando el número de comparaciones que hay que

contrastar es más reducido (no se realizan de forma exhaustiva todas las comparaciones
simples), el contraste se denomina contraste planificado o contraste a priori. Por ejemplo, si sólo
se desean comparar a1-a2 y a1-a3 entonces ya no es exhaustivo sino planificado dado que por
cuestiones teóricas no interesa analizar la comparación entre a2 y a3. Para poder plantear
contrastes a priori es necesario fundamentar esas opciones de contraste en unas hipótesis
teóricas que den sentido a la elección de los contrastes o análisis que se quieren realizar. Por
ejemplo, en un diseño con un grupo de control y dos grupos de tratamiento (A=3) podría ser
interesantes comparar el grupo de control con uno de los grupos de tratamiento (contraste uno)
y e grupo de control con el otro grupo de tratamiento (contraste dos). En este caso el
investigador ha planteado dos contrastes o pruebas consideradas a priori, es decir, su
planteamiento es previo a cualquier tipo de resultado del estudio. Los contrastes se plantean
antes de realizar el experimento, por lo tanto antes de ejecutar cualquier análisis y necesitan de
una teoría que los fundamente. En general, esos contrastes se corresponden con hipótesis de
investigación. Debido a que son contrastes planificados a priori suelen ser pocos en número. Y
para evitar que aumente la Tasa de Error de tipo I (declarar que un efecto es estadísticamente
significativo cuando no lo es) los valores p de probabilidad son corregidos generalmente con el
procedimiento de Bonferroni.
2. Si las hipótesis experimentales :
 Son simples (plantea diferencias entre pares de medias): cuando se plantean diferencias entre
pares de medias simples, por ejemplo la diferencia entre las medias de los grupos a1-a2. Se
considera
 Complejas (plantea alguna diferencia entre medias que implica un promedio de medias): cuando la
diferencia de medias implica un promedio de medias, por ejemplo se desea comparar la media de a1
frente a la media compleja de dos grupos. Por ejemplo una media compleja sería (a2+a3)/2. Es decir,
en el cómputo de la media han intervenido las medias de dos grupos. Al final se contrastan dos
medias pero al menos una de ellas es compleja. Otro ejemplo de hipótesis complejas podría ser la
comparación siguiente: la media de (a2+a3)/2 respecto a la media (a1+a3)/2.
----------------------------------------------------------------------------------------------------------------------------------------------
Existen diferentes pruebas de contraste de hipótesis específicas. En la tabla se representan las situaciones en
las que se podrían aplicar las pruebas de hipótesis específicas más utilizadas donde se asume la igualdad de
las varianzas de los grupos (homocedasticidad de varianzas):
Y cuando no se cumple el supuesto de homogeneidad de las varianzas se pueden aplicar las siguientes
pruebas de contraste de hipótesis específicas:
 T2 de Tamhane
 T3 de Dunnett
 Games-Howell:
 C de Dunnet
La prueba de Games-Howell es la más adecuada cuando no se asume la igualdad de las varianzas y el diseño
es no ortogonal (grupos desequilibrados). Es una prueba que está basada en la prueba no paramétrica de
Welch para diseños entre-grupos.
Al igual que ocurre con un ANOVA, si el test de Kruskal-Wallis es significativo, implica que al menos dos
grupos de entre los comparados son significativamente diferentes, pero no indica cuales. Para saberlo es
necesario compararlos todos entre ellos. Esto implica realizar una corrección del nivel de significancia para
evitar incrementar el error de tipo I. Los dos métodos de comparación post-hoc más empleados para un test
de Kruskal-Wallis son:
 Test de Mann-Whitney entre cada par de grupos con corrección de significancia.

 Tukey’s range test.
 Existen diferentes métodos de corrección del nivel de significancia, entre ellos destacan el de
Bonferroni que es muy estricto y el de holm, este último parece ser más recomendado.
BIBLIOGRAFÍA
Abdi, H. (2007). The Bonferonni and Šidák Corrections for Multiple Comparisons. Encyclopedia of
Measurement and Statistics, 103–107. https://doi.org/10.4135/9781412952644
(Arnau Gras, 1975)Arnau Gras, J. (1975). Los diseños experimentales en psicología. Anuario de Psicología,
(12), 3–50.
Barón, F. J., & Téllez, F. (2000). Diferencias que presenta una variable numérica entre varios grupos. Apuntes
de Bioestadística, 6, 28–37.
Dinno, A. (2017). Package ‘dunn.test.’ CRAN Repository, 1–7.
Dunn, O. J. (1961). Multiple Comparisons Among Means. Journal of the American Statistical Association,
56(293), 52. https://doi.org/10.2307/2282330
Frías Navarro, D. (n.d.). ANALIZAR  Comparar medias, 1–23.
Gignac, G. E. (2019). How2statsbook (Online Edition 1). Perth, A. A. 1. (2019). One-Way Between-Subjects
ANOVA, 1–46.
Harper, J. F. (1984). Peritz’ F test: Basic program of a robust multiple comparison test for statistical analysis
of all differences among group means. Computers in Biology and Medicine, 14(4), 437–445.
https://doi.org/10.1016/0010-4825(84)90044-1
IV, D. de S. (2010). Análisis de varianza de un factor: El procedimiento ANOVA de un factor. Departamento
de Sociología IV UCM, 251–266.
Jorge Dagnino, S. (2014). Comparaciones múltiples. Revista Chilena de Anestesia, 43(4), 311–312.
Pérez, C. (2004). Técnicas de análisis multivariante de datos.
Polla, G., Reinoso, M., Freire, E., Halac, E. B., Acevedo, V. J., & López, M. A. (2013). Estudio De Pigmentos En
Alfarería Estilo Negro Sobre Rojo De Quebrada De Humahuaca, Jujuy, Argentina. Boletín Del Museo
Chileno de Arte Precolombino, 17(2), 39–51. https://doi.org/10.4067/s0718-68942012000200004
Pruebas Post Hoc. (2012), 1–8.
Pulido, H. G. (2008). Análisis y diseño de experimentos (Segunda Ed). Mc Graw Hill.
Rufino, H., Vilaró, M., & González, A. (2014). Control del riesgo alfa.
Shaffer, J. P. (1995). Multiple hypothesis testing. Ann~ Rev. Psychol, 46, 561–584.
Universisdad de Valencia. (2003). Análisis estadístico de incertidumbres aleatorias.
Zasshi., N. R. I. (2019). Capitulo 7. Japanese Journal of Geriatrics, pp. Contents1-Contents1.
https://doi.org/10.3143/geriatrics.56.contents1

Pruebas de Comparación Multiple

Cargado por

Información del documentohacer clic para expandir la información del documento

Copyright:

Formatos disponibles

Pruebas de Comparación Multiple

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Pruebas de Comparación Multiple

Cargado por

Copyright:

Formatos disponibles

PRUEBAS DE COMPARACIÓN MULTIPLE

YESICA YULISA MORENO GARCÍA

UNIVERSIDAD DEL CAUCA

FACULTAD DE CIENCIAS NATURALES, EXACTAS Y DE LA EDUCACIÓN

2. ¿QUÉ ANÁLISIS APLICAR?

TRASVERSAL T - Student U de Mann- ANOVA H de Kruskall

3. PRUEBAS DE COMPARACIÓN MULTIPLE

Son también llamadas pruebas de diferencia de medias o pruebas Post Hoc.

3.2 DESCRIPCIÓN DE CADA PRUEBA

En el Test de Bonferroni el nivel de significación se modifica en función del número de comparaciones a

 Holm Shaffer y Shaffer

El procedimiento DHS de Tukey es el más potente cuando en el diseño se ejecutan:

1) todas las comparaciones posibles entre las medias (exhaustivo) y además

2) son comparaciones simples

ri, rj son las repeticiones de los tratamientos i,j.

Donde el CM es obtenido de la tabla Anova

3. Determinar las amplitudes mínimas significativas denotadas por calculados por la

4. Se ordenan de manera creciente los resultados promedios del experimento

5. Se comparan las medias ordenadas así: comienza a comparar en el siguiente

Cuando el diseño es desbalanceado pero los tamaños de réplicas difieren

Prueba Tipo de Comparac Potencia Control Característic

3.2.3 BASADAS EN LA DISTRIBUCIÓN F

Sea una familia de contrastes de la forma

 Generalmente, se usa cuando las muestras tienen tamaños diferentes.

Prueba Tipo de Comparac Potencia Control Característic

3.2.4 BASADAS EN UNA PRUEBA T PROTEGIDA

∗ ni y nj el número de observaciones correspondiente a cada media,

∗ N − I el número de grados de libertad de la varianza residual,

Si el diseño es balanceado, el valor de LSD se reduce a:

Prueba Comparaci Potencia Control Características

3.2.5 BASADAS EN LA COMPARACIÓN DE UN CONTROL

Estamos ante el caso de un experimento en el que uno de los tratamientos es un control y el

Supongamos que el control es el tratamiento I. Entonces se desean probar las hipótesis:

La pareja de medias µi y µI se consideran diferentes, a un nivel de significación conjunto α asociado a las I − 1

En donde la cantidad dα;I−1,N−I se obtiene a partir de la Tabla VIII del Apéndice C.

Observamos que las parejas de medias 2 vs 1 y 5 vs 1 resultan significativamente diferentes.

4.1 BASADAS EN LA DISTRIBUCIÓN t

Valor muy similar al obtenido por Bonferroni (0.0167).

4.2 BASADOS EN LA DISTRIBUCIÓN DE RANGO STUDENTIZADO

4.3 BASADAS EN LA DISTRIBUCIÓN F

4.4 BASADAS EN UNA PRUEBA T PROTEGITA

4.5 BASADAS EN LA COMPARACIÓN CON UN CONTROL

1.1 ¿Cómo saber que prueba usar?

Para tomar la decisión el investigador debe considerar los siguientes aspectos:

1. El número de comparaciones (C ) que la hipótesis plantea:

 Comparaciones exhaustivas (a posteriori): El contraste de hipótesis específicas es exhaustivo

 Comparaciones planificadas (a priori): Cuando el número de comparaciones que hay que

2. Si las hipótesis experimentales :

 Test de Mann-Whitney entre cada par de grupos con corrección de significancia.

También podría gustarte