Cap 07. Analisi de La Varianza.

Descargar como doc, pdf o txt
Descargar como doc, pdf o txt
Está en la página 1de 15

7.

ANÁLISIS DE VARIANZA

7.1. Introducción
El análisis de varianza es una técnica estadística para comprobar si son iguales
las medias de más de dos poblaciones mediante el análisis y la comparación de
diversos tipos de varianzas muestrales insesgadas.
El nombre de análisis de varianza (ANOVA) que se da a esta prueba de varias
medias, proviene del hecho de que este método se basa en la comparación de
varianzas estimadas de diversas fuentes.
En este capítulo consideraremos el problema de decidir si las diferencias
observadas entre más de dos medias muestrales se puede atribuir a la casualidad
ó si existen diferencias reales entre las medias de las poblaciones muestreadas.
Por ejemplo podemos desear decidir, con base en datos muestrales, si existen
diferencias:
- En la efectividad de tres métodos de enseñanza de estadística
- En las ventas mensuales promedio de varios agentes de seguros
- En el kilometraje promedio que se obtiene con 4 tipos de gasolina
- En la durabilidad de cinco tipos de alfombras.
El método que presentamos para este fin es una poderosa herramienta estadística
conocida como ANALISIS DE VARIANZA o ANOVA para abreviar.
La técnica conocida como análisis de varianza ( ANOVA) nos permitirá probar la
significación de las diferencias entre más de dos medias muestrales. Usando el
análisis de varianza, seremos capaces de hacer inferencias acerca de si las
muestras fueron tomadas de poblaciones que tienen la misma media.

7.2. Diferencias entre a medias


Si 1, 2, ......, y a son las medias de a poblaciones y se toma una muestra de
cada una de ellas, se prueba la hipótesis nula:

H0: 1 = 2 = ...... = a
contra la hipótesis alternativa

H1: 1, 2, ......,a, no son todas iguales.

1
Resulta evidente que la hipótesis nula se cumplirá si las diferencias entre las
medias muestrales fuesen pequeñas y, por el contrario, se cumplirá la hipótesis
alternativa si las diferencias entre las medias muestrales fuesen grandes.
Con el fin de usar el ANOVA, se supone que cada una de las muestras es tomada
de una población normal y que cada una de tales poblaciones tiene la misma
varianza,  2 . Sin embargo, si los tamaños de las muestras son suficientemente
grandes, no es necesaria la suposición de normalidad.
El análisis de varianza está basado en una comparación de dos estimaciones
diferentes de la varianza  2 , de la población total. Luego se comparan estas dos
estimaciones de la varianza de la población, como ambas son estimaciones de
 2 , deben tener un valor aproximadamente igual cuando la hipótesis nula es
verdadera. Si la hipótesis nula no es verdadera, estas dos estimaciones diferirán
de manera considerable.

7.3. Diseño de experimentos


La experimentación forma parte importante del proceso de desarrollo de toda
ciencia. En las diferentes ramas de la ingeniería, la realización de experimentos
contribuye a incrementar el conocimiento acerca de los diferentes fenómenos
que ocurren en la naturaleza.
En estadística, la principal preocupación es el estudio de la variabilidad de la
variable respuesta. La búsqueda de técnicas que permitan conocer las diferentes
fuentes que originan la variabilidad ha dado lugar a los denominados diseños
experimentales.
Un diseño experimental es un procedimiento estadístico que tiene en cuenta los
siguientes aspectos:
 Los objetivos de la investigación
 Las unidades experimentales (si son homogéneas o no)
 Los factores y niveles que serán analizados (Un factor es una variable de
interés y los valores que asume son denominados niveles)
 La forma de asignarse los tratamientos (aleatoria) a las unidades
experimentales (Un tratamiento es el nivel de un factor o la combinación de
los niveles de varios factores)
 El número de repeticiones de cada tratamiento (observaciones o réplicas)
 El bloqueo de las unidades experimentales. (Un bloque es utilizado para
controlar la heterogeneidad de las unidades experimentales).
 La pérdida de unidades experimentales
 El tipo de variable que se registra como respuesta a la aplicación de los
tratamientos (intervalo, razón u ordinal) para determinar si se deben aplicar
técnicas paramétricas o no paramétricas.
2
Como toda técnica estadística, un diseño experimental busca la objetividad
científica para obtener conclusiones.

La aplicación de los diseños experimentales a los procesos de producción


contribuye en forma significativa a mejorar su rendimiento, reducir costos,
disminuir tiempos de operación, cumplir con los estándares exigidos, etc.

Enumerar todas las aplicaciones de los diseños experimentales sería imposible,


algunas de ellas son:
 Evaluación y comparación de diferentes máquinas, equipos de trabajo,
procedimientos de trabajo.
 Evaluación y comparación de diferentes raciones alimenticias.
 Evaluación y comparación de diferentes materiales.
 Selección de parámetros de diseño con la finalidad de que el producto trabaje
en diferentes condiciones.
 Evaluación de formas de comercialización, de distribución, de ventas.

Finalmente, es necesario mencionar, que los experimentos son ejecutados en


forma continua. Es decir, los resultados de un experimento previo son utilizados
para refinar y ajustar las variables para el siguiente experimento, de tal manera
que el objetivo del experimento sea la optimización (determinación de los
niveles de los factores que producen el mejor desempeño del proceso).

Cada diseño experimental está asociado a un modelo matemático específico. Los


modelos se clasifican según el número de variables que han de ser probadas. Si
es una variable, el modelo se denomina de un sólo factor o de clasificación
simple. Si son dos variables, el modelo se denomina de dos factores o de
clasificación doble.

7.4. Diseño completamente al azar


El diseño completamente al azar es el diseño experimental más sencillo y
consiste en el análisis de varianza de un factor (One-way Anova).

Suponer que se tiene a niveles diferentes de un solo factor y que se desea


compararlos. A veces cada nivel del factor se conoce como tratamiento. La
respuesta para cada uno de los a tratamientos, es una variable aleatoria.

Los datos observados pueden aparecer tal como se muestra en la siguiente tabla.
Una entrada de esta tabla, por ejemplo Yij , representa la j-ésima observación
tomada bajo el tratamiento i .

3
OBSERVACIÓN
TRATAMIENTO 1 2 3 · · · n TOTAL
1 Y11 Y12 Y13 · · · Y1n Y1
2 Y21 Y22 Y23 · · · Y2 n Y2
3 Y31 Y32 Y33 · · · Y3n Y3
· · · · · · ·
· · · · · · ·
· · · · · · ·
a Ya1 Ya 2 Ya 3 · · · Yan Ya 
TOTAL Y1 Y2 Y3 · · · Yn Y

Las observaciones de la tabla pueden describirse con el modelo aditivo lineal de


un diseño completamente al azar.

i = 1, 2, ..., a (i indica tratamiento)


Yij     i   ij j = 1, 2, ..., n (j indica repetición )
N = an (Total de observaciones)

 Yij es una variable aleatoria que denota la (ij)-ésima observación.


a

 µ es un parámetro común, conocido como la media poblacional:  i


 i 1
a
 i es un parámetro denominado efecto del i-ésimo tratamiento.
  ij es un término que representa el error aleatorio:  ij  N(µ,  2 )

Si µi = µ + i, entonces:

i = 1, 2, ..., a (i indica tratamiento)


Yij  i   ij j = 1, 2, ..., n (j indica repetición )
N = an (Total de observaciones)

donde µi = µ + i es la media del i-ésimo tratamiento.

En esta forma del modelo, se observa que cada tratamiento define una población
que tiene una media µi, consistente de la media global µ más un efecto i que se
debe al tratamiento.

Aquí se supondrá que los errores  ij están distribuidos de manera normal e


independiente, con media cero y varianza  2 . Por lo tanto, cada tratamiento
puede considerarse como una población normal con media µ, y varianza  2 .
Los a niveles del factor en el experimento pueden elegirse de dos maneras
diferentes. Primero, el experimentador puede seleccionar de manera específica
4
los a tratamientos. En esta situación, se desea probar hipótesis sobre las medias
de los tratamientos, y las conclusiones no pueden extenderse a tratamientos
similares que no fueron considerados. Asimismo, tal vez, se desee estimar los
efectos de los tratamientos. Esto se conoce como modelo de efectos fijos.

Como alternativa, los a tratamientos pueden ser una muestra aleatoria de una
población grande de tratamientos. En esta situación, lo que se desea es estar en
posibilidad de extender las conclusiones (las cuales se basan en la muestra de los
tratamientos) a todos los tratamientos contenidos en la población, ya sea que
hayan sido o no considerados en el experimento. En este caso, los efectos de los
tratamientos i son variables aleatorias, y el conocimiento sobre aquellos
investigados tiene relativa poca importancia. En su lugar, se prueban hipótesis
sobre la variabilidad de los i y se hacen intentos por estimar esta variabilidad.
Esto se conoce como modelo de efectos aleatorios o de componentes de
varianza.

En este capítulo se desarrolla el análisis de varianza para el modelo de efectos


fijos; es decir, el experimentador elige los efectos.

MODELO DE EFECTOS FIJOS: En este modelo, los efectos de los tratamientos i,
usualmente se definen como desviaciones de la media global µ de modo que
a
 i  0
i 1

Podemos expresar lo siguiente:


a
 Total de observaciones de la j-ésima repetición:  Yij  Y j
i 1
n
 Total de observaciones en el i-ésimo tratamiento:  Yij  Yi
j 1
n
 Yij
 Promedio de las observaciones bajo el i-ésimo tratamiento: Y i  j 1

n
a n

 Total de observaciones: Y    Yij


i 1 j 1
a n
 Yij
 Promedio General: Y  
Y
 i 1 j 1

N N
 Total de observaciones: N=an

OBJETIVO: Probar la igualdad de las medias 1, 2,..., a de los a tratamientos.

H0: 1 = 2 = ...... = a (1= 2 = ... = a= 0)


5
H1: Al menos dos i son diferentes (i  0)

Si la H0 es verdadera, cada observación consiste de una media µ más un


componente aleatorio ij. Todas las N observaciones son de una distribución
normal con media µ y variancia  2 . El cambio en los niveles del factor no tiene
efectos sobre la respuesta promedio.

ANÁLISIS DE VARIANCIA DEL DISEÑO COMPLETAMENTE AL AZAR (ANOVA):


Las formulas para determinar las diferentes sumas de cuadrados son las
siguientes,

 SCTotal = SCTratamientos + SCError


a n a n
Y2
 SCTotal =   (Yij  Y  )    Yij 
2 2

i 1 j 1 i 1 j 1 N
a
Yi 2 Y2
a
SCTratamientos = n  (Y i   Y  )   
2

i 1 i 1 n N
a n

 SCError =   (Yij  Y i  )
2

i 1 j  1

Los grados de libertad se descomponen de la siguiente forma:

 GLTotal = GLTratamientos + GLError


an – 1 = (a – 1) + a(n – 1)

Suponiendo que  12   22  ...   a2 (varianzas homogéneas) el procedimiento


apropiado de prueba de hipótesis es calcular el estadístico de prueba:

SC ( a  1) CM Tratamientos
Tratamientos
F0 = SC  ~ F( a 1),a ( n 1)
Error a ( n  1) CM Error

La regla de decisión es:


(a) Aceptar H0 si F0 < F1 ,( a 1),a ( n 1)
(b) Rechazar H0 si F0 > F1 ,( a 1),a ( n 1)

La tabla para el análisis de varianza para la igualdad de medias de a poblaciones


bajo la suposición de varianzas homogéneas es:

6
FUENTE DE GRADOS DE SUMA DE CUADRADO F0
VARIACIÓN LIBERTAD CUADRADOS MEDIO
Factor SCTratamient os SCTratamient os ( a  1)
a–1 SCTratamientos SC Error a ( n  1)
(entre grupos) ( a  1)
Error (dentro SC Error
a(n – 1) SCError a ( n  1)
de grupos)
Total an – 1) SCTotal

Donde:

SCTratamientos SC Error CM Tratamientos


CM Tratamientos  CM Error  F0 = CM
( a  1) a ( n  1) Error

ESTIMADORES PUNTUALES:
n

̂  Y   Yij ˆi  Y i  Y 
̂i  Y i  i 1
n

INTERVALO DE CONFIANZA PARA LA MEDIA DE UN TRATAMIENTO:

CM Error
i  Y i   t1 2 , a ( n 1)
ni

INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS DE DOS


TRATAMIENTOS:

1 1 
 i   k  Y i  Y k   t1 2 ,a ( n 1) CM Error   
 ni nk 

Ejemplo 1.- Un fabricante de bolsas de plástico para caramelos esta interesado


en mejorar la resistencia a la tensión de su producto. El ingeniero responsable
del área de investigación piensa que la resistencia a la tensión es una función de
la concentración de la materia prima entre 5% y 20%. Entonces, decide
investigar cuatro niveles de concentración de materia prima: 5, 10 15 y 20%.
Para tal fin, deciden fabricar seis bolsas de prueba para cada nivel de
7
concentración; las 24 bolsas se someten a una prueba en un instrumento de
laboratorio para medir la tensión, en forma aleatoria. Los datos resultantes son:

OBSERVACIÓN
MATERIA PRIMA
1 2 3 4 5 6 TOTAL
(TRATAMIENTO)
5 7 8 15 11 9 10 60
10 12 17 13 18 19 15 94
15 14 18 19 17 16 18 102
20 19 25 22 23 18 20 127
TOTAL 52 68 69 69 62 63 383

Se tienen cuatro niveles del factor y seis observaciones o repeticiones. Existe


variabilidad de las observaciones dentro de un tratamiento y variabilidad de las
observaciones entre tratamientos.

i = 1, 2, ..., 4
Yij    i   ij j = 1, 2, ..., 6
N = an = 4  6 = 24

a
Y2
n
(383) 2
 SCTotal    Y 
2
= 72  82  ..  202 
ij  512.9583
i 1 j 1 N 24

Yi 2
a
Y2 602  942  1022  1272 (383) 2
 SCTratamientos =   =   382.7917
i 1 n N 6 24

 SCError = SCTotal  SCTratamientos = 512.9583  382.7917 = 130.1666

ESTIMADORES PUNTUALES:
ˆ  15.95833 ˆ1  10 ˆ 2  15.6 ˆ 3  17 ˆ 4  21.166

ˆ1  10  15.9583  5.9583 ˆ2  15.6  15.9583  0.3583

ˆ3  17  15.9583  1.0417 ˆ4  21.16  15.9583  5.2017


INTERVALO DE CONFIANZA PARA LA MEDIA DE UN TRATAMIENTO:
6.51 6.51
1  10  2.086  2  15.6  2.086
6 6

6.51 6.51
 3  17  2.086 4  21.166  2.086
6 6

8
INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS DE DOS
TRATAMIENTOS:

1 1
1   2  10  15.6  2.086 6.51  
6 6

PRUEBA DE HIPÓTESIS

1. H0: 1 = 2 = 3 = 4 (1= 2 = 3 = 4 = 0)
H1: Al menos dos i son diferentes (i  0)
2. Nivel de significación  = 0.01 (1%)
3. Distribución muestral F y estadístico de prueba F0
4. Para  = 0.01, una prueba de cola derecha, v1 = a – 1 = 4 – 1 = 3 gl y
v2 = a(n – 1) = 4(6 – 1) = 20 gl, la regla de decisión es:
(a) Aceptar H0 si F0 < +4.9382 (F0 < F1 ,v ,v = +4.9382)
1 2

(b) Rechazar H0 si F0 > +4.9382 (F0 > F1 ,v ,v = +4.9382)


1 2

5. Muestras aleatorias:
FUENTE DE VARIABILIDAD GL SC CM F0
Tratamientos (Concentración) 3 382.7917 127.5972 19.6053
Error 20 130.1666 6.5083
Total 23 512.9583

6. F0 = 19.6053 > Fc = +4.9382


Cae en la región de rechazo, por tanto se rechaza H0 y se acepta H1 con un
nivel de significación de 0.01.
7. CONCLUSIÓN: La concentración de materia prima afecta de manera
significativa la resistencia de la bolsa de plástico.

MINITAB:

One-way ANOVA: resistencia versus concentración


Analysis of Variance for resisten
Source DF SS MS F P
Concentración 3 382.79 127.60 19.61 0.000
Error 20 130.17 6.51
Total 23 512.96
Individual 95% CIs For Mean
Based on Pooled StDev
Level N Mean StDev -----+---------+---------+---------+-
5 6 10.000 2.828 (---*---)
9
10 6 15.667 2.805 (---*----)
15 6 17.000 1.789 (---*---)
20 6 21.167 2.639 (---*----)
-----+---------+---------+---------+-
Pooled StDev = 2.551 10.0 15.0 20.0 25.0

Ejemplo 2.- Una empresa industrial ha adquirido 3 máquinas nuevas de


diferentes marcas y desea determinar si una de ellas es más rápida que las otras
en la producción de cierto producto. Cifras de cinco horas de producción de cada
máquina son observadas al azar y los resultados se presentan en el cuadro
siguiente:

OBSERVACIÓN
MÁQUINA
1 2 3 4 5 TOTAL
(TRATAMIENTO)
1 25 30 36 38 31 160

10
2 31 39 38 42 35 185
3 24 30 28 25 28 135
TOTAL 80 99 102 105 94 480

1. H0: 1 = 2 = 3 (1= 2 = 3 = 0)
H1: Al menos dos i son diferentes (i  0)
2. Nivel de significación  = 0.01 (1%)
3. Distribución muestral F y estadístico de prueba F0
4. Para  = 0.01, una prueba de cola derecha, v1 = a – 1 = 3 – 1 = 2 gl y
v2 = a(n – 1) = 3(5 – 1) = 12 gl, la regla de decisión es:
(a) Aceptar H0 si p-value > 
(b) Rechazar H0 si p-value < 
5. Muestras aleatorias:

One-way ANOVA: velocidad versus maquina


Analysis of Variance for velocidad
Source DF SS MS F P
maquina 2 250.0 125.0 7.50 0.008
Error 12 200.0 16.7
Total 14 450.0
Individual 95% CIs For Mean
Based on Pooled StDev
Level N Mean StDev ----+---------+---------+---------+--
1 5 32.000 5.148 (-------*-------)
2 5 37.000 4.183 (-------*-------)
3 5 27.000 2.449 (-------*-------)
----+---------+---------+---------+--
Pooled StDev = 4.082 25.0 30.0 35.0 40.0

6. P-value = P = 0.008 <  = 0.01


Cae en la región de rechazo, por tanto se rechaza H0 y se acepta H1 con un
nivel de significación de 0.01.
7. CONCLUSIÓN: Por lo menos dos de las tres máquinas son significativamente
diferentes en sus velocidades medias o los efectos de las máquinas son
significativos.

Ejemplo 3.- Tres tipos distintos de motores de gasolina fueron probados para
precisar cuanto tiempo son útiles antes de necesitar una reparación; si los
tiempos de vida de los motores de cada tipo se distribuyen normalmente y tienen
la misma varianza, hacer una prueba usando  = 0.05 para hallar si difieren las
medias de vida útil antes de requerir una reparación. En la siguiente tabla
aparecen los tiempos de vida útil, en decenas de miles de kilómetros, para cada
tipo de motor.
OBSERVACIÓN
TIPO DE MOTOR 1 2 3 4 5 TOTAL
11
(TRATAMIENTO)
A 6 2 4 1 7 20
B 8 7 7 2 6 30
C 3 2 5 4 1 15
TOTAL 17 11 16 7 14 65

1. H0: 1 = 2 = 3 (1= 2 = 3 = 0)
H1: Al menos dos i son diferentes (i  0)
2. Nivel de significación  = 0.05 (5%)
3. Distribución muestral F y estadístico de prueba F0
4. Para  = 0.05, una prueba de cola derecha, v1 = a – 1 = 3 – 1 = 2 gl y
v2 = a(n – 1) = 3(5 – 1) = 12 gl, la regla de decisión es:
(a) Aceptar H0 si p-value > 
(b) Rechazar H0 si p-value < 
5. Muestras aleatorias:
One-way ANOVA: vidautil versus motor
Analysis of Variance for vidautil
Source DF SS MS F P
motor 2 23.33 11.67 2.41 0.132
Error 12 58.00 4.83
Total 14 81.33
Individual 95% CIs For Mean
Based on Pooled StDev
Level N Mean StDev ------+---------+---------+---------+
A 5 4.000 2.550 (----------*----------)
B 5 6.000 2.345 (----------*----------)
C 5 3.000 1.581 (----------*----------)
------+---------+---------+---------+
Pooled StDev = 2.198 2.0 4.0 6.0 8.0

8. P-value = P = 0.132 >  = 0.05


Cae en la región de aceptación, por tanto se acepta H0 con un nivel de
significación de 0.05.
9. CONCLUSIÓN: No tenemos evidencia estadística para afirmar que los tiempos
de vida útil de los motores, antes de requerir reparación son diferentes. Las
diferencias entre las medias muestrales pueden ser atribuidas al error
muestral.

Ejemplo 4.- En un estudio de diez años se ha observado una muestra de 15


personas que han usado las pastas dentales R, S o T respectivamente. Suponer
que cinco de los participantes se han asignado en forma aleatoria a cada uno de
los tratamientos y que el estudio ha proporcionado los siguientes datos del
número de caries observadas durante un periodo de 10 años. Hacer una prueba
de hipótesis usando  = 0.01.

OBSERVACIÓN
PASTA DENTAL 1 2 3 4 5 TOTAL
12
(TRATAMIENTO)
R 19 15 22 17 19 92
S 20 25 22 19 23 109
T 18 12 16 17 15 78
TOTAL 57 52 60 53 57 279

1. H0: 1 = 2 = 3 (1= 2 = 3 = 0)
H1: Al menos dos i son diferentes (i  0)
2. Nivel de significación  = 0.01 (1%)
3. Distribución muestral F y estadístico de prueba F0
4. Para  = 0.01, una prueba de cola derecha, v1 = a – 1 = 3 – 1 = 2 gl y
v2 = a(n – 1) = 3(5 – 1) = 12 gl, la regla de decisión es:
(a) Aceptar H0 si p-value > 
(b) Rechazar H0 si p-value < 
5. Muestras aleatorias:
One-way ANOVA: caries versus pasta
Analysis of Variance for caries
Source DF SS MS F P
pasta 2 96.40 48.20 8.12 0.006
Error 12 71.20 5.93
Total 14 167.60
Individual 95% CIs For Mean
Based on Pooled StDev
Level N Mean StDev ------+---------+---------+---------+
R 5 18.400 2.608 (-------*-------)
S 5 21.800 2.387 (-------*-------)
T 5 15.600 2.302 (-------*-------)
------+---------+---------+---------+
Pooled StDev = 2.436 15.0 18.0 21.0 24.0

6. P-value = P = 0.006 <  = 0.01


Cae en la región de rechazo, por tanto se rechaza H0 y se acepta H1 con un
nivel de significación de 0.01.
7. CONCLUSIÓN: Las tres pastas dentales tienen efectos diferentes con un nivel
de significación de 1%.

Ejemplo 5.- Un grupo de ingenieros de seguridad analizó el porcentaje de gas


metano en el aire en tres minas de carbón a través del análisis en tierra de seis
recipientes de aire seleccionados al azar de cada mina
PRIMERA MINA 0.4 1.7 7.2 1.9 4.8 6.1
SEGUNDA MINA 2.0 1.8 4.0 4.6 1.1 0.9
TERCERA MINA 3.7 1.9 0.6 3.9 3.0 1.4

Utilizar un nivel de significación de 0.05 para probar si las diferencias entre las
medias de las tres muestras son significativas.
13
1. H0: 1 = 2 = 3 (1= 2 = ... = 3 = 0)
H1: Al menos dos i son diferentes (i  0)
2. Nivel de significación  = 0.05 (5%)
3. Distribución muestral F y estadístico de prueba F0
4. Para  = 0.05, una prueba de cola derecha, v1 = a – 1 = 3 – 1 = 2 gl y
v2 = a(n – 1) = 3(6 – 1) = 15 gl, la regla de decisión es:
(a) Aceptar H0 si p-value > 
(b) Rechazar H0 si p-value < 
5. Muestras aleatorias:
One-way ANOVA: metano versus mina
Analysis of Variance for metano
Source DF SS MS F P
mina 2 6.50 3.25 0.84 0.451
Error 15 58.00 3.87
Total 17 64.50
Individual 95% CIs For Mean
Based on Pooled StDev
Level N Mean StDev ------+---------+---------+---------+
1 6 3.683 2.733 (-----------*----------)
2 6 2.400 1.540 (----------*----------)
3 6 2.417 1.326 (----------*-----------)
------+---------+---------+---------+
Pooled StDev = 1.966 1.5 3.0 4.5 6.0

6. P-value = P = 0.451 >  = 0.05


Cae en la región de aceptación, por tanto se acepta H0 con un nivel de
significación de 0.05.
7. CONCLUSIÓN: Las diferencias entre las medias de las tres muestras no son
significativas con un nivel de significación de 5%.

Ejemplo 6.- Se seleccionan al azar muestras de cinco madejas de hilo para tejer
del mismo tipo y peso de tres fabricantes y la longitud de cada madeja se mide
en metros.
MARCA A 511 486 510 512 486
MARCA B 490 520 484 496 485
MARCA C 478 513 503 505 516

Probar con un nivel de significación de 0.05 si las diferencias observadas entre


las medias de las tres muestras son significativas.

14
1. H0: 1 = 2 = 3 (1= 2 = 3 = 0)
H1: Al menos dos i son diferentes (i  0)
2. Nivel de significación  = 0.05 (5%)
3. Distribución muestral F y estadístico de prueba F0
4. Para  = 0.05, una prueba de cola derecha, v1 = a – 1 = 3 – 1 = 2 gl y
v2 = a(n – 1) = 3(6 – 1) = 15 gl, la regla de decisión es:
(a) Aceptar H0 si p-value > 
(b) Rechazar H0 si p-value < 
5. Muestras aleatorias:
One-way ANOVA: longitud versus marca
Analysis of Variance for longitud
Source DF SS MS F P
marca 2 173 87 0.41 0.671
Error 12 2522 210
Total 14 2695
Individual 95% CIs For Mean
Based on Pooled StDev
Level N Mean StDev ----------+---------+---------+------
A 5 501.00 13.71 (-------------*-------------)
B 5 495.00 14.76 (-------------*-------------)
C 5 503.00 14.98 (-------------*-------------)
----------+---------+---------+------
Pooled StDev = 14.50 490 500 510

6. P-value = P = 0.671 >  = 0.05


Cae en la región de aceptación, por tanto se acepta H0 con un nivel de
significación de 0.05.
7. CONCLUSIÓN: Las diferencias observadas entre las medias de las tres
muestras no son significativas con un nivel de significación de 5%.

15

También podría gustarte