Análisis Covarianza - DCA

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 9

ANÁLISIS DE COVARIANZA

Introducción
En el análisis de covariancia se combinan los conceptos del análisis de variancia para un diseño
experimental y de regresión. El análisis de covariancia es utilizado en casos en los que la variable
respuesta de un diseño experimental esté relacionada con una o más variables concomitantes. En
este capítulo se tratará el caso de la covariancia lineal con una sola variable concomitante y se
presentará el análisis para el DCA y DBCA. Primero se desarrollará para DCA

PARA DCA

Modelo lineal aditivo


El modelo aditivo lineal para un análisis de covariancia en un Diseño de Completos al Azar es el
siguiente:

𝑌𝑖𝑗 = 𝜇 + 𝜏𝑖 + 𝛽(𝑋𝑖𝑗 − 𝑋̄•• ) + 𝜀𝑖𝑗 𝑖 = 1, … , 𝑡 𝑗 = 1, … , 𝑟

donde:

Yij : es el valor o rendimiento observado en el i-ésimo tratamiento, j-ésimo repetición.


μ : es el efecto de la media general.
τi : es el efecto del i-ésimo tratamiento.
β : es el coeficiente de regresión lineal de X sobre Y.
Xij : es el valor de la variable independiente en el i-ésimo tratamiento, j-ésimo repetición.
𝑋̄•• : es la media de la variable independiente.
εij es el efecto del error experimental en el i-ésimo tratamiento, j-ésimo repetición.
t es el número de tratamientos.
r es el número de repeticiones.

Supuestos del análisis covarianza


● La variable X es fija, medida sin error y no es afectada por los tratamientos.
● Las variables X e Y deben tener varianzas homogéneas en los tratamientos.
● Las variables X e Y deben tener distribución normal.
● La regresión de X sobre Y, debe ser lineal.
● Los errores se distribuyen independientemente de forma normal con media cero y con
varianza constante 𝜎 2

Análisis de covarianza
La metodología para efectuar el Análisis de Covariancia se resume a continuación:
Análisis de covarianza de un experimento de un solo factor con una covariable
Grados Suma de cuadrados y productos Ajustados para la regresión
Fuente de
de
variación
libertad 𝑋 𝑋𝑌 𝑌 𝑆𝐶𝑎𝑗. 𝐺𝐿𝑎𝑗. 𝐶𝑀𝑎𝑗.
Tratamien
𝑡−1 𝑇𝑥𝑥 𝑇𝑥𝑦 𝑇𝑦𝑦
tos
𝑆𝑆𝐸
2 𝑀𝑆𝐸 =
Error 𝑡(𝑟 − 1) 𝐸𝑥𝑥 𝐸𝑥𝑦 𝐸𝑦𝑦 𝑆𝑆𝐸 = 𝐸𝑦𝑦 − (𝐸𝑥𝑦 ) /𝐸𝑥𝑥 𝑡(𝑟 − 1) − 1 𝑡(𝑟 − 1) − 1

2
Total 𝑡𝑟 − 1 𝑆𝑥𝑥 𝑆𝑥𝑦 𝑆𝑦𝑦 𝑆𝑆′𝐸 = 𝑆𝑦𝑦 − (𝑆𝑥𝑦 ) /𝑆𝑥𝑥 𝑡𝑟 − 2
𝑆𝑆𝐸′ − 𝑆𝑆𝐸
Tratamientos ajustados 𝑆𝑆𝐸′ − 𝑆𝑆𝐸 𝑡−1
𝑡−1

Los pasos para la construcción del cuadro ANCOVA son los siguientes:

1) Calcular los grados de libertad de las fuentes de variación.

2) Calcular las sumas de cuadrados totales X e Y, y la suma de productos total.

t r 𝑡 𝑟 𝑡 𝑟

𝑆𝑥𝑥 = ∑ ∑ 𝑋𝑖𝑗2 − 𝑇𝐶𝑥 𝑆𝑥𝑦 = ∑ ∑ Xij Yij − 𝑇𝐶𝑥𝑦 𝑆𝑦𝑦 = ∑ ∑ 𝑌𝑖𝑗2 − 𝑇𝐶𝑦
i=1 j=1 𝑖=1 𝑗=1 𝑖=1 𝑗=1

Donde:

𝑋..2 𝑋.. × 𝑌.. 𝑌..2


𝑇𝐶𝑥 = 𝑇𝐶𝑥𝑦 = 𝑇𝐶𝑥 =
𝑛 𝑛 𝑛

n = total de observaciones

3) Calcule la suma de cuadrados en X e Y, y la suma de productos para cada una de las


fuentes de variación.

Para tratamientos

𝑡 𝑡 𝑡
𝑋𝑖.2 𝑋𝑖. 𝑌𝑖. 𝑌𝑖.2
𝑇𝑥𝑥 =∑ − 𝑇𝐶𝑥 𝑇𝑥𝑦 =∑ − 𝑇𝐶𝑥𝑦 𝑇𝑦𝑦 = ∑ − 𝑇𝐶𝑦
𝑟𝑖 𝑟𝑖 𝑟𝑖
𝑖=1 𝑖=1 𝑖=1

Para el error por diferencia

𝐸𝑥𝑥 = 𝑆𝑥𝑥 − 𝑇𝑥𝑥 𝐸𝑥𝑦 = 𝑆𝑥𝑦 − 𝑇𝑥𝑦 𝐸𝑦𝑦 = 𝑆𝑦𝑦 − 𝑇𝑦𝑦


4) Calcular las sumas de cuadrados ajustados

2
𝐸𝑥𝑦 2
𝑆𝑥𝑦
𝑆𝐶𝐸 = 𝐸𝑦𝑦 − 𝑆𝐶′𝐸 = 𝑆𝑦𝑦 −
𝐸𝑥𝑥 𝑆𝑥𝑥

5) Calcule los cuadrados medios ajustados y sus grados de libertad

Pruebas de hipótesis
Para la influencia de la covariable en el experimento

a) Planteamiento de hipótesis:

H0: β = 0 (La variable respuesta no depende linealmente de la covariables)


H1: β ≠ 0 (La variable respuesta depende linealmente de la covariables)

b) Nivel de significancia: 𝛼

c) Estadístico de prueba

2
𝐸𝑥𝑦
𝐸𝑥𝑦
𝐹𝑐𝑎𝑙 = ~𝐹1,𝑡(𝑟−1)−1
𝑀𝑆𝐸

d) Criterio de decisión

Se rechaza H0 si Fcal > 𝐹1,𝑡(𝑟−1)−1

e) Conclusión

Prueba de medias ajustadas


Si la variable respuesta depende linealmente de la covariable, entonces las medias simples
deben corregirse por intervención de esta, y se denominan medias ajustadas.
La siguiente prueba de hipótesis verifica si el efecto de al menos uno de los tratamientos
influye sobre la media ajustada de la variable respuesta.

a) Planteamiento de hipótesis:

H0: 𝜇1.𝑎𝑗 = 𝜇2.𝑎𝑗 = . . . = 𝜇𝑡.𝑎𝑗 ∀ 𝑖 = 1,2, . . . 𝑡

H1: Al menos un 𝜇𝑖.𝑎𝑗 es distinto a los demás


b) Nivel de significancia: 𝛼

c) Estadístico de prueba

𝑆𝑆′𝐸 − 𝑆𝑆𝐸
𝑡−1 𝐶𝑀𝑇𝑟𝑎𝑡 𝑎𝑗
𝐹𝑐𝑎𝑙 = 𝑆𝑆𝐸
= ~𝐹𝑡−1,𝑡(𝑟−1)−1
𝑀𝑆𝐸
𝑡( 𝑟 − 1) − 1

d) Criterio de decisión

Se rechaza H0 si Fcal > 𝐹1−𝛼,𝑡−1,𝑡(𝑟−1)−1

e) Conclusión

Las medias de los tratamientos ajustadas


Todas las pruebas para comparación de medias vistas anteriormente pueden ser aplicadas, aunque
en este caso, se deberá trabajar con las medias de la variable respuesta de cada tratamiento
ajustadas por la regresión. Para efectuar el ajuste, calcule primero el coeficiente de regresión
estimado, el cual es dado por:

𝐸𝑋𝑌
𝛽̂ =
𝐸𝑋𝑋
Las medias de Y para el tratamiento i (i=1, 2, …, t) ajustada por la regresión están dadas por:

Yi• aj. = Yi• − ˆ ( X i• − X •• )

Comparación de medias de tratamientos


Para aplicar la comparación de medias de tratamientos se debe utilizar las medias de los
tratamientos ajustados por la regresión.
Las desviaciones estándar para cada una de las pruebas son:
Pruebas de Comparación Desviación estándar
1 1 (𝑋̅𝑖. − 𝑋̅𝑗. )2
t y DLS 𝑆𝑑 = √𝑀𝑆𝐸 ( + + )
𝑟𝑖 𝑟𝑗 𝐸𝑥𝑥

𝑀𝑆𝐸 1 1 (𝑋̅𝑖. − 𝑋̅𝑗. )2


Tukey 𝑆𝑑 = √ ( + + )
2 𝑟𝑖 𝑟𝑗 𝐸𝑥𝑥

1 1 (𝑋̅𝑖. − 𝑋̅𝑇. )2
Dunnet 𝑆𝑑 = √𝑀𝑆𝐸 ( + + )
𝑟𝑖 𝑟𝑇 𝐸𝑥𝑥
Estas fórmulas se aplican si el diseño es un DCA con ri y rj repeticiones para el par de
tratamientos que se estén comparando (rT es el número de repeticiones para el tratamiento
testigo)
Ejemplo:
Se tiene un experimento con 3 variedades de trigo y se desea averiguar en qué variedad se tiene
mayor peso en gramos de materia seca de raíces (Y). Se cree que el número de plantas (X) influye
sobre el tamaño de las raíces por lo cual se utilizará el Análisis de Covariancia en este
experimento, el mismo que se lleva a cabo utilizando cinco macetas en invernadero. El diseño
estadístico utilizado es el DCA.

Variedades
Nº de I II III
Maceta X Y X Y X Y
1 6 0.54 8 0.11 4 0.13
2 4 0.56 5 0.20 3 0.15
3 6 0.55 4 0.23 4 0.11
4 4 0.60 5 0.21 4 0.11
5 4 0.59 7 0.09 5 0.10
Total 24 2.84 29 0.84 20 0.60

a) Plantee el modelo estadístico adecuado y explique cada uno de sus componentes en


términos del enunciado.
𝑌𝑖𝑗 = 𝜇 + 𝜏𝑖 + 𝛽(𝑋𝑖𝑗 − 𝑋̄•• ) + 𝜀𝑖𝑗 𝑖 = 1,2,3 𝑗 = 1, . . . ,5

donde:

• Yij es peso de materia seca de raíces observado en la i-ésima variedad de trigo, j-ésima
maceta.
•  es el efecto de la media general.
• i es el efecto del i-ésima variedad de trigo.
•  es el coeficiente de regresión lineal del número de plantas (X) sobre peso de materia
seca de raíces (Y).
• Xij es del número de plantas de la i-ésima variedad de trigo, j-ésima maceta.
• 𝑋̄•• es la media del número de plantas en el experimento.
• εij es el efecto del error experimental en el i-ésima variedad, y en la j-ésima maceta.
b) Presente el cuadro de ANCOVA y realice las pruebas correspondientes.

𝑡 𝑟
2 2 2
732 2
Sxx = ∑ ∑ 𝑋𝑖𝑗 − 𝑇𝐶𝑥 = 6 + 4 + ⋯ + 5 − = 25.73333
15
𝑖=1 𝑗=1
𝑡 𝑟
4.282
Syy = ∑ ∑ 𝑌𝑖𝑗2 − 𝑇𝐶𝑦 = 0.542 + 0.562 + ⋯ + 0.102 − = 0.6253733
15
𝑖=1 𝑗=1

𝑡 𝑟
(73)(4.28)
Sxy = ∑ ∑ 𝑋𝑖𝑗 𝑌𝑖𝑗 − 𝑇𝐶𝑥𝑦 = (6)(0.54) + (4)(0.56) + ⋯ + (5)(0.10) − = -0.4593
15
𝑖=1 𝑗=1

2𝑡
𝑋𝑖• 242 + 292 + 202 732
𝑇𝑋𝑋 =∑ − 𝑇𝐶𝑋 = − = 8.13333
𝑟 5 15
𝑖=1
𝑡
𝑌𝑖•2 2.842 + 0.842 + 0.602 4.282
𝑇𝑌𝑌 = ∑ − 𝑇𝐶𝑌 = − = 0.6050133
𝑟 5 15
𝑖=1
𝑡
𝑋𝑖• 𝑌𝑖• (24)(2.84) + (29)(0.84) + (20)(0.60) (73)(4.28)
𝑇𝑋𝑌 = ∑ − 𝑇𝐶𝑋𝑌 = − = 0.07466
𝑟 5 15
𝑖=1
𝐸𝑋𝑋 = Sxx − 𝑇𝑋𝑋 = 25.73333 − 8.133333=17.6
𝐸𝑌𝑌 = Syy − 𝑇𝑌𝑌 = 0.6253733 − 0.6050133=0.02036

𝐸𝑋𝑌 = Sxy − 𝑇𝑋𝑌 = −0.4593333 − 0.07466667= − 0.53400


2 (−0.534)2
𝐸𝑋𝑌
𝑆S𝐸 = 𝐸𝑌𝑌 − = 0.02036 − = 0.004158
𝐸𝑋𝑋 17.6
𝑆𝐶𝐸 0.004158
MS𝐸 = = = 0.000378
𝐺𝐿𝐸 11
𝑆2 (−0.45933333)2
𝑆S'𝐸 = 𝑆𝑌𝑌 − 𝑠 𝑋𝑌 = 0.6253733 − = 0.6171744
𝑋𝑋 25.733333

Grados Suma de cuadrados y productos Ajustados para la regresión


Fuente de
de
variación
libertad 𝑋 𝑋𝑌 𝑌 𝑆𝐶𝑎𝑗. 𝐺𝐿𝑎𝑗. 𝐶𝑀𝑎𝑗.
Tratamien
2 8.13333 0.07466 0.6050
tos

Error 12 17.6 -0.5340 0.0204 𝑆𝑆𝐸 = 0.004158 11 0.000378

Total 14 25.73333 -0.4593 0.6254 𝑆𝑆′𝐸 = 0.6171744


Tratamientos ajustados 𝑆𝑆𝐸′ − 𝑆𝑆𝐸 = 0.613016 2 0.306508
H0:  = 0
H1:   0
Estas hipótesis con equivalentes a:

H0: El peso materia seca de raíces no depende linealmente del número de plantas de trigo.
H1: El peso materia seca de raíces sí depende linealmente del número de plantas de trigo.
2
𝐸𝑋𝑌 (−0.5340)2
𝐸 17.6
𝐹𝑐 = 𝑋𝑋 = = 42.86255~𝐹0.95,1,11
𝑀𝑆𝐸 0.000378
> pvalue<-1-pf(42.86255,1,11)
> pvalue
[1] 4.15271e-05

Se rechaza la H0 a un nivel de significación del 0.1% , se puede afirmar que el peso materia
seca de raíces sí depende linealmente del número de plantas de trigo.

Hipótesis:

H0: 1 aj. = 2 aj. =3 aj.  i


H1: i aj.  j aj. para al menos algún i,j

Nivel de significancia: α = 0.05

Estadístico de Prueba:

𝑆𝑆′𝐸 − 𝑆𝑆𝐸
𝑡−1 𝐶𝑀𝑇𝑟𝑎𝑡 𝑎𝑗 0.306508
𝐹𝑐𝑎𝑙 = 𝑆𝑆𝐸
= = = 810.8677~𝐹2,11
𝑀𝑆𝐸 0.00378
𝑡( 𝑟 − 1) − 1

> pvalue<-1-pf(Fcal,2,11)
> pvalue
[1] 1.139311e-12

Se rechaza la H0 a un nivel de significación del 0.1%, se puede afirmar que al menos una de
estas variedades de trigo tiene una media de peso seco de raíces diferentes de las otras.

c) Realice la prueba de Tukey

Solución R
Planteamiento de hipótesis

H0: 1 aj. = 2 aj. H0: 1 aj. =3 aj. H0: 2 aj. =3 aj.
Ha: 1 aj. ≠ 2 aj. H0: 1 aj. ≠ 3 aj. H0: 2 aj. ≠ 3 aj.
Nivel de significancia: α = 0.05

d) Utilice la prueba t para evaluar si con la variedad I se obtienen pesos superiores en más de
0.5 gr que con la variedad II.

𝐻0 : 𝜇1.𝑎𝑗 − 𝜇2.𝑎𝑗 ≤ 0.5


𝐻1 : 𝜇1.𝑎𝑗 − 𝜇2.𝑎𝑗 > 0.5 ,
1 1 (4.8 − 5.8)2
Sd = √0.000378 ( + + ) = 0.01314067
5 5 17.6

𝑌̄1.𝑎𝑗 −𝑌̄2.𝑎𝑗 −0.5 0.56597727−0.19631818−0.5


𝑡𝑐 = = = -0.918892
𝑆d 0.01314067

> pvalue<-1-pt(tc,11)
> pvalue
1
0.9999996

Se acepta H0, No se ha encontrado suficiente evidencia estadística para rechazar H0, se puede
aceptar que con la variedad I no se obtienen pesos superiores en más de 0.5 gr. que con la variedad
II.

SOLUCIÓN CON R
Planteamiento de hipótesis
H0:  = 0
H1:   0
Estas hipótesis con equivalentes a:

H0: El peso materia seca de raíces no depende linealmente del número de plantas de trigo.
H1: El peso materia seca de raíces sí depende linealmente del número de plantas de trigo.
Nivel de significancia: α = 0.05

Dado que el p valor fui significativo al nivel de 0.1% (p<0.001), Se rechaza la H0; Por lo tanto,
se puede afirmar que el peso materia seca de raíces sí depende linealmente del número de plantas
de trigo.

Hipótesis:

H0: 1 aj. = 2 aj. =3 aj.


H1: i aj.  j aj. para al menos algún i,j

Nivel de significancia: α = 0.05


Se rechaza la H0 a un nivel de significación del 0.1% (p<0.001), se puede afirmar que al menos
una de estas variedades de trigo tiene una media de peso seco de raíces diferentes de las otras.

e) Realice la prueba de Tukey

Solución R
Planteamiento de hipótesis

H0: 1 aj. = 2 aj. H0: 1 aj. =3 aj. H0: 2 aj. =3 aj.
Ha: 1 aj. ≠ 2 aj. H0: 1 aj. ≠ 3 aj. H0: 2 aj. ≠ 3 aj.
Nivel de significancia: α = 0.05

Al nivel de significación 0.1% se puede afirmar que:


• La variedad de trigo I difiere significativamente de las variedades II y III.
• La variedad de trigo I difiere significativamente de la variedad III.

También podría gustarte