Chp3 M1 Part3

Chapitre 3 : Analyse de la variance
Section III: Ancova 1 facteur
K. Meziani
1/20
K. Meziani Chapitre 3 : Analyse de la variance

Exemple introductif (Toydata)
On cherche à expliquer Y =le salaire en fonction de x =l’âge. On dispose pour
cela de n observations (Yi , xi )i=1,··· ,n
Yi = µ + βxi + ξi , i = 1, · · · , n
4000
3000
Salaire
2000
1000
20 30 40 50 60 70
Age
2/20

Exemple introductif (Toydata)
4000 4000
3000 Genre 3000 Genre

Salaire
Salaire
0 0
1 1
2000 2000
1000 1000
20 30 40 50 60 70 0 1
Age Genre
→ il y a un impact facteur
3/20

ANCOVA 1 facteur
considerons maintenant le cas 1 facteur et une covariable x . On parle de modèle
ANCOVA 1 facteur.
☛ Le facteur avec J modalités.

☛ Yij : l’observation i admettant la modalité j.
☛ xij : observation i de x admettant la modalité j.
☛nj : nombre d’observations Yij associées à la modalité j t.q.:
J
X
nj = n.
j=1
définition Le plan est dit
Complet si ∀j ∈ J , nj ≥ 1,
Imcomplet si ∃j ∈ J , nj = 0,
Équilibré si ∀j ∈ J , nj = I.
4/20

Modèle régulier
modalité 1 ··· modalité J

Yi1 = τ1 + β1 xi1 + εi1 ··· YiJ = τJ + βJ xiJ + εiJ
Modèle régulier:
Yij = τj + βj xij + εij , i ∈ {1, . . . , nj }, j ∈ J

i.i.d.
où εij ∼ N (0, σ 2 ).
☛ Les postulats sont à vérifier comme dans le chpitre 2.

☛ On suppose que la droite de régression diffère suivant les modalités, i.e.
que l’intercept τj et la pente βj diffère suivant les modalités j.
5/20

Modèle régulier : Forme matricielle
Définissons pour tout j ∈ J , les vecteurs Y j ∈ Rnj , ϵj ∈ Rnj , θ j ∈ R2 et les

matrices X j de taille nj × 2 telles que
     
Y1j ε1j 1 x1j
 .   .  τj . .. 
Y j =  ..  , εj =  ..  , θj = et X j =  .. . 
βj
Ynj j εn j j 1 xnj j
Définissons Y ∈ Rn le vecteur réponse, ϵ ∈ Rn le vecteur erreur , θ ∈ R2J le

vecteur des paramètres inconnus et X la matrice design de taille n × 2J
   1  1  
Y1 ϵ θ X1 ··· 0
 ..  . .  .. .. .. 
Y =  . , ϵ =  ..  , θ =  ..  et X = . . . 
YJ ϵJ θJ 0 ··· XJ
6/20

Modèle régulier : Forme matricielle
Yij = τj + βj xij + εij , i ∈ {1, . . . , nj }, j ∈ J
Remarquons que Rank (X ) = 2J, rang plein et Rank (X j ) = 2, ∀j ∈ J .
Modèle de régression linéaire gaussien (ANCOVA 1 facteur) :
Y = Xθ + ϵ ϵ ∼ N (0n , σ 2 I n ).
De plus,
Y j = X j θ j + ϵj ϵj ∼ N (0nj , σ 2 I nj ), ∀j ∈ J .
7/20

Modèle singulier
A partir du Modèle régulier (Yij = τj + βj xij + εij ), on considère la décomposition
suivante de τj + βj xij :
∀ j ∈ {1, . . . , J}, τj + βj xij = (µ + αj ) + (b + cj )xij , où
µ : l’intercept de référence.
µ + αj : l’intercept de la cellule j.
b : Pente de référence.
b + cj : Pente de la cellule j.
modalité 1 ··· modalité J

Yi1 = (µ + α1 ) + (b + c1 )xi1 + εi1 ··· YiJ = (µ + αJ ) + (b + cJ )xiJ + εiJ
Modèle singulier:
Yij = (µ + αj ) + (b + cj )xij + εij , i ∈ {1, . . . , nj }, j ∈ J

i.i.d.
où εij ∼ N (0, σ 2 ).
8/20

Modèle singulier : Forme matricielle
Y ∈ Rn et ϵ ∈ Rn .
∀j ∈ J , x·j = (x1j , · · · , xnj j )T ∈ Rnj .
c = (c1 , . . . , cJ )⊤ ∈ RJ
α = (α1 , . . . , αJ )⊤ ∈ RJ
x ∈ Rn , x ∈ Rn×J , A ∈ Rn×J , c ∈ RJ et α ∈ RJ t.q.
x·1 0 1n1 0
   
 
x·1 ..  .. 
0 x·2 .  0 1n2 . 
 
 . 
x =  ..  , x= , A= ,
 .. ..
.  .. ..
.
. 0 . 0
 
x·J
x·J 1nJ
9/20

Modèle singulier : Forme matricielle
 
µ
n×(2+2J)  α
X = [1n A x x] ∈ R et β =   ∈ R2J+2
b
c
Remarquons que Rank (X) = 2J n’est pas de rang plein .
Modèle de régression linéaire gaussien (ANCOVA 1 facteur) :
Y = µ1n + Aα + xb + xc + ϵ = Xβ + ϵ, ϵ ∼ N (0n , σ 2 I n ).
10/20

Estimation du modèle
Modèle régulier (X ∈ Rn×2J est de rang plein 2J)

θ = arg minθ∈R2J ∥Y − X θ∥2
b
Modèle singulier (X ∈ Rn×(2+2J) n’est pas de rang plein , mais de rang
2J) βb = arg minβ∈R2(J+1) ∥Y − Xβ∥2
Dans ces 2 modèles la prediction est unique:
Y
b = PX Y = X β
b, Y
b = PX Y = X b
θ
θ = (X ⊤ X )−1 X ⊤ Y est unique.

Modèle régulier: b
b n’est pas unique car X n’est pas de rang plein ⇒
Modèle singulier: β
pour exhiber une unique solution, on doit poser
2(J + 1) − Rank (X) = 2(J + 1) − 2J = 2 contraintes.
11/20

contraintes classiques:
1 α1 = c1 = 0.
2 αk = ck = 0 (Choix de la cellule k comme cellule de référence).
PJ PJ
3
j=1
αj = j=1
cj = 0.
PJ PJ
4
j=1
nj αj = j=1
nj cj = 0. (Contrainte d’orthogonalité )
Remarques:
1 (Contrast treatement). Contrainte par défaut sous R.

2 Pour k > 1, utiliser la commande relevel() sous R.
3 (Contrast sum). Sous R, on declare un contr.sum.
4 N’est pas codé dans R, le faire soi-même.
12/20

Quelques Moyennes empiriques (ME):
ME définition
1
Pnj
des observations Yij admettant la modalité j Y ·j = nj i=1
Yij
1
PJ Pnj 1
PJ
de toutes les observations Yij Y ·· = n j=1 i=1
Yij = n j=1
nj Y
1
PJ
de toutes les ME Y ·j Y ·· = J j=1
Y ·j
1
Pnj
de toutes les observations xij x ·j = nj i=1
xij
Pnj
d’ordre 2 de toutes les observations xij x 2 ·j = 1
nj i=1
xij2
1
Pnj
des observations (xij , Yij ) x·j Y·j = nj i=1
xij Yij
13/20

EMCO Dans le Modèle singulier
Proposition Remarquons que ∀j ∈ J := {1, . . . , J}
Estimateurs
x 2 ·j Y ·j −x ·j x·j Y·j x·j Y·j −x ·j Y ·j

Modèle régulier ➡ τbj = βbj =
x 2 ·j −(x ·j )2 x 2 ·j −(x ·j )2
Pas de contraintes
Modèle singulier ➡αb1 = bc1 = 0 bj = τbj − τb1 , ∀j ≥ 2

α
Constr. α1 = c1 = 0 µ
b = τb1 cj = βbj − βb1 , ∀j ≥ 2
b
b = βb1
b
✍ Ici, la solution est donnée uniquement dans le cas de la contrainte 1. Pour les
autres contraintes, un calcul similaire amène auX bons resultats.
14/20

Idée de la preuve
Dans le Modèle régulier, (EMCO) donne θb = (X T X )−1 X T Y car X est de

rang plein .
Les X j sont de rang plein 2 et X matrix est diagonal par bloc, ainsi ∀j ∈ J

τbj −1 j T j
θbj = = (X j )T X j (X ) Y
βbj
Comme Y
bij est unique, il vient
Y
bij = µ
b+α
bj + (b
b +b
cj )xij = τbj + βbj xij
Le result est obtenu en utilisant la contrainte et par identification. □
15/20

Estimation sans biais de σ 2
Proposition
Les estimateurs de la proposition précédentes sont sans biais sous les

postulats [P1]–[P3].
Quelque soit la contrainte contraintee, un estimateur sans biais de σ 2
est PJ Pnj
∥Y − PX Y ∥2 bij − Yij )2
(Y
2 j=1 i=1
σ
b = = .
n − 2J n − 2J
De plus„ sous [P4]
b2
(n − 2J)σ
∼ χ2 (n − 2J).
σ2
Preuve : Cf chapitre 2. □
16/20

Tests
Considérons les modèles suivants:
Mµ : Y = µ1n + ε
Mµ,α : Y = µ1n + Aα + ε
Mµ,b : Y = µ1n + bx + ε
Mµ,α,b : Y = µ1n + Aα + bx + ε
Mµ,b,c : Y = µ1n + bx + xc + ε
Mµ,α,b,c : Y = µ1n + Aα + bx + xc + ε
où ϵ ∼ N (0n , σ 2 I n ). R propose deux types de tests:
- Type I : par la commande anova(Mµ,α,b,c )

- Type II : par la commande Anova(Mµ,α,b,c )
b2 est calculated à partir du modèle complet.

✍σ
17/20

Commentaires:
• Rank (X) = Rank ([1n A x x]) = 2J,

• Rank (1n ) = 1,
• Rank ([1n A]) = J,
• Rank ([1n x ]) = 2,
• Rank ([1n A x ]) = J + 1.
18/20

Tests Line by line
anova(.) Line 1. H0 : Mµ vs H1 : Mµ,α FI

Line 2. H0 : Mµ,α vs H1 : Mµ,α,b F∗
Line 3. H0 , : Mµ,α,b vs H1 : Mµ,α,b,c F
Anova(.) Line 1. H0 : Mµ,b vs H1 : Mµ,α,b FII
Line 2. H0 : Mµ,α vs H1 : Mµ,α,b F∗
Line 3. H0 : Mµ,α,b vs H1 : Mµ,α,b,c F
d.l.,n−2J F
Theorem Test de taille α : R = {Test. Stat. > q1−α }
2
FI = ∥P1n Y − P[1n A] Y ∥ b2 )
/((J − 1)σ d.l. = J − 1
2
FII = ∥P[1n x]Y − P[1n A x]Y ∥ b2 )
/((J − 1)σ d.l. = J − 1
F = ∥P[1n A x]Y − PX Y ∥2 /((J − 1)σ

b2 ) d.l. = J − 1
F ∗ = ∥P[1n A] Y − P[1n A x]Y ∥

2
b2 )
/((1)σ d.l. = 1
19/20

Idée de la preuve
➦Remarquons que
Rank (X ) − Rank ([1n A x ]) = 2J − (J + 1) = J − 1

Rank ([1n A x ) − Rank ([1n A]) = (J + 1) − J = 1
Rank ([1n A]) − Rank (1n ) = J − 1
Rank ([1n A x ]) − Rank ([1n x ]) = (J + 1) − 2 = J − 1
➦ Par la proposition
b2
(n − 2J)σ
∼ χ2 (n − 2J).
σ2
➦ On conclue avec le théorème des modèles emboités (“donuts”) du chapitre
2. □
20/20

Chp3 M1 Part3

Transféré par

Informations du documentcliquez pour développer les informations du document

Droits d'auteur :

Formats disponibles

Chp3 M1 Part3

Transféré par

Informations du document

Description originale:

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chp3 M1 Part3

Transféré par

Droits d'auteur :

Formats disponibles

Chapitre 3 : Analyse de la variance

Section III: Ancova 1 facteur

K. Meziani Chapitre 3 : Analyse de la variance

K. Meziani Chapitre 3 : Analyse de la variance

3000 Genre 3000 Genre

K. Meziani Chapitre 3 : Analyse de la variance

☛ Le facteur avec J modalités.

définition Le plan est dit

K. Meziani Chapitre 3 : Analyse de la variance

modalité 1 ··· modalité J

Yij = τj + βj xij + εij , i ∈ {1, . . . , nj }, j ∈ J

☛ Les postulats sont à vérifier comme dans le chpitre 2.

K. Meziani Chapitre 3 : Analyse de la variance

Définissons pour tout j ∈ J , les vecteurs Y j ∈ Rnj , ϵj ∈ Rnj , θ j ∈ R2 et les

Définissons Y ∈ Rn le vecteur réponse, ϵ ∈ Rn le vecteur erreur , θ ∈ R2J le

K. Meziani Chapitre 3 : Analyse de la variance

Yij = τj + βj xij + εij , i ∈ {1, . . . , nj }, j ∈ J

Remarquons que Rank (X ) = 2J, rang plein et Rank (X j ) = 2, ∀j ∈ J .

Modèle de régression linéaire gaussien (ANCOVA 1 facteur) :

K. Meziani Chapitre 3 : Analyse de la variance

∀ j ∈ {1, . . . , J}, τj + βj xij = (µ + αj ) + (b + cj )xij , où

modalité 1 ··· modalité J

Yij = (µ + αj ) + (b + cj )xij + εij , i ∈ {1, . . . , nj }, j ∈ J

K. Meziani Chapitre 3 : Analyse de la variance

K. Meziani Chapitre 3 : Analyse de la variance

Modèle de régression linéaire gaussien (ANCOVA 1 facteur) :

K. Meziani Chapitre 3 : Analyse de la variance

Modèle régulier (X ∈ Rn×2J est de rang plein 2J)

Dans ces 2 modèles la prediction est unique:

θ = (X ⊤ X )−1 X ⊤ Y est unique.

K. Meziani Chapitre 3 : Analyse de la variance

1 (Contrast treatement). Contrainte par défaut sous R.

K. Meziani Chapitre 3 : Analyse de la variance

K. Meziani Chapitre 3 : Analyse de la variance

Proposition Remarquons que ∀j ∈ J := {1, . . . , J}

x 2 ·j Y ·j −x ·j x·j Y·j x·j Y·j −x ·j Y ·j

Modèle singulier ➡αb1 = bc1 = 0 bj = τbj − τb1 , ∀j ≥ 2

K. Meziani Chapitre 3 : Analyse de la variance

Dans le Modèle régulier, (EMCO) donne θb = (X T X )−1 X T Y car X est de

Le result est obtenu en utilisant la contrainte et par identification. □

K. Meziani Chapitre 3 : Analyse de la variance

Les estimateurs de la proposition précédentes sont sans biais sous les

K. Meziani Chapitre 3 : Analyse de la variance

Considérons les modèles suivants:

où ϵ ∼ N (0n , σ 2 I n ). R propose deux types de tests:

- Type I : par la commande anova(Mµ,α,b,c )

b2 est calculated à partir du modèle complet.

K. Meziani Chapitre 3 : Analyse de la variance

• Rank (X) = Rank ([1n A x x]) = 2J,

K. Meziani Chapitre 3 : Analyse de la variance

anova(.) Line 1. H0 : Mµ vs H1 : Mµ,α FI

F = ∥P[1n A x]Y − PX Y ∥2 /((J − 1)σ

F ∗ = ∥P[1n A] Y − P[1n A x]Y ∥

K. Meziani Chapitre 3 : Analyse de la variance

Rank (X ) − Rank ([1n A x ]) = 2J − (J + 1) = J − 1

K. Meziani Chapitre 3 : Analyse de la variance

Vous aimerez peut-être aussi