0% ont trouvé ce document utile (0 vote)
4 vues20 pages

Chp3 M1 Part3

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1/ 20

Chapitre 3 : Analyse de la variance

Section III: Ancova 1 facteur

K. Meziani

1/20

K. Meziani Chapitre 3 : Analyse de la variance


Exemple introductif (Toydata)
On cherche à expliquer Y =le salaire en fonction de x =l’âge. On dispose pour
cela de n observations (Yi , xi )i=1,··· ,n

Yi = µ + βxi + ξi , i = 1, · · · , n

4000

3000
Salaire

2000

1000

20 30 40 50 60 70
Age

2/20

K. Meziani Chapitre 3 : Analyse de la variance


Exemple introductif (Toydata)

4000 4000

3000 Genre 3000 Genre


Salaire

Salaire
0 0
1 1

2000 2000

1000 1000

20 30 40 50 60 70 0 1
Age Genre

→ il y a un impact facteur

3/20

K. Meziani Chapitre 3 : Analyse de la variance


ANCOVA 1 facteur
considerons maintenant le cas 1 facteur et une covariable x . On parle de modèle
ANCOVA 1 facteur.

☛ Le facteur avec J modalités.


☛ Yij : l’observation i admettant la modalité j.
☛ xij : observation i de x admettant la modalité j.
☛nj : nombre d’observations Yij associées à la modalité j t.q.:
J
X
nj = n.
j=1

définition Le plan est dit

Complet si ∀j ∈ J , nj ≥ 1,
Imcomplet si ∃j ∈ J , nj = 0,
Équilibré si ∀j ∈ J , nj = I.
4/20

K. Meziani Chapitre 3 : Analyse de la variance


Modèle régulier

modalité 1 ··· modalité J


Yi1 = τ1 + β1 xi1 + εi1 ··· YiJ = τJ + βJ xiJ + εiJ

Modèle régulier:

Yij = τj + βj xij + εij , i ∈ {1, . . . , nj }, j ∈ J


i.i.d.
où εij ∼ N (0, σ 2 ).

☛ Les postulats sont à vérifier comme dans le chpitre 2.


☛ On suppose que la droite de régression diffère suivant les modalités, i.e.
que l’intercept τj et la pente βj diffère suivant les modalités j.

5/20

K. Meziani Chapitre 3 : Analyse de la variance


Modèle régulier : Forme matricielle

Définissons pour tout j ∈ J , les vecteurs Y j ∈ Rnj , ϵj ∈ Rnj , θ j ∈ R2 et les


matrices X j de taille nj × 2 telles que
     
Y1j ε1j   1 x1j
 .   .  τj . .. 
Y j =  ..  , εj =  ..  , θj = et X j =  .. . 
βj
Ynj j εn j j 1 xnj j

Définissons Y ∈ Rn le vecteur réponse, ϵ ∈ Rn le vecteur erreur , θ ∈ R2J le


vecteur des paramètres inconnus et X la matrice design de taille n × 2J
   1  1  
Y1 ϵ θ X1 ··· 0
 ..  . .  .. .. .. 
Y =  . , ϵ =  ..  , θ =  ..  et X = . . . 
YJ ϵJ θJ 0 ··· XJ

6/20

K. Meziani Chapitre 3 : Analyse de la variance


Modèle régulier : Forme matricielle

Yij = τj + βj xij + εij , i ∈ {1, . . . , nj }, j ∈ J

Remarquons que Rank (X ) = 2J, rang plein et Rank (X j ) = 2, ∀j ∈ J .

Modèle de régression linéaire gaussien (ANCOVA 1 facteur) :

Y = Xθ + ϵ ϵ ∼ N (0n , σ 2 I n ).

De plus,
Y j = X j θ j + ϵj ϵj ∼ N (0nj , σ 2 I nj ), ∀j ∈ J .

7/20

K. Meziani Chapitre 3 : Analyse de la variance


Modèle singulier
A partir du Modèle régulier (Yij = τj + βj xij + εij ), on considère la décomposition
suivante de τj + βj xij :

∀ j ∈ {1, . . . , J}, τj + βj xij = (µ + αj ) + (b + cj )xij , où

µ : l’intercept de référence.
µ + αj : l’intercept de la cellule j.
b : Pente de référence.
b + cj : Pente de la cellule j.

modalité 1 ··· modalité J


Yi1 = (µ + α1 ) + (b + c1 )xi1 + εi1 ··· YiJ = (µ + αJ ) + (b + cJ )xiJ + εiJ

Modèle singulier:

Yij = (µ + αj ) + (b + cj )xij + εij , i ∈ {1, . . . , nj }, j ∈ J


i.i.d.
où εij ∼ N (0, σ 2 ).
8/20

K. Meziani Chapitre 3 : Analyse de la variance


Modèle singulier : Forme matricielle

Y ∈ Rn et ϵ ∈ Rn .
∀j ∈ J , x·j = (x1j , · · · , xnj j )T ∈ Rnj .
c = (c1 , . . . , cJ )⊤ ∈ RJ
α = (α1 , . . . , αJ )⊤ ∈ RJ
x ∈ Rn , x ∈ Rn×J , A ∈ Rn×J , c ∈ RJ et α ∈ RJ t.q.

x·1 0 1n1 0
   
 
x·1 ..  .. 
0 x·2 .  0 1n2 . 
 
 . 
x =  ..  , x= , A= ,
 .. ..
.  .. ..
.
. 0 . 0
 
x·J
x·J 1nJ

9/20

K. Meziani Chapitre 3 : Analyse de la variance


Modèle singulier : Forme matricielle

 
µ
n×(2+2J)  α
X = [1n A x x] ∈ R et β =   ∈ R2J+2
b
c
Remarquons que Rank (X) = 2J n’est pas de rang plein .

Modèle de régression linéaire gaussien (ANCOVA 1 facteur) :

Y = µ1n + Aα + xb + xc + ϵ = Xβ + ϵ, ϵ ∼ N (0n , σ 2 I n ).

10/20

K. Meziani Chapitre 3 : Analyse de la variance


Estimation du modèle

Modèle régulier (X ∈ Rn×2J est de rang plein 2J)


θ = arg minθ∈R2J ∥Y − X θ∥2
b
Modèle singulier (X ∈ Rn×(2+2J) n’est pas de rang plein , mais de rang
2J) βb = arg minβ∈R2(J+1) ∥Y − Xβ∥2

Dans ces 2 modèles la prediction est unique:

Y
b = PX Y = X β
b, Y
b = PX Y = X b
θ

θ = (X ⊤ X )−1 X ⊤ Y est unique.


Modèle régulier: b
b n’est pas unique car X n’est pas de rang plein ⇒
Modèle singulier: β
pour exhiber une unique solution, on doit poser
2(J + 1) − Rank (X) = 2(J + 1) − 2J = 2 contraintes.

11/20

K. Meziani Chapitre 3 : Analyse de la variance


contraintes classiques:

1 α1 = c1 = 0.
2 αk = ck = 0 (Choix de la cellule k comme cellule de référence).
PJ PJ
3
j=1
αj = j=1
cj = 0.
PJ PJ
4
j=1
nj αj = j=1
nj cj = 0. (Contrainte d’orthogonalité )

Remarques:

1 (Contrast treatement). Contrainte par défaut sous R.


2 Pour k > 1, utiliser la commande relevel() sous R.
3 (Contrast sum). Sous R, on declare un contr.sum.
4 N’est pas codé dans R, le faire soi-même.

12/20

K. Meziani Chapitre 3 : Analyse de la variance


Quelques Moyennes empiriques (ME):

ME définition

1
Pnj
des observations Yij admettant la modalité j Y ·j = nj i=1
Yij

1
PJ Pnj 1
PJ
de toutes les observations Yij Y ·· = n j=1 i=1
Yij = n j=1
nj Y

1
PJ
de toutes les ME Y ·j Y ·· = J j=1
Y ·j

1
Pnj
de toutes les observations xij x ·j = nj i=1
xij
Pnj
d’ordre 2 de toutes les observations xij x 2 ·j = 1
nj i=1
xij2

1
Pnj
des observations (xij , Yij ) x·j Y·j = nj i=1
xij Yij

13/20

K. Meziani Chapitre 3 : Analyse de la variance


EMCO Dans le Modèle singulier

Proposition Remarquons que ∀j ∈ J := {1, . . . , J}

Estimateurs

x 2 ·j Y ·j −x ·j x·j Y·j x·j Y·j −x ·j Y ·j


Modèle régulier ➡ τbj = βbj =
x 2 ·j −(x ·j )2 x 2 ·j −(x ·j )2
Pas de contraintes

Modèle singulier ➡αb1 = bc1 = 0 bj = τbj − τb1 , ∀j ≥ 2


α
Constr. α1 = c1 = 0 µ
b = τb1 cj = βbj − βb1 , ∀j ≥ 2
b
b = βb1
b

✍ Ici, la solution est donnée uniquement dans le cas de la contrainte 1. Pour les
autres contraintes, un calcul similaire amène auX bons resultats.

14/20

K. Meziani Chapitre 3 : Analyse de la variance


Idée de la preuve

Dans le Modèle régulier, (EMCO) donne θb = (X T X )−1 X T Y car X est de


rang plein .
Les X j sont de rang plein 2 et X matrix est diagonal par bloc, ainsi ∀j ∈ J
 
τbj −1 j T j
θbj = = (X j )T X j (X ) Y
βbj

Comme Y
bij est unique, il vient

Y
bij = µ
b+α
bj + (b
b +b
cj )xij = τbj + βbj xij

Le result est obtenu en utilisant la contrainte et par identification. □

15/20

K. Meziani Chapitre 3 : Analyse de la variance


Estimation sans biais de σ 2

Proposition

Les estimateurs de la proposition précédentes sont sans biais sous les


postulats [P1]–[P3].
Quelque soit la contrainte contraintee, un estimateur sans biais de σ 2
est PJ Pnj
∥Y − PX Y ∥2 bij − Yij )2
(Y
2 j=1 i=1
σ
b = = .
n − 2J n − 2J
De plus„ sous [P4]

b2
(n − 2J)σ
∼ χ2 (n − 2J).
σ2

Preuve : Cf chapitre 2. □

16/20

K. Meziani Chapitre 3 : Analyse de la variance


Tests

Considérons les modèles suivants:

Mµ : Y = µ1n + ε
Mµ,α : Y = µ1n + Aα + ε
Mµ,b : Y = µ1n + bx + ε
Mµ,α,b : Y = µ1n + Aα + bx + ε
Mµ,b,c : Y = µ1n + bx + xc + ε
Mµ,α,b,c : Y = µ1n + Aα + bx + xc + ε

où ϵ ∼ N (0n , σ 2 I n ). R propose deux types de tests:

- Type I : par la commande anova(Mµ,α,b,c )


- Type II : par la commande Anova(Mµ,α,b,c )

b2 est calculated à partir du modèle complet.


✍σ

17/20

K. Meziani Chapitre 3 : Analyse de la variance


Commentaires:

• Rank (X) = Rank ([1n A x x]) = 2J,


• Rank (1n ) = 1,
• Rank ([1n A]) = J,
• Rank ([1n x ]) = 2,
• Rank ([1n A x ]) = J + 1.

18/20

K. Meziani Chapitre 3 : Analyse de la variance


Tests Line by line

anova(.) Line 1. H0 : Mµ vs H1 : Mµ,α FI


Line 2. H0 : Mµ,α vs H1 : Mµ,α,b F∗
Line 3. H0 , : Mµ,α,b vs H1 : Mµ,α,b,c F
Anova(.) Line 1. H0 : Mµ,b vs H1 : Mµ,α,b FII
Line 2. H0 : Mµ,α vs H1 : Mµ,α,b F∗
Line 3. H0 : Mµ,α,b vs H1 : Mµ,α,b,c F

d.l.,n−2J F
Theorem Test de taille α : R = {Test. Stat. > q1−α }

2
FI = ∥P1n Y − P[1n A] Y ∥ b2 )
/((J − 1)σ d.l. = J − 1

2
FII = ∥P[1n x]Y − P[1n A x]Y ∥ b2 )
/((J − 1)σ d.l. = J − 1

F = ∥P[1n A x]Y − PX Y ∥2 /((J − 1)σ


b2 ) d.l. = J − 1

F ∗ = ∥P[1n A] Y − P[1n A x]Y ∥


2
b2 )
/((1)σ d.l. = 1

19/20

K. Meziani Chapitre 3 : Analyse de la variance


Idée de la preuve

➦Remarquons que

Rank (X ) − Rank ([1n A x ]) = 2J − (J + 1) = J − 1


Rank ([1n A x ) − Rank ([1n A]) = (J + 1) − J = 1
Rank ([1n A]) − Rank (1n ) = J − 1
Rank ([1n A x ]) − Rank ([1n x ]) = (J + 1) − 2 = J − 1

➦ Par la proposition
b2
(n − 2J)σ
∼ χ2 (n − 2J).
σ2
➦ On conclue avec le théorème des modèles emboités (“donuts”) du chapitre
2. □

20/20

K. Meziani Chapitre 3 : Analyse de la variance

Vous aimerez peut-être aussi