Notion PDF
Notion PDF
Notion PDF
Introduction to Econometrics
Keita, Moussa
September 2015
Online at https://mpra.ub.uni-muenchen.de/66840/
MPRA Paper No. 66840, posted 22 Sep 2015 04:21 UTC
INTRODUCTION A L’ECONOMETRIE
____
Par
Moussa Keita, PhD*
Septembre 2015
(Version 1)
2
CHAPITRE 1. CONCEPTS STATISTIQUES DE BASE
EN ECONOMETRIE ............................................................. 7
1.1. Notions de série statistique.................................................... 7
1.2. Tendance centrale et de dispersion d’une série ................ 7
1.2.1. La moyenne ............................................................................................... 7
1.2.2. La variance: .............................................................................................. 7
1.2.3. L’écart-type ............................................................................................... 7
1.2.4. Covariance (de deux séries) ...................................................................... 8
1.2.5. Le coefficient de corrélation linéaire (entre deux séries) ........................ 8
1.2.6. Le coefficient de détermination ................................................................ 8
1.3. Quelques rappels sur l’opérateur d’espérance E(.) ........... 9
1.3.1 Définition et propriétés de l’opérateur d’espérance ................................. 9
1.3.2. Quelques utilisations de l’opérateur d’espérance .................................. 10
1.4. Rappel sur les lois statistiques usuelles ............................ 12
1.4.1. La loi normale et le théorème central limite ......................................... 12
1.4.2. La loi de khi-deux ................................................................................... 12
1.4.3. La loi de Student..................................................................................... 13
1.4.4. La loi de Fisher ....................................................................................... 13
1.5. Rappel sur les tests d’hypothèses ....................................... 13
1.5.1. Forme générale d’un test d’hypothèse ................................................... 13
1.5.2. Test bilatéral ........................................................................................... 15
1.5.3. Test unilatéral (à droite) ........................................................................ 19
1.5.4. Test unilatéral (à gauche) ...................................................................... 21
1.6. Les règles d’utilisation des tables statistiques usuelles. 23
1.6.1. Utilisation de la table de la loi normale centrée réduite ...................... 23
1.6.2. Utilisation de la table de Student .......................................................... 26
1.6.3. Utilisation de la table de khi-deux......................................................... 27
3
2.1.3. Décomposition de la somme des carrés .................................................. 33
2.1.4. Equation de décomposition de la variance ............................................ 35
2.1.5. Le coefficient de détermination : 𝑹𝟐 et 𝑹𝟐 ajusté ................................. 36
2.1.6. Calcul de la variance estimée des résidus ............................................. 38
2.2. Propriétés des estimateurs : biais et convergence ......... 38
2.2.1. Le biais d’estimation............................................................................... 39
2.2.2. Convergence d’un estimateur ................................................................. 41
2.3. Inférence statistique .................................................................................. 44
2.3.1. Les lois de distributions des paramètres estimés ................................. 44
2.3.2. Test de significativité des coefficients estimés ...................................... 47
2.3.3. Intervalle de confiance des paramètres estimés ................................... 50
2.3.4. Prédiction à l’intérieur de l’échantillon et intervalle de confiance de la
droite de régression .......................................................................................... 52
2.3.5. Prédiction hors-échantillon et erreur de prédiction .............................. 52
2.3.6. Linéarisation des modèles non-linéaires ............................................... 56
2.4. Estimateur du maximum de vraisemblance ..................... 57
CHAPITRE 3. LE MODELE LINEAIRE MULTIPLE ... 60
3.1. Estimation par Moindre Carrés ordinaires .............................................. 60
3.1.1. Résolution du système par substitution ................................................ 61
3.1.2. Représentation matricielle des données ................................................ 62
3.1.3. Correspondance entre la méthode de substitution et la méthode
matricielle ......................................................................................................... 64
3.1.4. Calcul des valeurs prédites .................................................................... 67
3.1.5. Calcul des valeurs résiduelles ................................................................ 67
3.1.6. Calcul de la variance totale, expliquée et résiduelle ............................. 67
3.1.7. Matrice de variance-covariance ............................................................. 68
3.1.8. La matrice de corrélation ....................................................................... 69
3.2. Propriétés des estimateurs .................................................. 70
3.2.1. Esperance et Biais d’estimation ............................................................. 70
3.2.2. Variance et Convergence ........................................................................ 71
3.2.3. Distribution de probabilité des estimateurs .......................................... 72
3.3. Tests d’hypothèses sur les coefficients estimés ............... 75
4
3.3.1. Test sur les coefficients individuels ....................................................... 75
3.3.2. Test sur une combinaison linéaire de coefficients (Test de Wald) ........ 76
3.4. Estimateur des moindres carrés contraints ..................... 80
3.4.1. Propriété de l’estimateur des moindres carrés contraints .................... 81
3.4.2. Le test de Fisher (sur la validité des contraintes)................................. 81
3.4.3. La statistique de Fisher dans le cadre du test de Chow (ou test de
changement de régime) .................................................................................... 82
3.5. Estimation par maximum de vraisemblance .................... 84
CHAPITRE 4. LE MODELE LINEAIRE GENERALISE
................................................................................................. 88
4.1. Test de normalité des résidus .............................................. 88
4.2. Test d’hétéroscédasticité ...................................................... 89
4.2.1. Le test Goldfeld-Quandt ......................................................................... 91
4.2.2. Le test Breush-Pagan ............................................................................ 92
4.2.3. Le test de White ..................................................................................... 93
4.2.4. Correction de l’hétéroscédasticité .......................................................... 94
4.3. Test d’autocorrélation des erreurs ..................................... 97
4.3.1. Le test d’autocorrélation de Durbin-Watson ......................................... 98
4.3.2. Le test d’autocorrélation de Box-Pierce ............................................... 100
4.3.3. Le test d’autocorrélation de Ljung-Box................................................ 100
4.3.4. Correction de l’autocorrélation ............................................................. 100
4.4. Autres cas de violation des hypothèses de base du
modèle linéaire ............................................................................ 104
CHAPITRE 5. MODELES A VARIABLE DEPENDANTE
DICHOTOMIQUE.............................................................. 106
5.1. Présentation .......................................................................... 106
5.2. Choix de la fonction 𝑭. et nature du modèle ................... 108
5.2.1. Le modèle probit ................................................................................... 108
5.2.2. Le modèle logit ...................................................................................... 109
5.3. Définition du modèle dichotomique à partir d’une
variable latente ............................................................................ 110
5
5.4. Estimation du modèle dichotomique ............................... 111
5.4.1. Méthode de maximum de vraisemblance (MV) ................................... 111
5.4.2. Propriétés des estimateurs MV ............................................................ 113
5.5. Le modèle de probabilité linéaire ..................................... 114
5.6. Les effets marginaux dans le modèle dichotomique ..... 115
5.7. Les Odds ratio dans le modèle logit ................................. 116
5.8. Passage du modèle probit au modèle logit ..................... 117
5.9. Diagnostics sur la qualité de l’estimation des modèles
logit et probit ............................................................................... 120
5.9.1. Le R2 de McFadden .............................................................................. 120
5.9.2. Le pouvoir de prédiction du modèle et le pseudo R2 ........................... 120
5.10. Test d’hypothèses dans le cadre du modèle
dichotomique................................................................................ 121
5.10.1. Test sur un coefficient ........................................................................ 121
5.10.2. Test de Wald sur une contrainte linéaire de coefficients .................. 122
5.10.3. Test du rapport de vraisemblances .................................................... 123
5.10.4. Le test du multiplicateur de Lagrange .............................................. 124
6
CHAPITRE 1. CONCEPTS STATISTIQUES DE
BASE EN ECONOMETRIE
1.1. Notions de série statistique
On s’intéresse à deux variables 𝑥 et 𝑦 mesurées sur 𝑛 unités d’observation. Pour
chaque unité, on obtient alors donc deux mesures. La série statistique est alors
une suite de 𝑛 couples des valeurs prises par les deux variables sur chaque
individu. Cela peut se présenter comme suit :
𝑋 𝑥1 𝑥2 𝑥3 … 𝑥𝑛
𝑌 𝑦1 𝑦2 𝑦3 … 𝑦𝑛
Chacune des deux variables peut être soit quantitative, soit qualitative.
Par exemple lorsqu’on mesure le poids (X) et la taille (Y) de 20 individus, les
informations obtenues peuvent être présentées sous forme de séries statistiques
comme suit :
i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
X 60 61 64 67 68 69 70 70 72 73 75 76 78 80 85 90 96 96 98 101
Y 155 162 157 170 164 162 169 170 178 173 180 175 173 175 179 175 180 185 189 187
1.2.2. La variance:
𝑛
1
𝑆𝑥2 = ∑(𝑥𝑖 − 𝑥̅ )2 (1.2𝑎)
𝑛
𝑖=1
1.2.3. L’écart-type
𝑛
1
𝑆𝑥 = √ ∑(𝑥𝑖 − 𝑥̅ )2 = √𝑆 2 (1.2𝑏)
𝑛
𝑖=1
7
1.2.4. Covariance (de deux séries)
𝑛
1
𝑆𝑥𝑦 = ∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) (1.2𝑐)
𝑛
𝑖=1
𝑛
1
𝑆𝑥2 = ∑ 𝑥𝑖2 − 𝑥̅ 2 (1.2𝑒)
𝑛
𝑖=1
𝑆𝑥𝑦
𝑟𝑥𝑦 = (1.3)
𝑆𝑥 𝑆𝑦
8
1.3. Quelques rappels sur l’opérateur d’espérance E(.)
1.3.1 Définition et propriétés de l’opérateur d’espérance
De façon simple, l’espérance d’une variable correspond à la moyenne de cette
variable lorsque n est grand. Elle se calcule par la formule suivante :
𝑛
1
E(X) = 𝑥̅ = ∑ 𝑥𝑖 (1.5)
𝑛
𝑖=1
Dans certains cas, au lieu d’utiliser 𝑥̅ , on utilise E(X). Par exemple, pour calculer
la variance, on écrit :
𝑛
1 2
VAR(X) = ∑(𝑥𝑖 − E(X))
𝑛
𝑖=1
1
De plus, sachant que VAR(X) = ∑𝑛𝑖=1 𝑥𝑖2 − 𝑥̅ 2 , on peut réécrire cette expression
𝑛
comme suit :
2
VAR(X) = E(X 2 ) − (E(X)) (1.6)
Avec
𝑛
1
E(X 2)
= ∑ 𝑥𝑖2
𝑛
𝑖=1
9
2
VAR(XY) = E(X 2 Y 2 ) − (E(XY))
Et lorsque les deux variables 𝑋 et 𝑌 sont indépendantes alors E(XY) = E(X) ∗ E(Y).
Ainsi, on a :
2
VAR(XY) = E(X 2 Y 2 ) − (E(X)E(Y)) (1.7)
COV(X, Y) = 0
Exemple :
COV(X 2 , Y 2 ) = E(X 2 Y 2 ) − E(X 2 )E(Y 2 )
On sait que :
10
L'espérance du produit de 2 variables aléatoires indépendantes est le produit des
espérances.
COV(X 2 , Y 2 ) = COV(X, Y) = 0
11
Ainsi, en développant cette expression, on retrouve la formule initiale
VAR(aX + b) = a²VAR(X)
COV(aX; Y) = aCOV(X; Y)
𝑋̅ − 𝜇
𝑍= ↝ 𝑁(0,1) (1.14)
2
√𝜎
𝑛
Cette propriété dénommée théorème centrale limite se résume alors comme suit :
𝑛
1 𝜎2 𝑋̅ − 𝜇
2) ̅
𝑋 ↝ 𝑁(𝜇, 𝜎 𝑋 = ∑ 𝑋𝑖 ↝ 𝑁 (𝜇, ) 𝑍 = 𝜎 ↝ 𝑁(0,1)
𝑛 𝑛
𝑖=1
√𝑛
𝐸(𝜒𝑝2 ) = 𝑝
12
𝑉𝐴𝑅(𝜒𝑝2 ) = 2𝑝
𝑋
𝑡𝑝 = (1.16)
2
√𝜒𝑝⁄𝑝
𝜒𝑝2
⁄𝑝
𝐹𝑝,𝑞 = 2 (1.17)
𝜒𝑞
⁄𝑞
• Rejeter H0 alors que H0 est vraie, cette erreur est appelée erreur de première
espèce. Elle est notée 𝛼. A noter que 1- 𝛼 représente le seuil de confiance.
13
• Ne pas rejeter H0 alors que H0 est fausse, cette erreur est appelée erreur de
deuxième espèce. Elle est notée 𝛽 avec 1- 𝛽 qui représente alors la puissance du
test.
Rejeter H0 𝛼 1- 𝛽
Dans la pratique, les tests sont généralement des tests composites. En effet, les
hypothèses sont généralement du type “Le paramètre 𝜃 est-il strictement plus
grand qu’une certaine valeur 𝜃0 ?” Ce type d’hypothèse composite amène à la
construction de test du type :
𝐻0 𝜃 = 𝜃0 𝐻 𝜃 = 𝜃0 𝐻 𝜃 = 𝜃0 𝐻 𝜃 ≥ 𝜃0 𝐻0 𝜃 ≤ 𝜃0
1{ 2{ 0 3{ 0 4{ 0 5{
𝐻1 𝜃 ≠ 𝜃0 𝐻1 𝜃 < 𝜃0 𝐻1 𝜃 > 𝜃0 𝐻1 𝜃 < 𝜃0 𝐻1 𝜃 > 𝜃0
H1 : 𝜃 ≥ 𝜃0 et donc H0 : 𝜃 ≤ 𝜃0 .
14
𝑋̅ − 𝑚
𝑇= ↝ 𝑡(𝑛 − 1) (1.18)
𝜎̂
√𝑛 − 1
𝑃𝑣𝑎𝑙𝑢𝑒 = 𝑃(𝑧 ≥ 𝑍)
Ainsi pour obtenir la pvalue, on lit d’abord dans la table de la loi normale la
probabilité 𝑃(𝑧 < 𝑍). Ensuite, on calcule la pvalue.
La pvalue fournit aussi une règle décision dans le test. En effet, lorsque la pvalue
est inférieure au seuil 𝛼, on rejette H0. Mais lorsque la pvalue est supérieure au
seuil 𝛼 on ne peut pas rejeter H0.
𝐻0 𝜇 = 𝑚
{
𝐻1 𝜇 ≠ 𝑚
𝑋̅ − 𝑚
𝑍= 𝜎 ↝ 𝑁(0,1)
√𝑛
15
𝑋̅ − 𝑚 ∗ 𝑋̅ − 𝑚 ∗
𝑃( 𝜎 < −𝑍1−
𝛼 ) + 𝑃 ( 𝜎 > 𝑍1− 𝛼) = 𝛼
2 2
√𝑛 √𝑛
∗ ∗
𝑃 (𝑍 < −𝑍1− 𝛼 ) + 𝑃 (Z > 𝑍 𝛼 ) = 𝛼
1−
2 2
on a :
∗
2 𝑃 (Z > 𝑍1− 𝛼) = 𝛼
2
∗ ∗
Par ailleurs sachant que 𝑃 (𝑍 < −𝑍1− 𝛼 ) + 𝑃 (Z > 𝑍
1−
𝛼 ) = 𝛼, cela signifie que :
2 2
∗ ∗
𝑃 (−𝑍1− 𝛼 < 𝑍 < 𝑍 𝛼) = 1 − 𝛼
1−
2 2
∗
𝑃 (|𝑍| < 𝑍1− 𝛼) = 1 − 𝛼
2
Dès lors on peut utiliser l’une des deux expressions pour prendre la décision du
𝛼 ) = 𝛼 qui exprime le seuil d’erreur ou 𝑃 (|𝑍| < 𝑍
∗ ∗
test : soit 2 𝑃 (Z > 𝑍1− 1−
𝛼) = 1 − 𝛼
2 2
qui exprime le seuil de confiance. Dans l’un ou l’autre des cas, on compare la
∗
valeur Z calculée à la valeur de 𝑍1− 𝛼 lue dans la table de la loi normale. Ainsi
2
lorsque 𝑍 > ∗
𝑍1− 𝛼, on rejette l’hypothèse H0. En revanche lorsque 𝑍 < 𝑍1−𝛼
∗
, on ne
2
La région critique de ce test (encore appelée région de rejet de H0) se définit telle
que :
𝑋̅ − 𝑚 ∗ 𝑋̅ − 𝑚 ∗ ∗
𝑅𝐶 = {| 𝜎 | > 𝑍1−
𝛼 } 𝑠𝑜𝑖𝑡 𝜎 [−𝑍1− 𝛼 ; 𝑍 𝛼]
1−
2 2 2
√𝑛 √𝑛
Ou
𝜎 𝜎 𝜎
𝑅𝐶 = {|𝑋̅ − 𝑚| > 𝑍1−
∗
𝛼 } 𝑠𝑜𝑖𝑡 𝑋̅ ]𝑚 − 𝑍1−
∗
𝛼
∗
; m + 𝑍1− 𝛼 ]
2 √𝑛 2 √𝑛 2 √𝑛
16
Connaissant donc la région critique, on peut définir la région d’acceptation de H0
𝑋̅ −𝑚
𝛼 ) = 1 − 𝛼 . Dès lors, la région d’acceptation se définit
∗
sachant que (| 𝜎 | < 𝑍1−
√𝑛 2
comme suit.
∗
𝑋̅ − 𝑚 ∗
𝑅𝐴 = {−𝑍1−𝛼 < 𝜎 < 𝑍1−𝛼 }
2
√𝑛
Ou
𝜎 𝜎
∗
𝑅𝐴 = {m − 𝑍1− 𝛼 < 𝑋̅ < m + 𝑍1−
∗
𝛼 }
2 √𝑛 2 √𝑛
Lorsque la variance 𝜎 2 n’est pas connue, on utilise la variance estimée telle que :
1
𝜎̂ 2 = ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2 . Dès lors, en appliquant le théorème central limite on
𝑛−1
trouve une loi de Student qui se présente comme suit :
𝑋̅ − 𝑚
↝ 𝑡(𝑛 − 1)
𝜎̂
√𝑛 − 1
𝑋̅ − 𝑚 ∗ 𝑋̅ − 𝑚 ∗
𝑃( < −𝑇1−𝛼) + 𝑃 ( > 𝑇1− 𝛼) = 𝛼
𝜎̂ 2 𝜎̂ 2
√𝑛 − 1 √𝑛 − 1
∗ ∗
𝑃 (𝑇 < −𝑇1−𝛼 ) + 𝑃 (𝑇 > 𝑇 𝛼 ) = 𝛼
1−
2 2
∗
2 𝑃 (𝑇 > 𝑇1− 𝛼) = 𝛼
2
17
𝛼 le quantile d’ordre 1 − 𝛼 de la loi
∗
Où 𝑇 est la statistique du test calculée et 𝑇1−
2
normale centrée réduite (lue dans la table de loi normale centrée réduite).
∗ ∗
Par ailleurs sachant que 𝑃 (𝑇 < −𝑇1− 𝛼 ) + 𝑃 (𝑇 > 𝑇 𝛼 ) = 𝛼, cela signifie que :
1−
2 2
∗ ∗
𝑃 (−𝑇1−𝛼 < 𝑇 < 𝑇 𝛼) = 1 − 𝛼
1−
2 2
∗
𝑃 (|𝑇| < 𝑇1− 𝛼) = 1 − 𝛼
2
Dès lors on peut utiliser l’une des deux expressions pour prendre la décision du
𝛼 ) = 𝛼 qui exprime le seuil d’erreur ou 𝑃 (|𝑇| < 𝑇 𝛼 ) = 1 − 𝛼
∗ ∗
test : soit 2 𝑃 (𝑇 > 𝑇1− 1−
2 2
qui exprime le seuil de confiance. Dans l’un ou l’autre des cas, on compare la
∗
valeur 𝑇 calculée à la valeur de 𝑇1− 𝛼 lue dans la table de la loi normale. Ainsi
2
La région critique de ce test (encore appelée région de rejet de H0) se définit telle
que :
𝑋̅ − 𝑚 ∗ 𝑋̅ − 𝑚 ∗ ∗
𝑅𝐶 = {| | > 𝑇1− 𝛼 } 𝑠𝑜𝑖𝑡 [−𝑇1− 𝛼 ; 𝑇 𝛼]
𝜎̂ 2 𝜎
̂ 2
1−
2
√𝑛 − 1 √𝑛 − 1
Ou
𝜎̂ 𝜎̂ 𝜎̂
𝑅𝐶 = {|𝑋̅ − 𝑚| > 𝑇1−
∗
𝛼 } 𝑠𝑜𝑖𝑡 𝑋̅ ]𝑚 − 𝑇1−
∗
𝛼
∗
; m + 𝑇1− 𝛼 ]
2 √𝑛 − 1 2 √𝑛 − 1 2 √𝑛 − 1
comme suit.
∗
𝑋̅ − 𝑚 ∗
𝑅𝐴 = {−𝑇1−𝛼 < < 𝑇1− 𝛼}
𝜎̂ 2
√𝑛 − 1
Ou
18
𝜎̂ 𝜎̂
∗
𝑅𝐴 = {m − 𝑇1− 𝛼 < 𝑋̅ < m + 𝑇1−
∗
𝛼 }
2 √𝑛 − 1 2 √𝑛 − 1
Lorsque la variance est connue la statistique du test sous 𝐻0 suit une loi normale
𝑁(0,1). Ainsi connaissant le seuil d’erreur 𝛼 on définit la région critique telle
que :
𝑋̅ − 𝑚 ∗
𝑃( 𝜎 > 𝑍1−𝛼 ) = 𝛼
√𝑛
∗ )
𝑃(𝑍 > 𝑍1−𝛼 =𝛼
∗
Où 𝑍 est la statistique du test calculée et 𝑍1−𝛼 le quantile d’ordre 1 − 𝛼 de la loi
normale centrée réduite (lue dans la table de loi normale centrée réduite).
∗
Ainsi lorsque 𝑍 > 𝑍1−𝛼 , on rejette l’hypothèse H0. En revanche lorsque 𝑍 < 𝑍1−𝛼
∗
,
on ne peut pas rejeter H0.
La région critique de ce test (encore appelée région de rejet de H0) se définit alors
comme suit :
𝑋̅ − 𝑚 ∗
𝑅𝐶 = { 𝜎 > 𝑍1−𝛼 }
√𝑛
Ou
𝜎
𝑅𝐶 = {𝑋̅ > m + 𝑍1−𝛼
∗
}
√𝑛
comme suit.
𝑋̅ − 𝑚 ∗
𝑋̅ − 𝑚 ∗ ]
𝑅𝐴 = { 𝜎 < 𝑍1−𝛼 } 𝑠𝑜𝑖𝑡 𝜎 ∈ ]−∞ ; 𝑍1−𝛼
√𝑛 √𝑛
19
Ou
𝜎 𝜎
𝑅𝐴 = {𝑋̅ < m + 𝑍1−𝛼
∗
} 𝑠𝑜𝑖𝑡 𝑋̅ ∈ ]−∞ ; m + 𝑍1−𝛼
∗
]
√𝑛 √𝑛
𝑋̅ − 𝑚
↝ 𝑇(𝑛 − 1)
𝜎̂
√𝑛 − 1
𝑋̅ − 𝑚 ∗
𝑃( > 𝑇1−𝛼 )=𝛼
𝜎̂
√𝑛 − 1
∗ )
𝑃(𝑇 > 𝑇1−𝛼 =𝛼
∗
Où 𝑇 est la statistique du test calculée et 𝑇1−𝛼 le quantile d’ordre 1 − 𝛼 de la loi
de la loi de Student.
∗
Ainsi lorsque 𝑇 > 𝑇1−𝛼 , on rejette l’hypothèse H0. Et lorsque 𝑇 < 𝑇1−𝛼
∗
, on ne peut
pas rejeter H0.
𝑋̅ − 𝑚 ∗
𝑅𝐶 = { > 𝑇1−𝛼 }
𝜎̂
√𝑛 − 1
Ou
𝜎̂
𝑅𝐶 = {𝑋̅ > m + 𝑇1−𝛼
∗
}
√𝑛 − 1
comme suit.
20
𝑋̅ − 𝑚 ∗
𝑋̅ − 𝑚 ∗ ]
𝑅𝐴 = { < 𝑇1−𝛼 } 𝑠𝑜𝑖𝑡 ∈ ]−∞ ; 𝑇1−𝛼
𝜎̂ 𝜎̂
√𝑛 − 1 √𝑛 − 1
Ou
𝜎̂ 𝜎̂
𝑅𝐴 = {𝑋̅ < m + 𝑇1−𝛼
∗
} 𝑠𝑜𝑖𝑡 𝑋̅ ∈ ]−∞ ; m + 𝑇1−𝛼
∗
]
√𝑛 − 1 √𝑛 − 1
Lorsque la variance est connue la statistique du test sous 𝐻0 suit une loi normale
𝑁(0,1). Ainsi connaissant le seuil d’erreur 𝛼 on définit la région critique telle
que :
𝑋̅ − 𝑚 ∗
𝑃( 𝜎 < −𝑍1−𝛼 ) = 𝛼
√𝑛
∗ )
𝑃(𝑍 < −𝑍1−𝛼 =𝛼
∗
Où 𝑍 est la statistique du test calculée et 𝑍1−𝛼 le quantile d’ordre 1 − 𝛼 de la loi
normale centrée réduite. Ainsi lorsque 𝑍 < 𝑍1−𝛼 , on rejette l’hypothèse H0. Et
∗
∗
lorsque 𝑍 > 𝑍1−𝛼 , on ne peut pas rejeter H0.
𝑋̅ − 𝑚 ∗
𝑅𝐶 = { 𝜎 < −𝑍1−𝛼 }
√𝑛
Ou
𝜎
𝑅𝐶 = {𝑋̅ < m − 𝑍1−𝛼
∗
}
√𝑛
21
𝑋̅ −𝑚
Sachant que ( 𝜎
∗
> −𝑍1−𝛼 ) = 1 − 𝛼 , on peut définir la région d’acceptation de
√𝑛
H0 comme suit.
𝑋̅ − 𝑚 ∗
𝑋̅ − 𝑚 ∗
𝑅𝐴 = { 𝜎 > −𝑍1−𝛼 } 𝑠𝑜𝑖𝑡 𝜎 ∈ ]−𝑍1−𝛼 ; +∞]
√𝑛 √𝑛
Ou
𝜎 𝜎
𝑅𝐴 = {𝑋̅ > m − 𝑍1−𝛼
∗
} 𝑠𝑜𝑖𝑡 𝑋̅ ∈ ]m − 𝑍1−𝛼
∗
; +∞]
√𝑛 √𝑛
𝑋̅ − 𝑚 ∗
𝑃( < −𝑇1−𝛼 )=𝛼
𝜎̂
√𝑛 − 1
∗ )
𝑃(𝑇 < −𝑇1−𝛼 =𝛼
∗
Où 𝑇 est la statistique du test calculée et 𝑇1−𝛼 le quantile d’ordre 1 − 𝛼 de la loi
de la loi de Student.
∗
Ainsi lorsque 𝑇 < −𝑇1−𝛼 , on rejette l’hypothèse H0. Et lorsque 𝑇 > −𝑇1−𝛼
∗
, on ne
peut pas rejeter H0.
𝑋̅ − 𝑚 ∗
𝑅𝐶 = { < −𝑇1−𝛼 }
𝜎̂
√𝑛 − 1
Ou
𝜎̂
𝑅𝐶 = {𝑋̅ < m − 𝑇1−𝛼
∗
}
√𝑛 − 1
22
Connaissant donc la région critique, on peut définir la région d’acceptation de H0
𝑋̅ −𝑚
sachant que ( 𝜎̂
∗
> −𝑇1−𝛼 ) = 1 − 𝛼 . Dès lors, la région d’acceptation se définit
√𝑛−1
comme suit.
𝑋̅ − 𝑚 ∗
𝑋̅ − 𝑚 ∗
𝑅𝐴 = { > −𝑇1−𝛼 } 𝑠𝑜𝑖𝑡 ∈ ]−𝑇1−𝛼 ; +∞ ]
𝜎̂ 𝜎̂
√𝑛 − 1 √𝑛 − 1
Ou
𝜎̂ 𝜎̂
𝑅𝐴 = {𝑋̅ > m − 𝑇1−𝛼
∗
} 𝑠𝑜𝑖𝑡 𝑋̅ ∈ ]m − 𝑇1−𝛼
∗
; +∞]
√𝑛 − 1 √𝑛 − 1
23
probabilités) ou à l’inverse déterminer les probabilités (lorsque l’on connait les
fractiles).
1.6.1.1 Lecture des fractiles connaissant les probabilités 𝜶
Dans une optique de détermination de la statistique d’un test suivant une loi
normale et dont le seuil d’erreur est 𝛼, on lit le fractile correspondant à 𝛼. Pour
𝛼 𝛼
cela, on calcule d’abord(1 − 𝛼) + c'est-à-dire 1 − .. Ensuite, on recherche cette
2 2
valeur dans les cellules intérieures de la table. Une fois cette valeur identifiée, on
fait la somme des deux cellules extérieures (en ligne et en colonne) dont le
𝛼
croisement correspond à cette valeur 1 − lue dans la table. Par exemple, pour le
2
𝛼
trouver la statistique (le fractile) correspondant à 𝛼 =5 %, on calcule d’abord 1 −
2
(soit 0,975). Ensuite, en recherchant 0,975 dans les cellules intérieures de la
table, on constate que cette valeur se trouve au croisement entre 1,9 et 0.06. Par
conséquent le fractile correspondant à 5% est 1,96.
Notons aussi que cette valeur peut être obtenue avec la plus part des logiciels
statistiques et économétriques plus ou moins spécialisés. Par exemple, certaines
fonctions de MicrosoftTM Excel fournissent les valeurs contenues dans les tables
statistiques usuelles. Pour obtenir le fractile correspondant à au seuil 𝛼, on
utilise la formule suivante :
𝛼
= 𝑙𝑜𝑖. 𝑛𝑜𝑟𝑚𝑎𝑙𝑒. 𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑑. 𝑖𝑛𝑣𝑒𝑟𝑠𝑒(1 − )
2
Où 𝛼 représente la probabilité (et correspond généralement au seuil d’erreur).
Remarque :
Puisque la loi normale est une loi symétrique, si l’on veut déterminer la valeur
opposée du fractile (en vue par exemple de la détermination d’un intervalle de
confiance (ou autre), on considère juste l’opposé de ce fractile pour trouver la
borne inférieure de l’encadrement.
24
trouvant au croisement de ces deux valeurs, on trouve 0,937. Ainsi puisque cette
𝛼
valeur équivaut à 1 − , on peut alors en déduire 𝛼 comme 𝛼 = 2(1 − 0,937). Soit
2
𝛼 = 0,126 = 12,6%
Remarque :
Lorsque le fractile 𝑍 est une valeur encadrée par une borne supérieure b et une
borne inférieure -b, pour lire la probabilité pour que 𝑍 soit compris entre -b et b,
on procède d’abord à un développement comme suit :
Or, sachant les propriété d’une loi symétrique, on a: 𝑃(𝑍 < −𝑏) = 𝑃(𝑍 > 𝑏). Mais
on sait aussi que 𝑃(𝑍 > 𝑏) = 1 − 𝑃(𝑍 < 𝑏). Dès lors, on a : 𝑃 (−𝑏 < 𝑍 < 𝑏) =
𝑃(𝑍 < 𝑏) − [ 1 − 𝑃(𝑍 < 𝑏)]. Au final, après développement, on trouve : 𝑃 (−𝑏 <
𝑍 < 𝑏) = 2𝑃(𝑍 < 𝑏) − 1.
25
Cela montre donc que dans une loi symétrique, pour trouver la probabilité d’un
encadrement symétrique (qui correspond en général au seuil de confiance), il faut
simplement multiplier par 2 la probabilité obtenue en considérant uniquement la
borne supérieure (en suivant les méthodes de lectures précédemment
présentées). Ensuite retrancher 1 pour trouver la probabilité de l’encadrement
(au seuil de confiance). Par exemple, quand on demande de calculer la probabilité
pour que 𝑍 soit comprise entre -2,72 et 2,72. On lit d’abord la probabilité associée
à 2,72 (soit 0,9967). Ensuite, on multiplie cette valeur par 2 et on retranche 1. On
trouve alors 0,9934. Ainsi le seuil d’erreur 𝛼 s’obtient simplement comme est 1-
0,9934 soit 0,66%. Il faut noter que dans un encadrement 𝛼 n’est pas calculée
𝛼
telle que 1 − = 𝑃 mais comme 1 − 𝛼 = 𝑃.
2
Lorsqu’il s’agit d’un encadrement de type 𝑃 ( 𝑍 < 𝑏), on garde sans aucune
transformation la valeur lue dans la table (ou obtenue par la fonction : =
𝑙𝑜𝑖. 𝑛𝑜𝑟𝑚𝑎𝑙𝑒. 𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑑. 𝑛(𝑞; 𝑉𝑅𝐴𝐼). Ainsi, le seuil d’erreur 𝛼 s’obtient en utilisant la
relation 1 − 𝛼 = 𝑃.
𝛼
Notons aussi que pour déterminer le fractile d’ordre 1 − ou 1 − 𝛼 de la loi
2
Student, on peut aussi utiliser la fonction Excel :
26
= 𝑙𝑜𝑖. 𝑠𝑡𝑢𝑑𝑒𝑛𝑡. 𝑖𝑛𝑣𝑒𝑟𝑠𝑒(𝛼 ; 𝑑𝑑𝑙) pour le cas d’un test bilatéral et
= 𝑙𝑜𝑖. 𝑠𝑡𝑢𝑑𝑒𝑛𝑡. 𝑖𝑛𝑣𝑒𝑟𝑠𝑒(2𝛼 ; 𝑑𝑑𝑙) pour le cas d’un test unilatéral
Aussi lorsque l’on veut déterminer la valeur symétrique (opposée) d’un fractile en
vue, par exemple, de la détermination d’un intervalle de confiance, etc, on prend
juste l’opposé du fractile calculée puisque la loi de Student est une loi symétrique.
Par ailleurs, il faut aussi noter que lorsque n est grand (n>30), on peut
approximer la loi de Student par la loi normale. Dès lors, on peut utiliser la table
de la loi normale comme décrite précédemment.
27
un encadrement, on doit d’abord définir la probabilité associée chaque fractile
constituant les bornes. Par exemple pour encadrer une valeur 𝑈 dans la
perspective de la détermination d’un intervalle de confiance etc.., on calcule
d’abord deux probabilités :
𝛼 𝛼
𝑝1 = 𝑒𝑡 𝑝2 = + (1 − 𝛼).
2 2
Ensuite, on lit les fractiles correspondant à chaque probabilité (en utilisant les
degrés de liberté). Ensuite, on encadre 𝑈 telle que 𝑞1 < 𝑈 < 𝑞2 où 𝑞1 et 𝑞2
représentent respectivement les fractiles correspondants à 𝑝1 et 𝑝2. Cet
encadrement se fait donc de telle sorte que 𝑃(𝑞1 < 𝑈 < 𝑞2) = 1 − 𝛼. Où 1 − 𝛼 est
le seuil de confiance. Pour executer cette prodcéure sous excel, on procède comme
suit : = 𝑙𝑜𝑖. 𝑘ℎ𝑖𝑑𝑒𝑢𝑥. 𝑖𝑛𝑣𝑒𝑟𝑠𝑒(𝑝1; 𝑑𝑑𝑙) et = 𝑙𝑜𝑖. 𝑘ℎ𝑖𝑑𝑒𝑢𝑥. 𝑖𝑛𝑣𝑒𝑟𝑠𝑒(𝑝2; 𝑑𝑑𝑙).
Les valeurs obtenues servent donc à construire l’intervalle de confiance.
28
CHAPITRE 2 : LE MODELE LINEAIRE SIMPLE
Nous cherchons à étudier la relation entre deux variables Y et X. Y est la
variable que on cherche à expliquer ( ou à prédire), on parle de variable endogène
(dépendante) ; X est la variable explicative (prédictive), on parle de variable
exogène (indépendante). L’équation mathématique qui permet de relier Y à X est
appelée modèle. Ce modèle est dit simple lorsqu’il existe qu’une seule variable
explicative. La forme générale du modèle linéaire simple est la suivante :
𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖 (2.1)
Il faut simplement remarquer que dans l’équation (2.1), les variables 𝑦 et 𝑥 sont
observées alors que les paramètres 𝛽0, 𝛽1 et les perturbations aléatoires sont
inobservés. Le terme aléatoire 𝜀𝑖 , que l'on appelle l'erreur du modèle permet de
résumer toute l'information qui n'est pas prise en compte dans la relation linéaire
que l'on cherche à établir entre Y et X c.-à-d. les problèmes de spécifications,
l'approximation par la linéarité, etc.
Les paramètres 𝛽0, 𝛽1 sont estimés dans une procédure appelée régression. La
régression linéaire consiste à trouver une droite qui ajuste au mieux un nuage de
points formé par les couples (𝑋, 𝑌). Pour cela plusieurs techniques peuvent être
utilisées dont notamment la méthode des moindres carrés ordinaires et la
méthode de maximum de vraisemblance.
29
𝑛
𝜕𝑙(𝛽0, 𝛽1 )
= − ∑ 2(𝑦𝑖 − 𝛽0 − 𝛽1 𝑥𝑖 ) = 0 (2.3𝑎)
𝛽0
𝑖=1
𝑛
𝜕𝑙(𝛽0 , 𝛽1 )
= − ∑ 2(𝑦𝑖 − 𝛽0 − 𝛽1 𝑥𝑖 )𝑥𝑖 = 0 (2.3𝑏)
{ 𝛽1
𝑖=1
Par simplification, on a :
𝑛
∑(𝑦𝑖 − 𝛽0 − 𝛽1 𝑥𝑖 ) = 0
𝑖=1
∑(𝑦𝑖 − 𝛽0 − 𝛽1 𝑥𝑖 )𝑥𝑖 = 0
{ 𝑖=1
∑ 𝜀𝑖 = 0
𝑖=1
∑ 𝑥𝑖 𝜀𝑖 = 0
{ 𝑖=1
Ces deux propriétés sont extrêmement importantes. Elles montrent d’une part
que la somme des résidus est nulle et d’autre part que le produit croisé entre les
résidus et la variable explicative est aussi nulle. Mais comme on le verra un peu
plus loin, la première propriété n’est plus vérifiée lorsqu’il n’y pas de constante
dans le modèle. Ce qui a aussi quelques implications.
∑ 𝑦𝑖 − 𝑛𝛽0 − 𝛽1 ∑ 𝑥𝑖 = 0
𝑖=1 𝑖=1
𝑛 𝑛 𝑛
∑ 𝑥𝑖 𝑦𝑖 − 𝛽0 ∑ 𝑥𝑖 − 𝛽1 ∑ 𝑥𝑖 2 = 0
{ 𝑖=1 𝑖=1 𝑖=1
30
En divisant la première équation par n, on retrouve :
𝑦̅ − 𝛽0 − 𝛽1 𝑥̅ = 0
𝑛 𝑛 𝑛
∑ 𝑥𝑖 𝑦𝑖 − 𝛽0 ∑ 𝑥𝑖 − 𝛽1 ∑ 𝑥𝑖 2 = 0
{ 𝑖=1 𝑖=1 𝑖=1
La première équation montre que la droite passe par le point moyen (𝑥̅ , 𝑦̅). Ce qui
permet donc de poser que :
𝛽0 = 𝑦̅ − 𝛽1 𝑥̅ (2.4𝑎)
𝑛 𝑛
1 1
∑ 𝑥𝑖 𝑦𝑖 − 𝑥̅ 𝑦̅ − 𝛽1 ( ∑ 𝑥𝑖 2 − 𝑥̅ 2 ) = 0
𝑛 𝑛
𝑖=1 𝑖=1
𝑆𝑥𝑦
𝛽̂1 = (2.5𝑎)
𝑆𝑥2
𝑆𝑥𝑦
𝛽̂0 = 𝑦̅ − 𝑥̅ (2.5𝑏)
{ 𝑆𝑥2
𝐶𝑂𝑉(𝑥, 𝑦)
𝛽̂1 = (2.6𝑎)
𝑉𝐴𝑅(𝑥)
31
𝑆𝑥𝑦 𝑆𝑥𝑦
Avec 𝛽̂1 = 𝑆2 et 𝛽̂0 = 𝑦̅ − 2 𝑥̅
𝑥 𝑆 𝑥
𝜀𝑖 = 𝑦𝑖 − 𝑦̂𝑖 (2.9)
𝐸(𝜀𝑖 ) = 0 (2.10)
Cette propriété est l’une des hypothèses fondamentales dans l’estimation par les
moindres carrés ordinaires.
Une troisième hypothèse est la non-corrélation entre les résidus et les variables
explicatives du modèle. On dit alors qu’il y a orthogonalité (ou indépendance)
entre les résidus et les variables explicatives. Cette indépendance se traduit par
une covariance nulle entre la série des résidus 𝜀𝑖 et la série des 𝑥𝑖 . Ce qui se
traduit comme suit :
𝑛
1
𝐶𝑂𝑉(𝑥𝑖 , 𝜀𝑖 ) = 𝐸(𝑥𝑖 𝜀𝑖 ) − 𝐸(𝑥𝑖 )𝐸(𝜀𝑖 ) = 𝐸(𝑥𝑖 𝜀𝑖 ) = ∑ 𝑥𝑖 𝜀𝑖 = 0
𝑛
𝑖=1
32
𝑛
1
𝐶𝑂𝑉(𝑥𝑖 , 𝜀𝑖 ) = ∑ 𝑥𝑖 𝜀𝑖 = 0 (2.12𝑎)
𝑛
𝑖=1
La quatrième hypothèse stipule que les résidus sont non corrélés entre eux, en
d’autres termes la covariance entre deux résidus 𝑖 et 𝑗 est toujours égale à 0.
𝜀𝑖 ↝ 𝑁(0, 𝜎𝜀2 )
Il faut noter que cette hypothèse n’est pas une condition nécessaire de la validité
de l’estimateur des MCO. Celui-ci cherche simplement à minimiser la somme des
carrés des résidus. Peu importe donc la loi suivie la série des résidus dans cette
méthode d’estimation. Il faut juste que les résidus soient indépendants et
identiquement distribués.
En plus de ces cinq hypothèses sur la série des résidus, il existe aussi des
hypothèses sur la série des variables explicatives. En effet, on suppose que la
série de X n’est pas stochastique c'est-à-dire que X est non aléatoire. Cette
hypothèse signifie que son espérance et sa variance sont constantes. En revanche
la variable Y est un variable stochastique car sa valeur est influencée par les
perturbations provenant des 𝜀𝑖
La SCE est la somme des écarts à la moyenne des valeurs ajustées (prédites)
𝑛
33
2.1.3.2. Somme des carrés résiduelle (SCR)
𝑆𝐶𝑅 = ∑ 𝜀𝑖 2 (2.14)
𝑖=1
Démonstration
On sait que :
𝑦𝑖 = 𝑦̂𝑖 + 𝜀𝑖
𝑦𝑖 − 𝑦̅ = 𝑦̂𝑖 − 𝑦̅ + 𝜀𝑖
Ainsi, on a :
34
𝑛 𝑛 𝑛 𝑛
∑ 𝜀𝑖 = 0
𝑖=1
Par conséquent :
𝑛
2 ∑(𝑦̂𝑖 − 𝑦̅)𝜀𝑖 = 0
𝑖=1
Ainsi, on a bien la somme des carrés totale égale à la somme des carrés
expliquées et la somme des carrés résiduelle.
Il faut aussi savoir que lorsque cette propriété n’est pas vérifiée, le test de
significativité globale ou le calcul du R² ne sont plus valables.
𝑛
1
𝑉𝑅 = ∑ 𝜀𝑖 2 (2.17)
𝑛
𝑖=1
35
𝑛 𝑛
1 1
𝑉𝑇 = 𝑉𝐸 + 𝑉𝑅 = ∑(𝑦̂𝑖 − 𝑦̅)2 + ∑ 𝜀𝑖 2 (2.18)
𝑛 𝑛
𝑖=1 𝑖=1
1
Sachant par ailleurs que la variance totale de 𝑦 est 𝑆𝑦2 = ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 alors :
𝑛
𝑛 𝑛 𝑛
1 1 1
𝑉𝑇 = 𝑆𝑦2 = ∑(𝑦𝑖 − 𝑦̅)2 = ∑(𝑦̂𝑖 − 𝑦̅)2 + ∑ 𝜀𝑖 2
𝑛 𝑛 𝑛
𝑖=1 𝑖=1 𝑖=1
𝑉𝑇 = 𝑉𝐸 + 𝑉𝑅
𝑉𝐸 𝑉𝑅
1= +
𝑉𝑇 𝑉𝑇
2
Le coefficient de détermination de 𝑦 par 𝑥 noté 𝑅𝑥𝑦 se définit comme la part de la
𝑉𝐸
variance de 𝑦 expliquée par 𝑥. Cette définition correspond à l’expression qui
𝑉𝑇
indique le rapport entre la variance totale et la variance expliquée. Dans ce cas,
on a :
2
𝑉𝑅 𝑉𝑅
𝑅𝑥𝑦 = =1− (2.19𝑎)
𝑉𝑇 𝑉𝑇
2
∑𝑛𝑖=1 𝜀𝑖 2
𝑅𝑥𝑦 = 1−( 𝑛 )
∑𝑖=1(𝑦̂𝑖 − 𝑦̅)2 + ∑𝑛𝑖=1 𝜀𝑖 2
2
∑𝑛𝑖=1 𝜀𝑖 2
𝑅𝑥𝑦 = 1−( )
∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2
36
2
𝑆𝐶𝑅
𝑅𝑥𝑦 = 1−( ) (2.19𝑏)
𝑆𝐶𝑇
2
Le 𝑅𝑥𝑦 est un indicateur de la qualité de l’ajustement. Il est compris entre 0 et 1.
Quand il est proche de 1, le modèle sera considéré de bonne qualité.
2 𝑛−1 𝑆𝐶𝑅
𝑅𝑎𝑗𝑢𝑠𝑡é = 1−( ) (2.20)
𝑛 − 𝑘 − 1 𝑆𝐶𝑇
Démonstration :
1 𝑛
𝑆𝐶𝐸 𝑉𝐸 ∑𝑖=1(𝑦̂𝑖 − 𝑦̅)2
2
𝑅 = = = 𝑛
𝑆𝐶𝑇 𝑉𝑇 1 ∑𝑛 (𝑦 − 𝑦̅)2
𝑛 𝑖=1 𝑖
Dans un premier temps, remplaçons 𝑦̂𝑖 par son expression 𝑦̂𝑖 = 𝛽̂0 + 𝛽̂1 𝑥𝑖 , on a :
1 𝑛 ̂ 2
∑𝑖=1(𝛽0 + 𝛽̂1 𝑥𝑖 − 𝑦̅)
𝑅2 = 𝑛
1 𝑛
∑ (𝑦 2
𝑛 𝑖=1 𝑖 − 𝑦̅)
1 𝑛 ̂ 2 2 1 2
∑𝑖=1(𝛽1 (𝑥𝑖− 𝑥̅ )) 𝛽̂1 ( ∑𝑛𝑖=1(𝛽̂1 (𝑥𝑖− 𝑥̅ )) ) 𝛽̂1 2 𝑉(𝑋)
𝑅2 = 𝑛 = 𝑛 =
1 𝑛 1 𝑛 𝑉(𝑌)
∑𝑖=1(𝑦𝑖 − 𝑦̅)2 ∑𝑖=1(𝑦𝑖 − 𝑦̅)2
𝑛 𝑛
𝐶𝑂𝑉(𝑋, 𝑌) 2
( ) 𝑉(𝑋) (𝐶𝑂𝑉(𝑋, 𝑌))2 𝑉(𝑋) (𝐶𝑂𝑉(𝑋, 𝑌))2
𝑉(𝑋)
= = =
𝑉(𝑌) (𝑉(𝑋))2 𝑉(𝑌) 𝑉(𝑋)𝑉(𝑌)
37
2
2
𝐶𝑂𝑉(𝑋, 𝑌) 2
𝑅 =( ) = (𝑟𝑥𝑦 )
√𝑉(𝑋)√𝑉(𝑌)
2
𝑅 2 = (𝑟𝑥𝑦 ) (2.21)
Où 𝑉𝑅 est la variance résiduelle calculée sur la série des résidus estimés, 𝑛 est le
nombre d’observations, 𝑘 est le nombre de variables explicatives (ici égal à 1).
Ainsi (𝑘 + 1) est le nombre total de paramètres à estimer, également appelé
nombre de degré de liberté.
∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂)
𝑖
2
𝜎̂𝜀2 = (2.24)
𝑛 − (𝑘 + 1)
38
2.2.1. Le biais d’estimation
On dit que qu’un estimateur est sans biais si son espérance est égale à la vraie
valeur du paramètre estimé. Par exemple, on dit qu’un estimateur 𝜃̂ est sans
biais si :
𝐸(𝜃̂) = 𝜃
Pour vérifier cette propriété sur les estimateurs des MCO de 𝛽̂0 𝛽̂1 et 𝜎̂𝜀2 , on
calcule leur espérance respective. Ainsi, on a :
𝐸(𝛽̂𝑘 ) = 𝛽𝑘 𝑘 = 0; 1 (2.25)
Démonstrations :
Faisons apparaître 𝛽1 dans cette expression en remplaçant (𝑦𝑖 − 𝑦̅). Pour cela, on
part du modèle initial :
𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖
On obtient ainsi :
𝑦̅ = 𝛽0 + 𝛽1 𝑥̅ + 𝜀̅
39
𝑦 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖
−{ 𝑖
𝑦̅ = 𝛽0 + 𝛽1 𝑥̅ + 𝜀̅
__________________________________
(𝑦𝑖 − 𝑦̅) = 𝛽1 (𝑥 − 𝑥̅ ) + (𝜀𝑖 − 𝜀̅)
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )𝜀𝑖
𝛽̂1 = 𝛽1 +
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )𝜀𝑖
𝐸(𝛽̂1 ) = 𝐸 (𝛽1 + )
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )𝜀𝑖
̂
𝐸(𝛽1 ) = 𝐸(𝛽1 ) + 𝐸 ( 𝑛 )
∑𝑖=1(𝑥𝑖 − 𝑥̅ )2
(𝑥𝑖 −𝑥̅ )
Mais puisque la variable 𝑥𝑖 n’est pas stochastique (non aléatoire), alors ∑𝑛 2
𝑖=1(𝑥𝑖 −𝑥̅ )
est aussi non stochastique. Or on sait que l’espérance d’une variable non
stochastique est égale à une constante indépendante des erreurs. Par conséquent
∑𝑛 (𝑥 −𝑥̅ )𝜀
𝑖 𝑖 ∑𝑛
𝑖=1(𝑥𝑖 −𝑥̅ )𝐸(𝜀𝑖 )
𝐸 ( ∑𝑖=1
𝑛 (𝑥
−𝑥̅ )2
)= ∑𝑛 2
. Notons aussi que 𝛽1 est non stochastique, par
𝑖=1 𝑖 𝑖=1(𝑥𝑖 −𝑥̅ )
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )𝐸(𝜀𝑖 )
𝐸(𝛽̂1 ) = 𝛽1 +
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝐸(𝛽̂1 ) = 𝛽1
40
Ce qui permet de montrer que 𝛽̂1 est sans biais.
Pour ce qui concerne 𝛽̂0 on peut démontrer qu’il est aussi sans biais en suivant la
même procédure que pour 𝛽̂1. En effet, on sait que :
𝛽̂0 = 𝑦̅ − 𝛽̂1 𝑥̅
Sachant que 𝛽̂1 est un estimateur sans biais de 𝛽1, alors 𝐸(𝛽1 − 𝛽̂1 ) = 0. Par
conséquent :
𝐸(𝛽̂0 ) = 𝛽0
𝑉𝐴𝑅(𝜃̂) → 0 𝑞𝑢𝑎𝑛𝑑 𝑛 → ∞
41
Démonstrations :
Ainsi, pour démontrer qu’un estimateur est convergent, il faut d'abord expliciter
l’expression de la variance de cet estimateur et montrer, par la suite que cette
variance tend vers 0 lorsque n tend vers ∞.
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )𝜀𝑖
𝛽̂1 = 𝛽1 +
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
Ainsi sachant que la variance d’une somme est égale à la somme des variances
dans le cas des variables indépendantes, l’expression ci-dessus permet donc
d’écrire que :
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )𝜀𝑖
𝑉𝐴𝑅(𝛽̂1 ) = 𝑉𝐴𝑅(𝛽1 ) + 𝑉𝐴𝑅 ( 𝑛 )
∑𝑖=1(𝑥𝑖 − 𝑥̅ )2
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )𝜀𝑖
𝑉𝐴𝑅(𝛽̂1 ) = 𝑉𝐴𝑅 ( )
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )𝜀𝑖
𝑉𝐴𝑅(𝛽̂1 ) = 𝑉𝐴𝑅 ( 2 )
∑𝑛𝑗=1(𝑥𝑗 − 𝑥̅ )
(𝑥𝑖 −𝑥̅ )
Par ailleurs, 𝑥𝑖 étant une variable non stochastique, alors 2 est non
∑𝑛
𝑗=1(𝑥𝑗 −𝑥̅ )
(𝑥𝑖 −𝑥̅ )
stochastique et on peut noter cette expression comme 𝑛 2 = 𝜔𝑖 . Ainsi on a :
∑𝑗=1(𝑥𝑗 −𝑥̅ )
𝑛 𝑛 2
(∑ 𝜔𝑖 𝜀𝑖 ) = ∑(𝜔𝑖 𝜀𝑖 )2 + 2 (∑ ∑ 𝜔𝑖 𝜔𝑗 𝜀𝑖 𝜀𝑗 )
𝑖=1 𝑖=1 𝑖=1 𝑗=𝑖+1
Ainsi, on a :
𝑛 𝑛−1 𝑛
𝑉𝐴𝑅(𝛽̂1 ) = 𝐸 [∑(𝜔𝑖 𝜀𝑖 )2 + 2 (∑ ∑ 𝜔𝑖 𝜔𝑗 𝜀𝑖 𝜀𝑗 )]
𝑖=1 𝑖=1 𝑗=𝑖+1
42
𝑛 𝑛−1 𝑛
𝑉𝐴𝑅(𝛽̂1 ) = 𝜎𝜀2 ∑ 𝜔𝑖 2
𝑖=1
(𝑥𝑖 −𝑥̅ )
Mais sachant que 𝜔𝑖 = 2 alors on a : :
∑𝑛
𝑗=1(𝑥𝑗 −𝑥̅ )
𝑛 2 𝑛
(𝑥𝑖 − 𝑥̅ ) 𝜎𝜀2
𝑉𝐴𝑅(𝛽̂1 ) = 𝜎𝜀2 ∑ ( 2) = ∑(𝑥𝑖 − 𝑥̅ )2
2 2
𝑖=1 ∑𝑛𝑗=1(𝑥𝑗 − 𝑥̅ ) (∑𝑛𝑗=1(𝑥𝑗 − 𝑥̅ ) ) 𝑖=1
𝑛
𝜎𝜀2 2
𝜎𝜀2
= 𝑛 ∑(𝑥𝑖 − 𝑥̅ ) =
(∑𝑖=1(𝑥𝑖 − 𝑥̅ )2 )2 ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑖=1
𝜎𝜀2
𝑉𝐴𝑅(𝛽̂1 ) =
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑛 → ∞ ∑(𝑥𝑖 − 𝑥̅ )2 → ∞
𝑖=1
𝜎𝜀2
→0𝑉𝐴𝑅(𝛽̂1 ) =
∞
Ce qui permet donc de démontrer l’estimateur 𝛽̂1 est convergent.
En suivant la même démarche, on peut montrer que 𝛽̂0 est aussi un estimateur
convergent car :
1 𝑥̅ 2
̂ 2
𝑉𝐴𝑅(𝛽0 ) = 𝜎𝜀 [ + 𝑛 ]
𝑛 ∑𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑛 → ∞ ∑(𝑥𝑖 − 𝑥̅ )2 → ∞
𝑖=1
𝑉𝐴𝑅(𝛽̂0 ) → 0
43
Tableau 2.1 : Récapitulatif sur les paramètres
Expression Expression
Estimateur Espérance Variance
simple développée
1 𝑥̅ 2
𝑠 𝛽̂0 = 𝑦̅ − 𝛽̂1 𝑥̅ 𝛽0 + (𝛽1 − 𝛽̂1 )𝑥̅ + 𝜀̅ 𝛽0 𝜎𝜀2 [ + 𝑛 ]
𝑛 ∑𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝜎𝜀2 𝑥̅
𝐶𝑂𝑉(𝛽̂0 , 𝛽̂1 ) = − (2.27)
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝜀̂𝑖
↝ 𝑁(0,1)
𝜎𝜀̂
𝑛
𝜀̂𝑖 2
∑( ) ↝ 𝜒 2 (𝑛 − 𝑘 − 1)
𝜎𝜀̂
𝑖=1
44
∑𝑛𝑖=1 𝜀̂𝑖 2
↝ 𝜒 2 (𝑛 − 𝑘 − 1
𝜎𝜀̂2
∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂)
𝑖
2
↝ 𝜒 2 (𝑛 − 𝑘 − 1)
𝜎𝜀̂2
𝜎̂𝜀̂2 𝜒 2 (𝑛 − 𝑘 − 1)
↝ (2.28)
𝜎𝜀̂2 (𝑛 − 𝑘 − 1)
∑𝑛 ̂𝑖 )2
𝑖=1(𝑦𝑖 −𝑦
Avec 𝜎̂𝜀̂2 =
𝑛−(𝑘+1)
Lorsque la variance des erreurs est connue, les coefficients estimés suivent une
loi normale.
1 𝑥̅ 2
où 𝜎𝛽̂20 = 𝜎𝜀2 [𝑛 + ∑𝑛 2
]
𝑖=1(𝑥𝑖 −𝑥̅ )
𝛽̂0 − 𝛽0
( ) ↝ 𝑁(0,1)
𝜎𝛽̂0
𝜎𝜀2
Où 𝜎𝛽̂21 = ∑𝑛 2
𝑖=1(𝑥𝑖 −𝑥̅ )
𝛽̂1 − 𝛽1
( ) ↝ 𝑁(0,1)
𝜎𝛽̂1
D’une manière générale quelle que soit la variable j lorsque 𝜎𝜀2 est connue, on
peut écrire :
45
𝛽̂𝑗 − 𝛽𝑗
( ) ↝ 𝑁(0,1) (2.29)
𝜎𝛽̂𝑗
Soit le modèle estimé 𝑦̂𝑖 = 𝛽̂0 + 𝛽̂1 𝑥𝑖 . En considérant d’abord la constante, on sait
que :
1 𝑥̅ 2
𝜎𝛽̂20 = 𝜎𝜀̂2 [ + 𝑛 ]
𝑛 ∑𝑖=1(𝑥𝑖 − 𝑥̅ )2
1 𝑥̅ 2
𝜎̂𝛽̂20 = 𝜎̂𝜀̂2 [ + 𝑛 ]
𝑛 ∑𝑖=1(𝑥𝑖 − 𝑥̅ )2
1 𝑥̅ 2
𝜎̂𝜀̂2 [ + 𝑛
𝜎̂𝛽̂20 𝑛 ∑𝑖=1(𝑥𝑖 − 𝑥̅ )2 ] 𝜎̂𝜀̂2
= = 2
𝜎𝛽̂2 2 1 𝑥̅ 2 𝜎𝜀̂
0 𝜎𝜀̂ [ + 𝑛 ]
𝑛 ∑𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝜎̂𝛽̂20 𝜎̂𝜀̂2
= 2
𝜎𝛽̂2 𝜎𝜀̂
0
𝜎̂𝛽̂20 𝜎̂𝜀̂2 𝜒 2 (𝑛 − 𝑘 − 1)
= 2↝
𝜎𝛽̂2 𝜎𝜀̂ (𝑛 − 𝑘 − 1)
0
1 𝑥̅ 2 1 𝑥̅ 2
Avec 𝜎𝛽̂20 = 𝜎𝜀̂2 [𝑛 + ∑𝑛 2
] et 𝜎̂𝛽̂20 = 𝜎̂𝜀̂2 [𝑛 + ∑𝑛 2
]
𝑖=1(𝑥𝑖 −𝑥̅ ) 𝑖=1(𝑥𝑖 −𝑥̅ )
̂0 −𝛽0
𝛽
Par ailleurs, on sait que ( ) ↝ 𝑁(0,1). Et comme la loi de Student est définie
𝜎𝛽
̂ 0
comme le rapport entre une loi normale centrée réduite et la racine carrée d'une
loi du 𝜒 2 normalisée par ses degrés de liberté, on peut écrire que :
46
𝛽̂ − 𝛽0
( 0
𝜎𝛽̂0 ) 𝑁(0,1)
=
𝜎̂𝛽̂
( 0) 𝜒 2 (𝑛 − 𝑘 − 1)
𝜎𝛽̂0 √
(𝑛 − 𝑘 − 1)
𝛽̂0 − 𝛽0
↝ 𝑇(𝑛 − 𝑘 − 1)
𝜎̂𝛽̂0
𝛽̂1 − 𝛽1
↝ 𝑇(𝑛 − 𝑘 − 1)
𝜎̂𝛽̂1
Ainsi, d’une manière générale, lorsque la variance des erreurs 𝜎𝜀̂2 n’est pas
connue et qu’il est estimé par 𝜎̂𝜀̂2 , pour chaque variable j, on peut écrire :
𝛽̂𝑗 − 𝛽𝑗
↝ 𝑇(𝑛 − 𝑘 − 1) (2.30)
𝜎̂𝛽̂𝑗
En utilisant cette expression sert à la fois dans les tests sur les coefficients mais
aussi dans de nombreux calculs tels que celui des intervalles de confiance de ces
paramètres.
Test bilatéral
𝐻0 𝛽0 = 0
{
𝐻1 𝛽0 ≠ 0
̂0 −𝛽0
𝛽
Connaissant la distribution de probabilité de ̂𝛽
, on peut calculer la statistique
𝜎 ̂
0
𝛽̂0 − 0 𝛽̂0
𝑡𝛽̂0 = = (2.31)
𝜎̂𝛽̂0 𝜎̂𝛽̂0
47
suivant une loi normale et une variable suivant une loi de khi-deux. Cette
statistique suit dont une loi de Student à (𝑛 − 𝑘 − 1) degré de libertés (égale à 𝑛 −
2 dans le cas du modèle linéaire simple où 𝑘 = 1).
Puisqu’il s’agit ici d’un test bilatéral, la région critique sera déterminée à gauche
et à droite de 0. Par ailleurs, la loi de Student est une loi symétrique, c'est-à-dire
que la probabilité d’une fractile positive est égale à la probabilité de la fractile
opposée (négative). Par conséquent on considère la valeur absolue de la
statistique de Student. Ainsi, le seuil critique du test sera divisé en deux valeurs
(les deux parties symétriques de la distribution). Dès la statistique de Student
∗
sera défini par rapport à 𝑡1− 𝛼 qui représente la statistique lue dans la table de
2
Student en considérant le nombre de degré de liberté (𝑛 − 𝑘 − 1).
∗
Ainsi, si |𝑡𝛽̂0 | > 𝑡1− 𝛼 , ce qui implique la p.value 𝑝0 du test sera inférieure à 𝛼.
2
Dans ce cas, on rejette l’hypothèse de nullité du coefficient. En revanche, si
∗
|𝑡𝛽̂0 | < 𝑡1− 𝛼 , cela implique que la p.value 𝑝0 est supérieure à 𝛼. Dans ce cas, on ne
2
Test unilatéral
Le test bilatéral se contente de tester si le paramètre estimé est égal ou pas à une
valeur donnée. Mais au cas où l’hypothèse nulle est rejetée, il ne permet pas de
dire si le paramètre estimé est inférieure ou supérieure à la valeur spécifiée. Le
test unilatéral vise à examiner une telle éventualité. Par exemple, on veut tester
si un paramètre 𝛽𝑘 est égal à une valeur fixée 𝛽0,𝑘 , contre l’hypothèse alternative
qu’il est strictement supérieur à cette valeur. L’hypothèse nulle s’écrit donc H0 :
𝛽𝑘 = 𝛽0,𝑘 , contre l’hypothèse alternative Ha : 𝛽𝑘 > 𝛽0,𝑘 . Dans cette configuration,
on calcule la statistique de test de Student comme suit :
𝛽̂𝑘 − 𝛽0,𝑘
𝑡𝛽̂𝑘 = (2.32)
𝜎̂𝛽̂𝑘
Et on compare cette statistique à la valeur lue dans la table de Student au seuil
∗
de 1 − 𝛼 et à (𝑛 − 𝑘 − 1)degrés de libertés 𝑡1−𝛼 .
∗
Si 𝑡𝛽̂𝑘 > 𝑡1−𝛼 , cela signifie que la p.value 𝑝0 est inférieure à 𝛼. Dans ce cas, on
rejette l’hypothèse nulle. En revanche, lorsque 𝑡𝛽̂𝑘 < 𝑡1−𝛼
∗
, cela signifie que la
p.value 𝑝0 est supérieure à 𝛼. On ne peut donc pas rejeter l’hypothèse nulle.
En revanche si on veut tester que le paramètre 𝛽𝑘 est égal à une valeur fixée 𝛽0,𝑘 ,
contre l’hypothèse alternative qu’il est strictement inférieur à cette valeur.
48
L’hypothèse alternative devient Ha : 𝛽𝑘 < 𝛽0,𝑘 . Dans cette configuration, on
calcule toujours la statistique de test de Student comme suit :
𝛽̂𝑘 − 𝛽0,𝑘
𝑡𝛽̂𝑘 =
𝜎̂𝛽̂𝑘
Et on compare cette statistique à l’opposé de la valeur lue dans la table de
∗
Student au seuil de 1 − 𝛼 et à (𝑛 − 𝑘 − 1)degrés de libertés −𝑡1−𝛼
∗
Dès lors, si 𝑡𝛽̂𝑘 < −𝑡1−𝛼 , ce qui signifie aussi que la p.value 𝑝0 est inférieure à 𝛼.
Dans ce cas, on rejette l’hypothèse nulle. En revanche, lorsque 𝑡𝛽̂𝑘 > −𝑡1−𝛼
∗
, cela
signifie que la p.value 𝑝0 est supérieure à 𝛼. Dans ce cas, on ne peut pas rejeter
l’hypothèse nulle.
𝑆𝐶𝐸
(𝑛 − 𝑘) − (𝑛 − 𝑘 − 1)
𝐹𝑝,𝑞 = (2.33𝑎)
𝑆𝐶𝑅
(𝑛 − 𝑘)
𝑆𝐶𝐸
𝐹𝑝,𝑞 = 1
𝑆𝐶𝑅
(𝑛 − 𝑘)
49
considérer que l'explication emmenée par la régression traduit une relation qui
existe réellement dans la population
𝑅²
𝐹= 1 (2.33𝑏)
(1 − 𝑅²)
(𝑛 − 𝑘)
𝜒 2 ((𝑛 − 𝑘) − (𝑛 − 𝑘 − 1))
𝐹= 1 (2.33𝑐)
𝜒 2 (𝑛 − 𝑘)
(𝑛 − 𝑘)
Règles de décision
Si 𝐹 > 𝐹1−𝛼 (1, 𝑛 − 𝑘), ce qui implique que 𝑝0 < 𝛼. Alors, on rejette H0.
50
̂ −𝛽
𝛽
On sait que : ̂𝛽
𝜎
↝ 𝑇(𝑛 − 𝑘 − 1). Ainsi connaissant la valeur de 𝛼 on peut poser
̂
que :
𝛽̂ − 𝛽 ∗
𝑃 (| | > 𝑇1− 𝛼 (𝑛 − 𝑘 − 1)) = 𝛼
𝜎̂𝛽̂ 2
∗
Où 𝑇1− 𝛼 (𝑛 − 𝑘 − 1) représente la statistique lue dans la table de Student en
2
𝛽̂ − 𝛽 ∗
𝑃 (| | > 𝑇1− 𝛼 (𝑛 − 𝑘 − 1)) = 1 − 𝛼
𝜎̂𝛽̂ 2
Soit :
∗ 𝛽̂ − 𝛽 ∗
𝑃 (−𝑇1− 𝛼 (𝑛 − 𝑘 − 1) < < 𝑇1− 𝛼 (𝑛 − 𝑘 − 1)) = 1 − 𝛼
2 𝜎̂𝛽̂ 2
D’où :
𝑃 (𝛽̂ − 𝑇1−
∗
̂𝛽̂ < 𝛽 < 𝛽̂ + 𝑇1−
𝛼 (𝑛 − 𝑘 − 1)𝜎
∗
𝛼 (𝑛 − 𝑘 − 1)𝜎
̂𝛽̂ ) = 1 − 𝛼
2 2
Dès lors, pour tout modèle estimé de type 𝑦̂𝑖 = 𝛽̂0 + 𝛽̂1 𝑥𝑖 , on peut fournir les
intervalles de confiance suivants :
∗
Où 𝑇1− 𝛼 (𝑛 − 𝑘 − 1) représente la statistique lue dans la table de Student en
2
considérant le seuil d’erreur 𝛼 et le nombre de degré de liberté (𝑛 − 𝑘 − 1).
51
2.3.4. Prédiction à l’intérieur de l’échantillon et intervalle de
confiance de la droite de régression
Déterminer l’intervalle de confiance de la droite de régression c’est fournir un
intervalle de confiance pour la valeur prédite 𝑦̂𝑖 à l’intérieur de l’échantillon qui a
servi à estimer les paramètres. Ce calcul se base essentiellement sur la valeur
estimée de la constante (qui représente la moyenne de 𝑦 lorsque 𝑥 = 0).
1 (𝑥𝑖 − 𝑥̅ )
𝐼𝐶𝑦̂𝑖 = (𝛽̂1 𝑥𝑖 + 𝛽̂0 ) ± 𝑇1−
∗
𝛼 (𝑛 − 𝑘 − 1)𝜎
̂𝜀̂ √[ + ]
2 𝑛 ∑𝑛 (𝑥 − 𝑥̅ )2
𝑗=1 𝑗
1 (𝑥𝑖 −𝑥̅ )
La quantité ℎ𝑖 = [ + 𝑛 2 ] est appelée le levier (leverage). Elle permet
𝑛 ∑𝑗=1(𝑥𝑗 −𝑥̅ )
52
On peut facilement montrer que cette prédiction est sans biais. Pour cela on
montre soit que 𝐸(𝑦̂𝑖∗ ) = 𝑦𝑖∗ . En effet
= 𝛽0 + 𝛽1 𝐸(𝑥𝑖∗ )
Ainsi, en utilisant l’équation 𝑦̂𝑖∗ = 𝛽̂0 + 𝛽̂1 𝑥𝑖∗ , on peut calculer l’erreur de
prédiction du modèle 𝜀̂𝑖∗ qui est la valeur estimée de 𝜀𝑖∗ (non observable). Ainsi, on
a:
Là aussi, on peut montrer que l’erreur de prévision est en moyenne nulle c'est-à-
dire que 𝐸(𝜀̂𝑖∗ ) = 0. En effet, on sait que :
𝐸(𝜀̂𝑖∗ ) = 0 + 0 × 𝐸(𝑥𝑖∗ ) + 0
𝐸(𝜀̂𝑖∗ ) = 0
53
Variance de l'erreur de prédiction
L’erreur de prévision théorique notée 𝜀𝑖∗ a une espérance nulle, 𝐸(𝜀𝑖∗ ) = 0 et une
variance 𝑉(𝜀𝑖∗ ) égale 𝜎𝜀2∗ = 𝐸[(𝜀𝑖∗ )2 ].
𝑖
Mais puisque l’erreur de prévision estimée 𝜀̂𝑖∗ est une réalisation de 𝜀𝑖∗ , il en vient
que 𝑉(𝜀̂𝑖∗ ) = 𝜎𝜀̂2∗ = 𝐸[(𝜀̂𝑖∗ )2 ]. Le développement de cette expression permet de
𝑖
montrer que :
1 (𝑥𝑖 − 𝑥̅ )
𝜎𝜀̂2∗ = 𝜎𝜀2 [1 + + ] (2.38)
𝑖 𝑛 ∑𝑛 (𝑥 − 𝑥̅ )2
𝑗=1 𝑗
𝜎𝜀̂2∗ = 𝜎𝜀2 [1 + ℎ𝑖 ]
𝑖
1 (𝑥𝑖 −𝑥̅ )
Avec ℎ𝑖 = [ + 𝑛 2 ] appelée levier.
𝑛 ∑𝑗=1(𝑥𝑗 −𝑥̅ )
𝜎̂𝜀̂2∗ = 𝜎̂𝜀2 [1 + ℎ𝑖 ]
𝑖
𝜀̂𝑖∗
↝ 𝑁(0,1)
𝜎𝜀̂𝑖∗
Tout comme pour les autres paramètres estimés du modèle, on sait aussi que le
rapport entre la variance estimée et la vraie variance suit une loi de khi-deux à
𝑛 − 𝑘 − 1. Dès lors, on peut écrire que :
𝜎̂𝜀̂2∗ 𝜒 2 (𝑛 − 𝑘 − 1)
𝑖
↝
𝜎𝜀̂2∗ (𝑛 − 𝑘 − 1)
𝑖
54
̂𝜀̂2∗
𝜎
𝜀̂ ∗ 𝜒2 (𝑛−𝑘−1)
On obtient alors deux distributions que sont : 𝜎 𝑖 ↝ 𝑁(0,1) et 𝑖
↝ .
𝜀̂∗𝑖 𝜎𝜀̂2∗ (𝑛−𝑘−1)
𝑖
Ainsi, en faisant le rapport entre une loi normale et la racine carrée d’une loi de
de khi-deux, on obtient une loi de student. On a :
𝜀̂𝑖∗
𝜎𝜀̂𝑖∗ 𝑁(0,1)
= ↝ 𝑇(𝑛 − 𝑘 − 1)
𝜎̂𝜀̂2∗ 𝜒 2 (𝑛
− 𝑘 − 1)
√ 2𝑖 √
𝜎𝜀̂∗ (𝑛 − 𝑘 − 1)
𝑖
𝜀̂𝑖∗
𝜎𝜀̂𝑖∗
↝ 𝑇(𝑛 − 𝑘 − 1)
𝜎̂𝜀̂𝑖∗
𝜎𝜀̂𝑖∗
𝜀̂𝑖∗
↝ 𝑇(𝑛 − 𝑘 − 1) (2.39)
𝜎̂𝜀̂𝑖∗
∗ ∗
𝐼𝐶𝜀̂𝑖∗ = [−𝑇1− 𝛼 (𝑛 − 𝑘 − 1)𝜎
̂𝜀̂𝑖∗ ; 𝑇1− 𝛼 (𝑛 − 𝑘 − 1)𝜎
̂𝜀̂𝑖∗ ] (2.40)
2 2
∗
Où 𝑇1− 𝛼 (𝑛 − 𝑘 − 1) représente la statistique lue dans la table de Student en
2
considérant le seuil d’erreur 𝛼 et le nombre de degrés de liberté (𝑛 − 𝑘 − 1). Et où
𝜎̂𝜀̂2∗ = 𝜎̂𝜀2 [1 + ℎ𝑖 ]
𝑖
55
2.3.6. Linéarisation des modèles non-linéaires
Dans la plupart des cas, les modèles à estimer ne se présentent pas initialement
sous la forme linéaire. Il faut donc procéder à une linéarisation avant de mettre
en œuvre les techniques d’estimation. Les principaux types de modèles sont :
Le modèle log-linéaire
𝛽
𝑦𝑖 = 𝑎0 𝑥𝑖 1
𝑙𝑛(𝑦𝑖 ) = 𝛽0 + 𝛽1 𝑙𝑛(𝑥𝑖 )
Avec 𝛽0 = 𝑙𝑛(𝑎0 )
Le modèle exponentiel
𝑦𝑖 = 𝑒 (𝛽0 +𝛽1 𝑥𝑖 )
𝑙𝑛(𝑦𝑖 ) = 𝛽0 + 𝛽1 𝑥𝑖
Le modèle logarithmique
𝑦𝑖 = 𝛽0 + 𝛽1 𝑙𝑛(𝑥𝑖 )
Ce modèle peut être directement estimé car il se présente déjà sous forme
linéaire.
Le modèle hyperbolique
𝛽
𝑦𝑖 = + 𝑦0𝑖
𝑥𝑖 − 𝑥0𝑖
Le modèle hyperbolique peut aussi être estimé car il est déjà linéaire1 en 𝛽.
L’équation se présente alors simplement comme suit :
𝑦̃𝑖 = 𝛽𝑥̃𝑖
1
Avec 𝑦̃𝑖 = 𝑦𝑖 − 𝑦0𝑖 et 𝑥̃𝑖 = 𝑥 −𝑥
𝑖 0𝑖
1
Il faut noter qu’on peut distinguer deux types de linéarité : la linéarité en fonction des
paramètres et la linéarité en fonction des variables. La linéarité dont il est question ici est
déterminée en fonction des paramètres et non en fonction des variables. C’est seulement la non-
linéarité des paramètre qui peut nécessiter une linéarisation du modèle.
56
Le modèle logistique
𝑦𝑚𝑎𝑥,𝑖 − 𝑦𝑚𝑖𝑛,𝑖
𝑦𝑖 = 𝑦𝑚𝑖𝑛,𝑖 +
1 + 𝑒 (𝛽0 +𝛽1𝑥𝑖 )
𝑦𝑚𝑎𝑥,𝑖 − 𝑦𝑚𝑖𝑛,𝑖
𝑙𝑛 ( ) = 𝛽0 + 𝛽1 𝑥𝑖
𝑦 𝑖 − 𝑦𝑚𝑖𝑛,𝑖
𝑙𝑛(𝑦̃)
𝑖 = 𝛽0 + 𝛽1 𝑥𝑖
𝑦𝑚𝑎𝑥,𝑖 −𝑦𝑚𝑖𝑛,𝑖
Avec 𝑦̃𝑖 =
𝑦 𝑖 −𝑦𝑚𝑖𝑛,𝑖
Le modèle parabolique
𝑦 𝑖 = 𝛽0 + 𝛽1 𝑥 𝑖 + 𝛽2 𝑥𝑖2
Ce modèle est déjà linéaire par rapport aux paramètres. Par conséquent, il n’y a
pas besoin de procéder à quelle que transformation que ce soit. Il faut
simplement noter, en revanche, que la relation entre 𝑥 et y n’est pas linéaire. Ici,
il s’agit d’une relation parabolique encore d’une relation quadratique.
𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖
𝜀𝑖 ↝ 𝑁(0, 𝜎𝜀2 )
57
𝐸(𝑦𝑖 ) = 𝐸(𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖 ) = 𝐸(𝛽0 + 𝛽1 𝑥𝑖 ) + 𝐸(𝜀𝑖 ) = 𝛽0 + 𝛽1 𝑥̅
1 1 𝑧𝑖 − 𝜇 2
𝑓(𝑧𝑖 ) = exp (− ( ) ) (2.42)
𝜎√2𝜋 2 𝜎
Ainsi, en supposant que la variable 𝜀𝑖 suit une loi normale 𝑁(0, 𝜎𝜀2 ) et sachant
que : 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖 on peut spécifier sa fonction de densité telle que : 𝜀𝑖 =
𝑦𝑖 − 𝛽0 − 𝛽1 𝑥𝑖 . On aura alors :
1 1 𝑦𝑖 − 𝛽0 − 𝛽1 𝑥𝑖 2
𝑓(𝑦𝑖 ) = exp (− ( ) )
𝜎𝜀 √2𝜋 2 𝜎𝜀
𝑛 𝑛
1 1
𝐿(𝛽0 , 𝛽1 , 𝜎𝜀2 ) = ∏ 𝑓(𝑦𝑖 ) = ∏ [ 1 exp (− (𝑦 − 𝛽0 − 𝛽1 𝑥𝑖 )2 )]
(2𝜋𝜎𝜀2 )2 2𝜎𝜀2 𝑖
𝑖=1 𝑖=1
𝑛
1 1
𝐿(𝛽0 , 𝛽1 , 𝜎𝜀2 ) = 𝑛 exp (− 2
∑(𝑦𝑖 − 𝛽0 − 𝛽1 𝑥𝑖 )2 )
(2𝜋𝜎 2 ) 2 2𝜎𝜀
𝜀 𝑖=1
58
cela, il faut dériver la dérivée et retrouver les conditions de premier ordre afin
d’en déduire chacun des paramètres.
𝑛
𝜕𝐿𝑜𝑔𝐿(𝛽0 , 𝛽1 , 𝜎𝜀2 ) 2
= ∑(𝑦𝑖 − 𝛽0 − 𝛽1 𝑥𝑖 ) = 0
𝛽0 2𝜎𝜀2
𝑖=1
𝑛
𝜕𝑙(𝛽0 , 𝛽1 ) 2
= ∑(𝑦𝑖 − 𝛽0 − 𝛽1 𝑥𝑖 )𝑥𝑖 = 0
{ 𝛽1 2𝜎𝜀2
𝑖=1
𝑦̅ − 𝛽0 − 𝛽1 𝑥̅ = 0
𝑛 𝑛 𝑛
∑ 𝑥𝑖 𝑦𝑖 − 𝛽0 ∑ 𝑥𝑖 − 𝛽1 ∑ 𝑥𝑖 2 = 0
{ 𝑖=1 𝑖=1 𝑖=1
𝛽̂0 = 𝑦̅ − 𝛽1 𝑥̅ (2.43𝑎)
𝑛 𝑛
1 1
∑ 𝑥𝑖 𝑦𝑖 − 𝑥̅ 𝑦̅ − 𝛽1 ( ∑ 𝑥𝑖 2 − 𝑥̅ 2 ) = 0
𝑛 𝑛
𝑖=1 𝑖=1
𝐶𝑂𝑉(𝑥, 𝑦)
𝛽̂1 = (2.44𝑎)
𝑉𝐴𝑅(𝑥)
59
CHAPITRE 3. LE MODELE LINEAIRE
MULTIPLE
Il faut simplement remarquer que dans l’équation (3.1), les variables 𝑦 et 𝑥 sont
observées alors que les paramètres 𝛽0, 𝛽1, 𝛽2,…, 𝛽𝑘 et les perturbations aléatoires
sont inobservés.
(3.2)
60
𝑛
𝜕𝑙(. )
= −2 ∑(𝑦𝑖 − 𝛽0 − 𝛽1 𝑥𝑖1 − ⋯ − 𝛽𝑘 𝑥𝑖𝑘 ) = 0 (𝑖)
𝛽0
𝑖=1
𝑛
𝜕𝑙(. )
= −2 ∑ 𝑥𝑖1 (𝑦𝑖 − 𝛽0 − 𝛽1 𝑥𝑖1 − ⋯ − 𝛽𝑘 𝑥𝑖𝑘 ) = 0 (𝑖𝑖)
𝛽1
𝑖=1
𝑛
𝜕𝑙(. )
= −2 ∑ 𝑥𝑖2 (𝑦𝑖 − 𝛽0 − 𝛽1 𝑥𝑖1 − ⋯ − 𝛽𝑘 𝑥𝑖𝑘 ) = 0 (𝑖𝑖)
𝛽2
𝑖=1
…
…
𝑛
𝜕𝑙(. )
= −2 ∑ 𝑥𝑖𝑘 (𝑦𝑖 − 𝛽0 − 𝛽1 𝑥𝑖1 − ⋯ − 𝛽𝑘 𝑥𝑖𝑘 ) = 0 (… )
{ 𝛽𝑘 𝑖=1
𝛽0 = 𝑦̅ − 𝛽1 ̅̅̅
𝑥1 − 𝛽2 ̅̅̅
𝑥2 − ⋯ − 𝛽𝑘 𝑥
̅̅̅𝑘
Ensuite, on remplace 𝛽0 par son expression dans toutes les autres équations.
Ensuite, on tire 𝛽1 de l’équation (𝑖𝑖) et l’on replace par sa valeur dans toutes les
autres équations. Ce processus de substitution continue jusqu’à obtenir 𝛽𝑘 dont la
valeur ne dépend plus que des expressions connues. Dès lors, après avoir calculé
𝛽𝑘 , on peut calculer 𝛽𝑘−1 et ainsi de suite jusqu’à 𝛽0 tel que :
61
𝛽0 = 𝑦̅ − 𝛽̂1 𝑥
̅̅̅1 − 𝛽̂2 ̅̅̅
𝑥2 − ⋯ − 𝛽̂𝑘 ̅̅̅
𝑥𝑘 (3.3)
𝑌 = (𝑦1 , 𝑦2 , … , … 𝑦𝑛 )′ (3.4𝑏)
62
Avec la prise en compte du paramètre 𝛽0 , la matrice 𝑋 a finalement pour
dimension N × (K + 1).
La série des 𝜀𝑖 doit aussi être mise sous la forme matricielle. Celle-ci se présente
sous la forme d’un vecteur-colonne ou sous la forme de transposé d’un vecteur-
ligne. On a alors:
𝜀1
𝜀2
𝜖 = ( . ) = (𝜀1 , 𝜀2 , … , … 𝜀𝑛 )′ (3.7)
.
𝜀𝑛
En fin les coefficients peuvent être regroupés sous une forme matrice,
principalement sous la forme d’un vecteur-colonne. Cette représentation des
coefficients se fait comme suit :
𝛽0
𝛽1
𝛽 = 𝛽2 (3.8)
..
(𝛽𝑘 )
En rassemblant ces différent éléments avec leur nouvelles formulations,
l’équation (1) se présente comme suit :
𝛽 0
𝑦1 1 𝑥11 𝑥12 … 𝑥1𝑘 𝜀1
𝑦2 𝑥22 … 𝑥2𝑘 𝛽 𝜀2
1 𝑥21 1
( . ) = (… … … … … ) 𝛽 +( . ) (3.9)
. … … … … … ..2 .
𝑦𝑛 1 𝑥𝑛1 𝑥𝑛2 … 𝑥2𝑘 𝜀𝑛
(𝛽 𝑘 )
𝑌 =𝑋𝛽+𝜖 (3.10)
(3.11)
63
Il faut simplement noter que comme 𝜖 = 𝑌 − 𝑋 𝛽, alors 𝜖′𝜖 représente la forme
matricielle de la somme des carrés des résidus ∑𝑛𝑖=1 𝜀𝑖 2 . En effet, une matrice
multipliée par sa transposée donne toujours la somme des carrés de ses éléments.
𝜕𝐿(𝛽)
= −2𝑋′(𝑌 − 𝑋 𝛽) = 0 (3.12)
𝛽
Ce qui donne :
𝛽 = (𝑋 ′ 𝑋)−1 𝑋 ′ 𝑌 (3.14)
64
𝑛 𝑛 𝑛 𝑛
65
𝑛
∑ 𝑦𝑖
𝑖=1
𝑛
∑ 𝑥𝑖1 𝑦𝑖 𝛽0
𝑖=1 𝛽1
𝑛 = 𝑋′𝑌 ; 𝛽2 = 𝛽
∑ 𝑥𝑖2 𝑦𝑖 …
𝑖=1
𝛽
( 𝑘)
…
…
𝑛
∑ 𝑥𝑖𝑘 𝑦𝑖
( 𝑖=1 )
𝑛 ∑ 𝑥𝑖1 ∑ 𝑦𝑖
𝛽
𝑛
𝑖=1
𝑛 ( 0) = 𝑖=1
𝑛
𝛽1
∑ 𝑥𝑖 ∑(𝑥𝑖 )2 ∑ 𝑥𝑖 𝑦𝑖
( 𝑖=1 𝑖=1 ) ( 𝑖=1 )
𝑛 𝑛
𝑛 ∑ 𝑥𝑖1 ∑ 𝑦𝑖
𝛽
𝑛
𝑖=1
𝑛 = 𝑋′𝑋 ; 𝑖=1
𝑛 = 𝑋′𝑌 ; ( 0) = 𝛽
𝛽1
∑ 𝑥𝑖 ∑(𝑥𝑖 )2 ∑ 𝑥𝑖 𝑦𝑖
( 𝑖=1 𝑖=1 ) ( 𝑖=1 )
2
Il faut simplement noter le fait que la matrice X étant constituée dans sa première colonne par
des 1 alors la matrice X’X est, en réalité constituée dans sa première colonne par le croisement de
1 avec les autres variables. Ce qui équivaut à faire la somme de ces variables.
On peut aussi constater que la matrice X’X est une matrice symétrique dont la diagonale est
constituée de la somme des carrées des variables, car les éléments diagonaux correspondent aux
croisements des variables avec elles-mêmes.
66
3.1.4. Calcul des valeurs prédites
𝑌̂ = 𝑋 𝛽̂ (3.15)
Avec 𝛽̂ = (𝑋 ′ 𝑋)−1 𝑋 ′ 𝑌.
Le vecteur des valeurs ajustées peut être interprété comme la projection de 𝑌 sur
le sous-espace engendré par les colonnes de la matrice 𝑋.
𝑌̂ = 𝑃𝑋 𝑌 (3.16)
𝜖 = 𝑌 − 𝑌̂ (3.18)
Propriétés
Le vecteur des résidus 𝜖 est orthogonal à la fois au vecteur des valeurs prédites et
à la matrice 𝑋. Ce qui signifie mathématiquement que 𝜖′𝑌̂ = 0 et 𝜖′𝑋 = 0
1
𝑆𝑌2 = (𝑌 − 𝑌̅)′(𝑌 − 𝑌̅) (3.19)
𝑛
Quant à la variance expliquée, elle s’obtient dans les configuration identiques en
remplaçant le vecteur des valeurs observées de 𝑌 par le vecteur de valeurs
prédites 𝑌̂. Ainsi, on a :
1
𝑆𝑌2̂ = (𝑌̂ − 𝑌̅)′(𝑌̂ − 𝑌̅) (3.20)
𝑛
67
1 ′ 1
𝑆𝜖2 = 𝜖 𝜖 = (𝑌 − 𝑌̂)′(𝑌 − 𝑌̂) (3.21)
𝑛 𝑛
2
𝑆𝑌2̂ 𝑆𝜖2
𝑅𝑥𝑦 = 2 = 1 − ( 2) (3.23)
𝑆𝑌 𝑆𝑌
𝑥1 𝑥2 𝑥3 𝑥4
Les éléments sur la diagonale représentent les variances alors que les éléments
hors diagonale sont les covariances. La matrice de variance-covariance est une
matrice symétrique puisque 𝑆𝑥𝑗𝑥𝑘 = 𝑆𝑥𝑘𝑥𝑗 où 𝑆𝑥𝑗𝑥𝑘 représente la covariance entre
la variable 𝑥𝑗 et la variable 𝑥𝑘 . En utilisant une notation matricielle, la matrice
de variance-covariance se présente comme suit :
68
3.1.8. La matrice de corrélation
La matrice des corrélations se présente sous le même format que la matrice de
variance-covariance en remplaçant les covariances 𝑆𝑥2 𝑥1 par les coefficients de
corrélation 𝑟𝑥𝑦 . Cependant sur les diagonales, les variances 𝑆𝑥21 seront remplacées
par 1 car le coefficient de corrélation d’une variable avec elle-même est égal à 1.
Ainsi la matrice de corrélation se présente comme suit :
1 𝑟𝑥1 𝑥2 … 𝑟𝑥1 𝑥𝑘
… 𝑟𝑥2 𝑥𝑘
𝑅 = (𝑟𝑥…
2 𝑥1
1
… … … ) (3.25)
𝑟𝑥𝑘𝑥1 𝑆𝑥𝑘𝑥2 … 1
Exercices d’application
69
Entreprise(i) Travail(xi) Capital (zi) Production (yi)
1 73 80 60
2 81 90 120
3 88 95 190
4 86 95 250
5 87 980 300
6 96 110 360
7 10 120 380
8 11 130 430
9 12 150 440
= (𝑋 ′ 𝑋)−1 𝑋 ′ 𝑋𝛽 + (𝑋 ′ 𝑋)−1 𝑋 ′ 𝜖
𝛽̂𝑚𝑐𝑜 = 𝛽 + (𝑋 ′ 𝑋)−1 𝑋 ′ 𝜖
Dès lors :
= 𝛽 + (𝑋 ′ 𝑋)−1 𝑋 ′ 𝐸(𝜖)
Or 𝐸(𝜖) = 0, ainsi,
𝐸 (𝛽̂𝑚𝑐𝑜 ) = 𝛽 (3.26)
Ce qui montre que l’estimateur MCO est sans biais car l’espérance est égale à la
vraie valeur du paramètre recherché.
70
3.2.2. Variance et Convergence
Par ailleurs, l’estimateur étant une variable aléatoire, on peut mesurer sa
variance. En effet :
Théorème de Gauss-Markov
𝛽̂𝑚𝑐𝑜 = (𝑋 ′ 𝑋)−1 𝑋 ′ 𝑌 = 𝐴𝑌
𝛽 ∗ = 𝐶𝑌
Où C est une matrice.
Calculons l’espérance de 𝛽 ∗ , on a :
71
= 𝐸[(𝐵 + (𝑋 ′ 𝑋)−1 𝑋 ′ )(𝑋𝛽 + 𝜖)]
= 𝐵𝑋𝛽 + 𝐼𝛽
𝛽 ∗ = (𝐵𝑋 + 𝐼)𝛽
(𝑋 ′ 𝑋)
(𝛽̂ − 𝛽)′ (𝛽̂ − 𝛽) ↝ 2𝑝 (3.29)
𝜎𝜀2
(𝛽̂ − 𝛽)
1 ↝ 𝑁(0, 𝐼)
(𝜎𝜀2 (𝑋 ′ 𝑋)−1 )2
1
((𝑋 ′ 𝑋)−1 )−2
(𝛽̂ − 𝛽) ↝ 𝑁(0, 𝐼)
𝜎𝜀
72
1
(𝑋 ′ 𝑋)2
(𝛽̂ − 𝛽) ↝ 𝑁(0, 𝐼) (3.30)
𝜎𝜀
(𝑋 ′ 𝑋)
(𝛽̂ − 𝛽)′ (𝛽̂ − 𝛽) ↝ 2𝑝
𝜎𝜀2
Par ailleurs, on pouvait se servir d’une autre propriété pour démontrer que cette
distribution suit une loi de khi-deux. En effet, soit un vecteur aléatoire U de
distribution normale, de moyenne nulle et de variance I. Si P est une matrice
symétrique, idempotente et de rang p, alors 𝑈′𝑃𝑈 est une variable aléatoire qui
suit une loi de 2𝑝 à p degrés de liberté.
Démonstration :
𝛽̂ = 𝛽 + (𝑋 ′ 𝑋)−1 𝑋 ′ 𝜖
𝛽̂ − 𝛽 = (𝑋 ′ 𝑋)−1 𝑋 ′ 𝜖
(𝑋 ′ 𝑋) (𝑋 ′ 𝑋)
(𝛽̂ − 𝛽)′ ̂ − 𝛽) = (𝜖′𝑋(𝑋 ′ 𝑋)−1 )
(𝛽 ((𝑋 ′ 𝑋)−1 𝑋′𝜖)
𝜎𝜀2 𝜎𝜀2
𝜖′ 𝜖
= 𝑋(𝑋 ′ 𝑋)−1 𝑋 ′
𝜎𝜀 𝜎𝜀
(𝑋 ′ 𝑋)
(𝛽̂ − 𝛽)′ (𝛽̂ − 𝛽) ↝ 2𝑝
𝜎𝜀2
𝜖̂′𝜖̂
↝ 2𝑛−𝑝
𝜎𝜀2
73
Avec 𝑃𝑋 = 𝐼 − 𝑋(𝑋 ′ 𝑋)−1 𝑋 ′ .
𝜖̂′𝜖̂ 𝜖′ 𝜖
= 𝑃 ′𝑃 ↝ 2𝑛−𝑝
𝜎𝜀2 𝜎𝜀 𝑋 𝑋 𝜎𝜀
𝜖′ 𝜖
= 𝑃
𝜎𝜀 𝑋 𝜎𝜀
Ainsi
𝜖̂′𝜖̂ 𝜖′ 𝜖
= 𝑃 ↝ 2𝑛−𝑝
𝜎𝜀2 𝜎𝜀 𝑋 𝜎𝜀
𝜖̂′𝜖̂ (𝑛 − 𝑝)𝜎̂𝜀2
2
↝ 𝑛−𝑝
2
2
↝ 2𝑛−𝑝
𝜎𝜀 𝜎𝜀
(𝑋 ′ 𝑋)
(𝛽̂ − 𝛽)′ (𝛽̂ − 𝛽) ↝ 2𝑝
𝜎𝜀2
(𝑛 − 𝑝)𝜎̂𝜀2
↝ 2𝑛−𝑝
𝜎𝜀2
74
3.3. Tests d’hypothèses sur les coefficients estimés
𝛽0
𝛽1
𝛽 = 𝛽2 𝑗 = 1, 2, . . 𝑝
..
(𝛽𝑝 )
𝐻0 𝛽𝑗 = 𝛽𝑗0
{
𝐻1 𝛽𝑗 ≠ 𝛽𝑗0
Sous H0, on a
𝛽̂𝑗 ↝ 𝑁 (𝛽𝑗0 , 𝜎𝛽̂
2
)
𝑗
2
𝜎𝛽̂ représente en fait au j-ième élément diagonal de la matrice de variance-
𝑗
(𝑛 − 𝑝)𝜎̂𝛽̂2 (𝑛 − 𝑝)𝜎̂𝜀2
= ↝ 2𝑛−𝑝
𝜎𝛽̂2 𝜎𝜀2
(𝑛 − 𝑝)𝜎̂𝛽̂2
𝑗
↝ 2𝑛−𝑝
𝜎𝛽̂2
𝑗
𝛽̂𝑗 − 𝛽𝑗0
↝ 𝑁(0,1)
𝜎𝛽̂𝑗
75
𝛽̂𝑗 − 𝛽𝑗0
𝜎𝛽̂𝑗 𝑁(0,1)
= ↝ 𝑇(𝑛 − 𝑝)
𝜎̂𝛽̂𝑗
2𝑛−𝑝
𝜎𝛽̂𝑗 √
(𝑛 − 𝑝)
𝛽̂𝑗 − 𝛽𝑗0
↝ 𝑇(𝑛 − 𝑝) (3.31)
𝜎̂𝛽̂𝑗
𝐻0 𝑅𝛽 = 𝑟
{
𝐻1 𝑅𝛽 ≠ 𝑟
𝛽0
𝛽1
𝐻0 ∶ (𝑅10 𝑅11 … 𝑅1𝑝 ) 𝛽2 = 𝑟1
..
(𝛽𝑝 )
76
Soit
𝐻0 ∶ 𝑅10 𝛽0 + 𝑅11 𝛽1 + 𝑅12 𝛽2 + … 𝑅1𝑝 𝛽𝑝 = 𝑟1
Ce test inclut le test sur les coefficients individuels comme un cas particulier. En
effet, dans le cas d’un test sur coefficient individuel où l’hypothèse nulle est
𝐻0 𝛽𝑗 = 𝛽𝑗0 , la contrainte se présentera alors comme suit :
0 1 0 0 … 0 𝛽0
0 0 1 0 .. 0 𝛽1 0
0 0 0 1 … 0 0)
𝛽2 = (…
0 …0
0 …
…
0
…
1
… 0… ..
0
(0 0 0 0 0 1 ) (𝛽𝑝 )
0 1 0 0 … 0
0 0 1 0 .. 0
𝑅= 0 0 0 1 … 0
0 …0
0 …
…
0 1 0
… … …
(0 0 0 0 0 1)
77
En somme pour déterminer la matrice R du test de significativité sous forme de
test de contrainte, on attribue 1 à tous les éléments diagonaux en dehors de la
colonne destinée à la constante. Et 0 à l’ensemble des 𝑟𝑞 (Vecteur nul pour r).
0 1 0 0 … 0 𝛽0
0 0 1 0 .. 0 𝛽1 𝑟1
0 1 … 0 𝑟2
𝐻0 ∶ 0 0 𝛽2 = (… )
0
0 … 0 0 1
… 0… .. 𝑟𝑞
… … …
(0 0 𝛽
) ( 𝑝)
0 0 0 1
𝛽1 = 0
𝐻0 {𝛽2 …
=0
𝛽𝑝 = 0
Dans tous les autres cas, quel que soit la nature de la combinaison, l’hypothèse
nulle du test se présente comme suit :
𝐻0 𝑅𝛽 = 𝑟 (3.32)
Calculons d’abord 𝑅𝛽̂ − 𝑟 sous H0.
Sous H0, on a :
𝑉𝐴𝑅(𝑅𝛽̂ − 𝑟) = 𝑉𝐴𝑅(𝑅𝛽̂ )
= 𝑅[𝑉𝐴𝑅(𝛽̂ )]𝑅′
78
′ −1 1
(𝑅𝛽̂ − 𝑟) (𝑉𝐴𝑅(𝑅𝛽̂ )) (𝑅𝛽̂ − 𝑟) = 𝜖𝑊𝜖′
𝜎𝜀2
Où
𝑊 = 𝑋(𝑋 ′ 𝑋)−1 𝑅′{𝑅(𝑋 ′ 𝑋)−1 𝑅′}−1 𝑅(𝑋 ′ 𝑋)−1 𝑋′
(𝑛 − 𝑝)𝜎̂𝜀2
↝ 2𝑛−𝑝
𝜎𝜀2
𝜖̂′𝜖̂
↝ 2𝑛−𝑝
𝜎𝜀2
On sait, en plus qu’en faisant le rapport entre deux lois de khi-deux divisées par
leur degré de liberté respective, on obtient une loi de Fisher. Ainsi, on a :
′
(𝑅𝛽̂ − 𝑟) {𝑅(𝑋 ′ 𝑋)−1 𝑅′}−1 (𝑅𝛽̂ − 𝑟)
𝜎𝜀2
𝑞
= ↝ 𝐹(𝑞, 𝑛 − 𝑝)
𝜖̂′𝜖̂
𝜎𝜀2
𝑛−𝑝
Dès lors si le Fisher calculé est supérieur au Fisher lu dans la table, on rejette
l’hypothèse nulle 𝐻0 𝑅𝛽 = 𝑟. Dans ce cas, la contrainte spécifiée n’est pas valide.
79
3.4. Estimateur des moindres carrés contraints
𝜇+𝛾 =1
{
𝛼 − 2𝛿 = 0
𝛼
𝜇
Sachant que le vecteur des coefficients se présente tel que 𝛽 = ( 𝛾 ) alors, les
𝛿
deux contraintes peuvent s’écrire sous la forme matricielle comme suit :
0𝛼 + 1𝜇 + 1𝛾 + 0𝛿 1
( )=( )
1𝛼 0𝜇 0𝛾 −2𝛿 0
Ce qui donne :
𝛼
0 1 1 0 𝜇 1
( )( ) = ( )
1 0 0 −2 𝛾 0
𝛿
0 1 1 0 1
La contrainte s’écrit alors comme 𝑅𝛽 = 𝑟 avec 𝑅 = ( ) et 𝑟 = ( )
1 0 0 −2 0
80
On peut simplement faire remarquer que lorsque (𝑟 − 𝑅𝛽̂𝑚𝑐𝑜 ) = 0, c'est-à-dire
lorsque la contrainte est valide alors l’estimateur des moindres carrés contraints
équivaut à l’estimateur des moindres carrés ordinaires
𝛽̂𝐶𝐶 = 𝛽̂𝑚𝑐𝑜
Il apparait de cette expression que lorsque les contraintes sont valides (𝑅𝛽 − 𝑟)
alors l’estimateur du moindre carrés contraint est sans biais car :
𝐸(𝛽̂𝐶𝐶 ) = 𝛽 (3.36𝑎)
Par ailleurs, on peut montrer que si les contraintes sont valides, alors
l’estimateur des moindres carrés contraints est optimal parmi les estimateurs
linéaires sans biais de 𝛽 vérifiant la contrainte.
L’estimateur de la variance est fondé sur la somme des carrés des résidus
contraints. Il est définit de la façon suivante :
𝜖̂𝑐′ 𝑐 𝜖̂𝑐𝑐
𝜎̂𝜀2𝑐𝑐 = (3.36𝑏)
𝑛−𝑝+𝑞
𝐻0 𝑅𝛽 = 𝑟
{
𝐻1 𝑅𝛽 ≠ 𝑟
81
′
(𝑅𝛽̂𝑚𝑐𝑜 − 𝑟) {𝑅(𝑋 ′ 𝑋)−1 𝑅′}−1 (𝑅𝛽̂𝑚𝑐𝑜 − 𝑟)
𝑞
𝐹= ↝ 𝐹(𝑞, 𝑛 − 𝑝)
𝜖̂′𝜖̂
𝑛−𝑝
𝑆𝐶𝑅𝐶𝐶 − 𝑆𝐶𝑅𝑚𝑐𝑜
( )
𝑑𝑑𝑙𝐶𝐶 − 𝑑𝑑𝑙𝑚𝑐𝑜
𝐹= ↝ 𝐹(𝑑𝑑𝑙𝐶𝐶 − 𝑑𝑑𝑙𝑚𝑐𝑜 , 𝑑𝑑𝑙𝑚𝑐𝑜 )
𝑆𝐶𝑅𝑚𝑐𝑜
( )
𝑑𝑑𝑙𝑚𝑐𝑜
𝑑𝑑𝑙𝐶𝐶 = 𝑛 − 𝑝 + 𝑞
𝑑𝑑𝑙𝑚𝑐𝑜 = 𝑛 − 𝑝
𝑌1 = 𝑋1 𝛽1 + 𝑢1 𝑠𝑖 𝑡 = 1, … , 𝑇1
{
𝑌2 = 𝑋2 𝛽2 + 𝑢2 𝑠𝑖 𝑡 = 𝑇1 + 1, … , 𝑇
82
𝐻0 𝛽1 = 𝛽2
{
𝐻1 𝛽1 ≠ 𝛽2
Ce test est en fait un cas particulier du test de Fisher dans la mesure dans le
sens où la contrainte est définie par H0 avec H1 qui représente l’estimations non
contrainte. Dans cette configuration, la statistique de Fisher se calcule comme
suit :
𝑆𝐶𝑅𝐻0 − 𝑆𝐶𝑅𝐻1
( )
𝑑𝑑𝑙𝐻0 − 𝑑𝑑𝑙𝐻1
𝐹= ↝ 𝐹(𝑑𝑑𝑙𝐻0 − 𝑑𝑑𝑙𝐻1 , 𝑑𝑑𝑙𝐻1 )
𝑆𝐶𝑅𝐻1
( )
𝑑𝑑𝑙𝐻1
𝑆𝐶𝑅𝐻1 est la somme de deux sommes carrés des résidus (obtenue en estimant le
modèle sur chacun des deux sous-échantillons).
𝑑𝑑𝑙𝐻0 = 𝑝
𝑑𝑑𝑙𝐻1 = 𝑇1 + 𝑇2 − 2𝑝
83
3.5. Estimation par maximum de vraisemblance
Le principe de l’estimation par maximum de vraisemblance consiste à faire une
hypothèse sur la distribution de probabilité de 𝜀𝑖 . En effet, on suppose, que les 𝜀𝑖
suivent une loi normale de moyennes nulle et de variance 𝜎𝜀2 .
𝜀𝑖 ↝ 𝑁(0, 𝜎𝜀2 )
𝑌 = 𝑋𝛽 + 𝜖 (3.36)
𝜖 ↝ 𝑁(0, 𝐼𝜎𝜀2 )
Il faut aussi noter que comme 𝑌 = 𝑋𝛽 + 𝜖 et que 𝜖 ↝ 𝑁(0, 𝐼𝜎𝜀2 ) alors on aura :
𝑌 ↝ 𝑁(𝑋𝛽, 𝐼𝜎𝜀2 )
En effet
1 1 𝑋−𝜇 2
𝑓(𝑋) = exp (− ( ) ) (3.37)
𝜎√2𝜋 2 𝜎
1 1 2
𝑓(𝑋) = 1 1 exp (− ((𝑋 − 𝜇)∑−1 ) ) (3.38)
(2𝜋)2 |∑|2 2
1 1 2
𝑓(𝑌) = 1 1 exp (− ((𝑌 − 𝑋𝛽)(𝐼𝜎𝜀2 )−1 ) )
(2𝜋)2 (𝐼𝜎 2 )2 2
𝜀
84
1 1
𝑓(𝑌) = 1 exp (− (𝑌 − 𝑋𝛽)2 ) (3.39)
(2𝜋𝜎𝜀2 )2 2𝜎𝜀2
2
𝑛 𝑘
1 1
𝐿(𝛽0 , 𝛽1 , 𝛽2 , … 𝛽𝑘 , 𝜎𝜀2 ) = 𝑛 exp (− ∑ (𝑦𝑖 − 𝛽0 − ∑ 𝛽𝑗 𝑥𝑗 ) )
(2𝜋𝜎𝜀2 ) 2 2𝜎𝜀2
𝑖=1 𝑗=1
1 1
𝐿(𝛽, 𝜎𝜀2 ) = 𝑛 exp (− (𝑌 − 𝑋𝛽)′(𝑌 − 𝑋𝛽))
(2𝜋𝜎𝜀2 ) 2 2𝜎𝜀2
Par ailleurs, comme il est plus plus facile de chercher à maximiser le logarithme
de la fonction de vraisemblance plutôt que la fonction elle-même, on prend le
logarithme de la fonction de vraisemblance :
𝑛 𝑛 1
𝐿𝑜𝑔𝐿(𝛽, 𝜎𝜀2 ) = − log(2𝜋) − log(𝜎𝜀2 ) − 2 (𝑌 − 𝑋𝛽)′(𝑌 − 𝑋𝛽)
2 2 2𝜎𝜀
𝜕𝐿𝑜𝑔𝐿(𝛽, 𝜎𝜀2 ) 1
= 2 (𝑋′𝑌 − 𝑋′𝑋𝛽) = 0
𝛽 𝜎𝜀
𝜕𝐿𝑜𝑔𝐿(𝛽, 𝜎𝜀2 ) 𝑛 2 1
= − 𝜎𝜀 + (𝑌 − 𝑋𝛽)′(𝑌 − 𝑋𝛽) = 0
{ 𝜎𝜀2 2 2(𝜎𝜀2 )2
85
On constate alors que sous l’hypothèse de normalité, l’estimateur de maximum de
vraisemblance (MV) est égal à l’estimateur des moindres carrés ordinaires.
Cependant 𝜎𝜀2 étant, en général inconnu, il faut considérée sa valeur estimée 𝜎̂𝜀2 :
𝜖′𝜖
𝜎̂𝜀2 = (3.42)
𝑛−𝑘
𝐸(𝛽̂𝑀𝑉 ) = 𝛽 (3.44)
Propriétés
86
Exercices d’application
1 𝑥1
1 𝑥2 )
𝑋 = (… …
1 𝑥𝑛
87
CHAPITRE 4. LE MODELE LINEAIRE
GENERALISE
Les modèles que nous avons étudiés jusque-là ont été élaborés sur les hypothèses
fondamentales suivantes:
1.) 𝐸(𝜀𝑖 ) = 0
2.) 𝑉(𝜀𝑖 ) = 𝜎 2
3.) 𝐶𝑂𝑉(𝜀𝑖 , 𝜀𝑗 ) = 0
4.) 𝐶𝑂𝑉(𝑥𝑖 , 𝜀𝑖 ) = 0
Sous ces hypothèses, l’estimation des paramètres du modèle par la méthode des
moindres carrés demeurent les meilleurs estimateurs linéaires sans biais. Mais
la violation de l’une de ces hypothèses, entraîne divers problèmes économétriques
notamment des biais d’estimation, l’inefficience des estimateurs, etc. Le but de
cette section est de présenter les différentes méthodes d’estimation compte tenu
du problème économétrique soulevé par la violation de l’hypothèse.
La procédure couramment utilisée pour tester la normalité des résidus est le test
de Jarque-Bera. La statistique du test de Jarque-Bera est calculée à partir des
deux caractéristiques principales d’une distribution normale : le coefficient
d’asymétrie (skewness) et le coefficient d’aplatissement (kurtosis). Ces deux
coefficients se calculent comme suit :
𝐸[(𝜀𝑖 )3 ]
𝑆= (4.1𝑎)
(𝜎𝑖 )3
𝐸[(𝜀𝑖 )4 ]
𝐾= (4.1𝑏)
(𝜎𝑖 )4
88
Pour une distribution normale, le coefficient d’asymétrie est nécessairement nul
(puisque le moment d’ordre 3 existe). De même pour une loi normale, le
coefficient d’aplatissement est égal à 3. Le test de normalité consiste donc à
tester conjointement :
𝐻0 : 𝑆 = 0 𝑒𝑡 𝐾 = 3
𝑛 2 (𝐾 − 3)2
𝐽𝐵 = [𝑆 + ] ↝ 2 (2) (4.2)
6 4
𝑌 = 𝑋𝛽 + 𝜖
La matrice de variance-covariance qui s’exprime telle que 𝐸(𝜖′𝜖) est une matrice
diagonale dont la forme générale est la suivante :
89
𝜎𝜀21 0 … … 0
0 𝜎𝜀22 … … …
= … … 𝜎𝜀2𝑖 … …
… … … … …
(0 … … … 𝜎𝜀2𝑛 )
A cause de l’hétéroscédasticité, on a ≠ 𝜎 2 𝐼𝑁 .
𝜎𝜀21 0 … … 0
0 𝜎𝜀22 … … …
= … … 𝜎𝜀2𝑖 … … ≠ 𝜎𝜀 𝐼𝑁
2
… … … … …
(0 … … … 𝜎𝜀2𝑛 )
Détection graphique
90
4.2.1. Le test Goldfeld-Quandt
Le test Goldfeld-Quandt repose sur l’hypothèse que la variance des perturbations
est une fonction monotone d’une ou des variables explicatives 𝑋. L’idée du test est
de comparer les variances des perturbations sur deux sous-échantillons de tailles
𝑛1 et 𝑛2 telles que 𝑛1 correspond aux premières observations et 𝑛2 les dernières.
On choisit alors les 𝑛1 et 𝑛2 observations de manière à séparer suffisamment les
deux sous-échantillons dans le but de s’assurer que la variance puisse
significativement être différente entre les deux sous-échantillons.
Pour présenter ce test, on suppose d’abord que 𝑋 est constitué d’une seule
variable suivant le modèle :
𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖
Ainsi, si 𝜎12 est la variance des perturbations sur le premier sous échantillons et
que 𝜎22 est la variance sur le second sous échantillon, on peut alors formuler
l’hypothèse de test de l’hétéroscédasticité comme suit :
𝐻0 : 𝜎12 = 𝜎22
{
𝐻1 : 𝜎12 ≠ 𝜎22
∑𝑛𝑖=1
2
(𝑦𝑖 − 𝑦̂𝑖 )2
𝜎22 𝜎̂22 𝑛2 − 2 𝑆𝐶𝑅2
𝐺𝑄 = 2 = 2 = 2 =
𝜎1 𝜎̂1 ∑𝑛𝑗=1
1
(𝑦𝑗 − 𝑦̂𝑗 ) 𝑆𝐶𝑅1
𝑛1 − 2
𝑆𝐶𝑅2
𝐺𝑄 = (4.4)
𝑆𝐶𝑅1
91
Où 𝑆𝐶𝑅2 est la somme des carrés des résidus issue de l’estimation par MCO du
modèle sur le second sous-échantillon et 𝑆𝐶𝑅1 la somme des carrés des résidus
obtenue sur le premier sous-échantillon
La statistique GQ est le rapport entre deux variables aléatoires suivant une loi
de khi-deux divisées par leur degrés de libertés respectifs (𝑛2 − 2 et 𝑛1 − 2 ), alors
la statistique GQ suit une loi de Fisher. On a alors :
𝑆𝐶𝑅2
𝐺𝑄 = ↝ 𝐹(𝑛2 − 2 , 𝑛1 − 2 )
𝑆𝐶𝑅1
𝐻0 : 𝛼1 = 0 𝜎𝑖2 = 𝜎02
{
𝐻1 : 𝛼1 ≠ 0 𝜎𝑖2 = 𝜎02 + 𝛼1 𝑥𝑖
1- Dans un premier temps, on approxime les 𝜎𝑖2 par les 𝜀̂𝑖2 obtenus de
l’estimation par MCO du modèle 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖 .
2- Dans un second temps, on estime par MCO le modèle suivant :
𝜀̂𝑖2 = 𝛼0 + 𝛼1 𝑥𝑖 + 𝑢𝑖
3- Dans un troisième temps, on calcule la statistique de test BP telle que :
92
𝐵𝑃 = 𝑛𝑅 2 (4.6)
𝐻0 : 𝛾1 = 𝛾2 = 𝛾3 = 𝛾4 = 𝛾5 = 0
{
𝐻1 : 𝛾1 ≠ 0 𝑜𝑢 𝛾2 ≠ 0 𝑜𝑢 𝛾3 ≠ 0 𝑜𝑢 𝛾4 ≠ 0 𝑜𝑢 𝛾5 ≠ 0
Ainsi, tout comme le test Breush-Pagan, le test de White se résume à un test sur
la nullité des coefficients du modèle d’explication de la variance des résidus.
1- Dans un premier temps, on approxime les 𝜎𝑖2 par les 𝜀̂𝑖2 obtenus de
l’estimation par MCO du modèle 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥1𝑖 + 𝛽2 𝑥2𝑖 + 𝜀𝑖 .
2- Dans un second temps, on estime par MCO le modèle suivant :
𝜀̂𝑖2 = 𝛾0 + 𝛾1𝑥1𝑖 + 𝛾2 𝑥2𝑖 + 𝛾3 𝑥1𝑖
2 2
+ 𝛾4 𝑥2𝑖 + 𝛾5 (𝑥2𝑖 ∗ 𝑥2𝑖 ) + 𝑢𝑖
3- Dans un troisième temps, on calcule la statistique de test W telle que :
𝑊 = 𝑛𝑅 2 (4.8)
93
(𝑆𝐶𝑅𝐻0 − 𝑆𝐶𝑅𝐻1 )
𝑊= ↝ 𝐹(𝑁 − 1 , 𝑁 − 𝑘 ) (4.9)
𝑆𝐶𝑅𝐻1
Où 𝑆𝐶𝑅𝐻0 est la somme des carrés des résidus sous 𝐻0 c'est-à-dire la somme des
carrés des résidus obtenu par régression de 𝜀̂𝑖2 uniquement sur la constante 𝛾0.
𝑆𝐶𝑅𝐻1 est la SCR obtenue en estimant par MCO l’équation complète. k est le
nombre de variables explicatives (y compris la constante).
Dans le cas où la variance est connue, si les unités statistiques sont par exemple,
des entreprises, la variance peut être liée à un effet de taille notée 𝑧 (par ex. le
nombre de travailleurs). Dans ce cas, la matrice de variance-covariance s’écrit
comme suit:
𝜎𝜀21 0 … … 0 𝑧1 0 … … 0
0 𝜎𝜀22 … … … 0 𝑧2 … … …
= … … 𝜎𝜀2𝑖 … … = 𝜎02 … … 𝑧𝑖 … … = 𝜎02 𝑍
… … … … … … … … … …
(0 … … … 𝜎𝜀2𝑛 ) (0 … … … 𝑧𝑛 )
Où 𝑍 = 𝐷𝑖𝑎𝑔(𝑧1 , 𝑧2 , … , 𝑧𝑛 )
𝑌 = 𝑋𝛽 + 𝜖
𝑌∗ = 𝑋∗𝛽 + 𝜖 ∗
1 1 1
Avec 𝑌 ∗ = −2 𝑌 ; 𝑋 ∗ = −2 𝑋 ; 𝜖 ∗ = −2 𝜖
94
En appliquant les MCO sur cette équation transformée, on obtient l’estimateur
des Moindres Carrées Généralisés qui se présente comme suit.
−1
𝛽̂𝑀𝐶𝐺 = (𝑋′−1 𝑋) (𝑋′−1 𝑌) (4.10)
Par ailleurs, on peut aussi montrer que cet estimateur est aussi équivalent à
𝛽̂𝑀𝐶𝐺 = (𝑋′𝑍 −1 𝑋)−1 (𝑋′𝑍 −1 𝑌) car en remplaçant par 𝜎02 𝑍, on a :
𝜎02
𝛽̂𝑀𝐶𝐺 = (𝑋′(𝜎02 𝑍)−1 𝑋)−1 (𝑋′(𝜎02 𝑍)−1 𝑌) = 2
(𝑋′(𝑍)−1 𝑋)−1 (𝑋′(𝑍)−1 𝑌)
𝜎0
Cette expression montre alors que l’estimateur des moindres carrés généralisés
(MCG) peut être construit sans qu’il soit nécessaire de se poser la question sur la
valeur de 𝜎02 .
1⁄ 0 … … 0
√𝑧1
0 1⁄ … … …
√𝑧2
𝐻= 1
… … ⁄√𝑧 … …
𝑖
… … … … …
0 … … … 1⁄
( √𝑧𝑛 )
𝑀𝑌 = 𝑀𝑋𝛽 + 𝑀𝜖
Cette relation montre donc qu’en multipliant l’équation initiale par la matrice M,
on retrouve l’homoscédasticité. L’application des MCO sur le modèle transformé
se présente comme suit :
95
𝛽̂𝑀𝐶𝑃 = (𝑋′𝑀𝑀𝑋)−1 (𝑋′𝑀𝑀𝑌)
alors qu’on a "sphéricisé " le modèle. On est donc ramené au modèle linéaire
classique sur lequel on peut appliquer les moindres carrés ordinaires. Dans le cas
d’un modèle linéaire multiple, on multiplie tous les vecteurs par l’inverse de la
racine carrée de la matrice de variance-covariance des perturbations.
𝜀̂12 0 … … 0
0 𝜀̂22 … … …
̂= …
… 𝜀̂𝑖2 … …
… … … … …
(0 … … … 𝜀̂𝑛2 )
Bien que 𝜀̂𝑖2 soient des estimateurs biaisés des 𝜎𝑖2 , ils restent des estimateurs
convergents. Pour corriger l’hétéroscédasticité dans cette configuration, White
propose l’estimateur suivant :
−1
̂ −1 𝑋)
𝛽̂𝑀𝐶𝑄𝐺 = (𝑋′
−1
̂ 𝑌)
(𝑋′ (4.12)
96
En résumé, lorsque la matrice de variance-covariance n’est pas connue, la
démarche de correction de l’hétéroscédasticité se présente comme suit :
transformées
- Appliquer les MCO sur ce modèle transformé pour obtenir les paramètres.
𝑦𝑡 = 𝛽0 + 𝛽1 𝑥𝑡 + 𝜀𝑡 ; 𝑡 = 1, 2, … , 𝑇
𝜀𝑡 = 𝜌𝜀𝑡−1 + 𝑢𝑡 (4.13)
97
4.3.1. Le test d’autocorrélation de Durbin-Watson
L’hypothèse nulle du test de Durbin-Watson est la suivante :
𝐻 :𝜌 = 0
{ 0
𝐻1 : 𝜌 ≠ 0
∑𝑇𝑡=2(𝜀̂𝑡 − 𝜀̂𝑡−1 )2
𝐷𝑊 = 2(1 − 𝜌̂) = (4.14)
∑𝑇𝑡=1(𝜀̂𝑡 )2
Par exemple, supposons que nous ayons estimé un modèle linéaire simple (une
seule variable explicative) sur 17 observations. Supposons qu’à la suite de cette
estimation nous avons calculé le DW qui est égal à 1,05. Pour tester la présence
d’autocorrélation au seuil de 5%, nous suivons les étapes suivantes :
98
Dans cette configuration, on remarque que DW est comprise entre 0 et 1,13. On
rejette alors H0 et conclut à une autocorrélation positive.
𝐷𝑊 𝑇
ℎ = (1 − )√ (4.15)
2 (1 − 𝑇 𝜎̂ 2 )
̂2
𝛽
𝑇
ℎ = 𝜌̂√ (4.16)
(1 − 𝑇 𝜎̂𝛽̂2 )
2
𝐻0 : ℎ = 0 𝜌 = 0
{
𝐻1 : ℎ ≠ 0 𝜌 ≠ 0
99
4.3.2. Le test d’autocorrélation de Box-Pierce
La statistique du test proposé par Box-Pierce est la suivante :
𝑝
𝑄𝐵𝑃 = 𝑇 ∑ 𝑟𝑗 2 𝑎𝑣𝑒𝑐
𝑗=1
∑𝑇𝑡=𝑗+1(𝜀̂𝑡 𝜀̂𝑡−𝑗 )
𝑟𝑗 =
∑𝑇𝑡=1(𝜀̂𝑡 )2
Cette statistique suit une loi de khi-deux à p degrés de liberté où p est le nombre
de retards considéré.
𝑝
𝑦𝑡 = 𝛽0 + 𝛽1 𝑥𝑡 + 𝜀𝑡 ; 𝑡 = 1, 2, … , 𝑇
𝜀𝑡 = 𝜌𝜀𝑡−1 + 𝑢𝑡
100
𝐸(𝑢𝑡 ) = 0 ; 𝐸(𝑢𝑡 2 ) = 𝑉(𝑢𝑡 ) = 𝜎𝑢2 ; 𝐸(𝑢𝑡 𝜀𝑡−1 ) = 0 ; 𝐸(𝑢𝑡 𝑢𝑡′ ) = 0 ∀ 𝑡 ≠ 𝑡′
𝜀𝑡 = 𝜌𝑝 𝜀𝑡−𝑝 + ∑ 𝜌𝑗 𝑢𝑡−𝑗
𝑗=1
𝜌𝑝 → 0 𝑠𝑖 𝑝 → ∞
Ainsi, on a :
𝑝
𝜀𝑡 = ∑ 𝜌𝑗 𝑢𝑡−𝑗
𝑗=1
Espérance :
𝑝 𝑝
𝑗=1 𝑗=1
𝐸(𝜀𝑡 ) = 0
Variance
𝑝
= 𝑉(𝜌𝑢𝑡−1 ) + 𝑉(𝜌 𝑢𝑡−2 ) + ⋯ + 𝑉(𝜌𝑝 𝑢𝑡−𝑝 ) car 𝐶𝑜𝑣 (𝑢𝑡 ; 𝑢𝑡′ ) = 𝐸(𝑢𝑡 𝑢𝑡′ ) = 0 ∀ 𝑡 ≠ 𝑡′
2
Ainsi :
2
𝑉(𝜀𝑡 ) = 𝜌𝐸[(𝑢𝑡−1 )2 ] + 𝜌2 𝐸[(𝑢𝑡−2 )2 ] + ⋯ + 𝜌𝑝 𝐸 [(𝑢𝑡−𝑝 ) ]
2
Or 𝐸[(𝑢𝑡−1 )2 ] = 𝐸[(𝑢𝑡−2 )2 ] = ⋯ = 𝐸 [(𝑢𝑡−𝑝 ) ] = 𝜎𝑢2
Donc 𝑉(𝜀𝑡 ) = (𝜌 + 𝜌2 + ⋯ + 𝜌𝑝 ) 𝜎𝑢2
1−𝜌𝑝
Or 𝜌 + 𝜌2 + ⋯ + 𝜌𝑝 =
1−𝜌
(somme p premier termes d’une suite géométrique de
raison 𝜌 de premier terme 1).
1 − 𝜌𝑝
𝑉(𝜀𝑡 ) = ( ) 𝜎𝑢2
1−𝜌
𝜎2
Mais comme 𝜌𝑝 → 0 𝑠𝑖 𝑝 → ∞ alors : 𝑉(𝜀𝑡 ) = 𝜎𝜀2 = (1−𝜌)
𝑢
Covariance
𝐶𝑜𝑣(𝜀𝑡 ; 𝜀𝑡−𝑝 ) = 𝐸(𝜀𝑡 𝜀𝑡−𝑝 ) = 𝜌𝑝 𝑉(𝜀𝑡−𝑝 ) = 𝜌𝑝 𝜎𝜀2
101
On peut donc en déduire le coefficient de corrélation 𝜌 comme suit :
𝐶𝑜𝑣(𝜀𝑡 ; 𝜀𝑡−𝑝 )
𝜌=
√𝑉(𝜀𝑡 ) √𝑉(𝜀𝑡−𝑝 )
Connaissant alors 𝜌, on peut alors proposer une correction de l’autocorrélation en
transformant le modèle autorégressif initial comme suit :
𝑦𝑡∗ = 𝑦𝑡 − 𝜌𝑦𝑡−1
{𝑥𝑡∗ = 𝑥𝑡 − 𝜌𝑥𝑡−1
𝛽0∗ = 𝛽0 (1 − 𝜌)
Ce modèle peut donc être estimé par MCO afin d’obtenir les paramètres 𝛽0∗ et 𝛽1∗ .
Cependant, 𝜌 n’étant pas connu, il faut alors utiliser une approximation de cette
valeur afin de poursuivre la correction. Plusieurs méthodes ont été proposées
dont les principales sont : la méthode Cochranne-Orcutt, la méthode de Durbin
mais aussi d’autres méthodes comme celle de Hildreth-Lu.
1- Dans la première étape, on estime l’équation par MCO pour obtenir les
paramètres 𝛽̂0 et 𝛽̂1.
2- Dans la seconde étape, on utilise les résidus de cette première estimation
pour calculer le coefficient de corrélation 𝜌̂1 en utilisant la formule de Box-
Pierce :
∑𝑇𝑡=2(𝜀̂𝑡 𝜀̂𝑡−1 )
𝜌̂1 =
∑𝑇𝑡=1(𝜀̂𝑡 )2
̂1 𝑦𝑡−1
𝑦∗𝑡 = 𝑦𝑡 − 𝜌
{
̂ 1 𝑥𝑡−1
𝑥∗𝑡 = 𝑥𝑡 − 𝜌
102
∗ ∗ ∗ ∗ ∗
𝑦𝑡,1 = 𝛽0,1 + 𝛽1,1 𝑥𝑡,1 + 𝜀𝑡,1
La méthode de Durbin est une méthode correction qui se réalise en deux étapes.
Dans la première étape, on estime l’équation suivante :
𝑦𝑡 = 𝛽0 + 𝜌𝑦𝑡−1 + 𝛽1 𝑥𝑡 − 𝛽2 𝑥𝑡−1 + 𝑣𝑡
Cette équation est alors estimée par MCO pour déduire les paramètres.
103
4.3.4.3. Autres méthodes de correction de l’autocorrélation
𝑦𝑡 = 𝛽0 + 𝜌𝑦𝑡−1 + 𝛽1 𝑥𝑡 − 𝛽2 𝑥𝑡−1 + 𝜀𝑡
𝜀𝑡 = 𝑢𝑡 + 𝜌𝑢𝑡−1
L’un de ces cas de violation est la corrélation entre les variables explicatives et
les erreurs (𝐶𝑂𝑉(𝑥𝑖 , 𝜀𝑖 ) ≠ 0). Ce problème est généralement connu sous le terme
d’endogéneité. La variable 𝑥𝑖𝑘 est dite endogène lorsqu’elle est liée aux erreurs du
modèle. Les variables explicatives non corrélées avec les erreurs sont dites
variables exogènes. La correction de l’endogénéité nécessite généralement
l’utilisation de la méthode de variable instrumentale (MVI). La MVI consiste à
choisir des variables supplémentaires (appelées instruments) non corrélées avec
les erreurs mais fortement corrélés avec la variable. Ces instruments doivent
avoir un pouvoir explicatif suffisamment fort sur la variable endogène. Mais elles
ne doivent avoir aucune corrélation avec la variable dépendante du modèle. En
présence d’endogénéité, la méthode communément utilisée pour estimer le
modèle est celle des Doubles Moindres Carrés (DMC) ou Two-stage least squares
(2SLS). La DMC consiste dans un premier temps à régresser par MCO la
variable endogène sur ses instruments et sur les autres variables exogènes du
modèle. Et dans un second temps, à calculer la valeur prédite de la variable
endogène et introduire cette valeur prédite dans le modèle initiale pour ensuite
estimer celui-ci par MCO. Il existe d’autres méthodes d’estimation telles que la
méthode des moments généralisées, la méthode de maximum de vraisemblance à
104
information limitée, etc…Ces méthodes d’estimations n’ont pas été développées
dans ce document.
105
CHAPITRE 5. MODELES A VARIABLE
DEPENDANTE DICHOTOMIQUE
5.1. Présentation
Dans les précédents chapitres, les variables dépendantes étaient supposées être
de nature continue. Cependant, dans de nombreuses estimations économétriques
on s’intéresse à des variables de nature qualitative (exemples : choix entre deux
moyens de transport, défaut de paiement d’un client, échec à un examen
d’évaluation, etc…). Dans ce chapitre, nous nous intéressons essentiellement aux
des modèles dont la variable dépendante est qualitative binaire (encore appelée
variable dichotomique).
106
fonction 𝐹(. ) sont telles que pour tout variable z, lim 𝐹(𝑧) = 0 et lim 𝐹(𝑧) = 1.
𝑍→−∞ 𝑍→+∞
𝐹(. ) est donc une fonction continue positive et comprise entre 0 et 1.
𝑦𝑖 = 𝐹(𝑋𝑖 𝛽) + 𝜀𝑖 (5.4)
A travers cette expression on peut faire une analogie avec le modèle linéaire. On
constatera, en effet, que dans le modèle de probabilité 𝑦𝑖 est expliquée non pas
avec la valeur directe de 𝑋𝑖 𝛽 mais avec une transformation monotone croissante
𝐹(. ) qui représente la fonction de répartition.
𝐸(𝜀𝑖 ) = 0
𝐸(𝜀𝑖 𝜀𝑗 ) = 0
𝐸(𝜀𝑖 ) = 0
Ce qui montre alors que les erreurs sont, en moyenne, nulles dans le modèle
dichotomique.
107
dépendent des variables explicatives 𝑋𝑖 . Ce qui crée une hétéroécédasticité telle
que 𝑉(𝜀𝑖 ) = 𝜎𝑖2 ≠ 𝜎 2 . En effet :
𝑦𝑖 ∈ {0 , 1 }
𝐸(𝑦𝑖 ) = 𝐹(𝑋𝑖 𝛽)
𝐸(𝜀𝑖 ) = 0 (5.6)
𝑉(𝜀𝑖 ) = [1 − 𝐹(𝑋𝑖 𝛽)][𝐹(𝑋𝑖 𝛽)]
{𝐶𝑂𝑉(𝜀𝑖 , 𝜀𝑖 ) = 0 ∀ 𝑖 ≠ 𝑗
Lorsque F(.) est la fonction de répartition de la loi normale, le modèle est dit
probit. En revanche lorsque la fonction de répartition choisie est celle de la loi
logistique, le modèle est dit logit. Enfin, lorsque la fonction choisie est une
fonction identité de 𝑋𝑖 𝛽, le modèle est dit de probabilité linéaire (MPL). Dans ce
dernier cas, les paramètres du modèle sont estimés comme dans le modèle
linéaire par les moindres carrés ordinaires.
108
Où 𝜙(𝑡) est la fonction de densité de la loi normale centrée réduite et 𝛷(𝑧) sa
𝑡2
1
fonction de répartition. Sachant que (𝑡) = 𝑒 − 2 , on peut alors écrire :
√2𝜋
𝑧
1 −𝑡 2
𝐹(𝑧) = 𝛷(𝑧) = ∫ ( 𝑒 2 ) 𝑑𝑡 (5.7)
−∞ √2𝜋
𝑑𝐹(𝑧)
Par ailleurs, 𝜙(𝑡) = 𝐹 ′ (𝑡) = 𝑓(𝑡) = .
𝑑𝑧
𝑒𝑧
𝐹(𝑧) =
1 + 𝑒𝑧
1
𝐹(𝑧) =
1 + 𝑒 −𝑧
𝑒𝑧 𝑒 2𝑧
𝜙(𝑡) = −
1 + 𝑒 𝑧 (1 + 𝑒 𝑧 )2
Les fonctions F(.) et 𝛷(𝑧) sont définies de telle sorte que lim 𝐹(𝑧) = lim 𝛷(𝑧) =
𝑍→−∞ 𝑍→−∞
′ (𝑡) 𝑑𝐹(𝑧)
0 et lim 𝐹(𝑧) = lim 𝛷(𝑧) = 1. Par ailleurs, 𝜙(𝑡) = 𝐹 = 𝑓(𝑡) =
𝑍→+∞ 𝑍→+∞ 𝑑𝑧
109
1
𝑃(𝑦𝑖 = 1/𝑋𝑖 ) = 𝐹(𝑋𝑖 𝛽) = (5.8)
1 + 𝑒 −𝑋𝑖 𝛽
Soit 𝑦𝑖∗ , la différence entre l’utilité procurée par l’adhésion à une groupe de
révision et celle procurée par une révision personne, le choix de l’étudiant peut
être décrit par le processus latent suivant :
𝑦𝑖 = 1 𝑠𝑖 𝑦𝑖∗ > 0
{ (5.9)
𝑦𝑖 = 0 𝑠𝑖 𝑦𝑖∗ ≤ 0
𝑦𝑖∗ = 𝑋𝑖 𝛽 + 𝑢𝑖 (5.10)
𝐸(𝑢𝑖 ) = 0
𝑉(𝑢𝑖 ) = 𝜎𝑢2
110
En se basant sur ces propriétés et en supposant que la série des résidus est
distribuée selon une fonction de réparation F (.), on peut alors poser que :
𝑃(𝑦𝑖 = 1) = 𝐹(𝑋𝑖 𝛽)
𝑃(𝑦𝑖 = 0) = 1 − 𝐹(𝑋𝑖 𝛽)
𝑦𝑖 = 𝐹(𝑋𝑖 𝛽) + 𝜀𝑖
111
Maximiser la fonction de vraisemblance équivaut aussi à maximiser le
logarithme de la fonction de la fonction de vraisemblance. C’est pourquoi, on
préfère d’abord calculer la fonction 𝑙𝑜𝑔𝐿(𝛽).
𝑛
𝑛
𝑦𝑖 − 𝐹(𝑋𝑖 𝛽)
𝐺(𝛽) = ∑ {𝑓(𝑋𝑖 𝛽)𝑋𝑖 ( )}
𝐹(𝑋𝑖 𝛽)(1 − 𝐹(𝑋𝑖 𝛽))
𝑖=1
𝑛
𝑦𝑖 − 𝐹(𝑋𝑖 𝛽)
𝐺(𝛽) = 0 ∑ {𝑓(𝑋𝑖 𝛽)𝑋𝑖 ( )} = 0 (5.11)
𝐹(𝑋𝑖 𝛽)(1 − 𝐹(𝑋𝑖 𝛽))
𝑖=1
𝑒 𝑋𝑖 𝛽 𝑒 2𝑋𝑖 𝛽
𝑓(𝑋𝑖 𝛽) = − = 𝐹(𝑋𝑖 𝛽)[1 − 𝐹(𝑋𝑖 𝛽)]
1 + 𝑒 𝑋𝑖 𝛽 (1 + 𝑒 𝑋𝑖 𝛽 )2
Dans un premier temps, des valeurs initiales sont attribuées aux k+1 éléments
du vecteur 𝛽. C’est la définitions des conditions initiales 𝛽̂𝑖0 .
Dans un second temps, on choisit un autre vecteur 𝛽̂𝑖1 telle que 𝑙𝑜𝑔𝐿(𝛽̂𝑖1 ) ≥
𝑙𝑜𝑔𝐿(𝛽̂𝑖0 ). Ce choix continue séquentiellement jusqu’à ce que la condition d’arrêt
soit satisfaite (i.e convergence).
𝜕 2 𝑙𝑜𝑔𝐿(𝛽)
𝐻(𝛽) = (5.13)
𝜕𝛽𝜕𝛽 ′
113
𝑛
𝑦𝑖 1 − 𝑦𝑖
𝐻(𝛽) = (− ∑ [ + ] [𝑓(𝑋𝑖 𝛽)]2 𝑋′𝑖 𝑋𝑖 )
[𝐹(𝑋𝑖 𝛽)] 2 [1 − 𝐹(𝑋𝑖 𝛽)]2
𝑖=1
𝑛
𝑦𝑖 − 𝐹(𝑋𝑖 𝛽)
+ (∑ [ ] 𝑓′(𝑋𝑖 𝛽)𝑋′𝑖 𝑋𝑖 )
𝐹(𝑋𝑖 𝛽)(1 − 𝐹(𝑋𝑖 𝛽))
𝑖=1
𝜕 2 𝑙𝑜𝑔𝐿(𝛽)
𝐼(𝛽) = −𝐸(𝐻(𝛽)) = −𝐸 ( )
𝜕𝛽𝜕𝛽 ′
𝑛
𝑦𝑖 1 − 𝑦𝑖
𝐼(𝛽) = −𝐸 [(− ∑ [ + ] [𝑓(𝑋𝑖 𝛽)]2 𝑋′𝑖 𝑋𝑖 )
[𝐹(𝑋𝑖 𝛽)] 2 [1 − 𝐹(𝑋𝑖 𝛽)]2
𝑖=1
𝑛
𝑦𝑖 − 𝐹(𝑋𝑖 𝛽)
+ (∑ [ ] 𝑓′(𝑋𝑖 𝛽)𝑋′𝑖 𝑋𝑖 )]
𝐹(𝑋𝑖 𝛽)(1 − 𝐹(𝑋𝑖 𝛽))
𝑖=1
𝐸(𝑦𝑖 ) = 𝐹(𝑋𝑖 𝛽)
114
moindres carrés ordinaires est biaisé, et il n’est pas possible d’effectuer des tests
sans corriger cette hétérocédasticité.
115
Pour la moyenne, on a :
𝐸𝑀𝑥𝑖𝑘 = 𝛽𝑘 𝜙(𝑥̅𝑖𝑘 )
Pour la médiane, on a :
𝐸𝑀𝑥𝑖𝑘 = 𝛽𝑘 𝜙(𝑚𝑒𝑑(𝑥𝑖𝑘 ))
Par ailleurs, lorsque le modèle estimé est celui du probit où la fonction de densité
est celui d’une loi normale centrée et réduite (loi symétrique), on peut aussi
calculer l’effet marginal au point où celle-ci est maximale. En effet la densité de
probabilité de la loi normale centrée réduite est maximale au point 0 car 𝜙(0) ≈
0,40. Dans ce cas, l’effet marginal se présente comme suit :
𝐸𝑀𝑥𝑖𝑘=0/𝑝𝑟𝑜𝑏𝑖𝑡 = 𝛽𝑘 𝜙(0)
𝐸𝑀𝑥𝑖𝑘=0/𝑝𝑟𝑜𝑏𝑖𝑡 = 0,40𝛽𝑘
Aussi, lorsque le modèle estimé est le logit où la fonction de densité est celui
d’une loi logistique (loi symétrique), on peut calculer l’effet marginal au point où
celle-ci est maximale. En effet la densité de probabilité de la loi logistique est
maximale au point 0 car 𝜙(0) ≈ 0,25. Dans ce cas, l’effet marginal se présente
comme suit :
𝐸𝑀𝑥𝑖𝑘=0/𝑙𝑜𝑔𝑖𝑡 = 𝛽𝑘 𝜙(0)
𝐸𝑀𝑥𝑖𝑘=0/𝑙𝑜𝑔𝑖𝑡 = 0,25𝛽𝑘
Il faut aussi noter que l’une des désavantages de l’effet marginal est qu’il
dépendra de l’unité de mesure de la variable explicative. C’est d’ailleurs
pourquoi, on préfère utiliser l’élasticité qui mesure dans quelle proportion varie
la probabilité 𝑃(𝑦𝑖 = 1/𝑋𝑖 ) suite à une variation de la variable explicative de 1%.
La formule est la suivante :
𝜙(𝑥𝑖𝑘 )
𝐸𝐿𝑥𝑖𝑘 = 𝛽𝑘 𝑥𝑖𝑘 (5.17)
𝛷(𝑥𝑖𝑘 )
116
𝑃(𝑦𝑖 = 1)
= 𝑒 𝑋𝑖 𝛽
1 − 𝑃(𝑦𝑖 = 1)
𝑃(𝑦𝑖 = 1)
𝑙𝑛 ( ) = 𝑋𝑖 𝛽
1 − 𝑃(𝑦𝑖 = 1)
Ainsi, d’une manière générale, pour calculer les Odds ratios, on calcule
l’exponentiel du coefficient 𝛽. Ainsi, on a :
𝑂𝑅 = 𝑒 𝛽 (5.18)
𝑦𝑖 = 1 𝑠𝑖 𝑦𝑖∗ > 0
{
𝑦𝑖 = 0 𝑠𝑖 𝑦𝑖∗ ≤ 0
Avec 𝑦𝑖∗ défini telle que 𝑦𝑖∗ = 𝑋𝑖 𝛽 + 𝑢𝑖 avec 𝐸(𝑢𝑖 ) = 0 et 𝑉(𝑢𝑖 ) = 𝜎𝑢2
Dans cette configuration la série des erreurs 𝑢𝑖 est distribuée telle que
𝑢𝑖 ↝ 𝑖𝑖𝑑(0, 𝜎𝑢2 )
Cependant, lorsque la fonction de répartition donnée est celle issue d’une loi
𝑖𝑖𝑑(0,1), il faudrait alors normaliser les erreurs de sorte à pouvoir déterminer les
paramètres du modèle. En effet, lorsque 𝑢𝑖 ↝ 𝑖𝑖𝑑(0, 𝜎𝑢2 ) et que 𝑦𝑖∗ = 𝑋𝑖 𝛽 + 𝑢𝑖 , alors
l’erreur normalisée se présente comme suit :
𝑢𝑖
↝ 𝑖𝑖𝑑(0,1)
𝜎𝑢
𝑦𝑖∗ 𝑋𝑖 𝛽 𝑢𝑖
= +
𝜎𝑢 𝜎𝑢 𝜎𝑢
𝑦𝑖∗ 𝑋𝑖 𝛽 𝑢𝑖 𝑢𝑖 𝑋𝑖 𝛽
𝑃(𝑦𝑖 = 1) = 𝑃 ( > 0) = 𝑃 ( + > 0) = 𝑃 ( > − )
𝜎𝑢 𝜎𝑢 𝜎𝑢 𝜎𝑢 𝜎𝑢
𝑢𝑖 𝑋𝑖 𝛽 𝑢𝑖 𝑋𝑖 𝛽 𝑢𝑖 𝑋𝑖 𝛽 𝑋𝑖 𝛽
= 1−𝑃( ≤− ) = 1 − [1 − 𝑃 ( < )] = 𝑃 ( < ) = 𝐹( )
𝜎𝑢 𝜎𝑢 𝜎𝑢 𝜎𝑢 𝜎𝑢 𝜎𝑢 𝜎𝑢
117
Ainsi, on a :
𝑋𝑖 𝛽
𝑃(𝑦𝑖 = 1) = 𝐹 ( ) (5.19)
𝜎𝑢
Cette propriété montre par exemple que lorsque 𝑢𝑖 ↝ 𝑁(0, 𝜎𝑢2 ) alors, pour estimer
le modèle probit (dans lequel la fonction de répartition considérée est celle d’une
loi normale centrée et réduite), il faut donc procéder à une pré-normalisation de
l’équation de la variable latente (en utilisation 𝜎𝑢2 ). Cette propriété permet donc
de passer d’une loi normale 𝑁(0, 𝜎𝑢2 ) à une loi normale 𝑁(0,1).
Par ailleurs, on peut aussi montrer qu’il est possible de passer d’une loi iid(0,1) à
une loi logistique en normalisation par la variance de la loi logistique.
𝜋2
En effet, sachant que la variance d’une loi logistique est égale à , pour passer
3
𝜋2 𝜋
d’une loi iid(0,1) à une loi logistique l(0, ), on multiplie celle-ci par ( écart-
3 √3
type). En effet si on a :
𝑢𝑖 𝜋 𝑢𝑖 𝜋2
𝑢𝑖 ↝ 𝑁(0, 𝜎𝑢2 ) ↝ 𝑁(0,1) ↝ 𝑙 (0, )
𝜎𝑢 √3 𝜎𝑢 3
Démonstration :
𝜋 𝑢𝑖 𝜋 𝜋
𝐸( )= 𝐸(𝑢𝑖 ) = ×0 =0
√3 𝜎𝑢 𝜎𝑢 √3 𝜎𝑢 √3
𝜋 𝑢𝑖 𝜋 𝑢𝑖 2 𝜋2 2)
𝜋2 𝜋2 2
𝜋2
𝑉𝑎𝑟 ( ) = 𝐸 [( ) ] = 2 𝐸(𝑢𝑖 = 2 𝑉𝑎𝑟(𝑢𝑖 ) = 2 × 𝜎𝑢 =
√3 𝜎𝑢 √3 𝜎𝑢 3𝜎𝑢 3𝜎𝑢 3𝜎𝑢 3
𝑦𝑖 = 1 𝑠𝑖 𝑦𝑖∗ > 0
{
𝑦𝑖 = 0 𝑠𝑖 𝑦𝑖∗ ≤ 0
𝑋𝑖 𝛽
𝑃(𝑦𝑖 = 1) = 𝐹 ( ) (5.20𝑎)
𝜎𝑢
118
En revanche, pour estimer un modèle logit, on utilise la fonction de répartition
définie telle que :
𝜋 𝑋𝑖 𝛽
𝑃(𝑦𝑖 = 1) = 𝐹 ( ) (5.20𝑏)
√3 𝜎𝑢
𝑦𝑖∗ = 𝑋𝑖 𝛽 + 𝑢𝑖
𝑦𝑖∗ 𝑋𝑖 𝛽 𝑢𝑖
= +
𝜎𝑢 𝜎𝑢 𝜎𝑢
𝜋 𝑦𝑖∗ 𝜋 𝑋𝑖 𝛽 𝜋 𝑢𝑖
= +
√3 𝜎𝑢 √3 𝜎𝑢 √3 𝜎𝑢
𝜋 𝑦𝑖∗ 𝜋 𝑋𝑖 𝛽 𝜋 𝑢𝑖
𝑃(𝑦𝑖 = 1) = 𝑃 ( > 0) = 𝑃 ( + > 0)
√3 𝜎𝑢 √3 𝜎𝑢 √3 𝜎𝑢
𝜋 𝑢𝑖 𝜋 𝑋𝑖 𝛽 𝜋 𝑢𝑖 𝜋 𝑋𝑖 𝛽
= 𝑃( >− ) = 1−𝑃( ≤− )
√3 𝜎𝑢 √3 𝜎𝑢 √3 𝜎𝑢 √3 𝜎𝑢
𝜋 𝑢𝑖 𝜋 𝑋𝑖 𝛽 𝜋 𝑢𝑖 𝜋 𝑋𝑖 𝛽 𝜋 𝑋𝑖 𝛽
= 1 − [1 − 𝑃 ( < )] = 𝑃 ( < ) = 𝐹( )
√3 𝜎𝑢 √3 𝜎𝑢 √3 𝜎𝑢 √3 𝜎𝑢 √3 𝜎𝑢
Ainsi, on a :
𝜋 𝑋𝑖 𝛽
𝑃(𝑦𝑖 = 1) = 𝐹 ( )
√3 𝜎𝑢
Compte tenu de ces précédentes propriétés, on peut donc passer d’un modèle à un
autre par l’intermédiaire d’un coefficient de proportionnalité. La conséquence
directe de cette propriété est qu’on peut aussi déduire les estimateurs d’un
modèle à partir d’un autre sans avoir besoin d’estimer celui. En effet, il est établit
la propriété fondamentale suivante :
Cette même propriété permet d’établir une relation entre l’estimation du modèle
probit et celui du modèle de probabilité linéaire (obtenu par MCO) :
119
𝛽̂𝑚𝑐𝑜 = 0.4𝛽̂𝑝𝑟𝑜𝑏𝑖𝑡 (5.22)
5.9.1. Le R2 de McFadden
𝐿𝑜𝑔𝐿𝑛𝑐
𝑅2 = 1 − ( ) (5.23)
𝐿𝑜𝑔𝐿𝑐
120
1 𝑠𝑖 𝑃̂𝑖 > 0,5
𝑦̂𝑖 = {
0 𝑠𝑖 𝑃̂𝑖 ≤ 0,5
Valeurs prédites
𝑦̂𝑖 = 0 𝑦̂𝑖 = 1
Valeurs 𝑦𝑖 = 0 𝑛00 𝑛01
observées 𝑦𝑖 = 1 𝑛10 𝑛11
Le modèle sera alors considéré de bonne qualité lorsque cette proche est proche
de 1.
121
statistique du test du test de Student ou de Wald se présente indifféremment
comme suit :
𝛽̂𝑗 − 𝛽0,𝑗
𝜎̂𝛽̂𝑗
Etant donné que la valeur 𝜎̂𝛽̂20 depend de la valeur 𝜎𝜀̂2 (Voir par exemple dans le
cadre du modèle linéaire), alors la distribution de la statistique de
̂𝑗 −𝑗
𝛽
̂𝛽
depend du fait que 𝜎𝜀̂2 soit connue ou pas.
𝜎 ̂
𝑗
̂𝑗 −𝛽0,𝑗
𝛽
Si 𝜎𝜀̂2 est connue, alors la statstique ̂𝛽
sera distribuée selon une loi normale.
𝜎 ̂
𝑗
𝛽̂𝑗 − 𝛽0,𝑗
𝑊= ↝ 𝑁(0,1) (5.25)
𝜎̂𝛽̂𝑗
On peut aussi montrer que le carré de la statistique de Wald est une loi de Khi-
deux, car elle correspond théoriquement à la somme du carré d’une loi normale
(0,1) :
2
(𝛽̂𝑗 − 𝛽0,𝑗 )
𝑊 = 2
↝ 2 (1) (5.26)
𝜎̂𝛽̂2
𝑗
Cette propriété montre donc que le test de Wald peut être réalisé soit à partir
d’une distribution normale ou une distribution de khi-deux lorsque la variance
des erreurs est connue. En revanche dans le cas où la variance 𝜎𝜀̂2 n’est pas
connue, il faut utiliser la statistique de student. Dans ce cas, la statistique du
test se présente comme suit :
𝛽̂𝑗 − 𝛽0,𝑗
𝑡∗ = ↝ 𝑇(𝑛 − 𝑘 − 1) (5.27)
𝜎̂𝛽̂𝑗
122
D’une manière générale, tous les tests de contraintes linéaires se présentent sous
la forme suivante :
𝐻0 𝑅𝛽 = 𝑟
′
𝑊 = (𝑅𝛽̂ − 𝑟) (𝑅𝑉̂ 𝑅 ′ )−1 (𝑅𝛽̂ − 𝑟)
Cette propriété dérive du fait que pour tout coefficient estimé 𝛽̂𝑗 , on a :
De même que le test de Wald peut être utilisé pour tester une contrainte linéaire,
on peut aussi utiliser le test de rapport de vraisemblance (likelihood Ratio test)
lorsque le modèle estimée par maximum de vraisemblance.
𝐿𝑛𝑐
𝐿𝑅 = ( ) (5.29𝑎)
𝐿𝑐
123
Cette statistique suit un Khi-deux à q degrés de liberté où q représente le nombre
de contraintes. Ainsi, en fonction de la valeur de la statistique 2(𝑙𝑛𝐿𝑐 − 𝑙𝑛𝐿𝑛𝑐 ),
l’hypothèse H0 sera rejetée lorsque la statistique est supérieur à la valeur du
Khi-deux lue dans la table au seuil 1 − 𝛼⁄2).
Où 𝐼(𝛽̂ ) est la matrice d’information de Fisher. Cette statistique suit une loi de
khi-deux à q degré de libertés où q est le nombre de contraintes.
124
CHAPITRE 6. MODELES A VARIABLE
DEPENDANTE POLYTOMIQUE
6.1. Présentation
Les modèles à variable dépendante polytomique sont des modèles dans lesquels
la variable expliquée prend plus de deux modalités. On dénombre deux grandes
catégories de ce genre de modèles qui se distinguent selon qu’on puisse établir ou
pas un ordre dans les modalités. Il s’agit des modèles multinomiaux ordonnées et
des modèles multinomiaux non ordonnés.
Les modèles multinomiaux ordonnées sont des modèles dans lesquels il existe un
certain ordre dans les modalités. Par exemple, lorsqu’on demande à un groupe
d’individus d’exprimer leur degré de satisfaction par rapport à la consommation
d’un produit, les réponses obtenus peuvent être codées comme suit : 0- Pas du
tout satisfait, 1-Plutôt pas satisfait, 2- Ni satisfait, ni insatisfait, 3-Plutôt
satisfait, 4-Très satisfait. On remarque alors un ordre clair dans les modalités,
passant de la pire à la meilleure situation (ou réciproquement).
Les modèles multinomiaux non ordonnés sont des modèles dans lesquels il
n’existe aucun ordre clair dans les modalités. C’est le cas par exemple lorsqu’on
veut étudier le choix des individus entre plusieurs moyens de transport pour faire
un trajet. On peut proposer plusieurs modalités : 1-Vélo, 2-Moto, 3-Voiture
personnelle, 4-Bus, 5-Autres. On ne peut pas mettre un ordre hiérarchique clair
entre ces modalités dans la mesure où ce choix appartient uniquement à
l’individu qui est en capacité d’estimer le choix le plus favorable pour lui. Ce type
de modèle est alors appelé modèle multinomial non ordonnée.
125
représente le vecteur des paramètres du modèle. Etant donné que les modalités
sont mutuellement exclusives, la condition suivante est donc vérifiée pour chaque
individu:
𝑚
∑ 𝑃𝑟𝑜𝑏(𝑦𝑖 = 𝑘) = 1 ∀ 𝑖 = 1, … , 𝑛 (6.2)
𝑘=1
La condition (6.2) indique que la somme des probabilités des m modalités vaut 1
pour chaque individu.
L’un des corollaires de cette condition est qu’il n’est pas nécessaire de spécifier la
fonction de probabilité de toutes les modalités. En effet, étant donné qu’il y a m
modalités, on peut montrer que la probabilité de la m-ième modalité (connaissant
celles des m-1 premières modalités) est la suivante :
𝑚−1
1 𝑠𝑖 𝑦𝑖∗ < 𝛾1
2 𝑠𝑖 𝛾1 ≤ 𝑦𝑖∗ < 𝛾2
3 𝑠𝑖 𝛾2 ≤ 𝑦𝑖∗ < 𝛾3
𝑦𝑖 = (6.4𝑎)
… … …
… … …
∗
{𝑚 𝑠𝑖 𝑦𝑖 > 𝛾𝑚
126
Où 𝑦𝑖 représente la variable dépendante pouvant prendre les modalités 1,2, . . , 𝑚
qui elles-mêmes correspondent à des intervalles de valeurs d’une variable
latentes continue 𝑦𝑖∗ définie telle que :
𝑦𝑖∗ = 𝑋𝑖 𝛽 + 𝑢𝑖 (4𝑏)
𝐸(𝑢𝑖 ) = 0
𝑉(𝑢𝑖 ) = 𝜎𝑢2
Dans ce modèle 𝛾1, 𝛾2 ,…, 𝛾𝑚 sont des constantes délimitant les intervalles de
valeurs de la variable latente. Ce sont des valeurs seuils qui conditionnent les
choix des individus. Comme on peut le voir à travers l’équation, l’individu fait le
choix de la modalité 1 si la valeur de la variable latente est inférieure à un
certain seuil 𝛾. Par contre, il fera le choix m (qui est celui qui domine tous les
autres choix) lorsque la valeur de 𝑦𝑖∗ dépasse le seuil 𝛾𝑚 . En dehors de ces deux
cas extrêmes, il existe aussi des choix intermédiaires correspondant chacun à des
intervalles de valeurs spécifiques (voir équation 6.4a).
Connaissant les valeurs seuils et la fonction F(.), on peut aussi proposer une
formule générale pour obtenir la probabilité de chaque modalité. Cette formule se
présente comme suit :
Avec 𝛾0 = −∞ et 𝛾𝑚 = +∞
127
Pour estimer le modèle, il faut d’abord calculer la fonction de vraisemblance qui
est le double produit des probabilités des modalités à la fois entre les modalités
mais aussi entre les individus. La fonction de vraisemblance d’un modèle
multinomial ordonné se présente comme suit :
𝑛 𝑚
Avec 𝛾0 = −∞ et 𝛾𝑚 = +∞
Avec 𝛾0 = −∞ et 𝛾𝑚 = +∞
Connaissant ainsi la fonction F(.), il suffit alors de dériver l’équation (6.6b) afin
de rechercher les valeurs des paramètres 𝛾 et 𝛽 qui sont deux vecteurs de
paramètres contenant respectivement les valeurs seuils et les coefficients des
variables explicatives. Il faut noter que 𝑋𝑖 ne contient pas de constante pour des
raisons d’identification. En effet, il est impossible d’identifier en même temps le
coefficient associé à la constante et les valeurs seuils 𝛾𝑘 .
Remarque :
Lorsque la série des erreurs 𝑢𝑖 est distribuée selon une loi iid telle que la loi
normale : 𝑢𝑖 ↝ 𝑁(0, 𝜎𝑢2 ) avec 𝜎𝑢2 ≠ 1, il faudrait alors normaliser l’ensemble du
modèle de sorte que 𝑢𝑖 puisse être distribuée 𝑢𝑖 ↝ 𝑁(0,1). Pour cela, on multiplie
128
1
tous les membres du modèle par tel que : le modèle normalisé se présente tel
𝜎𝑢
𝑦𝑖∗ 𝑋𝑖 𝛽 𝑢𝑖 𝜋
que : = + . Notons aussi que pour obtenir un modèle où 𝑢𝑖 ↝ 𝑙(0, ), il faut
𝜎𝑢 𝜎𝑢 𝜎𝑢 3
𝜋 1 𝜋 𝑦𝑖∗ 𝜋 𝑋𝑖 𝛽 𝜋 𝑢𝑖
simplement multiplié le modèle initial par
3
× tel que : = + .
𝜎𝑢 √3 𝜎𝑢 √3 𝜎𝑢 √3 𝜎𝑢
Dans l’un ou l’autre cas, on obtient finalement un modèle transformé ayant les
mêmes propriétés qu’un modèle ordinaire sur lequel peut appliquer l’ensemble
des démarches précédemment présentées.
Probit ordonné
Logit ordonné
Avec 𝛾0 = −∞ et 𝛾𝑚 = +∞
∀ 𝑘 = 1, … , 𝑚
129
𝑒 𝑋𝑖 𝛽𝑘
𝑃𝑟𝑜𝑏(𝑦𝑖 = 𝑘) = 𝑋𝑖 𝛽𝑗
∀ 𝑘 = 1, … , 𝑚 ; ∀ 𝑖 = 1, … , 𝑛 (6.7)
∑𝑚
𝑗=1 𝑒
1
𝑃𝑟𝑜𝑏(𝑦𝑖 = 1) = 𝑋𝑖 𝛽𝑗
1+ ∑𝑚
𝑗=2 𝑒
𝑒 𝑋𝑖 𝛽𝑘
𝑃𝑟𝑜𝑏(𝑦𝑖 = 𝑘) = 𝑋𝑖 𝛽𝑗
∀ 𝑘 = 2, … , 𝑚
1 + ∑𝑚𝑗=2 𝑒
On peut aussi remarquer que lorsque 𝑚 = 2, on tombe dans le cas du modèle logit
simple. Il suffirait alors de recoder les modalités 1 et 2 de sorte à retrouver les
modèle logit binaire classique.
130
La dérivation de cette fonction permet en adoptant un algorithme adapté de
retrouver les valeurs des paramètres 𝛽𝑘 correspondant à chaque modalité. Notons
aussi, que contrairement au probit ordonné, le probit "multinomial" permet bien
d’estimer les coefficients associés à la constante car la matrice des
caractéristiques 𝑋𝑖 contient bien un vecteur de constante.
Il existe, par ailleurs, une propriété très importante dans le modèle logit
multinomial qui indique que le rapport de probabilité entre deux alternatives est
indépendant des vecteurs des paramètres des autres modalités non concernées.
Cela se traduit comme suit :
𝑒 𝑋𝑖 𝛽𝑘
𝑃𝑟𝑜𝑏(𝑦𝑖 = 𝑗) ∑𝑚 𝑒 𝑋𝑖 𝛽𝑘 𝑒 𝑋𝑖 𝛽𝑘
= 𝑘=1𝑋 𝛽 = 𝑋 𝛽 = 𝑒 𝑋𝑖 (𝛽𝑘−𝛽𝑙)
𝑃𝑟𝑜𝑏(𝑦𝑖 = 𝑙) 𝑒 𝑖 𝑙 𝑒 𝑖 𝑙
𝑚
∑𝑘=1 𝑒 𝑖 𝑘
𝑋 𝛽
𝑃𝑟𝑜𝑏(𝑦𝑖 = 𝑗)
= 𝑒 𝑋𝑖 (𝛽𝑘−𝛽𝑙) (6.9)
𝑃𝑟𝑜𝑏(𝑦𝑖 = 𝑙)
Pour mieux caractériser le modèle logit conditionnel, prenons le cas d’une localité
dont les habitants, pour se rendre au travail, ont le choix entre plusieurs modes
de déplacement : 1-Marche à pied et associés, 2- Vélo, 3- Voiture personnelle, 4-
Bus. On veut alors analyser les déterminants des choix des individus entre ces
différents modes de transport. Pour cela, on cherche d’abord à caractériser ces
131
modalités en déterminant les vecteurs 𝑋𝑖𝑘 . On peut alors considérer la durée de
trajet associée à chaque modalité (temps de trajet) et le coût financier associé à
chacune des modalités (dépenses monétaires : ticket de transport, prix du
carburant, etc..). On peut alors admettre que ces caractéristiques sont propres
aux modalités et non aux individus. D’où la notion de logit conditionnel. Bien
entendu, les individus font leur choix en tenant compte de ces facteurs (ici durée
et coût) ; et ceux-ci influencent de la même manière les différentes modalités.
𝑒 𝑋𝑖𝑘𝛽
𝑃𝑟𝑜𝑏(𝑦𝑖 = 𝑘) = 𝑋𝑖𝑗 𝛽
∀ 𝑘 = 1, … , 𝑚 ; ∀ 𝑖 = 1, … , 𝑛 (6.10)
∑𝑚
𝑗=1 𝑒
1
𝑃𝑟𝑜𝑏(𝑦𝑖 = 1) = 𝑋𝑖𝑗 𝛽 ∗
1 + ∑𝑚
𝑗=2 𝑒
∗
𝑒 𝑋𝑖𝑘𝛽
𝑃𝑟𝑜𝑏(𝑦𝑖 = 𝑘) = 𝑋𝑖𝑗 𝛽 ∗ ∀ 𝑘 = 2, … , 𝑚
1 + ∑𝑚
𝑗=2 𝑒
L’un des grands avantages du modèle logit conditionnel est sa capacité à prédire
la probabilité associée à nouvelle modalité introduite parmi les modalités pré-
existantes. En effet, la probabilité associée à une nouvelle modalité s’exprime
comme suit :
∗ ̂
𝑒 (𝑋̂𝑖𝑚+1 𝛽)
𝑃𝑟𝑜𝑏(𝑦𝑖 = 𝑚 + 1) = ∗ ̂ ∗ ̂
∀ 𝑘 = 2, … , 𝑚 (6.11)
𝑋𝑖𝑗 𝛽
1 + ∑𝑚
𝑘=2 𝑒 + 𝑒 (𝑋̂𝑖𝑚+1 𝛽)
132
caractéristique associée à la modalité 𝑚 + 1 , normalisée telle que 𝑋̂𝑖𝑚+1
∗
=
𝑋̂𝑖𝑚+1 − 𝑋𝑖1.
La valeur estimée 𝑋̂𝑖𝑚+1 est généralement une valeur hypothétique qu’on attribue
à la nouvelle modalité. En effet, reprenons l’exemple du choix entre les modes de
transport définis par les modalités suivantes : 1-Marche à pied et associés, 2-
Vélo, 3- Voiture personnelle, 4- Bus. Supposons maintenant que dans cette localité
on veuille introduire un nouveau mode de transport, le tramway (codé par 5).
Puisque la modalité était inexistante, on ne peut donc pas déterminer avec
précisions les durées de trajet et même le coût financier à cette nouvelle modalité.
Il faut alors s’inspirer d’autres expériences à partir d’autres localités afin d’avoir
une idée approximative sur les durées de trajet et du coût financier. Ce qui
permet alors d’obtenir 𝑋̂𝑖𝑗 et par ricochet 𝑋̂𝑖𝑚+1
∗
.
Par ailleurs, tout comme le modèle logit multinomial, le modèle logit conditionnel
respecte la condition dite IIA (Independance of Irrelevant Alternative). En effet,
en calculant le rapport de probabilité entre deux alternatives 𝑗 et 𝑙, on trouve :
𝑒 𝑋𝑖𝑗𝛽
𝑃𝑟𝑜𝑏(𝑦𝑖 = 𝑗) ∑𝑚
𝑘=1 𝑒
𝑋𝑖𝑘 𝛽 𝑒 𝑋𝑖𝑗𝛽
= = 𝑋 𝛽 = 𝑒 (𝑋𝑖𝑗−𝑋𝑖𝑙)𝛽
𝑃𝑟𝑜𝑏(𝑦𝑖 = 𝑙) 𝑒 𝑋𝑖𝑙𝛽 𝑒 𝑖𝑙
∑𝑚
𝑘=1 𝑒
𝑋𝑖𝑘 𝛽
𝑃𝑟𝑜𝑏(𝑦𝑖 = 𝑗)
= 𝑒 (𝑋𝑖𝑗−𝑋𝑖𝑙)𝛽 (6.12)
𝑃𝑟𝑜𝑏(𝑦𝑖 = 𝑙)
Cette condition montre que les disparités entre deux réponses quelconques ne
dépendent que de 𝑋𝑖𝑘 et du vecteur de paramètres 𝛽. Selon cette condition IAA,
l’introduction d’une nouvelle modalité ne modifie pas le rapport de probabilité
entre deux modalités quelconques.
133
conditions pour que la condition IAA soit toujours vérifiée (rapports de
probabilité non influencés par l’ajout d’une modalité supplémentaire), il faudrait
que les parts de marché de chaque modalité soit de 0.25 (soit un quart des
passagers pour chaque modalité). Ce qui apparait peu réaliste dans la mesure la
présence de deux compagnies sur le même segment peut tirer les prix à la baisse
dans ce segment et inciter les voyageurs à reporter leur choix sur ce mode de
transport. La question peut également se poser lorsqu’on introduit un nouveau
mode de transport terrestre en l’occurrence le transport ferroviaire assurée par
une compagnie de nommée RailwayTrans. Il devient moins sûr que les
probabilités initiales soient maintenues après cette introduction.
D’une manière générale, lorsque l’hypothèse IAA n’est pas vérifiée, il faut alors
penser à des modèles alternatifs qui ne sont pas fondés sur cette hypothèse
comme par exemple les modèles multinomiaux séquentiels.
𝑛 𝑚 𝑚−1
134
On met alors en œuvre la procédure de maximisation de vraisemblance en
prenant d’abord le logarithme de cette fonction, qui sera ensuite optimisé en
utilisant les algorithmes disponibles dans la littérature. Lorsque la fonction F(.)
est celle d’une loi logistique, le modèle est alors appelé modèle logit séquentiel.
Malgré la complexité des procédures d’estimation de ces, plusieurs logiciels
statistiques fournissent aujourd’hui des routines pour estimer aisément les
paramètres de ces types de modèle. On peut noter par exemple le module seqlogit
de stata.
Bibliographie
Alban T. (2000), “Econométrie des Variables Qualitatives”, Dunod, Paris
135
Gourieroux C. (1989), “Econométrie des Variables Qualitatives”, Economica,
Paris.
Greene W, (2008), “Econometric Analysis ”, 6th edition, Upper Saddle River, NJ,
Prentice-Hall.
Judge, G., Griffiths, W., Carter Hill, R., Lütkepohl, H., and Lee, T. (1985), “The
Theory and Practice of Econometrics”. Wiley, USA, 2 edition.
Wooldridge J., (2010), “Econometric Analysis of Cross Section and Panel Data ”.
Cambridge, MA: MIT Press.
136