Econometrie 1 2019 2020
Econometrie 1 2019 2020
Econometrie 1 2019 2020
Cours : Econométrie 1
Novembre 2020
1
Programme
Chapitre 1 : Qu’est-ce que l’économétrie ?
I-1 Définition de l’économétrie
I-2 La démarche en économétrie
I-3 Construction d’un modèle économétrique
Chapitre 2 : Théorie de la corrélation
II-2 Notion de corrélation
II-2 La corrélation simple
II-3 La corrélation partielle
II-4 La corrélation de rang
Chapitre 3 : Le modèle de régression linéaire simple
III-1 Spécification de la relation
III-2 Estimation du modèle
III-3 Etude de cas particuliers
Chapitre 4 : Inférences dans le modèle de régression linéaire simple (MRLS)
IV-1 Caractéristiques des estimateurs des moindres carrés
IV-2 Distribution des estimateurs des moindres carrés (EMC)
IV-3 Analyse de variance dans le MRLS
IV-4 Tests d’hypothèse dans le MRLS
IV-5 Intervalles de confiance autour des paramètres
IV-6 Prédiction dans le MRLS
Bibliographie
Régis BOURBONNAIS, « Économétrie », Dunod, 1998.
Grégory DENGLOS, « Introduction à l’économétrie : cours et exercices », PUF
2009
2
Jeffrey WOOLDRIDGE, « Introductory Econometrics: A Modern Approach, 2nd
Edition
Objectifs du cours
Ce cours fournira une introduction à l'analyse des données économiques. La première
partie du cours traitera en chapitre 1 de la démarche en économétrie, du rôle de la théorie
économique, des statistiques et des mathématiques et de la façon dont les modèles sont
construits en économétrie. Dans le deuxième chapitre, nous allons faire des rappels sur la
théorie de la corrélation et discuter des limites de la corrélation qui nous font avoir
recours à d’autres méthodes pour analyser les relations entre variables. Nous allons
ensuite passer à quelques techniques statistiques simples, en particulier les Moindres
Carrés Ordinaires (MCO) ainsi que les estimateurs de la méthode des moments et ceux du
maximum de vraisemblance. Nous allons également en apprendre davantage sur les
propriétés de grands échantillons de ces estimateurs. À la fin du cours, les étudiants
devraient être en mesure de comprendre quelles inférences peuvent être faites avec les
données de terrain et certaines techniques statistiques de base qui peuvent être utilisées
pour découvrir des faits saillants dans les données et de dégager leur structure.
3
Chapitre I : Qu’est-ce que l’économétrie ?
4
Une deuxième phase dite d’inférence consiste à l’estimation et au test du modèle
à l’aide de données empiriques et de techniques appropriées
Une troisième phase dite phase d’utilisation du modèle à des fins de prédiction et
d’analyse des politiques économiques
Les économistes ont recours à la théorie économique, aux mathématiques et à la
statistique à chacune des phases de la démarche économétrique selon les intérêts ou la
pertinence.
5
l’absence de laquelle le modèle peut être inconsistant, invalide ou donner lieu à des
résultats non interprétables économiquement.
𝜕𝑀
< 0 → une augmentation du taux d’intérêt entraine une réduction de la demande de
𝜕𝑖
monnaie
7
- La propension marginale à consommer (PmC) mesure la part du revenu
additionnel consacrée à la consommation
- La propension moyenne à consommer (PMC) mesure la part du revenu total
consacrée à la consommation.
Théoriquement on s’attend à ce que la propension moyenne à consommer des biens
alimentaires baisse lorsque le revenu augmente. Théoriquement, la propension marginale
à consommer est une fonction décroissante du revenu c’est-à-dire lorsque le revenu
augmente, la propension marginale à consommer diminue. Théoriquement, l’élasticité-
revenu de la consommation alimentaire évolue à la baisse en fonction du revenu
autrement dit les ménages riches sont moins sensibles à la variation de leur revenu
comparativement aux ménages pauvres pour ce qui concerne leur consommation
alimentaire.
Apprécions la conformité théorique des formes fonctionnelles suivantes au regard de
l’évolution de l’élasticité-revenu.
M=modèle, C=consommation, Y=revenu
M1 : 𝐶 = 𝑎1 + 𝑏1 𝑌 , 𝑏1 > 0
M2 : 𝐿𝑛(𝐶 ) = 𝑎2 + 𝑏2 𝐿𝑛(𝑌) , 𝑏2 > 0
𝑏3
M3 : 𝐿𝑛(𝐶 ) = 𝑎3 + , 𝑏3 < 0
𝑌
M4 : 𝐿𝑛(𝐶 ) = 𝑎4 + 𝑏4 𝑌 , 𝑏4 > 0
M5 : 𝐶 = 𝑎5 + 𝑏5 𝐿𝑛(𝑌), 𝑏5 > 0
E= élasticité
𝑑𝐶
𝐸𝐶,𝑌 = 𝐶
𝑑𝑌
𝑌
M1 : 𝐶 = 𝑎1 + 𝑏1 𝑌 , 𝑏1 > 0
𝑑𝐶
𝐶 = 𝑑𝐶 × 𝑌 = 𝑑𝐶 . 𝑌 = 𝑏 𝑌
1
𝑑𝑌 𝐶 𝑑𝑌 𝑑𝑌 𝐶 𝐶
𝑌
8
1
𝐸1 = 𝑏1
𝑃𝑀𝐶
𝑑𝐿𝑛(𝐶)
𝐸2 = = 𝑏2
𝑑𝐿𝑛(𝑌)
Posons 𝐶 ∗ = 𝐿𝑛(𝐶)
𝑌 ∗ = 𝐿𝑛(𝑌)
M2 : 𝐶 ∗ = 𝑎2 + 𝑏2 𝑌 ∗ →
𝑑𝐶 ∗
𝐸2 = = 𝑏2
𝑑𝑌 ∗
E2 est constant
𝑏3
M3 : 𝐿𝑛(𝐶 ) = 𝑎3 + , 𝑏3 < 0
𝑌
𝑑𝐶
𝐸3 = 𝐶
𝑑𝑌
𝑌
𝑌 𝑑𝐿𝑛(𝐶)
𝑑𝐿𝑛(𝐶 ) × = ×𝑌
𝑑𝑌 𝑑𝑌
𝑏3
𝑂𝑟 𝐿𝑛(𝐶 ) = 𝑎3 + = 𝑎3 + 𝑏3 𝑌 −1
𝑌
𝐿𝑛(𝐶 ) = 𝑎3 + 𝑏3 𝑌 −1 →
𝑑𝐿𝑛(𝐶) −𝑏3
= −1 × 𝑏3 𝑌 −1−1 = −𝑏3 𝑌 −2 = 2
𝑑𝑌 𝑌
−𝑏3 𝑌 −𝑏3
𝐸3 = =
𝑌2 𝑌
9
E3 baisse lorsque le revenu augmente
M4 : 𝐿𝑛(𝐶 ) = 𝑎4 + 𝑏4 𝑌 , 𝑏4 > 0
𝑑𝐶
𝑌 𝑑𝐿𝑛(𝐶)
𝐸4 = 𝐶 = 𝑑𝐿𝑛(𝐶 ) × = × 𝑌 = 𝑏4 𝑌
𝑑𝑌 𝑑𝑌 𝑑𝑌
𝑌
E4 augmente quand le revenu augmente
M5 : 𝐶 = 𝑎5 + 𝑏5 𝐿𝑛(𝑌), 𝑏5 > 0
𝑑𝐶 𝑑𝐶
𝑑𝐶 1 𝑑𝐶 1
𝐸5 = 𝐶 = 𝐶 = × = ×
𝑑𝑌 𝑑𝐿𝑛(𝑌) 𝐶 𝑑𝐿𝑛(𝑌) 𝑑𝐿𝑛(𝑌) 𝐶
𝑌
𝑏5
𝐸5 =
𝐶
E5 baisse quand le revenu augmente.
Les modèles 1,2, et 4 ne traduisent pas fidèlement la théorie économique au regard de
l’évolution des élasticités-revenu dérivées de ces modèles. Les modèles 3 et 5 traduisent
fidèlement la théorie économique dans le sens que l’évolution de l’élasticité-revenu
dérivée de ces modèles est conforme à notre attente théorique.
10
Les données transversales sont des données collectées sur un échantillon d’individus, de
ménages, de firmes, des régions etc. à un point donné du temps. Exemple : les données
sur le revenu des ménages burkinabè en 2017. Donc on a plusieurs entités et une seule
année. Il est important de noter qu’il faut utiliser un échantillon aléatoire pour éviter des
problèmes de biais lorsqu’on fait de l’économétrie. Les données en coupe instantanée
sont très utilisées en économie surtout en microéconomie appliquée (marché du travail,
organisation industrielle, économie spatiale, économie de la santé, …).
Exemple : Taille de 5 personnes adultes choisie aléatoirement dans la rue hier
Personne A B C D E
Education 1,60 1,45 1,97 1,70 1,75
Les séries temporelles encore appelées séries chronologiques sont des données
collectées sur indicateur relatif à un pays (exemple : PIB) ou un individu/une firme
(salaire/quantité produite) sur une longue période (exemple : 50 ans). Donc on a une
entité et plusieurs années ou périodes de temps. Cela fait que ces données sont rarement
indépendantes au cours du temps, complexifiant ainsi les analyses. Les fréquences
possibles sont : annuel, trimestriel, hebdomadaire, journalier. Les séries temporelles sont
très utilisées en macroéconomie et en finance.
Exemple : PIB/habitant du Burkina les sept dernières années
Année PIB
2013 $709,07
2014 $713,46
2015 $613,04
2016 $649,73
2017 $664
2018 $715,12
2019 $744
Les données de panel consistent en des séries temporelles pour chaque unité
d’observation (individu, ménage, firme…). C’est donc la combinaison des deux autres
types de données. Ici, la même unité est observée plusieurs fois au cours du temps.
Année Pays Incidence de la pauvreté
2013 Kanga 45,3%
11
2014 Kanga 48,9%
2013 Sèdurie 71,2%
2014 Sèdurie 69,5%
12
Figure 1 : Schéma de la démarche économétrique
Théorie économique
Spécification
Modèle économétrique
Données
Tests de spécification
Utilisation
Utilisation du modèle: prédiction et
analyse de politique économique
13
I-3 Construction de modèle économétrique
𝐶 = 𝑓(𝑌, 𝑃, 𝑍) = 𝑐(𝑌, 𝑃, 𝑍)
Supposons que la forme fonctionnelle de la relation est donnée par :
𝐶 = 𝑎 + 𝑏𝑌 + 𝑑𝑃 + 𝑔(𝑍)
Dans cette relation de la connaissance de a, b, d ; la connaissance de niveau de Y, P, Z et
la connaissance de la fonction g détermine de manière exacte la consommation C, une telle
relation déterministe désigne un modèle économique.
Un modèle économique est un ensemble d’hypothèses qui décrivent de manière exacte les
comportements d’une économie, d’un secteur de l’économie ou d’un agent économique.
Il se caractérise par la nature exacte de la relation entre les variables qui suffisent à
expliquer ou à déterminer le phénomène étudié.
Dans un modèle économétrique, la connaissance de a, b, d, Y, Z et de la fonction g n’est
pas suffisante pour déterminer le niveau de la consommation C. D’autres facteurs omis ou
non observables interviennent dans la détermination ou l’explication de la consommation
C. Le modèle économétrique prend en compte les facteurs non observables à travers un
terme de perturbation aléatoire note ε (epsilon). Le modèle économétrique s’écrit alors :
𝐶 = 𝑎 + 𝑏𝑌 + 𝑑𝑃 + 𝑔(𝑍) + 𝜀
Un modèle économétrique consiste essentiellement en deux composantes :
14
- Première composante : une équation ou un ensemble d’équations dérivées du
modèle économique et comportant des variables observées, une ou des variables
aléatoires représentées par le terme de perturbation.
- Deuxième composante : une distribution du terme de perturbation aléatoire
15
I-3-3 Types de modèles économétriques
Selon le type de données, on distingue des modèles de séries temporelles, des modèles
des données en coupe instantanée, et des modèles de panel.
Selon la forme fonctionnelle on peut avoir des modèles linéaires ou des modèles non-
linéaires.
Parmi les modèles non-linéaires, on peut avoir des modèles spécifiques tels que les
modèles à élasticité constante et des modèles à élasticité de substitution constante.
Selon le nombre de variables explicatives, on a des modèles de régression simple et des
modèles de régression multiple.
Selon le nombre de variables expliquées, on a des modèles à une équation et des modèles
à plusieurs équations encore appelés des modèles à équation simultanées.
Selon la nature de la variable expliquée, on a des modèles à variables dépendantes
quantitatives, des modèles à variables dépendantes qualitatives binaires et des modèles à
variables dépendantes limitées.
Selon la différence de rang entre les variables explicatives et la variable expliquée on
peut avoir des modèles de décalage temporel et des modèles d’anticipation.
Exemple 1 : Dans un article célèbre publie en 1968, l’économiste américain Gary Becker
(prix Nobel 1992) a utilisé la théorie de maximisation de l’utilité pour expliquer la
participation d’individus a des activités criminelles. Certains crimes ont des bénéfices
économiques indéniables, mais la plupart des crimes ont des couts.
1. Identifier sept variables susceptibles d’influencer la participation à des activités
criminelles
2. Formuler les modèles économique et économétrique en expliquant la participation
à des activités criminelles par les sept variables identifiées (forme fonctionnelle
linéaire)
3. Donner le sens théoriquement attendu de l’influence de chaque variable
explicative
4. Indiquer les sources des informations permettant d’obtenir des observations sur
des variables du modèle.
16
Exemple 2 : Un économiste du travail voudrait analyser l’impact de la formation
professionnelle sur la productivité des travailleurs.
1. Proposer un indicateur pour mesurer de la productivité des travailleurs
2. Identifier trois facteurs susceptibles d’influer sur la productivité des travailleurs
3. Formuler les modèles économique et économétrique en expliquant productivité
des travailleurs par les trois variables identifiées (forme fonctionnelle linéaire)
4. Donner le sens théoriquement attendu de l’influence de chaque variable
explicative
Exemple 3 : Supposer qu’on a un échantillon d’entreprises qui désirent améliorer leurs
chiffres d’affaires.
1. Identifier deux variables susceptibles d’impacter le chiffre d’affaire
2. Formuler les modèles économique et économétrique
5. Donner le sens théoriquement attendu de l’influence de chaque variable
explicative
17
Chapitre II : Théorie de la corrélation
18
Corrélation linéaire positive Corrélation linéaire négative
15 15
10 10
Y Y
5 5
0 0
0 2 4 6 8 0 2 4 6 8
X X
19
Absence de corrélation Corrélation non linéaire
4.5 3.5
4 3
3.5 2.5
3
2.5 2
Y Y
2 1.5
1.5
1
1
0.5 0.5
0 0
0 2 4 6 8 0 2 4 6 8
X X
Tableau 1
Le tableau suivant donne les informations sur la rentabilité Y (milliers CFA) et le nombre
d’années d’expérience X du gérant pour 10 fermes agricole :
Ferme 1 2 3 4 5 6 7 8 9 10
Y 150 100 238 450 123 201 330 306 175 407
X 5 3 4 12 3 7 9 8 6 10
Tableau 2
Les données suivantes sur le salaire annuel (Y) et l’expérience (X) de 10 travailleurs du
secteur privé ont été collectées :
Travailleur 1 2 3 4 5 6 7 8 9 10
Y 63 55 39 53 56 41 48 44 42 58
X 18 28 24 23 26 23 20 20 19 20
Tableau 3
Ce tableau présente des données sur la demande de monnaie en milliards de dollars (Y) et
le taux d’intérêt (X)
20
Y 10 8 6 5 5 4 2 1 1
X 1 1 2 2 3 4 7 8 14
Représenter les nuages de points pour chaque tableau et déterminer la forme et le sens de
présumé de la corrélation entre Y et X.
∑ 𝑌𝑖 𝑋𝑖 − 𝑛𝑌̅𝑋̅
𝜌𝑦𝑥 = (4)
√∑ 𝑌𝑖2 − 𝑛𝑌̅ 2 √∑ 𝑋𝑖2 − 𝑛𝑋̅ 2
Interprétation de ρ
21
Pour interpréter le coefficient de corrélation il faut prendre en considération le sens de la
relation, l’intensité de la relation et la conformité théorique de la relation.
Sens de la relation
- ρ > 0 → corrélation positive
- ρ < 0 → corrélation négative
- ρ = 0 → absence de corrélation linéaire
Intensité de la relation
- ρ2yx = 0 → absence de corrélation linéaire
- 0 < ρ2yx < 0,5 → faible corrélation linéaire
- 0,5 ≤ ρ2yx < 0,8 → corrélation linéaire moyenne
- 0,8 < ρ2yx < 1 → corrélation linéaire forte
- ρ2yx = 1 → corrélation linéaire parfaite
Conformité théorique
Il s’agit de dire si le sens ou l’intensité de la relation est conforme à la théorie
économique.
Tableau 4
Y= quantité vendue d’un produit
X= prix du produit
Y 10 20 50 40 50 60 80 90 90 120
X 2 4 6 8 10 12 14 16 18 20
22
la nécessité de retirer l’influence de ces autres phénomènes pour obtenir une
corrélation nette entre les deux phénomènes considérés.
- Les variables ou les phénomènes considérés dans la corrélation simple sont
supposées normalement distribuées. Cela ne n’est pas toujours le cas d’où la
nécessité de calculer d’autres types de coefficient de corrélation tels que les
coefficients de corrélation de rang.
- L’existence d’une corrélation entre deux phénomènes n’implique pas
nécessairement l’existence d’une relation de causalité.
𝑌̂ = 𝑏𝑜 + 𝑏1 𝑋1 + 𝑏2 𝑋2 + ⋯ + 𝑏𝑘 𝑋𝑘
(𝑠𝑏0 )(𝑠𝑏1 )(𝑠𝑏2 ) … (𝑠𝑏𝑘 )
{𝑡0 }{𝑡1 }{𝑡2 } … {𝑡𝑘 }
Le modèle estimé est ainsi obtenu. Les valeurs entre parenthèses à savoir le sbj
représentent les erreurs types des estimateurs bj.
Les valeurs entre crochets à savoir les tj représentent les statistiques de Student associé
aux estimateurs bj sous hypothèse de nullité de βj
𝑏𝑗
𝑡𝑗 =
𝑠𝑏𝑗
Le coefficient corrélation partielle entre Y et Xj, l’influence des autres variables Xi (i≠j)
étant retirée, est obtenu par la relation suivante :
2
𝑡𝑗2
𝜌𝑦𝑥 . (𝑎𝑢𝑡𝑟𝑒𝑠 𝑥𝑖 , 𝑖 ≠ 𝑗) = 2
𝑗
𝑡𝑗 + (𝑛 − (𝑘 + 1))
24
Avec n=taille de l’échantillon
k=nombre de variables explicatives
Remarque :
−1 ≤ 𝜌𝑦𝑥 . (𝑎𝑢𝑡𝑟𝑒𝑠 𝑥) ≤ 1
25
concordants selon que les candidates occupent plus ou moins les mêmes rangs ou
occupent des rangs divergents dans les deux classements.
𝑛 ∑ 𝑌𝑖 𝑋𝑖 − ∑ 𝑌𝑖 ∑ 𝑋𝑖
𝜌𝑠 =
√𝑛 ∑ 𝑌𝑖2 − (∑ 𝑌𝑖 )2 √𝑛 ∑ 𝑋𝑖2 − (∑ 𝑋𝑖 )2
Yi et Xi étant les rangs de l’élément i dans les ensembles Y et X, les valeurs possibles des
Yi et des Xi vont de 1 à n. Alors :
𝑛(𝑛 + 1)
∑ 𝑌𝑖 = 1 + 2 + 3 + ⋯ + 𝑛 =
2
𝑛(𝑛 + 1)
∑ 𝑋𝑖 = 1 + 2 + 3 + ⋯ + 𝑛 =
2
𝑛(𝑛 + 1)(2𝑛 + 1)
∑ 𝑌𝑖2 = 12 + 22 + 32 + ⋯ + 𝑛2 = = ∑ 𝑋𝑖2
6
Soit la di différence de rang de l’élément i dans les deux classements :
𝑑𝑖 = 𝑌𝑖 − 𝑋𝑖
Calculons :
26
6 ∑ 𝑑𝑖2
En remplaçant chaque composante de la formule de ρs on obtient : 𝜌𝑠 = 1 −
𝑛(𝑛 2 −1)
27
II-5 Exercices d’application
1) Le tableau suivant présente des observations sur le nombre d’actifs du ménage (Y)
et la taille du ménage (X).
Ménage 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Y 3 5 11 3 4 5 3 2 2 4 5 5 8 3
X 5 7 13 3 9 10 8 5 6 5 8 5 10 8
Calculer le coefficient de corrélation simple entre Y et X (ρyx)
28
Chapitre III : Le modèle de régression linéaire simple
III-1 Spécification de la relation
La prise en compte des facteurs autres que X qui influencent Y. Ces facteurs sont
considérés comme non identifiables.
La prise en compte du comportement aléatoire des agents économiques
La correction des erreurs de spécification fonctionnelle du modèle (c’est le cas par
exemple si la forme n’est pas linéaire)
La prise en compte des erreurs de mesure des variables notamment celles des
variables à expliquer. Ce point ne peut pas être maitrisé comme les autres car il est
aléatoire
29
Le terme de perturbation aléatoire permet en outre la conduite des inférences dans
le modèle.
𝐶𝑜𝑣(𝜀𝑖 , 𝜀𝑗 ) = 0 ∀ 𝑖 ≠ 𝑗
H5 : Indépendance entre ε et X
ε et X sont indépendants ce qui permettra de remarquer que la covariance εi et Xj est
égale à zéro quel que soit i et j.
𝐶𝑜𝑣(𝜀𝑖 , 𝑋𝑗 ) = 0 ∀ 𝑖, 𝑗
30
Implication des hypothèses
𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝜀𝑖 (2)
H2 → 𝐸(𝑌𝑖 ) = 𝛽1 + 𝛽2 𝑋𝑖
H3 et H5 → 𝑉 (𝑌𝑖 ) = 𝜎 2
𝑉 (𝑌𝑖 ) = 𝑉 (𝛽1 + 𝛽2 𝑋𝑖 + 𝜀𝑖 ) = 𝑉(𝛽1 + 𝛽2 𝑋𝑖 ) + 𝑉(𝜀𝑖 ) + 2𝑐𝑜𝑣(𝛽1 + 𝛽2 𝑋𝑖 , 𝜀𝑖 )
= 𝜎 2 + 2𝑐𝑜𝑣(𝛽2 𝑋𝑖 , 𝜀𝑖 ) = 𝜎 2 + 2𝛽2 𝑐𝑜𝑣(𝑋𝑖 , 𝜀𝑖 )
𝑉(𝑌𝑖 ) = 𝜎 2
H2 et H5 → 𝐸 (𝜀𝑖 , 𝑋𝑖 ) = 0
H5 → 𝐶𝑜𝑣 (𝜀𝑖 , 𝑋𝑖 ) = 0
𝐶𝑜𝑣 (𝜀𝑖 , 𝑋𝑖 ) = 𝐸[(𝜀𝑖 − 𝐸(𝜀𝑖 )(𝑋𝑖 − 𝐸 (𝑋𝑖 )]
𝐶𝑜𝑣 (𝜀𝑖 , 𝑋𝑖 ) = 𝐸[𝜀𝑖 (𝑋𝑖 − 𝐸 (𝑋𝑖 )]
𝐶𝑜𝑣 (𝜀𝑖 , 𝑋𝑖 ) = 𝐸(𝜀𝑖 𝑋𝑖 ) − 𝐸[𝜀𝑖 𝐸 (𝑋𝑖 )]
31
II-4-1 Le coefficient de corrélation de rang de Spearman
Soient Y et X deux ensembles à classer. Soient Yi et Xi le rang du iième élément dans
chaque ensemble composé de n éléments. Le coefficient de corrélation de rang de
Spearman s’obtient par la formule suivante :
∑ 𝑌𝑖 𝑋𝑖 − 𝑛𝑌̅𝑋̅
𝜌𝑠 =
√∑ 𝑌𝑖2 − 𝑛𝑌̅ 2 √∑ 𝑋𝑖2 − 𝑛𝑋̅ 2
𝑛 ∑ 𝑌𝑖 𝑋𝑖 − ∑ 𝑌𝑖 ∑ 𝑋𝑖
𝜌𝑠 =
√𝑛 ∑ 𝑌𝑖2 − (∑ 𝑌𝑖 )2 √𝑛 ∑ 𝑋𝑖2 − (∑ 𝑋𝑖 )2
Yi et Xi étant les rangs de l’élément i dans les ensembles Y et X, les valeurs possibles des
Yi et des Xi vont de 1 à n. Alors :
𝑛(𝑛 + 1)
∑ 𝑌𝑖 = 1 + 2 + 3 + ⋯ + 𝑛 =
2
𝑛(𝑛 + 1)
∑ 𝑋𝑖 = 1 + 2 + 3 + ⋯ + 𝑛 =
2
𝑛(𝑛 + 1)(2𝑛 + 1)
∑ 𝑌𝑖2 = 12 + 22 + 32 + ⋯ + 𝑛2 = = ∑ 𝑋𝑖2
6
Soit la di différence de rang de l’élément i dans les deux classements :
𝑑𝑖 = 𝑌𝑖 − 𝑋𝑖
Calculons :
32
En présence de nœuds c’est-à-dire d’ex aequo, on modifie la formule du coefficient de
corrélation de rang de la manière suivante :
6(∑ 𝑑𝑖2 + 𝑇)
𝜌𝑠 = 1 −
𝑛(𝑛2 − 1)
𝑌̂𝑖 = 𝑏1 + 𝑏2 𝑋𝑖 (3)
Du model (2) on peut écrire :
𝜀𝑖 = 𝑌𝑖 − 𝛽1 − 𝛽2 𝑋𝑖 (4)
Des modèles (2) et (3) on peut écrire :
𝑒𝑖 = 𝑌𝑖 − 𝑌̂𝑖
ei étant l’erreur d’estimation de Yi
𝑒𝑖 = 𝑌𝑖 − 𝑏1 − 𝑏2 𝑋𝑖 (5)
εi est l’erreur liée à la population
ei est l’erreur liée à l’échantillon
Utilisation de l’hypothèse de nullité de l’espérance des εi
33
Au niveau de la population
𝐸 (𝜀𝑖 ) = 0 ∀ 𝑖
Au niveau de l’échantillon
1
∑ 𝑒𝑖 = 0
𝑛
1
∑ 𝑒𝑖 = 0 → ∑ 𝑒𝑖 = 0
𝑛
Donc ∑(𝑌𝑖 − 𝑏1 − 𝑏2 𝑋𝑖 ) = 0
∑ 𝑌𝑖 − 𝑛𝑏1 − 𝑏2 ∑ 𝑋𝑖 = 0 (𝑎)
1 1
∑ 𝑌𝑖 − 𝑏1 − 𝑏2 ∑ 𝑋𝑖 = 0
𝑛 𝑛
𝑌̅ − 𝑏1 − 𝑏2 𝑋̅ = 0
𝑏1 = 𝑌̅ − 𝑏2 𝑋̅ (𝑏)
Utilisation de H5, Indépendance entre εi et Xi
Au niveau de la population 𝐶𝑜𝑣 (𝜀𝑖 , 𝑋𝑖 ) = 0 → 𝐸 (𝜀𝑖 𝑋𝑖 ) = 0
1
Au niveau de l’échantillon ∑ 𝑒𝑖 𝑋𝑖 = 0
𝑛
1
∑ 𝑒𝑖 𝑋𝑖 = 0 → ∑ 𝑒𝑖 𝑋𝑖 = 0
𝑛
En substituant ei on a :
∑(𝑌𝑖 − 𝑏1 − 𝑏2 𝑋𝑖 )𝑋𝑖 = 0
∑ 𝑌𝑖 𝑋𝑖 − 𝑏1 ∑ 𝑋𝑖 − 𝑏2 ∑ 𝑋𝑖2 = 0 (𝑐)
1 1
∑ 𝑌𝑖 𝑋𝑖 − 𝑏1 𝑋̅ − 𝑏2 ∑ 𝑋𝑖2 = 0 (𝑑)
𝑛 𝑛
34
∑ 𝑌𝑖 𝑋𝑖 − 𝑛𝑌̅𝑋̅ + 𝑛𝑏2 𝑋̅ 2 − 𝑏2 ∑ 𝑋𝑖2 = 0
Solutions
𝑏1 = 𝑌̅ − 𝑏2 𝑋̅
∑ 𝑌𝑖 𝑋𝑖 − 𝑛𝑌̅𝑋̅ ∑(𝑌𝑖 − 𝑌̅)(𝑋𝑖 − 𝑋̅)
𝑏2 = =
∑ 𝑋𝑖2 − 𝑛𝑋̅ 2 ∑(𝑋𝑖 − 𝑋̅)2
b1 et b2 obtenus par la méthode des moments sont appelés estimateurs des moments de β1
et β2 respectivement.
35
𝜕𝑆(𝑏1 , 𝑏2 ) 𝜕 (∑(𝑌𝑖 − 𝑏1 − 𝑏2 𝑋𝑖 )2 )
=0 →
𝜕𝑏2 𝜕𝑏2
𝜕𝑆(𝑏1 , 𝑏2 )
= −2 ∑(𝑌𝑖 − 𝑏1 − 𝑏2 𝑋𝑖 ) = 0
𝜕𝑏1
𝜕𝑆(𝑏1 , 𝑏2 )
= −2 ∑ 𝑋𝑖 (𝑌𝑖 − 𝑏1 − 𝑏2 𝑋𝑖 ) = 0
𝜕𝑏2
−2 ∑(𝑌𝑖 − 𝑏1 − 𝑏2 𝑋𝑖 ) = 0 → ∑(𝑌𝑖 − 𝑏1 − 𝑏2 𝑋𝑖 ) = 0
→ ∑ 𝑌𝑖 − 𝑛𝑏1 − 𝑏2 ∑ 𝑋𝑖 = 0 (𝑒)
−2 ∑ 𝑋𝑖 (𝑌𝑖 − 𝑏1 − 𝑏2 𝑋𝑖 ) = 0 → ∑ 𝑋𝑖 (𝑌𝑖 − 𝑏1 − 𝑏2 𝑋𝑖 ) = 0
→ ∑ 𝑋𝑖 𝑌𝑖 − 𝑏1 ∑ 𝑋𝑖 − 𝑏2 ∑ 𝑋𝑖2 = 0 (𝑓)
𝑏1 = 𝑌̅ − 𝑏2 𝑋̅
b1 et b2 estimateurs de β1 et β2 par la méthode des moindres carrés sont appelés
estimateurs des moindres carrés de β1 et β2 respectivement et sont identiques à ceux de la
méthode des moments.
36
𝑌𝑖 ~𝑁(𝛽1 + 𝛽2 𝑋𝑖 , 𝜎 2 )
La fonction de densité de probabilité des Yi est :
1 1 𝑌𝑖 −𝛽1 −𝛽2 𝑋𝑖 2
𝑓 (𝑌𝑖 ) = 𝑒 −2( 𝜎
)
𝜎√2𝜋
1 −
1
(𝜀 )2
𝑓(𝑌𝑖 ) = 𝑒 2𝜎2 𝑖
𝜎√2𝜋
La procédure d’estimation consiste d’abord à construire la fonction de vraisemblance
associée aux Yi puis à maximiser cette fonction de vraisemblance pour dériver les
estimateurs b1 et b2.
Fonction de densité jointe des Yi
𝑓(𝑌1 , 𝑌2 , … , 𝑌𝑛 ) n étant la taille de l’échantillon
𝑛
1 −
1
(𝜀 )2 1 −
1
(𝜀 )2
𝑓(𝑌1 , 𝑌2 , … , 𝑌𝑛 ) = ∏ 𝑓(𝑌𝑖 ) = ∏( 𝑒 2𝜎2 𝑖 ) = ∏( ) ∏ (𝑒 2𝜎2 𝑖 )
𝑖=1
𝜎√2𝜋 𝜎√2𝜋
1 1
− 2 ∑ 𝜀𝑖2
𝑓(𝑌1 , 𝑌2 , … , 𝑌𝑛 ) = ( )𝑛 𝑒 2𝜎
𝜎√2𝜋
1 1
− 2 ∑(𝑌𝑖 −𝛽1 −𝛽2 𝑋𝑖 )2
𝑓(𝑌1 , 𝑌2 , … , 𝑌𝑛 ) = ( )𝑛 𝑒 2𝜎
𝜎√2𝜋
Fonction de vraisemblance obtenue de la distribution des Yi
1 1
− 2 ∑(𝑌𝑖 −𝛽1 −𝛽2 𝑋𝑖 )2
𝐿(𝛽1 , 𝛽2 , 𝜎 2 ) = ( )𝑛 𝑒 2𝜎
𝜎√2𝜋
Si b1 et b2 maximisent la fonction de vraisemblance 𝐿(𝛽1 , 𝛽2 , 𝜎 2 ) alors b1 et b2
maximisent aussi Ln (𝐿(𝛽1 , 𝛽2 , 𝜎 2 )), le logarithme naturel de la fonction de
vraisemblance.
Maximisation de Ln (𝐿(𝛽1 , 𝛽2 , 𝜎 2 ))
1 1
Ln (𝐿(𝛽1 , 𝛽2 , 𝜎 2 )) = 𝑛𝐿𝑛 ( )− ∑(𝑌𝑖 − 𝛽1 − 𝛽2 𝑋𝑖 )2
𝜎√2𝜋 2𝜎 2
37
𝜕Ln (𝐿(𝛽1 , 𝛽2 , 𝜎 2 )) 2
= 2 ∑(𝑌𝑖 − 𝑏1 − 𝑏2 𝑋𝑖 ) = 0
𝜕𝛽1 2𝜎
𝜕Ln (𝐿(𝛽1 , 𝛽2 , 𝜎 2 )) 2
= 2 ∑ 𝑋𝑖 (𝑌𝑖 − 𝑏1 − 𝑏2 𝑋𝑖 ) = 0
𝜕𝛽2 2𝜎
𝑏1 = 𝑌̅ − 𝑏2 𝑋̅
b1 et b2 estimateurs de β1 et β2 par la méthode du maximum de vraisemblance sont
appelés estimateurs du maximum de vraisemblance de β1 et β2 respectivement.
Remarques
On peut écrire b2, l’estimateur de la variable explicative (encore appelée pente) en
fonction du coefficient de corrélation linéaire entre Y et X.
En rappel le coefficient de corrélation linéaire entre Y et X est :
𝑐𝑜𝑣 (𝑌, 𝑋)
𝜌𝑦𝑥 =
√𝑉(𝑌)√𝑉(𝑋)
∑𝑛𝑖=1 𝑌𝑖 𝑋𝑖 − 𝑛𝑌̅𝑋̅
𝑏2 = 𝑛
∑𝑖=1 𝑋𝑖2 − 𝑛𝑋̅ 2
̂ 𝑋)
𝑐𝑜𝑣(𝑌,
𝑏2 =
̂2
𝜎 𝑋
𝜎
̂𝑌
𝑏2 = 𝜌𝑦𝑥 ×
𝜎
̂𝑋
38
Donc la pente de la droite de régression est égale au produit entre corrélation linéaire
entre Y et X et du ratio des écart-type de Y et de X
On montre que : 𝜌𝑦𝑥 2 = 𝑅2
𝑌 = 𝑒 𝛽2𝑋 𝑒 𝜀 → 𝑌̂ = 𝑎𝑒 𝑏2𝑋
𝐿𝑛(𝑌) = 𝐿𝑛(𝛼) + 𝛽2 𝑋 + 𝜀
Posons 𝑍 = 𝐿𝑛(𝑌) 𝑒𝑡 𝛽1 = 𝐿𝑛(𝛼)
𝑍 = 𝛽1 + 𝛽2 𝑋 + 𝜀
Soient b1 et b2 les estimateurs de β1 et β2, a estimateur de α → 𝑏1 = 𝐿𝑛(𝑎) → 𝑎 = 𝑒 𝑏1
Exemple 2
𝑌 = 𝛽1 + 𝛽2 𝐿𝑛(𝑋) + 𝜀
Posons W=Ln(X)
𝑌 = 𝛽1 + 𝛽2 𝑊 + 𝜀
𝑌̂ = 𝑏1 + 𝑏2 𝑊 + 𝜀
𝑌̂ = 𝑏1 + 𝑏2 𝐿𝑛(𝑋) + 𝜀
Exemple 3
39
𝛽2
𝑌 = 𝛽1 + +𝜀
𝑋
1
Posons 𝑊 =
𝑋
𝑌 = 𝛽1 + 𝛽2 𝑊 + 𝜀
Exemple 4
𝑌 = 𝛼𝑋𝛽2 𝑒 𝜀
𝐿𝑛(𝑌) = 𝐿𝑛(𝛼) + 𝛽2 𝐿𝑛(𝑋) + 𝜀
Posons Z = Ln(Y) et W = Ln(X)
𝛽1 = 𝐿𝑛(𝛼)
𝑍 = 𝛽1 + 𝛽2 𝑊 + 𝜀
𝑍̂ = 𝑏1 + 𝑏2 𝑊
̂ = 𝑎1 + 𝑎2 𝑍
𝑊
∑ 𝑍𝑖 𝑊𝑖 − 𝑛𝑍̅𝑊
̅
𝑏2 =
∑ 𝑊𝑖2 − 𝑛𝑊 ̅2
𝑏1 = 𝑍̅ − 𝑏2 𝑊
̅
̅ 𝑍̅
∑ 𝑊𝑖 𝑍𝑖 − 𝑛𝑊
𝑎2 =
∑ 𝑍𝑖2 − 𝑛𝑍̅ 2
40
̅ − 𝑏2 𝑍̅
𝑎1 = 𝑊
Le modèle (i) est appelé régression directe et le modèle (ii) est appelle régression inverse.
Remarque
2
𝑎2 𝑏2 = 𝜌𝑧𝑤
Exercice 2
Y=Nombre d’actif du ménage
X= taille du ménage
41
Ménage 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Y 6 3 6 4 4 4 5 5 4 3 3 4 4 3
X 11 7 11 8 7 4 8 7 6 6 6 8 6 7
Ménage 15 16 17 18 19 20 21 22 23 24 25 26 27 28
Y 3 5 11 3 4 5 3 2 2 4 5 5 8 3
X 5 7 13 3 9 10 8 5 6 5 8 5 10 8
Exercice 4
Développer en supprimant les dernières parenthèses
42
1- 𝑆𝑦𝑦 = ∑(𝑌𝑖 − 𝑌̅)2 = ∑(𝑌𝑖 − 𝑌̅)(𝑌𝑖 − 𝑌̅)
2- 𝑆𝑥𝑥 = ∑(𝑋𝑖 − 𝑋̅)2 = ∑(𝑋𝑖 − 𝑋̅)(𝑋𝑖 − 𝑋̅)
3- 𝑆𝑦𝑥 = ∑(𝑌𝑖 − 𝑌̅)(𝑋𝑖 − 𝑋̅)
4- 𝑆𝑥𝑦 = ∑(𝑋𝑖 − 𝑋̅)(𝑌𝑖 − 𝑌̅)
43
Chapitre IV : Inférences dans le modèle de régression linéaire simple
𝑆𝑥𝑥 = ∑(𝑋𝑖 − 𝑋̅ )2
On montre que :
44
∑ 𝑌𝑖 (𝑋𝑖 − 𝑋̅) 1 1 𝑋𝑖 − 𝑋̅
𝑏2 = = ∑ 𝑌𝑖 (𝑋𝑖 − 𝑋̅) = ∑ 𝑌𝑖 (𝑋𝑖 − 𝑋̅) = ∑ 𝑌𝑖
𝑆𝑥𝑥 𝑆𝑥𝑥 𝑆𝑥𝑥 𝑆𝑥𝑥
𝑋𝑖 − 𝑋̅
𝑏2 = ∑ 𝑐𝑖 𝑌𝑖 𝑎𝑣𝑒𝑐 𝑐𝑖 =
𝑆𝑥𝑥
𝑏2 = 𝑐1 𝑌1 + 𝑐2 𝑌2 + ⋯ + 𝑐𝑛 𝑌𝑛
b2 est une combinaison linéaire des Yi avec ci comme coefficient de pondération.
Donc b2 est une variable aléatoire puisque les Yi sont des variables aléatoires.
Montrons que b1 est une variable aléatoire
1 1
𝑏1 = 𝑌̅ − 𝑏2 𝑋̅ = ∑ 𝑌𝑖 − 𝑋̅ ∑ 𝑐𝑖 𝑌𝑖 = ∑ (∑ − 𝑋̅𝑐𝑖 ) 𝑌𝑖
𝑛 𝑛
1
𝑏1 = ∑ 𝑑𝑖 𝑌𝑖 𝑎𝑣𝑒𝑐 𝑑𝑖 = − 𝑋̅𝑐𝑖
𝑛
b1 est une variable aléatoire car combinaison linéaire des Yi qui sont des variables
aléatoires
𝐸(𝑏𝑗 ) = 𝛽𝑗
= 𝛽1 ∑ 𝑐𝑖 + 𝛽2 ∑ 𝑐𝑖 𝑋𝑖
𝑋𝑖 − 𝑋̅ 1 1
∑ 𝑐𝑖 = ∑ = ∑(𝑋𝑖 − 𝑋̅) = (∑ 𝑋𝑖 − ∑ 𝑋̅) = 0
𝑆𝑥𝑥 𝑆𝑥𝑥 𝑆𝑥𝑥
∑(𝑋𝑖 − 𝑋̅) 1 1
∑ 𝑐𝑖 𝑋𝑖 = 𝑋𝑖 = ∑(𝑋𝑖 − 𝑋̅)𝑋𝑖 = 𝑆 =1
𝑆𝑥𝑥 𝑆𝑥𝑥 𝑆𝑥𝑥 𝑥𝑥
Donc 𝐸 (𝑏2 ) = 𝛽1 ∗ 0 + 𝛽2 ∗ 1 = 𝛽2
45
Par conséquent b2 est un estimateur sans biais de β2
Montrons que b1 est sans biais
+ 𝛽2 ∑ 𝑑𝑖 𝑋𝑖
1 1
∑ 𝑑𝑖 = ∑ ( − 𝑋̅𝑐𝑖 ) = ∑ − 𝑋̅ ∑ 𝑐𝑖 = 1 − 0 = 1
𝑛 𝑛
1 1
∑ 𝑑𝑖 𝑋𝑖 = ∑ ( − 𝑋̅𝑐𝑖 ) 𝑋𝑖 = ∑ 𝑋𝑖 − 𝑋̅ ∑ 𝑐𝑖 𝑋𝑖 = 𝑋̅ − 𝑋̅ = 0
𝑛 𝑛
Donc 𝐸 (𝑏1 ) = 𝛽1 ∗ 1 + 𝛽2 ∗ 0 = 𝛽1
Par conséquent b1 est un estimateur sans biais de β1.
2
𝑋𝑖 − 𝑋̅ ∑(𝑋𝑖 − 𝑋̅)2 1
2 2 2
𝑉 (𝑏2 ) = 𝜎 ∑ 𝑐𝑖 = 𝜎 ∑ ( ) =𝜎 2
2
= 𝜎 2
2
∑(𝑋𝑖 − 𝑋̅)2
𝑆𝑥𝑥 𝑆𝑥𝑥 𝑆𝑥𝑥
𝑆𝑥𝑥 𝜎2 𝜎2
𝑉 (𝑏2 ) = 𝜎2 2 = =
𝑆𝑥𝑥 𝑆𝑥𝑥 ∑(𝑋𝑖 − 𝑋̅)2
Variance de b1
2
1
𝑉 (𝑏1 ) = 𝑉 (∑ 𝑑𝑖 𝑌𝑖 ) = ∑ 𝑑𝑖2 𝑉(𝑌𝑖 ) =𝜎 2
∑ 𝑑𝑖2 2 ̅
= 𝜎 ∑ ( − 𝑋𝑐𝑖 )
𝑛
2
1 2
2 ̅ 2 2
= 𝜎 ∑ ( 2 + 𝑋 𝑐𝑖 − 𝑋𝑐𝑖 ) ̅
𝑛 𝑛
1 2
= 𝜎 2 (𝑛 ∗ 2 + 𝑋̅ 2 ∑ 𝑐𝑖2 − 𝑋̅ ∑ 𝑐𝑖 )
𝑛 𝑛
46
2
1 𝑋𝑖 − 𝑋̅ 1 ∑(𝑋𝑖 − 𝑋̅)2
2 ̅ 2
𝑉 (𝑏1 ) = 𝜎 ( + 𝑋 ∑ ( 2 ̅
) )=𝜎 ( + 𝑋 2
)
𝑛 𝑆𝑥𝑥 𝑛 2
𝑆𝑥𝑥
2
1 𝑋̅ 2
=𝜎 ( + )
𝑛 𝑆𝑥𝑥
2
1 𝑋̅ 2
( )
𝑉 𝑏1 = 𝜎 ( + )
𝑛 ∑(𝑋𝑖 − 𝑋̅ )2
1 1
𝐶𝑂𝑉 (𝑏1 , 𝑏2 ) = 𝜎 2 ∑( − 𝑋̅𝑐𝑖 )𝑐𝑖 = 𝜎 2 ( ∑ 𝑐𝑖 − 𝑋̅ ∑ 𝑐𝑖2 )
𝑛 𝑛
∑(𝑋 ̅
𝑖 − 𝑋)
2
= 𝜎 2 (−𝑋̅ 2
)
𝑆𝑥𝑥
𝑆𝑥𝑥
𝐶𝑂𝑉(𝑏1 , 𝑏2 ) = −𝑋̅𝜎 2 2
𝑆𝑥𝑥
Efficacité de b2
∑(𝑌𝑖 −𝑌̅ )(𝑋𝑖 −𝑋̅)
On sait que 𝑏2 = = ∑ 𝑐𝑖 𝑌𝑖
∑(𝑋𝑖 −𝑋̅)2
𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝜀𝑖
𝑌̅ = 𝛽1 + 𝛽2 𝑋̅ + 𝜀̅ = 𝛽1 + 𝛽2 𝑋̅
𝑦𝑖 = 𝑌𝑖 − 𝑌̅ = 𝛽2 (𝑋𝑖 − 𝑋̅) + 𝜀𝑖 = 𝛽2 𝑥𝑖 + 𝜀𝑖
𝐸(𝑦𝑖) = 𝐸 (𝛽2 𝑥𝑖 + 𝜀𝑖 ) = 𝛽2 𝑥𝑖
𝑉(𝑦𝑖) = 𝑉(𝛽2 𝑥𝑖 + 𝜀𝑖 ) = 𝜎 2
47
Soit 𝛽̂2 un estimateur quelconque de 𝛽2. Alors 𝛽̂2 peut s’écrire :
𝛽̂2 = ∑ 𝑎𝑖 𝑦𝑖
̂2 ) = 𝐸 (∑ 𝑎𝑖 𝑦𝑖 ) = ∑ 𝑎𝑖 𝐸 (𝑦𝑖 ) = 𝛽2 ∑ 𝑎𝑖 𝑥𝑖
𝐸(𝛽
̂2 ) = 𝛽2 si ∑ 𝑎𝑖 𝑥𝑖 = 1
𝐸(𝛽
̂2 )est minimale parmi les estimateurs sans biais de 𝛽2 si ∑ 𝑎𝑖2 est minimale sous la
𝑉(𝛽
condition
∑ 𝑎𝑖 𝑥𝑖 = 1
𝐿 = ∑ 𝑎𝑖2 − ℎ(∑ 𝑎𝑖 𝑥𝑖 − 1)
𝜕𝐿
L est minimale si = 0 → 2 ∑ 𝑎𝑖 − ℎ ∑ 𝑥𝑖 = 0
𝑎𝑖
ℎ
→ ∑ 𝑎𝑖 = ∑ 𝑥𝑖 (𝑎)
2
En multipliant par xi on a :
ℎ
∑ 𝑎𝑖 𝑥𝑖 = ∑ 𝑥𝑖2
2
ℎ 1 ℎ 2
→1= ∑ 𝑥𝑖2 = = → ℎ =
2 ∑ 𝑥𝑖2 2 ∑ 𝑥𝑖2
48
→ ∑ 𝑎𝑖 = ∑ 𝑐𝑖
∑ 𝑎𝑖 𝑦𝑖 = ∑ 𝑐𝑖 𝑦𝑖
→ 𝛽2 = 𝑏2
Donc b2 est un estimateur efficace de 𝛽2. On dit que b2 est BLUE : Best Linear
Unbiased Estimator
Première condition
Deuxième condition
lim 𝑉(𝑏𝑗 ) = 0
𝑛→∞
Si l’une de ces conditions est réunie, on dit que bj converge en probabilité vers βj.
b2 converge vers β2
𝜎2 1
lim 𝑉 (𝑏2 ) = lim ( ) = 𝜎 2 lim ( )=0
𝑛→∞ ̅)
𝑛→∞ ∑(𝑋𝑖 − 𝑋 2 ̅ )2
𝑛→∞ ∑(𝑋𝑖 − 𝑋
b1 converge vers β1
1 𝑋̅ 2 1 1
( ) 2
lim 𝑉 𝑏1 = lim [ 𝜎 ( + )] = 𝜎 2
{ lim ( ) + ̅ 2 lim (
𝑋 )}
𝑛→∞ 𝑛→∞ 𝑛 ∑(𝑋𝑖 − 𝑋̅)2 𝑛→∞ 𝑛 ̅ )2
𝑛→∞ ∑(𝑋𝑖 − 𝑋
=0
49
𝜎2
𝑏2 ~𝑁 (𝛽2 , )
∑(𝑋𝑖 − 𝑋̅)2
1
2
𝑋̅ 2
𝑏1 ~𝑁 (𝛽1 , 𝜎 ( + ))
𝑛 ∑(𝑋𝑖 − 𝑋̅)2
Notation :
𝜎2
𝜎𝑏22 = 𝑉 (𝑏2 ) =
∑(𝑋𝑖 − 𝑋̅)2
1 𝑋̅ 2
𝜎𝑏21 = 𝑉 (𝑏1 ) = 𝜎 2 ( + )
𝑛 ∑(𝑋𝑖 − 𝑋̅)2
Estimation de 𝜎 2
On sait que 𝜎 2 = 𝑉(𝜀𝑖 )
𝜎 2 est inconnu, les 𝜀𝑖 sont non observables. Si les 𝜀𝑖 étaient observables et la taille de la
population connue et égale à N, on aurait :
1 1
𝜎 2 = 𝑉 (𝜀𝑖 ) = ∑(𝜀𝑖 − 𝐸(𝜀𝑖 ))2 = ∑ 𝜀𝑖2
𝑁 𝑁
En considérant un échantillon de taille n on a l’erreur d’estimation
̂𝑖
𝑒𝑖 = 𝑌𝑖 − 𝑌
Comme ei est l’erreur d’estimation de 𝜀𝑖 , on peut dire que l’estimateur de 𝜎 2 est :
1
𝜎̂ 2 = ∑ 𝑒𝑖2
𝑁
𝜎̂ 2 est l’estimateur naturel de 𝜎 2 . Mais est-il le meilleur estimateur de 𝜎 2 ? 𝜎̂ 2 sera le
meilleur estimateur de 𝜎 2 s’il est sans biais et efficace. On sait que 𝜀𝑖 et ei ont la même
distribution.
𝜀𝑖 ~𝑁(0, 𝜎 2)
50
𝑒𝑖 ~𝑁(0, 𝜎 2 )
𝜀𝑖 −𝐸(𝜀𝑖 ) 𝜀𝑖
Donc = ~ 𝑁(0,1)
𝜎 𝜎
𝑒𝑖
~ 𝑁(0,1)
𝜎
De même :
𝜀𝑖 2 2 𝜀𝑖2
( ) ~𝛾 (1) → 2 ~𝛾 2 (1)
𝜎 𝜎
𝑒𝑖 2 2 𝑒𝑖2
( ) ~𝛾 (1) → 2 ~𝛾 2 (1)
𝜎 𝜎
𝜀𝑖2
∑𝑛𝑖=1 ~𝛾 2 (𝑛), il y a n 𝜀𝑖 indépendants dans la somme
𝜎2
𝑒𝑖2
∑𝑛𝑖=1 ~𝛾 2 (𝑛 − 2), il y a (n-2) 𝑒𝑖 indépendants dans la somme car β1 et β2 ont été
𝜎2
estimés.
𝑛 1
→ 2
∑ 𝑒𝑖2 ~𝛾 2 (𝑛 − 2)
𝜎 𝑛
𝜎̂ 2 2 2
𝜎2 2
→ 𝑛 2 ~𝛾 (𝑛 − 2) → 𝜎̂ ~ 𝛾 (𝑛 − 2)
𝜎 𝑛
𝜎2 𝜎2 𝜎2
D’où 𝐸 (𝜎̂ 2 ) = 𝐸 ( 𝛾 2 (𝑛 − 2) ) = 𝐸 ( 𝛾 2 (𝑛 − 2) ) = (𝑛 − 2)
𝑛 𝑛 𝑛
𝑛−2
𝐸 (𝜎̂ 2 ) = 𝜎 2 → 𝜎̂ 2 est biaisé
𝑛
51
𝑛 𝑛 1 1
𝑆2 = 𝜎̂ 2 = ∑ 𝑒𝑖2 = ∑ 𝑒𝑖2
𝑛−2 𝑛 −2𝑛 𝑛−2
Notation
𝑆2
𝑆𝑏22 = 𝑉̂
(𝑏2 ) =
∑(𝑋𝑖 − 𝑋̅ )2
1 𝑋̅ 2
𝑆𝑏21 = 𝑉̂
(𝑏1 ) = 𝑆 2 ( + )
𝑛 ∑(𝑋𝑖 − 𝑋̅)2
𝑋̅
𝐶𝑂𝑉̂
(𝑏1 𝑏2 ) = −𝑆 2
∑(𝑋𝑖 − 𝑋̅ )2
52
2
∑(𝑌𝑖 − 𝑌̅)2 = ∑ ((𝑌𝑖 − 𝑌
̂𝑖 ) + (𝑌̂𝑖 − 𝑌̅))
2 2
̂𝑖 ) + ∑(𝑌
= ∑(𝑌𝑖 − 𝑌 ̂𝑖 − 𝑌̅) + 2 ∑(𝑌𝑖 − 𝑌
̂𝑖 )(𝑌
̂𝑖 − 𝑌̅)
̂𝑖 − 𝑌̅)2 + 2 ∑ 𝑒𝑖 (𝑌
∑(𝑌𝑖 − 𝑌̅)2 = ∑ 𝑒𝑖2 + ∑(𝑌 ̂𝑖 − 𝑌̅)
̂𝑖 − 𝑌̅)
Calculons ∑ 𝑒𝑖 (𝑌
̂𝑖 − 𝑌̅) = ∑ 𝑒𝑖 𝑌
∑ 𝑒𝑖 (𝑌 ̂𝑖 − 𝑌̅ ∑ 𝑒𝑖 = ∑ 𝑒𝑖 (𝑏1 + 𝑏2 𝑋𝑖 ) = 𝑏1 ∑ 𝑒𝑖 + 𝑏2 ∑ 𝑒𝑖 𝑋𝑖 = 0
Cela implique :
̂𝑖 − 𝑌̅)2 + ∑ 𝑒𝑖2
∑(𝑌𝑖 − 𝑌̅)2 = ∑(𝑌
54
𝑅2
𝐹 = 𝑘 − 12
1−𝑅
𝑛−𝑘
Lorsqu’on a une seule variable explicative, F devient :
𝑅2
1 𝑅2
𝐹= =
1 − 𝑅2 1 − 𝑅2
𝑛−2 𝑛−2
Procédure de test
La procédure du test consiste à :
1- Construire la statistique du test à partir de la distribution de la statistique
concernée (F, b2, etc.)
2- Calculer la valeur empirique de la statistique sous l’hypothèse nulle Ho
3- Décider du rejet ou du non-rejet de l’hypothèse nulle Ho en comparant la
statistique appliquée sous Ho à la statistique théorique lue sur la table de la loi de
cette statistique au seuil alpha (α) du test
Sous H0, SCE est distribué selon un khi-deux à un degré de liberté et SCR selon un khi-
deux a n-2 degrés de liberté.
SCE ~ χ2(1)
SCR ~ χ2 (n − 2)
Cela implique que pour F nous avons :
55
𝜒2(1)
𝐹= 1
𝜒2 (𝑛 − 2)
𝑛−2
Sous H0, F est donc distribué selon une loi de Fisher à (1, n − 2) degrés de liberté.
La région critique du test, correspondant au rejet de H0, au risque α est définie pour les
valeurs élevées de F.
𝐹 > 𝐹1−𝛼 (1, 𝑛 − 2)
On peut aussi utiliser la décision à partir de la p-value. Dans la plupart des logiciels de
statistique, on fournit directement la probabilité critique (p-value) α ′, elle correspond à la
probabilité que la loi de Fisher dépasse la statistique calculée F.
Ainsi, la règle de décision au risque α devient :
𝜶′ < 𝜶
𝑏2 ~𝑁(𝛽2 , 𝜎𝑏22 )
𝑏2 − 𝐸(𝑏2 ) 𝑏2 − 𝛽2
𝑍2 = = ~𝑁(0,1)
𝜎𝑏2 𝜎𝑏2
𝑒𝑖2
∑ 2 ~𝛾 2 (𝑛 − 2)
𝜎
𝜎̂ 2 2
𝑛 ~𝛾 (𝑛 − 2)
𝜎2
𝑆2 2
(𝑛 − 2) 2 ~𝛾 (𝑛 − 2)
𝜎
56
𝑒𝑖 ~ 𝑁(𝐸 (𝜀𝑖 ), 𝑉(𝜀𝑖 ))
𝑆𝑏22
𝑏2 ~ 𝑁(𝛽2 , 𝜎𝑏22 ) → (𝑛 − 2) ~𝛾 2 (𝑛 − 2)
𝜎𝑏22
On construit :
𝑍2
𝑡2 = ~ 𝑡(𝑛 − 2)
𝑊
√ 2⁄(𝑛 − 2)
(𝑏2 − 𝛽2 )
(𝑏2 − 𝛽2 )/𝜎𝑏2 ⁄𝜎𝑏 𝑏2 − 𝛽2
2
𝑡2 = = =
𝑆𝑏2 𝑆𝑏2
𝑆𝑏22 ⁄𝜎𝑏
√(𝑛 − 2) 𝜎𝑏2⁄
2
2
(𝑛 − 2)
𝑏2 − 𝛽2
𝑡2 = ~ 𝑡(𝑛 − 2)
𝑆𝑏2
Décision du test :
Soit α le seuil du test, la valeur théorique de la statistique de Student lue sur la table de la
loi de Student est : 𝑡𝛼⁄2 (𝑛 − 2)
57
Si Ho n’est pas rejetée, alors β2 n’est pas significativement diffèrent de zéro au seuil α.
Donc la variable explicative X n’a pas une influence significative sur la variable Y au
seuil α.
En général le test de significativité du paramètre βj consiste à tester les hypothèses :
Ho : βj = 0
H1 : βj ≠ 0
𝑏𝑗 −𝛽𝑗
La statistique du test est : 𝑡𝑗 =
𝑆𝑏𝑗
𝑏𝑗
La statistique calculée sous Ho est : 𝑡𝑗 =
𝑆𝑏𝑗
Décision :
Si |𝑡𝑗 | > 𝑡𝛼⁄2 (𝑛 − 2), Ho est rejetée au seuil α
𝑏𝑗 −𝛽𝑗
La statistique du test est : 𝑡𝑗 =
𝑆𝑏𝑗
𝑏𝑗
La statistique calculée sous Ho est : 𝑡𝑗 =
𝑆𝑏𝑗
𝑏𝑗 −𝛽𝑗
La statistique du test est : 𝑡𝑗 =
𝑆𝑏𝑗
𝑏𝑗
La statistique calculée sous Ho est : 𝑡𝑗 =
𝑆𝑏𝑗
59
𝑏22 ∑𝑖 (𝑥𝑖 − 𝑥̅ )2 𝑏22
= =
𝜎̂𝜀2 𝜎̂𝜀2
∑𝑖(𝑥𝑖 − 𝑥̅ )2
2
𝑏22 𝑏2
= 2 =( )
𝜎̂𝑏2 𝜎̂𝑏2
𝐹 = 𝑡𝑏22
Donc on a :
𝜌𝑦𝑥 2
𝑡𝑏22 =
1 − 𝜌𝑦𝑥 2
𝑛−2
Ce résultat correspond au carré de la statistique utilisée pour le test de significativité du
coefficient de corrélation linéaire entre Y et X. Donc tester la significativité du
coefficient de corrélation linéaire entre Y et X revient à tester la significativité globale.
𝑏2 ~𝑁(𝛽2 , 𝜎𝑏22 )
𝑏2 − 𝐸(𝑏2 ) 𝑏2 − 𝛽2
= ~ 𝑁(0,1)
𝜎𝑏2 𝜎𝑏2
𝑏2 − 𝛽2
𝑡2 = ~ 𝑡(𝑛 − 2)
𝑆𝑏2
Alors on peut trouver pour tout seuil α une valeur critique Tc telle que :
𝛼
𝑃 (𝑡2 > 𝑇𝑐 ) = 𝑃(𝑡2 < −𝑇𝑐 ) =
2
En fait 𝑇𝑐 = 𝑡𝛼⁄2 (𝑛 − 2)
On alors :
𝛼
𝑃 (𝑡2 > 𝑡𝛼⁄2 (𝑛 − 2)) = 𝑃(𝑡2 < −𝑡𝛼⁄2 (𝑛 − 2) =
2
En remplaçant tj on obtient :
𝑏𝑗 − 𝛽𝑗
𝑃 (−𝑡𝛼⁄2 (𝑛 − 2) ≤ ≤ 𝑡𝛼⁄2 (𝑛 − 2)) = 1 − 𝛼
𝑆𝑏𝑗
61
𝐵 = 𝑏𝑗 + 𝑆𝑏𝑗 . 𝑡𝛼⁄2 (𝑛 − 2)
Alors :
Si 𝑑 ∈ [𝑎, 𝑏], Ho n’est pas rejetée
Si 𝑑 𝑛′ 𝑒𝑠𝑡 𝑝𝑎𝑠 𝑑𝑎𝑛𝑠 [𝑎, 𝑏], Ho est rejetée
IV-6-1 Prédiction de Y
Prédire Y consiste à déterminer le niveau attendu de Y pour un niveau donne de X.
𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝜀𝑖
Soit un niveau donné de X= Xo
A ce niveau de X, la vraie valeur de Y sera
𝑌0 = 𝛽1 + 𝛽2 𝑋0 + 𝜀0
Cette vraie valeur est inconnue car β1 et β2 sont inconnus et ε0 est non observable. Y0
inconnu peut être prédit par l’équation de prédiction
𝑌̂0 = 𝛽1 + 𝛽2 𝑋0
62
𝑒0 = 𝑌̂0 − 𝑌0 = (𝑏1 + 𝑏2 𝑋0 ) − (𝛽1 + 𝛽2 𝑋0 + 𝜀0 )
𝑒0 = (𝑏1 − 𝛽1 ) + (𝑏2 − 𝛽2 )𝑋0 − 𝜀0
Esperance de e0
𝐸 (𝑒0 ) = 𝐸 (𝑏1 ) − 𝛽1 + 𝑋0 𝐸 (𝑏2 ) − 𝑋0 𝛽2 − 𝐸(𝜀0 )
𝐸 (𝑒0 ) = 𝛽1 − 𝛽1 + 𝑋0 𝛽2 − 𝑋0 𝛽2 − 𝐸 (𝜀0 )
𝐸 (𝑒0 ) = 0
Variance de e0
𝑉 (𝑒0 ) = 𝑉((𝑏1 − 𝛽1 ) + (𝑏2 − 𝛽2 ) − 𝜀0 )
𝑉 (𝑒0 ) = 𝑉(𝑏1 − 𝛽1 ) + 𝑉(𝑏2 − 𝛽2 )𝑋0 + 𝑉 (−𝜀0 ) + 2 𝐶𝑂𝑉[(𝑏1 − 𝛽1 ), (𝑏2 − 𝛽2 )𝑋0 ]
+ 2𝐶𝑂𝑉[(𝑏1 − 𝛽1 ), −𝜀0 ] + 2𝐶𝑂𝑉[(𝑏2 − 𝛽2 )𝑋0 , −𝜀0 ]
2
1 𝑋̅ 2 2
𝜎2 2
−𝑋̅𝜎 2
𝑉 (𝑒0 ) = 𝜎 ( + ) + 𝑋𝑜 + 𝜎 + 2𝑋0 ( )
𝑛 ∑(𝑋𝑖 − 𝑋̅ )2 𝑆𝑥𝑥 𝑆𝑥𝑥
1 1
𝑉(𝑒0 ) = 𝜎 2 [1 + + (𝑋̅ 2 + 𝑋𝑜2 − 2𝑋0 𝑋̅]
𝑛 𝑆𝑥𝑥
2
1 (𝑋0 − 𝑋̅)2
𝑉 (𝑒0 ) = 𝜎 [1 + + ]
𝑛 ∑(𝑋𝑖 − 𝑋̅)2
Notation
𝑉 (𝑒0 ) = 𝜎𝑒20
𝜎𝑒0 = √𝑉(𝑒0 )
1 (𝑋0 − 𝑋̅)2
𝑆𝑒20 2
= 𝑆 (1 + + )
𝑛 ∑(𝑋𝑖 − 𝑋̅)2
63
𝑆𝑒0 = √𝑆𝑒20
𝑒0 ~ 𝑁(0, 𝜎𝑒20 )
IC autour de Y0
𝑒0 = 𝑌̂0 − 𝑌0
𝑒0 − 𝐸(𝑒0 )
~ 𝑡(𝑛 − 2)
𝑆𝑒0
𝑌̂0 − 𝑌0
𝑡= ~𝑡(𝑛 − 2)
𝑆𝑒0
𝑃(−𝑡𝛼⁄2 (𝑛 − 2) ≤ 𝑡 ≤ 𝑡𝛼⁄2 (𝑛 − 2) = 1 − 𝛼
𝐸̂
(𝑌0 ) est le prédicteur de E(Y0) par X = X0
̂
Remarque : 𝐸(𝑌 ̂
0 ) = 𝑌0
𝑚0 = 𝑏1 − 𝛽1 + (𝑏2 − 𝛽2 )𝑋0
64
Remarque 𝑚0 = 𝑒0 + 𝜀0
Espérance de mo
𝐸 (𝑚0 ) = 𝐸 (𝑒0 + 𝜀0 ) = 𝐸 (𝑒0 ) + 𝐸 (𝜀0 ) = 0
Variance de mo
𝑉(𝑚0 ) = 𝑉((𝑏1 − 𝛽1 ) + (𝑏2 − 𝛽2 )𝑋0 )
1 (𝑋𝑜 − 𝑋̅ )2
2
𝑉(𝑚0 ) = 𝜎 ( + )
𝑛 ∑(𝑋𝑖 − 𝑋̅ )2
Notation
2
𝜎𝑚 0
= 𝑉(𝑚0 )
𝜎𝑚0 = √𝑉(𝑚0 )
1 (𝑋𝑜 − 𝑋̅ )2
𝑆𝑒20 2
=𝑆 ( + )
𝑛 ∑(𝑋𝑖 − 𝑋̅ )2
𝑆𝑒0 = √𝑆𝑒20
2
𝑚0 ~𝑁(0, 𝜎𝑚 0
)
IC autour de E(Y0)
𝑚0 − 𝐸(𝑚0 )
𝑡𝑚0 ~𝑡(𝑛 − 2)
𝑆𝑚0
̂
𝐸(𝑌0 ) − 𝐸(𝑌0 )
~𝑡(𝑛 − 2)
𝑆𝑚0
𝑌̂0 − 𝐸(𝑌0 )
𝑃(−𝑡𝛼⁄2 (𝑛 − 2) ≤ ≤ 𝑡𝛼⁄2 (𝑛 − 2)) = 1 − 𝛼
𝑆𝑚0
65
1 (𝑋0 − 𝑋̅)2
𝜎𝑒20 2
= 𝜎 (1 + + )
𝑛 ∑(𝑋𝑖 − 𝑋̅)2
2
1 (𝑋𝑜 − 𝑋̅)2
2
𝜎𝑚 =𝜎 ( + ) = 𝜎𝑒20 − 𝜎 2
0
𝑛 ∑(𝑋𝑖 − 𝑋̅)2
2
𝜎𝑚 0
< 𝜎𝑒20
66
4) Effectuer le test de Fisher permettant de déterminer si la régression est
significative dans son ensemble.
5) En 2002, on prévoit 16800 FCFA pour la valeur du revenu. Déterminer la valeur
prévue de la consommation. Quelle information manque-t-il pour calculer
l’intervalle de confiance autour de la prédiction de 2002 au seuil de 5% ?
Exercice 2
On veut expliquer le Produit Intérieur Brut, PIB (Y) de 30 pays par le niveau
d’investissement (X) dans ces pays. Y et X sont en milliards de dollars américains ($US).
Le modèle estime est le suivant :
𝑌̂ = 1,93 + 2,35𝑋
n = 30 ; R2 = 0,26 ; F = 1,37 ; 𝑆𝑏21 = 11,20 ; 𝑆𝑏22 = 2,41
3) Interpréter les coefficients b1 et b2. Le signe de b2 est-il conforme à la théorie
économique ?
4) Tester l’hypothèse que β2 est égal à 1 au seuil α=1%
5) Quelle est la valeur prédite du PIB, Y0 lorsque le niveau d’investissement est X0 =
50 ?
6) Sachant que la variance de l’erreur de prédiction est égale à 121, calculer
l’intervalle de confiance autour de Y0 avec 99% de confiance.
Extrait de la table théorique de la loi normale pour α=1%
𝑡0,0005 (26) = 2,779; 𝑡0,0005(28) = 2,763 ; 𝑡0,0005 (30) = 2,750
7) Tester la significativité globale du modèle au seuil α=5%.
Extrait de la table théorique de la loi de Fisher pour α=5%
𝐹0,005 (26) = 4,23; 𝐹0,005 (28) = 4.20 ; 𝐹0,005(30) = 4,17
8) Interpréter R2. Selon votre interprétation (R2 élevé ou faible) donner une raison qui
peut expliquer la valeur de R2.
Exercice 3
On veut expliquer la rentabilité de 10 fermes agricoles par le nombre d’années
d’expérience du gérant. Le tableau suivant donne les informations sur la rentabilité Y
(milliers CFA) et le nombre d’années d’expérience X :
Ferme 1 2 3 4 5 6 7 8 9 10
Y 150 100 238 450 123 201 330 306 175 407
67
X 5 3 4 12 3 7 9 8 6 10
68