Cours D'économétrie 2 Seco4
Cours D'économétrie 2 Seco4
Cours D'économétrie 2 Seco4
Introduction Générale
1
CHAPITRE 1: LES REGRESSIONS LINÉAIRES MULTIPLES
INTRODUCTION
Les modèles économétriques sont spécialement destinés à étudier les relations de dépendance
entre la variable endogène (les variables à expliquer) et les variables exogènes (les variables
explicatives). Ce modèle consiste à faire une représentation schématique et partielle d’une
réalité qui est plus complexe sous forme d’équation dont les variables sont des grandeurs
économiques jugées déterminantes pour le phénomène étudié. Le rôle de l’économétrie est
d’estimer et de tester les paramètres du modèle étudié afin de vérifier leurs significativités
pour la prise de décision et faire des prévisions. Notre travail portera sur la présentation du
modèle de régression simple et multiple dans lesquels nous examinerons la méthode des
moindres carrés ordinaires (MCO) et ses limites qui nous conduirons à présenter la méthode
des moindres carrés généralisés (MCG)
I-LE MODELE DE REGRESSION SIMPLE
A- Méthode d’estimation des Moindres Carrés Ordinaires (MCO)
1. Hypothèses et propriétés des estimateurs des MCO
B- Critère de jugement de la qualité de l’ajustement d’un modèle : R²
II-LE MODELE DE REGRESSION MULTIPLE
A- Méthode d’estimation des Moindres Carrés Ordinaires (MCO)
1. Hypothèses et propriétés des estimateurs des MCO
B- Critère de jugement de la qualité de l’ajustement d’un modèle: R², R2c, s
C- Utilisation de variables indicatrices pour la correction des valeurs anormales et
détection des valeurs anormales.
D- Prévision
III-LES TESTS
A - Test de significativité d’un coefficient: test de student
B- Test de significativité global: test de Fisher
C- Test de normalité des erreurs
IV- PRESENTATION DE LA METHODE DES MOINDRES CARREES
GENERALISEES
CONCLUSION
2
I/ LE MODELE DE REGRESSION SIMPLE
y t =a1 x t +a 0
On parle de modèle de régression simple car le modèle ne comporte qu’une seule variable
explicative qui est xt. Lorsque le modèle comporte plusieurs variables explicatives, on parlera
de modèle de régression multiple.
On cherche à estimer les coefficients a1 et a0 de cette droite dans le but de reproduire le
phénomène économique observé.
On n’étudiera que l’estimation des modèles linéaires (les droites) à une ou plusieurs variables.
Il existe des modèles non linéaires (à seuil(2) par exemple) dont l’étude ne sera pas abordées
ici.
Notations :
avec par exemple t = 1980, 1981,…, 2004 (qui peut être remplacé par un nombre : t =
1,2,…,T)
Où t est la date à laquelle on observe la valeur de yt et de xt et εt est une variable aléatoire
représentant l’erreur de spécification dont les caractéristiques seront précisées au cours de
l’énoncé des hypothèses du modèle. On introduit la variable εt pour marquer le fait que toute
modélisation d’un phénomène ne peut pas être parfaite.
ŷt = â1xt + â0
Ou encore
yt = â1xt + â0 + et
Soit e = yt – ŷt l’écart entre ces deux mesures, la méthode ou technique des MCO consiste à
rechercher les valeurs de a0 et a1 de façon à minimiser la quantité suivante :
3
T T T
Min ∑ et =min ∑ ( y t −^y t ) =min ∑ ( y t− a^ 1 x t −a 0) =min S
2 2 2
t =1 t =1 t=1
Les conditions nécessaires du 1er ordre pour obtenir un optimum pour S sont :
T
∂S
• = 0 ¿> ∑ −2 ( yt − a^ 1 x t −a0 ) =0 → dite « équation normale »
∂ a^ 0 t =1
T T T
¿> ∑ y t−¿ ∑ a^ 1 x t −∑ a^ 0 ¿
t =1 t =1 t=1
T T
∑ y t ∑ a^ 1 x t T a^ 0 = 0
t=1 t =1
¿> − −
T T T
¿> y −^a1 x−^a 0 = 0
⇔ â0 = y− a^ 1 x
T T T
¿>−∑ xt y t +∑ a^ 1 x 2t + ∑ a^ 0 xt =0
t =1 t=1 t =1
T T T
∑ x t y t a^ 1 ∑ x 2t a^ 0 ∑ x t
t=1 t =1 t =1
¿> + + =0
T T T
T T
∑ xt yt a^ 1 ∑ x t
2
( y− a^ 1 x ¿ x=0 en utilisant l’expression de l’estimateur de
t=1 t =1
¿> + +¿
T T
a0
( )
T T
−∑ x t y t ∑ x 2t
t =1 t =1 2
¿> + a^ 1 −x + x y=0
T T
4
T T
∑ xt yt ∑ x t y t −T y x
t =1 t =1
−x y
T T
¿> a^ 1= = estimateur par les MCO
( )
T ¿¿
∑x 2
t
t =1
−x 2
T
Ces hypothèses permettent aux estimateurs d’obtenir les bonnes propriétés suivantes :
Théorème de Gauss-Markov :
Les estimateurs des MCO ont la plus petite variance parmi les estimateurs linéaires sans biais.
On dit que ce sont des estimateurs BLUE (Best Linear Unbiased Estimator).
où SCT = somme des carrés totale ou variabilité totale de yt , SCE = somme des carrés
expliquée ou variabilité expliquée par ŷt , SCR = somme des carrés des résidus ou variabilité
des résidus.
5
∑ ( y t − y )2 = ∑ ( ^y t − y)2 + ∑ e2t
T T T
Soit
∑ ( y t − y )2 ∑ ( y t − y )2 ∑ ( y t− y ) 2
t =1 t =1 t =1
T
On a : ^y = y car on ∑ et = 0 lorsque le modèle comporte une constante. Plus SCE est
t =1
proche de SCT, meilleur est l’ajustement du nuage de points par la droite des
MCO.
Le R² est compris entre 0 et 1 (0 ≤ R² ≤ 1) : plus il est proche de 1, meilleur est l’ajustement.
{
y 1=a0 + a1 x 11+ a2 x 21 +…+ ak−1 x (k −1 )1 + ε 1
y 2=a0 + a1 x 12+ a3 x22 +…+ ak−1 x ( k−1 ) 2+ ε 2
…
y T =a0 +a1 x 1T +a2 x 2T + …+a k−1 x (k−1 )T + ε T
Pour alléger cette écriture, on va écrire ce système d’équation sous forme matricielle :
Où on a
6
[] [ ] [ ] []
y1 1 x 11 x 21 … x(k−1)1 a0 ε1
y 1 x 12 x 22 … x(k−1)2 a1 ε2
Y= 2 ; X= ; a= ; ε=
… … … … … … … …
yT 1 x 1T x2T … x (k−1)T a k−1 εT
Afin d’estimer le vecteur a des coefficients, on applique la méthode des MCO qui consiste
toujours à minimiser la somme des carrés des résidus, soit :
T
Min ∑ e2t =min e' e=min ( Y − X a^ ) ( Y −X a^ )=minS
'
t =1
où e’ est le transposé du vecteur e.
Les équations issues de la relation -X’Y + X’Xâ = 0 sont appelées équations normales.
On voit que l’on ne peut obtenir l’estimateur â de a que si (X’X) est inversible. Lorsqu’il y a
colinéarité des variables explicatives, la matrice (X’X)-1 n’est pas inversible !
H3 : Rg(X) = k et T > k
(le nombre d’observations T doit être supérieur au nombre de variables explicatives k car on a
Rg(X(T,k)) ≤ Min(T,k). Si T > k, on a alors Rg(X) = k qui est vérifiée)
où
7
( )[ ]
var ( ε 1 ) cov ( ε 1 , ε 2 ) … cov ( ε 1 , ε T ) E ( ε1 ε1 ) E ( ε1 ε2 ) … E ( ε1 ε n )
cov ( ε 2 , ε 1 ) var ( ε 2 ) … cov ( ε 2 , ε T ) E ( ε2 ε1 ) E ( ε2 ε2 ) … E ( ε2 ε n )
Vε = E(εε’) = =
… … … … … …. ……….
cov ( ε T , ε 1 ) … var ( ε T ) E ( εT ε1 ) … … E ( εT εT )
Var(ε 1 ¿=E ( ε t ) −¿
2
car on a et Cov
[ ]
σ 2ε 0 … 0
2
0 σ … 0 =σ 2 I (I est une matrice identité )
ε
Vε = E(εε’) = ε
… … … …
2
0 0 … σε
X'X
H5 : tend versune matrice finie non singulière ( inversible ouregulière ) .
T
Ces hypothèses permettent aux estimateurs d’obtenir les bonnes propriétés suivantes :
−1
1 1(
ou encore : Vâ = σ 2ε ( X ’ X ))
T T
On a : Tlim V ^a = 0 si l’hypothèse H5 suivante est vérifiée : 1 ( X ’ X ) tend vers une matrice
→∞ T
finie, définie positive et inversible lorsque T tend vers ∞.
2 2
σ =s = SCR t=1
ε
∑ e 12
=
T −k T −k
8
Comme pour le modèle de régression simple, on a la décomposition suivante :
T T T
Où SCT = somme des carrés totale ou variabilité totale de y t , SCE = somme des carrés
expliquée ou variabilité expliquée par ^y t , SCR = somme des carrés des résidus ou variabilité
des résidus.
T T T
D’où
∑ ( y t − y )2 ∑ (^y t −^y )2 ∑ e12
t =1
= t =1 + t =1
T T T
SCE t=1
∑ ( ^y t− ^y )2 ∑ ( ^y t − y )2 ∑ e 12
t =1 t =1
R² = = T = =1−
SCT T T
∑ ( y t− y)2 ∑ ( y t − y )2 ∑ ( y t − y )2
t=1 t =1 t =1
T
^y =¿ y et ∑ e1 =0 (lorsque le
2
On a comme pour le modèle de régression simple, on a :
t =1
modèle comporte une constante).
T −1
Rc 2=1−(1−R 2)
T −k
Remarque :
En général, lorsque les modèles n’ont pas le même nombre de variables explicatives, on
√
'
utilise pour comparer les modèles le critère du s = σ^ ε= e e où e’ est le transposé du
T −k
9
vecteur des résidus du modèle estimé, T désigne le nombre d’observations et k le nombre de
variables explicatives. Le meilleur modèle est celui qui a le s le plus petit.
Une variable indicatrice est une variable explicative particulière qui est composée de 0 et de
1.
On peut l’utiliser dans 3 cas :
La présence d’un point aberrant dans une série temporelle a pour conséquence
l’autocorrélation des erreurs, il faut donc l’éliminer. Si on a une série temporelle, on ne peut
pas le supprimer directement de la série (on aurait un « trou » dans la série). Il faut utiliser une
variable indicatrice.
Cette variable aura une valeur égale à 1 pour la date à laquelle on observe le point aberrant et
une valeur égale à 0 pour toutes les autres dates de la série temporelle, c’est-à-dire on a :
{
ème '
I82.3 = 1 sit=1982.3 pour≤3 trimestre de l année 1982
0 sinon
y t =a1 x t +a 0+ v t
Où ε t et v t désignent l’erreur de chacun des 2 modèles.
Détection des valeurs anormales : construction de l’intervalle de confiance pour les résidus :
^y t =Xa^ + e
D’où, on a
Var(et)= σ ε2 (1−htt )
et et
On obtient alors : = > N ( 0,1)
√Var ( e t) σ ε √1−htt
√
SCR et
Si on remplace σ ε par son estimateur σ ε = s = , le rapport suit alors la loi de
T −k s √1−htt
Student avec (T-k) degrés de liberté :
et
~> S(T-k).
s √ 1−htt
et
Lorsque T grand (T > 30), on a qui suit la loi normale centrée et réduite, on peut
s √1−htt
alors écrire :
Prob(-1.96 s √ 1−htt )≤ e t ≤ 1.96 s √ 1−h tt) = 1-α
Où 1,96 représente la valeur critique de la loi normale centrée et réduite pour un risque de 1 ère
espèce α (en générale, α = 5%).
D’où
Prob(- 1,96 s√ 1−htt ≤ e t ≤ 1,96 s√ 1−htt ) = 95%.
–1,96s ≤ e t ≤ 1,96s
11
-2s ≤ e t ≤ 2s.
Les résidus qui se trouvent en dehors de cet intervalle sont des points aberrants.
D/ Prévisions
Lorsque les coefficients du modèle ont été estimés, il est possible de faire une prévision à un
horizon h.
si la valeur des variables explicatives x1(T+1) , x2(T+1) ,…, x(k-1)(T+1) est connue en T+1, la
prévision de ŷT+1 est donnée par :
√ √
2 2
1 ( X T +1−X ) 1 (X T +1− X)
t T−1 σ^ ε +1 ≤ y T +1− ^y T +1 ≥+t T−1 σ^ ε
α/ 2 α/ 2
+ T + +1
- T T T
∑ ( X T −X )2
∑ (X T − X)2
t =1 t =1
( )
2
1 (X T+1 −X )
σ^ ε + +1
Car Var(et)= T T
∑ ( X T −X ) 2
t=1
t αT−1
/2
représente la valeur critique de la loi de Student pour un risque de α % et (T-2) degrés de
liberté.
D’où l’intervalle de prévision suivant :
√ √
2 2
1 (X T +1− X) 1 ( X T +1−X )
σ^ ε + 1≤ y T +1 ≥ ^y T +1 +t T −1 σ^ ε
α/ 2 α /2
^y T +1−t T−1 + T + +1
T T T
∑ ( X T − X)2
∑ ( X T −X )2
t =1 t=1
12
Pour un modèle avec plusieurs variables explicatives, on a :
Lorsque l’on dispose de la valeur observée yT+1, on peut vérifier si le modèle que l’on a
estimé est bon ou non en regardant si cette valeur appartient ou non à l’intervalle de
confiance. Si cette valeur n’appartient pas à l’intervalle de confiance, le modèle estimé n’est
pas bon.
Pour savoir si une variable joue un rôle explicatif dans un modèle, on effectue un test de
Student ou test de significativité du coefficient de la variable explicative.
Pour faire un test de Student, il faut vérifier au préalable que les erreurs suivent une loi
normale :
ε t > N (0 , σ^ ε )
a^ i−ai
La statistique de test est : t = ^ > S(T −k )
σ a^ i
La statistique de test suit la loi de Student à (T-k) degrés de liberté car les erreurs du modèle
suivent une loi normale.
Sous H0 vraie, on a
a^ i
t= ^ > S (T −k )
σ a^i
13
Si | t | > t* où t* est la valeur critique de la table de Student pour un risque fixé et un nombre
de degré de liberté égal à (T-k)
⇒ On rejette H0 et on accepte H1 : le coefficient est significativement différent de zéro et la
variable joue un rôle explicatif dans le modèle.
Remarque :
Lorsque la taille d’échantillon est grande (T > 30), on peut comparer | t | directement avec le
seuil critique de la loi normale centrée et réduite qui est 1,96 (pour un risque de 5%) car
d’après le théorème central limite, la loi de Student tend vers une loi normale lorsque T est
suffisamment grand. Donc, si | t | > 1,96 ⇒ on rejette H0 et on accepte H1 : le coefficient est
significatif et la variable joue un rôle explicatif dans le modèle.
Si le coefficient n’est pas significativement différent de zéro, il faut enlever la variable
explicative correspondante du modèle (à condition que le critère du s n’augmente pas ! Il
arrive que nous puissions nous tromper sur la non significativité d’une variable en présence
d’une colinéarité des variables explicatives qui entraîne des t de Student relativement faibles
nous conduisant à rejeter à tort certaines variables explicatives. C’est pourquoi il faut
examiner la valeur du s après le retrait des variables jugées non significatives. Une hausse de
la valeur du s indique que la variable retirée était en fait contributive à l’explication de la
variable endogène).
14
Si f >f*(p,q) où f*(p,q) est la valeur donnée par la table de Fisher pour p et q donnés et pour
un risque fixé
⇒ On accepte H1 : il existe au moins un coefficient non nul.
Ce test est peu utilisé car lorsqu’il indique qu’il y a au moins un coefficient non nul, il ne
précise pas lesquels. Il est moins précis que le test de Student.
Avant d’effectuer le test de Student, il faut effectuer un test de normalité afin de vérifier que
les erreurs sont gaussiennes.
Soit le modèle suivant :
Y = Xa + ε.
{ H 0 :ε t > N (0 , σ^ ε)
H 1 :les erreurs ne suivent pas une loi normale
μ3
α 3=
σ 3ε
Nous désirons déterminer un estimateur de a qui ait les mêmes propriétés que l’estimateur des
MCO : sans biais, fonction linéaire de Y et à variance minimale. Il démonte que cet
estimateur sest donné par :
a^ =¿(¿Y)
Ωa^ =¿
15
Cet estimateur est appelé estimateur des Moindres Carrés Généralisés (MCG) ou encore
estimateur de Aitken.
REMARQUE : lorsque les hypothèses classiques sont satisfaites, nous retrouvons
l’estimateur des MCO
( ( ))( ( ))
−1
1 1 −1
a^ =¿Y) = X
'
2
I X X' 2
I Y =( X ' X ) ( X ' Y )
σε σε
Dans la pratique, nous ne connaissons pas la matriceΩ ε, les formules ci-dessus ne sont pas
utilisables, sauf dans des cas exceptionnels. Il convient donc de présenter des procédures
d’estimation opérationnelles.
CONCLUSION
En somme il était question de présenter les moindres carrés Généralisés. En effet, nous
avons vu que les estimations des paramètres d’un modèle commence par la méthode des
moindres carrés ordinaires, lorsque les hypothèses classique sont en amont respectés.
Cependant, la méthode des moindres carrés généralisés intervient quand les hypothèses
classiques ont été violées.
16
CHAPITRE 2 : AUTOCORRELATION DES ERREURS : CAUSES,
CONSEQUENCES, CORRECTIONS
INTRODUCTION
Ce chapitre est consacré aux problèmes particuliers lies au non-respect des hypothèses. Nous
allons nous attacher particulièrement à la forme classique de l’autocorrélation des erreurs.
L’étude de ce phénomène nous permet de définir un nouvel estimateur (celui des moindres
carrés à la fin du chapitre précédent), utilisé lorsque la matrice des variances et covariances ne
répondent plus aux hypothèses classiques, tel que supposé jusqu’à maintenant. Pour mener à
bien notre idée, notre exposé s’articulera sur deux points : la présentation du problème de
l’autocorrélation des erreurs(I) ; les causes et le diagnostic de l’autocorrélation des
erreurs(II) ; les conséquences de l’autocorrélation des erreurs(III) et afin les corrections de
l’autocorrélation des erreurs (IV).
I. PRESENTATION DU PROBLEME
Jusqu’à maintenant nous avons considéré que, lors de l’estimation des paramètres du
modèle, les hypothèses sont toujours respectés :
Le modèle est linéaire en x t
Les valeurs de x t sont observées sans erreurs
E ( Et )=0
E ( Et 2)= σ ε
2
E ( Et E t ' ¿ = 0 si t≠ t '
Cov ( x t , Et ¿= 0
La spécification de la matrice des variances de l’erreur est :
[ ][ ]
2
E(ε 1 ε 1) E (ε 1 ε 2 ) … E( ε 1 ε n) σ ε 0 … 0
2
' E(ε 2 ε 1) E (ε 2 ε 2 ) … E( ε 2 ε n) 0 σε … 0
Ωt = E (ℰ E ¿= =
… … …. ………. … … … …
E (ε n ε 1) E (ε n ε 2 ) … E(ε n ε n) 0 0
2
… σε
Lorsque l’hypothèse H 5n’est plus verifiée, la matrice E (ℰℰ’)=Ω ε ≠ σ 2ε I n' a plus cette forme
particulière (elle n’est plus composée de 0 à l’extérieur de la première diagonale, puisque cov
( Et , Et ' ¿ ≠ 0) et les estimateurs obtenus par la méthode des MCO sont sans biais mais ne sont
plus à variance minimale, en effet:
17
Ωa^ =E [ ( a^ −a ) (^a −a) ' ]
a^ −a=¿.
Donc Ωa^ =E ¿
¿¿
1. Causes
On est en présence d’une autocorrélation des erreurs lorsque les erreurs sont liées
par un processus de reproduction (ou processus à mémoire). L’autocorrélation des
erreurs se rencontre essentiellement dans les modèles en séries temporelles ou
l’influence d’une erreur, due à une mauvaise spécification, d’une période sur
l’autre est plausible.
18
endogène et les variables explicatives ne sont pas linéaires et s’expriment
sous une autre forme que celle du modèle estimé
Un lissage par moyenne mobile ou interpolation des données
2. Diagnostique
19
Les résidus sont de signe alternés : autocorrélation négative
Cependant, le plus souvent l’analyse graphique des résidus est délicate d’interpréter car le
dessin des résidus ne présente pas de caractéristique évidente.
a-Test de DURBIN-WASTON
Ce test permet de détecter une autocorrélation des erreurs d’ordre 1, selon la forme
ε t= ρ ε t−1 +ϑ t , où ϑ t suit une loi normale de moyenne nulle et d’écart type σ ϑ . Il s’agit alors de
tester l’hypothèse H 0 : ρ=0 ,contre H 1 : ρ ≠ 0 ( ou ρ<0 , ou ρ>0 ) . Pour effectuer ce test, on
n
∑ (et −e t −1 )2
t=2
calcule la statistique de Durbin – Watson : DW = n , où e t représente les résidus.
∑e 2
t
t=1
Par construction, cette statistique est entre 0 et 4, et nous avons DW = 2 lorsque ^ρ =0,
n
∑ e t et −1 DW
^ρ étant ≤ρ observé ( estimé ) . On a: ^ρ= t=2 n ou aussi ^ρ =1− .
2
∑ e 2t
t=1
20
Durbin et Watson ont tabulé les valeurs critiques de la statistique DW, au seuil de 5%, en
fonction de la taille n de l’échantillon et du nombre k de variables explicatives. Ainsi on a :
Remarques :
21
- Ce n’est qu’un test présomptif d’indépendance des erreurs (car il utilise les résidus).
- Pour les modèles en coupe instantanées, les observations doivent être ordonnées en
fonction croissante (ou décroissante) de la variable endogène.
c) Test de Breusch-Godfrey
– Estimation par les MCO du modèle et calcul du résidu et, puisque les erreurs sont
inconnues, le test porte sur les résidus.
– Estimation par les MCO de l’équation intermédiaire :
Soit n le nombre d’observations disponibles (attention chaque décalage entraîne la perte d’une
observation) pour estimer les paramètres du modèle et R2 le coefficient de détermination.
Certains auteurs préconisent, afin de ne pas perdre d’observations, de mettre à 0 les premières
valeurs du résidu décalé. La différence n’est perceptible que pour des petits échantillons.
22
Si on refuse l’hypothèse nulle, alors il existe un risque d’autocorrélation des erreurs à l’ordre
Pour mener ce test, nous avons deux possibilités : soit effectuer un test de Fisher classique de
nullité des coefficients ρi soit recourir à la statistique
y t =a0 + a1 x 1 t + a2 x 2 t +…+ ak−1 a(k −1 )t + Et pour t=1,2 ,…,T une autocorrélation des erreurs
d’ordre k(k¿ 1 ¿.
Et =ρ1 Et −1 + ρ2 Et −2+ …+ ρk Et− k + v t Ou v t N (0 , σ v )
k
{ H 0 : ρ=0
H 1 : ρ ≠0
t =1
2
^ρ est le coefficient de corrélation d’ordre k des résidus estimése t . Sous
k
l’hypothèse H 0 vraie, Q suit une khi-deux de k degré de liberté.
Règle de décision : si Q
¿ k ¿ ou k ¿ est la valeur donnée par la table du khi−deux ; on rejette H 0 .
23
Et =ρ Et −1+ v t Cette relation permet de calculer les covariances entre les termes de
l’erreur.
= ρE ( E t−1 ) + E ( v t E t−1 )
2
E( Et E t−1 ¿ = ρE ( E 2t−1 )
E( Et E t−1 ¿=ρ σ 2E
E ( E2 ¿=¿
[ ]
T−1
1 ρ⋯ ρ
2 2
E( Et E t−1 ¿=δ E ρ 1⋯ ρT−2 = δ E ω
T−1 T −2
ρ ρ ⋯ 1
[ ]
1 0⋯ 0
δ 2E . ω ≠ δ 2 I car I = 0 1⋯ 0
0 0⋯ 1
V( ^
A ¿=E ¿]
−1
= E ( X ' X ) X ' E ( E E' ) X ( X ' X )−1
= (X ' X )−1 X ' δ 2 ωX ( X ' X )−1
V( ^ 2 ' −1
A ¿=δ E ( X X ) X ' ωX ( X X )
' −1
2 δ2
Avec δ E =
1−ρ2
24
Plusieurs méthodes permettent d’éliminer l’autocorrélation des erreurs. Ces méthodes ont en
commun de passer par une élimination préalable du terme de l’erreur.
Partons de la relation ci-après :
y t =a1 x 1t + a2 x2 t + a3 + Et
E t=ρ Et −1+ v t
Dans (3), on constate v t existe toujours et est un bruit blanc par contre Et source
d’autocorrélation n’existe plus. Toutes les méthodes de corrections de l’autocorrélation
partent de la relation (3)
a. La méthode de Durbin-Waston
Les estimateurs obtenus dans cette équation (4) notamment ceux qui sont
devant x 1 t−1 et x 2t −1ne sont pas cohérents. Seule le coefficient ^ρ est acceptable et
on l’utilise pour passer à la deuxième étape en procédant à la transformation des
variables. On a la nouvelle relation ci-après :
¿ ¿ ¿
y t =a1 x 1t + a2 x2 t + a3 ¿) + v t (5)
25
L’estimation de l’équation (5) permet alors par la méthode des MCO d’obtenir les meilleurs
valeurs de a 1 , a2 et a3 avec v t comme bruit blanc. On dit alors qu’on corrige l’autocorrélation
des erreurs en utilisant la méthode de Durbin-Watson en 2 étapes.
Elle considère à partir de l’équation (3) ci-dessus. C’est une méthode itérative
qui consiste à donner les valeurs à ρ de manière arbitraire puis faire l’estimation
de l’équation (3). La valeur arbitraire de départ qui est souvent recommandée est
dosée par la relation suivante :
n
∑ et e t −1
^ρ = t =2 n (e=0)
∑e 2
t
t
On obtient après chaque estimation les valeurs de a^ 1 , a^ 2 et a^ 3 que l’on compare à
chaque fois aux valeurs précédentes. Il faut noter que cette procédure est
convergente au bout d’un certain nombre d’itération. Deux types de programme
pour sont proposés pour décider d’arrêter la procédure :
- On fixe à priori le nombre d’itération qu’on ne veut pas dépasser.
- On fixe un critère de divergence sur ρ .
Par exemple l’écart de convergence entre deux valeurs successives de ρ diffère de 1%.
Dans tous les cas de recherche, dans la procédure d’itération dès que les coefficients
estimés sont stables, on dit qu’on a corrigé l’autocorrélation des erreurs.
Pour une convergence encore plus rapide, il est recommandé de déduire ρ de la relation
ci-après :
Dw
Dw = 2-2 ρ ce qui implique ^ρ =1− qui est la méthode la plus recommandée.
2
Elle consiste à exprimer une succession de l’équation (3) pour des valeurs régulièrement
croissantes de ρ . Elle s’effectue en deux principales étapes :
Etape 1 : détermination du type d’autocorrélation.
A partie de la statistique de Durbin-Watson, on détermine une autocorrélation positive ou
négative ( ρ<0 , ρ>0 ¿ .
Etape 2 : régression pour l’intervalle des valeurs possibles de ρ .
Par exemple, on sait que ρ ∈[0; 1] , nous régressons toutes les valeurs successives de
ρ={ 0.1; 0,2; … 0.9 ; 1 } sur l’intervalle [0 ;1] avec un pas fixé égal à 0.1.
Il est possible d’affiner la valeur estimée de ρ en réemployant la même procédure sur un
intervalle restreint et avec un pas plus fin (par exemple 0.01).
Il est à noter que cette technique est optimal selon le critère des moindres carrés puisque l’on
retient le ρ qui minimise la somme des carrés des résidus
26
FICHE DE TD SUR L’AUTOCORRELATION DES ERREURS
PREMIERE PARTIE: questions de cours
27
EXERCICE 1
Objectifs de l’exercice : test de détection d’une autocorrélation des erreurs (test de Durbin-
Watson et test de B-Godfrey). Forme de la matrice des variances-covariances des erreurs en
cas d’autocorrélation d’ordre 1 des erreurs. Méthodes d’estimation en cas d’autocorrélation,
estimation du coefficient d’autocorrélation, prévision en cas d’autocorrélation des erreurs.
T yt x 1 ,t x 2 ,t
1 -5 9 673 102
2 -3 5 522 566
3 -7 12 899 367
4 -20 10 249 319
5 -45 9 860 -258
6 -50 -320 -163
7 -15 691 383
8 8 9 998 470
9 10 11 063 419
10 23 12 420 615
11 45 13 118 432
12 79 12 148 4 226
13 16 14 837 -2835
14 25 18 453 505
15 5 13 761 170
16 -36 7 810 504
17 26 15 035 417
18 59 12 918 542
19 74 15 678 386
20 NA NA NA
1) Estimer la relation par la méthode des moindres carrés ordinaires. Etudier les résidus.
2) Effectuer le test d’autocorrélation des erreurs de Durbin-Watson. Commentaires.
3) Effectuer le test d’autocorrélation des erreurs de Breusch-Godfrey. Commentaires.
4) Donner les expressions de E(ε t), E(ε 2t ), Cov(ε t,ε t+i ). En déduire l’expression de la
matrice des variances-covariances des erreurs.
28
y t =a0 + a1 x 1 ,t + a2 x2 , t +ε t (t=1 , 19)
29
CHAPITRE 3 : HETEROSCEDASTICITE DES ERREURS
I PRESENTATION DU PROBLEME
( )
2
σε 1
0… 0
( )
E(ε 1 ε 1) E ⟮ ε 1 ε 2 ⟯ … E( ε 1 ε n) ⋮ ⋮ ⋮ 0 σ …
2
0
Ω ε=E ( ε ε )=
'
¿ ¿ ¿= ε2
E(ε 2 ε 1) E ⟮ ε 2 ε 2 ⟯ … ¿ E (ε n ε 1 ) E(ε n ε 2 )… E ⟮ ε n ε n ⟯ ⋮ ⋮ ⋮
2
0 0… σε n
30
Ce test n’est valable que si l’une des variables est la cause de l’hétéroscédascité, et le nombre
d’observation est important. Il s’effectue suivant les étapes :
Etape1 : pour un échantillon donné, il faut ordonner les observations en fonction des valeurs
croissantes ou décroissantes, soit de la variable expliquée, soit de la variable explicative
soupçonné être la source de l’heteroscedasticite.
Etape 2 : extraire arbitrairement de l’échantillon d’observation , un nombre Δ d’observations.
Ces observations sont prélevées au centre de l’échantillon et retiré de l’analyse, partageant
ainsi l’échantillon de deux sous échantillons. La valeur de Δ est approximativement égal au
quart du nombre d’observation total .
Etape 3 : l’échantillon de n-∆ observations ayant été partagé en deux sous-échantillons, on
effectue les régressions sur chacun d’eux . il faut noter que si n- ∆ est paire , alors chaque
n−∆
sous-échantillon comportera observations. Si par contre, n-∆ est impair, l’un des deux
2
n−∆ n−∆
sous échantillon aura observations, tandis que l’autre aura + 1 observations.
2 2
Etape 4 : on calcul les SCR 1 et SCR 2 correspondant à chaque sous- échantillon.
Etape 5 : On effectue le test
Formulation des hypothèses du test :
H 0 :homoscedasticite / H 1: hétéroscédasticité
[ ] [ ]
SCR 1 SCR 2
ddl 1 ddl 2
F∗¿ (si SCR 1 > SCR2 ) ou encore F∗¿ ( si SCR 2 > SCR1 )
SCR 2 SCR 1
ddl 2 ddl 1
Comparaison et conclusion :
F* est comparé à la Fischer lu, pour un seuil α , a ( ddl 1 , ddl 2 ) ou ( ddl 2 , ddl 1) en fonction du cas.
Si F*¿ F table ,le modèle est heteroscedastique car on rejette H 0 .
Test de Gleisjer
Ce test permet de déceler l’hétéroscédasticité et d’identifier la forme que revêt cette
hétéroscédasticité. Ce test est fondé sur le résidu issu de l’estimation par la M.C.O effectuée
sur le modèle de base et la variable explicative supposée être la cause de l’hétéroscédasticité.
Les étapes sont :
31
Etape 1 : on effectue la régression par les MCO de Y i en X i c’est-à-dire Y i = μ+ β X i +ε i
Etape 2 : On détermine le vecteur des résidus e i qui représente une estimation des ε i .
Etape 3 : on effectue ensuite une régression par la MCO de la valeur absolue |e i|des résidus
sur X i . Ici, Gleisjer suggère de réaliser les trois formes suivantes :
1
Forme de type I : |e i|= a + a X 2 + v
0 1 i i
2 2 −2
L’hétéroscédascité est de la forme :σ^ e =k X i i
Etape 5 : on compare la student empirique a la student tabulé a n-2 degré de liberté pour
déterminer la significativité dea 1 dans chaque spécification. L’hypothèse d’homoscedasticite
est rejetée si le coefficient a 1 d’une des spécifications ci-dessus est significativement différent
de 0. La forme d’hétéroscédascité retenue est celle de la spécification ayant le T* le plus
élevé.
Test de White :
Le test de white est très proche du test de Gleisjer, et est fondé sur la relation significative
entre le carré du résidu, et une ou plusieurs variables explicatives en niveau( X ij ) et au carrée (
2
X ij ) au sein d’une même équation de régression.
2 2 2 2
e j = a 1 X 1 j+ b1 X 1 j +a2 X 2 j+ b2 X 2 j +…+ ak X kt + bk X kj + a0 + v j
32
H 0 :a1=b1=a 2=b2 =…=ak =bk =0 / H 1: il existe au moins un a j ou b j ≠ 0
n−k −1
Ou encore, on peut recourir à la statistique LM= n¿ R2 . Elle suit une khi-deux a P=2k
degré de liberté , a un seuil α .
Comparaison et conclusion :
lorsque l’on utilise un test de Fischer classique, on compare pour un seuil α , F* a la
fischer lu a (k, n-k-1) degrés de libertés. Si F*¿ F table on rejette H 0 c’est-à-dire on
accepte l’heteroscedasticite.
2
Egalement, le soupçon d’hétéroscédascité est avéré si LM ¿ χ (p )lu au seuil α .
∑ (Y ¿ ¿ ij−Y i)2
2 j=1
σ^ i = ¿
ni−1
∑ (ni−1)σ^ 2i
2 i=1
σ^ T = m
m ∑ v i σ^ 2i m m
Etape 4 : A partir de la variance totale, on peut calculer la statistique Q' qui servira au test :
m
Q = vLn σ^ T −∑ v i ln σ^ i
2 2
'
χ 2m−1
i=1
33
NB : une autre forme de cette statistique est préférée a celle qui précède pour sa précision.
Soit Q cette statistique :
( )
' m
Q 1
Q=
C
avec C=1+
3 ( m−1 )
∑ v1 − 1v =( c ' est une constante d ' echelle )
i=1 i
Les conséquences sont les mêmes que celles de l’autocorrélation des erreurs :
2
- Ωε≠ σ ε I
- Les estimateurs obtenus par la méthode des MCO demeurent sans biais, mais ne sont
plus à variance minimale.
V CORRECTION DE L’HETEOSCEDASTICITE
1
de la régression pondérée par le facteur conduit à un modèle homoscédastique :
xj
( )
2
y j a0 ej ej 1
= +a1 + d’où E = 2 σ^ 2e =k 2
xj xj xj xj xj j
l’hétéroscédasticité dans ce cas, nous employons la régression pondérée sur les données brutes
divisées par √ x j. En effet :
34
( )
2
yj a0 ej ej 1 2 2
= + a1 + d’où E = σ^ e =k
√x j √ xj √xj √ xj xj j
35
Exercices d’application
Exercice 1
Afin de tester l’efficacité d’un nouveau fortifiant sur la croissance des poulets, un éleveur
a retenu 40 poulets répartis en cinq groupes de tailles inégales et leur a administré
des doses différentes de ce fortifiant. Les résultats sont consignéssur le tableau ci-dessous :
Groupe i Nombre de poulet ni Poids moyens des Dose moyenne
y
poulets i administrée x i
1 12 1.7 5.8
2 8 1.9 6.4
3 6 1.2 4.8
4 9 2.3 6.9
5 5 1.8 6.2
On demande d’estimer les coefficients de la relation :
y i=a0 +a1 x i+ ε irelation entre le poids de chacun des poulets y i et la dose individuelle reçue x i
et de tester si les coefficients a i est significativement différent de 0.
Exercice 2
Un directeur de la production d’une unité de construction automobile désire déterminer
une relation entre le nombre de défauts constatés ( y i) et le temps de vérification
( x id’une automobile, selon le modèle suivant :
y i= a 0+ a i x i+ ui
Pour ce faire, il procède à un test sur 30 véhicules qu’il regroupe en 6 classes de 5
Voitures en demandant à chaque chef d’atelier de passer un nombre d’heures de vérification
Fixé.
Les résultats sont consignés dans le tableau ci-dessous :
Nombre de Temps
defauts Yi passés en
heures
4 5 6 7 8 4
6 11 13 15 17 3.5
9 13 14 15 21 2
6 13 16 23 26 1.5
11 15 17 22 34 1
7 21 23 28 38 0.5
On demande de procéder aux tests de détection d’hétéroscédascité suivants :
1) Test d’égalité des variances ;
2) Test de Goldfeld-Quandt ;
3) Test de Gleisjer ;
4) Test de white
5) Puis, en cas d’hétéroscédascité, d’en corriger les effets.
36
CHAPITRE 4 : STATIONNARITE DES VARIABLES EN ECONOMIE
INTRODUCTION
Dans les chapitres précédents l'estimation se fait à partir de relations structurelles censées
traduire des mécanismes économiques. La modélisation consiste à traduire en équations la
théorie économique. Dans ce chapitre ces éléments structurels disparaissent. De ce fait, on ne
cherche plus à expliquer mais simplement à décrire ou à prévoir. Pour cela on utilise des
séries c'est-à-dire des observations d'une variable au cours du temps. L'utilisation de ces séries
se généralise pour tout un ensemble de problèmes pour lesquels la modélisation traditionnelle
apparaît peu satisfaisante. C'est le cas pour des phénomènes complexes dans lesquels il y a de
nombreuses actions et réactions simultanées pour lesquelles il est difficile de faire apparaître
clairement un enchaînement de causes et d'effets. (Exemple : cours d'une valeur mobilière au
jour le jour). Cela peut aussi être le cas des variables extrêmement volatiles. Les modèles
explicatifs sont en général incapables de prévoir correctement les points de retournement. Ces
modèles sont performants à moyen terme mais peu performants à court terme. Le taux de
change, qui subit des fluctuations assez courtes et assez amples, fournit des illustrations de ce
type de difficultés. Une des causes de mauvaise performance des modèles explicatifs vient du
fait qu'ils sont beaucoup plus performants pour analyser des tendances que des fluctuations.
Une grande partie de leur pouvoir explicatif est tiré du parallélisme des évolutions. Cet
argument laisse entendre que certaines corrélations ne correspondent pas véritablement à des
relations entre variables, mais peuvent tout simplement résulter d'une évolution semblable des
variables sous des influences n'ayant rien à voir avec le problème étudié. C'est la question des
corrélations fortuites sur laquelle on reviendra dans le chapitre suivant. Un test intéressant est
de comparer le pouvoir explicatif de la même relation macro-économique pour des
périodicités annuelle, trimestrielle ou mensuelle. Dans tous ces cas, quand on a besoin de
faire une prévision à court terme et quand les enjeux de cette prévision sont économiquement
importants on préfère utiliser des modèles non explicatifs mais assez performants en prévision
qui sont donc des modèles de série temporelle. Ce sont des structures légères qu'on peut
facilement réestimer. Le modèle peut donc être mis à jour tous les jours. Le coût de la
prévision est relativement faible.
Un économètre bien formé avec un bon logiciel peut assurer au quotidien la prévision au jour
le jour. Un des domaines d'application est le domaine des variables financières (taux
d'intérêts, taux de change, taux de rendement).
• La méthode consiste à rechercher dans l'histoire de la variable des régularités susceptibles
d'aider à prévoir ses valeurs futures.
L’utilisation des séries temporelles conduit à rechercher des régularités dans les valeurs
passées de la série. Pour que cette démarche ait un sens pour la prévision, il faut que le
processus présente une certaine stabilité ou un certain degré d’invariance au cours du temps.
C’est cette idée de stabilité ou d’invariance qui est traduite par la notion de stationnarité qui
fera l’objet de notre analyse tout au long de ce chapitre.
37
I. LA STATIONNARITE
1. CONCEPTS DE BASE
a) PROCESSUS STATIONNAIRE
Au sens fort
Soit un processus stochastique temporel à valeurs réelles et temps discret. Il est dit
stationnaire au sens fort si pour toutes fonctions mesurables : f (X1, X2,…, Xt) et f (X1+k,
X2+K ,…, Xt+k) ont même loi. C’est-à-dire, les propriétés du processus ne sont pas affectées
par un changement de notre repère temporel que l’on regarde au point « t » ou au point
« t+h » la série a toujours le même comportement. Néanmoins, la loi de probabilité d’une
distribution d’une série de données est très difficile à estimer, une définition moins stricte
de la stationnarité a été introduite.
Au sens faible
Soit un processus stochastique temporel à valeurs réelles en temps discret X1, X2,…, Xt. Il est
dit stationnaire au sens faible si :
- L’espérance mathématique est constante au cours du temps, il y’ a donc pas tendance
E(Xi) =µ.
- La variance est constante au cours du temps Var (Xi) =σ2
- L’autocorrélation (ou auto-covariance) ne dépend pas du temps Cov (X i, Xi- k) = γ (k).
On remarque que celle-ci inclut la deuxième si et seulement si k=0 alors
l’autocovariance correspond à la variance.
b) BRUIT BLANC
Un exemple de processus stationnaire est le bruit blanc. Un bruit blanc est une suite de
variables aléatoires de même distribution, non corrélés, d’espérance nulle et de variance
constantes. Autrement dit, pour t : E (Xt)=0 V (Xt)=σ 2 ; COV (Xt ; Xt-h)=0 pour h≠0.
Il s’agit des processus stationnaires les plus élémentaires. Le cas le plus courant est la suite de
variables aléatoires gaussiennes standard (espérance nulle et variance égale à 1) et
indépendantes. Un bruit blanc est aussi appelé processus IID (processus discret formé de
variables mutuellement indépendantes et identiquement distribuées), ou NID (normalement et
indépendamment distribuées) dans le cas d’un bruit blanc gaussien, notamment lorsque la loi
de Xt est normale.
2. LES FONCTIONS D’AUTOCORRELATION SIMPLE ET PARTIELLE
a) AUTOCORRELATION SIMPLE
La fonction d’autocorrélation (FAC) est la fonction notée ρθ qui mesure la corrélation de la
série avec elle-même décalée de θ périodes. Sa formulation est la suivante :
38
n
cov (X t , X t−θ )
∑ ( X t −X ₁ ) ( X t−θ −X ₂)
t =θ +1
ρθ = =
σX σX
√∑ √∑
n n
2 2
(X t −X ₁) ( X t −θ− X ₂)
t t−θ
t =θ+1 t=θ+ 1
n n
1 1
Avec X ₁ = ∑ X et X ₂ = n−θ ∑ X t −θ les moyennes calculées sur n−θpériodes,
n−θ t=θ +1 t t =θ +1
n = nombre d’observations. Nous pouvons en déduire que ρ0 =1et ρθ=¿ ρ ¿. −θ
∑ ( X t− X)( X t −θ −X )
t=ɵ +1
ρθ =
^ n
∑ ( X t− X )²
t=1
b) AUTOCORRELATION PARTIELLE
La fonction d’autocorrélation partielle(FAP) mesure la corrélation entre X t et X t −θ, l’influence
des variables intermédiaires ( X t−1 , X t−2 , … , X t−θ+1 ) ayant été retirée.
Un estimateur naturel de l’autocorrélation partiel d’ordre K d’un processus ( X t ) consiste en
l’estimation par les MCO du dernier paramètre de la régression ci-dessous :
( θ)
X t = α (θ) (θ) (θ)
0 +α 1 X t −1+ α 2 X t−2 +…+ α k X t−θ + ε t
(θ)
Avec α 0 =corr( X t , X t −θ∨X t −θ ,… , X t −θ+1 )
H0 : ρθ =0
H1 : ρθ ≠ 0
Nous pouvons utiliser le test d’hypothèses d’un coefficient de corrélation, fondé sur la
comparaison d’un t de Student empirique et théorique. Toutefois, Quenouille a démontré que
pour un échantillon de taille importante(n> 3), le coefficient ρθ tend de manière asymptotique
vers une loi normale de moyenne 0 et d’écart type 1/√ n .
L’intervalle de confiance du coefficient ρθ est alors donné par :
[
ρθ = −t α / 2
1
√n
; t α/ 2
1
√n ]
n = nombre d’observations.
Un processus de bruit blanc implique que ρ1= ρ2=…=ρh=0 , soit les hypothèses :
40
H0: ρ 1= ρ2=…=ρh=0
k=1 n−k
Q est aussi distribuée selon une χ à h degrés de liberté et dont les règles de décisions sont
' 2
identiques au précédent. Ces tests sont appelés par les anglo-saxons : «portmanteau test » soit
littéralement test « fourre-tout ».
3) Tests de normalité
Pour calculer des intervalles de confiance prévisionnels et aussi pour effectuer les tests de
Student sur les paramètres, il convient de vérifier la normalité des erreurs. Le test de Jarque et
Bera (1984), fondé sur la notion de Skewness (asymétrie) et de Kurtosis (aplatissement),
permet de vérifier la normalité d’une distribution statistique.
a) Les tests du Skewness et du Kurtosis
n
1
Soit μk = ∑ ( X −X )k le moment centré d’ordrek , le coefficient de Skewness ( β 11 /2 ) est égal à
n i=1 i
1/ 2 μ3 μ4
: β 1 = 3/ 2 et le coefficient de Kurtosis β 2= 2 .
μ2 μ2
1/ 2
β1 → N 0 ;( √ 6n ) et β → N (3 ; √ 24n )
2
v1 =
|β11 /2−0| | β2−3|
v 2=
√ √
6 et 24 que l’on compare à 1,96 (valeur de la loi normale au seuil de 5
n n
%).
41
Si les hypothèses H0 : v1 =0(symétrie) et v 2=0(aplatissement normal) sont vérifiées, alors
v1 ≤ 1,96 et v 2 ≤1,96 ; dans le cas contraire, l’hypothèse de normalité est rejetée.
Il s’agit d’un test qui synthétise les résultats précédents ; si β 1/1 2 et β 2 obéissent à des lois
n n 2
normales alors la quantité s= β 1+ ( β 2−3 ) s uit une χ 2à deux degrés de liberté.
6 24
Donc si s> χ 21−α ( 2 )on rejette l’hypothèse H0 de normalité des résidus au seuilα .
Etape 1 : pour un échantillon donné, il faut ordonner les observations en fonction des valeurs
croissantes ou décroissantes, soit de la variable expliquée, soit de la variable explicative
soupçonné être la source de l’hétéroscédasticité.
Etape 2 : extraire arbitrairement de l’échantillon d’observations, un nombre ∆ d’observations.
Ces observations sont prélevées au centre de l’échantillon et retiré de l’analyse, partageant
ainsi l’échantillon en deux sous échantillons. La valeur de ∆ est approximativement égale au
quart du nombre d’observations total.
42
• Formulation des hypothèses du test :
La Fischer calculée est égale au rapport des sommes des carrées résiduels des deux sous-
échantillons.
Ici, c’est la SCR élevée qui est rapportée à la SCR faible (c’est à dire la SCR la plus élevée est
toujours au numérateur). Ainsi,
[ F¿ =
SCR 1 /ddl 1
SCR 2 /ddl 2 ] [
( si SCR 1 > SCR 2) ou encore F¿ =
SCR 2 /ddl 2
SCR 1 /ddl 1
(si SCR 2 > SCR 1)
]
• Comparaison et conclusion :
F ¿est comparé à la Fischer lue, pour un seuilα , a (𝑑𝑑𝑙1, 𝑑𝑑𝑙2) 𝑜𝑢 (𝑑𝑑𝑙2, 𝑑𝑑𝑙1) en fonction du
cas. Si
¿
F > F table , le modèle est hétéroscédastique car on rejette 𝐻0.
Si un processus est non stationnaire, il peut s’agir d’une non stationnarité du type déterministe
(processus TS) ou bien de type stochastique (processus DS). Les tests de racines unitaires de
Dickey-Fuller permettent de mettre en évidence le caractère stationnaire ou non d’une série
temporelle par la détermination d’une tendance déterministe ou stochastique
PROCESSUS STOCHASTIQUES NON STATIONNAIRES A TENDANCE
UNIQUEMENT DETERMINISTE
43
vt = ɛt + ∅ 1ɛt-1 + ∅ 2ɛt-2 + …
Pour tout t où ɛt est un bruit blanc. Si l'on utilise la notation de l'opérateur de retard, on obtient
:
vt= (1 + ∅ 1B + ∅ 2B2 + …)ɛt = ∅ (B)ɛt
Pour tout t où ∅ (B) est un polynôme en l'opérateur de retard B. Un processus stochastique non
stationnaire à tendance déterministe uniquement évolue de la manière suivante :
Xt = g(t) + ∅ (B) ɛt (2)
Vu que la partie aléatoire ɛt de Xt est stationnaire, la non-stationnarité de X t est inhérente
uniquement à sa partie déterministe g(t).
Le processus TS le plus simple et le courant est représenté par une fonction polynomiale de
degré 1 ; on ainsi Xt = ∅ 0 + ∅ 1t + ɛt on observe avec vigilance que ce processus n’est pas
stationnaire car : E(Xt) dépend du temps ; soit E(Xt) = ∅ 0 + ∅ 1t ∀ t = 1. . .n
Dans ce type de processus, l’effet d’un choc ou de plusieurs chocs aléatoires à un instant
donné est transitoire. Donc dans ce cas expliciter la valeur de Xt et de son espérance à chaque
période :
t = 1 : X1 = ∅ 0 + ∅ 1 + ɛ1 et E(Xt) = ∅ 0 + ∅ 1
t = 2 : X2 = ∅ 0 + 2∅ 1 + ɛ2 et E(Xt) = ∅ 0 + 2∅ 1
t = 3 : X3 = ∅ 0 + 3∅ 1 + ɛ3 et E(Xt) = ∅ 0 + 3∅ 1 …
Xt augmente mécaniquement de 1∅ 1 à chaque période. À chaque période, la partie aléatoire de
Xt est ɛt , qui est stationnaire. On dit que Xt est « stationnaire autour d'une tendance
déterministe ». L'augmentation mécanique de l'espérance est la seule cause de la non-
stationnarité de Xt , qui est de nature purement déterministe : la partie déterministe de X t n'est
pas stationnaire, contrairement à la partie aléatoire de X t . La variance de Xt est constante dans
le temps parce que ɛt est stationnaire :
Var(Xt) = Var (ɛt) = σɛ2 ∀ t = 1. . .n (3)
Sur les valeurs ultérieures du processus, l'effet d'un choc aléatoire ɛ t est temporaire, puisque
son impact sur les valeurs successives Xt-1, Xt-2. . . S’estompent progressivement. En effet, un
choc ɛt en t affecte Xt+1 uniquement par la manière dont vt est lié à vt+i. Or vt est stationnaire :
le lien entre vt et vt+i s'estompe au fur et à mesure que l'écart de temps i s'accroît. Si v t est un
bruit blanc, un choc ɛt n'a d'effet que sur Xt , et non sur Xt+1, Xt+2 . . .
Les processus stochastiques non stationnaires à tendance stochastique sont dits intégrés ou à
racines unitaires. Un processus stochastique est non stationnaire à tendance stochastique
quand une ou plusieurs racines unitaires figurent dans sa partie autorégressive ou
déterministe, ce qui implique que la somme de ses coefficients autorégressifs est égale à 1.
44
Tout processus (Xt) peut en effet être représenté approximativement par un modèle AR(p), où
p est suffisamment grand pour capter toute la dynamique de (Xt) :
∀ t : Xt = ∅ 0 + ∅ 1Xt-1 + ∅ 2Xt-2 + . . . + ∅ pXt-p + ɛt (1)
Si l'on utilise la notation de l'opérateur de retard, on obtient :
∀ t (1 - ∅ 1B - ∅ 2B2 + . . . + ∅ pBp) Xt +ɛt = ∅ 0 + ɛt où le processus stochastique (ɛt) est un bruit
blanc. Xt est à tendance stochastique si ∅ 1 + ∅ 2 + . . . + ∅ p = 1.
Cela implique qu'une racine unitaire figure dans le polynôme caractéristique du processus.
Soit :
X (B) = 1 - ∅ 1B - ∅ 2B2 + . . . + ∅ pBp
Cas d’un AR(1) :
Xt = ∅ 0 + ∅ 1Xt-1 + ɛt i.e Xt - Xt-1 = ∅ 0 + ɛt
(1 – B)Xt = ∅ 0 + ɛt
On distingue alors deux cas selon que la constante ∅ 0 est égale à 0 ou non :
Si ∅ 0 = 0, alors le processus DS est dit sans dérive. ɛ t étant un bruit blanc, un tel
processus est aussi appelé marche au hasard. Il et très fréquemment utilisé pour
l’efficience des marchés financiers.
Si ∅ 0 ≠ 0, alors on dit que le processus DS est avec dérive.
Dans un processus DS, l’effet produit par un choc à un instant donné se répercute à l’infini sur
les valeurs futures de la série. C’est un effet permanent qui évolue de manière décroissante.
De façon générale, Les caractéristiques d'un processus stochastique X t non stationnaire à
tendance stochastique sont :
L'espérance de Xt est constante en l'absence de dérive (terme constant) et varie dans le
temps en cas de dérive : une tendance déterministe s'ajoute alors à la tendance
stochastique.
La variance de Xt varie dans le temps.
L'effet d'un choc ɛt est permanent : il affecte de la même manière toutes les valeurs X t+i
ultérieures.
Lorsqu'on travaille avec une ou plusieurs séries économiques observées, il est important de
déterminer, pour chaque série, si le processus stochastique dont elle est la réalisation est :
stationnaire ;
non stationnaire à tendance uniquement déterministe (ou stationnaire autour d'une
tendance déterministe) ;
non stationnaire à tendance stochastique.
L'importance de cette information est évidente dans les cas de figure suivants :
45
On souhaite spécifier et estimer un modèle où l'évolution d'une série économique n'est
« expliquée » que par son passé. Il faut d'abord « stationnariser » la série (établir une
transformation stationnaire de cette série) avant de chercher le meilleur modèle ARMA qui
décrit l'évolution temporelle de cette transformation stationnaire. Or, si une série est non
stationnaire, la nature de sa transformation stationnaire diffère en fonction de la tendance
(déterministe uniquement ou stochastique) du (par exemple une variable dépendante et une ou
plusieurs variables explicatives) et tester des hypothèses sur les paramètres de cette relation.
Les techniques d'inférence statistique à utiliser sont différentes en fonction de la nature des
processus stochastiques de ces séries :
Les techniques d'inférence processus de cette série. On souhaite estimer un modèle linéaire
reliant plusieurs séries économiques statistique classique sont valables à condition qu'aucune
série de la relation n'ait une tendance stochastique. Les techniques liées à la problématique de
la cointégration s'imposent lorsque des séries de la relation ont une tendance stochastique. Les
tests de racine unitaire permettent de tester les hypothèses :
o H0 qu'une série économique observée est la réalisation d'un processus stochastique
non-stationnaire à tendance stochastique ;
o H1 que ce processus est stationnaire à tendance uniquement déterministe ou
stationnaire.
Ces tests sont basés sur l'estimation préalable d'un modèle autorégressif AR(p) censé
approcher le vrai comportement du processus stochastique dont la série observée est une
réalisation.
Les tests de racine unitaire « Unit Root Test » permettent non seulement de détecter
l’existence d’une non-stationnarité mais aussi de déterminer de quelle non-stationnarité il
s’agit (processus TS ou DS) et donc la bonne méthode pour stationnariser la série. Pour
vérifier la stationnarité des séries, il faut pratiquer des tests de stationnarité ou des tests de
racine unitaire.
Il existe plusieurs tests de racine unitaire : tests de Dickey-Fuller simple et Dickey-Fuller
Augmenté, test de Phillips et Perron, test de Kwiatkowski, Phillips, Schmidt et Shin (test de
KPSS).
Tests de Dickey-Fuller (DF) (1979) : erreurs non autocorrélées.
Le test de Dickey-Fuller (DF) permet de mettre en évidence le caractère stationnaire ou non
d’une chronique par la détermination d’une tendance déterministe ou stochastique. Les
auteurs spécifient trois modèles :
Modèle (1): Xt = ∅ 1Xt-1 + ɛt
Modèle (2): Xt = ∅ 1Xt-1 + c + ɛt
Modèle (3): Xt = ∅ 1Xt-1 + bt + c + ɛt
Le principe du test est simple : si l’hypothèse H0 : ∅ 1 = 1 est retenue dans l’un de ces trois
modèles, le processus est alors non stationnaire. Si l’hypothèse H0 est vérifiée, la chronique
Xt n’est pas stationnaire quel que soit le modèle retenu. Dans le dernier modèle [3], si on
accepte H1 : ∅ 1 < 1 et si le coefficient b est significativement différent de 0, alors le processus
46
est un processus TS ; on peut le rendre stationnaire en calculant les résidus par rapport à la
tendance estimée par les moindres carrés ordinaires.
Si on s’intéresse au Modèle(1), on va tester :
{ H 0 :∨∅1∨¿ 1
H 1:∨∅ 1∨¿ 1
{ H 0 :(ϕ 1−1)=0
H 1:(ϕ 1−1)< 0
(ATTENTION : il faut observer ici que pour | t ∅| > tDF , on n’a pas H1. La règle de décision
est ici inversée).
Pour ce test on utilise le test de Student mais sachant que la distribution du test de Student
sous l'hypothèse H0 n'est plus standard. Sous H0 cette distribution a été tabulée par Dickey et
Fuller d'où le nom de test de Dickey-Fuller (1976) qui a été donné au plus courant des tests de
racine unitaire.
Il existe une version dans laquelle on introduit dans le modèle(1) les accroissements décalés
de la variable expliquée
Δ Xt = (∅ 1 - 1) ∅ 1Xt-1 + Δ Xt-1 + …+ Δ Xt-n ɛt connue sous le nom de Augmented Dickey Fuller
(ADF), qui est une version plus générale du test. Les valeurs critiques du test se lisent dans la
table de Dickey-Fuller.
Les tests de Dickey et Fuller Augmentés (ADF) (1981) : erreurs autocorrélées.
47
Dans les modèles précédents, la procédure de test DF n’est applicable que sous l’hypothèse
suivant laquelle les erreurs ε t sont i .i . d . , autrement dit , si la série chronologique X t suit un
processus autorégressif d’ordre 1 connu. Il va sans dire que cette hypothèse est trop
restrictive ; en pratique, il est peu vraisemblable qu’elle soit satisfaite. Toutefois, DICKEY et
FULLER (1981) étendent cette procédure de test à des séries chronologiques admettant une
représentation d’ordre p.
Les tests ADF sont fondés, sous l’hypothèse alternative |∅1|<1 , sur l’estimation par les MCO
des trois modèles autorégressifs d’ordre p suivants :
p
Modèle [4] : ∆ X =ρ X t−1−∑ ∅ j ∆ X t − j +1+ ε t
t
j=2
p
Modèle [5] : ∆ X =ρ X t−1−∑ ∅ j ∆ X t − j +1+ c+ ε t
t
j=2
p
Modèle [6] : ∆ X t= ρ X t−1−∑ ∅ j ∆ X t − j+ 1+ c+bt +ε t avec ε t →i .i . d .( 0 , σ ε )
2
j=2
Le test se déroule de manière similaire aux tests DF simples, seules les tables statistiques
diffèrent. La valeur de p peut être déterminée selon les critères d’Akaike ou de Schwarz, ou
encore, en partant d’une valeur suffisamment importante de p, on estime un modèle à p – 1
retards, puis à p – 2 retards, jusqu’à ce que le coefficient du pième retard soit significatif.
Le test de Phillips et Perron (1988)
Ce test est construit sur une correction non paramétrique des statistiques de Dickey-Fuller
pour prendre en compte des erreurs hétéroscédastiques. Il se déroule en quatre étapes:
1) Estimation par les moindres carrés ordinaires des trois modèles de base des tests de
Dickey-Fuller et calcul des statistiques associées, soit e t le résidu estimé.
n
1
2) Estimation de la variance dite de court terme σ^ = ∑ e t
2 2
n t=1
3) Estimation d'un facteur correctif s2t (appelé variance de long terme) établi à partir de la
structure des covariances des résidus des modèles précédemment estimés de telle sorte que les
transformations réalisées conduisent à des distributions identiques à celles du Dickey-Fuller
standard :
( )
n I n
1 i 1
s = ∑ e t +2 ∑ 1− ∑ee .
2 2
t
n t =1 i=1 I +1 n t =i+1 t t−i
Pour estimer cette variance de long terme, il est nécessaire de définir un nombre de retards I
(troncature de Newey-West) estimé en fonction du nombre d'observations n, I ≈ 4 ( n/ 100 )2 /9 .
48
Stratégie de tests
Nous constatons que pour réaliser un test de racine unitaire, le résultat n’est pas identique
selon l’utilisation de l’un des trois modèles comme processus générateur de la chronique de
départ. Les conclusions auxquelles on parvient sont donc différentes et peuvent entraîner des
transformations erronées. C’est la raison pour laquelle Dickey et Fuller, et à leur suite d’autres
auteurs, ont élaboré des stratégies de tests.
Le test KPSS (1992)
49
Stratégie simplifiée des tests de racine unitaire
NB : y t =X t , y t −1=X t −1 et at =ε t
n
Une série non stationnaire doit être stationnarisée avant toute estimation, et le modèle de
stationnarisation dépend de la source de non stationnarité.
50
Pour stationnariser un processus TS, on peut passer par la méthode des moindres
carres.
Pour un processus DS, on utilise le filtre aux différences premières.
Pour un processus TS, la bonne méthode de stationnarisation est celle des moindres carrés
ordinaires. Supposons que l'on applique au processus TS du premier ordre un filtre aux
différences premières. A priori, comme le degré du polynôme est 1, ce filtre peut être
considéré comme correct puisqu'un filtre aux différences d'ordre d élimine un polynôme de
même degré. Cependant, on démontre que l'application du filtre aux différences a créé une
perturbation artificielle. Pour un processus DS, la bonne méthode de stationnarisation est le
filtre aux différences premières. Supposons que l'on applique la méthode des moindres carrés
ordinaires (régression sur le temps) sur les observations d'un échantillon du processus, les
paramètres de la tendance sont estimés et par conséquent le résidu de la régression doit être un
bruit blanc. Nelson et Kang montrent à partir de simulations, que l'élimination d'une tendance
linéaire sur un processus de marche aléatoire crée artificiellement une forte autocorrélation
des résidus pour les premiers retards.
Sur le plan économétrique, il est donc primordial d'identifier clairement le processus sous-
jacent et d'employer la méthode adéquate de stationnarisation. Sinon le risque de créer des «
bruits parasites » artificiels est très élevé.
CONCLUSION
La théorie économétrique a été élaborée dans les années 40 en supposant d'une part que la
théorie économique est capable de fournir des modèles directement testables et d'autre part
que la confrontation avec les données nous permet de rejeter ou d'accepter sans ambiguïté une
théorie. Il s’agit, nous l'avons vu, d'une double illusion.
Tout d'abord les modèles théoriques sont loin d'être toujours utilisables par l'économètre. En
effet certaines variables ne sont ni directement observables ni directement mesurables .D'autre
part de nombreux modèles théoriques restent insuffisamment spécifiés. Par exemple ils
n'indiquent pas les délais à prendre en compte. Enfin les théories économiques sont
formalisées de façon trop générale pour être testables (comme la théorie walrasienne) soit sont
construites sous l'hypothèse "Ceteris Paribus» (toute chose égale par ailleurs). Dans ce
dernier cas nous ne pouvons savoir si la non correspondance entre le modèle théorique et les
observations proviennent de la mauvaise spécification de la fonction ou bien d'un changement
dans l'environnement du modèle. Les difficultés proprement statistiques ne sont pas moins
réelles. Trop souvent les données utilisées par l'économètre restent très approximatives - pour
ne pas dire fausses ce qui rend douteux les résultats obtenus ; D'autre part les méthodes
statistiques ne sont souvent justifiées que pour des séries très longues alors que l'économiste
ne dispose généralement que de séries courtes. Au reste pour des séries très longues
l'homogénéité des variables pose souvent problème. Ces difficultés ne doivent pas cacher
l'importance de l'économétrie dans l'analyse économique contemporaine. S'il n'est souvent pas
51
possible de rejeter une théorie économique sur la seule base des résultats économétriques, les
tests d'acceptabilité statistique sont devenus des procédures routinières, d'autant que les
programmes informatiques sont aujourd'hui facilement disponibles. L'économétrie a du reste
contribué à modifier la théorie économique dans la mesure l'exigence de modèles testables
devient une condition d'acceptabilité dans les publications scientifiques. Dès lors la notion de
stationnarité s’est avérée indispensable au fil des analyses faites dans ce chapitre pour mener à
bien l’analyse des données dans le cadre de l’économétrie sans modèle préalablement défini
(économétrie des séries temporelles).
52