Cours D'économétrie 2 Seco4

COURS D’ECONOMETRIE – SCIENCES ECONOMIQUES QUATRIEME ANNEE
Introduction Générale
1
CHAPITRE 1: LES REGRESSIONS LINÉAIRES MULTIPLES
INTRODUCTION
Les modèles économétriques sont spécialement destinés à étudier les relations de dépendance
entre la variable endogène (les variables à expliquer) et les variables exogènes (les variables
explicatives). Ce modèle consiste à faire une représentation schématique et partielle d’une
réalité qui est plus complexe sous forme d’équation dont les variables sont des grandeurs
économiques jugées déterminantes pour le phénomène étudié. Le rôle de l’économétrie est
d’estimer et de tester les paramètres du modèle étudié afin de vérifier leurs significativités
pour la prise de décision et faire des prévisions. Notre travail portera sur la présentation du
modèle de régression simple et multiple dans lesquels nous examinerons la méthode des
moindres carrés ordinaires (MCO) et ses limites qui nous conduirons à présenter la méthode
des moindres carrés généralisés (MCG)
I-LE MODELE DE REGRESSION SIMPLE
A- Méthode d’estimation des Moindres Carrés Ordinaires (MCO)
1. Hypothèses et propriétés des estimateurs des MCO
B- Critère de jugement de la qualité de l’ajustement d’un modèle : R²
II-LE MODELE DE REGRESSION MULTIPLE
A- Méthode d’estimation des Moindres Carrés Ordinaires (MCO)
1. Hypothèses et propriétés des estimateurs des MCO
B- Critère de jugement de la qualité de l’ajustement d’un modèle: R², R2c, s
C- Utilisation de variables indicatrices pour la correction des valeurs anormales et
détection des valeurs anormales.
D- Prévision
III-LES TESTS
A - Test de significativité d’un coefficient: test de student
B- Test de significativité global: test de Fisher
C- Test de normalité des erreurs
IV- PRESENTATION DE LA METHODE DES MOINDRES CARREES
GENERALISEES
CONCLUSION
2
I/ LE MODELE DE REGRESSION SIMPLE
Soit le modèle suivant :
y t =a1 x t +a 0
On parle de modèle de régression simple car le modèle ne comporte qu’une seule variable
explicative qui est xt. Lorsque le modèle comporte plusieurs variables explicatives, on parlera
de modèle de régression multiple.
On cherche à estimer les coefficients a1 et a0 de cette droite dans le but de reproduire le
phénomène économique observé.
On n’étudiera que l’estimation des modèles linéaires (les droites) à une ou plusieurs variables.
Il existe des modèles non linéaires (à seuil(2) par exemple) dont l’étude ne sera pas abordées
ici.
Notations :
Le modèle à estimer s’écrit :

y t =a1 x t +a 0+ εt
avec par exemple t = 1980, 1981,…, 2004 (qui peut être remplacé par un nombre : t =
1,2,…,T)
Où t est la date à laquelle on observe la valeur de yt et de xt et εt est une variable aléatoire
représentant l’erreur de spécification dont les caractéristiques seront précisées au cours de
l’énoncé des hypothèses du modèle. On introduit la variable εt pour marquer le fait que toute
modélisation d’un phénomène ne peut pas être parfaite.
Une fois que les coefficients sont estimés, le modèle va s’écrire :
ŷt = â1xt + â0
Ou encore
yt = â1xt + â0 + et
Où â1 et â0 désignent les valeurs estimées des paramètres a1 et a0, et = yt - ŷt est appelé le

résidu du modèle. et est l’estimateur de l’erreur εt que l’on ne connaît pas.
A/ Méthode d’estimation des Moindres Carrés Ordinaires (MCO)
Comment estimer a1 et a0 pour reproduire au mieux le phénomène économique observé ?

La technique des Moindres Carrés Ordinaire (MCO) apporte une réponse au problème posé.
On doit estimer a1 et a0 de façon à minimiser la distance au carré entre chaque point observé
yt
et chaque point ŷt donné par la droite ŷt = â1xt + â0.
Soit e = yt – ŷt l’écart entre ces deux mesures, la méthode ou technique des MCO consiste à
rechercher les valeurs de a0 et a1 de façon à minimiser la quantité suivante :
3
T T T
Min ∑ et =min ∑ ( y t −^y t ) =min ∑ ( y t− a^ 1 x t −a 0) =min S
2 2 2
t =1 t =1 t=1
Où T désigne le nombre d’observations pour les variables yt et xt.
Les conditions nécessaires du 1er ordre pour obtenir un optimum pour S sont :
T
∂S
• = 0 ¿> ∑ −2 ( yt − a^ 1 x t −a0 ) =0 → dite « équation normale »
∂ a^ 0 t =1
T T T
¿> ∑ y t−¿ ∑ a^ 1 x t −∑ a^ 0 ¿
t =1 t =1 t=1
T T
∑ y t ∑ a^ 1 x t T a^ 0 = 0
t=1 t =1
¿> − −
T T T
¿> y −â1 x−â 0 = 0
→ la droite d’ajustement ^y t passe par le point moyen ( x , y )
⇔ â0 = y− a^ 1 x
→ estimateur de a0 par les MCO

T
∂S
• = 0 ∑ −2 x t ( y t −a^ 1 x t− a^ 0 ) =0 équation normale
¿>
∂ a^ 1 t =1
T T T
¿>−∑ xt y t +∑ a^ 1 x 2t + ∑ a^ 0 xt =0
t =1 t=1 t =1
T T T
∑ x t y t a^ 1 ∑ x 2t a^ 0 ∑ x t
t=1 t =1 t =1
¿> + + =0
T T T
T T
∑ xt yt a^ 1 ∑ x t
2
( y− a^ 1 x ¿ x=0 en utilisant l’expression de l’estimateur de
t=1 t =1
¿> + +¿
T T
a0
( )
T T
−∑ x t y t ∑ x 2t
t =1 t =1 2
¿> + a^ 1 −x + x y=0
T T
4
T T
∑ xt yt ∑ x t y t −T y x
t =1 t =1
−x y
T T
¿> a^ 1= = estimateur par les MCO
( )
T ¿¿
∑x 2
t
t =1
−x 2
T
1/ Hypothèses et propriétés des estimateurs des MCO
Les hypothèses liées à l’erreur εt sont :
H1 : xt est une variable certaine (non aléatoire)
⇒ Cov(xt,εt) = 0 ∀t : la variable explicative et l’erreur sont indépendantes.
H2 : E(εt) = 0 ∀t : l’erreur est d’espérance nulle.

2
H3 : Var(εt) = E(ε2 ) – (E(εt))² = E(ε2t ) = σ ε ∀t car on a supposé E(εt) = 0
⇒ la variance de l’erreur est constante (soit homoscédasticité de l’erreur).
H4 : Cov(εt,εt’) = E(εt. εt’) – E(εt).E(εt’) = E(εt. εt’) = 0 car on a E(εt) = 0 ∀t ≠ t’
⇒ les erreurs sont non corrélées.
Ces hypothèses permettent aux estimateurs d’obtenir les bonnes propriétés suivantes :
1/ les estimateurs sont sans biais : E(â1) = a1 et E(â0) = a0 ;

2/ les estimateurs sont convergents : Tlim var ( a^ 1)=0 et lim var ( a^ 0 )=0
→+∞ T →+∞
Théorème de Gauss-Markov :
Les estimateurs des MCO ont la plus petite variance parmi les estimateurs linéaires sans biais.
On dit que ce sont des estimateurs BLUE (Best Linear Unbiased Estimator).
B/ Critère de jugement de la qualité de l’ajustement d’un modèle
Soit la décomposition suivante :

∑ ( y t − y)2 =∑ ( ^y t − y )2=∑ e 2t
SCT = SCE + SCR
où SCT = somme des carrés totale ou variabilité totale de yt , SCE = somme des carrés
expliquée ou variabilité expliquée par ŷt , SCR = somme des carrés des résidus ou variabilité
des résidus.
Il vient l’équation suivante appelée équation d’analyse de la variance :
5
∑ ( y t − y )2 = ∑ ( ^y t − y)2 + ∑ e2t
T T T
Soit
Var(y) = Var(ŷ) + Var(e).
A partir de l’équation d’analyse de la variance, on va construire le critère du R² (ou

coefficient de détermination) pour juger de la qualité d’un ajustement.
Le R² est donné par le rapport suivant :

T T T
SCE SCR t=1

∑ ( ^y t − ^y t ) 2 ∑ ( ^y − y ) 2
∑ e 2t
t=1 t=1
R² = =1− = T = =1−
SCT SCT T T
∑ ( y t − y )2 ∑ ( y t − y )2 ∑ ( y t− y ) 2
t =1 t =1 t =1
T
On a : ^y = y car on ∑ et = 0 lorsque le modèle comporte une constante. Plus SCE est
t =1
proche de SCT, meilleur est l’ajustement du nuage de points par la droite des
MCO.
Le R² est compris entre 0 et 1 (0 ≤ R² ≤ 1) : plus il est proche de 1, meilleur est l’ajustement.
II/ LE MODELE DE REGRESSION MULTIPLE
Le modèle de régression multiple est une généralisation du modèle de régression simple. Il

comporte plusieurs variables explicatives.
Soit le modèle de régression multiple suivant qui comporte k variables explicatives :
y t =a0 + a1 x 1 t + a2 x 2 t +…+ a(k −1 ) x (k−1 ) t + ε t pour t=1, 2 , … , n .
{
y 1=a0 + a1 x 11+ a2 x 21 +…+ ak−1 x (k −1 )1 + ε 1
y 2=a0 + a1 x 12+ a3 x22 +…+ ak−1 x ( k−1 ) 2+ ε 2
…
y T =a0 +a1 x 1T +a2 x 2T + …+a k−1 x (k−1 )T + ε T
Pour alléger cette écriture, on va écrire ce système d’équation sous forme matricielle :
Y (T ,1 )=X (T ,1 ) a(K ,1) +ε (T , 1)
Où on a
6
[] [ ] [ ] []
y1 1 x 11 x 21 … x(k−1)1 a0 ε1
y 1 x 12 x 22 … x(k−1)2 a1 ε2
Y= 2 ; X= ; a= ; ε=
… … … … … … … …
yT 1 x 1T x2T … x (k−1)T a k−1 εT
A/ Méthode d’estimation des Moindres Carrés Ordinaires (MCO)
Soit le modèle général suivant :
Y(T,1) = X (T , k) a(T ,1) + ε(T,1) .
Afin d’estimer le vecteur a des coefficients, on applique la méthode des MCO qui consiste
toujours à minimiser la somme des carrés des résidus, soit :
T
Min ∑ e2t =min e' e=min ( Y − X a^ ) ( Y −X a^ )=minS
'
t =1
où e’ est le transposé du vecteur e.
Les équations issues de la relation -X’Y + X’Xâ = 0 sont appelées équations normales.
On voit que l’on ne peut obtenir l’estimateur â de a que si (X’X) est inversible. Lorsqu’il y a
colinéarité des variables explicatives, la matrice (X’X)-1 n’est pas inversible !
1/ Hypothèses et propriétés des estimateurs des MCO
H1 : E(ε) = 0 ⇒ E(εt) = 0 ∀ t : l’erreur est d’espérance nulle.
H2 : X est une matrice composée de variables certaines (non aléatoires).

⇒ Cov(xit , εt) = 0 ∀ t et i : pas de corrélation entre la variable explicative xit et l’erreur εt.
H3 : Rg(X) = k et T > k
(le nombre d’observations T doit être supérieur au nombre de variables explicatives k car on a
Rg(X(T,k)) ≤ Min(T,k). Si T > k, on a alors Rg(X) = k qui est vérifiée)
⇒ il n’existe pas de colinéarité stricte des k variables explicatives.
H4 : Vε = E[(ε-E(ε))(ε-E(ε))’] = E(ε ε’) = σ 2ε I car on a E(ε) = 0 d’après (H1)
Vε = matrice des variances-covariances des erreurs ε
où
7
( )[ ]
var ( ε 1 ) cov ( ε 1 , ε 2 ) … cov ( ε 1 , ε T ) E ( ε1 ε1 ) E ( ε1 ε2 ) … E ( ε1 ε n )
cov ( ε 2 , ε 1 ) var ( ε 2 ) … cov ( ε 2 , ε T ) E ( ε2 ε1 ) E ( ε2 ε2 ) … E ( ε2 ε n )
Vε = E(εε’) = =
… … … … … …. ……….
cov ( ε T , ε 1 ) … var ( ε T ) E ( εT ε1 ) … … E ( εT εT )
Var(ε 1 ¿=E ( ε t ) −¿
2
car on a et Cov
( ε 1 , ε 2) =E ( ε 1 ε 2) −E ( ε 1) . E ( ε 2 ) =E ( ε 1 ε 2 ) car E ( ε 1 )=E ( ε 2 )=0 d ' après l' hypothèse H 1 postulée.
Loesqu’il n’y a pas autocorrélation ni hétéroscédasticité des erreurs, on a :
[ ]
σ 2ε 0 … 0
2
0 σ … 0 =σ 2 I (I est une matrice identité )
ε
Vε = E(εε’) = ε
… … … …
2
0 0 … σε
Car on a Var (ε 1 ¿=¿ σ 2ε ∀ t ( homoscédasticité des erreurs ) et Cov( ε 1 , ε 2) =¿0

'
∀ t ≠ t (non autocorrélation des erreurs)
X'X
H5 : tend versune matrice finie non singulière ( inversible ouregulière ) .
T
Ces hypothèses permettent aux estimateurs d’obtenir les bonnes propriétés suivantes :
1/ les estimateurs sont sans biais (6) : E(â)= a ;
2/ les estimateurs sont convergents : Tlim

→∞
V â=0
En effet, on a : Vâ =σ 2ε (X’X)-1
−1
1 1(
ou encore : Vâ = σ 2ε ( X ’ X ))
T T
On a : Tlim V â = 0 si l’hypothèse H5 suivante est vérifiée : 1 ( X ’ X ) tend vers une matrice
→∞ T
finie, définie positive et inversible lorsque T tend vers ∞.
On calcule : Vâ =σ 2ε (X’X)-1 à l’aide de l’estimateur de σ 2ε qui s’écrit comme suit :
2 2
σ =s = SCR t=1
ε
∑ e 12
=
T −k T −k
B/ Critère de jugement de la qualité de l’ajustement d’un modèle
8
Comme pour le modèle de régression simple, on a la décomposition suivante :
T T T
∑ ( y t − y)2 =∑ ( ^y t −^y )2+∑ e 12

t =1 t=1 t =1
SCT = SCE + SCR
Où SCT = somme des carrés totale ou variabilité totale de y t , SCE = somme des carrés
expliquée ou variabilité expliquée par ^y t , SCR = somme des carrés des résidus ou variabilité
des résidus.
T T T
D’où
∑ ( y t − y )2 ∑ (^y t −^y )2 ∑ e12
t =1
= t =1 + t =1
T T T
Var(y) = Var(ŷ) + Var(e).
Comme pour le modèle de régression simple, on va construire le critère du R² (ou coefficient

de détermination) à partir de l’équation d’analyse de la variance, d’où
T T T
SCE t=1
∑ ( ^y t− ^y )2 ∑ ( ^y t − y )2 ∑ e 12
t =1 t =1
R² = = T = =1−
SCT T T
∑ ( y t− y)2 ∑ ( y t − y )2 ∑ ( y t − y )2
t=1 t =1 t =1
T
^y =¿ y et ∑ e1 =0 (lorsque le
2
On a comme pour le modèle de régression simple, on a :
t =1
modèle comporte une constante).
Le coefficient de détermination corrigé :
Le R² ne permet de comparer que des modèles ayant le même nombre de variables

explicatives, le même nombre d’observations et la même forme (on ne peut pas comparer un
modèle simple avec un modèle en log).
Lorsque l’on ajoute des variables explicatives supplémentaires dans un modèle, le R² a
tendance à augmenter sans qu’il y ait forcément amélioration du modèle. C’est pourquoi,
lorsque l’on veut comparer des modèles qui n’ont pas le même nombre de variables
explicatives, on utilise le R² corrigé pour s’affranchir du biais :
T −1
Rc 2=1−(1−R 2)
T −k
Remarque :
En général, lorsque les modèles n’ont pas le même nombre de variables explicatives, on
√
'
utilise pour comparer les modèles le critère du s = σ^ ε= e e où e’ est le transposé du
T −k
9
vecteur des résidus du modèle estimé, T désigne le nombre d’observations et k le nombre de
variables explicatives. Le meilleur modèle est celui qui a le s le plus petit.
NOTE : le test de Box-Cox permet de comparer un modèle simple à un modèle en log.
C/ Utilisation de variables indicatrices (ou variables muettes ou dummies)
Une variable indicatrice est une variable explicative particulière qui est composée de 0 et de
1.
On peut l’utiliser dans 3 cas :
• Correction des valeurs anormales ;

• En tant que variable qualitative (Ex : pour la variable sexe de l’individu) ;
• Correction de la saisonnalité.
On n’étudiera ici que la correction des valeurs anormales.
Correction des valeurs anormales (ou points aberrants) :
La présence d’un point aberrant dans une série temporelle a pour conséquence
l’autocorrélation des erreurs, il faut donc l’éliminer. Si on a une série temporelle, on ne peut
pas le supprimer directement de la série (on aurait un « trou » dans la série). Il faut utiliser une
variable indicatrice.
Cette variable aura une valeur égale à 1 pour la date à laquelle on observe le point aberrant et
une valeur égale à 0 pour toutes les autres dates de la série temporelle, c’est-à-dire on a :
{
ème '
I82.3 = 1 sit=1982.3 pour≤3 trimestre de l année 1982
0 sinon
Lorsque l’on estime le modèle suivant avec la variable indicatrice I:

14
y t =a1 x t +a2 I 82.3+ a0 +ε t
Cela revient à estimer le modèle suivant sans le point aberrant en t = 1982.3
y t =a1 x t +a 0+ v t
Où ε t et v t désignent l’erreur de chacun des 2 modèles.
Détection des valeurs anormales : construction de l’intervalle de confiance pour les résidus :

Y = Xa + ε
Le modèle estimé s’écrit :
^y t =Xa^ + e
Avec e = Y−Y^ =Y −PY et P= X ¿ est une matrice de projection orthogonale.

On a e = (I- X(X’X)-1X’)Y = (I- X(X’X)-1X’)(Xa+ε) = Xa+ε - X(X’X)-1X’(Xa+ε)
10
= Xa +ε - X(X’X)-1X’Xa - X(X’X)-1X’ε
= Xa +ε – Xa - X(X’X)-1X’ε
= (I - X(X’X)-1X’)ε
= où M est une matrice de projection orthogonale.
On obtient :
E(e) = E(Mε) = ME(ε) = 0 car E(ε) = 0.
Var(e) = E[(e-E(e))(e-E(e)’)]= E(e.e’) car E(e)=0

= E(Mε.ε'M’)
= M E(ε.ε’) Mε M’
= M Var(ε) M’
= σ ε2MM’
= σ ε2M² car M est une matrice de projection orthogonale, on a alors M’= M et M² = M
= σ ε2M
= σ ε2(I - X(X’X)-1X’)
D’où, on a
Var(et)= σ ε2 (1−htt )
Si on a : ε > N ( 0 , σ ε I ) , on a alors e t > N ( 0 , Var ( e t ) ) ,e t suit aussi la loi normale car e = Mε

2
et et
On obtient alors : = > N ( 0,1)
√Var ( e t) σ ε √1−htt
√
SCR et
Si on remplace σ ε par son estimateur σ ε = s = , le rapport suit alors la loi de
T −k s √1−htt
Student avec (T-k) degrés de liberté :
et
~> S(T-k).
s √ 1−htt
et
Lorsque T grand (T > 30), on a qui suit la loi normale centrée et réduite, on peut
s √1−htt
alors écrire :
Prob(-1.96 s √ 1−htt )≤ e t ≤ 1.96 s √ 1−h tt) = 1-α
Où 1,96 représente la valeur critique de la loi normale centrée et réduite pour un risque de 1 ère
espèce α (en générale, α = 5%).
D’où
Prob(- 1,96 s√ 1−htt ≤ e t ≤ 1,96 s√ 1−htt ) = 95%.
Comme htt est petit et négligeable, on obtient :
–1,96s ≤ e t ≤ 1,96s
Qui est approché par
11
-2s ≤ e t ≤ 2s.
Les résidus qui se trouvent en dehors de cet intervalle sont des points aberrants.
On ne peut enlever un point aberrant (à l’aide de la variable indicatrice) que si ce point

aberrant a une explication économique autrement il faut le conserver dans l’échantillon de
données.
D/ Prévisions
Lorsque les coefficients du modèle ont été estimés, il est possible de faire une prévision à un
horizon h.
Soit un modèle estimé sur la période t = 1,…, T :
y t =a0 + a1 x 1 t + a2 x 2 t +…+ a(k −1 ) x (k−1 )t
si la valeur des variables explicatives x1(T+1) , x2(T+1) ,…, x(k-1)(T+1) est connue en T+1, la
prévision de ŷT+1 est donnée par :
^y T +1 = â0 + â1x1(T+1) + â2x2(T+1) + … + âk-1 x(k-1)(T+1).
L’erreur de prévision en T+1 est donnée par :

eT+1 = yT+1 - ŷT+1.
Cette erreur est sans biais car on a E(eT+1) = 0.
Est ce que cet écart eT+1 = yT+1 - ŷT+1 est acceptable ? Pour répondre à cette question, on va
construire un intervalle de confiance (ou de prévision) pour eT+1.
Pour un modèle avec une seule variable explicative, on a :
√ √
2 2
1 ( X T +1−X ) 1 (X T +1− X)
t T−1 σ^ ε +1 ≤ y T +1− ^y T +1 ≥+t T−1 σ^ ε
α/ 2 α/ 2
+ T + +1
- T T T
∑ ( X T −X )2
∑ (X T − X)2
t =1 t =1
( )
2
1 (X T+1 −X )
σ^ ε + +1
Car Var(et)= T T
∑ ( X T −X ) 2
t=1
t αT−1
/2
représente la valeur critique de la loi de Student pour un risque de α % et (T-2) degrés de
liberté.
D’où l’intervalle de prévision suivant :
√ √
2 2
1 (X T +1− X) 1 ( X T +1−X )
σ^ ε + 1≤ y T +1 ≥ ^y T +1 +t T −1 σ^ ε
α/ 2 α /2
^y T +1−t T−1 + T + +1
T T T
∑ ( X T − X)2
∑ ( X T −X )2
t =1 t=1
12
Pour un modèle avec plusieurs variables explicatives, on a :
−t T−1 σ^ ε √ X T −1 ( X ' X ) X T −1+ 1≤ y T +1−^y T +1 ≥ +t T−1 σ^ ε √ X T −1( X ' X ) X T−1 +1

α/ 2 ' −1 α/ 2 ' −1
Car Var(et)= σ 2ε [ X 'T −1( X ' X )−1 X T−1 +1 ]
D’où ^y T +1−t αT /2−1 σ^ ε √ X 'T −1 ( X ' X )−1 X T−1 +1 ≤ y T +1 ≥ ^y T +1 +t αT−1

/2
σ^ ε √ X ' T −1 ( X ' X)−1 X T −1+ 1
La vraie valeur y T +1est contenue dans cet intervalle.
Lorsque l’on dispose de la valeur observée yT+1, on peut vérifier si le modèle que l’on a
estimé est bon ou non en regardant si cette valeur appartient ou non à l’intervalle de
confiance. Si cette valeur n’appartient pas à l’intervalle de confiance, le modèle estimé n’est
pas bon.
III LES TESTS
A- Test de significativité d’un coefficient : test de Student
Pour savoir si une variable joue un rôle explicatif dans un modèle, on effectue un test de
Student ou test de significativité du coefficient de la variable explicative.
Pour faire un test de Student, il faut vérifier au préalable que les erreurs suivent une loi
normale :
ε t > N (0 , σ^ ε )
Posons d’abord les hypothèses du test de Student :
Soit le modèle général suivant :

y t =a0 + a1 x 1 t + a2 x 2 t +…+ a(k −1 ) x (k−1 )t + ε t pour t=1, 2 , … , n .
On a : { H 0 : ai=0 où i=0,1, … , ( k −1 )

H 1 : ai ≠ 0
a^ i−ai
La statistique de test est : t = ^ > S(T −k )
σ a^ i
La statistique de test suit la loi de Student à (T-k) degrés de liberté car les erreurs du modèle
suivent une loi normale.
Sous H0 vraie, on a
a^ i
t= ^ > S (T −k )
σ aî
La règle de décision est la suivante :
13
Si | t | > t* où t* est la valeur critique de la table de Student pour un risque fixé et un nombre
de degré de liberté égal à (T-k)
⇒ On rejette H0 et on accepte H1 : le coefficient est significativement différent de zéro et la
variable joue un rôle explicatif dans le modèle.
Remarque :
Lorsque la taille d’échantillon est grande (T > 30), on peut comparer | t | directement avec le
seuil critique de la loi normale centrée et réduite qui est 1,96 (pour un risque de 5%) car
d’après le théorème central limite, la loi de Student tend vers une loi normale lorsque T est
suffisamment grand. Donc, si | t | > 1,96 ⇒ on rejette H0 et on accepte H1 : le coefficient est
significatif et la variable joue un rôle explicatif dans le modèle.
Si le coefficient n’est pas significativement différent de zéro, il faut enlever la variable
explicative correspondante du modèle (à condition que le critère du s n’augmente pas ! Il
arrive que nous puissions nous tromper sur la non significativité d’une variable en présence
d’une colinéarité des variables explicatives qui entraîne des t de Student relativement faibles
nous conduisant à rejeter à tort certaines variables explicatives. C’est pourquoi il faut
examiner la valeur du s après le retrait des variables jugées non significatives. Une hausse de
la valeur du s indique que la variable retirée était en fait contributive à l’explication de la
variable endogène).
B/ Test de significativité global (de plusieurs coefficients) : test de Fisher
Le test de Fisher permet de tester la significativité de l’ensemble des coefficients d’un

modèle.
Soit le modèle général :
y t =a0 + a1 x 1 t + a2 x 2 t +…+ a(k −1 ) x (k−1 ) t + ε t pour t=1, 2 , … , n .
Les hypothèses du test de Fisher sont les suivantes :
{ H 0 : a1=a 2=…=ak−1=0(la constante a0 est non nul)

H 1 :il existe au moins un coefficient nul
La statistique de test sous H0 vraie est :
( SCR ¿ ¿ c−SCR nc )/(ddl c −ddl nc )

f= > F ( ddl c −ddl nc ) =F ( p , q)¿
(SCR nc / ddl nc )
Où SCRc = SCR du modèle contraint (modèle lorsque H0 est vérifiée)
SCRnc = SCR du modèle non contraint (modèle lorsque H1 est vérifiée)

dlc = degré de liberté du modèle contraint = T – 1 (car il n’y a qu’une seule variable
explicative qui est non nul qui est le terme constant a0)
dlnc = degré de liberté du modèle non contraint = T-k (car il y a k variables explicatives au
maximum dans le modèle).
La règle de décision est la suivante :
14
Si f >f*(p,q) où f*(p,q) est la valeur donnée par la table de Fisher pour p et q donnés et pour
un risque fixé
⇒ On accepte H1 : il existe au moins un coefficient non nul.
Ce test est peu utilisé car lorsqu’il indique qu’il y a au moins un coefficient non nul, il ne
précise pas lesquels. Il est moins précis que le test de Student.
C/ Test de normalité des erreurs
Avant d’effectuer le test de Student, il faut effectuer un test de normalité afin de vérifier que
les erreurs sont gaussiennes.
Y = Xa + ε.
Les hypothèses du test sont les suivantes :
{ H 0 :ε t > N (0 , σ^ ε)
H 1 :les erreurs ne suivent pas une loi normale
Une loi normale a un coefficient de symétrie (ou skewness) égal à 0 et un coefficient

d’aplatissement (kurtosis) égal à 3.
Le coefficient de symétrie est donné par :
μ3
α 3=
σ 3ε
Où μ3 est un moment d’ordre 3 et σ ε est l’écart-type de l’erreur.
V- PRESENTATION DE LA METHODE DES MOINDRES CARRES GENERALISES
Considérons le modèle linéaire général suivant :
y t =a0 + a1 x 1 t + a2 x 2 t +…+ a(k −1 ) x (k−1 )t + ε t pour t =1, 2 , … , n .

Dans lequel E ( ε ε ' ) =Ωε ≠ σ ε2 I (Ω ε est de dimension n , n)
Nous désirons déterminer un estimateur de a qui ait les mêmes propriétés que l’estimateur des
MCO : sans biais, fonction linéaire de Y et à variance minimale. Il démonte que cet
estimateur sest donné par :
a^ =¿(¿Y)
Ωa^ =¿
15
Cet estimateur est appelé estimateur des Moindres Carrés Généralisés (MCG) ou encore
estimateur de Aitken.
REMARQUE : lorsque les hypothèses classiques sont satisfaites, nous retrouvons
l’estimateur des MCO
( ( ))( ( ))
−1
1 1 −1
a^ =¿Y) = X
'
2
I X X' 2
I Y =( X ' X ) ( X ' Y )
σε σε
Dans la pratique, nous ne connaissons pas la matriceΩ ε, les formules ci-dessus ne sont pas
utilisables, sauf dans des cas exceptionnels. Il convient donc de présenter des procédures
d’estimation opérationnelles.
CONCLUSION
En somme il était question de présenter les moindres carrés Généralisés. En effet, nous
avons vu que les estimations des paramètres d’un modèle commence par la méthode des
moindres carrés ordinaires, lorsque les hypothèses classique sont en amont respectés.
Cependant, la méthode des moindres carrés généralisés intervient quand les hypothèses
classiques ont été violées.
16
CHAPITRE 2 : AUTOCORRELATION DES ERREURS : CAUSES,
CONSEQUENCES, CORRECTIONS
INTRODUCTION
Ce chapitre est consacré aux problèmes particuliers lies au non-respect des hypothèses. Nous
allons nous attacher particulièrement à la forme classique de l’autocorrélation des erreurs.
L’étude de ce phénomène nous permet de définir un nouvel estimateur (celui des moindres
carrés à la fin du chapitre précédent), utilisé lorsque la matrice des variances et covariances ne
répondent plus aux hypothèses classiques, tel que supposé jusqu’à maintenant. Pour mener à
bien notre idée, notre exposé s’articulera sur deux points : la présentation du problème de
l’autocorrélation des erreurs(I) ; les causes et le diagnostic de l’autocorrélation des
erreurs(II) ; les conséquences de l’autocorrélation des erreurs(III) et afin les corrections de
l’autocorrélation des erreurs (IV).
I. PRESENTATION DU PROBLEME
Jusqu’à maintenant nous avons considéré que, lors de l’estimation des paramètres du
modèle, les hypothèses sont toujours respectés :
 Le modèle est linéaire en x t
 Les valeurs de x t sont observées sans erreurs
 E ( Et )=0
E ( Et 2)= σ ε
2

 E ( Et E t ' ¿ = 0 si t≠ t '
 Cov ( x t , Et ¿= 0
La spécification de la matrice des variances de l’erreur est :
[ ][ ]
2
E(ε 1 ε 1) E (ε 1 ε 2 ) … E( ε 1 ε n) σ ε 0 … 0
2
' E(ε 2 ε 1) E (ε 2 ε 2 ) … E( ε 2 ε n) 0 σε … 0
Ωt = E (ℰ E ¿= =
… … …. ………. … … … …
E (ε n ε 1) E (ε n ε 2 ) … E(ε n ε n) 0 0
2
… σε
Lorsque l’hypothèse H 5n’est plus verifiée, la matrice E (ℰℰ’)=Ω ε ≠ σ 2ε I n' a plus cette forme
particulière (elle n’est plus composée de 0 à l’extérieur de la première diagonale, puisque cov
( Et , Et ' ¿ ≠ 0) et les estimateurs obtenus par la méthode des MCO sont sans biais mais ne sont
plus à variance minimale, en effet:
17
Ωa^ =E [ ( a^ −a ) (â −a) ' ]
a^ −a=¿.
Donc Ωa^ =E ¿
¿¿
C’est-à-dire que a est un estimateur dont la première diagonale de la matrice des

variances et covariances est supérieure à celle de σ 2ε ¿questions :
 Comment déterminer un nouvel estimateur pour a ?

 Comment détecter une éventuelle autocorrélation des erreurs ?
 Quelles méthodes d’estimation doit-on utiliser ?
II. CAUSES ET DIAGNOSTIC DE L’AUTOCORRELATION DES ERREURS
1. Causes
On est en présence d’une autocorrélation des erreurs lorsque les erreurs sont liées
par un processus de reproduction (ou processus à mémoire). L’autocorrélation des
erreurs se rencontre essentiellement dans les modèles en séries temporelles ou
l’influence d’une erreur, due à une mauvaise spécification, d’une période sur
l’autre est plausible.
L’autocorrélation des erreurs peut être causée par :
 L’absence d’une variable explicative importante dont l’explication

résiduelle permettait de « blanchir » les erreurs
 Une mauvaise spécification du modèle, les relations entre la variable
18
endogène et les variables explicatives ne sont pas linéaires et s’expriment
sous une autre forme que celle du modèle estimé
 Un lissage par moyenne mobile ou interpolation des données
2. Diagnostique
La détection d’une éventuelle dépendance des erreurs ne peut s’effectuer

qu’à partir de l’analyse des résidus.
a- Examen visuel des résidus
L’analyse graphique des résidus permet le plus souvent de détecter

un processus de reproduction des erreurs :
 Les résidus sont pendant plusieurs périodes consécutives
soit positive, soit négative : autocorrélation positive
19
Les résidus sont de signe alternés : autocorrélation négative
Cependant, le plus souvent l’analyse graphique des résidus est délicate d’interpréter car le
dessin des résidus ne présente pas de caractéristique évidente.
a-Test de DURBIN-WASTON
Ce test permet de détecter une autocorrélation des erreurs d’ordre 1, selon la forme
ε t= ρ ε t−1 +ϑ t , où ϑ t suit une loi normale de moyenne nulle et d’écart type σ ϑ . Il s’agit alors de
tester l’hypothèse H 0 : ρ=0 ,contre H 1 : ρ ≠ 0 ( ou ρ<0 , ou ρ>0 ) . Pour effectuer ce test, on
n
∑ (et −e t −1 )2
t=2
calcule la statistique de Durbin – Watson : DW = n , où e t représente les résidus.
∑e 2
t
t=1
Par construction, cette statistique est entre 0 et 4, et nous avons DW = 2 lorsque ^ρ =0,
n
∑ e t et −1 DW
^ρ étant ≤ρ observé ( estimé ) . On a: ^ρ= t=2 n ou aussi ^ρ =1− .
2
∑ e 2t
t=1
20
Durbin et Watson ont tabulé les valeurs critiques de la statistique DW, au seuil de 5%, en
fonction de la taille n de l’échantillon et du nombre k de variables explicatives. Ainsi on a :
- Si d2¿DW¿4 – d2, on accepte l’hypothèse H0 : ρ=0.

- Si 0 ¿DW¿d1, on rejette H0, et on admet une autocorrélation positive ( ρ>0 ).
- Si 4 – d1¿DW¿4, on rejette H0, et on admet une autocorrélation négative ( ρ<0 ).
- Si d1¿DW¿d2, ou 4 – d2¿DW¿4 – d1, il y a doute ( on ne peut conclure).
Conditions d’utilisation du test :
Pour appliquer le test de Durbin – Watson :
i) le nombre d’observation n doit être supérieur ou égal à 15 ;
ii) le modèle étudié doit comporter un terme constant ;

iii) la variable à étudier ne doit pas figurer parmi les variables explicatives (en tant que
variable retardée).
Remarques :
- Le test de Durbin – Watson ne concerne qu’une autocorrélation d’ordre 1.
21
- Ce n’est qu’un test présomptif d’indépendance des erreurs (car il utilise les résidus).
- Pour les modèles en coupe instantanées, les observations doivent être ordonnées en
fonction croissante (ou décroissante) de la variable endogène.
c) Test de Breusch-Godfrey
Ce test, fondé sur un test de Fisher de nullité de coefficients ou de Multiplicateur de

Lagrange, permet de tester une autocorrélation d’un ordre supérieur à 1 et reste valide en
présence de la variable dépendante décalée en tant que variable explicative. L’idée générale
de ce test réside dans la recherche d’une relation significative entre le résidu et ce même
résidu décalé.
Une autocorrélation des erreurs d’un ordre p s’écrit :
Et =ρ1 Et −1 + ρ2 Et −2+ …+ ρ p Et− p + v t
Soit le modèle général à erreurs auto corrélées d’ordre p :

y t =a1 x 1t + a2 x2 t + …+a k x kt + a0 + ρ1 Et −1 + ρ 2 Et −2+ …+ ρ p Et −p + v t
Ce test est mené en trois étapes :
– Estimation par les MCO du modèle et calcul du résidu et, puisque les erreurs sont
inconnues, le test porte sur les résidus.
– Estimation par les MCO de l’équation intermédiaire :
e t =a1 x1 t + a2 x 2 t + …+ak x kt + a0 + ρ1 Et−1 + ρ2 Et −2 +…+ ρ p E t− p+ v t
Soit n le nombre d’observations disponibles (attention chaque décalage entraîne la perte d’une
observation) pour estimer les paramètres du modèle et R2 le coefficient de détermination.
Certains auteurs préconisent, afin de ne pas perdre d’observations, de mettre à 0 les premières
valeurs du résidu décalé. La différence n’est perceptible que pour des petits échantillons.
– Test d’hypothèses sur l’équation intermédiaire.

L’hypothèse H0 d’absence d’autocorrélation des erreurs à tester est :
H0 : ρ1= ρ2=…=ρ p =0
22
Si on refuse l’hypothèse nulle, alors il existe un risque d’autocorrélation des erreurs à l’ordre
Pour mener ce test, nous avons deux possibilités : soit effectuer un test de Fisher classique de
nullité des coefficients ρi soit recourir à la statistique
LM qui est distribuée comme un X 2 à p degrés de liberté ; si n× R 2> X 2 ( p) lu

dans la table au seuil α , on rejette l ’ hypothèse d ’ indépendance .
d) Tests de Box-Pierce et Ljung-Box
y t =a0 + a1 x 1 t + a2 x 2 t +…+ ak−1 a(k −1 )t + Et pour t=1,2 ,…,T une autocorrélation des erreurs
d’ordre k(k¿ 1 ¿.
Et =ρ1 Et −1 + ρ2 Et −2+ …+ ρk Et− k + v t Ou v t N (0 , σ v )
Les hypothèses de ce test sont :
k
{ H 0 : ρ=0
H 1 : ρ ≠0
La statistique utilisée est Q = n ∑ ^ρk

2
t =1
2
^ρ est le coefficient de corrélation d’ordre k des résidus estimése t . Sous
k
l’hypothèse H 0 vraie, Q suit une khi-deux de k degré de liberté.
Règle de décision : si Q
¿ k ¿ ou k ¿ est la valeur donnée par la table du khi−deux ; on rejette H 0 .
III. CONSEQUENCE DE L’AUTOCORRELATION
La principale conséquence de l’autocorrélation est que : la matrice E ( E E' ¿est

différente de σ 2E I cela veut dire que l’hypothèse d’homoscédasicité et d’absence
d’autocorrélation ne sont plus vérifié ou vraie.
Les termes de l’erreur ne sont plus indépendants. Au bout du temps la matrice
variance covariance ( Ω ^ ¿ des erreurs ne peuvent plus être une matrice diagonale.
Et
On traduit l’autocorrélation d’ordre 1 par l’écriture ci-après.
23
Et =ρ Et −1+ v t Cette relation permet de calculer les covariances entre les termes de
l’erreur.
En effet on peut écrire :

E ( Et E t−1 ¿=E ⟦ (ρ Et −1+ v t )E t−1 ⟧
= E[ ρ Et −1+ v t Et −1 ]
2
= ρE ( E t−1 ) + E ( v t E t−1 )
2
E( Et E t−1 ¿ = ρE ( E 2t−1 )
E( Et E t−1 ¿=ρ σ 2E
En général E ( Et E t−i ¿=ρ2 δ 2E . Cette relation permet de trouver la nouvelle matrice

variance covariance dans le cas d’une autocorrélation d’ordre 1. En effet
E ( E2 ¿=¿
En remplaçant E ( Et E t−1 ¿ par cette expression on a maintenant :
[ ]
T−1
1 ρ⋯ ρ
2 2
E( Et E t−1 ¿=δ E ρ 1⋯ ρT−2 = δ E ω
T−1 T −2
ρ ρ ⋯ 1
[ ]
1 0⋯ 0
δ 2E . ω ≠ δ 2 I car I = 0 1⋯ 0
0 0⋯ 1
Remarque : Le biais résultant de l’application directe des MCO porte uniquement

sur la variance des estimateurs c’est-à-dire que les estimateurs eux même
demeurent sans biais autrement dit E ( ^ A ¿ ¿=A car la matrice variance covariance
n’intervient pas dans les calculs de l’espérance mathématique des estimateurs mais
affecte les variances. Ainsi la variance de Â devient :
V( ^
A ¿=E ¿]
−1
= E ( X ' X ) X ' E ( E E' ) X ( X ' X )−1
= (X ' X )−1 X ' δ 2 ωX ( X ' X )−1
V( ^ 2 ' −1
A ¿=δ E ( X X ) X ' ωX ( X X )
' −1
2 δ2
Avec δ E =
1−ρ2
IV. PROCEDURE DE CORRECTION DE L’AUTOCORRELATION DES

ERREURS
24
Plusieurs méthodes permettent d’éliminer l’autocorrélation des erreurs. Ces méthodes ont en
commun de passer par une élimination préalable du terme de l’erreur.
Partons de la relation ci-après :
y t =a1 x 1t + a2 x2 t + a3 + Et
E t=ρ Et −1+ v t
A partir de la relation 1 on peut écrire
Et = y t −a1 x 1t −a 2 x 2 t−a3 (2)
(3) dans (2) donne y t −a1 x 1t −a 2 x 2 t−a3=ρ ( y t −1−a1 x 1t −1−a2 x 2t −1−a3 ) + v t
On a donc : y t −ρ y t−1=a1( x 1 t− ρ x 1 t−1 ¿+a2 ( x 2 t− ρ x 2 t−1 )+ a3 (1− ρ)+ v t (3)
Dans (3), on constate v t existe toujours et est un bruit blanc par contre Et source
d’autocorrélation n’existe plus. Toutes les méthodes de corrections de l’autocorrélation
partent de la relation (3)
 La méthode de Durbin-Waston en 2 étapes

 La méthode de Cochrane and Orcutt
 La méthode de Hidreth
a. La méthode de Durbin-Waston
On part de la relation (3) puis on écrit :

y t =ρ y t−1 +a1 ( x 1 t−ρ x 1 t−1 ) +a 2 ( x 2 t− ρ x 2 t−1 ) +a 3 ( 1− ρ )+ v t (4)
La première étape consiste à estimer l’équation (4) par la méthode de MCO. On

obtient les valeurs ^ρ ,a^1,a^2 et a^3. Mais ces estimateurs sont liés entre eux par une
contrainte qui est due au coefficient de la variable retardée en t-1 donc le
coefficient de tout a i x ¿−i est le produit du coefficient
x ¿ et du coefficient y t −i i allant de 1 à n.
Les estimateurs obtenus dans cette équation (4) notamment ceux qui sont
devant x 1 t−1 et x 2t −1ne sont pas cohérents. Seule le coefficient ^ρ est acceptable et
on l’utilise pour passer à la deuxième étape en procédant à la transformation des
variables. On a la nouvelle relation ci-après :
y t −^ρ y t−1=a1 ( x 1 t −^ρ x 1 t −1 ) + a2 ( x 2 t −^ρ x2 t −1) + a3 ¿) + v t
¿ ¿ ¿
y t =a1 x 1t + a2 x2 t + a3 ¿) + v t (5)
25
L’estimation de l’équation (5) permet alors par la méthode des MCO d’obtenir les meilleurs
valeurs de a 1 , a2 et a3 avec v t comme bruit blanc. On dit alors qu’on corrige l’autocorrélation
des erreurs en utilisant la méthode de Durbin-Watson en 2 étapes.
b. Méthode de Cochrane and Orcutt
Elle considère à partir de l’équation (3) ci-dessus. C’est une méthode itérative
qui consiste à donner les valeurs à ρ de manière arbitraire puis faire l’estimation
de l’équation (3). La valeur arbitraire de départ qui est souvent recommandée est
dosée par la relation suivante :
n
∑ et e t −1
^ρ = t =2 n (e=0)
∑e 2
t
t
On obtient après chaque estimation les valeurs de a^ 1 , a^ 2 et a^ 3 que l’on compare à
chaque fois aux valeurs précédentes. Il faut noter que cette procédure est
convergente au bout d’un certain nombre d’itération. Deux types de programme
pour sont proposés pour décider d’arrêter la procédure :
- On fixe à priori le nombre d’itération qu’on ne veut pas dépasser.
- On fixe un critère de divergence sur ρ .
Par exemple l’écart de convergence entre deux valeurs successives de ρ diffère de 1%.
Dans tous les cas de recherche, dans la procédure d’itération dès que les coefficients
estimés sont stables, on dit qu’on a corrigé l’autocorrélation des erreurs.
Pour une convergence encore plus rapide, il est recommandé de déduire ρ de la relation
ci-après :
Dw
Dw = 2-2 ρ ce qui implique ^ρ =1− qui est la méthode la plus recommandée.
2
c- La méthode du « balayage » ( Hildreh-lu )
Elle consiste à exprimer une succession de l’équation (3) pour des valeurs régulièrement
croissantes de ρ . Elle s’effectue en deux principales étapes :
Etape 1 : détermination du type d’autocorrélation.
A partie de la statistique de Durbin-Watson, on détermine une autocorrélation positive ou
négative ( ρ<0 , ρ>0 ¿ .
Etape 2 : régression pour l’intervalle des valeurs possibles de ρ .
Par exemple, on sait que ρ ∈[0; 1] , nous régressons toutes les valeurs successives de
ρ={ 0.1; 0,2; … 0.9 ; 1 } sur l’intervalle [0 ;1] avec un pas fixé égal à 0.1.
Il est possible d’affiner la valeur estimée de ρ en réemployant la même procédure sur un
intervalle restreint et avec un pas plus fin (par exemple 0.01).
Il est à noter que cette technique est optimal selon le critère des moindres carrés puisque l’on
retient le ρ qui minimise la somme des carrés des résidus
26
FICHE DE TD SUR L’AUTOCORRELATION DES ERREURS
PREMIERE PARTIE: questions de cours
1. Qu’es ce qu’une autocorrélation des erreurs ? Présentez ses causes.
2. Comment détecter une autocorrélation des erreurs ?
3. Quelles sont les conséquences d’une autocorrélation des erreurs ?
4. Répondre par vrai ou faux.

a. Le test de Durbin-Watson permet de détecter une autocorrélation des erreurs
d’ordre supérieure à 1 ?
b. La statistique du test de Durbin-Watson varie entre 0 et 4 et nous avons DW = 2
lorsque ^ρ ≠ 0.
c. Le test de Durbin-Watson ne teste que les autocorrélations d’ordre 1.
5. Compléter le schéma ci-dessous avec les termes suivants : zone d’autocorrélation

positive, zone d’autocorrélation négative, zone de doute, zone d’absence
d’autocorrélation.
5. En quoi consiste la méthode de balayage ?
6. Comment interpréter la statistique de Durbin-Watson ? Quelles sont les limites de

l’utilisation de ce test ?
7. Qu’est-ce que le test de Breusch-Godfrey ?
DEUXIEME PARTIE : EXERCICES
27
EXERCICE 1
Objectifs de l’exercice : test de détection d’une autocorrélation des erreurs (test de Durbin-
Watson et test de B-Godfrey). Forme de la matrice des variances-covariances des erreurs en
cas d’autocorrélation d’ordre 1 des erreurs. Méthodes d’estimation en cas d’autocorrélation,
estimation du coefficient d’autocorrélation, prévision en cas d’autocorrélation des erreurs.
Nous cherchons à estimer la relation suivante sur 19 observations :

y t =a0 + a1 x 1 ,t + a2 x2 , t +ε t (t=1 , 19)
Soit le tableau des données pour les variables y t , x 1 ,t et x 2 ,t
T yt x 1 ,t x 2 ,t
1 -5 9 673 102
2 -3 5 522 566
3 -7 12 899 367
4 -20 10 249 319
5 -45 9 860 -258
6 -50 -320 -163
7 -15 691 383
8 8 9 998 470
9 10 11 063 419
10 23 12 420 615
11 45 13 118 432
12 79 12 148 4 226
13 16 14 837 -2835
14 25 18 453 505
15 5 13 761 170
16 -36 7 810 504
17 26 15 035 417
18 59 12 918 542
19 74 15 678 386
20 NA NA NA
1) Estimer la relation par la méthode des moindres carrés ordinaires. Etudier les résidus.
2) Effectuer le test d’autocorrélation des erreurs de Durbin-Watson. Commentaires.
3) Effectuer le test d’autocorrélation des erreurs de Breusch-Godfrey. Commentaires.
4) Donner les expressions de E(ε t), E(ε 2t ), Cov(ε t,ε t+i ). En déduire l’expression de la
matrice des variances-covariances des erreurs.
Soit le modèle à autocorrélation des erreurs :
28
y t =a0 + a1 x 1 ,t + a2 x2 , t +ε t (t=1 , 19)
ε t= ρ ε t−1 +v t Avec 0 ¿∨ρ∨¿ 1 ( v t→ nid ¿
5) A partir de ce modèle proposer une procédure afin de lever l’autocorrélation.

6) Quelle(s) méthode(s) permet d’estimer la valeur de ρ ?
7) En déduire une méthode adéquate en cas d’autocorrélation des erreurs.
8) Connaissant les valeurs prévues de x 1 ,t et x2 , t pour les périodes 20 et 21, calculer les
prévisions de y t pour ces même périodes avec leur intervalles à 95%.
EXERCICE 2
Objectif de l’exercice : calculer et effectuer le test de Durbin – Watson.
Soit le tableau suivant :
T et
1 -5,808
2 -3,769
3 -4,839
4 7,912
5 5,748
6 -0,982
7 3,857
8 5,280
9 3,063
10 1,322
11 1,909
12 1,909
13 0,713
14 1,332
15 -1,028
16 -3,388
17 -2,500
18 -5,161
19 -4,738
20 -1, 450
1) Calculer la statistique du test de DURBIN-WATSON

2) Effectuer le test de DURBIN-WATSON. Commentaires.
29
CHAPITRE 3 : HETEROSCEDASTICITE DES ERREURS
I PRESENTATION DU PROBLEME
a- Rappel des hypothèses de base
 H1 : le modèle est linéaire en xt(ou en n’importe quelle transformation de xt).

et les valeurs xtsont observées sans erreur (xtnon aléatoire).
 H2 : E(εt) = 0, l’espérance mathématique de l’erreur est nulle : en moyenne le
Modèle est bien spécifié et donc l’erreur moyenne est nulle.
2
 H3 : E ( ε t ) =σ ε la variance de l’erreur est constante1 : le risque de l’amplitude
de l’erreur est le même quelle que soit la période.
• H4:E(εtεt) = 0 si t _= t_ , les erreurs sont non corrélées (ou encore indépendantes)
: une erreur à l’instant t n’a pas d’influence sur les erreurs suivantes.
• H5: Cov(xt,εt) = 0 , l’erreur est indépendante de la variable explicative.
Lorsque l’hypothèse 3 n’est pas vérifiée, on a à faire à l hétéroscédascité, et la matrice des
erreurs est alors :
( )
2
σε 1
0… 0
( )
E(ε 1 ε 1) E ⟮ ε 1 ε 2 ⟯ … E( ε 1 ε n) ⋮ ⋮ ⋮ 0 σ …
2
0
Ω ε=E ( ε ε )=
'
¿ ¿ ¿= ε2
E(ε 2 ε 1) E ⟮ ε 2 ε 2 ⟯ … ¿ E (ε n ε 1 ) E(ε n ε 2 )… E ⟮ ε n ε n ⟯ ⋮ ⋮ ⋮
2
0 0… σε n
Si cette hypothèse est violée alors :

2
- Ωε≠ σ ε I
- Les variances ne sont plus constantes su la diagonale principale
II LES CAUSES DE L’HETEROSCEDASTICITE
Les causes de l’hétéroscédasticité sont multiples :

– comme nous l’avons déjà cité, lorsque les observations représentent des moyennes
calculées sur des échantillons de taille différente ;
– un autre cas résulte de la répétition d’une même valeur de la variable àexpliquer pour des
valeurs différentes d’une variable explicative, parexemple lors de regroupements en tranches
(de salaires, d’effectifs…) ;
– lorsque les erreurs sont liées aux valeurs prises par une variable explicative,dans un modèle
en coupe instantanée la variance de la consommation croît, par exemple, avec le revenu
disponible, etc.
III LES TESTS
III - Les tests de détections de l’hétéroscédascité

Test de Goldfeld-Quandt
30
Ce test n’est valable que si l’une des variables est la cause de l’hétéroscédascité, et le nombre
d’observation est important. Il s’effectue suivant les étapes :
Etape1 : pour un échantillon donné, il faut ordonner les observations en fonction des valeurs
croissantes ou décroissantes, soit de la variable expliquée, soit de la variable explicative
soupçonné être la source de l’heteroscedasticite.
Etape 2 : extraire arbitrairement de l’échantillon d’observation , un nombre Δ d’observations.
Ces observations sont prélevées au centre de l’échantillon et retiré de l’analyse, partageant
ainsi l’échantillon de deux sous échantillons. La valeur de Δ est approximativement égal au
quart du nombre d’observation total .
[ ∆=partie entiere ( n4 )] Avec n = nombre d’observation total de l’échantillon
Etape 3 : l’échantillon de n-∆ observations ayant été partagé en deux sous-échantillons, on
effectue les régressions sur chacun d’eux . il faut noter que si n- ∆ est paire , alors chaque
n−∆
sous-échantillon comportera observations. Si par contre, n-∆ est impair, l’un des deux
2
n−∆ n−∆
sous échantillon aura observations, tandis que l’autre aura + 1 observations.
2 2
Etape 4 : on calcul les SCR 1 et SCR 2 correspondant à chaque sous- échantillon.
Etape 5 : On effectue le test
 Formulation des hypothèses du test :
H 0 :homoscedasticite / H 1: hétéroscédasticité
 Calcul de la statistique de Fischer empirique :

La Fischer calcule est égal au rapport des sommes des carrées résiduels des deux sous-
échantillons. Ici, c’est la SCR élevée qui est rapportée à la SCR faible (c’est à dire la SCR
élevée est toujours au numérateur). Ainsi,
[ ] [ ]
SCR 1 SCR 2
ddl 1 ddl 2
F∗¿ (si SCR 1 > SCR2 ) ou encore F∗¿ ( si SCR 2 > SCR1 )
SCR 2 SCR 1
ddl 2 ddl 1
 Comparaison et conclusion :
F* est comparé à la Fischer lu, pour un seuil α , a ( ddl 1 , ddl 2 ) ou ( ddl 2 , ddl 1) en fonction du cas.
Si F*¿ F table ,le modèle est heteroscedastique car on rejette H 0 .
Test de Gleisjer
Ce test permet de déceler l’hétéroscédasticité et d’identifier la forme que revêt cette
hétéroscédasticité. Ce test est fondé sur le résidu issu de l’estimation par la M.C.O effectuée
sur le modèle de base et la variable explicative supposée être la cause de l’hétéroscédasticité.
Les étapes sont :
31
Etape 1 : on effectue la régression par les MCO de Y i en X i c’est-à-dire Y i = μ+ β X i +ε i
Etape 2 : On détermine le vecteur des résidus e i qui représente une estimation des ε i .
Etape 3 : on effectue ensuite une régression par la MCO de la valeur absolue |e i|des résidus
sur X i . Ici, Gleisjer suggère de réaliser les trois formes suivantes :
Forme générale : |e i|= a 0+ a1 X i +v i
L’hétéroscédascité est de la forme :σ^ e =k X i

2 2 2
i
1
Forme de type I : |e i|= a + a X 2 + v
0 1 i i
L’hétéroscédascité est de la forme :σ^ e =k X i

2 2
i
Forme de type II : |e i|= a 0+ a1 X−1

i +v i
2 2 −2
L’hétéroscédascité est de la forme :σ^ e =k X i i
NB : k est une constante quelconque dans chaque cas.

Etape 4 : on effectue le test de significativité du paramètre a 1 dans chacune des spécifications
présentées ci-dessus :
 Hypothèses :
H 0 :a1=0 / H 1: a 1 ≠ 0
 La statistique calculée ici est la student empirique T* :

a^ 1
T*= ^ student (n−2)
σ a^ 1
Etape 5 : on compare la student empirique a la student tabulé a n-2 degré de liberté pour
déterminer la significativité dea 1 dans chaque spécification. L’hypothèse d’homoscedasticite
est rejetée si le coefficient a 1 d’une des spécifications ci-dessus est significativement différent
de 0. La forme d’hétéroscédascité retenue est celle de la spécification ayant le T* le plus
élevé.
Test de White :
Le test de white est très proche du test de Gleisjer, et est fondé sur la relation significative
entre le carré du résidu, et une ou plusieurs variables explicatives en niveau( X ij ) et au carrée (
2
X ij ) au sein d’une même équation de régression.
2 2 2 2
e j = a 1 X 1 j+ b1 X 1 j +a2 X 2 j+ b2 X 2 j +…+ ak X kt + bk X kj + a0 + v j
Soit n, le nombre d’observation disponible pour estimer les paramètres du modèle ; et R2 le

coefficient des déterminations du modèle.
 Les hypothèses sont :
32
H 0 :a1=b1=a 2=b2 =…=ak =bk =0 / H 1: il existe au moins un a j ou b j ≠ 0
 La statistique empirique à calculer peut-être :

 La Fischer empirique si l’on décide d’effectuer un test de nullité de coefficient à
l’aide du test de Fischer classique.
SCE
k (n−k −1) R2
F*= =
SCR k (1−R )
2
n−k −1
 Ou encore, on peut recourir à la statistique LM= n¿ R2 . Elle suit une khi-deux a P=2k
degré de liberté , a un seuil α .
 Comparaison et conclusion :
lorsque l’on utilise un test de Fischer classique, on compare pour un seuil α , F* a la
fischer lu a (k, n-k-1) degrés de libertés. Si F*¿ F table on rejette H 0 c’est-à-dire on
accepte l’heteroscedasticite.
2
Egalement, le soupçon d’hétéroscédascité est avéré si LM ¿ χ (p )lu au seuil α .
Test d’égalités des variances

Lorsque les observations de la variable expliquée sont organisées en groupe, chaque groupe
de variance σ 2i , ce test consiste à comparer les variances des m groupes d’observations et
tester l’égalité de ces variances.
Etape 1 : les hypothèses
H 0 :σ 1=σ 2=…=σ m / H 1: il existe au moins un σ i ≠ σ j avec i, j=1,2 ,… , m
Etape 2 : calcule de la variance empirique pour chaque groupe

ni
∑ (Y ¿ ¿ ij−Y i)2
2 j=1
σ^ i = ¿
ni−1
Etape 3 : On calcule la variance totale

m
∑ (ni−1)σ^ 2i
2 i=1
σ^ T = m
m ∑ v i σ^ 2i m m
∑ (n¿¿ i−1)= i=1

v
avec v =∑ v i =∑ (n i−1)¿
i=1 i=1 i=1
Etape 4 : A partir de la variance totale, on peut calculer la statistique Q' qui servira au test :
m
Q = vLn σ^ T −∑ v i ln σ^ i
2 2
'
χ 2m−1
i=1
33
NB : une autre forme de cette statistique est préférée a celle qui précède pour sa précision.
Soit Q cette statistique :
( )
' m
Q 1
Q=
C
avec C=1+
3 ( m−1 )
∑ v1 − 1v =( c ' est une constante d ' echelle )
i=1 i
Q suit une loi de khi−deux a ( m−1 ) degre de liberte au seuil α .

Etape 5 : conclusion
Si Q> χ 2m −1 au risqueα , alors on rejette l’hypothèse H 0 .Cela confirme L' heteroscedsticite .
IV LES CONSEQUENCES DE L`HETEROSCEDASTICITE
Les conséquences sont les mêmes que celles de l’autocorrélation des erreurs :
2
- Ωε≠ σ ε I
- Les estimateurs obtenus par la méthode des MCO demeurent sans biais, mais ne sont
plus à variance minimale.
V CORRECTION DE L’HETEOSCEDASTICITE
L’estimateur BLUE du modèle hétéroscédastique est alors celui des MCG :

−1 −1 −1
a^ =( X ' Ω ε X) ( X ' Ω ε Y )
Et la matrice des variances et covariances de a^ est définie par :
−1 −1
Ωa^ =( X ' Ω ε X)
Il n’existe pas une méthodologie unique de correction, à la différence de la

Correction de l’autocorrélation d’ordre 1 des erreurs, mais des méthodes quel’on applique en
fonction de la cause présumée de l’hétéroscédascité. La règlegénérale consiste à déterminer
une transformation (qui consiste à déterminer un vecteur de pondérationpour chaque
observation ; d’où le nom de régression pondérée) concernant les données – dela variable à
expliquer et des variables explicatives – afin de se ramener à un modèle à variances
constantes (homoscédastique).
Les quatre tests sont concordants, le modèle est hétéroscédastique, il convient donc d’en
2 2 2
corriger les effets. Supposons par exemple que l’on retienne la forme σ^ e =k x j ; l’application
j
1
de la régression pondérée par le facteur conduit à un modèle homoscédastique :
xj
( )
2
y j a0 ej ej 1
= +a1 + d’où E = 2 σ^ 2e =k 2
xj xj xj xj xj j
Or le test de Gleisjer a mis en évidence une relation du type σ^ e =k x j . Pour lever

2 2
j
l’hétéroscédasticité dans ce cas, nous employons la régression pondérée sur les données brutes
divisées par √ x j. En effet :
34
( )
2
yj a0 ej ej 1 2 2
= + a1 + d’où E = σ^ e =k
√x j √ xj √xj √ xj xj j
En général, lorsque nous avons détecté une hétéroscédascité de type : σ^ e =k f ( x j ), il convient

2 2
j
de diviser les données par √ f ( x j) , afin de se ramener à un modèle homoscédastique.
35
Exercices d’application
Exercice 1
Afin de tester l’efficacité d’un nouveau fortifiant sur la croissance des poulets, un éleveur
a retenu 40 poulets répartis en cinq groupes de tailles inégales et leur a administré
des doses différentes de ce fortifiant. Les résultats sont consignéssur le tableau ci-dessous :
Groupe i Nombre de poulet ni Poids moyens des Dose moyenne
y
poulets i administrée x i
1 12 1.7 5.8
2 8 1.9 6.4
3 6 1.2 4.8
4 9 2.3 6.9
5 5 1.8 6.2
On demande d’estimer les coefficients de la relation :
y i=a0 +a1 x i+ ε irelation entre le poids de chacun des poulets y i et la dose individuelle reçue x i
et de tester si les coefficients a i est significativement différent de 0.
Exercice 2
Un directeur de la production d’une unité de construction automobile désire déterminer
une relation entre le nombre de défauts constatés ( y i) et le temps de vérification
( x id’une automobile, selon le modèle suivant :
y i= a 0+ a i x i+ ui
Pour ce faire, il procède à un test sur 30 véhicules qu’il regroupe en 6 classes de 5
Voitures en demandant à chaque chef d’atelier de passer un nombre d’heures de vérification
Fixé.
Les résultats sont consignés dans le tableau ci-dessous :
Nombre de Temps
defauts Yi passés en
heures
4 5 6 7 8 4
6 11 13 15 17 3.5
9 13 14 15 21 2
6 13 16 23 26 1.5
11 15 17 22 34 1
7 21 23 28 38 0.5
On demande de procéder aux tests de détection d’hétéroscédascité suivants :
1) Test d’égalité des variances ;
2) Test de Goldfeld-Quandt ;
3) Test de Gleisjer ;
4) Test de white
5) Puis, en cas d’hétéroscédascité, d’en corriger les effets.
36
CHAPITRE 4 : STATIONNARITE DES VARIABLES EN ECONOMIE
INTRODUCTION
Dans les chapitres précédents l'estimation se fait à partir de relations structurelles censées
traduire des mécanismes économiques. La modélisation consiste à traduire en équations la
théorie économique. Dans ce chapitre ces éléments structurels disparaissent. De ce fait, on ne
cherche plus à expliquer mais simplement à décrire ou à prévoir. Pour cela on utilise des
séries c'est-à-dire des observations d'une variable au cours du temps. L'utilisation de ces séries
se généralise pour tout un ensemble de problèmes pour lesquels la modélisation traditionnelle
apparaît peu satisfaisante. C'est le cas pour des phénomènes complexes dans lesquels il y a de
nombreuses actions et réactions simultanées pour lesquelles il est difficile de faire apparaître
clairement un enchaînement de causes et d'effets. (Exemple : cours d'une valeur mobilière au
jour le jour). Cela peut aussi être le cas des variables extrêmement volatiles. Les modèles
explicatifs sont en général incapables de prévoir correctement les points de retournement. Ces
modèles sont performants à moyen terme mais peu performants à court terme. Le taux de
change, qui subit des fluctuations assez courtes et assez amples, fournit des illustrations de ce
type de difficultés. Une des causes de mauvaise performance des modèles explicatifs vient du
fait qu'ils sont beaucoup plus performants pour analyser des tendances que des fluctuations.
Une grande partie de leur pouvoir explicatif est tiré du parallélisme des évolutions. Cet
argument laisse entendre que certaines corrélations ne correspondent pas véritablement à des
relations entre variables, mais peuvent tout simplement résulter d'une évolution semblable des
variables sous des influences n'ayant rien à voir avec le problème étudié. C'est la question des
corrélations fortuites sur laquelle on reviendra dans le chapitre suivant. Un test intéressant est
de comparer le pouvoir explicatif de la même relation macro-économique pour des
périodicités annuelle, trimestrielle ou mensuelle. Dans tous ces cas, quand on a besoin de
faire une prévision à court terme et quand les enjeux de cette prévision sont économiquement
importants on préfère utiliser des modèles non explicatifs mais assez performants en prévision
qui sont donc des modèles de série temporelle. Ce sont des structures légères qu'on peut
facilement réestimer. Le modèle peut donc être mis à jour tous les jours. Le coût de la
prévision est relativement faible.
Un économètre bien formé avec un bon logiciel peut assurer au quotidien la prévision au jour
le jour. Un des domaines d'application est le domaine des variables financières (taux
d'intérêts, taux de change, taux de rendement).
• La méthode consiste à rechercher dans l'histoire de la variable des régularités susceptibles
d'aider à prévoir ses valeurs futures.
L’utilisation des séries temporelles conduit à rechercher des régularités dans les valeurs
passées de la série. Pour que cette démarche ait un sens pour la prévision, il faut que le
processus présente une certaine stabilité ou un certain degré d’invariance au cours du temps.
C’est cette idée de stabilité ou d’invariance qui est traduite par la notion de stationnarité qui
fera l’objet de notre analyse tout au long de ce chapitre.
37
I. LA STATIONNARITE
1. CONCEPTS DE BASE
a) PROCESSUS STATIONNAIRE
 Au sens fort
Soit un processus stochastique temporel à valeurs réelles et temps discret. Il est dit
stationnaire au sens fort si pour toutes fonctions mesurables : f (X1, X2,…, Xt) et f (X1+k,
X2+K ,…, Xt+k) ont même loi. C’est-à-dire, les propriétés du processus ne sont pas affectées
par un changement de notre repère temporel que l’on regarde au point « t » ou au point
« t+h » la série a toujours le même comportement. Néanmoins, la loi de probabilité d’une
distribution d’une série de données est très difficile à estimer, une définition moins stricte
de la stationnarité a été introduite.
 Au sens faible
Soit un processus stochastique temporel à valeurs réelles en temps discret X1, X2,…, Xt. Il est
dit stationnaire au sens faible si :
- L’espérance mathématique est constante au cours du temps, il y’ a donc pas tendance
E(Xi) =µ.
- La variance est constante au cours du temps Var (Xi) =σ2
- L’autocorrélation (ou auto-covariance) ne dépend pas du temps Cov (X i, Xi- k) = γ (k).
On remarque que celle-ci inclut la deuxième si et seulement si k=0 alors
l’autocovariance correspond à la variance.
Tout au long de cet exposé, lorsqu’on parlera de la stationnarité, on fera référence à la

stationnarité au sens faible car les séries économiques sont très souvent non stationnaires.
b) BRUIT BLANC
Un exemple de processus stationnaire est le bruit blanc. Un bruit blanc est une suite de
variables aléatoires de même distribution, non corrélés, d’espérance nulle et de variance
constantes. Autrement dit, pour t : E (Xt)=0 V (Xt)=σ 2 ; COV (Xt ; Xt-h)=0 pour h≠0.
Il s’agit des processus stationnaires les plus élémentaires. Le cas le plus courant est la suite de
variables aléatoires gaussiennes standard (espérance nulle et variance égale à 1) et
indépendantes. Un bruit blanc est aussi appelé processus IID (processus discret formé de
variables mutuellement indépendantes et identiquement distribuées), ou NID (normalement et
indépendamment distribuées) dans le cas d’un bruit blanc gaussien, notamment lorsque la loi
de Xt est normale.
2. LES FONCTIONS D’AUTOCORRELATION SIMPLE ET PARTIELLE
a) AUTOCORRELATION SIMPLE
La fonction d’autocorrélation (FAC) est la fonction notée ρθ qui mesure la corrélation de la
série avec elle-même décalée de θ périodes. Sa formulation est la suivante :
38
n
cov (X t , X t−θ )
∑ ( X t −X ₁ ) ( X t−θ −X ₂)
t =θ +1
ρθ = =
σX σX
√∑ √∑
n n
2 2
(X t −X ₁) ( X t −θ− X ₂)
t t−θ
t =θ+1 t=θ+ 1
n n
1 1
Avec X ₁ = ∑ X et X ₂ = n−θ ∑ X t −θ les moyennes calculées sur n−θpériodes,
n−θ t=θ +1 t t =θ +1
n = nombre d’observations. Nous pouvons en déduire que ρ0 =1et ρθ=¿ ρ ¿. −θ
On préfère souvent à cette formule complexe, la fonction d’autocorrélation d’échantillonnage

car celle-ci n’exige pas de recalculer pour chaque terme ρθ les moyennes et variances :
n
∑ ( X t− X)( X t −θ −X )
t=ɵ +1
ρθ =
^ n
∑ ( X t− X )²
t=1
Avec X la moyenne de la série calculée sur n périodes.

Remarque : lorsque le nombre d’observations n est Suffisamment grand, les deux formules
donnent des résultats très proches.
b) AUTOCORRELATION PARTIELLE
La fonction d’autocorrélation partielle(FAP) mesure la corrélation entre X t et X t −θ, l’influence
des variables intermédiaires ( X t−1 , X t−2 , … , X t−θ+1 ) ayant été retirée.
Un estimateur naturel de l’autocorrélation partiel d’ordre K d’un processus ( X t ) consiste en
l’estimation par les MCO du dernier paramètre de la régression ci-dessous :
( θ)
X t = α (θ) (θ) (θ)
0 +α 1 X t −1+ α 2 X t−2 +…+ α k X t−θ + ε t
(θ)
Avec α 0 =corr( X t , X t −θ∨X t −θ ,… , X t −θ+1 )
Nous ne pouvons identifier clairement les caractéristiques stochastiques d’une série

chronologique que si elle est stationnaire. Cette étude de stationnarité s’effectue
essentiellement à partir de l’étude des fonctions d’autocorrélation (ou de leur représentation
graphique appelée « corrélogramme »).
3) TESTS DE BRUIT BLANC ET DE STATIONNARITE

Une série chronologique est stationnaire si elle ne comporte ni tendance ni saisonnalité. Nous
pouvons distinguer différents types de séries stationnaires :
– à mémoire, c’est-à-dire dont on peut modéliser, par une loi de reproduction le processus ;
– identiquement et indépendamment distribuée notée i.i.d. ou appelée Bruit Blanc (« White
Noise ») ;
– normalement (selon une loi normale) et indépendamment distribuée notée
39
n.i.d. ou appelée Bruit Blanc gaussien.
1) Analyse des fonctions d’autocorrélation
Lorsque nous étudions la fonction d’autocorrélation d’une série chronologique, la question
qui se pose est de savoir quels sont les termes ρ θ qui sont significativement différents de0 . En
effet, par exemple, si aucun terme n’est significativement différent de 0, on peut en conclure
que le processus étudié est sans mémoire et donc qu’à ce titre il n’est affecté ni de tendance ni
de saisonnalité. Ou encore si une série mensuelle présente une valeur élevée pour ρ 12
(corrélation entre X t et X t −12), la série étudiée est certainement affectée d’un mouvement
saisonnier.
Le test d’hypothèses pour un terme ρθ est le suivant :
H0 : ρθ =0
H1 : ρθ ≠ 0
Nous pouvons utiliser le test d’hypothèses d’un coefficient de corrélation, fondé sur la
comparaison d’un t de Student empirique et théorique. Toutefois, Quenouille a démontré que
pour un échantillon de taille importante(n> 3), le coefficient ρθ tend de manière asymptotique
vers une loi normale de moyenne 0 et d’écart type 1/√ n .
L’intervalle de confiance du coefficient ρθ est alors donné par :
[
ρθ = −t α / 2
1
√n
; t α/ 2
1
√n ]
n = nombre d’observations.
Si le coefficient calculé ^ ρ θest à l’extérieur de cet intervalle de confiance, il est

significativement différent de 0 au seuil α (en général α =0,05 ett α / 2=1,96 ¿. La plupart des
logiciels fournissent, avec le corrélogramme, l’intervalle de confiance, ce qui autorise une
interprétation instantanée.
Nous devons souligner une limite des tests à 5 % . En effet, lorsqu’une fonction
d’autocorrélation est calculée pour un nombre important de retards, nous pouvons nous
attendre à ce que quelques-uns soient, de manière fortuite, significativement différents de0 . Si
h est le nombre de retards, le nombre possible de faux rejets est alors de 0,05 × h , pour un
seuil de confiance de 5 %.
Dans le cas où le corrélogramme ne laisse apparaître aucune décroissance de ses termes
(absence de « cut off »), nous pouvons en conclure que la série n’est pas stationnaire en
tendance.
2) Statistiques de Box-Pierce et Ljung-Box
Le test de Box-Pierce permet d’identifier les processus sans mémoire (suite de variables
aléatoires indépendantes entre elles). Nous devons donc identifier cov ( X t , X t−k ) =0ou encore
ρk =0 ∀ k .
Un processus de bruit blanc implique que ρ1= ρ2=…=ρh=0 , soit les hypothèses :
40
H0: ρ 1= ρ2=…=ρh=0
H1:il existe au moins un ρ k significativement diff é rent de 0.

Pour effectuer ce test, on recourt à la statistique Q (due à Box-Pierce) qui est donnée par :
h
Q=n ∑ ^ρ2k
k=1
h = nombre de retards, ^ρk =¿ autocorrélation empirique d’ordrek , n = nombre d’observations.
La statistique Q est distribuée de manière asymptotique comme une χ 2 (chi-deux) à h degrés

de liberté. Nous rejetons donc l’hypothèse de bruit blanc, au seuil α , si la statistique Q est
supérieure à la χ 2lue sur la table au seuil ( 1−α ) et h degrés de liberté.
Nous pouvons aussi utiliser une autre statistique, dont les propriétés asymptotiques sont
meilleures, dérivée de la première qui est le Q' de Ljung et Box :
h
^ρ2k
Q =n (n+2) ∑
'
k=1 n−k
Q est aussi distribuée selon une χ à h degrés de liberté et dont les règles de décisions sont
' 2
identiques au précédent. Ces tests sont appelés par les anglo-saxons : «portmanteau test » soit
littéralement test « fourre-tout ».
3) Tests de normalité
Pour calculer des intervalles de confiance prévisionnels et aussi pour effectuer les tests de
Student sur les paramètres, il convient de vérifier la normalité des erreurs. Le test de Jarque et
Bera (1984), fondé sur la notion de Skewness (asymétrie) et de Kurtosis (aplatissement),
permet de vérifier la normalité d’une distribution statistique.
a) Les tests du Skewness et du Kurtosis
n
1
Soit μk = ∑ ( X −X )k le moment centré d’ordrek , le coefficient de Skewness ( β 11 /2 ) est égal à
n i=1 i
1/ 2 μ3 μ4
: β 1 = 3/ 2 et le coefficient de Kurtosis β 2= 2 .
μ2 μ2
Si la distribution est normale et le nombre d’observations grand ( n>30 ) :
1/ 2
β1 → N 0 ;( √ 6n ) et β → N (3 ; √ 24n )
2
On construit alors les statistiques :
v1 =
|β11 /2−0| | β2−3|
v 2=
√ √
6 et 24 que l’on compare à 1,96 (valeur de la loi normale au seuil de 5
n n
%).
41
Si les hypothèses H0 : v1 =0(symétrie) et v 2=0(aplatissement normal) sont vérifiées, alors
v1 ≤ 1,96 et v 2 ≤1,96 ; dans le cas contraire, l’hypothèse de normalité est rejetée.
b) Le test de Jarque et Bera
Il s’agit d’un test qui synthétise les résultats précédents ; si β 1/1 2 et β 2 obéissent à des lois
n n 2
normales alors la quantité s= β 1+ ( β 2−3 ) s uit une χ 2à deux degrés de liberté.
6 24
Donc si s> χ 21−α ( 2 )on rejette l’hypothèse H0 de normalité des résidus au seuilα .
Ces tests de normalité servent également dans le cas où il y a hétéroscédacité.

4) Tests d’homoscédasticité
Un processus de bruit blanc doit être homoscédastique, les tests d’hétéroscédasticité qui
suivent peuvent être utilisés.
–On étudier la distribution des carrés des résidus. L’analyse des termes du corrélogramme des
résidus au carré permet de tester l’existence d’une hétéroscédasticité. Si certaines valeurs de
la FAC (tests de Box-pierce ou Ljung-Box) sont significativement différentes de 0, nous
pouvons conclure à la présence d’une hétéroscédasticité.
– Un autre test, celui de Goldfeld-Quandt a pour but de comparer la somme des carrés des
résidus d’estimation après avoir scindé les résidus en deux sous-échantillons. Ce test n’est
valable que si l’une des variables est la cause de l’hétéroscédascité, et le nombre
d’observations est important. Il s’effectue suivant les étapes :
Etape 1 : pour un échantillon donné, il faut ordonner les observations en fonction des valeurs
croissantes ou décroissantes, soit de la variable expliquée, soit de la variable explicative
soupçonné être la source de l’hétéroscédasticité.
Etape 2 : extraire arbitrairement de l’échantillon d’observations, un nombre ∆ d’observations.
Ces observations sont prélevées au centre de l’échantillon et retiré de l’analyse, partageant
ainsi l’échantillon en deux sous échantillons. La valeur de ∆ est approximativement égale au
quart du nombre d’observations total.
[ ∆=partie entière ( n4 )] Avec n= nombre d’observations total de l’échantillon.

Etape 3 : l’échantillon de n−∆ observations ayant été partagé en deux sous-échantillons, on
effectue les régressions sur chacun d’eux. Il faut noter que si n−∆ est paire, alors chaque sous-
n−∆
échantillon comportera observations. Si par contre, n−∆ est impair, l’un des deux sous
2
n−∆ n−∆
échantillons aura observations, tandis que l’autre aura + 1observations.
2 2
Etape 4 : on calcule les 𝑆𝐶𝑅1 et 𝑆𝐶𝑅2 correspondant à chaque sous- échantillon.
Etape 5 : On effectue le test
42
• Formulation des hypothèses du test :
𝐻0: ℎ𝑜𝑚𝑜𝑠𝑐é𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑡é / 𝐻1 : hétéroscédasticité
• Calcul de la statistique de Fischer empirique :
La Fischer calculée est égale au rapport des sommes des carrées résiduels des deux sous-
échantillons.
Ici, c’est la SCR élevée qui est rapportée à la SCR faible (c’est à dire la SCR la plus élevée est
toujours au numérateur). Ainsi,
[ F¿ =
SCR 1 /ddl 1
SCR 2 /ddl 2 ] [
( si SCR 1 > SCR 2) ou encore F¿ =
SCR 2 /ddl 2
SCR 1 /ddl 1
(si SCR 2 > SCR 1)
]
• Comparaison et conclusion :
F ¿est comparé à la Fischer lue, pour un seuilα , a (𝑑𝑑𝑙1, 𝑑𝑑𝑙2) 𝑜𝑢 (𝑑𝑑𝑙2, 𝑑𝑑𝑙1) en fonction du
cas. Si
¿
F > F table , le modèle est hétéroscédastique car on rejette 𝐻0.
II. LA NON STATIONNARITE ET LES TESTS DE RACINES UNITAIRES
Si un processus est non stationnaire, il peut s’agir d’une non stationnarité du type déterministe
(processus TS) ou bien de type stochastique (processus DS). Les tests de racines unitaires de
Dickey-Fuller permettent de mettre en évidence le caractère stationnaire ou non d’une série
temporelle par la détermination d’une tendance déterministe ou stochastique
 PROCESSUS STOCHASTIQUES NON STATIONNAIRES A TENDANCE
UNIQUEMENT DETERMINISTE
Un processus stochastique non stationnaire à tendance uniquement déterministe évolue de la

manière suivante :
Xt = g(t) + ɛt (1)
où g(t) est une fonction déterministe (mécanique, non aléatoire) du temps et où ɛ t est une
composante aléatoire stationnaire. ɛt est un processus stochastique stationnaire qui n'est pas
nécessairement un bruit blanc : il peut être autocorrélé, lié à ses valeurs passées. Le théorème
de Wold montre qu'un processus stochastique stationnaire d'espérance nulle peut toujours être
écrit comme une combinaison linéaire des valeurs courantes et passées d'un bruit blanc :
43
vt = ɛt + ∅ 1ɛt-1 + ∅ 2ɛt-2 + …
Pour tout t où ɛt est un bruit blanc. Si l'on utilise la notation de l'opérateur de retard, on obtient
:
vt= (1 + ∅ 1B + ∅ 2B2 + …)ɛt = ∅ (B)ɛt
Pour tout t où ∅ (B) est un polynôme en l'opérateur de retard B. Un processus stochastique non
stationnaire à tendance déterministe uniquement évolue de la manière suivante :
Xt = g(t) + ∅ (B) ɛt (2)
Vu que la partie aléatoire ɛt de Xt est stationnaire, la non-stationnarité de X t est inhérente
uniquement à sa partie déterministe g(t).
Le processus TS le plus simple et le courant est représenté par une fonction polynomiale de
degré 1 ; on ainsi Xt = ∅ 0 + ∅ 1t + ɛt on observe avec vigilance que ce processus n’est pas
stationnaire car : E(Xt) dépend du temps ; soit E(Xt) = ∅ 0 + ∅ 1t ∀ t = 1. . .n
Dans ce type de processus, l’effet d’un choc ou de plusieurs chocs aléatoires à un instant
donné est transitoire. Donc dans ce cas expliciter la valeur de Xt et de son espérance à chaque
période :
t = 1 : X1 = ∅ 0 + ∅ 1 + ɛ1 et E(Xt) = ∅ 0 + ∅ 1
t = 2 : X2 = ∅ 0 + 2∅ 1 + ɛ2 et E(Xt) = ∅ 0 + 2∅ 1
t = 3 : X3 = ∅ 0 + 3∅ 1 + ɛ3 et E(Xt) = ∅ 0 + 3∅ 1 …
Xt augmente mécaniquement de 1∅ 1 à chaque période. À chaque période, la partie aléatoire de
Xt est ɛt , qui est stationnaire. On dit que Xt est « stationnaire autour d'une tendance
déterministe ». L'augmentation mécanique de l'espérance est la seule cause de la non-
stationnarité de Xt , qui est de nature purement déterministe : la partie déterministe de X t n'est
pas stationnaire, contrairement à la partie aléatoire de X t . La variance de Xt est constante dans
le temps parce que ɛt est stationnaire :
Var(Xt) = Var (ɛt) = σɛ2 ∀ t = 1. . .n (3)
Sur les valeurs ultérieures du processus, l'effet d'un choc aléatoire ɛ t est temporaire, puisque
son impact sur les valeurs successives Xt-1, Xt-2. . . S’estompent progressivement. En effet, un
choc ɛt en t affecte Xt+1 uniquement par la manière dont vt est lié à vt+i. Or vt est stationnaire :
le lien entre vt et vt+i s'estompe au fur et à mesure que l'écart de temps i s'accroît. Si v t est un
bruit blanc, un choc ɛt n'a d'effet que sur Xt , et non sur Xt+1, Xt+2 . . .
 PROCESSUS STOCHASTIQUES NON STATIONNAIRES A TENDANCE

STOCHASTIQUE
Les processus stochastiques non stationnaires à tendance stochastique sont dits intégrés ou à
racines unitaires. Un processus stochastique est non stationnaire à tendance stochastique
quand une ou plusieurs racines unitaires figurent dans sa partie autorégressive ou
déterministe, ce qui implique que la somme de ses coefficients autorégressifs est égale à 1.
44
Tout processus (Xt) peut en effet être représenté approximativement par un modèle AR(p), où
p est suffisamment grand pour capter toute la dynamique de (Xt) :
∀ t : Xt = ∅ 0 + ∅ 1Xt-1 + ∅ 2Xt-2 + . . . + ∅ pXt-p + ɛt (1)
Si l'on utilise la notation de l'opérateur de retard, on obtient :
∀ t (1 - ∅ 1B - ∅ 2B2 + . . . + ∅ pBp) Xt +ɛt = ∅ 0 + ɛt où le processus stochastique (ɛt) est un bruit
blanc. Xt est à tendance stochastique si ∅ 1 + ∅ 2 + . . . + ∅ p = 1.
Cela implique qu'une racine unitaire figure dans le polynôme caractéristique du processus.
Soit :
X (B) = 1 - ∅ 1B - ∅ 2B2 + . . . + ∅ pBp
Cas d’un AR(1) :
Xt = ∅ 0 + ∅ 1Xt-1 + ɛt i.e Xt - Xt-1 = ∅ 0 + ɛt
(1 – B)Xt = ∅ 0 + ɛt
On distingue alors deux cas selon que la constante ∅ 0 est égale à 0 ou non :
 Si ∅ 0 = 0, alors le processus DS est dit sans dérive. ɛ t étant un bruit blanc, un tel
processus est aussi appelé marche au hasard. Il et très fréquemment utilisé pour
l’efficience des marchés financiers.
 Si ∅ 0 ≠ 0, alors on dit que le processus DS est avec dérive.
Dans un processus DS, l’effet produit par un choc à un instant donné se répercute à l’infini sur
les valeurs futures de la série. C’est un effet permanent qui évolue de manière décroissante.
De façon générale, Les caractéristiques d'un processus stochastique X t non stationnaire à
tendance stochastique sont :
 L'espérance de Xt est constante en l'absence de dérive (terme constant) et varie dans le
temps en cas de dérive : une tendance déterministe s'ajoute alors à la tendance
stochastique.
 La variance de Xt varie dans le temps.
 L'effet d'un choc ɛt est permanent : il affecte de la même manière toutes les valeurs X t+i
ultérieures.
 TESTS DE RACINE UNITAIRE
Lorsqu'on travaille avec une ou plusieurs séries économiques observées, il est important de
déterminer, pour chaque série, si le processus stochastique dont elle est la réalisation est :
 stationnaire ;
 non stationnaire à tendance uniquement déterministe (ou stationnaire autour d'une
tendance déterministe) ;
 non stationnaire à tendance stochastique.
L'importance de cette information est évidente dans les cas de figure suivants :
45
On souhaite spécifier et estimer un modèle où l'évolution d'une série économique n'est
« expliquée » que par son passé. Il faut d'abord « stationnariser » la série (établir une
transformation stationnaire de cette série) avant de chercher le meilleur modèle ARMA qui
décrit l'évolution temporelle de cette transformation stationnaire. Or, si une série est non
stationnaire, la nature de sa transformation stationnaire diffère en fonction de la tendance
(déterministe uniquement ou stochastique) du (par exemple une variable dépendante et une ou
plusieurs variables explicatives) et tester des hypothèses sur les paramètres de cette relation.
Les techniques d'inférence statistique à utiliser sont différentes en fonction de la nature des
processus stochastiques de ces séries :
Les techniques d'inférence processus de cette série. On souhaite estimer un modèle linéaire
reliant plusieurs séries économiques statistique classique sont valables à condition qu'aucune
série de la relation n'ait une tendance stochastique. Les techniques liées à la problématique de
la cointégration s'imposent lorsque des séries de la relation ont une tendance stochastique. Les
tests de racine unitaire permettent de tester les hypothèses :
o H0 qu'une série économique observée est la réalisation d'un processus stochastique
non-stationnaire à tendance stochastique ;
o H1 que ce processus est stationnaire à tendance uniquement déterministe ou
stationnaire.
Ces tests sont basés sur l'estimation préalable d'un modèle autorégressif AR(p) censé
approcher le vrai comportement du processus stochastique dont la série observée est une
réalisation.
Les tests de racine unitaire « Unit Root Test » permettent non seulement de détecter
l’existence d’une non-stationnarité mais aussi de déterminer de quelle non-stationnarité il
s’agit (processus TS ou DS) et donc la bonne méthode pour stationnariser la série. Pour
vérifier la stationnarité des séries, il faut pratiquer des tests de stationnarité ou des tests de
racine unitaire.
Il existe plusieurs tests de racine unitaire : tests de Dickey-Fuller simple et Dickey-Fuller
Augmenté, test de Phillips et Perron, test de Kwiatkowski, Phillips, Schmidt et Shin (test de
KPSS).
 Tests de Dickey-Fuller (DF) (1979) : erreurs non autocorrélées.
Le test de Dickey-Fuller (DF) permet de mettre en évidence le caractère stationnaire ou non
d’une chronique par la détermination d’une tendance déterministe ou stochastique. Les
auteurs spécifient trois modèles :
Modèle (1): Xt = ∅ 1Xt-1 + ɛt
Modèle (2): Xt = ∅ 1Xt-1 + c + ɛt
Modèle (3): Xt = ∅ 1Xt-1 + bt + c + ɛt
Le principe du test est simple : si l’hypothèse H0 : ∅ 1 = 1 est retenue dans l’un de ces trois
modèles, le processus est alors non stationnaire. Si l’hypothèse H0 est vérifiée, la chronique
Xt n’est pas stationnaire quel que soit le modèle retenu. Dans le dernier modèle [3], si on
accepte H1 : ∅ 1 < 1 et si le coefficient b est significativement différent de 0, alors le processus
46
est un processus TS ; on peut le rendre stationnaire en calculant les résidus par rapport à la
tendance estimée par les moindres carrés ordinaires.
Si on s’intéresse au Modèle(1), on va tester :
{ H 0 :∨∅1∨¿ 1
H 1:∨∅ 1∨¿ 1
Pour des raisons de commodité on transforme l'équation de ce modèle de façon à pouvoir

tester par rapport à la valeur zéro.
Xt - Xt-1 = ∅ 1Xt-1 - Xt-1 + ɛt
Δ Xt = (ϕ 1 - 1) 1Xt-1 + ɛt
On teste alors :
{ H 0 :(ϕ 1−1)=0
H 1:(ϕ 1−1)< 0
Sous H0 vraie, la statistique de test pour l’estimateur de ϕ1 est donnée par :

^∅−1
t ∅=
σ^∅
Les règles de décision sont les suivantes :

• Si t > tDF où tDF désigne la valeur critique donnée par table de DF
⇒ On accepte H1 : le coefficient de la variable explicative est significativement différent de 0.

Si on a b significativement différent de 0 pour le modèle [3], le test s’arrête ici, on
n’étudie pas les autres modèles. De même que si on arrive au modèle [2] et que l’on a la
constante qui est significativement différente de 0, le test s’arrête au modèle [2].
• Si |t ∅| > tDF ⇒ On accepte H0 : la série est non stationnaire
(ATTENTION : il faut observer ici que pour | t ∅| > tDF , on n’a pas H1. La règle de décision
est ici inversée).
Pour ce test on utilise le test de Student mais sachant que la distribution du test de Student
sous l'hypothèse H0 n'est plus standard. Sous H0 cette distribution a été tabulée par Dickey et
Fuller d'où le nom de test de Dickey-Fuller (1976) qui a été donné au plus courant des tests de
racine unitaire.
Il existe une version dans laquelle on introduit dans le modèle(1) les accroissements décalés
de la variable expliquée
Δ Xt = (∅ 1 - 1) ∅ 1Xt-1 + Δ Xt-1 + …+ Δ Xt-n ɛt connue sous le nom de Augmented Dickey Fuller
(ADF), qui est une version plus générale du test. Les valeurs critiques du test se lisent dans la
table de Dickey-Fuller.
 Les tests de Dickey et Fuller Augmentés (ADF) (1981) : erreurs autocorrélées.
47
Dans les modèles précédents, la procédure de test DF n’est applicable que sous l’hypothèse
suivant laquelle les erreurs ε t sont i .i . d . , autrement dit , si la série chronologique X t suit un
processus autorégressif d’ordre 1 connu. Il va sans dire que cette hypothèse est trop
restrictive ; en pratique, il est peu vraisemblable qu’elle soit satisfaite. Toutefois, DICKEY et
FULLER (1981) étendent cette procédure de test à des séries chronologiques admettant une
représentation d’ordre p.
Les tests ADF sont fondés, sous l’hypothèse alternative |∅1|<1 , sur l’estimation par les MCO
des trois modèles autorégressifs d’ordre p suivants :
p
Modèle [4] : ∆ X =ρ X t−1−∑ ∅ j ∆ X t − j +1+ ε t
t
j=2
p
Modèle [5] : ∆ X =ρ X t−1−∑ ∅ j ∆ X t − j +1+ c+ ε t
t
j=2
p
Modèle [6] : ∆ X t= ρ X t−1−∑ ∅ j ∆ X t − j+ 1+ c+bt +ε t avec ε t →i .i . d .( 0 , σ ε )
2
j=2
Le test se déroule de manière similaire aux tests DF simples, seules les tables statistiques
diffèrent. La valeur de p peut être déterminée selon les critères d’Akaike ou de Schwarz, ou
encore, en partant d’une valeur suffisamment importante de p, on estime un modèle à p – 1
retards, puis à p – 2 retards, jusqu’à ce que le coefficient du pième retard soit significatif.
 Le test de Phillips et Perron (1988)
Ce test est construit sur une correction non paramétrique des statistiques de Dickey-Fuller
pour prendre en compte des erreurs hétéroscédastiques. Il se déroule en quatre étapes:
1) Estimation par les moindres carrés ordinaires des trois modèles de base des tests de
Dickey-Fuller et calcul des statistiques associées, soit e t le résidu estimé.
n
1
2) Estimation de la variance dite de court terme σ^ = ∑ e t
2 2
n t=1
3) Estimation d'un facteur correctif s2t (appelé variance de long terme) établi à partir de la
structure des covariances des résidus des modèles précédemment estimés de telle sorte que les
transformations réalisées conduisent à des distributions identiques à celles du Dickey-Fuller
standard :
( )
n I n
1 i 1
s = ∑ e t +2 ∑ 1− ∑ee .
2 2
t
n t =1 i=1 I +1 n t =i+1 t t−i
Pour estimer cette variance de long terme, il est nécessaire de définir un nombre de retards I
(troncature de Newey-West) estimé en fonction du nombre d'observations n, I ≈ 4 ( n/ 100 )2 /9 .
( ∅^1−1 ) n(k −1) σ^^ ^∅ σ^

2
4) Calcul de la statistique de PP :t =√ k × ¿
∅^ 1 + 1
avec k = 2 (qui est égal à 1
σ^ ∅^ 1
√k st
– de manière asymptotique – si et est un bruit blanc). Cette statistique est à comparer aux
valeurs critiques de la table de Mackinnon.
48
 Stratégie de tests
Nous constatons que pour réaliser un test de racine unitaire, le résultat n’est pas identique
selon l’utilisation de l’un des trois modèles comme processus générateur de la chronique de
départ. Les conclusions auxquelles on parvient sont donc différentes et peuvent entraîner des
transformations erronées. C’est la raison pour laquelle Dickey et Fuller, et à leur suite d’autres
auteurs, ont élaboré des stratégies de tests.
 Le test KPSS (1992)
Kwiatkowski et al. (1992) propose d’utiliser un test du multiplicateur de

Lagrange (LM) fondé sur l’hypothèse nulle de stationnarité. Après estimation des modèles [2]
t
ou [3], on calcule la somme partielle des résidus : st =∑ e t et on estime la variance de long
i=1
terme ( s ) comme pour le test de Phillips et Perron.

2
t
49
Stratégie simplifiée des tests de racine unitaire
NB : y t =X t , y t −1=X t −1 et at =ε t
n
La statistique est alors 1

∑ 2
st
On rejette l’hypothèse de stationnarité si cette
t =1
LM = 2 2
.
s n t
statistique est supérieure aux valeurs critiques lues sur une table élaborée par les auteurs. Il est
à noter que les logiciels RATS et EVIEWS permettent directement l’utilisation de ces tests.
III. STATIONNARISATION DES PROCESSUS TS ET DS
Une série non stationnaire doit être stationnarisée avant toute estimation, et le modèle de
stationnarisation dépend de la source de non stationnarité.
50
 Pour stationnariser un processus TS, on peut passer par la méthode des moindres
carres.
 Pour un processus DS, on utilise le filtre aux différences premières.
 CONSEQUENCES D’UNE MAUVAISE STATIONNARISATION DU

PROCESSUS
Pour un processus TS, la bonne méthode de stationnarisation est celle des moindres carrés
ordinaires. Supposons que l'on applique au processus TS du premier ordre un filtre aux
différences premières. A priori, comme le degré du polynôme est 1, ce filtre peut être
considéré comme correct puisqu'un filtre aux différences d'ordre d élimine un polynôme de
même degré. Cependant, on démontre que l'application du filtre aux différences a créé une
perturbation artificielle. Pour un processus DS, la bonne méthode de stationnarisation est le
filtre aux différences premières. Supposons que l'on applique la méthode des moindres carrés
ordinaires (régression sur le temps) sur les observations d'un échantillon du processus, les
paramètres de la tendance sont estimés et par conséquent le résidu de la régression doit être un
bruit blanc. Nelson et Kang montrent à partir de simulations, que l'élimination d'une tendance
linéaire sur un processus de marche aléatoire crée artificiellement une forte autocorrélation
des résidus pour les premiers retards.
Sur le plan économétrique, il est donc primordial d'identifier clairement le processus sous-
jacent et d'employer la méthode adéquate de stationnarisation. Sinon le risque de créer des «
bruits parasites » artificiels est très élevé.
CONCLUSION
La théorie économétrique a été élaborée dans les années 40 en supposant d'une part que la
théorie économique est capable de fournir des modèles directement testables et d'autre part
que la confrontation avec les données nous permet de rejeter ou d'accepter sans ambiguïté une
théorie. Il s’agit, nous l'avons vu, d'une double illusion.
Tout d'abord les modèles théoriques sont loin d'être toujours utilisables par l'économètre. En
effet certaines variables ne sont ni directement observables ni directement mesurables .D'autre
part de nombreux modèles théoriques restent insuffisamment spécifiés. Par exemple ils
n'indiquent pas les délais à prendre en compte. Enfin les théories économiques sont
formalisées de façon trop générale pour être testables (comme la théorie walrasienne) soit sont
construites sous l'hypothèse "Ceteris Paribus» (toute chose égale par ailleurs). Dans ce
dernier cas nous ne pouvons savoir si la non correspondance entre le modèle théorique et les
observations proviennent de la mauvaise spécification de la fonction ou bien d'un changement
dans l'environnement du modèle. Les difficultés proprement statistiques ne sont pas moins
réelles. Trop souvent les données utilisées par l'économètre restent très approximatives - pour
ne pas dire fausses ce qui rend douteux les résultats obtenus ; D'autre part les méthodes
statistiques ne sont souvent justifiées que pour des séries très longues alors que l'économiste
ne dispose généralement que de séries courtes. Au reste pour des séries très longues
l'homogénéité des variables pose souvent problème. Ces difficultés ne doivent pas cacher
l'importance de l'économétrie dans l'analyse économique contemporaine. S'il n'est souvent pas
51
possible de rejeter une théorie économique sur la seule base des résultats économétriques, les
tests d'acceptabilité statistique sont devenus des procédures routinières, d'autant que les
programmes informatiques sont aujourd'hui facilement disponibles. L'économétrie a du reste
contribué à modifier la théorie économique dans la mesure l'exigence de modèles testables
devient une condition d'acceptabilité dans les publications scientifiques. Dès lors la notion de
stationnarité s’est avérée indispensable au fil des analyses faites dans ce chapitre pour mener à
bien l’analyse des données dans le cadre de l’économétrie sans modèle préalablement défini
(économétrie des séries temporelles).
52

Cours D'économétrie 2 Seco4

Transféré par

Informations du documentcliquez pour développer les informations du document

Droits d'auteur :

Formats disponibles

Cours D'économétrie 2 Seco4

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours D'économétrie 2 Seco4

Transféré par

Droits d'auteur :

Formats disponibles

COURS D’ECONOMETRIE – SCIENCES ECONOMIQUES QUATRIEME ANNEE

Soit le modèle suivant :

Le modèle à estimer s’écrit :

Une fois que les coefficients sont estimés, le modèle va s’écrire :

Où â1 et â0 désignent les valeurs estimées des paramètres a1 et a0, et = yt - ŷt est appelé le

A/ Méthode d’estimation des Moindres Carrés Ordinaires (MCO)

Comment estimer a1 et a0 pour reproduire au mieux le phénomène économique observé ?

Où T désigne le nombre d’observations pour les variables yt et xt.

→ la droite d’ajustement ^y t passe par le point moyen ( x , y )

→ estimateur de a0 par les MCO

1/ Hypothèses et propriétés des estimateurs des MCO

Les hypothèses liées à l’erreur εt sont :

H1 : xt est une variable certaine (non aléatoire)

⇒ Cov(xt,εt) = 0 ∀t : la variable explicative et l’erreur sont indépendantes.

H2 : E(εt) = 0 ∀t : l’erreur est d’espérance nulle.

H4 : Cov(εt,εt’) = E(εt. εt’) – E(εt).E(εt’) = E(εt. εt’) = 0 car on a E(εt) = 0 ∀t ≠ t’

⇒ les erreurs sont non corrélées.

1/ les estimateurs sont sans biais : E(â1) = a1 et E(â0) = a0 ;

B/ Critère de jugement de la qualité de l’ajustement d’un modèle

Soit la décomposition suivante :

Il vient l’équation suivante appelée équation d’analyse de la variance :

Var(y) = Var(ŷ) + Var(e).

A partir de l’équation d’analyse de la variance, on va construire le critère du R² (ou

Le R² est donné par le rapport suivant :

SCE SCR t=1

II/ LE MODELE DE REGRESSION MULTIPLE

Le modèle de régression multiple est une généralisation du modèle de régression simple. Il

y t =a0 + a1 x 1 t + a2 x 2 t +…+ a(k −1 ) x (k−1 ) t + ε t pour t=1, 2 , … , n .

Y (T ,1 )=X (T ,1 ) a(K ,1) +ε (T , 1)

A/ Méthode d’estimation des Moindres Carrés Ordinaires (MCO)

Soit le modèle général suivant :

Y(T,1) = X (T , k) a(T ,1) + ε(T,1) .

1/ Hypothèses et propriétés des estimateurs des MCO

H1 : E(ε) = 0 ⇒ E(εt) = 0 ∀ t : l’erreur est d’espérance nulle.

H2 : X est une matrice composée de variables certaines (non aléatoires).

⇒ il n’existe pas de colinéarité stricte des k variables explicatives.

H4 : Vε = E[(ε-E(ε))(ε-E(ε))’] = E(ε ε’) = σ 2ε I car on a E(ε) = 0 d’après (H1)

Vε = matrice des variances-covariances des erreurs ε

( ε 1 , ε 2) =E ( ε 1 ε 2) −E ( ε 1) . E ( ε 2 ) =E ( ε 1 ε 2 ) car E ( ε 1 )=E ( ε 2 )=0 d ' après l' hypothèse H 1 postulée.

Loesqu’il n’y a pas autocorrélation ni hétéroscédasticité des erreurs, on a :

Car on a Var (ε 1 ¿=¿ σ 2ε ∀ t ( homoscédasticité des erreurs ) et Cov( ε 1 , ε 2) =¿0

1/ les estimateurs sont sans biais (6) : E(â)= a ;

2/ les estimateurs sont convergents : Tlim

En effet, on a : Vâ =σ 2ε (X’X)-1

On calcule : Vâ =σ 2ε (X’X)-1 à l’aide de l’estimateur de σ 2ε qui s’écrit comme suit :

B/ Critère de jugement de la qualité de l’ajustement d’un modèle

∑ ( y t − y)2 =∑ ( ^y t −^y )2+∑ e 12

SCT = SCE + SCR

Var(y) = Var(ŷ) + Var(e).

Comme pour le modèle de régression simple, on va construire le critère du R² (ou coefficient

Le coefficient de détermination corrigé :

Le R² ne permet de comparer que des modèles ayant le même nombre de variables

NOTE : le test de Box-Cox permet de comparer un modèle simple à un modèle en log.

C/ Utilisation de variables indicatrices (ou variables muettes ou dummies)

• Correction des valeurs anormales ;

On n’étudiera ici que la correction des valeurs anormales.

Correction des valeurs anormales (ou points aberrants) :

Lorsque l’on estime le modèle suivant avec la variable indicatrice I: