Reg Multiple Etude Des Residus
Reg Multiple Etude Des Residus
Reg Multiple Etude Des Residus
Ricco RAKOTOMALALA
1. Diagnostic graphique
2. Caractère aléatoire des erreurs (données ordonnées)
3. Test de normalité
Problème : Les propriétés (biais, convergence) et l’inférence statistique (test de significativité, intervalle de
confiance) reposent en grande partie sur des hypothèses sur les erreurs. Il faut s’assurer de la conformité aux
hypothèses.
Quelles hypothèses ?
Quelques principes
• On ne dispose pas des erreurs mais des résidus (erreurs observées) déjà une inférence ici
• Résidus portés en ordonnée, les graphiques diffèrent de ce qu’on met en abscisse
• Traquer toute forme de « régularité » dans les résidus et/ou de dépendance entre les résidus et les variables
Les résidus doivent donc être disséminés « au hasard » dans un certain intervalle
• Un point s’écartant ostensiblement est la marque d’une observation atypique et/ou mal modélisée
Point atypique
Une valeur très différente sur l’endogène et/ou sur une ou
combinaison d’exogènes. Elle n’est pas forcément mal
modélisée (résidu élevé).
Point influent
Très difficile à détecter visuellement
Peut être atypique ou non
Peut être bien modélisé ou non
Asymétrie
• Des plages de données de l’endogène mal reconstitués
• Données atypiques
• Mélanges de populations différentes
• Problèmes de spécifications (absence d’exogènes importantes)
Non linéarité
• Modèle linéaire inadapté, utiliser un modèle non linéaire
• Passer par des transformations de variables (log., carré, racine carrée,
produit entre variables : interactions, etc.)
Rupture de structure
• Résidus en « blocs »
• Mélange de populations
• Mutations ou crises dans les séries temporelles
Hétéroscédasticité
• Variance des résidus non constante
• Exogène en abscisse pour détecter (traiter) dépendance
Autocorrélation
• Associée aux données longitudinales
• Processus particulier (régularité) au cours du temps ?
• Positive (blocs +/-) ou négative (alternance +/-)
Commentaires
• Globalement, pas de « formes » particulières se dessinent
• Des points manifestement atypiques
• Quelques points très mal modélisés (il faut avoir une idée de
l’écart type pour vraiment statuer dessus)
• Des points atypiques bien modélisés et des points atypiques
mal modélisés
Causes
Problèmes de spécification
Variables importantes manquent
Données déjà manipulées (lissées, moyenne mobile, rétropolées, interpolées, etc. ex.
données fournies par les observatoires statistiques)
Conséquences
MCO quand même non biaisé
Mais MCO n’est plus à variance minimale
Mauvaise estimation de la matrice des VCV
ET (par conséquent) Inférence statistique inopérante
Test de Durbin-Watson
Décrire l’erreur sous la forme Test spécifique à une forme de l’erreur
Puissant pour cette forme
i . i 1 i avec i N (0 ; ) Mais non opérante pour les autres formes
A voir en M1 (avec les MCG)
Tester H0 : =0 vs. H1 : 0
Méthodes numériques
Test des séquences
(Wald-Wolfowitz) Test générique, s’applique à toute forme
Plus générique Moins puissant pour des formes spécifiques
Cherche les régularités sous forme de « Généralisable pour données transversales (attention, sous
certaines conditions uniquement)
séquences »
Principe
Les données sont ordonnées (selon le temps)
Compter le nombre de fois où les résidus sont consécutivement au-dessus ou en-
dessous de la valeur 0 : on parle de séquences
r = 4 séquences
Test d’hypothèses
H0 : Les données évoluent de manière aléatoire
Région critique : Un nombre de séquence trop élevé (alternance +/-) est tout aussi
suspect qu’ un nombre de séquences trop faible (gros blocs de +/-)
r = 15 séquences
Principe
Tester l’Autocorrélation des résidus n’a aucun sens sur les données transversales…
Parce qu’on peut toujours trier (mélanger) les données de manière à ce que les tests concluent H0
Mais on peut exploiter le test des séquences pour détecter les problèmes
En triant les données selon l’endogène…
Vérifier s’il existe des « zones » où les valeurs de l’endogène sont sur (sous) estimées durablement par le modèle
V2
-1.0
1 2.130 0.165 V1
Q-Q plot pour vérifier la compatibilité avec la loi normale : Q-Q norm
En abscisse, les quantiles de la distribution observée…
En ordonnée, les quantiles de la distribution normale (théorique) correspondante (moyenne, écart type estimés)
Si les points forment une droite, la distribution est compatible avec la loi normale
Test, on forme : g1 m1
c1
s1
Région critique : c1 u
(Rejet de H0) 1
2
Principe
Définition du coefficient d’aplatissement
Si les résidus suivent une loi normale (H0), l’aplatissement = 0
(A contrario) Si aplatissement 0, alors les résidus ne sont pas compatibles avec la 4
2 3
loi normale 4
1
n i
ˆi4
Coefficient d’aplatissement estimé g2 3
4
1 2
n ˆi
2
i
Test, on forme : g 2 m2
c2
s2
Région critique : c2 u
(Rejet de H0) 1
2
Statistique de Jarque-Bera
Sous H0, g1 et g2 sont asymptotiquement indépendants. Application sur les données consommation
On propose la statistique T qui suit une loi du KHI-2 à 2
degrés de liberté (logique : somme de 2 lois normales au carré
indép.)
n p 1 2 g 22
T g1 2 (2)
6 4
En cas d’invalidation, l’analyse graphique des résidus donne une idée des pistes à
explorer pour remédier aux problèmes (non-linéarité, rupture de structure, etc.)
En ligne
R. Rakotomalala. Portail.
http://eric.univ-lyon2.fr/~ricco/cours/cours_econometrie.html
Wikipédia.
http://fr.wikipedia.org/wiki/Régression_linéaire_multiple
Ouvrages