Reg Multiple Etude Des Residus

Régression Linéaire Multiple
Ricco RAKOTOMALALA
Tutoriels Tanagra pour la Data Science

http://tutoriels-data-mining.blogspot.fr/ 1
PLAN
1. Diagnostic graphique
2. Caractère aléatoire des erreurs (données ordonnées)
3. Test de normalité

Pourquoi étudier les résidus ?
Importance des résidus pour l’inférence statistique
Problème : Les propriétés (biais, convergence) et l’inférence statistique (test de significativité, intervalle de
confiance) reposent en grande partie sur des hypothèses sur les erreurs. Il faut s’assurer de la conformité aux
hypothèses.
Quelles hypothèses ?
• E() = 0, en moyenne le modèle est bien spécifié

• E(2)= 2 la variance de l ’erreur est constante (homoscédasticité)
• E(i, j)=0, les erreurs sont non-corrélés
• Cov(,x)=0, l ’erreur est indépendante de la variable explicative
•   Normale(0, 2 )
Quelques principes
• On ne dispose pas des erreurs mais des résidus (erreurs observées)  déjà une inférence ici
• Résidus portés en ordonnée, les graphiques diffèrent de ce qu’on met en abscisse
• Traquer toute forme de « régularité » dans les résidus et/ou de dépendance entre les résidus et les variables
 Les résidus doivent donc être disséminés « au hasard » dans un certain intervalle
• Un point s’écartant ostensiblement est la marque d’une observation atypique et/ou mal modélisée

Un petit graphique vaut mieux (souvent) que de longs calculs

Graphiques de base
Résidus vs. Endogène, vs. Exogènes, vs. Temps
Résidus vs. Endogène

• Vérifier les points atypiques et/ou mal modélisés
• Vérifier si certaines plages de valeurs sont sous ou sur-estimées
• Vérifier la dispersion selon les valeurs de Y
Résidus vs. Exogènes

• Vérifier les points atypiques
• Vérifier les dépendances
• Vérifier la dispersion selon les plages de valeurs de X
Résidus vs. Temps

• Données temporelles
• Tableau ordonné selon le temps
• Vérifier l’existence de « régularités »

Cas pathologiques
Points atypiques et points influents
Points atypiques : Points qui s’écartent délibérément des autres

Points influents : Points qui pèsent (exagérément) sur les estimations : si on les enlevait, on obtiendrait des
résultats (significativement) différents
Point atypique
Une valeur très différente sur l’endogène et/ou sur une ou
combinaison d’exogènes. Elle n’est pas forcément mal
modélisée (résidu élevé).
Cf. Endogène atypique O/N x Mal/Bien modélisé
Atypique exogène + Mal modélisé
Point influent
Très difficile à détecter visuellement
 Peut être atypique ou non
 Peut être bien modélisé ou non
Cf. Atypique non influent, Non atypique mais influent
Régression simple : Point manifestement influent

Serait-ce aussi évident dans un graphique des résidus ?

Cas pathologiques
Asymétrie, non linéarité et rupture de structure
Asymétrie
• Des plages de données de l’endogène mal reconstitués
• Données atypiques
• Mélanges de populations différentes
• Problèmes de spécifications (absence d’exogènes importantes)
Non linéarité
• Modèle linéaire inadapté, utiliser un modèle non linéaire
• Passer par des transformations de variables (log., carré, racine carrée,
produit entre variables : interactions, etc.)
Rupture de structure
• Résidus en « blocs »
• Mélange de populations
• Mutations ou crises dans les séries temporelles

Cas pathologiques
Hétéroscédasticité et autocorrélation des résidus
Hétéroscédasticité
• Variance des résidus non constante
• Exogène en abscisse pour détecter (traiter) dépendance
Autocorrélation
• Associée aux données longitudinales
• Processus particulier (régularité) au cours du temps ?
• Positive (blocs +/-) ou négative (alternance +/-)

Un exemple
Prédiction de la consommation de véhicules
x1 x2 x3 x4 y
i Modèle Véhicule (Fr s ) (cm 3) (kW) (kg) (l/100km )
Pr ix Cylindr ée Puis s ance Poids Cons om m ation
1 Daihats u Cuor e 11600 846 32 650 5.7
2 Suzuki Swift 1.0 GLS 12490 993 39 790 5.8
3 Fiat Panda Mam bo L 10450 899 29 730 6.1
4 VW Polo 1.4 60 17140 1390 44 955 6.5
5 Opel Cor s a 1.2i Eco 14825 1195 33 895 6.8
6 Subar u Vivio 4WD 13730 658 32 740 6.8
7 Toyota Cor olla 19490 1331 55 1010 7.1
8 Fer r ar i 456 GT 285000 5474 325 1690 21.3
9 Mer cedes S 600 183900 5987 300 2250 18.7
10 Mas er ati Ghibli GT 92500 2789 209 1485 14.5
11 Opel As tr a 1.6i 16V 25000 1597 74 1080 7.4
12 Peugeot 306 XS 108 22350 1761 74 1100 9.0
13 Renault Safr ane 2.2. V 36600 2165 101 1500 11.7
14 Seat Ibiza 2.0 GTI 22500 1983 85 1075 9.5
15 VW Golt 2.0 GTI 31580 1984 85 1155 9.5
16 Citr oen Z X Volcane 28750 1998 89 1140 8.8
17 Fiat Tem pr a 1.6 Liber ty 22600 1580 65 1080 9.3
18 For t Es cor t 1.4i PT 20300 1390 54 1110 8.6
19 Honda Civic Joker 1.4 19900 1396 66 1140 7.7
20 Volvo 850 2.5 39800 2435 106 1370 10.8
21 For d Fies ta 1.2 Z etec 19740 1242 55 940 6.6
22 Hyundai Sonata 3000 38990 2972 107 1400 11.7
23 Lancia K 3.0 LS 50800 2958 150 1550 11.9
24 Mazda Hachtback V 36200 2497 122 1330 10.8
25 Mits ubis hi Galant 31990 1998 66 1300 7.6
26 Opel Om ega 2.5i V6 47700 2496 125 1670 11.3
27 Peugeot 806 2.0 36950 1998 89 1560 10.8
28 Nis s an Pr im er a 2.0 26950 1997 92 1240 9.2
29 Seat Alham br a 2.0 36400 1984 85 1635 11.6
30 Toyota Pr evia s alon 50900 2438 97 1800 12.8
31 Volvo 960 Kom bi aut 49300 2473 125 1570 12.7

Un exemple
Graphiques des résidus
Commentaires
• Globalement, pas de « formes » particulières se dessinent
• Des points manifestement atypiques
• Quelques points très mal modélisés (il faut avoir une idée de
l’écart type pour vraiment statuer dessus)
• Des points atypiques bien modélisés et des points atypiques
mal modélisés
Trier, filtrer et croiser les données de différentes

manières permet d’identifier les points susceptibles
de poser problème.
Reste alors à déterminer ce qu’il faut en faire.

Pour les données longitudinales (séries chronologiques)…
…mais pas seulement.

Autocorrélation des résidus Détection visuelle avec le
Pourquoi c’est important
graphique des résidus
Causes
Problèmes de spécification
Variables importantes manquent
Données déjà manipulées (lissées, moyenne mobile, rétropolées, interpolées, etc.  ex.
données fournies par les observatoires statistiques)
Conséquences
MCO quand même non biaisé
Mais MCO n’est plus à variance minimale
Mauvaise estimation de la matrice des VCV
ET (par conséquent) Inférence statistique inopérante
Test de Durbin-Watson
Décrire l’erreur sous la forme Test spécifique à une forme de l’erreur
Puissant pour cette forme
 i  . i 1  i avec i  N (0 ;  ) Mais non opérante pour les autres formes
A voir en M1 (avec les MCG)
Tester  H0 : =0 vs. H1 : 0
Méthodes numériques
Test des séquences
(Wald-Wolfowitz) Test générique, s’applique à toute forme
Plus générique Moins puissant pour des formes spécifiques
Cherche les régularités sous forme de « Généralisable pour données transversales (attention, sous
certaines conditions uniquement)
séquences »

Test des séquences
Principe
Les données sont ordonnées (selon le temps)
Compter le nombre de fois où les résidus sont consécutivement au-dessus ou en-
dessous de la valeur 0 : on parle de séquences
(1) (2) (3) (4)
 r = 4 séquences
Test d’hypothèses
H0 : Les données évoluent de manière aléatoire
Région critique : Un nombre de séquence trop élevé (alternance +/-) est tout aussi
suspect qu’ un nombre de séquences trop faible (gros blocs de +/-)
(Remarque : quelles sont les valeurs min et max de r ?)
 r = 15 séquences
Statistique du test et loi asymptotique

Soit n+ (resp. n-), nombre de points positifs (négatifs)
Statistique centrée r

réduite z
2n n 
r suit une loi normale de
 1
n
paramètres
(   1)(   2) Région critique

n 1 (rejet de H0) : z  u1 2
Test des séquences
Un exemple : Expliquer la consommation en fonction du prix et des revenus
Les observations sont compatibles avec H0 : processus aléatoire

Test des séquences
Applicables sur les données transversales ?
Principe
Tester l’Autocorrélation des résidus n’a aucun sens sur les données transversales…
Parce qu’on peut toujours trier (mélanger) les données de manière à ce que les tests concluent H0
Mais on peut exploiter le test des séquences pour détecter les problèmes
En triant les données selon l’endogène…
Vérifier s’il existe des « zones » où les valeurs de l’endogène sont sur (sous) estimées durablement par le modèle
La nature du test est modifié

Un nombre élevé de séquences n’est plus un problème dans ce contexte…
Il y a pathologie lorsque le nombre de séquences est anormalement faible
 On passe sur un test unilatéral
Tout va bien Non-linéarité : problème Rupture de structure : problème

Hypothèse nécessaire pour la partie inférentielle
(Tests d’hypothèses sur les coefficients, intervalles de confiance)

Graphique quantile-quantile
Q-Q norm (Droite de Henry)
Principe Q-Q plot

Confronter les quantiles de 2 distributions (pas nécessairement de même effectif) dans un graphique X-Y…
Si les points forment une droite : les distributions sont identiques (compatibles)
Fréquence V1 (trié) V2 (trié) Quantile-quantile plot

0.1 -1.764 -1.938 0.5
0.2 -0.792 -1.339
0.0
0.3 -0.483 -0.694 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5
0.4 -0.171 -0.329 -0.5
0.5 0.118 -0.221
V2
-1.0
0.6 0.298 -0.002 -1.5

0.7 0.317 0.026
-2.0
0.8 1.962 0.104
0.9 2.079 0.138 -2.5
1 2.130 0.165 V1
Q-Q plot pour vérifier la compatibilité avec la loi normale : Q-Q norm
En abscisse, les quantiles de la distribution observée…
En ordonnée, les quantiles de la distribution normale (théorique) correspondante (moyenne, écart type estimés)
Si les points forment une droite, la distribution est compatible avec la loi normale

QQ-norm, un exemple
Fréquence (fréquence
Quantile de la loi normale (moyenne ; écart type
espérée en accord avec la
estimés sur l’échantillon) : quantiles théoriques
loi normale) Quantile de la loi
normale (0 ; 1)
Résidus triés
(Quantiles observés) i  0.375
Fi 
n  0.25
Moyenne et écart-type estimés

Test de normalité des résidus
Test basé sur l’asymétrie de la distribution
Principe Définition du coefficient d’asymétrie

Si les résidus suivent une loi normale (H0), l’asymétrie = 0
(A contrario) Si asymétrie  0, alors les résidus ne sont pas compatibles 3
avec la loi normale 1 
3
Application sur les données consommation

1
Coefficient d’asymétrie

n i
î3
g1  3
estimé 1 2
n  i 
2
ˆ
 i 
Sous H0, g1 suit m1  0
asymptotiquement une loi
normale de paramètres 6
s1 
n
Test, on forme : g1  m1
c1 
s1
Région critique : c1  u 
(Rejet de H0) 1
2

Test de normalité des résidus
Basé sur aplatissement de la distribution
Principe
Définition du coefficient d’aplatissement
Si les résidus suivent une loi normale (H0), l’aplatissement = 0
(A contrario) Si aplatissement  0, alors les résidus ne sont pas compatibles avec la 4
2  3
loi normale 4
1

n i
î4
Coefficient d’aplatissement estimé g2  3
4
1 2
 n  î 
2
 i 
Sous H0, g2 suit m2  0

asymptotiquement une loi
24
normale de paramètres s2 
n
Test, on forme : g 2  m2
c2 
s2
Région critique : c2  u 
(Rejet de H0) 1
2

Test de normalité de Jarque-Bera
Combiner les tests basés sur l’asymétrie et aplatissement
Principe
Si les résidus suivent une loi normale (H0), l’asymétrie ET l’aplatissement sont simultanément = 0
Statistique de Jarque-Bera
Sous H0, g1 et g2 sont asymptotiquement indépendants. Application sur les données consommation
On propose la statistique T qui suit une loi du KHI-2 à 2
degrés de liberté (logique : somme de 2 lois normales au carré
indép.)
n  p  1  2 g 22 
T  g1     2 (2)
6  4 
(n – p – 1) représente les degrés de liberté de la

régression c.-à-d. nombre d’observations moins nombre
de paramètres estimés.
Région critique : T  12 (2)
Le test de Jarque Bera est plus puissant (détecte

mieux l’écart à la loi normale si elle existe)  à
privilégier par rapport aux 2 tests précédents pris
individuellement

Conclusion
Analyser les résidus permet de valider ou invalider une régression.
Combiner les techniques numériques et graphiques permettent d’étudier

simplement/rapidement les résidus.
En cas d’invalidation, l’analyse graphique des résidus donne une idée des pistes à
explorer pour remédier aux problèmes (non-linéarité, rupture de structure, etc.)

Bibliographie
En ligne
R. Rakotomalala, « Pratique de la Régression Linéaire Multiple – Diagnostic et

sélection de variables ». Support de cours.
http://eric.univ-lyon2.fr/~ricco/cours/cours/La_regression_dans_la_pratique.pdf
R. Rakotomalala. Portail.
http://eric.univ-lyon2.fr/~ricco/cours/cours_econometrie.html
Wikipédia.
http://fr.wikipedia.org/wiki/Régression_linéaire_multiple
Ouvrages
M. Tenenhaus, « Statistique – Méthodes pour décrire, expliquer et prévoir », Dunod, 2006.
R. Bourbonnais, « Econométrie – Manuel et exercices corrigés », Dunod, 1998.
Y. Dodge, V. Rousson, « Analyse de régression appliquée », Dunod, 2004.


Reg Multiple Etude Des Residus

Transféré par

Droits d'auteur :

Formats disponibles

Reg Multiple Etude Des Residus

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Reg Multiple Etude Des Residus

Transféré par

Droits d'auteur :

Formats disponibles

Régression Linéaire Multiple

Tutoriels Tanagra pour la Data Science

Tutoriels Tanagra pour la Data Science

• E() = 0, en moyenne le modèle est bien spécifié

Tutoriels Tanagra pour la Data Science

Tutoriels Tanagra pour la Data Science

Résidus vs. Endogène

Résidus vs. Exogènes

Résidus vs. Temps

Tutoriels Tanagra pour la Data Science

Points atypiques : Points qui s’écartent délibérément des autres

Cf. Endogène atypique O/N x Mal/Bien modélisé

Atypique exogène + Mal modélisé

Cf. Atypique non influent, Non atypique mais influent

Régression simple : Point manifestement influent

Tutoriels Tanagra pour la Data Science

Tutoriels Tanagra pour la Data Science

Tutoriels Tanagra pour la Data Science

Tutoriels Tanagra pour la Data Science

Trier, filtrer et croiser les données de différentes

Reste alors à déterminer ce qu’il faut en faire.

Tutoriels Tanagra pour la Data Science

Tutoriels Tanagra pour la Data Science

Tutoriels Tanagra pour la Data Science

(1) (2) (3) (4)

(Remarque : quelles sont les valeurs min et max de r ?)

Statistique du test et loi asymptotique

Statistique centrée r

Les observations sont compatibles avec H0 : processus aléatoire

Tutoriels Tanagra pour la Data Science

La nature du test est modifié

Tout va bien Non-linéarité : problème Rupture de structure : problème

Tutoriels Tanagra pour la Data Science

Tutoriels Tanagra pour la Data Science

Principe Q-Q plot

Fréquence V1 (trié) V2 (trié) Quantile-quantile plot

0.4 -0.171 -0.329 -0.5

0.5 0.118 -0.221

0.6 0.298 -0.002 -1.5

Tutoriels Tanagra pour la Data Science

Moyenne et écart-type estimés

Tutoriels Tanagra pour la Data Science

Principe Définition du coefficient d’asymétrie

Application sur les données consommation

Tutoriels Tanagra pour la Data Science

Sous H0, g2 suit m2  0

Tutoriels Tanagra pour la Data Science

(n – p – 1) représente les degrés de liberté de la

Région critique : T  12 (2)

Le test de Jarque Bera est plus puissant (détecte

Tutoriels Tanagra pour la Data Science

Analyser les résidus permet de valider ou invalider une régression.

Combiner les techniques numériques et graphiques permettent d’étudier

Tutoriels Tanagra pour la Data Science

R. Rakotomalala, « Pratique de la Régression Linéaire Multiple – Diagnostic et

M. Tenenhaus, « Statistique – Méthodes pour décrire, expliquer et prévoir », Dunod, 2006.

R. Bourbonnais, « Econométrie – Manuel et exercices corrigés », Dunod, 1998.

Y. Dodge, V. Rousson, « Analyse de régression appliquée », Dunod, 2004.

Tutoriels Tanagra pour la Data Science