Reg Multiple Etude Des Residus

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 23

Régression Linéaire Multiple

Ricco RAKOTOMALALA

Tutoriels Tanagra pour la Data Science


http://tutoriels-data-mining.blogspot.fr/ 1
PLAN

1. Diagnostic graphique
2. Caractère aléatoire des erreurs (données ordonnées)
3. Test de normalité

Tutoriels Tanagra pour la Data Science


http://tutoriels-data-mining.blogspot.fr/ 2
Pourquoi étudier les résidus ?
Importance des résidus pour l’inférence statistique

Problème : Les propriétés (biais, convergence) et l’inférence statistique (test de significativité, intervalle de
confiance) reposent en grande partie sur des hypothèses sur les erreurs. Il faut s’assurer de la conformité aux
hypothèses.

Quelles hypothèses ?

• E() = 0, en moyenne le modèle est bien spécifié


• E(2)= 2 la variance de l ’erreur est constante (homoscédasticité)
• E(i, j)=0, les erreurs sont non-corrélés
• Cov(,x)=0, l ’erreur est indépendante de la variable explicative
•   Normale(0, 2 )

Quelques principes
• On ne dispose pas des erreurs mais des résidus (erreurs observées)  déjà une inférence ici
• Résidus portés en ordonnée, les graphiques diffèrent de ce qu’on met en abscisse
• Traquer toute forme de « régularité » dans les résidus et/ou de dépendance entre les résidus et les variables
 Les résidus doivent donc être disséminés « au hasard » dans un certain intervalle
• Un point s’écartant ostensiblement est la marque d’une observation atypique et/ou mal modélisée

Tutoriels Tanagra pour la Data Science


http://tutoriels-data-mining.blogspot.fr/ 3
Un petit graphique vaut mieux (souvent) que de longs calculs

Tutoriels Tanagra pour la Data Science


http://tutoriels-data-mining.blogspot.fr/ 4
Graphiques de base
Résidus vs. Endogène, vs. Exogènes, vs. Temps

Résidus vs. Endogène


• Vérifier les points atypiques et/ou mal modélisés
• Vérifier si certaines plages de valeurs sont sous ou sur-estimées
• Vérifier la dispersion selon les valeurs de Y

Résidus vs. Exogènes


• Vérifier les points atypiques
• Vérifier les dépendances
• Vérifier la dispersion selon les plages de valeurs de X

Résidus vs. Temps


• Données temporelles
• Tableau ordonné selon le temps
• Vérifier l’existence de « régularités »

Tutoriels Tanagra pour la Data Science


http://tutoriels-data-mining.blogspot.fr/ 5
Cas pathologiques
Points atypiques et points influents

Points atypiques : Points qui s’écartent délibérément des autres


Points influents : Points qui pèsent (exagérément) sur les estimations : si on les enlevait, on obtiendrait des
résultats (significativement) différents

Point atypique
Une valeur très différente sur l’endogène et/ou sur une ou
combinaison d’exogènes. Elle n’est pas forcément mal
modélisée (résidu élevé).

Cf. Endogène atypique O/N x Mal/Bien modélisé

Atypique exogène + Mal modélisé

Point influent
Très difficile à détecter visuellement
 Peut être atypique ou non
 Peut être bien modélisé ou non

Cf. Atypique non influent, Non atypique mais influent

Régression simple : Point manifestement influent


Serait-ce aussi évident dans un graphique des résidus ?

Tutoriels Tanagra pour la Data Science


http://tutoriels-data-mining.blogspot.fr/ 6
Cas pathologiques
Asymétrie, non linéarité et rupture de structure

Asymétrie
• Des plages de données de l’endogène mal reconstitués
• Données atypiques
• Mélanges de populations différentes
• Problèmes de spécifications (absence d’exogènes importantes)

Non linéarité
• Modèle linéaire inadapté, utiliser un modèle non linéaire
• Passer par des transformations de variables (log., carré, racine carrée,
produit entre variables : interactions, etc.)

Rupture de structure
• Résidus en « blocs »
• Mélange de populations
• Mutations ou crises dans les séries temporelles

Tutoriels Tanagra pour la Data Science


http://tutoriels-data-mining.blogspot.fr/ 7
Cas pathologiques
Hétéroscédasticité et autocorrélation des résidus

Hétéroscédasticité
• Variance des résidus non constante
• Exogène en abscisse pour détecter (traiter) dépendance

Autocorrélation
• Associée aux données longitudinales
• Processus particulier (régularité) au cours du temps ?
• Positive (blocs +/-) ou négative (alternance +/-)

Tutoriels Tanagra pour la Data Science


http://tutoriels-data-mining.blogspot.fr/ 8
Un exemple
Prédiction de la consommation de véhicules
x1 x2 x3 x4 y
i Modèle Véhicule (Fr s ) (cm 3) (kW) (kg) (l/100km )
Pr ix Cylindr ée Puis s ance Poids Cons om m ation
1 Daihats u Cuor e 11600 846 32 650 5.7
2 Suzuki Swift 1.0 GLS 12490 993 39 790 5.8
3 Fiat Panda Mam bo L 10450 899 29 730 6.1
4 VW Polo 1.4 60 17140 1390 44 955 6.5
5 Opel Cor s a 1.2i Eco 14825 1195 33 895 6.8
6 Subar u Vivio 4WD 13730 658 32 740 6.8
7 Toyota Cor olla 19490 1331 55 1010 7.1
8 Fer r ar i 456 GT 285000 5474 325 1690 21.3
9 Mer cedes S 600 183900 5987 300 2250 18.7
10 Mas er ati Ghibli GT 92500 2789 209 1485 14.5
11 Opel As tr a 1.6i 16V 25000 1597 74 1080 7.4
12 Peugeot 306 XS 108 22350 1761 74 1100 9.0
13 Renault Safr ane 2.2. V 36600 2165 101 1500 11.7
14 Seat Ibiza 2.0 GTI 22500 1983 85 1075 9.5
15 VW Golt 2.0 GTI 31580 1984 85 1155 9.5
16 Citr oen Z X Volcane 28750 1998 89 1140 8.8
17 Fiat Tem pr a 1.6 Liber ty 22600 1580 65 1080 9.3
18 For t Es cor t 1.4i PT 20300 1390 54 1110 8.6
19 Honda Civic Joker 1.4 19900 1396 66 1140 7.7
20 Volvo 850 2.5 39800 2435 106 1370 10.8
21 For d Fies ta 1.2 Z etec 19740 1242 55 940 6.6
22 Hyundai Sonata 3000 38990 2972 107 1400 11.7
23 Lancia K 3.0 LS 50800 2958 150 1550 11.9
24 Mazda Hachtback V 36200 2497 122 1330 10.8
25 Mits ubis hi Galant 31990 1998 66 1300 7.6
26 Opel Om ega 2.5i V6 47700 2496 125 1670 11.3
27 Peugeot 806 2.0 36950 1998 89 1560 10.8
28 Nis s an Pr im er a 2.0 26950 1997 92 1240 9.2
29 Seat Alham br a 2.0 36400 1984 85 1635 11.6
30 Toyota Pr evia s alon 50900 2438 97 1800 12.8
31 Volvo 960 Kom bi aut 49300 2473 125 1570 12.7

Tutoriels Tanagra pour la Data Science


http://tutoriels-data-mining.blogspot.fr/ 9
Un exemple
Graphiques des résidus

Commentaires
• Globalement, pas de « formes » particulières se dessinent
• Des points manifestement atypiques
• Quelques points très mal modélisés (il faut avoir une idée de
l’écart type pour vraiment statuer dessus)
• Des points atypiques bien modélisés et des points atypiques
mal modélisés

Trier, filtrer et croiser les données de différentes


manières permet d’identifier les points susceptibles
de poser problème.

Reste alors à déterminer ce qu’il faut en faire.

Tutoriels Tanagra pour la Data Science


http://tutoriels-data-mining.blogspot.fr/ 10
Pour les données longitudinales (séries chronologiques)…
…mais pas seulement.

Tutoriels Tanagra pour la Data Science


http://tutoriels-data-mining.blogspot.fr/ 11
Autocorrélation des résidus Détection visuelle avec le
Pourquoi c’est important
graphique des résidus

Causes
Problèmes de spécification
Variables importantes manquent
Données déjà manipulées (lissées, moyenne mobile, rétropolées, interpolées, etc.  ex.
données fournies par les observatoires statistiques)

Conséquences
MCO quand même non biaisé
Mais MCO n’est plus à variance minimale
Mauvaise estimation de la matrice des VCV
ET (par conséquent) Inférence statistique inopérante

Test de Durbin-Watson
Décrire l’erreur sous la forme Test spécifique à une forme de l’erreur
Puissant pour cette forme
 i  . i 1  i avec i  N (0 ;  ) Mais non opérante pour les autres formes
A voir en M1 (avec les MCG)
Tester  H0 : =0 vs. H1 : 0

Méthodes numériques
Test des séquences
(Wald-Wolfowitz) Test générique, s’applique à toute forme
Plus générique Moins puissant pour des formes spécifiques
Cherche les régularités sous forme de « Généralisable pour données transversales (attention, sous
certaines conditions uniquement)
séquences »

Tutoriels Tanagra pour la Data Science


http://tutoriels-data-mining.blogspot.fr/ 12
Test des séquences

Principe
Les données sont ordonnées (selon le temps)
Compter le nombre de fois où les résidus sont consécutivement au-dessus ou en-
dessous de la valeur 0 : on parle de séquences

(1) (2) (3) (4)

 r = 4 séquences

Test d’hypothèses
H0 : Les données évoluent de manière aléatoire

Région critique : Un nombre de séquence trop élevé (alternance +/-) est tout aussi
suspect qu’ un nombre de séquences trop faible (gros blocs de +/-)

(Remarque : quelles sont les valeurs min et max de r ?)

 r = 15 séquences

Statistique du test et loi asymptotique


Soit n+ (resp. n-), nombre de points positifs (négatifs)

Statistique centrée r


réduite z
2n n 
r suit une loi normale de
 1
n
paramètres
(   1)(   2) Région critique

n 1 (rejet de H0) : z  u1 2
Tutoriels Tanagra pour la Data Science
http://tutoriels-data-mining.blogspot.fr/ 13
Test des séquences
Un exemple : Expliquer la consommation en fonction du prix et des revenus

Les observations sont compatibles avec H0 : processus aléatoire

Tutoriels Tanagra pour la Data Science


http://tutoriels-data-mining.blogspot.fr/ 14
Test des séquences
Applicables sur les données transversales ?

Principe
Tester l’Autocorrélation des résidus n’a aucun sens sur les données transversales…
Parce qu’on peut toujours trier (mélanger) les données de manière à ce que les tests concluent H0

Mais on peut exploiter le test des séquences pour détecter les problèmes
En triant les données selon l’endogène…
Vérifier s’il existe des « zones » où les valeurs de l’endogène sont sur (sous) estimées durablement par le modèle

La nature du test est modifié


Un nombre élevé de séquences n’est plus un problème dans ce contexte…
Il y a pathologie lorsque le nombre de séquences est anormalement faible
 On passe sur un test unilatéral

Tout va bien Non-linéarité : problème Rupture de structure : problème

Tutoriels Tanagra pour la Data Science


http://tutoriels-data-mining.blogspot.fr/ 15
Hypothèse nécessaire pour la partie inférentielle
(Tests d’hypothèses sur les coefficients, intervalles de confiance)

Tutoriels Tanagra pour la Data Science


http://tutoriels-data-mining.blogspot.fr/ 16
Graphique quantile-quantile
Q-Q norm (Droite de Henry)

Principe Q-Q plot


Confronter les quantiles de 2 distributions (pas nécessairement de même effectif) dans un graphique X-Y…
Si les points forment une droite : les distributions sont identiques (compatibles)

Fréquence V1 (trié) V2 (trié) Quantile-quantile plot


0.1 -1.764 -1.938 0.5
0.2 -0.792 -1.339
0.0
0.3 -0.483 -0.694 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5

0.4 -0.171 -0.329 -0.5

0.5 0.118 -0.221

V2
-1.0

0.6 0.298 -0.002 -1.5


0.7 0.317 0.026
-2.0
0.8 1.962 0.104
0.9 2.079 0.138 -2.5

1 2.130 0.165 V1

Q-Q plot pour vérifier la compatibilité avec la loi normale : Q-Q norm
En abscisse, les quantiles de la distribution observée…
En ordonnée, les quantiles de la distribution normale (théorique) correspondante (moyenne, écart type estimés)
Si les points forment une droite, la distribution est compatible avec la loi normale

Tutoriels Tanagra pour la Data Science


http://tutoriels-data-mining.blogspot.fr/ 17
QQ-norm, un exemple
Fréquence (fréquence
Quantile de la loi normale (moyenne ; écart type
espérée en accord avec la
estimés sur l’échantillon) : quantiles théoriques
loi normale) Quantile de la loi
normale (0 ; 1)
Résidus triés
(Quantiles observés) i  0.375
Fi 
n  0.25

Moyenne et écart-type estimés

Tutoriels Tanagra pour la Data Science


http://tutoriels-data-mining.blogspot.fr/ 18
Test de normalité des résidus
Test basé sur l’asymétrie de la distribution

Principe Définition du coefficient d’asymétrie


Si les résidus suivent une loi normale (H0), l’asymétrie = 0
(A contrario) Si asymétrie  0, alors les résidus ne sont pas compatibles 3
avec la loi normale 1 
3

Application sur les données consommation


1
Coefficient d’asymétrie

n i
ˆi3
g1  3
estimé 1 2
n  i 
2
ˆ
 i 
Sous H0, g1 suit m1  0
asymptotiquement une loi
normale de paramètres 6
s1 
n

Test, on forme : g1  m1
c1 
s1

Région critique : c1  u 
(Rejet de H0) 1
2

Tutoriels Tanagra pour la Data Science


http://tutoriels-data-mining.blogspot.fr/ 19
Test de normalité des résidus
Basé sur aplatissement de la distribution

Principe
Définition du coefficient d’aplatissement
Si les résidus suivent une loi normale (H0), l’aplatissement = 0
(A contrario) Si aplatissement  0, alors les résidus ne sont pas compatibles avec la 4
2  3
loi normale 4

1

n i
ˆi4
Coefficient d’aplatissement estimé g2  3
4
1 2
 n  ˆi 
2

 i 

Sous H0, g2 suit m2  0


asymptotiquement une loi
24
normale de paramètres s2 
n

Test, on forme : g 2  m2
c2 
s2

Région critique : c2  u 
(Rejet de H0) 1
2

Tutoriels Tanagra pour la Data Science


http://tutoriels-data-mining.blogspot.fr/ 20
Test de normalité de Jarque-Bera
Combiner les tests basés sur l’asymétrie et aplatissement
Principe
Si les résidus suivent une loi normale (H0), l’asymétrie ET l’aplatissement sont simultanément = 0

Statistique de Jarque-Bera
Sous H0, g1 et g2 sont asymptotiquement indépendants. Application sur les données consommation
On propose la statistique T qui suit une loi du KHI-2 à 2
degrés de liberté (logique : somme de 2 lois normales au carré
indép.)

n  p  1  2 g 22 
T  g1     2 (2)
6  4 

(n – p – 1) représente les degrés de liberté de la


régression c.-à-d. nombre d’observations moins nombre
de paramètres estimés.

Région critique : T  12 (2)

Le test de Jarque Bera est plus puissant (détecte


mieux l’écart à la loi normale si elle existe)  à
privilégier par rapport aux 2 tests précédents pris
individuellement

Tutoriels Tanagra pour la Data Science


http://tutoriels-data-mining.blogspot.fr/ 21
Conclusion

Analyser les résidus permet de valider ou invalider une régression.

Combiner les techniques numériques et graphiques permettent d’étudier


simplement/rapidement les résidus.

En cas d’invalidation, l’analyse graphique des résidus donne une idée des pistes à
explorer pour remédier aux problèmes (non-linéarité, rupture de structure, etc.)

Tutoriels Tanagra pour la Data Science


http://tutoriels-data-mining.blogspot.fr/ 22
Bibliographie

En ligne

R. Rakotomalala, « Pratique de la Régression Linéaire Multiple – Diagnostic et


sélection de variables ». Support de cours.
http://eric.univ-lyon2.fr/~ricco/cours/cours/La_regression_dans_la_pratique.pdf

R. Rakotomalala. Portail.
http://eric.univ-lyon2.fr/~ricco/cours/cours_econometrie.html

Wikipédia.
http://fr.wikipedia.org/wiki/Régression_linéaire_multiple

Ouvrages

M. Tenenhaus, « Statistique – Méthodes pour décrire, expliquer et prévoir », Dunod, 2006.

R. Bourbonnais, « Econométrie – Manuel et exercices corrigés », Dunod, 1998.

Y. Dodge, V. Rousson, « Analyse de régression appliquée », Dunod, 2004.

Tutoriels Tanagra pour la Data Science


http://tutoriels-data-mining.blogspot.fr/ 23

Vous aimerez peut-être aussi