Régression Linéaire
Régression Linéaire
Régression Linéaire
Créer un compte
Se connecter
Outils personnels
Sommaire
Début
Histoire
Applications
Présentation formelle
Principales hypothèses
Estimation
Qualité de la prédiction
Tests statistiques
Prévision statistique
Cas particuliers
Extensions et liens avec d'autres méthodes
Variantes
Liens avec d'autres notions
Exemples d'applications dans différents domaines
Notes et références
Bibliographie
Voir aussi
Régression linéaire
Article
Discussion
Lire
Modifier
Modifier le code
Voir l’historique
Outils
Améliorez-le ou discutez des points à vérifier. Si vous venez d’apposer le bandeau, merci
d’indiquer ici les points à vérifier.
Régression linéaire
Type Analyse des données, regression (d), régression
Inventeur Francis Galton
Le modèle de régression linéaire est souvent estimé par la méthode des moindres carrés mais
il existe aussi de nombreuses autres méthodes pour estimer ce modèle. On peut par exemple
estimer le modèle par maximum de vraisemblance ou encore par inférence bayésienne.
Bien qu'ils soient souvent présentés ensemble, le modèle linéaire et la méthode des moindres
carrés ne désignent pas la même chose. Le modèle linéaire désigne une classe de modèles qui
peuvent être estimés par un grand nombre de méthodes, et la méthode des moindres carrés
désigne une méthode d'estimation. Elle peut être utilisée pour estimer différents types de
modèles.
Histoire
fig.01 - Régression linéaire effectuée sur les données de Francis Galton d'après l'exemple
extrait du jeu de données Histdata pour R2.
Ruđer Josip Bošković est le premier scientifique à calculer les coefficients de régression
linéaire, en 1755-1757, quand il entreprit de mesurer la longueur de cinq méridiens terrestres
en minimisant la somme des valeurs absolues3. Pierre-Simon de Laplace utilise cette méthode
pour mesurer les méridiens dans « Sur les degrés mesurés des méridiens et sur les longueurs
observées sur pendule » en 17893. La première utilisation de la méthode des moindres carrés
est attribuée à Adrien-Marie Legendre en 1805 4 ou à Carl Friedrich Gauss qui dit l'avoir
utilisée à partir de 17953.
Carl Friedrich Gauss démontre en 1821 le théorème connu aujourd'hui sous le nom de
théorème de Gauss-Markov qui exprime sous certaines conditions la qualité des estimateurs ;
Andrei Markov le redécouvre en 19005.
La paternité de l'expression « régression linéaire » revient à Francis Galton qui, dans un
article de 18863, constate un phénomène de « régression vers la moyenne »6 de la taille des fils
en fonction de la taille des pères.
Plus tard la colinéarité des variables explicatives est devenue un sujet de recherche important.
En 1970, Arthur E. Hoerl et Robert W. Kennard proposent la régression pseudo-orthogonale
(Ridge Regression), une des méthodes d'estimation conçues pour pallier la présence de
colinéarité de certaines variables explicatives en imposant des contraintes sur les coefficients7.
La méthode du lasso (Lasso Regression), ayant le même objectif en utilisant une technique
analogue, a été créée en 1996 par Robert Tibshirani8.
Avec les méthodes de régression sur composantes (régression des moindres carrés partiels
(PLS) et régression sur composantes principales), les algorithmes recherchent des variables
explicatives indépendantes liées aux variables initiales, puis estiment les coefficients de
régression sur les nouvelles variables9.
Applications
Article détaillé : #Exemples d'applications dans différents domaines.
Comme les autres modèles de régression, le modèle de régression linéaire est aussi bien utilisé
pour chercher à prédire un phénomène que pour chercher à l'expliquer.
Après avoir estimé un modèle de régression linéaire, on peut prédire quel serait le niveau de y
pour des valeurs particulières de x.
Il permet également d'estimer l'effet d'une ou plusieurs variables sur une autre en contrôlant
par un ensemble de facteurs. Par exemple, dans le domaine des sciences de l'éducation, on
peut évaluer l'effet de la taille des classes sur les performances scolaires des enfants en
contrôlant par la catégorie socio-professionnelle des parents ou par l'emplacement
géographique de l'établissement. Sous certaines hypothèses restrictives, cet effet peut être
considéré comme un effet causal.
Présentation formelle
Notations
Notation vectorielle
La notation vectorielle est similaire à la notation simple mais on utilise la notation vectorielle
pour synthétiser la notation. Cette notation est pratique lorsqu'il y a un grand nombre de
vecteur ligne des variables explicatives pour l'individu i . Le modèle se réécrit alors
de la manière suivante12 :
Notation matricielle
Enfin, on rencontre aussi souvent une notation matricielle. Ici, on écrit le modèle pour chacun
des n individus présents dans l'échantillon. Le modèle s'écrit alors13 :
avec
Terminologie
Le modèle linéaire est utilisé dans un grand nombre de champs disciplinaires. Il en résulte une
grande variété dans la terminologie. Soit le modèle suivant :
prédite : .
On définit aussi la somme des carrés des résidus (SCR, ou SSR en anglais) comme la somme
sur toutes les observations des carrés des résidus :
On appelle généralement modèle linéaire simple un modèle de régression linéaire avec une
seule variable explicative14. Ce modèle est souvent présenté dans les manuels de statistiques à
des fins pédagogiques, sous le titre d'ajustement affine.
On a donc deux variables aléatoires, une variable expliquée Y, qui est un scalaire, une variable
explicative X, également scalaire. On dispose de n réalisations de ces variables, (xi)1 ≤ i ≤ n et
(yi)1 ≤ i ≤ n, soit :
où εi est le terme d'erreur ; chaque terme d'erreur lui-même est une réalisation d'une variable
aléatoire Ei.
Droite de régression
Droite de régression
Dans le cadre d'un modèle linéaire simple, on peut représenter graphiquement la relation entre
x et y à travers un nuage de points. L'estimation du modèle linéaire permet de tracer la droite
Principales hypothèses
Les hypothèses de Gauss-Markov et les hypothèses de normalité garantissent des propriétés
particulièrement intéressantes des estimateurs des coefficients de régression5. Les hypothèses
peuvent s'exprimer différemment selon qu'il s'agisse de la régression linéaire simple ou
Cette hypothèse suppose qu'aucune des variables explicatives du modèle ne peut s'écrire
comme une combinaison linéaire des autres variables. Ce qui revient à inversible
Les termes d'erreur ne sont donc pas corrélés entre eux. Formellement, . Cette
hypothèse est souvent violée lorsqu'il s'agit de séries temporelles où les erreurs sont souvent
dites autocorrélées15.
Exogénéité
On dit que les variables explicatives sont exogènes si elles ne sont pas corrélées au terme
d'erreur. Ce qu'on note, pour le cas où la variable explicative est aléatoire, en notation
vectorielle et en notation matricielle où Note 1
. Ceci implique que les erreurs
Homoscédasticité
Les termes d'erreurs sont supposés de variance constante, ce qui se traduit, si l'hypothèse
Si les deux précédentes hypothèses sont vérifiées, on peut l'écrire sous forme matricielle :
Une hypothèse plus forte que les premières est celle consistant à dire que les termes d'erreurs
suivent une loi normale, centrées, de variance σ2 soit, en notation vectorielle et sous
forme matricielle .
À noter que si l'hypothèse de non colinéarité n'est pas vérifiée, l'estimation du modèle est
impossible (elle nécessiterait d'inverser une matrice singulière) alors que pour toutes les autres
hypothèses l'estimation est possible mais donne un estimateur biaisé et/ou non efficace (à
variance non minimale) mais il existe des corrections possibles. La normalité des erreurs est
quant à elle non obligatoire mais permet de tirer de bonnes propriétés.
Estimation
Le modèle linéaire peut être estimé par la méthode du maximum de vraisemblance, la
méthode des moindres carrés, la méthode des moments ou encore par des méthodes
bayésiennesNote 2.
La méthode des moindres carrés est très populaire et très souvent présentée avec le modèle
linéaireNote 3.
Estimateur des moindres carrés
Dans le cas le plus standard, où les termes d'erreurs sont indépendants et identiquement
distribués (iid), l'estimateur des moindres carrés ordinaires est le plus efficace des estimateurs
linéaires sans biais (théorème de Gauss-Markov).
Lorsque les termes d'erreurs ne sont pas tous de même variance et/ou qu'ils sont corrélés, on
utilise la méthode des moindres carrés généralisés ou des moindres carrés quasi-généralisés.
Sous les hypothèses de Gauss et Markov, le modèle peut être estimé par la méthode des
moindres carrés ordinaires. L'estimateur des moindres carrés ordinaires peut s'écrire :
Sous l'hypothèse de normalité des termes d'erreur, l'estimateur des moindres carrés est aussi
l'estimateur du maximum de vraisemblance18.
Le problème admet une solution analytique qui s'obtient en remarquant que, la fonction S(β0,
β1) étant différentiable, le minimum de S est le point où son gradient s'annule. On a :
L'estimateur des moindres carrés généralisés suppose que l'on connaisse la matrice de
variance-covariance des termes d'erreur. Généralement, cette matrice est inconnue et doit elle-
même être estimée. Dans ce cas, on parle alors de l'estimateur des moindres carrés quasi-
généralisés.
Qualité de la prédiction
Pour évaluer la qualité de la prédiction, on peut utiliser différents critères.
Nous pouvons alors définir le coefficient de détermination (R2) comme le ratio entre la somme
des carrés des écarts à la moyenne des valeurs prédites par la régression et la somme des
carrés des écarts à la moyenne totale :
Tests statistiques
Test de Fisher
Le test de Fisher permet de tester la pertinence statistique de toute restriction linéaire sur les
coefficients de la régression.
En particulier, le test de Fisher permet de réaliser un test de nullité jointe de l'ensemble des
paramètres21.
contre l'hypothèse
Test de Student
Cette section est vide, insuffisamment détaillée ou incomplète. Votre aide est la bienvenue !
Comment faire ?
Le test de Student permet de tester si l'un des paramètres est égal à une valeur précise. En
particulier, il permet de tester la nullité de chacun des paramètres.
Test de Chow
Cette section est vide, insuffisamment détaillée ou incomplète. Votre aide est la bienvenue !
Comment faire ?
Le test de Chow permet de tester la stabilité des coefficients du modèle entre deux sous-
échantillons de l'échantillon de données. C'est une application du test de Fisher.
Test d'hétéroscédasticité
Prévision statistique
À partir de quatre points expérimentaux nous avons la droite de régression en gris, puis, avec
une confiance de 90%, les droites extrêmes en pointillés rouge, les enveloppes d'estimations
en orange et les enveloppes de prédictions en bleu (Illustration extraite du livre Calcul
d'incertitudes [archive] p.62).
Le but de la régression est d'établir la loi y = ƒ(x). Une fois cette loi estimée, on va chercher à
prédire une valeur de y pour une valeur de x donnée ; on note y* cette valeur estimée,
Il faut donc donner un intervalle de confiance pour cette valeur de y*. On peut donner deux
réponses différentes à cette question.
La valeur y* est censée être l'espérance de la variable aléatoire Y(x) en ce point x donné : si
l'on fait, disons, 1 000 mesures de Y, la moyenne E(Y(x)) de ces valeurs devrait être y*. On
peut donc se demander avec quelle précision ΔE(Y(x)) on estime E(Y(x)). Pour un risque α
donné, on peut déterminer l'intervalle dans lequel E(Y(x)) a α % de se trouver est donné par
[y* - ΔE(Y(x)) ; y* + ΔE(Y(x))].
Nous avons :
où t est la loi de Student à n - 2 degrés de liberté pour un risque α. Lorsque x varie, les limites
de l'intervalle de confiance décrivent une hyperbole.
L'autre question est : à partir d'une seule mesure de Y(x), qui sera différente de y* ; quel est
l'intervalle de confiance Δy pour un risque α donné ? On cherche une réponse de la forme : on
a α chances que le y mesuré soit dans l'intervalle [y* - Δy ; y* + Δy].
Si x est proche de x, c'est-à-dire si (x - x)2 est négligeable devant ∑(xi - x)2, et si n est grand,
c'est-à-dire si 1/n est négligeable devant 1, alors on a un intervalle de confiance
Sous ces hypothèses, on voit que Δy est constant, c'est-à-dire que l'on a une bande de
confiance parallèle à la droite de régression.
On voit que cet intervalle augmente lorsque l'on s'éloigne de x. Cela montre en particulier
qu'une extrapolation, c'est-à-dire le fait d'utiliser la loi trouvée en dehors du domaine des
points expérimentaux [x1 ; xn] (en supposant les abscisses classées par ordre croissant),
comporte un risque statistique.
Cas particuliers
Cette section est vide, insuffisamment détaillée ou incomplète. Votre aide est la bienvenue !
Comment faire ?
Certaines équations ne sont pas directement linéaires mais peuvent être linéarisées. C'est
notamment le cas des polynômes. La régression polynomiale est une application d'une
régression linéaire au cas particulier d'un polynôme. Ainsi le modèle suivant : est
aussi est modèle linéaire et peut être estimé par une méthode standard22,Note 4.
On peut aussi calculer des termes d'interactions entre les variables pour relâcher l'hypothèse
Dans ce nouveau modèle, l'effet de la variable xi est d'autant plus fort que la valeur de
zi est élevée23.
Si l'hypothèse d'exogénéité des variables explicatives n'est pas vérifiée, l'estimateur des
moindres carrés conduit à une estimation biaisée des paramètres du modèle. Dans ce cas, on
peut avoir recours à la méthode des variables instrumentales.
On appelle variable instrumentale une variable z qui a un effet sur les variables explicatives
suspectées d'endogénéité mais n'est pas corrélée avec le terme d'erreur.
Applications
Cette section est vide, insuffisamment détaillée ou incomplète. Votre aide est la bienvenue !
Comment faire ?
Très souvent utilisé en économétrie, le modèle à variables instrumentales est aussi utilisé en
sciences politiques24.
Estimation
Cette section est vide, insuffisamment détaillée ou incomplète. Votre aide est la bienvenue !
Comment faire ?
Le modèle linéaire à variables instrumentales peut être estimé par la méthode des doubles
moindres carrés, la méthode des moments généralisés, l'estimateur de Wald ou encore par la
méthode des fonctions de contrôle.
obtient : 25
.
Le modèle linéaire hiérarchique ou modèle linéaire multiniveau est un modèle dans lequel il y
a au moins deux niveaux d'observations, par exemple la région et les individus et dans lequel
on va permettre aux coefficients de varier. Par exemple, le modèle suivant est un modèle
linéaire hiérarchique : 26
.
Régression quantile
Cette section est vide, insuffisamment détaillée ou incomplète. Votre aide est la bienvenue !
Comment faire ?
James Tobin a développé le modèle tobit pour traiter les variables censurées.
James Heckman a développé le modèle de sélection ou modèle Heckit.
Cette section est vide, insuffisamment détaillée ou incomplète. Votre aide est la bienvenue !
Comment faire ?
Dans le cas où le nombre de variables explicatives est élevé (ie légèrement inférieur ou même
supérieur au nombre d'observations), il peut être intéressant de sélectionner les variables ou de
contraindre les coefficients. Robert Tibshirani a développé la méthode du lasso, une méthode
de contraction des coefficients.
Points aberrants
On définit un point aberrant comme une observation pour laquelle l'écart entre la valeur
prédite et la valeur observée de la variable d'intérêt est particulièrement élevé. On peut repérer
graphiquement les points aberrants sur un nuage de points représentant en abscisses les
valeurs prédites et en ordonnées les résidus.
On peut aussi studentiser les résidus en divisant les résidus par leur écart-type. Les
observations dont le résidu studentisés est supérieur à 3 peuvent être considérées comme des
points aberrants28.
Méthode médiane-médiane
La méthode médiane-médiane est une méthode développée par John Tukey en 1971 une
méthode robuste pour effectuer une régression linéaire. La méthode des moindres carrés
utilise le carré de l'écart et est donc très influencée par les points aberrants, alors que la
méthode de Tukey utilise des médianes, qui sont, elles, peu influencées par les points
aberrants29.
Le modèle linéaire généralisé est une extension du modèle linéaire dans laquelle on pose
Variantes
Moindres carrés des écarts d'abscisse
Comparaison entre les méthodes du résidu en ordonnée et du résidu en abscisse.
Dans le cas contraire, on peut considérer le résidu en abscisse, « horizontal ». Le modèle est
alors la droite d'équation
x = β'1y + β'0.
Dans le cas général, cette droite est différente de la précédente. Elle passe également par le
centre de gravité.
y = β1x + β0
il suffit de poser
Régression orthogonale
Si les erreurs sur x et sur y sont de même ordre de grandeur, alors il est plus pertinent
d'effectuer une « régression orthogonale » ou « régression géométrique » : pour chaque point
expérimental i, l'erreur di considérée est la distance du point à la droite modèle, c'est-à-dire la
distance prise perpendiculairement à la droite — d'où le terme orthogonal.
On considère toujours la méthode des moindres carrés, que l'on nomme alors « moindre carrés
totaux » (MCT) :
S = ∑di2.
On a alors :
Note 5
.
.
[afficher]
Démonstration
On a :
var(X) ≠ 0 ;
var(Y) ≠ 0 ;
var(X)var(Y) ≥ cov2(X, Y) le produit des variances est supérieur ou égal au carré de la
Covariance.
-1 ≤ r ≤ 1.
S = n·var(Y)·(1 - r2)
Les variables X et Y sont d'autant mieux corrélées que |r| est proche de 1 ; la somme S est
alors proche de 0. Si r = 0, la somme S est maximale et les variables ne sont pas corrélées,
c'est-à-dire que le modèle linéaire n'est pas pertinent.
Les paramètres de cette loi, c'est-à-dire les coefficients ai, permettent de caractériser le
phénomène. On effectue donc des mesures, c'est-à-dire que l'on détermine des n' + 1-uplets
(x1, ..., xn, y).
Une mesure est nécessairement entachée d'erreur. C'est cette erreur qui « crée » le résidu r :
chaque n' + 1-uplet j fournit une équation
,
En mesurant plusieurs valeurs de couple (U, I), on peut déterminer la résistance R par
régression.
En économie et en économétrie
Le modèle linéaire est très utilisé en économétrie. Il est présenté dans de très nombreux
manuels d'économétrie33.
Dans leur manuel, Colin Cameron et Pravin Trivedi34 donnent l'exemple de l'évaluation des
rendements de l'éducation. On cherche à évaluer l'effet d'une année d'éducation
supplémentaire sur le salaire qu'un individu obtient sur le marché du travail. Pour cela, il est
courant d'écrire le log du salaire comme une fonction linéaire du nombre d'années d'éducation
et d'un certain nombre de facteurs observables ayant une influence potentielle sur le salaire,
par exemple le nombre d'années d'expérience sur le marché du travail, le fait d'être une
femme, etc. Dans ce cas, le modèle peut alors s'écrire :
En sciences politiques
Andrew Gelman et Gary King utilisent un modèle linéaire pour estimer l'avantage des
candidats sortants lors des élections à la chambre des représentants des États-Unis41.
En France, l'analyse des scrutins de 1993 et 1997 au niveau national et au niveau local par
Jean Chiche, utilisant la régression linéaire, montre que l'effet balancier droite modérée - PS
n'est pas clairement établi contrairement à ce que pouvaient laisser penser les résultats. Des
transferts de voix de la gauche modérée vers le PC, et de la droite modérée vers l'extrême
droite (et réciproquement) ont eu lieu42.
De même Bernard Dolez explique le scrutin européen de 1999 en utilisant plusieurs fois la
régression linéaire multiple43.
En sociologie
La structure sociale européenne est analysée, par exemple, à l'aide de la régression linéaire
entre l'écart type du niveau de revenu et celui du niveau d'éducation44.
Patrick Peretti-Watel utilise la régression linéaire pour évaluer l'estime de soi en fonction du
niveau de consommation de cannabis, de l'âge et du sexe 45.
En psychologie
Philippe Guimard, Olivier Cosnefroy et Agnès Florin analysent l'évaluation des élèves de
l'école primaire par les enseignants en exploitant le modèle linéaire en vue d'apprécier le
pouvoir prédictif de ces évaluations47.
En géographie
L'étude de la pluviométrie en fonction de l'altitude dans les Alpes du Nord effectuée par C.
Castellani montre les relations linéaires existantes entre ces deux grandeurs sur des sites
différents48. Nicole Commerçon exploite plusieurs fois le modèle linéaire pour décrire la
présence des résidences secondaires dans le Mâconnais49.
En mécanique
Une pièce réelle comporte forcément des défauts par rapport au plan, sa version idéale. Or, la
rectitude et l'orientation d'une arête, la planéité et l'orientation d'une face peuvent être
importantes, par exemple s'il s'agit de contacts avec d'autres pièces.
Pour quantifier les défauts, on peut faire un relevé de points par la méthode dite de la
métrologie par coordonnées. On obtient donc un ensemble de coordonnées (xi, yi, zi). Ces
coordonnées peuvent aussi provenir d'un calcul de déformation par éléments finis : on a une
structure supposée parfaite qui se déforme de manière élastique sous l'effet de charges, et l'on
veut vérifier que cette déformation reste compatible avec la fonction de la structure.
Pour une arête, une régression linéaire permet d'obtenir la direction moyenne d'une arête, et
donc de vérifier si cette direction est suffisamment proche de la direction idéale, et de
quantifier les écarts de rectitude. De même, pour une face, une régression linéaire permet de
déterminer le plan moyen, et donc de vérifier si son orientation est suffisamment proche de
l'orientation idéale, et de quantifier l'état de surface (RA).
Dans certains cas, on peut utiliser la régression linéaire pour ajuster un modèle non linéaire en
effectuant un changement de variable. Par exemple, si l'on a un modèle parabolique
il suffit de considérer et de faire la régression sur (x', y). Par exemple, lorsque l'on
s'intéresse à l'oxydation à haute température d'un métal formant un oxyde protecteur, une
étude théorique prédit que la prise de masse a un comportement parabolique en fonction du
temps (loi d'oxydation de Wagner), Δm α √t. On peut mesurer cette prise de masse par
thermogravimétrie, mais le système qui mesure de très faibles variations de masse (de l'ordre
du microgramme) est très sensible aux perturbations, ce qui génère du bruit. La régression
linéaire avec x = √t et y = Δm permet de caractériser la cinétique d'oxydation.
De fait, pour une loi de puissance en x — c'est-à-dire sous la forme y α xn où n est un nombre
réel —, on peut poser x' = xn. Et de manière encore plus générale, si le modèle fait intervenir
une fonction ƒ élémentaire dans une formule affine
y = a + b·ƒ(x)
on peut alors faire le changement de variable x' = ƒ(x) pour avoir une relation affine
y = a + b·x'.
donc le changement de variable x' = ln(x) et y' = ln(y) donne une relation affine
La transformation peut être plus complexe. Par exemple, si une variable aléatoire suit une loi
normale, on peut déterminer les paramètres de la loi par régression linéaire par la méthode de
la droite de Henry.
Si une variable aléatoire suit une loi de Weibull, alors on peut se ramener à un diagramme
linéaire à partir de relevés de probabilités y = P(x)Note 6 :
;
Dans certains cas, on peut linéariser en se plaçant dans un espace de dimension supérieur. Si
l'on est dans un espace à deux dimensions (x, y) et que l'on veut ajuster un modèle polynomial
de degré n,
xi = xi
et effectuer une régression avec le modèle linéaire, la variable explicative étant le vecteur (x1,
…, xn) :
y1 = x2 + y2 ;
x1 = x ;
x2 = y ;
et effectuer une régression avec le modèle linéaire, la variable expliquée étant y1 et la variable
explicative étant le vecteur (x1, x2) :
et déduire xc, yc et r de
a1 = 2xc ;
a2 = 2yc ;
a0 = r2 - xc2 - yc2.
Bien que l'on ait effectué une régression par la méthode des moindres carrés dans l'espace (x1,
x2, y1), on n'a pas le résultat que l'on obtiendrait avec une régression par la méthode des
moindres carrés dans l'expace (x, y).
Considérons maintenant des positions relevées sur une sphère ; il peut s'agir de localisations
géographiques, mais un point d'une sphère de référence (centrée sur l'origine du repère et de
rayon 1) peut aussi servir à représenter une orientation (voir Coordonnées sphériques >
Utilisation). Une régression sur ces points n'est évidemment pas linéaire.
En projection gnomonique, un grand cercle (orthodromie) est représenté par une droite. Si l'on
veut trouver la « meilleure orthodromie » pour un jeu de points — par exemple trouver
l'orbite d'un satellite devant survoler au plus près un ensemble de sites —, on peut donc
effectuer une régression linéaire sur la représentation gnomonique51.
Notes et références
Notes
1.
Le modèle est dit linéaire tant qu'il est linéaire dans les paramètres .
Voir cette démonstration de MathWorld [archive]
6. la loi a une densité de probabilité continue, mais les valeurs sont nécessairement
relevées de manière discrète
Références
1.
(en) Charles Manski, « Regression », Journal of Economic Literature, vol. 29, no 1, mars
1991, p. 34-50 (JSTOR 2727353)
(en) Michael Friendly et al., HistData : Data sets from the history of statistics and data,
2011 (lire en ligne [archive])
Dodge 2010, p. 451-452
Adrien-Marie Legendre, Nouvelles méthodes pour la détermination des orbites des
comètes, Paris, F. Didot, 1805, 80 p. (lire en ligne [archive]), viii
Dodge 2010, p. 217
(en) Francis Galton, « Regression Towards Mediocrity in Hereditary Stature », Journal
of the Anthropological Institute, vol. 15, 1886, p. 246-263 (lire en ligne [archive], consulté le 15 mai
2012)
R Palm et A.F. Iemma, « Quelques alternatives à la régression classique dans le cadre de
la colinéarité », Revue de statistique appliquée, vol. 43, no 2, 1995, p. 5-33 (lire en ligne [archive])
(en) Robert Tibshirani, « Regression shrinkage and selection via the lasso », Journal of
the Royal Statistical Society, vol. 58, no 1, 1996, p. 267-288 (lire en ligne [archive])
Thierry Foucart, « Colinéarité et régression linéaire », Mathématiques et sciences
humaines, vol. 1, no 173, 2006, p. 5-25 (lire en ligne [archive])
James et al. 2013, p. 59
Voir par exemple Gelman et Hill 2006, p. 37
Cameron et Trivedi 2005, p. 70
Cameron et Trivedi 2005, p. 71
Wasserman 2004, p. 210, définition 13.2
(en) Alan Krueger, « Symposium on Econometric Tools », The Journal of Economic
Perspectives, vol. 15, no 4, automne 2001, p. 3-10 (JSTOR 2696512)
Wasserman 2004, Chapitre 13
Gelman et Hill 2006, p. 40
Wasserman 2004, p. 213, théorème 13.7
Wasserman 2004, p. 211, définition 13.3
Cameron et Trivedi 2005, p. 82, équation 4.28
James et al. 2013, p. 75
James et al. 2013, p. 91
James et al. 2013, p. 87
(en) Allison Sovey et Donald Green, « Instrumental Variables Estimation in Political
Science: A Readers’ Guide », American Journal of Political Science, vol. 55, no 1, janvier
2011, p. 188-200
Cameron et Trivedi 2005, p. 101, équation 4.53
Gelman et Hill 2006, p. 1
Cameron et Trivedi 2005, p. 85
James et al. 2013, p. 97
(en) Elizabeth J. Walters, Christopher H. Morrell et Richard E. Auer, « An Investigation
of the Median-Median Method of Linear Regression », Journal of Statistics Education,
vol. 14, no 2, 2006 (lire en ligne [archive])
(en) John Nelder et Wedderburn, « Generalized linear models », Journal of the Royal
Statistical Society Series A, vol. 135, 1972, p. 370–384
(en) Peter McCullagh et John Nelder, Generalized linear models, Londres, Chapman &
Hall, 1989
(en) Daniel Wright, « Ten Statisticians and Their Impacts for Psychologists »,
Perspectives on psychological science, vol. 4, no 6, novembre 2009, p. 587-597 (lire en
ligne [archive], consulté le 16 décembre 2011)
Cameron et Trivedi 2005, Angrist et Pischke 2008, Dormont 2007, Mignon 2008...
P. K. Trivedi, Microeconometrics : methods and applications, 2005 (ISBN 978-0-521-
84805-3, 0-521-84805-9 et 9786610202966, OCLC 56599620, lire en ligne [archive])
Cameron et Trivedi 2005, p. 69
(en) Joshua Angrist et Victor Lavy, « Using Maimonides' Rule to Estimate the Effect of
Class Size on Scholastic Achievement », The Quarterly Journal of Economics, vol. 114, no 2,
1999, p. 533-575 (lire en ligne [archive], consulté le 14 mars 2012)
(en) Gregory Mankiw, David Romer et David Weil, « A Contribution to the Empirics of
Economic Growth », Quarterly Journal of Economics, vol. 107, no 2, 1992, p. 407-437
(en) Steven Levitt, « Using electoral cycles in police hiring to estimate the effect of
police on crime », American Economic Review, vol. 87, no 3, 1997, p. 270-290 (JSTOR 2951346)
(en) Daron Acemoglu, Simon Johnson et James Robinson, « Reversal of Fortune:
Geography and Institutions in the Making of the Modern World Income Distribution »,
Quarterly Journal of Economics, vol. 117, no 4, 2002, p. 1231-1294
(en) Jonathan Gruber et Daniel Hungerman, « The Church versus the Mall : What
happens when religion faces increased secular competition ? », The Quarterly Journal of
Economics, vol. 123, no 2, mai 2008, p. 831-862 (lire en ligne [archive], consulté le 23 janvier 2012)
(en) Andrew Gelman et Gary King, « Estimating incumbency advantage without bias »,
American Journal of Political Science, vol. 34, no 4, novembre 1990, p. 1142-1164 (lire en
ligne [archive], consulté le 27 février 2012)
Jean Chiche, « Des évolutions électorales entre logique nationale et cultures politiques
régionales », Revue française de science politique, vol. 47, nos 3-4, 1997, p. 416-425
(DOI 10.3406/rfsp.1997.395186, lire en ligne [archive])
Bernard Dolez, « La liste Bayrou ou la résurgence du courant démocrate-chrétien »,
Revue française de science politique, vol. 49, nos 4-5, 1999, p. 663-674
(DOI 10.3406/rfsp.1999.396252, lire en ligne [archive])
Louis Chauvel, « Existe-t-il un modèle européen de structure sociale », Revue de
l'OFCE, vol. 71, 1999, p. 281-298 (DOI 10.3406/ofce.1999.1562, lire en ligne [archive])
Patrick Peretti-Watel, « Comment devient-on fumeur de cannabis ? Une perspective
quantitative », Revue française de sociologie, vol. 42, no 1, 2001, p. 3-30 (DOI 10.2307/3322802,
lire en ligne [archive])
Alain Degenne, Marie-Odile Lebeaux et Catherine Marry, « Les usages du temps :
cumuls d'activités et rythmes de vie : Temps sociaux et temps professionnels au travers des
enquêtes Emploi du temps », Economie et statistique, nos 352-353, 2002, p. 81-99
(DOI 10.3406/estat.2002.7394, lire en ligne [archive])
Philippe Guimard, Olivier Cosnefroy et Agnès Florin, « Évaluation des comportements
et des compétences scolaires par les enseignants et prédiction des performances et des
parcours à l’école élémentaire et au collège », L'orientation scolaire et professionnelle,
nos 36/2, 2007, p. 179-202 (lire en ligne [archive])
C. Castellani, « Régionalisation des précipitations annuelles par la méthode de la
régression linéaire simple : l'exemple des Alpes du Nord », Revue de géographie alpine,
vol. 74, no 4, 1986, p. 393-403 (DOI 10.3406/rga.1986.2658, lire en ligne [archive])
Nicole Commerçon, « Les résidences secondaires du Mâconnais : essai d'étude
quantitative », Revue de géographie de Lyon, vol. 48, no 4, 1973, p. 331-342
(DOI 10.3406/geoca.1973.1632, lire en ligne [archive])
Yann Richard et Christine Tobelem Zanin, « La Russie et l’Europe : une intégration
économique encore à venir ? », Cybergeo : European Journal of Geography, 2007
(DOI 10.4000/cybergeo.11113, lire en ligne [archive])
Bibliographie
Textes historiques
Sources
Manuels
Voir aussi
Articles connexes
Linéarité
Corrélation (mathématiques)
Poursuite de base
Régression (statistiques)
Régression multilinéaire
Régression non linéaire
Test de Breusch-Pagan, test d'homoscédasticité des résidus
Test de Chow, test de stabilité temporelle
Test de Durbin-Watson, test d'autocorrélation des résidus dans le modèle linéaire
Quartet d'Anscombe : expérience montrant quatre jeux de données pour lesquels les
coefficients de la régression linéaire sont identiques alors que les données sous-
jacentes sont très différentes.
Théorème de Frisch-Waugh
Liens externes
[afficher]
v · m
Index du projet probabilités et statistiques
[afficher]
v · m
Apprentissage automatique et exploration de données
Portail de l’économie
Portail des probabilités et de la statistique
Catégories :
Régression
Méthodologie en sciences
Économétrie
[+]
Politique de confidentialité
À propos de Wikipédia
Avertissements
Contact
Version mobile
Développeurs
Statistiques
Déclaration sur les témoins (cookies)