1.régression Polynomiale

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 14

INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique

ue I 2021 – 2022

Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 1 | 14

Expert Consultant - Formateur : Akposso Didier Martial +225 77 24 19 96


INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique I 2021 – 2022

1. MODELE ECONOMIQUE VS MODELE ECONOMETRIQUE

1.1 Modèle économique


Selon Barbancho, un modèle est l’expression mathématique d’une certaine théorie économique.
L’exemple de la loi psychologique fondamentale de Keynes est assez pertinent à cet effet. D’après cette
loi, en moyenne et la plupart du temps lorsque le revenu d’un individu augmente, il augmente aussi sa
consommation, mais dans une proportion moindre à l’augmentation de son revenu. Mathématiquement,
si on note la consommation par 𝐶𝑡 et le revenu par 𝑌𝑡, cette loi peut être spécifiée comme suit :
𝑪𝒕 = 𝜶𝟎 + 𝜶𝟏 𝒀𝒕
[avec 𝜶𝟏 : propension marginale à consommer, 𝟎 < 𝜶𝟏 < 1]

En général, le modèle spécifié par l’économiste est défini comme étant une maquette de la réalité ou
d’un phénomène sous forme d’équations dont les variables sont des grandeurs économiques.
A ce sujet, Lester C. Thurow note ceci : « Les équations décrivent à quoi ressemblerait le monde réel s’il
ressemblait à la théorie».

1.2 Modèle économétrique


Toujours selon Barbancho, un modèle économétrique n’est autre chose qu’un modèle économique qui
contient les spécifications nécessaires pour son application empirique. C’est donc le modèle économique
auquel on ajoute un terme d’erreur 𝜺𝒕 .
𝑪𝒕 = 𝜶𝟎 + 𝜶𝟏 𝒀𝒕 + 𝜺𝒕
[modèle spécifié par l’économètre]

La première partie de ce modèle [𝜶𝟎 + 𝜶𝟏 𝒀𝒕 ] constitue sa partie systématique et la deuxième [𝜺𝒕 ] sa


partie stochastique ou aléatoire.

Il convient de noter également que le terme d’erreur 𝜺𝒕 [bruit, perturbation ou aléa] dénote de la
différence entre l’économiste et l’économètre. Il synthétise l’influence sur 𝑪𝒕 [variable expliquée] de
toutes les autres variables oubliées et des erreurs éventuelles de spécification de la forme fonctionnelle
dans le modèle spécifié par l’économiste. De plus, sa présence dans le modèle rend les paramètres 𝜶𝟎 et
𝜶𝟏 inconnus, on ne sait plus les calculer, il faut donc les estimer.

1.3 principales méthodes de modélisation statistique


Les méthodes de modélisation statistique sont, en fait, très nombreuses. Nous citons ci-dessous les
principales, sachant que la croissance considérable des masses de données enregistrées dans différents
secteurs (internet, biologie à haut débit, marketing...), le besoin d’exploiter ces données sur le plan
statistique, ainsi que les outils modernes de calcul ont donné naissance ces dernières années (disons
depuis le début du XXIe siècle) à de nombreuses méthodes, de plus en plus sophistiquées et, dans le
même temps, de plus en plus “gourmandes” en temps calcul.

Dans les méthodes décrites ci-dessous, il y a presque toujours une variable privilégiée, en général appelée
variable à expliquer, ou variable réponse, et notée Y (il s’agit d’une variable aléatoire). Le but est alors de
construire un modèle permettant d’expliquer “au mieux” cette variable Y en fonction de variables
explicatives observées sur le même échantillon.

Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 2 | 14

Expert Consultant - Formateur : Akposso Didier Martial +225 77 24 19 96


INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique I 2021 – 2022

a. Le modèle linéaire (gaussien) de base

À la fois le plus simple, le plus ancien et le plus connu des modèles statistiques, il englobe
essentiellement :
 la régression linéaire simple et multiple,
 l’analyse de variance
 et l’analyse de covariance.
Dans ce modèle, les variables explicatives (régresseurs ou facteurs) ne sont pas aléatoires (elles sont à
effets fixes). Pour pouvoir être exploité pleinement, ce modèle nécessite l’hypothèse de normalité des
erreurs, donc de la variable à expliquer (hypothèse gaussienne).

b. Le modèle linéaire généralisé


Il généralise le précédent à deux niveaux :
 d’une part, la loi des erreurs, donc de la variable réponse, n’est plus nécessairement gaussienne, mais
doit appartenir à l’une des lois de la famille exponentielle ;
 d’autre part, la liaison linéaire entre l’espérance de la variable réponse et les variables explicatives se
fait à travers une fonction particulière appelée fonction lien (spécifiée a priori).
Ce modèle englobe différentes méthodes telles que :
 la régression logistique,
 la régression de Poisson, le modèle log-linéaire
 ou certains modèles de durée de vie.

c. Les modèles non linéaires


De façon très générale, il s’agit de modèles permettant d’expliquer la variable réponse (aléatoire) au
moyen des variables explicatives (non aléatoires dans les modèles usuels), à travers une fonction
quelconque, inconnue (on est donc en dehors du cadre du modèle linéaire généralisé). Cette classe de
modèles est très vaste et relève, en général, de la statistique non paramétrique. Citons, à titre
d’exemple :
 la régression non paramétrique,
 les GAM (Generalized Additive Models)
 et les réseaux de neurones.

d. Les modèles mixtes


On désigne sous ce terme des modèles permettant d’expliquer la variable aléatoire réponse au moyen
de diverses variables explicatives :
 certaines étant aléatoires (on parle en général de facteurs à effets aléatoires) et intervenant dans la
modélisation de la variance du modèle,
 d’autres ne l’étant pas (on parle de facteurs à effets fixes) et intervenant dans la modélisation de la
moyenne.
On trouve ainsi des modèles linéaires gaussiens mixtes, des modèles linéaires généralisés mixtes et des
modèles non linéaires mixtes.

Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 3 | 14

Expert Consultant - Formateur : Akposso Didier Martial +225 77 24 19 96


INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique I 2021 – 2022

e. Les modèles pour données répétées


On appelle données répétées, ou données longitudinales, des données observées au cours du temps sur
les mêmes individus (en général, il s’agit de personnes ou d’animaux suivis dans le cadre d’une
expérimentation médicale ou biologique). De façon claire, il est nécessaire de prendre en compte dans
ces modèles une certaine dépendance entre les observations faites sur un même individu à différents
instants. Les modèles linéaires ou linéaires généralisés, qu’ils soient standards ou mixtes, sont utilisés
dans ce contexte.

f. Les modèles pour séries chronologiques


Les séries chronologiques sont les observations, au cours du temps, d’une certaine grandeur
représentant un phénomène économique, social ou autre. Si données répétées et séries chronologiques
ont en commun de rendre compte de l’évolution au cours du temps d’un phénomène donné, on notera
que ces deux types de données ne sont pas réellement de même nature (dans une série chronologique,
ce sont rarement des personnes ou des animaux que l’on observe).

Pour les séries chronologiques, on utilise des modèles spécifiques :


 Modèles AR (Auto-Regressive, ou auto-régressifs),
 MA (Moving Average, ou moyennes mobiles),
 ARMA,
 ARIMA (I pour Integrated)...
 ARCH
 GARCH

g. L’analyse discriminante et la classification


S’il est plus courant d’utiliser ces méthodes dans un contexte d’exploration des données plutôt que dans
un contexte de modélisation, l’analyse discriminante et la classification peuvent tout de même être
utilisées dans la phase de recherche d’un modèle permettant d’ajuster au mieux les données considérées.
C’est en particulier le cas lorsque la variable réponse du modèle envisagé est de nature qualitative.

h. Les modèles par arbre binaire de régression et de classification


Ces méthodes (plus connues sous le nom de CART, pour Classification And Regression Trees) consistent
à découper une population en deux parties, en fonction de celle des variables explicatives et du
découpage en deux de l’ensemble de ses valeurs ou modalités qui expliquent au mieux la variable
réponse. On recommence ensuite sur chaque sous-population ainsi obtenue, ce qui permet de définir, de
proche en proche, un arbre binaire et de classer les variables explicatives selon l’importance de leur
liaison avec la variable réponse (on parle d’arbre de régression en présence d’une variable réponse
quantitative et d’arbre de classification en présence d’une variable réponse qualitative). De telles
méthodes peuvent constituer un complément intéressant au modèle linéaire ou au modèle linéaire
généralisé.

Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 4 | 14

Expert Consultant - Formateur : Akposso Didier Martial +225 77 24 19 96


INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique I 2021 – 2022

i. Quelques autres modèles


Concernant les méthodes de modélisation statistique, on ne saurait être exhaustif dans cette
introduction. Parmi les méthodes récentes, faisant un usage intensif de l’ordinateur, citons, pour
mémoire :
 la régression PLS (Partial Least Squares),
 les méthodes d’agrégation, ou de combinaison, de modèles (bagging, boosting, random forests),
 les méthodes de régularisation
 et les SVM (Support Vector Machines).
Dans ce document, nous n’aborderons qu’un petit nombre de modèles parmi ceux évoqués ci-dessus. En
fait, tous les modèles qui seront abordés relèvent du modèle linéaire gaussien : le modèle de base.

Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 5 | 14

Expert Consultant - Formateur : Akposso Didier Martial +225 77 24 19 96


INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique I 2021 – 2022

2. PRELIMINAIRES A TOUTE MODELISATION STATISTIQUE

Quel que soit le modèle, ou le type de modèles, envisagé face à un jeu de données, quel que soit le
problème qu’il s’agit de traiter, une modélisation statistique ne peut sérieusement s’envisager que sur
des données “propres”, c’est à dire pré-traitées, afin de les débarrasser, autant que faire se peut, de tout
ce qui peut nuire à la modélisation : codes erronés, données manquantes, données aberrantes, variables
inutiles, variables redondantes... C’est cet ensemble de pré-traitements que nous décrivons dans ce
paragraphe. On notera que cette phase est parfois appelée datamanagement, autrement dit “gestion
des données”.

a. “Nettoyage” des données


Avant toute chose, il faut disposer d’un fichier informatique contenant les données dans un format
exploitable (texte ou excel, par exemple), les individus étant disposés en lignes et les variables en
colonnes. Avec ce fichier, il faut essayer de repérer d’éventuels codes interdits ou aberrants : chaîne de
caractères pour une variable numérique ; code “3” pour la variable sexe ; valeur 153 pour l’âge d’un
groupe d’individus, etc. Une fois repérés, ces codes doivent être corrigés si possible, supprimés sinon.
Dans cette phase, il faut également essayer de repérer des données manquantes en grande quantité, soit
sur une colonne (une variable), soit sur une ligne (un individu). Si quelques données manquantes ne sont
pas vraiment gênantes dans la plupart des traitements statistiques, il n’en va pas de même lorsque cela
concerne un fort pourcentage des observations d’une variable ou d’un individu. Dans ce cas, il est
préférable de supprimer la variable ou l’individu (dont la colonne, ou la ligne, serait, de toutes façons,
inexploitable).

b. Analyse univariée
Cette phase, souvent fastidieuse, consiste à étudier chaque variable l’une après l’autre, afin d’en
connaître les principales caractéristiques et d’en repérer, le cas échéant, certaines anomalies.
Pour les variables quantitatives, on pourra faire un histogramme ou un diagramme en boîte et déterminer
des caractéristiques telles que le minimum, le maximum, la moyenne, l’écart-type, la médiane et les
quartiles. Cela peut conduire à supprimer une variable (si elle présente très peu de variabilité), à la
transformer (par exemple, en prenant son logarithme si elle est à valeurs positives et très dissymétrique),
ou encore à repérer des valeurs très particulières (que l’on devra, éventuellement, corriger ou éliminer).

Pour les variables qualitatives, on pourra faire un diagramme en colonnes des modalités et déterminer
les effectifs et les fréquences de ces dernières. Cela pourra encore conduire à supprimer une variable (si
tous les individus, ou presque, présentent la même modalité), ou à en regrouper des modalités “proches”
(si certains effectifs sont trop faibles).

Ces analyses univariées permettent également de prendre connaissance des données et de fournir
certaines indications pour la phase ultérieure de modélisation. Toutefois, il faut noter que ces analyses
peuvent être inenvisageables avec des données “fortement multidimensionnelles”, c’est-à-dire
comportant des centaines, voire des milliers, de variables ; on rencontre aujourd’hui de telles données
dans certains contextes particuliers.

Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 6 | 14

Expert Consultant - Formateur : Akposso Didier Martial +225 77 24 19 96


INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique I 2021 – 2022

c. Analyses bivariées
Ces analyses ont pour but d’étudier d’éventuelles liaisons existant entre couples de variables. Il peut
s’agir de deux variables explicatives, dont on soupçonne qu’elles sont fortement corrélées, dans le but
d’éliminer l’une des deux. Il peut aussi s’agir d’étudier les liens entre la variable à expliquer et chaque
variable explicative (de façon systématique), pour avoir une première idée des variables explicatives
susceptibles de jouer un rôle important lors de la modélisation. Enfin, ces analyses peuvent aussi
permettre de repérer des points aberrants (ou extrêmes) qui n’ont pas pu l’être avec les analyses
univariées.

Rappelons que, pour étudier la liaison entre deux variables quantitatives, on dispose, comme graphique,
du nuage de points (ou diagramme de dispersion) et, comme indicateur de liaison, du coefficient de
corrélation linéaire. Dans le cas d’une variable quantitative et d’une variable qualitative, on dispose du
diagramme en boîtes parallèles et du rapport de corrélation. Enfin, dans le cas de deux variables
qualitatives, on utilise en général un diagramme en colonnes de profils (profils-lignes ou profils-colonnes
selon ce que l’on souhaite mettre en évidence) et des indicateurs de liaison liés au khi-deux (coefficients
de Tschuprow ou de Cramer).

d. Analyses multivariées quantitatives


Elles consistent à déterminer la matrice des corrélations entre toutes les variables quantitatives
considérées, notamment la variable à expliquer, lorsque celle-ci est quantitative. Cela peut permettre
encore de supprimer des variables très corrélées, par exemple afin d’éviter de faire une régression sur
de telles variables, dont on sait que les résultats seraient très instables, voire sans aucune signification.
Cela permet aussi de prendre connaissance de la structure de corrélation entre les variables considérées,
ce qui est toujours utile dans le cadre d’une modélisation.
On peut également envisager, à ce niveau, de réaliser une analyse en composantes principales (A.C.P.)
de toutes ces variables, afin de préciser davantage, de façon globale, leurs relations linéaires.

e. Analyses multivariées qualitatives


C’est le pendant des analyses ci-dessus, cette fois pour les variables qualitatives. On peut, tout d’abord,
déterminer la matrice des coefficients de Tschuprow (ou celle des coefficients de Cramer) et l’analyser
comme une matrice de corrélations. Toutefois, il est bien connu que, dans la pratique, ces coefficients
sont systématiquement petits : pratiquement toujours inférieurs à 0.5 et le plus souvent compris entre
0.1 et 0.3. Leur interprétation est donc, en général, assez délicate. Ils permettent néanmoins de repérer
les liaisons les plus importantes, même si elles sont de l’ordre de 0.3, 0.4 ou 0.5.

Il est d’autant plus important d’envisager, dans ces analyses préliminaires, de réaliser une analyse des
correspondances multiples (A.C.M.) entre variables qualitatives. Celle-ci permettra, le cas échéant, de
confirmer une liaison forte entre certains couples de variables et, si nécessaire, d’en éliminer quelques-
unes. L’A.C.M. permet également de regrouper certaines modalités d’une même variable lorsque celles-
ci apparaissent proches dans l’ensemble des résultats et, par suite, de simplifier les données. Enfin, le
tableau de Burt, fourni avec les résultats de l’A.C.M., permet de repérer des occurrences très faibles pour
certains croisements de modalités et d’envisager encore d’autres regroupements.

Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 7 | 14

Expert Consultant - Formateur : Akposso Didier Martial +225 77 24 19 96


INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique I 2021 – 2022

f. Bilan
Une fois réalisées toutes les étapes préliminaires décrites ci-dessus, on dispose de données “mises au
propre”, simplifiées, et dont on commence à connaître certaines caractéristiques. On peut, à partir de ce
moment-là, envisager leur modélisation.

Les modèles susceptibles d’être adaptés aux données considérées, parmi tous ceux décrits dans le
paragraphe précédent, sont nécessairement limités à ce stade-là. Ils sont fonction de la nature des
données ainsi que des questions posées par l’utilisateur, autrement dit de ses objectifs.

Insistons ici sur le fait que des données sont toujours recueillies (produites) par un utilisateur (biologiste,
informaticien, gestionnaire...) dans un but bien précis. La modélisation statistique doit avoir pour objectif
premier de répondre aux questions que s’est posé cet utilisateur lorsqu’il a décidé de recueillir les
données. Une collaboration entre utilisateur et statisticien est donc, à ce niveau-là, absolument
indispensable.

Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 8 | 14

Expert Consultant - Formateur : Akposso Didier Martial +225 77 24 19 96


INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique I 2021 – 2022

3. LES ETAPES DU PROCESSUS DE MODELISATION

1. Estimer les valeurs des coefficients (𝛽0 ; 𝛽1 ; 𝛽2 ; … ; 𝛽𝑝 ) à partir d’un échantillon de données
(estimateur des moindres carrés ordinaires).

2. Évaluer la précision de ces estimations (biais, variance des estimateurs).

3. Mesurer le pouvoir explicatif du modèle dans sa globalité (tableau d’analyse de variance, coefficient
de détermination).

4. Tester la réalité de la relation entre Y et les exogènes Xj (test de significativité globale de la


régression).

5. Tester l’apport marginal de chaque variable explicative dans l’explication de Y (test de significativité
de chaque coefficient).

6. Tester l’apport d’un groupe de variables explicatives dans l’explication de Y (test de significativité
simultanée d’un groupe de coefficient).
7. Pour un nouvel individu 𝑖 ∗ pour lequel on fournit la description (𝑥 ∗1 ; … ; 𝑥 ∗𝑝 ), calculer la valeur
prédite 𝑦 ∗ et la fourchette de prédiction.

8. Interpréter les résultats en mettant en avant notamment l’impact des exogènes sur l’endogène
(interprétation des coefficients, analyse structurelle).

9. Tester à postériori la validité du modèle c-à-d sa conformité avec les hypothèses de départ.

10. Si le modèle est satisfaisant, il peut servir à des fins explicatives ou prospectives sinon reprendre
toutes les étapes précédentes avec une nouvelle spécification de modèle.

Variable Variables Nom de la technique de


à Expliquer explicatives modélisation
1 quantitative 1 quantitative Régression linéaire Simple
1 quantitative 𝒏 quantitatives Régression linéaire Multiple
1 quantitative 1 qualitative ANOVA à un facteur
1 quantitative 𝒏 qualitatives ANOVA à 𝒏 facteur
1 quantitative 𝒏 quantitatives + qualitatives ANCOVA
n quantitative 𝒏 qualitatives MANOVA à 𝒏 facteur
n quantitative 𝒏 quantitatives + qualitatives MANCOVA

1 qualitative 𝒏 quantitatives + qualitative Analyse Discriminante Linéaire


1 qualitative 𝒏 quantitatives + qualitative Régression Logistique

1 variable de comptage 𝒏 quantitatives + qualitative Régression de poisson


1 variable censurée ou tronquée 𝒏 quantitatives + qualitative Régression Tobit
1 variable de durée 𝒏 quantitatives + qualitative Régression de durée

Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 9 | 14

Expert Consultant - Formateur : Akposso Didier Martial +225 77 24 19 96


INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique I 2021 – 2022

INTRODUCTION

Jusqu'ici, nous nous sommes principalement concentrés sur les modèles linéaires. Les modèles linéaires sont
relativement simples à décrire et à mettre en œuvre et présentent des avantages par rapport à d'autres approches
en termes d'interprétation et d'inférence. Cependant, la régression linéaire standard peut avoir d'importantes
limitations en termes de puissance prédictive. En effet, l'hypothèse de linéarité est presque toujours
approximative et parfois médiocre. Nous voyons que nous pouvons améliorer les moindres carrés en utilisant
la régression ridge, le lasso, la régression en composantes principales et d’autres techniques. Dans ce contexte,
l’amélioration est obtenue en réduisant la complexité du modèle linéaire, et donc la variance des estimations.
Mais nous utilisons toujours un modèle linéaire, qui ne peut être amélioré que jusqu'à présent! Dans ce
chapitre, nous assouplissons l'hypothèse de linéarité tout en essayant de maintenir autant d'interprétabilité que
possible. Pour ce faire, nous examinons des extensions très simples de modèles linéaires tels que la régression
polynomiale et des step functions, ainsi que des approches plus sophistiquées telles que les splines, la
régression locale et les modèles additifs généralisés.

 La régression polynomiale étend le modèle linéaire en ajoutant des prédicteurs supplémentaires, obtenus
en élevant chacun des prédicteurs d'origine à une puissance. Par exemple, une régression cubique utilise
trois variables, X, X2 et X3, en tant que prédicteurs. Cette approche offre un moyen simple d’apporter un
ajustement non linéaire aux données.

 Les fonctions d'étape (step function) coupent la plage d'une variable en K régions distinctes afin de
produire une variable qualitative. Cela a pour effet de donner une fonction constante par morceaux.

 Les régression splines sont plus souples que les polynômes et les fonctions par étapes et sont en fait une
extension des deux. Ils impliquent de diviser la gamme de X en K régions distinctes. Dans chaque région,
une fonction polynomiale est adaptée aux données. Cependant, ces polynômes sont contraints de se joindre
en douceur aux limites de la région, ou nœuds. À condition que l'intervalle soit divisé en suffisamment de
régions, cela peut produire un ajustement extrêmement flexible.

 Les splines de lissage (smoothing splines) ressemblent aux régressions splines, mais se présentent dans
une situation légèrement différente. Les splines de lissage résultent de la réduction au minimum du critère
de la somme des carrés soumis à une pénalité de lissage.

 La régression locale est similaire aux splines, mais diffère de manière importante. Les régions sont
autorisées à se chevaucher et le font de manière très fluide.

 Les modèles additifs généralisés nous permettent d'étendre les méthodes ci-dessus pour traiter plusieurs
prédicteurs.

Dans le chapitre qui suit, nous présentons la régression polynomiale

Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 10 | 14

Expert Consultant - Formateur : Akposso Didier Martial +225 77 24 19 96


INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique I 2021 – 2022

REGRESSION POLYNOMIALE

Historiquement, la méthode standard pour étendre la régression linéaire aux paramètres dans lesquels la relation entre
les prédicteurs et la réponse est non linéaire consiste à remplacer le modèle linéaire standard.
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝜀𝑖

avec une fonction polynomiale


𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝛽2 𝑋𝑖2 + 𝛽3 𝑋𝑖3 + 𝛽𝑑 𝑋𝑖𝑑 + 𝜀𝑖

où 𝜀𝑖 est le terme d'erreur. Cette approche est connue sous le nom de régression polynomiale. Pour un degré 𝒅 suffisant,
une régression polynomiale nous permet de produire une courbe extrêmement non linéaire. Notez que les coefficients
du modèle peuvent être facilement estimés à l'aide de la régression linéaire des moindres carrés car il ne s'agit que d'un
modèle linéaire standard avec des prédicteurs 𝑋𝑖 , 𝑋𝑖2 , 𝑋𝑖3 , ..., 𝑋𝑖𝑑 . De manière générale, il est inhabituel d’utiliser 𝒅
supérieur à 3 ou 4 car, pour de grandes valeurs de d, la courbe polynomiale peut devenir trop souple et prendre des
formes très étranges. Cela est particulièrement vrai près de la limite de la variable X.

4. REGRESSION POLYNOMIALE : Application sous R

Dans cet atelier, nous analysons à nouveau les données salariales prises en compte dans les exemples de ce chapitre afin d'illustrer
le fait que bon nombre des procédures d'adaptation non linéaires complexes discutées peuvent être facilement mises en œuvre dans
R. Nous commençons par charger la bibliothèque ISLR. , qui contient les données

library(ISLR)
attach(Wage)

Nous commençons par estimer le modèle en utilisant la commande suivante:


fit <- lm(wage~poly(age,4),data=Wage)
coef(summary (fit))
Estimate Std. Error t value Pr(>|t|)
(Intercept) 111.70361 0.7287409 153.283015 0.000000e+00
poly(age, 4)1 447.06785 39.9147851 11.200558 1.484604e-28
poly(age, 4)2 -478.31581 39.9147851 -11.983424 2.355831e-32
poly(age, 4)3 125.52169 39.9147851 3.144742 1.678622e-03
poly(age, 4)4 -77.91118 39.9147851 -1.951938 5.103865e-02

Cette syntaxe convient à un modèle linéaire, utilisant la fonction lm (), afin de prédire le salaire à l'aide d'un polynôme du quatrième
degré en âge: poly (age, 4). La commande poly () nous permet d’éviter d’écrire une formule longue avec les puissances de l’âge. La
fonction renvoie une matrice dont les colonnes sont à la base de polynômes orthogonaux, ce qui signifie essentiellement que chaque
colonne est une combinaison linéaire orthogonale de polynômes des variables age, age ^ 2, age ^ 3 et age ^ 4. Cependant, nous
pouvons également utiliser poly () pour obtenir directement l’âge, l’âge ^ 2, l’âge ^ 3 et l’âge ^ 4, si nous préférons. Nous pouvons
le faire en utilisant l’argument raw = TRUE de la fonction poly (). Nous verrons plus tard que cela n’a pas d’effet significatif sur le
modèle - bien que le choix de la base affecte clairement les estimations cohérentes, il n’a pas d’effet sur les valeurs ajustées obtenues.

fit2 <- lm(wage~poly(age,4,raw=T),data=Wage)


coef(summary(fit2))
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.841542e+02 6.004038e+01 -3.067172 0.0021802539
poly(age, 4, raw = T)1 2.124552e+01 5.886748e+00 3.609042 0.0003123618
poly(age, 4, raw = T)2 -5.638593e-01 2.061083e-01 -2.735743 0.0062606446
poly(age, 4, raw = T)3 6.810688e-03 3.065931e-03 2.221409 0.0263977518
poly(age, 4, raw = T)4 -3.203830e-05 1.641359e-05 -1.951938 0.0510386498

Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 11 | 14

Expert Consultant - Formateur : Akposso Didier Martial +225 77 24 19 96


INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique I 2021 – 2022
Il existe plusieurs autres moyens équivalents d’estimer ce modèle, qui illustrent la flexibilité du langage de formule dans R. Par
exemple.

fit2a=lm(wage∼age+I(age^2)+I(age^3)+I(age^4),data=Wage)
coef(fit2a)
(Intercept) age I(age^2) I(age^3) I(age^4)
-1.841542e+02 2.124552e+01 -5.638593e-01 6.810688e-03 -3.203830e-05

coef(summary(fit2a))
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.841542e+02 6.004038e+01 -3.067172 0.0021802539
age 2.124552e+01 5.886748e+00 3.609042 0.0003123618
I(age^2) -5.638593e-01 2.061083e-01 -2.735743 0.0062606446
I(age^3) 6.810688e-03 3.065931e-03 2.221409 0.0263977518
I(age^4) -3.203830e-05 1.641359e-05 -1.951938 0.0510386498

Il existe plusieurs autres moyens équivalents pour ajuster ce modèle. Ceci crée simplement les fonctions de base polynomiales sur
la feuille, en prenant soin de protéger les termes tels que age ^ 2 via la fonction enveloppe I () (le symbole ^ a une signification
particulière dans les formules). el, qui montrent la flexibilité du langage de la formule en R. Par exemple

fit2b=lm(wage∼cbind(age,age^2,age^3,age^4),data=Wage)
coef(summary(fit2b))
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.841542e+02 6.004038e+01 -3.067172 0.0021802539
cbind(age, age^2, age^3, age^4)age 2.124552e+01 5.886748e+00 3.609042 0.0003123618
cbind(age, age^2, age^3, age^4) -5.638593e-01 2.061083e-01 -2.735743 0.0062606446
cbind(age, age^2, age^3, age^4) 6.810688e-03 3.065931e-03 2.221409 0.0263977518
cbind(age, age^2, age^3, age^4) -3.203830e-05 1.641359e-05 -1.951938 0.0510386498

Nous créons maintenant une grille de valeurs pour l'âge pour laquelle nous voulons des prédictions, puis appelons la fonction generic
Predict (), en spécifiant que nous voulons également les erreurs standard.

agelims=range(age)
age.grid=seq(from=agelims [1],to=agelims [2])
preds=predict (fit ,newdata =list(age=age.grid),se=TRUE)
se.bands=cbind(preds$fit +2* preds$se.fit ,preds$fit -2* preds$se.fit)

Enfin, nous traçons les données et ajoutons l’ajustement du polynôme de degré 4.

par(mfrow=c(1,2),mar=c(4.5,4.5,1,1) ,oma=c(0,0,4,0))
plot(age ,wage ,xlim=agelims ,cex=.5,col="darkgrey")
title("Degree -4 Polynomial",outer=T)
lines(age.grid ,preds$fit ,lwd=2,col="blue")
matlines(age.grid ,se.bands,lwd=1,col="blue",lty=3)

Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 12 | 14

Expert Consultant - Formateur : Akposso Didier Martial +225 77 24 19 96


INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique I 2021 – 2022
En effectuant une régression polynomiale, nous devons décider du degré de polynôme à utiliser. Une façon
de faire est d'utiliser des tests d'hypothèse. Nous ajustons maintenant des modèles allant du polynôme
linéaire au polynôme de degré 5 et cherchons à déterminer le modèle le plus simple et suffisant pour
expliquer la relation entre salaire et âge.
Nous utilisons la fonction anova (), qui effectue une anova () analyse de variance (ANOVA, utilisant un test
de Fisher) afin de tester la valeur de hypothèse nulle qu'un modèle M1 est suffisant pour expliquer les
données par rapport à l'hypothèse alternative selon laquelle un modèle M2 plus complexe est requis. Pour
utiliser la fonction anova (), M1 et M2 doivent être des modèles imbriqués: les prédicteurs dans M1 doivent
être un sous-ensemble des prédicteurs dans M2. Dans ce cas, nous sélectionnons cinq modèles différents
et comparons séquentiellement le modèle le plus simple au modèle plus complexe.
fit.1=lm(wage∼age,data=Wage)
fit.2=lm(wage∼poly(age,2),data=Wage)
fit.3=lm(wage∼poly(age,3),data=Wage)
fit.4=lm(wage∼poly(age,4),data=Wage)
fit.5=lm(wage∼poly(age,5),data=Wage)
anova(fit.1,fit.2,fit.3,fit.4,fit.5)
Analysis of Variance Table

Model 1: wage ~ age


Model 2: wage ~ poly(age, 2)
Model 3: wage ~ poly(age, 3)
Model 4: wage ~ poly(age, 4)
Model 5: wage ~ poly(age, 5)
Res.Df RSS Df Sum of Sq F Pr(>F)
1 2998 5022216
2 2997 4793430 1 228786 143.5931 < 2.2e-16 ***
3 2996 4777674 1 15756 9.8888 0.001679 **
4 2995 4771604 1 6070 3.8098 0.051046 .
5 2994 4770322 1 1283 0.8050 0.369682
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

• La valeur p comparant le modèle linéaire 1 au modèle quadratique est essentiellement égale à zéro
(<10−15), ce qui indique qu'un ajustement linéaire n'est pas suffisant.
• De même, la valeur p comparant le modèle 2 quadratique au modèle 3 cubique est très faible (0,0017),
de sorte que l'ajustement quadratique est également insuffisant.
• La valeur p comparant les polynômes cubiques et de degré 4, modèle 3 et modèle 4, est d'environ 5%,
tandis que le polynôme de degré 5, modèle 5, semble inutile car sa valeur p est de 0,37.
Par conséquent, un polynôme cubique ou quartique semble apporter un ajustement raisonnable aux
données, mais les modèles d'ordre inférieur ou supérieur ne sont pas justifiés. Dans ce cas, au lieu d'utiliser
la fonction anova (), nous aurions pu obtenir ces valeurs p plus succinctement en exploitant le fait que poly
() crée des polynômes.

Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 13 | 14

Expert Consultant - Formateur : Akposso Didier Martial +225 77 24 19 96


INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique I 2021 – 2022
La méthode ANOVA fonctionne que nous utilisions ou non des polynômes orthogonaux; cela fonctionne
également lorsque nous avons également d'autres termes dans le modèle. Par exemple, nous pouvons
utiliser anova () pour comparer ces trois modèles:

fit.1=lm(wage~education+age,data=Wage)
fit.2=lm(wage~education+poly(age,2),data=Wage)
fit.3=lm(wage~education+poly(age,3),data=Wage)
anova(fit.1,fit.2,fit.3)
Analysis of Variance Table

Model 1: wage ~ education + age


Model 2: wage ~ education + poly(age, 2)
Model 3: wage ~ education + poly(age, 3)
Res.Df RSS Df Sum of Sq F Pr(>F)
1 2994 3867992
2 2993 3725395 1 142597 114.6969 <2e-16 ***
3 2992 3719809 1 5587 4.4936 0.0341 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

coef(summary(fit.3))
Estimate Std. Error t value Pr(>|t|)
(Intercept) 85.60597 2.156705 39.692941 3.548046e-277
education2. HS Grad 10.86075 2.433978 4.462142 8.413874e-06
education3. Some College 23.21846 2.561633 9.063929 2.219101e-19
education4. College Grad 37.92991 2.546628 14.894169 1.877141e-48
education5. Advanced Degree 62.61297 2.763706 22.655439 5.196118e-105
poly(age, 3)1 362.66754 35.466163 10.225734 3.777795e-24
poly(age, 3)2 -379.77717 35.429337 -10.719285 2.468951e-26
poly(age, 3)3 74.84933 35.309477 2.119808 3.410431e-02

Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 14 | 14

Expert Consultant - Formateur : Akposso Didier Martial +225 77 24 19 96

Vous aimerez peut-être aussi