Chapitre 2 ML
Chapitre 2 ML
Chapitre 2 ML
Régression linéaire
55
Plan du chapitre
56
Régression linéaire
Un algorithme d’apprentissage supervisé càd qu’à partir de la variable
cible ou de la variable à expliquer (la variable dépendante) (Y), le
modèle a pour but de faire une prédiction grâce à des variables
indépendantes dites explicatives (X) ou prédictives.
Un modèle de régression linéaire: un modèle de machine learning
dont la variable cible (Y) est quantitative tandis que la variable X peut
être quantitative ou qualitative.
Exemple: Prédire la valeur d’une maison en fonction de sa superficie,
sa localisation, la possibilité de parking ou non
57
Régression linéaire
Régression linéaire: un algorithme qui consiste à trouver une droite qui se
rapproche le plus possible d’un ensemble de points représentant les
données d’entraînement (Training Set).
Les points en orange: les données d’entraînement (input data), représentés par le couple
variables prédictives; valeurs observées (le prix d’une maison par exemple).
Trouver une droite tel que,
Trouver une droite qui soit le plus proche possible de tous les points de nos données
58
d’apprentissage.
Régression linéaire
Trouver une fonction dite de prédiction ou une fonction coût qui décrit la relation
entre X et Y c’est-à-dire qu’à partir de valeurs connues de X, on arrive à donner une
prédiction des valeurs de Y.
Exemple
59
Vérification graphique
Savoir si le modèle linéaire est convenable pour l’étude du phénomène.
Il semble approprié d’utiliser le modèle linéaire pour la première image et pas pour
la deuxième qui ne laisse transparaitre aucune tendance connue.
60
Modèle de la régression linéaire
61
Modèle de régression linéaire simple
Position du problème
Exemple de régression simple
Expliquer le rendement de maïs Y (en quintal) à partir de la quantité d'engrais
utilisé (en kilo) sur des parcelles de terrain similaires.
62
Modèle de régression linéaire simple
Exemple 2 de régression simple: valeur du salaire en fonction des années d’expérience
Exemple 3: Une entreprise veut mener une étude sur la relation entre les dépenses hebdomadaires en
publicité et le volume des ventes qu’elle réalise
63
Modèle de régression linéaire simple
64
Estimateur des moindres carrés ordinaires
(Ordinary least squares)
• Critère des moindres carrés : trouver les valeurs de a et b qui
minimise la somme des carrés des écarts entre les vraies valeurs de Y
et les valeurs prédites avec le modèle de prédiction.
65
Estimateur des moindres carrés ordinaires
(Ordinary least squares)
66
Estimateur des moindres carrés ordinaires
(Ordinary least squares)
67
Exemple de rendements agricole
68
Exemple Volume des ventes en fonction des coûts
publicitaires
69
Estimateur des moindres carrés ordinaires
(Ordinary least squares)
Remarques
• â Peut s’écrire autrement
où 𝐶𝑜𝑣(X,Y) est la covariance empirique entre les xi et les yi et 𝜎 est la variance empirique des xi.
• L’expression de b indique que la droite de la régression linéaire passe par le centre de gravité du nuage
de points (le point moyen défini par le couple (X,Ȳ)).
70
Estimateur des moindres carrés ordinaires
(Ordinary least squares)
Erreur et résidus :
• Erreur = définie dans la spécification du modèle ;
• Résidus = erreurs observées sur les données
71
Régression linéaire Multiple
Exemple
72
Régression linéaire Multiple
Exemple 2
73
Modèle de la régression linéaire multiple
La variable dépendante yi est réelle, les p variables xi,k, k=1,..,p sont quantitatives (ou éventuellement qualitatives
encodées)
74
Modèle de la régression linéaire multiple
Ecriture matricielle du modèle
75
Méthode des moindres carrés ordinaires
Méthode des moindres carrés: trouver les meilleurs paramètres qui minimisent la somme des
erreurs au carré entre les valeurs observées et les valeurs fournies par le modèle
76
Estimateur des moindres carrés ordinaires
77
Estimateur des moindres carrés ordinaires
78
Estimateur des moindres carrés ordinaires
Exemple
79
Régression linéaire multiple – Descente de gradient
80
Algorithme descente de gradient
81
Taux d’apprentissage (learning rate)
Pour trouver le bon Learning Rate, il n’existe malheureusement pas de formule magique. Le
plus souvent, on doit tâtonner et essayer plusieurs valeurs avant de trouver la bonne. On
appelle ça l’Hyperparameter Tuning (le réglage des hyper-paramètres).
Néanmoins, un bon Learning Rate se situe souvent aux alentours des .
Taux fixe ou taux décroissant au fil du processus d’apprentissage
Améliorer le dispositif en faisant évoluer le taux au fil des itérations ( fort au début pour
accélérer la convergence, faible à la fin pour améliorer la précision)
82
Régression linéaire multiple-exemple
83
Méthodes de sélection des variables de la régression linéaire
Dans une régression linéaire multiple, on cherche à prédire/expliquer une variable réponse y à l’aide de p
variables explicatives, Xi, i=1…p.
réduire au maximum l’ensemble des variables explicatives tout en préservant la qualité
prédictive/explicative du modèle
Objectif : Sélectionner parmi les p variables explicatives les q ≤ p variables qui donnent le “meilleur” modèle
pour prédire Y.
Comment?
Définir un critère qui permet de comparer deux modèles n’ayant pas nécessairement le même nombre de
variables explicatives ou une fonction d’évaluation permettant de mesurer la capacité d'une variable ou d'un
ensemble de variables exogènes à déterminer la variable endogène
Définir un critère d’arrêt.
On parle de procédure de choix de modèle
84
Critère d’évaluation
L'optimalité d'un sous-ensemble est relative à la fonction d'évaluation utilisée.
Plusieurs critères d’évaluation peuvent être utilisés:
• Critères d’information : C'est la quantité d'information apportée par une variable sur la variable
endogène. La variable, ayant le gain d'information le plus élevé, sera préférée aux autres variables.
Le gain d'information est la différence entre l'incertitude a priori et l'incertitude a posteriori.
exp: entropie de Shannon (information mutuelle)
• Critères de distance: Ces mesures s'intéressent au pouvoir discriminant d'une variable.
exp: Critère de Gini
• Critères d’indépendance: Ils regroupent toutes les mesures de corrélation ou d'association. Ils
permettent de calculer le degré avec lequel une variable exogène est associée à une variable
endogène
exp: le test statistique p-value
• Critères de précision: Ils utilisent le classifieur comme fonction d'évaluation. Le classifieur choisit,
parmi tous les sous-ensembles de variables, celui qui est à l'origine de la meilleure précision
prédictive.
85
Critère d’arrêt
Un critère d'arrêt pourra être de plusieurs sortes :
• un nombre prédéfini de variables sélectionnées. Ce type de critère d'arrêt nous parait difficile à
utiliser. En effet, il est rare que le nombre optimal de variables soit connu à l'avance. Cependant,
certaines contraintes techniques ou calculatoires peuvent induire un nombre fixe de variables à
sélectionner.
• un nombre d'itérations préfixé. Ce genre de critère permet de limiter le temps de calcul. Bien
sûr, le résultat obtenu ne sera pas forcément optimal.
• un seuil relatif à l’obtention de l’ensemble optimal selon le critère d’évaluation: l'ajout ou la
suppression d'une variable ne produit aucun sous-ensemble plus performant
L'itération continue jusqu'à ce que le critère d'arrêt soit satisfait. Le processus de sélection
de variables s'arrête en fournissant le sous-ensemble obtenu à la procédure de validation.
86
p-value
La « valeur p » ou « p-value » (probability value) est une valeur qui découle d’un test statistique fait
pour savoir le risque que les différences entre deux séries d’observations soient dues au hasard
P-value: p(résultat se produit au hasard): risque d’erreur très élevé
Chance importante que le résultat est dû au hasard
Hypothèse: Xd a une influence sur y
Plus la valeur de la p-value est faible, plus la différence entre les deux mesures a des chances d’être
significative, c’est-à-dire de ne pas être due au hasard.
• p > 0,05 : très probablement dû au hasard, la différence entre les deux séries d’observation n’est
pas significative.
• 0,05 ≤ p < 0,01 : faiblement significatif (*)
• 0,01 ≤ p < 0,005 : significatif (**)
• p ≤ 0,005 : fortement significatif (***)
87
Méthodes de construction d’un modèle
Deux types d’algorithmes sont résumés ci-dessous par ordre croissant de temps de calcul nécessaire
c’est-à-dire par nombre croissant de modèles considérés parmi les 2p et donc par capacité croissante
d’optimalité.
Méthodes de construction pas à pas
- Sélection (forward): Cette stratégie part d'un ensemble vide. Les variables sont ajoutées une à une. A
chaque itération, la variable optimale suivant un certain critère est ajoutée. Le processus s'arrête soit
quand il n'y a plus de variable à ajouter, soit quand un certain critère est satisfait. Une fois qu'une variable a
été ajoutée, la FS ne peut la retirer.
- Élimination (backward): Cette stratégie part de l'ensemble initial de variables. A chaque itération, une
variable est enlevée de l'ensemble. Cette variable est telle que sa suppression donne le meilleur sous-
ensemble selon un critère particulier. Une fois la variable supprimée, il est impossible de la réintégrer.
- Elimination bidirectionnelle: Cette stratégie combine les deux méthodes précédentes, introduction et
élimination, au sens où le processus commence par une démarche ascendante (introduction progressive),
mais si la contribution d’une variable déjà introduite tombe en dessous du critère d’élimination, elle est
retirée du modèle.
Méthode de construction global
utilisé pour comparer tous les modèles possibles en cherchant à optimiser l’un des critères.
88
Méthode FORWARD (ascendante)
89
Méthode BACKWARD (descendante)
90
Méthode d’élimination bidirectionnelle
91
Méthode global
92
Evaluation globale de la régression
93
Evaluation globale de la régression
94
R2 ajustée
95
Sur-apprentissage
Sur-apprentissage (Overfitting) : un modèle trop spécialisé sur les données du Training Set et qui se
généralisera mal.
Scénarios:
l'algorithme d'apprentissage automatique utilise un ensemble de données d'apprentissage
beaucoup plus grand que l'ensemble de test
l'algorithme d'apprentissage automatique utilise trop de paramètres pour modéliser les données
d'entraînement
Figure: Sur-apprentissage
97
Sous-apprentissage
Le sous-apprentissage (Underfitting): le modèle prédictif généré lors de la phase d’apprentissage s’adapte mal
aux données d’entrainement.
Le coût d’erreur en phase d’apprentissage reste grand.
Le modèle prédictif ne se généralisera pas bien non plus sur les données qu’il n’a pas encore vu.
Le modèle souffre d’Underfitting il souffre d’un grand biais et d’une faible variance
Scénarios:
L'ensemble d'apprentissage comporte beaucoup moins d'observations
que de variables, cela peut entraîner des modèles d'apprentissage
automatique sous-ajustés
l'algorithme d'apprentissage automatique ne peut trouver aucune
relation entre les données d'entrée et la variable de sortie
Le modèle présuppose une hypothèse forte lors de sa modélisation.
Exemple: supposer que le prix d’un appartement est linéairement
corrélé à sa superficie la fonction de prédiction ne prend en compte
que la superficie de la maison comme variable d’entrée et la fonction de
prédiction sera sous forme d’une droite rigide.
modèle assez pauvre (car il ne prend en compte que la superficie)
et ne sera pas suffisant pour prédire précisément le prix d’un appartement Figure: Sous-apprentissage
dans la vie réelle.
98
Sous-apprentissage et sur-apprentissage
99
Régularisation
Objectif : éviter le sur-apprentissage c.-à-d. apprendre de l’échantillon de données d’apprentissage, mais pas
trop… (pas de sur dépendance)
Quelle principe? Accepter une légère augmentation du biais pour obtenir une réduction plus que proportionnelle
de la variance
Comment? Diriger (réguler) un peu plus fermement la modélisation en imposant des contraintes sur les
paramètres estimés de la régression (contraintes sur les valeurs que pourront prendre les âj dans leur ensemble
pour éviter qu’elles soient totalement erratiques)
le modèle sera plus performant puisqu’on diminue l’erreur de prédiction espérée
100
Régularisation
On parle de « shrinkage » (rétrécissement) : on rétrécit les plages de valeurs que peuvent prendre les paramètres
estimés.
Les variables xj doivent être centrées et réduites (zj ) pour éviter que les variables à forte variance aient trop d’influence
La variable cible y doit être centrée pour évacuer la constante de la régression (qui ne doit pas être pénalisée), la cible y
peut être éventuellement réduite aussi : nous travaillerons alors sur les paramètres βj
• (𝜏 → 0) βj → 0
• (𝜏→ +∞) βRidge = βMCO
102
Régression Ridge
La régression ridge peut être écrite, de manière totalement équivalente :
103
Régression Lasso
Quel intérêt par rapport à Ridge ? LASSO peut faire office de dispositif de sélection de variables en annulant certains
coefficients βj : les variables associées à (βj = 0) sont de facto exclues du modèle prédictif.
104