Régression Linéaire Simple
Régression Linéaire Simple
Régression Linéaire Simple
Régression linéaire
70
Plan du chapitre
71
Régression linéaire
Un algorithme d’apprentissage supervisé càd qu’à partir de la variable
cible ou de la variable à expliquer (la variable dépendante) (Y), le
modèle a pour but de faire une prédiction grâce à des variables
indépendantes dites explicatives (X) ou prédictives.
Un modèle de régression linéaire: un modèle de machine learning
dont la variable cible (Y) est quantitative tandis que la variable X peut
être quantitative ou qualitative.
Exemple: Prédire la valeur d’une maison en fonction de sa superficie,
sa localisation, la possibilité de parking ou non
72
Régression linéaire
Régression linéaire: un algorithme qui consiste à trouver une droite qui se
rapproche le plus possible d’un ensemble de points représentant les
données d’entraînement (Training Set).
Les points en orange: les données d’entraînement (input data), représentés par le couple
variables prédictives; valeurs observées (le prix d’une maison par exemple).
Trouver une droite tel que,
Trouver une droite qui soit le plus proche possible de tous les points de nos données
73
d’apprentissage.
Régression linéaire
Trouver une fonction dite de prédiction ou une fonction coût qui décrit la relation
entre X et Y c’est-à-dire qu’à partir de valeurs connues de X, on arrive à donner une
prédiction des valeurs de Y.
Exemple
74
Vérification graphique
Savoir si le modèle linéaire est convenable pour l’étude du phénomène.
Il semble approprié d’utiliser le modèle linéaire pour la première image et pas pour
la deuxième qui ne laisse transparaitre aucune tendance connue.
75
Modèle de la régression linéaire
76
Modèle de régression linéaire simple
Position du problème
Exemple de régression simple
Expliquer le rendement de maïs Y (en quintal) à partir de la quantité d'engrais
utilisé (en kilo) sur des parcelles de terrain similaires.
77
Modèle de régression linéaire simple
Exemple 2 de régression simple: valeur du salaire en fonction des années d’expérience
Exemple 3: Une entreprise veut mener une étude sur la relation entre les dépenses hebdomadaires en
publicité et le volume des ventes qu’elle réalise
78
Modèle de régression linéaire simple
79
Hypothèses
H1 : Hypothèses sur X et Y
• Ce sont des grandeurs numériques mesurées sans erreur.
• X est une donnée (exogène) dans le modèle, Y est aléatoire par l’intermédiaire de (càd la seule
erreur que l’on a sur Y provient des insuffisances de X à expliquer ses valeurs dans le modèle).
H2 : Hypothèses sur le terme aléatoire
• Les sont i.i.d. (indépendants et identiquement distribués)
• (H2.a) En moyenne les erreurs s’annulent
• (H2.b) La variance de l’erreur est constante et ne dépend pas de l’observation : homoscédasticité
.
• (H2.c) En particulier, l’erreur est indépendante de la variable exogène .
• (H2.d) Indépendance des erreurs, les erreurs relatives à 2 observations sont indépendantes (on
dit aussi que les erreurs « ne sont pas corrélées ») , j.
• (H2.e) suit une loi normale
80
Estimateur des moindres carrés ordinaires
(Ordinary least squares)
• Critère des moindres carrés : trouver les valeurs de a et b qui
minimise la somme des carrés des écarts entre les vraies valeurs de Y
et les valeurs prédites avec le modèle de prédiction.
81
Estimateur des moindres carrés ordinaires
(Ordinary least squares)
82