M13 PDF
M13 PDF
M13 PDF
RÉGRESSION
Louis Houde
Département de Mathématiques et d’informatique
Université du Québec à Trois-Rivières
13 Régression linéaire simple
La régression linéaire est une méthode de modélisation permettant d’établir une rela-
tion linéaire entre une variable continue dite "variable expliquée" ou dépendante et un
ensemble d’autres variables continues dites "variables explicatives" ou indépendantes.
Plus spécifiquement elle propose un modèle explicatif qui permet de prédire la variable
dépendante en fonction des variables indépendantes.
Ce module est consacrée à l’étude de la régression linéaire simple pour modéliser la re-
lation prédictive entre la variable dépendante et une seule variable indépendante. Cette
modélisation permet d’élaborer les concepts de base de la régression à plusieurs vari-
ables.
La régression peut servir à remplacer une variable difficile à observer par une autre
variable qui elle est relativement simple à mesurer. On peut penser au modèle qui prédit
le rendement d’une entreprise en fonction du taux de change pour le $US ou celui qui
donne le nombre d’hospitalisations dans une grande ville en fonction de la quantité de
smog. L’objectif est de prédire la valeur du rendement ou du nombre d’hospitalisations
si on connaît le taux de change ou la concentration de smog.
Elle peut aussi servir à comprendre les liens existants entre les variables pour établir
les principales causes d’un phénomène. C’est le lien entre les variables et la force de
ce lien qui sont d’intérêt. On peut penser à la relation entre la criminalité et le taux
de chômage dans les villes nord américaines ou la relation entre l’âge des travailleurs
et la productivité. Dans ces deux cas on ne veut pas prédire mais simplement vérifier
l’existance d’un lien.
On donne dans ces notes les différentes formules pour effectuer le calcul des coefficients
du modèle et pour faire des tests d’hypothèses. Ces calculs ne sont là que pour montrer
comment on en arrive à dériver le modèle. Pour des cas concrets on utilisera Excel qui
permet d’effectuer tous ces calculs sans trop de mal.
Objectifs et compétences
L’objectif de cette partie est de donner à l’étudiant les outils nécessaires pour modéliser
un problème de régression linéaire simple, calculer les différents paramètres et inter-
2 Chapter 13 Régression linéaire simple
Modèlisation déterministe
Considérons deux mesures continues, (x, y) sur une unité statistique. Pour un ensemble
de n unités statistiques on a :
(x1 , y1 ) , (x2 , y2 ) , . . . (xn , yn )
On veut construire une relation linéaire entre les mesures xi et yi . Le modèle linéaire
déterministe régissant ces deux variables est donné par l’équation suivante :
y = β0 + β1x
où les coefficients1 β 0 et β 1 sont respectivement l’ordonnée à l’origine et la pente de la
droite et c’est pour cette raison que l’on parle de modèle "linéaire".
La relation ainsi représentée est parfaite dans le sens que tous les points (xi , yi ) sont sur
la droite. De plus, ce modèle déterministe implique une relation inversible permettant
1
Les coefficients sont souvent représentés par la lettre grecque béta noté β.
Modèlisation déterministe 3
de déduire x si on connaît y:
1 β
y− 0
x=
β1 β1
C’est un modèle idéal pour lequel la connaissance d’une des deux variables donne toute
l’information nécessaire pour la deuxième. Il n’est malheureusement pas réaliste en
pratique.
Pour chaque valeur xi observée il y a une valeur yi qui est plus ou moins loin de la
relation parfaite et la différence, ei , est la distance entre la valeur de la droite β 0 + β 1 xi
et la valeur de yi c’est-à-dire la distance pour une valeur xi fixée entre l’idéal pour y et la
valeur observée. Le fait de considérer un écart dans le modèle en fonction de la variable
y est un choix arbitraire mais qui permet de simplifier les calculs. La question n’est pas
d’obtenir "la relation" entre x et y mais d’obtenir la "meilleure" droite permettant de lier
les deux variables observées.
Dans le but de définir la notion de "meilleure droite" on se base sur la distance moyenne
entre le modèle et chacun des points. La différence entre le modèle et l’observation pour
le point (xi , yi ) est donnée par ei : la distance étant prise comme le carré de la différence.
C’est un choix purement arbitraire dicté par la simplicité : le carré se travaille très bien
et une distance qui ne dépend que de x est plus simple à modéliser qu’une distance
tangentielle qui dépendrait des deux éléments en même temps (x et y).
b Sxy
β 1 =
P Sxx
où Sxy = i (xi − x) (yi − y).
2
La technique de la dérivée consiste à dériver la fonction par rapport à chacun des paramètres d’intérêt
puis d’égaler chacune de ces dérivées à 0. Cela forme un système avec autant d’équations que d’inconnues
qu’il suffit de solutionner pour obtenir le maximun ou le minimun de la fonction.
Modèlisation déterministe 5
yb = 3 + 100 × 255
= 25503
On utilise ici yb pour indiquer que c’est la valeur obtenue en fonction de la valeur de x et
des estimations des paramètres.
Ce modèle donne une prévision de y pour une valeur de x donnée mais on obtient aussi
"l’effet" d’un changement dans la valeur de x : si x augmente de 1 unité alors y augmente
de 100 unités.
et X
Sxy = (xi − x) (yi − y) = 715.8571
i
ainsi
b Sxy
β 1 = = 2. 094 0 × 10−3
Sxx
b
β = y−β b x = 4. 024 3
0 1
L’équation de régression est
yb = 4.024 + 0.002x
Selon ce modèle une entreprise ayant 200 employés devrait avoir un taux d’absentéisme
en % de
4.024 + 0.002(200) = 4. 424
De plus, une augmentation de 100 du nombre d’employés augmente de 0.002 ∗ 100 =
0.2 le taux (en %).
Remarque 13.1 Lorsque l’équation de régression est présentée il est possible de rem-
placer le "y " et le "x" par des noms qui font directement référence aux variables du
problème. Dans l’exemple précédant on peut, et c’est habituellement mieux, présenter
l’équation de régression sous la forme
Abs = 4.024 + 0.002Empl
Cette présentation permet de voir immédiatement la variable expliquée et la variable
explicative. Il est recommandé de prendre des noms cours pour les variables quitte à
donner une abréviation.
et ainsi
b 429740000
β 1 = = 0.668 54
642 800 000
b
β = 16960 − 0.668 54 ∗ 34 200 = −5904. 1
0
L’équation de régression devient
yb = −5904. 1 + 0.668 54 ∗ x
ce qui veut dire que pour un revenu de 20000 les dépenses estimées par ce modèle seront
de
−5904. 1 + 0.668 54 ∗ 20000 = 7466. 7
Mesure d’adéquation
Les paramètres étant estimés, l’étape suivante consiste à définir une mesure "raisonnable"
de l’adéquation du modèle en fonction des données. Pour établir cette mesure on con-
sidère la mesure y seule. Si on ne connaît pas x alors la variance de y, c’est-à-dire
1
P 2
l’incertitude liée à cette variable est donnée par sy = n−1 (yi − y) et notons SST =
(n − 1) s2y , soit la somme des carrés brute. On obtient alors
X 2
SST = (yi − y)
Si on ajoute et enlève la valeur de la droite théorique, cette somme peut se décomposer
en deux sommes de carrés3
X 2
X 2
(yi − y) = (yi − ybi + ybi − y)
X 2
X 2
= (byi − y) + (yi − ybi )
P 2
La deuxième partie de la formule est ebi c’est-à-dire la différence entre la valeur
observée de y et la valeur prédite par le modèle estimé. C’est en fait l’erreur par rapport
à ce qui est estimé donc ce qui reste à expliquer entre x et y. Notons
X X 2
SSerr = e2i = (yi − ybi )
Si SST représente la variations des données y et que SSerr représente la variation non
expliquée par x alors la différence
SSreg = SST − SSerr
est la réduction de l’incertitude à propos de y si on connaît x.
Remarque 13.2 Si un modèle colle parfaitement aux données alors tous les points
observés sont sur la droite estimée. Cela veut dire que SSerr = 0 puisqu’il n’y a aucun
écart entre une observation et la droite. On a alors que SSreg = SST et ainsi R2 = 1.
Cela veut dire que lorsque R2 est proche de 1 le modèle est bon.
Si par contre la valeur de R2 est proche de 0 cela veut dire que le fait d’observer x ne
réduit en rien l’incertitude sur la variable y et ainsi la modèlisation n’apporte aucune
information supplémentaire.
Exemple 13.3 ⋆⋆⋆En reprenant l’exemple des dépenses de carte de crédit, l’équation
de régression est
yb = −5904. 1 + 0.668 54 ∗ x
et on obtient le tableau suivant :
Dépenses Revenu Prévisions Dépenses
8900 21000 8135,220909
9400 25000 10809,39639
14500 30000 14152,11574
25400 45000 24180,2738
26600 50000 27522,99315
Remarque 13.3 Il se peut que la relation soit parfaite mais qu’elle ne soit pas linéaire.
Le coefficient R2 n’est plus un bon indicateur de l’adéquation comme dans l’exemple
Modèle aléatoire 9
suivant :
1000
800
600
y
400
200
0
-5 0 5 10 15 20
x
La relation est parfaite mais R2 = 0.68. Il faut toujours vérifier qu’on a une relation
linéaire ou presque linéaire avant d’interpréter le coefficient. Pour faire cette vérifica-
tion il suffit de produire le graphique y en fonction de x.
Modèle aléatoire
Dans le modèle aléatoire on considère l’erreur entre la valeur estimée par le modèle et
la valeur observée comme étant aléatoire donc pas fixée par les observations, celles-ci
sont simplement le résultat d’une réalisation particulière d’un processus aléatoire. Pour
une observation associée à une valeur xi l’équation de régression est donnée par
Yi = β 0 + β 1 xi + ei
où ei est une variable aléatoire de moyenne 0 et de variance σ 2 constante pour toutes les
valeurs de x.
On remarque que la variable dépendante est en majuscule puisque c’est une v.a. aléatoire
et que la variable indépendante est en minuscule parce qu’on suppose qu’elle est fixée
au départ (on observe Y selon une certaine valeur de x).
Dans ce modèle on suppose que les erreurs ont la même loi de probabilité et qu’elles
ne sont pas liées entre elles. Cela veut dire qu’une valeur forte pour l’erreur ne peut en
aucun cas influer sur l’erreur à l’observation suivante.
une certaine valeur x fixée. Selon la distribution des erreurs les valeurs observables
réellement seront plus ou moins éloignées de cette moyenne pour un x donné.
Les estimateurs des moindres carrés pour β 0 et β 1 tels que décrits dans la section précé-
dante sont les estimateurs de forme linéaire non biaisés les plus intéressants, c’est-à-dire
de variance minimale et sans biais4 .
La méthode des moindres carrés donne le même résultat que pour le modèle déterministe
: une réécriture des estimateurs en fonction des données aléatoires donne
βb = Y −β b x
0 1
b SxY
β 1 =
Sxx
où Y est une variable aléatoire.
Cela implique que les estimateurs βb et βb sont aussi des variables aléatoires donc
0 1
dépendants des échantillons qui seront choisis. Comme variables aléatoires elles ont
une moyenne, une variance et une loi de probabilité.
4
Il peut sembler naturel que les deux denières conditions soient respectées dans tous les cas mais ce n’est
pas toujours possibles. Il existe des modélisations pour lesquelles ces propriétés naturelles des estimateurs ne
peuvent être respectées.
Modèle aléatoire 11
En supposant que l’erreur est une v.a. normale, un intervalle de confiance de niveau
95% pour β 1 est donné par
β1 ∈ (0.8613 ± 0.784 52)
∈ (0.076 78, 1. 645 8)
Tests d’hypothèses
La loi des estimateurs donnée ci-haut permet aussi de construire un test d’hypothèses
pour confronter
H0 : βi = 0
H1 : β i 6= 0
pour i = 0 ou 1. Le test est de rejeter H0 si
b
β i
≥ tn−2;α/2
Sβb
i
Une autre façon de vérifier si la régression est significative est de regarder les sommes
de carrés permettant de diviser la variation observée sur la variable expliquée : sous
l’hypothèse nulle (H0 : β 1 = 0) les sommes de carrés SSreg et SSerr sont distribués
comme des Khi-deux et ainsi le rapport des carrés moyens est distribué comme une loi
de Fisher à 1 et n − 2 degrés de liberté. Le test est alors de rejeter l’hypothèse nulle si
CMreg
F = ≥ F1,n−2;α
CMerr
où F1,n−2;α est le point critique de niveau α pour une loi de Fisher à 1 et n − 2 degrés
de liberté et
CMreg = SSreg et CMerr = SSerr / (n − 2)
Les sommes de carrés et le test sont habituellement résumés dans un tableau ANOVA qui
contient les sommes de carrés, les degrés de liberté pour chaque composante, les carrés
moyens et la statistique F . Les logiciels statistiques ajoute une colonne donnant le seuil
de signification expérimental (p-value) permettant d’effectuer le test sans les tables de
Régression avec EXCEL 13
Dans le cas d’une régression simple il faut nécessairement que le degré de liberté asso-
ciés à la régression soit de 1, que celui lié à l’erreur soit n − 2 et que celui lié au total
soit n-1. Cela permet de s’assurer que le modèle de régression a bien une variable et que
toutes les observations ont bien été prise en compte.
Les logiciels d’analyse des données deviennent de plus en plus complexes et puisque
l’utilisateur n’a aucun contrôle réel sur les éléments pris en compte par l’ordinateur lors
du calcul, il est nécessaire de comprendre le plus d’éléments possibles de la sortie infor-
matique pour détecter d’éventuelles incompréhensions entre la machine et l’utilisateur....
Les degrés de liberté sont une façons de vérifier qu’il y a bien une variable dans le mod-
èle de régression et que toutes les données disponibles sont prises en compte.
Remarque 13.7 Le test pour vérifier si la régression est significative peut être effectué
sur le paramètre
σ xY
ρ=
σx σY
√ 2
où σ 2xY = E (x − x) Y − Y , σ x = sxx et σ 2Y = E Y − Y . Ce paramètre
est similaire à un coefficient de corrélation entre deux variables aléatoires mais dans le
contexte de la régression il faut se rappeler que la variable x est fixée.
La valeur R2 est une estimation du paramètre ρ2 .
Les logiciels statistiques permettent de faire les calculs de la régression simple avec une
grande efficacité et de plus, ils sont disponibles et d’une utilisation aisée. Les logiciels
donnent généralement les éléments suivants :
• le coefficient R2
• le tableau de l’analyse de la variance
• un tableau des coefficients β i avec les tests d’hypothèses associés.
Tous les logiciels donnent au moins ces résultats avec un peu plus dans certains cas et
beaucoup plus dans d’autres.
Une sortie classique donnée par EXCEL, outil "utilitaire d’analyse", est de la forme
RAPPORT DÉTAILLÉ
Statistiques de la régression
Coefficient de détermination multiple 0,06300437
Coefficient de détermination R^2 0,00396955
Coefficient de détermination R^2 -0,1067005
Erreur-type 12,9427281
Observations 11
ANALYSE DE VARIANCE
Degré de liberté Somme des carrés Moyenne des carrés F Valeur critique de F
Régression 1 6,00845666 6,00845666 0,03586834 0,853989935
Résidus 9 1507,627907 167,5142119
Total 10 1513,636364
Cette sortie n’est pas un exemple de limpidité et bien qu’elle soit destinée à un utilisateur
débutant, il y a certains cellules qui ne sont compréhensibles que par un utilisateur averti
: Il y a deux coefficients de détermination R2 et un coefficient dont le nom est sem-
blable mais il a généralement la désignation de "multiple" dans la majorité des logiciels
statistiques.
Dans le cas présent le coefficeint R2 qui nous intéresse se trouve à être le premier "co-
efficient de détermination multiple R ^2". La première ligne est simplement le R, soit
l’estimation de ρ, tandis que la troisième ligne est un coefficient R2 ajusté. Ce dernier
n’est utile que lorsqu’il y a plusieurs variables explicatives (x) dans le modèle.
La deuxième partie donne le tableau d’analyse de la variance tel que défini ci-haut et
Régression avec EXCEL 15
finalement la dernière partie donne les coefficients, l’écart type des coefficients (donné
ci-haut), la valeur de la statistique utilisée pour faire le test, le α
b correspondant à ce test
(rejeter β i si α
b ≤ α).
Le dernier tableau donne aussi les bornes des intervalles de confiance de niveau 95%
pour chacun des coefficients mais il a été omis dans cette sortie d’Excel pour ne pas trop
surcharger la page.
Tests d’hypothèses
Il y a 3 tests possibles pour une régression linéaire simple (une seule variable explicative)
;
• un test pour le coefficient β 1 par la table de l’analyse de la variance,
• un pour le coefficient β 1 basé sur la loi de Student
• un pour le coefficient β 0 .
Les deux premiers tests sont équivalents s’il n’y a qu’une variable dans l’équation (les
seuils de signification empirique doivent être égaux) tandis que le dernier sert à vérifier
si une relation passe par le point (0,0).
Remarque 13.8 Il peut sembler étonnant de proposer deux tests identiques pour véri-
fier si la régression est "significative" mais cela se comprend mieux si on considère que
la régression linéaire simple est un cas particulier de la régression linéaire où il y a
plusieurs variables x pour expliquer la variable y . Dans un tel contexte les tests ne sont
pas équivalents.
Test ANOVA
Le seuil de signification empirique pour faire le test est donné dans la table de l’analyse
de la variance et il est valide aux conditions suivantes :
• Les résidus sont normaux (à tout le moins une distribution symétrique sans valeurs
aberrantes)
16 Chapter 13 Régression linéaire simple
Pour vérifier ces conditions il faut faire l’analyse des résidus avec un diagramme en
rectangle (Box-plot) et un graphique des points. Une variance non constante est illustrée
par l’exemple suivant :
On remarque que pour des petites valeurs de x la variance autour de la droite de régres-
sion (ligne rouge) est assez faible mais plus x devint grand, plus la variance des écarts
devient grande.
Le diagramme en rectangle permet de bien cibler les valeurs aberrantes et extrêmes qui
pourraient invalider la première hypothèse.
Exemple 13.5 ⋆Si on reprend l’exemple des dépenses sur les cartes de crédit avec un
niveau de 5% pour tester les hypothèses, on observe le tableau d’analyse de la variance
suivant sur EXCEL
ANALYSE DE VARIANCE
Degré de liberté Somme des carrés Moyenne des carrés F Valeur critique de F
Régression 1 287300042,9 287300042,9 171,285271 0,000963468
Résidus 3 5031957,063 1677319,021
Total 4 292332000
Il est assez difficile de dire si la variance est constante selon le graphique des points
Régression avec EXCEL 17
Dépenses
20000
10000 Dépenses
Prévisions Dépenses
0
0 20000 40000
Revenu 60000
Il n’y a certainement aucune indication d’une variance non constante dans les résidus.
Le test sur β 1 permet de vérifier si la variable associé (x) est présente dans l’équation de
régression. Les hypothèses statistiques sont
H0 : β1 = 0
H1 : β 1 6= 0
c’est-à-dire H0 : la pente de la droite est 0 donc aucune influence de la variable x contre
H1 : la pente est différente de 0 donc qu’il y a une influence de la variable x sur la
prédiction de la variable y.
On remarquera que dans le cas d’une régression simple, le seuil de signification em-
pirique pour les hypothèses sur le coefficient β 1 est toujours le même que le seuil de
signification empirique par la table ANOVA. De plus, on remarquera que la statistique
pour tester les hypothèses sur β 1 par le test de Student est exactement la racine de la
statistique F de la table de l’analyse de la variance.
Test sur β 0
Dans d’autres cas ce paramètre n’est pas explicable: il est possible de lier le revenu par
habitant d’un pays au % de la main d’oeuvre dans le secteur de l’agriculture. Or de
vérifier si le fait de ne pas avoir d’agriculture dans un pays (0 pour le %AGR) implique
0 de PCINC5 n’est pas informatif.
Dans le cas de l’analyse des ventes par employés on obtient la sortie EXCEL suivante :
RAPPORT DÉTAILLÉ
Statistiques de la régression
Coefficient de détermination multiple 0,793475763
Coefficient de détermination R^2 0,629603787
Coefficient de détermination R^2 0,607815774
Erreur-type 11,46798749
Observations 19
ANALYSE DE VARIANCE
Degré de liberté Somme des carrés Moyenne des carrés F Valeur critique de F
Régression 1 3800,354731 3800,354731 28,8967975 5,03317E-05
Résidus 17 2235,750532 131,5147372
Total 18 6036,105263
Selon la sortie et avec un niveau de 5% on peut dire que le modèle de régression est
α = 0.00005) et que le coefficient β 0 est significatif à 5% puisque α
significatif (b b =
0.034. Cela veut dire que le modèle ne peut rendre compte des valeurs près ce 0.
Remarque 13.9 Il existe des modèles qui sont linéaire sur une portion des valeurs
mais pas sur la totalité. Cela explique les modèles, comme le précédant, qui n’est pas
conséquent pour la valeur x = 0.
Exemple 13.6 ⋆Dans une grande entreprise on cherche à savoir si un test d’aptitude
à la gestion permet de bien prédire la performance d’un cadre dans un poste de direc-
tion. Chaque cadre a été soumis à un test d’aptitude avant sa promotion et après 2
ans un questionnaire a été rempli par les employés sous sa direction. On a observé les
5
Per Capitae INCom
Régression avec EXCEL 19
résultats suivants :
RAPPORT DÉTAILLÉ
Statistiques de la régression
Coefficient de détermination multiple 0,409915661
Coefficient de détermination R^2 0,168030849
Coefficient de détermination R^2 0,126432391
Erreur-type 7,487926834
Observations 22
ANALYSE DE VARIANCE
Degré de liberté Somme des carrés Moyenne des carrés F Valeur critique de F
Régression 1 226,4826711 226,4826711 4,03935287 0,058135128
Résidus 20 1121,380965 56,06904826
Total 21 1347,863636
Au niveau 5% on rejette l’hypothèse d’un lien entre ces deux variables donc il n’y a
pas de lien entre les deux variables et l’analyse de l’équation de régression est non
opportune.
Exemple 13.7 ⋆Un cadre veut évaluer le lien entre le nombre de subalternes et le
salaire. Il observe
Salaire K$ 56 76 85 56 55 75 88 82 69 60 77
Nb subalternes 2 5 5 10 6 7 2 19 11 8 7
Que peut-on dire sur la relation au niveau 5% ?
Une analyse par EXCEL donne la sortie suivante
RAPPORT DÉTAILLÉ
Statistiques de la régression
Coefficient de détermination multiple 0,06300437
Coefficient de détermination R^2 0,00396955
Coefficient de détermination R^2 -0,1067005
Erreur-type 12,9427281
Observations 11
ANALYSE DE VARIANCE
Degré de liberté Somme des carrés Moyenne des carrés F Valeur critique de F
Régression 1 6,00845666 6,00845666 0,03586834 0,853989935
Résidus 9 1507,627907 167,5142119
Total 10 1513,636364
Au niveau 5% on peut dire qu’il n’y a pas de relation linéaire entre le nombre de subal-
ternes et le salaire.
Or un test d’hypothèse sur β 1 au niveau 5% rejette l’hypothèse H0 et on doit conclure
que la relation linéaire n’existe pas.
20 Chapter 13 Régression linéaire simple
Une analyse des résidus par EXCEL donne les valeurs suivantes :
ANALYSE DES RÉSIDUS
160
140
120
100
Score
Score
80
Prévisions Score
60
40
20
0
0 10 20 30 40
Appréciation
Exemples
On veut lier le prix de vente des maisons en centaine de $ en fonction des taxes annuelles
en $. Le but est de faire des prévisions sur le prix des maisons si on connaît la valeur
des taxes. L’équation du modèle est
Y = β0 + β1x
où Y est le prix de vente de la maison et x est la valeur des taxes.
Régression avec EXCEL 21
Statistiques de la régression
Coefficient de détermination multiple 0,875664739
Coefficient de détermination R^2 0,766788735
Coefficient de détermination R^2 0,764567675
Erreur-type 186,3175401
Observations 107
ANALYSE DE VARIANCE
Degré de liberté Somme des carrés Moyenne des carrés F Valeur critique de F
Régression 1 11984584,5 11984584,5 345,2355407 5,67019E-35
Résidus 105 3644993,705 34714,22576
Total 106 15629578,21
On observe un modèle qui est significatif (on rejette H0 : β 1 = 0 au niveau 5%) puisque
le seuil de signification empirique est de 5.67E-35. Le coefficient de détermination R2
est de 77% c’est-à-dire que la relation est forte.
Les conditions d’application sont respectées puisque le diagramme en boîte est relative-
ment symétrique et qu’il n’y a pas de valeurs aberrantes :
Résidus
6
Les données sont disponibles sur le portail de cours sous "Albuquerque"
22 Chapter 13 Régression linéaire simple
Il semble cependant que la variance augmente légèrement lorsque les taxes augmentent
TAX Courbe de régression
2500
2000
1500
PRICE
PRICE
Prévisions PRICE
1000
500
0
0 500 1000 1500 2000
TAX
Les grandes villes utilisent souvent des sous-contractants pour la collecte de l’argent
des parcomètres. Dans le but de valider les montants qui sont recoltés (Contr), la
ville garde quelques parcomètres qui sont vidés par ses propres employés (V ille). Cela
permet d’estimer le montant que le sous-contractant devra verser à la ville7 .
Statistiques de la régression
Coefficient de détermination multiple 0,651703623
Coefficient de détermination R^2 0,424717613
Coefficient de détermination R^2 0,411643013
Erreur-type 182890,213
Observations 46
ANALYSE DE VARIANCE
Degré de liberté Somme des carrés Moyenne des carrés F Valeur critique de F
Régression 1 1,08656E+12 1,08656E+12 32,4841771 9,31291E-07
Résidus 44 1,47175E+12 33448830008
Total 45 2,55831E+12
7
Les données sont disponible sur le portail de cours sous "parko"
Régression avec EXCEL 23
Les conditions d’application des tests sont respectées selon le diagramme en boîte et le
graphique des points :
Résidus
2100000
1900000
1700000
1500000
Contrat
Contrat
1300000
Prévisions Contrat
1100000
900000
700000
500000
4000 5000 6000 7000 8000 9000
Ville
Un publicitaire veut vérifier si les campagnes de publicité pour les films sont efficaces. Il
note les dépenses de publicité en millier $ et les recettes pour le film en millier d’entrées
:
VENTES PUB
164 34
198 36
85 32
179 29
168 45
201 67
98 76
197 75
197 75
209 78
100 72
216 75
223 78
245 81
119 84
260 83
298 89
309 82
124 81
267 83
24 Chapter 13 Régression linéaire simple
Statistiques de la régression
Coefficient de détermination multiple 0,400542526
Coefficient de détermination R^2 0,160434315
Coefficient de détermination R^2 0,113791777
Erreur-type 61,1586794
Observations 20
ANALYSE DE VARIANCE
Degré de liberté Somme des carrés Moyenne des carrés F Valeur critique de F
Régression 1 12865,63682 12865,63682 3,439656622 0,080105841
Résidus 18 67326,91318 3740,384066
Total 19 80192,55
Résidus
350
300
250 VENTES
VENTES
200
150 Prévisions
100 VENTES
50
0
0 50 100
PUB
Résumé
Le modèle de régression linéaire simple permet de mettre en relation une variable ex-
pliquée, y et une variable explicative, x via l’équation y = β 0 + β 1 x.
Pour déterminer les coefficients on utilise Excel : le tableau des coefficients donnent β 0
sous "constante" et β 1 sous le nom de la variable explicative.
Résumé 25
Pour vérifier si la régression est significative il faut faire un test avec le niveau choisit
sur le coefficient ρ ou sur β 1 ce qui donne exactement le même résultat.