Statistique Avec Spss Livre
Statistique Avec Spss Livre
Statistique Avec Spss Livre
OBJECTIFS
L'objectif de ce cours est de permettre aux tudiants d'HEC en Formation Fondamentale de
comprendre les principes de base des mthodes statistiques utilises dans les entreprises et
den apprhender les limites.
Les donnes utiles une entreprise tant de plus en plus nombreuses, il est ncessaire de les
recueillir par des mthodes "fiables", pour pouvoir en tirer des conclusions sur l'ensemble de
la population :
Sondages
Infrence statistique : Estimation et Tests
CONTENU DU COURS
Les thmes suivants seront traits lors de ce cours
Statistiques descriptive
Concepts de base : population, units statistiques, variables statistiques
Etude d'une variable : Rsums statistiques (tendance centrale, dispersion),
reprsentations graphiques (histogrammes, boites moustaches, courbe Q-Q)
Etude de deux variables : liaison( tude graphique), tableaux croiss, indicateurs de
liaison entre deux variables (covariance, corrlation)
Infrence statistique
Sondage, chantillon
Estimation d'un paramtre : estimation ponctuelle, prcision, estimation par intervalle,
taille d'un chantillon
Test statistiques : les hypothses et les erreurs, tests de comparaison bilatral et
unilatral.
La rgression linaire
Notion de modle statistique
Hypothses du modle de la rgression linaire
Estimation des coefficients
Tests du modle (Fisher global, Student et Fisher partiel)
Construction et validation d'un modle
METHODES PEDAGOGIQUES
La prsentation des diffrentes mthodes s'effectue deux niveaux :
Thorique
Il est important de connatre le modle mathmatique formant l'hypothse de travail. La
diversit des origines des tudiants HEC nous impose de limiter au minimum, et donc
l'essentiel, l'tude des bases mathmatiques des modles. Prcisons cependant que cette
restriction ne nous parat pas tre un handicap l'utilisation des mthodes quantitatives en
gestion. L'objectif du cours tant plus de permettre de futurs gestionnaires de dialoguer avec
des spcialistes que de former des experts.
Pratique
Chaque mthode est illustre par des exercices prpars par les tudiants, nous utiliserons le
logiciel SPSS (Statistical Package for Social Sciences), disponible sur le Campus. Deux
sances de travaux pratiques seront consacres la pratique de ce logiciel. Un cas final sera
remettre par groupe de 5 tudiants au maximum.
Il est recommand aux tudiants d'installer ce logiciel sur leur ordinateur (se renseigner
auprs des Moyens Informatiques du Campus).
PROJET STATISTIQUE
Pour le projet SPSS remettre, il est impratif de rdiger un rapport professionnel, tant
au niveau de la forme que du fond. Votre travail doit tre soign et approfondi. Un des
objectifs du cours est lapprentissage du logiciel SPSS. Il est donc obligatoire de
travailler le cas avec ce logiciel.
Site WEB
Les documents du cours et les fichiers de donnes sont disponibles sur le site :
www.hec.fr/mauffrey
la rubrique Statistique.
Table des matires
1. STATISTIQUES DESCRIPTIVES.............................................................................................. 5
2. SONDAGE-ESTIMATION......................................................................................................... 15
8.1. Rgression simple : Prix des forfaits de ski (Forfait.sav) .................................................... 100
8.2. L'entreprise Elec (Elec.sav).................................................................................................... 103
8.3. Les stylos Runild (Runild.sav) ............................................................................................... 112
8.4. Produits frais (fichier pfrais.xls)............................................................................................ 120
Statistiques descriptives
1. STATISTIQUES DESCRIPTIVES
1.1.Vocabulaire de la statistique
Population
La population P est l'ensemble des lments (objets, personnes .) satisfaisant une
dfinition commune auxquels on s'intresse au cours d'une tude.
Chaque lment de la population est appel unit statistique ou individu.
On notera N la taille de cette population (cette taille n'est pas toujours connue avec
exactitude)
Exemples :
1 Ensemble des Franais se connectant au moins une heure par jour Internet.
2 Ensemble des comptes clients d'une entreprise
3 Ensemble des consommateurs achetant des produits frais en hypermarch.
Variables
Une variable statistique X est une application qui chaque individu ou unit statistique
associe une valeur prise dans un ensemble E . Cette valeur peut tre numrique ou non.
Suivant la nature de l'ensemble E , on distingue trois types de variables statistiques :
Les variables quantitatives associes une caractristique mesurable de la population,
dans ce cas l'ensemble E est un sous ensemble de l'ensemble des nombre rels, par
exemple l'ge, le montant d'une facture, le temps de connexion etc
Les variables qualitatives qui permettent d'organiser la population en classe, par
exemple la profession, le fait d'acheter sur internet, la marque du produit achet, la
satisfaction du consommateur, les tranches d'ge etc On fait parfois la distinction
entre les variables qualitatives nominales o les classes sont sans hirarchie (CSP,
dpartement,) et les variables qualitatives ordinales pour les quelles les classes
adjacentes peuvent tre regroupes (tranches d'ge, degr de satisfaction..).
La valeur prise par la variable X pour l'individu i sera note x i .
Paramtre
Un paramtre est une valeur numrique associe une population P et une variable X . La
valeur de ce paramtre est calcule partir des N valeurs prises par la variable X :
= f ( x1 , x 2 ,K , x N )
Pour connatre la valeur d'un paramtre, il faut donc connaitre chacune des valeurs prises par
la variable.
Exemples :
Temps moyen pass sur les sites de recherche
Page 5
Statistiques descriptives
Page 6
Statistiques descriptives
Variable qualitative
Une variable qualitative partageant la population (ou la sous population) en classes, le rsum
que l'on va obtenir est constitu de l'effectif ce ces classes et de leur pourcentage par rapport
la population (ou sous population) totale.
Dans le cas d'une variable qualitative ordinale, les pourcentages cumuls peuvent avoir un
sens si l'on regroupe des catgories voisines (par exemple tranches d'ges ou degr de
satisfaction).
Voici un exemple de rsum fourni par SPSS, pour la variable qualitative Marque du fichier
Pfrais.sav :
MARQUE
Pourcentage Pourcentage
Effectifs Pourcentage valide cumul
Variable quantitative
Le rsum pour une variable qualitative est plus complet, car il doit ventuellement donner
des indications sur la loi de probabilit sous-jacente ces donnes, en statistique en effet de
Page 7
Statistiques descriptives
nombreuses mthodes supposent des hypothses sur cette loi. Nous ne verrons ici qu'une
partie de ces indicateurs. Nous noterons N la taille de la population ou sous population et X
la variable quantitative.
Indicateurs de dispersion
L'indicateur de dispersion le plus simple est donn par la valeur la plus petite et la valeur la
plus grande. La diffrence entre ces deux valeurs s'appelle l'tendue :
etendue = max
min .
Les autres indicateurs de dispersion sont lis aux indicateurs de position centrale.
A la moyenne est associ l'cart-type qui est la racine carr de la distance moyenne au
carr, appele variance :
1 N
V = ( x i )2 et l' cart - type = V
N i =1
A la mdiane on pourrait associer de faon "naturelle" l'cart absolu moyen dfini par
1 N
e= xi m
N i =1
mais on prfre utiliser les quartiles, dciles ou centiles qui partagent respectivement
les donnes en quatre, dix ou cent parties ayant le mme nombre d'lments.
L'intervalle interquartile est la diffrence entre le premier et le troisime quartile.
Page 8
Statistiques descriptives
Voici un exemple (fichier Forfait.sav) de rsum fourni par SPSS (l'tendue tant nomme
plage ou intervalle) :
Statistiques
Km
N Valide 42
Manquante 0
Moyenne 128,10
Mdiane 120,00
Ecart-type 54,134
Variance 2930,479
Intervalle 233
Minimum 32
Maximum 265
Centiles 25 89,50
50 120,00
75 152,50
Les reprsentations associes aux variables qualitatives permettent de visualiser ces rsums
et de se faire une ide de la distribution thorique que l'on pourrait associer cette variable,
dans les cas les plus frquents on cherchera voir si cette distribution peut suivre une loi
normale. En dehors des histogrammes bien connus, nous prsenterons ici les boites
moustaches (Box Plot) et les diagrammes Q-Q (Q-Q Plot).
Boite moustaches
Une boite moustache est une reprsentation associe au rsum mdiane-quartiles, la boite
(rectangle) reprsente le premier et le troisime quartile avec un trait pour la mdiane, les
moustaches (traits verticaux) reprsentent (aux donnes exceptionnelles prs outliers) le
minimum et le maximum. Ces moustaches sont limites 1,5 fois la distance interquartile.
Page 9
Statistiques descriptives
Ici deux stations ont un domaine skiable "anormalement" tendu, mais pour le reste la boite
est assez symtrique et l'hypothse de normalit pour la lois sous jacente ne parat pas
absurde.
Diagramme Q-Q
L'ide d'un diagramme Q-Q est de comparer les percentiles des observations avec les
percentiles d'une loi thorique. Nous ne traiterons que le cas de la loi normale centre rduite,
le cas gnral tant facilement comprhensible.
Dans un premier temps les donnes sont rduites, c'est--dire que l'on soustrait la moyenne
aux observations et on divise par l'cart-type, la nouvelle variable est donc dfinie par :
X
X1 =
Les N donnes sont ensuite ordonnes par ordre croissant, la valeur de la premire
0 ,5
observation est alors compare au percentile de la loi normale centre rduite, la seconde
N
1,5 N 0 ,5
au percentile etc.. la dernire au percentile . On reprsente alors graphique cette
N N
comparaison en mettant en abscisse les valeurs observes et en ordonnes les valeurs
thoriques. Si l'ajustement la loi normale tait parfait les points seraient aligns sur la
diagonale.
Sur notre exemple on obtient le graphique suivant :
L'ajustement est correct, bien que l'on retrouve les valeurs extrmes en queue de distribution
(Figure 1) mais bien meilleurs aprs limination des valeurs loignes (Figure 2)
Page 10
Statistiques descriptives
Variables quantitatives
L'indicateur de liaison entre deux variables quantitative est la corrlation. Cet indicateur est
calcul partir de la covariance :
N
cov ( X , Y ) = (x X )( y i Y )
1
i
N i =1
(x i X )( y i Y )
(X ,Y ) =
1 i =1
N X Y
Cette corrlation est toujours comprise entre -1 et 1. La liaison entre les variables est d'autant
plus forte que la valeur absolue est proche de 1.
Une corrlation positive indique une variation moyenne dans le mme sens des deux
variables, une corrlation ngative une variation moyenne en sens inverse.
Remarque : cette corrlation n'est un indicateur que d'une liaison linaire entre les variables
(cf infra). Une corrlation nulle n'indique pas une absence de liaison entre les variables.
La reprsentation graphique associe est le diagramme cartsien :
Page 11
Statistiques descriptives
Descriptives
Priode Statistique Erreur standard
PIB en $ 1 Moyenne 38133,33 4411,160
Mdiane 32100,00
Variance 1,751E8
Ecart-type 13233,480
Intervalle interquartile 9300
2 Moyenne 28600,00 2409,841
Mdiane 29800,00
Variance 3,484E7
Ecart-type 5902,881
Intervalle interquartile 10850
3 Moyenne 17600,00 1352,495
Mdiane 17850,00
Variance 2,195E7
Ecart-type 4685,180
Intervalle interquartile 7200
On constate que les moyennes et mdianes sont trs diffrentes pour la priode postrieure
2000, ce que l'on peut vrifier en demandant un graphique de bote moustaches :
Page 12
Statistiques descriptives
Variables qualitatives
On testera ici l'"indpendance" de deux variables qualitatives. Comme en probabilit, mais ici
les variables statistiques ne sont pas des variables alatoires, on dira que deux variables sont
indpendantes si les rpartitions de la variables X selon les modalit de la variable Y sont
les mmes quelque soit la modalit de X prise en compte (et bien sur rciproquement si les
rpartition de la variable Y selon les modalits de la variable X sont les mmes quelque soit
la modalit de Y prise en compte). Comme les effectifs de chaque modalit ne sont pas
identiques pour que cette dfinition est un sens il faut raisonner en frquence, on doit donc
avoir en cas d'indpendance (en notant f i , j la frquence dans la population de la prsence
simultane des modalits i et j :
Ni N j
f i , j = f i f j soit en effectifs N i , j =
N
Comme rsum numrique on donnera le tableau crois, en mettant en ligne les modalits de
X et en colonne les modalits de Y, chaque cellule du tableau contenant l'effectif rel
(constat) ainsi que l'effectif calcul en cas d'indpendance not effectif thorique.
Exemple (fichier pfrais.sav) relation entre marque et rgion :
REGION
Marque 2 Effectif 2 4 4 2 6 18
Marque 3 Effectif 2 2 1 4 1 10
Marque 4 Effectif 2 2 2 6 0 12
Total Effectif 9 8 9 13 10 49
Remarquons qu'un tel tableau est difficile interprter puisque les carts se rpercutent sur
plusieurs cellules (cf test du Khi-2).
Page 13
Statistiques descriptives
Page 14
Estimation
2. SONDAGE-ESTIMATION
2.1.Un exemple.
Monsieur Martin, chef de produit dune voiture de moyenne gamme, lance depuis trois ans,
veut savoir si la promotion quil a mis en place pour les rvisions annuelles a eu un impact sur
les clients.
Dordinaire 60% des clients font leurs rvisions annuelles chez les concessionnaires, il
aimerait avoir une ide de la proportion des utilisateurs du modle qui ont fait leur rvision
chez un garagiste du rseau ; malheureusement son budget ne lui permet de faire des
interviews de tous les clients ayant achet un vhicule depuis plus dun an (au nombre de
42 612 pour les deux annes) et il ne pourra demander un institut de marketing tlphonique
que dinterroger 500 personnes.
Monsieur Martin se demande comment va procder linstitut et quelle est la fiabilit du
rsultat obtenu, non pas sur les 500 personnes mais sur lensemble des clients. Il aimerait par
la mme occasion savoir quel kilomtrage parcourt environ un client type par an pour pouvoir
affiner son offre.
Posons le problme de Monsieur Martin en termes statistiques. Monsieur Martin sintresse
une population prcise, les personnes ayant achet une voiture du modle donn depuis plus
dun an, et layant gard ; en fait pour le kilomtrage la population nest pas la mme, cest
seulement les clients ayant cette voiture depuis plus dun an. Nous noterons P cette
population.
Sur cette population deux variables statistiques concernent Monsieur Martin, une variable
qualitative savoir le lieu o le client a fait sa dernire rvision variable que nous noterons X,
une variable quantitative le nombre de kilomtres parcourus en 1 an que nous noterons Y.
Prsentation mathmatique
Nous noterons N la taille de la population.
La variable qualitative X, tant deux modalits (rvision chez le concessionnaire ou non),
peut tre considre comme une variable valeurs dans {0 ;1}, 1 signifiant que la rvision est
faite chez le concessionnaire :
X {0;1}
P
Le paramtre qui nous intresse, le pourcentage de clients faisant leur rvision chez le
concessionnaire, peut sexprimer facilement en fonction de cette variable :
N
X (i )
1
p=
N i =1
Page 15
Estimation
Les paramtres qui peuvent tre intressants sur cette variable sont la moyenne et la variance
(ou sa racine carre lcart type) de cette variable :
N
= 1 Y (i )
N i =1
N
= 1 (Y (i ) )2
N i =1
Lcart type donne une indication sur la dispersion des valeurs prises par la variable Y, mais
jouera aussi un rle sur les moyennes prises sur les chantillons, comme nous le verrons plus
loin.
Paramtres de la population.
Dans le fichier Martin.sav, vous trouverez le tableau statistique relatif ces populations et
ces variables, nous connaissons ces donnes, mais malheureusement pour lui Monsieur Martin
ny a pas accs.
Ce fichier contient 42540 donnes, la premire colonne contient le nombre de kilomtre
parcouru dans lanne, la deuxime colonne le fait que le client aie fait sa rvision chez un
concessionnaire ou non.
Nous pouvons obtenir des rsultats exacts sur la population (analyse descriptive de SPSS)
pour les deux variables qui nous intressent (mais Monsieur Martin lui ne les aura pas) :
Statistiques descriptives
Remarquons tout dabord que Monsieur Martin fait une premire erreur, il croit connatre le
nombre des clients, mais en fait un certain nombre dentre eux ont revendu ou cass leur
voiture et le fichier client ne peut pas tre rellement jour ; cela peut le conduire sous
estimer le cot de son enqute car pour obtenir 500 rponses (mme en supposant que toute
personne interroge veut bien rpondre), il faudra contacter plus de 500 personnes. Cest pour
cela que le fichier de donnes fourni ne contient que 42540 clients (cellule nomme Taille).
Les donnes relatives au kilomtrage se trouvent dans la premire colonne, celles relatives
la rvision dans la deuxime, et pour les donnes concernant la rvision, nous avons not 1 le
fait de faire la rvision chez un concessionnaire, 0 sinon ; avec des tiquettes affichant
respectivement Oui ou Non.
Page 16
Estimation
Page 17
Estimation
Prsentation mathmatique
Le tirage alatoire simple consiste, tout dabord, munir la population P dune loi de
probabilit uniforme, cest dire que chaque individu a la mme probabilit 1 dtre tir.
N
Les deux variables statistiques deviennent alors des variables alatoires, prcisons les deux
cas que nous trouvons ici.
La variable qualitative X, ne prend que deux valeurs 0 et 1, la valeur 1 ne peut tre prise que
par les clients allant faire leur rvision chez le concessionnaire, cest dire que cette valeur
une probabilit p dtre tire, on a donc faire une variable de Bernouilli de paramtre p,
dont lesprance est p et lcart-type p(1 p ) .
La variable quantitative Y, prend un grand nombre de valeurs distinctes, on peut la considrer
comme une variable alatoire continue, trs frquemment on fera lhypothse que cette
variable quantitative peut tre considre comme une approximation dune variable suivant
une loi normale de paramtre et : N(, ) .
Dans le cas de tirage avec remise, un chantillon individu est un lment de Pn, un chantillon
image pour les valeurs de la rvision est un lment de {0;1}n , pour le kilomtrage un lment
Pn
(Y Y ,...,Y )
1, 2
R n
n
Page 18
Estimation
Il apparait une variable filter_$ qui indique si lobservation est choisie dans lchantillon
(valeur 1) ou non. Les observations cartes sont barres. On obtient ainsi 500
observations qui pourront tre utilises pour lanalyse.
2.3.Estimation Estimateur
Gnralits
Une fois que notre chantillon est obtenu, il nous faut prvoir les rsultats sur lensemble de la
population, cest dire extrapoler des valeurs calcules sur lchantillon comme valeurs des
paramtres sur la population. Bien videmment, cette valeur calcule sur lchantillon va
dpendre de lchantillon que nous aurons tir, nous appellerons estimation (ou estimation
ponctuelle) cette valeur. Cette estimation est donc le rsultat de lapplication dune formule,
dune fonction sur lchantillon, cette fonction sappelle lestimateur.
Aspects mathmatiques
Soit donc X une variable statistique dfinie sur une population P (ici soit la variable X
caractristique de la rvision, soit la variable Y lie au kilomtrage), soit un paramtre de
cette variable. On appelle estimateur du paramtre sur un chantillon de taille n, une
application note n :
P n
n R
Page 19
Estimation
et on appellera estimation la valeur prise par cette fonction sur un chantillon particulier. Dun
point de vue mathmatique, lestimation na en soi que peu dintrt, alors que pour
lutilisateur cest le plus important ; mais ce sont les proprits de lestimateur qui sont
intressantes et qui vont garantir la fiabilit de lestimation.
Les deux proprits intressantes pour un estimateur sont :
o Etre non biais, cest dire que les valeurs prises par lestimation se rpartissent
autour de la vraie valeur du paramtre, et ne sont pas systmatiquement trop
( )
grandes ou trop petites, mathmatiquement ceci sexprimera par E n = , pour
tout n.
o Etre consistant, ceci signifie que plus la taille de lchantillon est grande, meilleur
est lestimation, cest dire quelle a moins de chances dtre loigne de la
vraie valeur, ceci se traduit mathmatiquement par le fait que la variance de
lestimateur diminue quand la taille n de lchantillon augmente, de faon plus
prcise on dira que lestimateur est convergent (dans le cas dun estimateur non
biais) si lim Var(n)=0 .
n
X + X 2 +...+ X n 1 n
Xn= 1 = Xi
n n i =1
Puisque les variables Xi sont toutes de mme loi et que lesprance mathmatique est linaire,
il vient immdiatement :
( ) n
( )
E X n = 1 E X i = E( X )
n i =1
Page 20
Estimation
( ) n
( )
Var X n = 12 Var X i =
n i =1
nVar(X) Var(X)
n2
=
n
Estimation de la variance
Il peut sembler naturel destimer la variance de la population par la variance de lchantillon ;
cependant comme dans ce cas on ne centrerait pas les observations par rapport la vraie
moyenne (celle de la population) mais par rapport la moyenne de lchantillon, on aura
certainement un biais, on aura mme certainement tendance sous estimer la valeur relle de
la variance de la population. Il est facile de dmontrer (voir ci-dessous) quun estimateur non
biais de la variance est donn par la formule :
( )
n 2
n1
Sn2 = 1 Xi Xn
i =1
cest dire quau lieu de diviser la somme des carrs par n, taille de lchantillon, il faut
diviser cette somme par n-1. Lestimation est alors :
( )
n 2
n1
o Pour une variable quantitative sn2 = 1 xi xn
i =1
( )
n 2
Soit donc Vn = 1 X i X n la variable alatoire qui permet de calculer la variance de
n i =1
lchantillon.
Comme les variables X i et X n ont mme moyenne , nous pouvons crire que
( 2
) ( (2
) ( ) ( )
E X i X n = E X i X n =Var X i +Var X n 2Cov X i , X n
( )
Page 21
Estimation
( ) 1
En notant 2 la variance commune des X i nous avons vu que Var X n = 2 , il ne nous
n
reste plus qu calculer la covariance de X i et X n . Comme X i et X j sont indpendants pour
1
i j , cette covariance est en fait gale la covariance de X i et X i , cest dire 2 . On en
n n
dduit donc :
((
E Xi Xn ) )=
2 2 1
n
2
n
1
n
1 n 1 n 1 2
( )
+ 2 2 = 1 2 d' o E Vn = 1 2 =
n i =1 n n
Lestimateur Vn est donc biais, puisque son esprance nest pas gale au paramtre 2 , de
plus comme n1 est strictement infrieur 1, cet estimateur sous estime la vraie variance. En
n
revanche, il est facile dobtenir un estimateur non biais en prenant :
( )
n 2
n1
Sn2 = n Vn = 1 Xi X n
n1 i =1
On peut de plus monter que cet estimateur est convergent ( condition que les moments
dordre infrieur ou gal 4 existent), mais cette dmonstration beaucoup plus lourde est
laisse au lecteur.
Nous avons tir des chantillons de taille 100, 200, 300, 400 et 500. Pour chacun de ces
chantillons, vous trouverez dans le tableau ci-dessous : la moyenne estime, lcart-type
estim, lestimation de lcart-type de lestimateur de la moyenne :
Page 22
Estimation
Page 23
Estimation
statistique dobtenir cette mme notion, nous allons donc introduire une autre notion de
prcision, associe un degr de confiance.
Nous nous intresserons ici quau cas de la moyenne ou du pourcentage, mais ce que nous
dirons est gnralisable dautres paramtres.
Tout dabord, une mauvaise nouvelle : dans la mesure ou nous effectuons des tirages avec
remise, nous ne pouvons pas esprer diminuer ltendue des valeurs obtenues, en effet il est
toujours thoriquement possible de tirer un chantillon constitu n fois de lindividu
prsentant la plus petite (ou la plus grande valeur), il donc inutile desprer pouvoir majorer
de faon certaine lerreur commise lors dun sondage. En revanche dans la mesure, o lcart
type de lestimateur tend vers 0 quand la taille de lchantillon augmente, les valeurs extrmes
vont avoir des probabilits de plus en plus faibles dapparatre, et donc ne seront observes
que dans des chantillons de plus en plus exceptionnels. Cest cette notion que nous allons
formaliser en tudiant la loi de lestimateur du pourcentage et de la moyenne.
X n tant lestimateur du paramtre . On voit donc sur cette formule quil nous faut
connatre la loi de lestimateur X n pour pouvoir dterminer en fonction de et de n.
Quelques remarques gnrales :
Pour n fix, quand augmente diminue, il faudra donc faire un arbitrage (pour un
cot donn) entre la prcision que lon dsire et le risque que lon a de perdre son pari.
En se fixant et , on peut dterminer une taille dchantillon convenable permettant
datteindre une prcision voulue avec un risque donn, puisque la variance de X n tend
vers 0. Toutefois, il faudra dans ce cas arbitrer avec le budget disponible.
Une fois la taille de lchantillon fixe, la formule ci-dessus peut tre inverse et nous
obtenons, un intervalle destimation qui est un intervalle alatoire [X n ; X n + ] , dans
le quel la vraie valeur du paramtre a une probabilit 1 de se trouver. En
remplaant la variable alatoire par sa valeur observe sur mchantillon rellement
tir, on dira souvent, par un raccourci un peu brutal, quil y a une probabilit 1 que
le paramtre soit dans lintervalle [xn ; xn + ] , ce qui na aucun sens puis que toutes
les valeurs sont certaines et que lon na plus alors de loi de probabilit.
Page 24
Estimation
Cas du pourcentage
Loi de probabilit de X n
La loi de X sur la population initiale est, comme nous lavons vu (0), une loi de Bernouilli de
paramtre p.
Il est possible dans ce cas de dterminer exactement la loi de lestimateur du pourcentage,
puisque nous avons faire la moyenne de n variables indpendantes de Bernouilli. La
variable nX n est donc la somme de n variables de Bernouilli indpendantes, et suit donc une
loi binomiale bien connue. Il est donc possible de dfinir la loi de X n en fonction du
paramtre p (pourcentage estimer).
Cependant comment faire pour donner la prcision dune estimation quand on ne connat pas
la vraie valeur ? Comme dans la pratique la taille des chantillons est gnralement beaucoup
plus grande que 10 (les sondages dopinion se font sur des chantillons dau moins 500
personnes, le plus souvent un millier), nous allons pouvoir rpondre cette question en
regardant lvolution de la loi de X n en fonction de n. On obtient les graphiques suivants :
0 0 0
0,30 0,50 0,70 0,90 0,50 0,70 0,90 0,50 0,70 0,90
Page 25
Estimation
Calcul de la prcision
Nous noterons z le fractile dordre de la loi normale centre rduite, cest dire le
nombre dfini par :
(
Pr Z < z = ) o Z N(0,1)
Comme X n suit une loi normale, en la centrant et
Xn p
rduisant, on en dduit que Z =
(X n )
suit une loi
normale centre rduite. La dfinition de la prcision et
/ 2 / 2
du degr de confiance peut donc se rcrire de la faon
suivante :
Pr Z < =1 soit encore Pr < Z < =1
0
( ) ( ) ( )
-3,5 0 3,5
Xn Xn Xn
Comme la loi normale centre rduite est symtrique, cette probabilit sexprime aussi :
Pr < Z < =12Pr Z donc Pr Z = ou Pr Z < =1
(X n ) (X n ) (X n ) (X n ) 2 (X n ) 2
Page 26
Estimation
Sur notre chantillon de taille 500, nous obtenons alors les rsultats suivants pour les
intervalles de confiances :
)
Dgr de confiance(1-) Intervalle de confiance
90% [ 0.739 ; 0.801 ]
95% [ 0.733 ; 0.807 ]
99% [ 0.721 ; 0.819 ]
Remarque : Les intervalles de confiance ont des valeurs fixes, donc la valeur relle est dans
cet intervalle ou n'y est pas, la "confiance" indique simplement que si l'on rptait le calcul de
ces intervalles sur un nombre trs grand d'chantillons, 95% des intervalles ainsi calculs
contiendrait la "vraie valeur", donc 5% ne la contiendrait pas!
( )
z1
2
2
n=EntierSup
4
2
EntierSup(x) dsignant le plus petit entier suprieur ou gal x.
Remarquons que cette formule peut tre toujours applique, elle seule assurera dobtenir la
prcision voulue, mais bien videmment elle conduira des tailles importantes dchantillons
pas toujours ncessaires mais toujours coteuses. Nous illustrerons ceci au paragraphe
suivant.
1
Comme il est facile de le voir par drivation, ou en remarquant que la surface maximale dun rectangle de
primtre donn (ici 2) correspond au carr.
Page 27
Estimation
( )
z1 2 p (1 p )
2
n=EntierSup +1
2
La seule diffrence avec le calcul thorique (cest dire utilisant la "vraie" valeur p, est le +1
final, qui est souvent ngligeable dans la pratique.
Dans les deux cas nous pouvons constater que la prcision cote cher en statistique, en effet la
taille de lchantillon varie comme linverse du carr de lestimation, donc pour diviser par 2
la prcision (donc limprcision), il faut multiplier par 4 la taille de lchantillon.
(
n = entier sup 1,96 * ( ) )
2
0,5 * (1 0,5) / 0,03 = 1068
La taille priori ncessaire est donc de 1068 individus
b) Calcul a posteriori (aprs chantillonnage de taille 500)
Nous prendrons ici le pourcentage estim p = 0,77
(
n = entier sup 1,96 * ( ) )
2
0,77 * (1 0,77) / 0,03 + 1 = 757
La taille de l'chantillon est alors nettement plus petite, il suffirait d'ajouter 250
individus environ pour esprer atteindre la prcision voulue.
Remarquons enfin, que dans tous les cas il est ncessaire aprs avoir fait le sondage de
recalculer la prcision obtenue, qui ne peut qutre meilleure (infrieure) si lon utilise la
premire mthode de majoration, mais qui peut tre suprieure la valeur dsire dans le cas
de la seconde mthode, si la nouvelle valeur estime est plus proche de 50% que celle qui a
servi la dtermination de la taille de lchantillon.
Cas de la moyenne
Sur la population nous avons une variable alatoire numrique Y qui a une moyenne note
et un cart type not .
Lestimateur de la moyenne que nous avons utilis au paragraphe 0 not Yn (de moyenne m et
dcart type ) a la mme proprit asymptotique que lestimateur du pourcentage, cest
n
Yn
dire quil vrifie le thorme de la limite centre : Zn = tend en loi vers la loi normale
n
centre rduite N(0,1) . Cependant la vitesse de cette convergence peut dpendre de faon trs
significative de la forme de la loi initiale de Y, trs souvent il est fait lhypothse que cette loi
est proche dune loi normale, ce qui assure une convergence rapide. Dans le cas o la variable
Y suivrait exactement une loi normale, la variable Zn prcdemment dfinie suit toujours une
loi normale.
Page 28
Estimation
=z
1 n 2
Loi Normale
Student(2)
Student(5)
0,
-3,0 -2,0 -1,0 0,0 1,0 2,0 3,0
2
Voir lannexe pour quelques indications sur cette loi.
Page 29
Estimation
Si lon construit tous les intervalles de cette forme en remplaant les variables par leurs
valeurs prises sur les chantillons (ou du moins un trs grand nombre), il y en aura une
proportion qui contiendra la valeur du paramtre, et donc 1- qui ne contiendra pas la
valeur . On retrouve la notion de pari que nous avons expose au dbut de ce paragraphe.
En pratique, on remplacera les variables alatoires par leurs valeurs, et on dira que lon a une
probabilit de 1-, que la moyenne se trouve dans lintervalle yn t n1 ; yn +t n1 ,
1 n 1 n
2 2
tant lestimation de lcart type.
La prcision au degr de confiance est donc donne par la formule :
=t n1
1 n
2
Application au cas de notre exemple
Avec un degr de confiance de 0,95 et un nombre de degrs de libert de 500-1=499, nous
obtenons :
Page 30
Estimation
Dans ce cas videmment, il faudra vrifier sur l'chantillon final que la prcision est bien
atteinte, d'autant plus que l'estimation de l'cart-type peut-tre trs volatile.
Cas gnral
Si lon ne veut pas utiliser lapproximation par une loi normale, il faut alors utiliser des
mthodes itratives pour dterminer la taille de l'chantillon, mais les rsultats trouvs
diffrent peu de l'approximation normale, dont on pourra se contenter en la majorant
ventuellement si la valeur trouve est faible.
3
Une loi du khi-deux n degrs de libert est la loi suivie par la somme des carrs de n lois normales centres
rduites indpendantes
Page 31
Estimation
Y
Dans le cas de lestimation la variable X est lestimateur de la moyenne n qui est bien
n
f (x )=
( ) 1+ x
+1
+1
2 2
( )
2
2
o la loi (t )= euut 1dt est la fonction Gamma. Remarquons que cette distribution peut tre
0
tendue aux valeurs non entires de .
( ) (n1)s 2 (n1)s 2
pr 1 < Z < 2 = , on en dduit lintervalle de confiance pour 2 :
2
n; n . Notons
1
que cet intervalle nest pas centr autour de lestimation sn2 , mais est centr en probabilit :
cest dire que lon limine autant dchantillons sous estimant la variance que
dchantillons surestimant cette variance. La notion de prcision na donc pas ici le sens
physique habituel comme pour la moyenne.
En prenant les racines carres des bornes on en dduira un intervalle de confiance pour lcart
type.
Page 32
Estimation
3. EXERCICES ESTIMATION
3.1.: RadioLook
RadioLook est une radio prive mettant sur Grenoble et sa rgion depuis deux ans. Aprs un
an de fonctionnement, une enqute faite auprs de 1200 grenoblois a donn les rsultats
suivants:
240 personnes ont dclar couter rgulirement la station
parmi ces 240 personnes, 30 ont un statut d'tudiant.
Prcisons que sur les 1200 personnes interroges, 100 taient des tudiants. Actuellement, la
direction commerciale veut mener une enqute auprs des tudiants. Elle dsire connatre de
faon prcise, la proportion d'tudiants coutant rgulirement RADIO-LOOK et envisage
donc un deuxime sondage.
1. Prciser la population, la variable de description et le paramtre faisant l'objet de l'tude.
2. Exploiter le sondage fait auprs de 1200 grenoblois pour obtenir une premire estimation
(ponctuelle et par intervalle) du paramtre dfini en 1.
3. Combien de personnes faut-il interroger au cours de la seconde enqute, si le degr de
confiance (ou seuil ) retenu est de 0.95 et la prcision (absolue) dsire 3%.
4. A l'issue du deuxime sondage, il a t constat 368 auditeurs. Donner une estimation et
un intervalle de confiance du paramtre faisant l'objet de l'tude (avec un degr de
confiance de 0.95).
5. Peut-on affirmer que l'audience du segment tudiant a augment d'une enqute l'autre?
Page 33
Estimation
Analysez ces rsultats dune part en terme de CA global jour, dautre part en terme de panier
moyen (nombre darticles et CA par client). On procdera laide dintervalles de confiance
de 95%.
Pour permettre la socit dtudes de lui rpondre, elle lui fourni un ordre de grandeur du
taux moyen de clients ayant une bonne image de la marque (cest cette mesure qui
lintresse), environ 65% (taux constat lors de la prcdente tude dimage de marque).
Elle indique quelle souhaite disposer dune prcision semblable dans chacun des segments.
Page 34
Estimation
N valide (listwise) 25
En fusionnant les deux chantillons, donnez une estimation du montant total des crances
et un intervalle de confiance avec un niveau de confiance de 0.95.
Page 35
Estimation
Page 36
Estimation
Annexe 1
Donnes comptables relatives aux trois catgories
Annexe 2
Sondage prliminaire
Annexe 3
Rsultats des contrles des catgories 1 et 3
Statistiques descriptives
Page 37
Estimation
1. Utiliser les rsultats de ce deuxime sondage pour obtenir une estimation de la valeur
relle des rfrences de la deuxime catgorie. En dduire une estimation de la valeur
relle de tout le stock et la prcision obtenue.
2. Pensez-vous que l'approximation normale soit justifie pour la variable D=X-Y ? Justifiez
conomiquement ce fait.
3. Donner une estimation par intervalle du pourcentage d'erreur dans la seconde catgorie.
Page 38
Tests d'hypothse
4. TESTS D'HYPOTHESE
4.1.Un exemple
Monsieur Dupond, directeur commercial d'une chane de magasins de distribution, veut tester
un nouveau type de promotion sur les produits forte frquence d'achat, le client reoit des
coupons en fonction des achats effectus et du montant de la facture. D'ordinaire dans la
chane de magasin le taux de retour des coupons est de 40% (c'est dire que 40% des coupons
distribus sont utiliss), le nouveau type sera considr comme plus efficace si le taux de
retour est suprieur ce taux. Dans un magasin considr comme reprsentatif de la chane,
Monsieur Dupond installe son nouveau systme, au terme de trois semaines d'essais sur 1000
coupons distribus 452 ont t rutiliss. Monsieur Dupond se demande si ce pourcentage
(45,2%) est significatif d'une augmentation du taux de retour ou si la diffrence observe n'est
imputable qu'aux incertitudes d'chantillonnage.
4.2.Gnralits
Soit une variable X statistique dfinie sur une population P, et un paramtre li cette
variable, nous appellerons hypothse sur ce paramtre le fait de limiter les valeurs prises par
ce paramtre une partie non vide et non totale de l'ensemble des valeurs possibles not A0 ,
le complmentaire de cet ensemble not A1 sera associe l'hypothse alternative. La
premire hypothse est appele hypothse nulle.
Sur l'exemple prcdent, la population est l'ensemble des coupons distribus pour les produits
forte frquence d'achat, la variable X est la variable indicatrice de l'utilisation du coupon, le
paramtre est le pourcentage de coupons utiliss. L'ensemble des valeurs possibles est
l'intervalle [40%, 100%], puisque le directeur commercial n'envisage pas que sa mthode de
distribution puisse tre moins efficace que les autres mthodes. Une hypothse ici serait par
exemple que la nouvelle mthode ne soit pas plus efficace, c'est dire que = 0 = 40%
(ensemble not A0 = {40%} ), une autre hypothse serait par exemple que la promotion
personnalise soit rellement plus efficace, c'est dire que > 0 =40% (ensemble not
A1 =]40%;100%] ).
Il arrive souvent que les ensembles associs aux hypothses soient plus complexes que ceux
prsents en exemple, nous le verrons plus loin lors des tests portant sur deux chantillons,
ou lors de la rgression par exemple.
L'objectif des tests d'hypothse est de dterminer une rgle de dcision permettant de rejeter
une hypothse partir de l'examen d'un chantillon. Comme nous l'avons vu au chapitre sur
l'estimation, on ne peut pas prtendre prendre une telle dcision sans risque d'erreur, ce risque
est li la probabilit d'apparition d'chantillons exceptionnels (statistiquement aberrants).
Nous allons donc formaliser cette dmarche. Nous noterons H 0 l'hypothse A0 , cette
hypothse est appele hypothse nulle, et H 1 l'hypothse A1 , appele hypothse
alternative (nous reviendrons plus loin sur le choix de l'hypothse nulle).
Lapplication dune rgle de dcision peut conduire lun des quatre cas suivants :
Page 39
Tests d'hypothse
Le risque de seconde espce not est la probabilit de l'erreur de type II, c'est
dire le choix de H 0 alors que H 1 est vraie.
La dfinition d'une rgle de dcision se fait par la dfinition d'un ensemble R A1 , appel
zone de rejet, tel que pour toute estimation du paramtre se trouvant dans cet ensemble on est
conduit rejeter l'hypothse H 0 , c'est dire accepter l'hypothse H 1 . La dtermination de
la zone de rejet se fait en fixant le risque de premire espce : le risque de premire espce est
en effet dfini partir de cette rgion par : prob(estimateur( paramtre)R / paramtreA0 ).
Une autre faon de procder est de dterminer la probabilit (appele niveau de signification
ou significativit du test) d'obtenir un chantillon conduisant au rsultat observ (appele
niveau de signification du test), sous l'hypothse H 0 , si cette probabilit est infrieure au
risque de premire espce, on rejettera alors l'hypothse H 0 . Ces deux procdures sont
quivalentes, toutefois il est possible dans certains cas de dfinir la rgion de rejet avant
mme d'avoir procder au sondage, ce qui bien sr n'est pas possible pour le niveau de
signification.
Remarquons que les hypothses ne sont pas traites de faon symtrique, on veut tre assur
que l'hypothse H 0 n'a qu'une probabilit trs faible d'tre vrifie, donc, en fait, on cherche
se convaincre de l'hypothse H 1 . En gnral quand on rejettera H 0 , on sera assur d'avoir
une faible probabilit de se tromper, en revanche, si on est conduit par le test ne pas rejeter
l'hypothse nulle, il est possible que la probabilit de se tromper soit trs grande, comme nous
le verrons dans les cas traits dans ce chapitre.
Page 40
Tests d'hypothse
A1 = [0; p0 [ c'est dire le test H 0 : p = p0 contre H1 : p< p0 , ce test est dit unilatral
gauche, la rgion de rejet est de la forme R=[0;c] avec c< p0 : il faut que la
valeur observe sur l'chantillon soit significativement infrieure p0 pour que
l'on soit convaincu de l'hypothse H1 .
Pour dterminer les rgions de rejet de l'hypothse, on liminera les chantillons les plus
improbables correspondant des valeurs d'estimation dans le sous-ensemble, c'est dire des
chantillons donnant des valeurs exceptionnellement grandes dans le cas de test unilatral
droite, exceptionnellement petites dans le cas de test unilatral gauche ou exceptionnel-
lement loignes de p0 dans le cas de test bilatral.
Remarquons que cette loi ne fait pas intervenir des rsultats obtenus par sondage, il est donc
possible ici de dfinir la zone de rejet avant mme de procder au sondage. C'est ce que nous
allons faire pour les trois cas dcrits plus hauts.
Tests unilatraux
Nous traiterons simultanment les deux cas gauche et droite :
Page 41
Tests d'hypothse
H 0 : p = p0 H 0 : p = p0
H1 : p< p0 H1 : p > p0
1-
Page 42
Tests d'hypothse
La rgle de dcision est, dans tous les cas, la suivante : si le niveau de signification est
infrieur a, on rejette l'hypothse H 0 .
Page 43
Tests d'hypothse
Test bilatral
Faire le test
H 0 : p = p0
contre H1 : p p0
au risque 1 au risque 2
Soit p la valeur du pourcentage observ sur l'chantillon, dans le cas de test bilatral, le
niveau de signification est par dfinition :
(
si H 0 est vraie prob X n p0 > p p0 , )
Page 44
Tests d'hypothse
c'est dire la probabilit pour un chantillon tir sous l'hypothse H 0 de donner un cart
(absolu) par rapport la vraie valeur p0 suprieur l'cart (absolu) constat lors du sondage.
c1 p c2 p
= prob(c1 X n c2 )= prob N (0,1) ou encore
p(1 p) n p(1 p) n
c2 p c1 p
= prob N (0,1) prob N (0,1)
p(1 p) n
p (1 p ) n
En utilisant cette dfinition, on obtient alors la courbe suivante avec p0 =40% et n=100 :
Page 45
Tests d'hypothse
Page 46
Tests d'hypothse
Un exemple
Monsieur Durlan, nouveau chef de produit chez Nesnone, envisage le lancement (dans les
supermarchs) dun nouveau petit djeuner biologique. Daprs le service conomique le
produit ne sera rentable que si les ventes moyennes hebdomadaires par magasin dpassent 320
units. Monsieur Durlan a obtenu de 332 magasins quils prsentent ce nouveau produit, au
bout de quatre semaines, il vient de recevoir les rsultats. Quelle dcision doit-il prendre ?
Avant de consulter les rsultats de lchantillon, formalisons sous forme de test dhypothse
le problme de dcision de Monsieur Durlan :
La population que lon tudie est lensemble des supermarchs, la variable statistique est une
variable numrique qui chaque magasin associe les ventes hebdomadaires du produit. Le
paramtre est la moyenne de ces ventes sur lensemble de la population.
Ce paramtre peut prendre des valeurs sur l'intervalle [0,+[ , ce qui intresse M. Durlan cest
de placer le paramtre par rapport la valeur (seuil de rentabilit) 320. Nous allons montrer
sur cet exemple comment dfinir les hypothses en fonction du contexte conomique.
Nous avons deux hypothses candidate au rle de lhypothse H1, hypothse que lon cherche
valider par le test puisque la rgion de rejet de H0 est dtermine par le risque de premire
espce a. Notons les HA et HB :
H A : > 320
H B : < 320
Analysons dans chacun des cas lerreur de type I correspondant au choix de cette hypothse
comme hypothse H1 :
Cas A : Dans ce cas lhypothse H 0 : 320 , lerreur de type I (choix de H1, alors que H0
est "vraie") revient croire que le produit va tre rentable alors quen ralit il ne le sera pas,
cette erreur conduira une perte qui sera tangible, et facilement constate par le suprieur
hirarchique de M. Durlan. En revanche lerreur de type II conduirait ne pas saisir
lopportunit de lancer un nouveau produit rentable, ce qui en fait ne pourra jamais tre
directement constat. Poser le test ainsi revient dire que l'on veut vraiment tre convaincu de
la rentabilit du produit (observer sur l'chantillon une valeur significativement plus grande
que 320) pour se dcider le lancer.
Cas B : Dans ce cas lhypothse H 0 : 320 , lerreur de type I (choix de H1, alors que H0
est "vraie") revient croire que le produit va n'est pas rentable alors quen ralit il le sera,
cette erreur conduira ne pas lancer le produit, ne sera pas constate par le suprieur
hirarchique de M. Durlan, mais pourrait long terme tre catastrophique pour l'entreprise si
ce type de produit prend une importance trs grande sur le march des petits djeuners. En
revanche lerreur de type II conduirait lancer un produit non rentable et le risque associ ne
sera pas matris. Poser le test ainsi revient dire que l'on veut vraiment tre convaincu de la
non-rentabilit du produit (observer sur l'chantillon une valeur significativement plus petite
que 320) pour se dcider ne pas le lancer.
Suivant l'importance stratgique du produit et la fragilit de la position de M. Durlan on sera
conduit privilgier l'une des deux approches. Comme ici M. Durlan est un jeune chef de
produit, il ne veut pas commencer sa carrire par un lancement rat, il privilgiera le cas A, il
voudra contrler le risque associ l'erreur constatable par son suprieur. La valeur du risque
de premire espce dpend des consquences conomiques ou sociales de l'erreur, c'est un
Page 47
Tests d'hypothse
arbitrage entre l'erreur de premire espce contrle et l'erreur de seconde espce non
contrle. Gnralement il prend une des trois valeurs 10%, 5% ou 1%, plus sa valeur est
faible, plus on laisse de "place" l'erreur de seconde espce.
Enfin comme dans le cas des proportions on peut toujours se ramener pour l'hypothse nulle
une hypothse simple du type :
H 0 : = 0
Notons enfin qu'il est d'usage en statistique de supposer que la variable quantitative tudie
est distribue sur la population (munie d'une loi de probabilit quiprobable) suivant une loi
normale.
Comme dans le cas d'une proportion nous traiterons les trois cas de tests possibles, mais plus
succinctement dans la mesure ou seule les lois changent.
Page 48
Tests d'hypothse
Tests unilatraux
Nous traiterons simultanment les deux cas gauche et droite :
H 0 : = 0 H 0 : = 0
H1 : < 0 H1 : > 0
Attention la fonction est toujours bilatrale, donc pour les tests unilatraux il faudra
mettre comme valeur de la probabilit le double du risque de premire espce.
Page 49
Tests d'hypothse
rpartition de la loi de Student (n-1) degrs rpartition de la loi de Student (n-1) degrs
de libert, pour la valeur (standardise) : de libert, pour la valeur (standardise) :
xn 0 xn 0
n n
La rgle de dcision est, dans tous les cas, la suivante : si le niveau de signification est
infrieur , on rejette l'hypothse H 0 .
Test bilatral
Faire le test
H 0 : = 0
contre H 1 : 0
au risque de premire espce , revient faire deux tests unilatraux :
H 0 : = 0 H 0 : = 0
H 1 : < 0 et H 1 : > 0
au risque 1 au risque 2
Avec 1+ 2 = , l'usage est de prendre 1= 2 = 2 . Remarquons que dans le cas du test sur la
moyenne cette convention et sans doute lorigine des fonctions de Student gnralement
tabules.
La dtermination des valeurs critiques c1 et c2 se fait comme nous l'avons vu prcdemment,
ces deux valeurs sont, avec la convention 1= 2 = 2 , symtriques par rapport 0 . La
rgle de dcision est alors la suivante :
Si sur l'chantillon la valeur du pourcentage observe est extrieure l'intervalle [c1;c2 ], on
rejettera l'hypothse H 0 avec un risque d'erreur infrieur , sinon on conservera
l'hypothse H 0 mais sans connatre le risque d'erreur.
Soit x n la valeur de la moyenne observe sur l'chantillon, dans le cas de test bilatral, le
niveau de signification est par dfinition :
X x 0
Sous lhypothse H 0 ns = prob n 0
< n ,
S2 n n
n
c'est dire la probabilit pour un chantillon tir sous l'hypothse H 0 de donner un cart
(standardis absolu) par rapport la vraie valeur x n suprieur l'cart (standardis absolu)
constat lors du sondage.
Page 50
Tests d'hypothse
La rgle de dcision dans ce cas est toujours la mme : si le niveau de signification du test est
infrieur , on rejette l'hypothse H 0 .
Degr de significativit
Ce degr nous donne, rappelons le, la probabilit de tirer un chantillon ayant les
caractristiques observes, sous l'hypothse H0. Pour le calculer il nous suffit d'appliquer la
formule du paragraphe 5.3.2 :
326 320
ns = prob Sudent (331) > = prob(Student (331) > 2,11) = 0,018
51,82 332
Il y a donc moins de "2 chances sur 100" d'observer un tel chantillon sous l'hypothse H0. On
dcidera donc de lancer le nouveau produit.
Les pourcentages constats sur l'chantillon sont videmment diffrents (44% pour la semaine
et 47% pour le week-end), mais cela peut tre du aux alas de l'chantillonnage et non pas
Page 51
Tests d'hypothse
Formalisation du problme
Nous pouvons ici prsenter la formalisation de deux faons diffrentes, soit comme la
comparaison de pourcentages sur deux populations, soit comme l'tude d'une liaison entre
deux variables indicatrices dfinies sur une mme population (cas particulier de la liaison de
deux variables qualitatives prsente en annexe).
Page 52
Tests d'hypothse
Remarque : On retrouve aussi l'interprtation des deux hypothses (nulle et alternative) sous
la forme de moyenne, c'est dire d'esprance en remarquant que p1 et p2 sont aussi les
esprances conditionnelles de X sachant Y=0 ou Y=1; on peut aussi retrouver l'interprtation
en terme de population en prenant respectivement les images rciproques Y 1 (0 ) = P1 et
Y 1 (1) = P2 .
Dans la suite nous utiliserons la formalisation en termes de deux populations, la deuxime
formalisation sera gnralise aux variables qualitatives (du moins pour le test bilatral) lors
du test du Khi2 de contingence.
Test bilatral
Dans ce cas l'hypothse alternative est H 1 p1 p 2 , comme pour le test contre un standard,
nous liminerons de l'hypothse H0, les chantillons conduisant (sous cette hypothse) un
cart en valeur absolue entre les moyennes des chantillons trop improbable, c'est dire dont
la probabilit est infrieure au risque de premire espce fix.
Page 53
Tests d'hypothse
1 1
c = z1 2 p(1 p) + o p dsigne la valeur commune de p1 et p2
n1 n2
Dans les applications la valeur p est bien sure inconnue, il n'est donc pas possible de
dterminer la valeur critique avant de connatre les rsultats du sondage ; on remplacera alors
cette valeur par l'estimation p obtenue en "regroupant" les deux chantillons.
La rgle de dcision est alors la suivante, si sur les chantillons lcart absolu observ est
suprieur c, alors lhypothse H0 est rejete au risque derreur ; sinon on conservera
lhypothse H0 sans toutefois connatre le risque derreur.
Application :
En supposant que M. Martin veut simplement constater une diffrence entre la
semaine et le week-end, nous allons faire un test bilatral. Nous avons dans notre
exemple :
n1 = 600, n2 = 400
p 1 = 0,44 , p 2 = 0,47 donc p = (0,44 * 600 + 0,47 * 400) / 1000 = 0,452
D'o la valeur critique au risque de premire espce de 0,05=5%:
1 1
c = 1,96 * 0,452 * 0,548 + = 0,0630 .
600 400
Comme cette valeur est suprieure la diffrence observe, nous ne pouvons pas
rejeter l'hypothse nulle, et nous en concluons que la diffrence observe est due aux
alas de l'chantillonnage.
Page 54
Tests d'hypothse
Puisque la loi normale suivie par Z est de moyenne nulle sous l'hypothse H0. En normalisant
cette loi (c'est--dire en divisant par son cart-type), nous pouvons crire :
1 1
ns = 1 prob N (0,1) < p 1 p 2 / p (1 p ) + * 2
n1 n 2
Test unilatral
Dans ce cas l'hypothse alternative est H 1 p1 > p 2 , il est inutile de distinguer ici le test droit
du test gauche puisque cela revient simplement changer les indices, comme pour le test
contre un standard, nous liminerons de l'hypothse H0, les chantillons conduisant (sous cette
hypothse) un cart entre les moyennes des chantillons trop improbable, c'est dire dont la
probabilit est infrieure au risque de premire espce fix.
1 1
c = z1 p(1 p) + o p dsigne la valeur commune de p1 et p2.
n1 n2
Dans les applications la valeur p est bien sure inconnue, il n'est donc pas possible de
dterminer la valeur critique avant de connatre les rsultats du sondage ; on remplacera alors
cette valeur par l'estimation p obtenue en "regroupant" les deux chantillons (voir plus haut).
Page 55
Tests d'hypothse
La rgle de dcision est alors la suivante, si sur les chantillons lcart observ ( p 1 p 2 ) est
suprieur c, alors lhypothse H0 est rejete au risque derreur ; sinon on conservera
lhypothse H0 sans toutefois connatre le risque derreur.
p p 2 1 1
ns = 1 prob N (0,1) < 1 avec = p(1 p) +
n1 n2
p tant la valeur commune de p1 et p2, sous l'hypothse H0 ; cette valeur est inconnue est sera
bien entendu remplace par son estimation dans les applications numriques.
Si ce niveau de signification est infrieur au risque de premire espce , lhypothse H0 est
alors rejete.
Page 56
Tests d'hypothse
Sauf indication contraire, on prendra pour tous les exercices pour risque de premire espce
les deux valeurs 5% et 1%.
5.1.Taux de phosphate
Un fabricant de lessive affirme que le taux de phosphates contenu dans les lessives de sa
marque est infrieur 6% du poids total. Un institut de consommation a fait analyser un
chantillon de 150 paquets dont les rsultats sont donns dans le fichier "phosphates.sav",
dont l'analyse vous est donne dans le tableau suivant :
Questions
1. Dfinissez la population, la variable et le paramtre concerns par l'analyse.
2. Formulez sous forme de test le problme de l'institut de consommation.
3. Quelle conclusion tirez-vous de l'analyse de l'chantillon?
5.2.AntiSmoke
Un laboratoire pharmaceutique envisage de lancer sur le march un nouveau "patch" anti-
tabac "Antismoke", que s'il assure au moins 25% de russite, c'est dire qu'au moins 25% des
utilisateurs ne doivent pas recommencer fumer aprs un mois de traitement.
Des essais ont t faits sur un panel de 100 fumeurs et les rsultats sont donns dans le fichier
"tabac.sav", la reprise=1 indique que le fumeur a rechut avant la fin du mois sinon il est
indiqu 0.
Reprise
F 66% 41 48%
H 71% 59 45,7%
Questions
1. Dfinissez la population, la variable et le paramtre concerns par l'analyse.
2. Formulez le test du laboratoire
3. Le laboratoire doit-il lancer son produit?
4. Peut-on faire une diffrence sur l'efficacit du mdicament selon le sexe de la personne?
Page 57
Tests d'hypothse
5.4.Contrle de qualit
Un fabricant de coque de tlphones portables veut tester la solidit de sa fabrication,
effectue sur deux machines. Il prlve 50 lments au hasard sur la chane de fabrication et
les soumet un essai de chocs. Une machine frappe sur la coque jusqu' rupture de celle ci ;
un bon modle doit rsister plus de 260 chocs.
Les donnes rsultant du test vous sont fournies dans le fichier "quali.sav" :
N valide (listwise) 50
Questions
1. Dfinissez la population, la variable et le paramtre concerns par l'analyse.
2. Formulez le test du fabricant
3. Le produit vous parat satisfaisant au point de vue rsistance?
Page 58
Tests d'hypothse
Pour cela 200 consommateurs de boisson base de cola furent slectionns pour participer
un test de got dit "en aveugle". Chaque participant fut invit goter les deux boissons
servies dans des verres "anonymes" marqus respectivement des seules lettres A et B. Les
marques d'origine des deux boissons taient donc caches au participant mais connues des
organisateurs.
Questions
1. Sachant que sur 200 participants, 112 ont dclar prfrer Rola-Cola faire un test
statistique permettant de rejeter ou d'accepter l'hypothse que la boisson Rola-Cola est
prfre Moka-Cola. Aprs avoir formul les deux hypothses du test en, on
prcisera la rgion de rejet et la procdure permettant de conclure. On prendra un
risque de type I de 0.05.
2. Pour viter que l'ordre dans lequel les deux boissons furent prsentes n'affecte les
prfrences mises, les participants furent partags en deux groupes gaux; le premier
gota Rola-Cola avant Moka-Cola et le second opra en sens inverse. Les rsultats
obtenus furent les suivants :
Groupe1 Groupe2
Rola Cola avant Moka-Cola Avant
Moka-Cola Rola-Cola
Nombre de participants 100 100
Nombre de participants 54 58
prfrant Rola-Cola
Ces rsultats permettent-ils de retenir l'hypothse que l'ordre de prsentation des deux
boissons n'a effectivement aucune influence sur les prfrences dclares pour Rola-
Cola ?
4
Le seuil de prcision est la demi-longueur de lintervalle de confiance. Il sagit dun seuil de prcision absolue.
Page 59
Tests d'hypothse
Questions
1. Vrifier que la taille de lchantillon retenue correspond bien lobjectif de prcision de
1%.
2. La direction marketing en se fondant sur les rsultats du tableau 1 pense que la neuvime
symphonie pourrait se vendre un nombre dexemplaires suprieur celui de la
cinquime. Confirmer ou infirmer cette hypothse.
3. Des deux formules F1 ou F2 laquelle faut-il retenir ?
4. Donner les nombres minimum et maximum de CD de la neuvime susceptibles dtre
vendus.
Remarque : pour traiter ces questions on utilisera
un degr de confiance de 0.95
un risque de type I gal 0.05
5.7.Tlmara
Lhebdomadaire Tlmara souhaite effectuer une opration de recrutement sur fichier externe.
A cet effet, madame Beller, responsable des abonnements, dcide de contacter plusieurs
fournisseurs et de raliser des tests sur les fichiers proposs avant de choisir ceux quelle va
acheter.
Le cot denvoi du message est de 1 , le prix de location de ladresse de 0,4 , la marge sur
abonnement peut tre estime 28 . Malgr le bnfice secondaire apport par
laugmentation daudience (impact sur le revenu publicitaire) et un taux de renouvellement
dabonnement denviron 50%, madame Beller estime quil lui faut financer ses cots de
recrutement sur la premire anne, et conserver une marge nette dau moins 4 .
Madame Beller propose chacun des fournisseurs un test sur 5 000 adresses.
Les rsultats obtenus sont les suivants :
Cble : 350 abonnements
Mga base : 330 abonnements
VPC : 260 abonnements
Questions
1. Compte tenu de ces informations quel est le taux dabonnement minimum qui doit tre
observ sur les fichiers achets ?
Page 60
Tests d'hypothse
2. Quels fichiers, madame Beller peut-elle acheter, en pouvant affirmer, avec un risque de
5%, que le taux dabonnement dpassera le minimum fix.
3. Madame Beller peut-elle dire, au risque 5%, que le fichier du cble est meilleur que celui
de la mga base ?
4. Pour les fichiers slectionns, pouvez vous donner un intervalle de confiance 95% de la
marge globale attendue lors de la gnralisation.
Page 61
Tests d'hypothse
Page 62
Tests d'hypothse
Page 63
Tests d'hypothse
Page 64
Tests d'hypothse
Nous allons prsenter ici le test du Khi-deux tant donn son importance en marketing, bien
qu'il ne soit pas au programme du cours.
Le test de contingence du Khi deux a pour objectif de mettre en vidence un lien ventuel
entre deux variables qualitatives. Nous allons l'illustrer sur un exemple : le fabricant de
shampoing DIP, veut dterminer quels sont les critres de choix d'un shampoing suivant les
catgories d'ges, de faon plus prcise il veut savoir si ces critres diffrent suivant les
tranches d'ges. Aprs une enqute auprs d'un chantillon de 535 consommateurs, il a t
constitu un fichier de donnes o sont relevs le principal critre de choix, l'ge et le lieu
d'achat habituel du consommateur.
6.1.Formalisation du problme
La population E est constitue de l'ensemble des consommateurs de shampoing, sur cette
population sont dfinies plusieurs variables qualitatives, dont les deux variables qui nous
intressent notes X et Y concernant le choix et la tranche d'ge.
La variable "choix" est une variable qualitative m = 4 modalits notes a i pour 1 i m :
E
X
{ distribution, marque, odeur, texture} .
La variable "ge" est une variable qualitative p = 3 modalits notes b j pour 1 j p :
E
Y
{ < 25, 25 - 45, > 45}
L'hypothse nulle, que l'on cherche rejeter est l'indpendance des deux variables,
l'hypothse alternative est la liaison entre les deux variables sans toutefois prciser de quel
type est cette liaison.
L'hypothse nulle peut se formuler de la faon suivante :
H 0 i [1, m] j [1, p ] prob(X = a i , Y = b j ) = prob( X = a i ) * prob(Y = b j )
Les probabilits correspondent aux frquences observes sur la population toute entire,
puisque la loi mise pour l'chantillonnage quiprobable est la loi uniforme.
Page 65
Tests d'hypothse
p
ni = nij dsigne le nombre d'individus de l'chantillon la modalit ai pour la variable X
j =1
ni
est donc l'estimation de prob( X = a i ) .
n
On regroupe ces lments dans un tableau, appel tableau crois ou tableau de contingence
des deux variables, les lments n j et ni s'appellent les marges du tableau. On a donc la
prsentation suivante :
Y
X bj Total
.. ..
ai .. nij .. ni
.. ..
Total n j n
Sous l'hypothse H 0 , on peut construire le tableau thorique que l'on devrait obtenir si
l'indpendance tait parfaitement respecte sur l'chantillon ; on suppose que l'chantillon
parfait a les mmes marges que l'chantillon observ. Nous noterons eij les effectifs thoriques
correspondant l'indpendance. Nous aurons alors les relations suivantes :
eij ni n j ni n j
i [1, m] j [1, p ] = * soit eij =
n n n n
On pourra donc construire le tableau thorique correspondant l'hypothse H 0 :
Y
X bj Total
.. ..
ai .. eij .. ni
.. ..
Total n j n
Seules les cellules grises diffrent du tableau de contingence observ sur l'chantillon, si ces
deux tableaux sont suffisamment diffrents nous rejetterons l'hypothse H 0 . Il nous faut donc
dfinir une distance entre tableau et connatre la loi de cette distance sous l'hypothse nulle,
pour appliquer la mme dmarche que dans les tests prcdents.
Page 66
Tests d'hypothse
(a bij )
m, p
d ( A, B ) =
2 2
ij
i , j =1,1
cependant dans notre dmarche, cette distance ne correspond pas exactement ce que nous
recherchons. En effet, les deux tableaux (observ et thorique) ne jouent pas des rles
symtriques, nous voulons calculer la distance du tableau observ au tableau thorique
puisque nous nous plaons sous l'hypothse H0. Il est donc naturel d'accepter un cart plus
grand pour une case du tableau thorique prsentant un effectif plus grand, on va donc tenir
compte dans la distance des effectifs thoriques attendus, et nous utiliserons comme distance,
m , p (n e )2
la distance, dite distance du Chi2, dfinie par d =
2 ij ij
o nij dsigne, comme au
i , j =1 eij
paragraphe prcdent, l'effectif observ et eij l'effectif thorique.
Une fois les marges fixes, les valeurs eij sont des constantes et sous l'hypothse H0, pour les
chantillons prsentant les marges donnes, seuls l'effectif nij change suivant la loi d'une
variable alatoire Nij, nous pouvons donc considrer la distance D comme une variable
m , p (N e )2
alatoire (statistique) dfinie par D =
2 ij ij
, les variables alatoires Nij ne sont pas
i , j =1 eij
indpendantes, car elles doivent respecter les contraintes :
m m
pour tout j N ij = eij = n j
i =1 i =1
p p
pour tout i N ij = eij = ni
j =1 j =1
ce qui revient dire que seules (m-1)*(p-1) d'entre elles sont indpendantes, comme on peut
le voir quand on veut remplir "au hasard" un tableau m lignes et p colonnes en respectant
des marges donnes l'avance.
On peut alors dmontrer le rsultat suivant : quand n tend vers l'infini (et si aucun eij n'est
born), la variable D2 tend en loi vers une loi du Chi2 (m-1)*(p-1) degrs de libert.
Remarque : la condition impose sur les eij est rapprocher du cas de convergence d'une loi
binomiale vers une loi de Poisson.
L'hypothse H0 est rejete si la distance entre le tableau thorique et le tableau observ est
trop grande, c'est dire si la probabilit d'observer sous l'hypothse H0 une telle distance est
infrieure au risque de premire espce donn.
La valeur critique c de rejet de l'hypothse H0 est donc dtermine en fonction du risque
assume par la formule prob 2 > c = . On voit que la valeur critique peut
( )(
m 1 p 1 )
tre fixe avant tirage de l'chantillon. La rgle de dcision est alors la suivante : si la valeur
de la statistique d 2 observe sur l'chantillon est suprieure c, l'hypothse H0 est rejete et
on conclut une liaison entre les deux variables, ceci avec un risque d'erreur infrieur .
On peut aussi raisonner en terme de niveau de significativit, en calculant la valeur de la
statistique d 2 sur l'chantillon, le degr de significativit (ou niveau de signification ou
significience) est alors dfini par
Page 67
Tests d'hypothse
6.4.Utilisation de SPSS
Nous allons illustrer ce test avec le fichier "DIP.sav". Le lecteur intress pourra refaire les
calculs " la main", nous utiliserons ici le logiciel SPSS, menu "analyse descriptive : tableau
crois".
Nous avons choisis dans l'option cellules de faire figurer les effectifs rels et thoriques et
dans l'option test le test du chi2.
Les rsultats sont les suivants :
Choix
La ligne Effectif contient l'effectif rel, l'effectif thoriques est calcul avec les formules du
paragraphe 2 ; par exemple :
179 * 204
68,3 =
535
La valeur du Khi-deux est calcule suivant la formule du paragraphe 3, nous n'interprterons
la rapport de vraisemblance qui sort du domaine de ce poly.
Page 68
Tests d'hypothse
Tests du Khi-deux
Signification
asymptotique
Valeur ddl (bilatrale)
a
Khi-deux de Pearson 100,517 6 ,000
Page 69
La rgression linaire
7. LA REGRESSION LINEAIRE
Page 70
La rgression linaire
Page 71
La rgression linaire
Relation dterministe/statistique
Une variable Y est dite en relation dterministe avec des variables ( X k )k =1, p s'il existe une
fonction f bien dfinie telle que : Y = f (X 1 , X 2 , K , X p ) . Ce type de relation associe une et
seule valeur y Y pour des valeurs x = ( x k )1k p des variables X = ( X k )k =1, p . Un tel modle
appliqu au deuxime exemple du prix d'un appartement signifierait par exemple que tous les
appartements de 100m2 avec un parking ont le mme prix de vente. Ceci n'est videmment
pas raliste, dans un mme quartier des appartements de mme surface sont des prix
diffrents, ceci est du des lments tangibles tels que l'orientation, l'tage, la prsence d'un
gardien, ou des lments plus subjectifs regroups souvent sous le terme de charme.
L'exemple prcdent montre que pour une valeur donne des variables explicatives ne
correspond pas une seule valeur de Y, mais tout un ensemble de valeur de Y, qui bien sur
s'appliqueront diffrents individus de la population pour lesquels les variables explicatives
ont les mmes valeurs : un appartement donn aura toujours un prix et un seul, mais le fait de
connatre sa surface et la prsence ou non d'un parking ne suffiront pour que l'on connaisse de
faon dterministe son prix.
On exprimera cette notion en disant que les variables explicatives dterminent une loi de
probabilit de la variable expliquer Y, cette loi sera note Yx. Les paramtres de la loi de Yx
seront des fonctions dterministes de la variable X = ( X k )k =1, p , en particulier la moyenne sera
note x et sera l'esprance de Y conditionne par la valeur prise par les variables
explicatives :
x = E (Y / X = x )
on peut alors crire sans perdre de gnralit que
Yx = ( x ) + x
o x est une variable alatoire de moyenne nulle (obtenue aprs centrage de la variable Yx )
et dont les autres paramtres dpendent thoriquement de la valeur x prise par les variables
explicatives.
Ainsi sur le prix d'un appartement on aurait pour un appartement de 100 m2 avec parking
(cette dernire variable valant 1 pour l'existence d'un parking 0 sinon) :
Y100,1 = (100,1) + 100,1
se dcompose en deux parties, une partie dterministe qui donnera le prix moyen d'un tel
appartement et une partie alatoire cart entre le prix moyen et le prix de l'appartement, qui
prend en compte les autres lments pouvant intervenir dans la fixation du prix. On crira
souvent de manire abusive, le modle sous la forme :
Y = f (X ) + E X
La modlisation statistique consiste spcifier la nature de la fonction dterministe de la
moyenne, et les relations dfinissant les paramtres de la variable alatoire ex en fonction des
valeurs de x. C'est dire de se fixer priori une certaine famille de fonction dpendant de
paramtres qu'il faudra estimer partir de donnes d'un chantillon, il faudra aussi l'aide de
tests valider la forme prdfinie des diffrentes fonctions.
Exemple sur le prix d'un appartement
Il est possible pour ce problme d'envisager trois modlisations :
Page 72
La rgression linaire
1. La prsence d'un parking n'influence pas le prix de l'appartement dans ce cas seule la
surface est un lment dterminant du prix, la fonction dterministe dfinissant la
moyenne est une fonction d'une seule variable :
f ( X 1 , X 2 ) = a + bX 1 d'o Y = a + bX 1 + X
pour une valeur donne de la surface x1, nous aurons alors
Yx1 , x2 = a + bx1 + x1
b reprsente le prix du mtre carr dans le quartier (a serait en quelque sorte le cot
d'entre dans le quartier)
2. La prsence d'un parking est un cot fixe donc augmente de faon constante le prix de
l'appartement dans ce cas la fonction dterministe dfinissant la moyenne est une fonction
de deux variables :
f ( X 1 , X 2 ) = a + bX 1 + cX 2 d'o Y = a + bX 1 + cX 2 + X
pour des valeurs donnes x1 et x2, nous aurons alors
Yx1 , x2 = a + bx1 + cx2 + x1 , x2
b reprsente le prix du mtre carr dans le quartier et c reprsente le prix d'un parking
dans le quartier (a serait en quelque sorte le cot d'entre dans le quartier).
3. On peut aussi envisager que la prsence d'un parking influe aussi sur le prix du mtre
carr, auquel cas nous aurions la fonction dterministe suivante :
f ( X 1 ,0) = a + bX 1 en l'absence de parking
f ( X 1 ,1) = a'+b' X 1 en prsence d'un parking
en notant a'=a+c et b'=b+d nous pouvons rcrire ces deux quations sous la forme
unique suivante :
f ( X 1, X 2) = a + bX 1 + cX 2 + dX 1 X 2
ou encore en notant X3 la variable dfinie par X3=X1X2, nous avons un modle linaire
trois variables explicatives :
Y = a + bX 1 + cX 2 + dX 3 + X
pour des valeurs donnes x1 et x2 (x3=x1x2), nous aurons alors
Yx1 , x2 = a + bx1 + cx 2 + dx3 + x1 , x2
A partir d'un chantillon d'appartement, la modlisation statistique nous permettra d'estimer
les coefficients et de tester la validit de chacun des modles sur l'ensemble de la population.
La modlisation fait donc appel aux deux techniques que nous avons prsentes
prcdemment l'estimation et les tests d'hypothse.
Page 73
La rgression linaire
ce qui peut s'crire de manire abusive, sans rappeler les valeurs spcifiques des variables
explicatives :
k= p
Y = k X k + X
k =0
X dsignant une famille de variables alatoires dont les paramtres dpendent des valeurs
prises par les variables explicatives ( X k )1 k p . C'est sur cette dernire famille de loi que vont
porter les autres hypothses du modle de rgression linaire.
Hypothses probabilistes du modle de rgression linaire.
Trois hypothses sont formules sur la famille de variables alatoires X , ces hypothses sont
ncessaires soit pour l'estimation des paramtres soit pour les tests du modle.
Homoscdasticit : La premire hypothse porte sur la variance des lois de la famille X ,
on suppose que cette variance est constante, indpendante de la valeur prise par les
diffrentes variables explicatives. L'cart type associ sera not . Il est important dans la
pratique de comprendre ce que cela signifie, par exemple pour le prix d'un appartement,
cela voudrait dire que la dispersion des prix est la mme pour les appartements de 20m2
ou pour les appartements de 150m2. Cette condition peut conduire parfois limiter la
Page 74
La rgression linaire
population pour qu'elle soit ralise, on pourrait par exemple se limiter aux appartements
dont la surface est comprise entre 60 et 120m2.
Indpendance : on suppose que les variables x1 ,K, x k et x ' ,K, x ' sont indpendantes, quelles
( )
que soient les valeurs (x1 ,K, x p ), x ,K, x ; cette hypothse est particulirement
1 k
' '
1 p
importante lorsque l'on traite des donnes indexes par le temps. Par exemple cela signifie
qu'un mois de surconsommation n'a pas plus de "chances" d'tre suivie d'un mois de sous
consommation qu'un autre (pas d'effet de stockage).
Normalit : on suppose enfin (et ceci pour les tests particulirement) que toutes les
variables alatoires de la famille X sont normales, donc suivent une loi normale de
moyenne nulle et d'cart type .
Compte tenu de ces trois hypothses, on pourra alors par abus de langage utiliser une notation
gnrique unique en confondant toutes les lois de la famille X en une seule, et le modle
sera alors not :
k= p
Y = k X k + o N (0, )
k =0
Si le modle de rgression linaire est valide, nous devons avoir les n relations suivantes entre
les valeurs prises par la variable expliquer Y et les variables explicatives ( X k )1 k p :
yi = 0 + 1 xi1 + 2 xi 2 + K + p xip + ei
Page 75
La rgression linaire
h( 0 , 1 , K , p ) = ei2
n
i =1
h(b0 , b1 , K , b p ) = min h( 0 , 1 , K , p )
Ce minimum peut tre dtermin en rsolvant le systme de p+1 quations p+1 inconnues
obtenu en, drivant la fonction h chacun des p+1 coefficients (on suppose que ce systme
d'quations une solution unique, ce que nous interprterons gomtriquement au paragraphe
suivant).
Nous noterons dans la suite y i l'estimation de la moyenne correspondant la variable
alatoire de la ime observation :
y i = b0 + b1 xi1 + b2 xi 2 + K + b p xip
Page 76
La rgression linaire
Y = 0 X 0 + 1 X 1 + 2 X 2 + K + p X p + E
systme d'quations voqu au paragraphe prcdent a une solution unique), quelles que
soient les valeurs des k, d'autre part le critre des moindres carrs s'interprte comme la
norme (au carr) du vecteur E. Pour satisfaire le minimum de la norme de ce vecteur, il faut
donc projeter Y sur le plan . Les estimations des coefficients de la rgression sont donc les
coordonnes du vecteur Y projection de Y sur le plan . Le vecteur E est alors orthogonal
ce plan (donc tous les vecteurs de ce plan).
2. Les estimations des moyennes y i ont mme moyenne que les observations yi. En effet :
n n n n
1 n 1 n
ei = 0 = ( yi y i ) = yi y i
i =1 i =1 i =1 i =1
donc y= i n
n i =1
y =
i =1
y i
3. Le centre de gravit du nuage de points est dans le plan (sur la droite) de rgression, c'est
dire que l'on a la relation suivante :
y = b0 + b1 x1 + K + b p x p
Page 77
La rgression linaire
n n n n
Y , E = y i ei = 0 ou encore
i =1
( y i y )ei = y i ei y ei
i =1 i =1 i =1
= 0 car la somme des
(y y ) = ( y i y ) + ( y i y i )
2 2 2
i
i =1 i =1 i =1
i =1
i =1
i =1 i =1
e 2
i
s2 = i =1
n p 1
Dans la mesure o l'estimation se fait partir d'un chantillon de taille n, il ne peut y
avoir plus de n-1 variables explicatives, ceci rsulte de la dimension de l'espace des
individus. Mais de faon plus prcise, quelles que soient les n-1 variables choisies
Page 78
La rgression linaire
Rsums de la rgression
Cette rubrique contient trois lments : le coefficient de dtermination, le coefficient de
corrlation multiple, l'cart type des rsidus.
Le coefficient de dtermination R2
Le coefficient de dtermination est le pourcentage de la somme des carrs totale expliqu par
le modle. Il est dfini par le rapport :
SCE
R2 =
SCT
Page 79
La rgression linaire
trs souvent, mais par excs de langage on dit que R2 reprsente le pourcentage de variance
expliqu par le modle. L'excs est double, en effet les sommes des carrs (totale et
explique) ne sont pas des variances, ensuite le rapport ne porte que sur l'chantillon. Plus ce
rapport est proche de 1, meilleure est la reconstitution de la variabilit de la variable
expliquer sur l'chantillon. Comme nous l'avons vu au paragraphe prcdent, en prenant n-1
variables explicatives quelconques on reconstituera toujours 100% la variabilit de
l'chantillon.
Cet indicateur est donc un indicateur biais, il augmentera de faon systmatique avec le
nombre de variables explicatives. Sans qu'il y ait de rgle rationnelle donnant le nombre de
variables explicatives maximum pour un nombre donn d'observations, en pratique il est
recommand de prendre au moins 5 6 observations par variable explicative.
Enfin plus que la valeur du R2, ce qui est intressant, c'est la variation de cette valeur par ajout
de variable, si cette variation est trop faible la variable (ou les variables) ajoute(s) sont sans
intrt pour le modle, comme nous le verrons plus loin.
Le coefficient de dtermination est un indicateur intrinsque d'adquation linaire, un mauvais
R2 n'est pas le signe d'une non influence des variables explicatives choisies, mais le signe
d'une absence de liaison linaire. Si des raisons conomiques poussent croire une
influence des variables explicatives choisies, il faudra alors peut-tre utiliser des
transformations non linaires.
Enfin pour terminer, coefficient de dtermination, ne peut en aucun cas servir choisir une
rgression parmi plusieurs rgressions n'ayant pas le mme nombre de variables.
Remarque : certains logiciels utilisent, pour diminuer le biais du au nombre de variables
explicatives, un coefficient de dtermination corrig (ou ajust):
(
R 2 C = 1 (n 1) 1 R 2 ) (n p 1)
Le coefficient de corrlation multiple R
Ce coefficient est simplement la racine du coefficient de dtermination, mais il s'interprte
comme la corrlation entre la srie des valeurs observe ( y i )1i n et la srie des valeurs
calcules par le modle ( y i )1i n . Plus ce coefficient est proche de 1, meilleure est la
reconstitution des donnes par le modle.
e 2
i
SCR
s2 = i =1
=
n p 1 n p 1
Bien que lie au coefficient de dtermination, cette valeur n'en a pas les dfauts, en effet le
dnominateur corrige l'effet de l'augmentation des variables, cette quantit n'est d'ailleurs pas
dfinie dans le cas de modle satur pour l'chantillon, c'est dire p=n-1 variables.
Entre deux modles on aura tendance choisir celui dont l'erreur type est la plus petite.
Page 80
La rgression linaire
H 0 : 1 = 2 = K = p = 0
H 1 : il existe au moins un indice k tel que k 0
La rgion du rejet de l'hypothse H0 est base sur la statistique dite du "Fisher global". L'ide
du test est de comparer l'apport explicatif moyen des variables choisies par l'analyste avec le
pouvoir explicatif moyen de variables complmentaires totalement arbitraires (correspondant
aux rsidus). Pour cela on va donc faire le rapport entre la diminution de la somme des carrs
due en moyenne chaque variable explicative et la diminution moyenne rsiduelle, c'est
dire l'estimation de l'cart type des rsidus. Si ce rapport n'est pas suffisamment grand
(significativement plus grand que 1), ceci signifiera que les variables explicatives n'ont pas de
pouvoir explicatif plus important que les variables rsiduelles et n'ont donc pas en tre
distingues. On utilisera donc la statistique :
SCE
p CME
Fc = =
SCR CMR
n p 1
CME dsigne le carr moyen expliqu, c'est dire la somme des carrs explique par le
modle, divise par la dimension de l'espace explicatif (p = le nombre de variables
explicatives), CMR dsigne le carr moyen rsiduel, c'est dire la somme des carrs
rsiduelle divise par la dimension de l'espace rsiduel (n-p-1). La rgion critique de rejet de
l'hypothse H0, sera de la forme [ f ,+[ , f tant dtermin en fonction du risque de premire
espce par prob(Fc f ) = .
Pour pouvoir poursuivre la procdure de test, il nous faut connatre la loi de Fc sous
l'hypothse nulle, c'est ici qu'intervient l'hypothse de normalit de la variable . Sous
l'hypothse H0, la statistique Fc suit une loi dite de Fisher-Snedecor (p,n-p-1) degr de
liberts. On peut alors dterminer f soit l'aide de tables. En pratique, on calcule la valeur fc
de la statistique Fc sur l'chantillon, puis on dtermine le niveau de signification
ns = prob(FS ( p, n p 1) > f c ) du test correspondant cette valeur, si ce niveau est infrieur
on rejette l'hypothse. Le test est prsent de faon classique, dans un tableau nomm
Analyse de la Variance :
Page 81
La rgression linaire
Page 82
La rgression linaire
X1 b1 s (B1 ) b1 ns1
s (B1 )
M M M M M
Xp bp s (B p ) bp ns p
s (B p )
Constante b0 s (B0 ) b0 ns 0
s ( B0 )
Remarques :
1. Si plusieurs variables explicatives ne conduisent pas au rejet de l'hypothse nulle,
ceci ne permet pas de penser que tous leurs coefficients sont nuls, c'est dire
qu'aucune d'entre elles n'est influente sur les variations de Y. En effet, la non
influence d'une variable peut rsulter de corrlation entre les variables explicatives,
ter alors unes de variables non influentes significativement peut rendre les autres
significativement influentes. Ne jamais oublier que ce test porte sur une variable
vis vis de toutes les autres.
2. Si la constante n'est pas significative (et elle seule), il est possible d'essayer un
modle sans constante, en forant 0 sa valeur. Dans ce cas il faut modifier en
consquence les degrs de libert des rsidus qui ne sont plus n-p-1 mais n-p.
Variables introduites/supprimes
Variables Variables
Modle introduites supprimes Mthode
1 Gratuits, . Entre
a
Journaux, Radio
Erreur standard
Modle R R-deux R-deux ajust de l'estimation
Page 83
La rgression linaire
a
1 ,916 ,839 ,813 138,034
Total 2136089,455 21
Le dernier tableau donne les coefficients des diffrentes variables explicatives ainsi que le
terme constant. Lerreur standard est lestimation de lcart de lestimateur des coefficients.
Les coefficients standardiss sont les coefficients dans le cas o toutes les variables (
expliquer et explicatives) seraient centres rduites.
Comme pour le F, ici vous est donne la significativit du t calcul, c'est--dire la probabilit
dobserver une telle valeur du t sous lhypothse H0 c'est--dire si lapport marginal de la
variable tait nulle (cf Gratuits).
a
Coefficients
Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.
Nous remarquons sur ce listing que la variable Gratuits, n'est marginalement pas significative,
ceci est peut-tre du une corrlation entre les variables explicatives, nous reviendrons plus
loin sur cette question. Il est d'ailleurs rassurant de constater que cette variable n'est
Page 84
La rgression linaire
statistiquement pas significative, car son coefficient ngatif, signifiait qu'une fois les budgets
publicitaires Radio et Journaux fixs, le fait de distribuer des extraits de catalogue gratuit
faisait diminuer les ventes!
Il faudrait donc faire une autre rgression en supprimant cette variable.
Page 85
La rgression linaire
Toutes ces transformations, simples raliser avec SPSS, doivent tre valides par un
nouveau graphique (faisant intervenir ou non la droite de rgression) et aussi par le calcul des
corrlations simples ventuellement.
Application notre exemple, les trois graphiques sont les suivants :
Les graphiques n'infirment pas les hypothses du modle de rgression, ce qui est confirm en
calculant les corrlations simples entre la variable expliquer et les variables explicatives :
Corrlations
N 22 22 22 22
Validation statistique
La validation statistique se fait en fonction d'un risque de premire espce fix, gnralement
5% ou 1%.
La premire validation est la validation globale, cette validation se fait l'aide du tableau
d'analyse de la variance. Il suffit de vrifier que le niveau de signification de la statistique de
Fisher est infrieur au risque de premire espce. Si ce n'est pas le cas, l'ensemble des
variables explicatives est rejeter, au moins sans transformation nouvelle, l'analyse s'arrte l.
Si le modle est globalement accept, il faut ensuite passer la validation marginale. Sur
notre exemple le niveau de signification est quasi nul, trs infrieur 1%, donc nous validons
globalement notre modle.
La validation marginale se fait l'aide du tableau du modle, pour que le modle soit
statistiquement acceptable, il faut que le niveau de signification de chacun des tc soit infrieur
au risque de premire espce. Si ce n'est pas le cas, il est ncessaire d'ter au moins une des
Page 86
La rgression linaire
variables explicatives prises en compte, gnralement on enlvera une et une seule des
variables dont l'apport marginal est non significatif.
Sur notre exemple, seule la variable Gratuits n'est pas marginalement significative nous
pouvons alors tester un modle sans cette variable. Le tableau du modle est alors le suivant :
a
Coefficients
Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.
Cette fois toutes les variables sont marginalement significatives et le modle est donc
acceptable statistiquement.
Validation conomique
Une fois le modle accept statistiquement, il est bon de vrifier que les signes des
coefficients sont cohrents avec ce que l'analyste attendait ; sinon des raisons de cette
incohrence sont rechercher conomiquement et non pas statistiquement.
Sur notre exemple, le modle valide statistiquement est cohrent d'un point de vue
conomique, les deux coefficients sont positifs, comme il est naturel de le supposer : la
publicit fait augmenter les ventes. Le modle nous permet d'ailleurs de quantifier cet effet,
budget Radio fix, 1000 de publicit dans les journaux font augmenter les ventes de 32 500
environ, et budget Journaux fix 1000 de publicit la Radio fait augmenter les ventes de
23 600 environ.
Remarque : en comparant les deux listings de rgression, on obtient les rsums suivants :
Modle R2 Erreur Standard
3 variables 0,83945 138,034
2 variables 0,83941 134,37
Comme nous l'avions dit le coefficient de dtermination est plus grand dans le modle trois
variables que dans le modle deux, ce qui est purement mathmatique, mais ne garantit en
rien une meilleure adquation du modle aux donnes; En revanche l'erreur type, estimation
de l'cart type des rsidus est nettement plus faible pour le modle 2 variables que pour le
modle 3 variables, ce qui confirme bien l'inutilit de l'une des variables.
Analyse des rsidus
Quand un modle est satisfaisant statistiquement et conomiquement, il nous reste vrifier
que les hypothses faites sur les rsidus, la normalit, l'indpendance et l' homoscdasticit.
Page 87
La rgression linaire
L'indpendance n'est facilement vrifiable que lorsque les variables sont temporelles, dans ce
cas le plus simple est de reprsenter sur un graphique cartsien le rsidu en t en fonction du
rsidu en t-1 (on peut aussi utiliser la statistique de Durbin-Watson).
On appelle rsidu standardiss, les rsidus diviss par l'erreur standard. L'option "enregistrer"
du menu rgression linaire de SPSS permet de crer des variables associes aux rsidus
standardiss ou non, ainsi que les valeurs prdites (moyennes) par le modle et l'intervalle de
confiance de cette moyenne.
Su le graphique de gauche, les points sont bien aligns sur la diagonale, il n'y a pas lieu de
remettre en cause la normalit des rsidus, sur le graphique de gauche on ne remarque aucune
forme particulire du nuage, qui est bien "quilibr" autour de l'axe des abscisses,
l'homoscdasticit ne semble pas non plus remettre en cause.
Choix d'un modle de rgression
En pratique, il est frquent de se trouver face plusieurs modles satisfaisant tant
statistiquement qu'conomiquement, se pose alors le problme du choix du modle. Nous
avons vu que le coefficient n'tait pas un bon indicateur pour choisir entre diffrents modles,
quand le nombre de variables explicatives n'est pas le mme pour tous les modles.
L'indicateur qui nous semble le plus appropri pour choisir un modle est l'erreur type de
rgression, elle donne une indication non biaise sur la dispersion autour de la valeur
moyenne calcule par la partie dterministe du modle. Il est toutefois important de distinguer
entre un modle descriptif et un modle prdictif, si le modle est uniquement descriptif (pour
valider une thorie par exemple), le modle de moindre erreur type s'impose, c'est celui qui
fournira le plus d'indications sur les variations de la variable expliquer. En revanche, si le
modle est usage prdictif, il sera important alors de prendre aussi en compte la facilit
qu'aura le dcideur prvoir la valeur des variables explicatives, on aura alors tendance
privilgier un modle ne faisant intervenir que des variables explicatives sous le contrle du
dcideur.
Page 88
La rgression linaire
Page 89
La rgression linaire
X
j =1
1j =1
ce qui signifie qu'un individu statistique prsente une modalit et une seule. Un modle de
rgression incluant les m variables ne peut donc tre dtermin, puisqu'il suffirait de
remplacer l'une des variables par l'oppos de la somme des autres pour avoir un modle
quivalent. Il nous faudra donc liminer l'une quelconque de ces variables pour obtenir un
modle dterminable. Si toutes les variables incluses dans le modle prennent la valeur 0, ceci
signifie que l'individu pris en compte prsente la modalit associe la variable absente de la
rgression.
Cration des indicatrices sous SPSS
La cration des indicatrices se fait sous SPSS en utilisant le menu Transformer/Crer de
nouvelles variables. Il nest bien sur utile de crer que m-1 indicatrices. Nous avons crer ici
les variables Enseigne1, Enseigne2, Rgion1, Rgion2, Rgion3.
Interprtation des coefficients du modle
Nous allons nous placer par le cas d'une seule variable explicative qualitative m modalits
X, reprsentes par m-1 variables indicatrices (X j )1 j m1 dans la rgression, le modle est
alors le suivant :
Y = 0 + 1 X 1 + 2 X 2 + K + m 1 X m 1 +
Les seules valeurs possibles pour X j sont 1 ou 0, mais une seule des variables au plus est non
nulle, si toutes les variables sont nulles, ce qui correspond l'appartenance la modalit
absente m par exemple, la moyenne m = 0 , si seule la variable indicatrice X 1 est non nulle
la moyenne correspondante est 1 = 0 + 1 , de manire gnrale si seule la variable X j est
non nulle la moyenne correspondant cette modalit est j = 0 + j . Aux coefficients de la
rgression on peut donc associer :
Pour le coefficient constant : la moyenne de la variable Y restreinte la sous
population prsentant la modalit absente. Cette modalit sera la modalit de
rfrence.
Pour les autres coefficients : la diffrence des moyennes entre variable Y restreinte
la sous population prsentant la modalit j et la variable Y restreinte la sous
population prsentant la modalit absente.
Le test partiel de Student revient donc vrifier que les moyennes entre une modalit et la
modalit absente sont diffrentes. On a donc une gnralisation du test de comparaison de
deux moyennes, vu dans le chapitre prcdent. Notons cependant que l'hypothse
d'homoscdasticit des rsidus revient ne faire le test qu'en supposant les variances gales
sur chacune des sous populations.
Page 90
La rgression linaire
a
Coefficients
Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.
La modalit de rfrence est la modalit 3, les estimations des moyennes des ventes dans les
magasins par enseigne sont les suivantes
Enseigne 3 (constante de la rgression b0 ) : 226,86*100=22 686.
Enseigne 1 (b0 + b1 ) : (226,86-69,77)*100 = 157,09*100=15 709
Enseigne 1 (b0 + b2 ) : (226,86+119,14)*100 = 346,10*100=34 610
Comme tous les tc sont significatifs au risque de premire espce de 5%, on peut donc
considrer qu'il y a une diffrence significative entre les enseignes, qui seront classes dans
l'ordre croissant des ventes : Enseigne 1, Enseigne 3, Enseigne 2.
Test de l'influence d'une variable qualitative
Si nous introduisons dans le modle prcdent les variables indicatrices de la rgion (des trois
premires rgions) nous obtenons le tableau du modle suivant :
a
Coefficients
Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.
Page 91
La rgression linaire
Principe du test
Comme nous l'avons fait pour une variable quantitative il serait en fait plus intressant de
pouvoir tester l'influence marginale d'une variable qualitative quand d'autres variables sont
dans la rgression. Le problme est ici diffrent dans la mesure o nous serons conduits
tester l'influence marginale d'un groupe de variables (les variables indicatrices associes la
variable qualitative) et non plus d'une seule variable. Nous nous intresserons ici au test de
l'influence d'un groupe de m variables explicatives parmi p, que ces variables correspondent
une variable qualitative ou non.
Pour simplifier les notations, et sans rien perdre de la gnralit du propos, nous supposons
que le groupe de m variables dont nous voulons tester l'influence marginale sont les m
dernires X p m+1 , X p m+ 2 , K , X p . Le test se posera alors de la faon suivante :
H 0 : p m +1 = p m+ 2 = K = p
H 1 : j [1, m] p j 0
Nous serons donc conduits comparer deux modles :
Le modle dit complet, comprenant les p variables explicatives. Nous noterons
respectivement SCEC et SCRC la somme des carrs explique et la somme des
carrs rsiduel de ce modle et RC2 son coefficient de dtermination. SCT
dsignera la somme des carrs totale qui est la mme pour tous les modles.
Le modle dit partiel ne comprenant que les p-m premires variables explicatives.
Nous noterons SCEP la somme des carrs explique de ce modle, R P2 son
coefficient de dtermination.
Le principe du test sera identique celui du test global : si les m variables explicatives
supplmentaires ne sont pas plus intressantes que les variables associes la partie rsiduelle
du modle complet, autant les laisser dans cette partie. Pour juger de l'apport des m variables
explicatives supplmentaires, il suffit de prendre comme indicateur la diminution de la somme
des carrs due leur introduction dans le modle ; pour pouvoir le comparer aux rsidus on
utilisera en fait la diminution moyenne par variable introduite dans le modle. La statistique
que nous utiliserons, appele statistique de Fisher Partiel, sera alors :
(SCEC SCEP )
FP = m en divisant numrateur et dnominateur par SCT on obtient une
SCRC
(n p 1)
(R 2
C RP2 )
dfinition quivalente souvent utilise dans la littrature statistique FP = m
(1 R )
2
.
(n p 1)
C
Sous l'hypothse nulle cette statistique suit une loi de Fisher-Snedecor (m,n-p-1) degrs de
libert, comme pour la statistique F globale, on rejette l'hypothse H0 si la valeur observe est
Page 92
La rgression linaire
Gp-m SCEC-SCEm pm S pm
= SM p m f pm =
p
SM p m (
prob F p m ,n p 1 > f pp m )
= Sp-m pm SCRM
Rsidus SCRC n p 1 SCRC
= SCRM
n p 1
Totale SCT n 1
La premire ligne du tableau correspond l'analyse de la variance du modle complet, elle
permet de tester l'influence globale des variables explicatives, les deux lignes suivantes
permettent de tester l'influence marginale de chacun des groupes de variables Gm et Gp-m. Si
l'un des deux niveaux de signification est suprieur a, ce groupe de variables peut tre t de
la rgression.
Page 93
La rgression linaire
Ce qui donne les valeurs (modle corrig prenant en compte enseigne et rgion) :
Variable dpendante:Ventes
On constate sur ce tableau que la variable Rgion n'a aucun apport marginal significatif,
puisque son niveau de signification est de 50% environ, trs largement suprieur au risque
habituel de 5%.
Comme nous avons vu plus haut que le modle Ventes/Enseigne tait valable statistiquement
nous ne garderons que la variable qualitative Enseigne.
Page 94
La rgression linaire
Page 95
La rgression linaire
Variables Variables
Modle introduites supprimes Mthode
1 Rgion3, . Entre
Enseigne2,
Rgion2,
Enseigne1,
a
Rgion1
Les caractristiques de chaque modle (on peut remarquer que le R2 diminue, mais ni le R2
ajust, ni lerreur standard) :
Erreur standard
Modle R R-deux R-deux ajust de l'estimation
a
1 ,803 ,645 ,546 67,753
b
2 ,802 ,644 ,569 66,040
c
3 ,799 ,638 ,584 64,883
d
4 ,789 ,623 ,587 64,642
Page 96
La rgression linaire
e
ANOVA
Total 232651,333 23
b
2 Rgression 149786,081 4 37446,520 8,586 ,000
Total 232651,333 23
c
3 Rgression 148454,479 3 49484,826 11,755 ,000
Total 232651,333 23
d
4 Rgression 144900,958 2 72450,479 17,339 ,000
Total 232651,333 23
Page 97
La rgression linaire
a
Coefficients
Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.
Le dernier modle est la fois valide globalement et marginalement, il est donc acceptable
statistiquement.
Remarques :
Le modle obtenu par rgression pas pas backward n'est pas le mme que celui
obtenu par analyse du F partiel.
La variable explicative Rgion1 n'tait pas significative dans les deux premires
tapes du processus, ceci tait du une forte corrlation entre cette variable et la
variable Enseigne1, c'est ce qui explique le rsultat final : les enseignes sont en fait
un facteur explicatif des variations des ventes. Si la rgion apparat ici c'est
uniquement du un biais qui est la sur reprsentation de l'enseigne 1 dans la
rgion1.
Page 98
La rgression linaire
Un dernier tableau donne pour chaque rgression, la validit ventuelle de chacune des
variables qui ont t exclues, si elle tait introduit dans le modle de cette tape. La tolrance
est une indication de colinarit entre la variable hors rgression et lensemble des variables
dans la rgression :
d
Variables exclues
Statistiques de
Corrlation colinarit
Modle Bta dans t Sig. partielle Tolrance
a
2 Rgion3 ,041 ,227 ,823 ,054 ,618
b
3 Rgion3 ,061 ,358 ,724 ,082 ,656
b
Enseigne1 -,121 -,553 ,587 -,126 ,389
c
4 Rgion3 ,109 ,726 ,476 ,160 ,813
c
Enseigne1 -,153 -,718 ,481 -,159 ,403
c
Rgion2 -,142 -,919 ,369 -,201 ,758
Page 99
La rgression linaire
Page 100
La rgression linaire
Corrlations
Prix Km
Prix 1 ,756
Km ,756 1
Rcapitulatif du modle
Erreur standard
Modle R R-deux R-deux ajust de l'estimation
ANOVA
Total 39560,958 41
Coefficients
Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.
Annexe 3 - Rsidus
Station Rsidus Standards Station Rsidus Standards
Page 101
La rgression linaire
Page 102
La rgression linaire
Erreur standard
Modle R R-deux R-deux ajust de l'estimation
ANOVA
Total 21417,805 40
Coefficients
Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.
Page 103
La rgression linaire
Page 104
La rgression linaire
Erreur standard
Modle R R-deux R-deux ajust de l'estimation
a
1 ,969 ,939 ,935 39,670
Total 409693,778 17
Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.
Erreur standard
Modle R R-deux R-deux ajust de l'estimation
a
1 ,954 ,910 ,905 47,904
b
ANOVA
Page 105
La rgression linaire
Total 409693,778 17
Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.
Erreur standard
Modle R R-deux R-deux ajust de l'estimation
a
1 ,966 ,933 ,929 41,501
Total 409693,778 17
a
Coefficients
Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.
Page 106
La rgression linaire
Erreur standard
Modle R R-deux R-deux ajust de l'estimation
a
1 ,962 ,926 ,921 43,525
Total 409693,778 17
Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.
Page 107
La rgression linaire
Erreur standard
Modle R R-deux R-deux ajust de l'estimation
a
1 ,990 ,980 ,977 23,545
b
ANOVA
Total 409693,778 17
a
Coefficients
Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.
Erreur standard
Modle R R-deux R-deux ajust de l'estimation
a
1 ,991 ,982 ,979 22,258
Page 108
La rgression linaire
b
ANOVA
Total 409693,778 17
a
Coefficients
Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.
Erreur standard
Modle R R-deux R-deux ajust de l'estimation
a
1 ,989 ,978 ,976 24,245
b
ANOVA
Total 409693,778 17
Page 109
La rgression linaire
a
Coefficients
Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.
Erreur standard
Modle R R-deux R-deux ajust de l'estimation
a
1 ,979 ,958 ,952 34,056
b
ANOVA
Total 409693,778 17
a
Coefficients
Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.
Page 110
La rgression linaire
Erreur standard
Modle R R-deux R-deux ajust de l'estimation
a
1 ,968 ,937 ,929 41,440
b
ANOVA
Total 409693,778 17
a
Coefficients
Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.
Erreur standard
Modle R R-deux R-deux ajust de l'estimation
a
1 ,966 ,933 ,924 42,743
Page 111
La rgression linaire
b
ANOVA
Total 409693,778 17
a
Coefficients
Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.
Page 112
La rgression linaire
1) Etude des ventes en fonction des deux variables publicit et nombre de reprsentant.
a) Le modle de rgression linaire vous semble-t-il adapt?
b) Quelle est l'influence de chacune des variables prise sparment sur les variations des
ventes?
c) Le modle deux variables est-il valide statistiquement et conomiquement?
d) Sachant que le cot mensuel moyen d'un reprsentant est de 2000 et le cot moyen
d'une page de publicit de 650, pour quelle marge unitaire sur le produit est-il plus
intressant d'embaucher un reprsentant ou de faire une page de publicit
supplmentaire.
2) Etude des ventes en fonction de la qualit du grossiste
a) Le charg d'tude considre que la note de qualit est une variable quantitative et
procde une rgression simple sur cette variable. Analyser les rsultats obtenus.
b) Le directeur commercial n'est pas d'accord, il pense que l'on doit considrer cette
variable comme qualitative quatre modalits. Il demande de procder une tude en
prenant la modalit 4 comme modalit de rfrence. Analyser les rsultats. En prenant
un risque a de 0,05 peut considrer que les modalits 3 et 4 sont diffrentes? Qu'en
conclure?
c) Quel modle explicatif des variations des ventes en fonction de la qualit du grossiste
vous parat le mieux adapt?
3) Analyser le modle construit avec les trois variables.
Reprsentations graphiques
Page 113
La rgression linaire
Erreur standard
Modle R R-deux R-deux ajust de l'estimation
a
1 ,744 ,554 ,542 207,907
b
ANOVA
Total 3683239,500 39
a
Coefficients
Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.
Page 114
La rgression linaire
Erreur standard
Modle R R-deux R-deux ajust de l'estimation
a
1 ,801 ,642 ,633 186,182
b
ANOVA
Total 3683239,500 39
a
Coefficients
Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.
Page 115
La rgression linaire
Erreur standard
Modle R R-deux R-deux ajust de l'estimation
a
1 ,872 ,761 ,755 152,220
b
ANOVA
Total 3683239,500 39
a
Coefficients
Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.
Erreur standard
Modle R R-deux R-deux ajust de l'estimation
a
1 ,828 ,685 ,668 177,091
Page 116
La rgression linaire
b
ANOVA
Total 3683239,500 39
a
Coefficients
Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.
Erreur standard
Modle R R-deux R-deux ajust de l'estimation
a
1 ,928 ,862 ,850 118,876
b
ANOVA
Total 3683239,500 39
Page 117
La rgression linaire
a
Coefficients
Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.
Erreur standard
Modle R R-deux R-deux ajust de l'estimation
a
1 ,927 ,860 ,852 118,138
b
ANOVA
Total 3683239,500 39
a
Coefficients
Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.
Page 118
La rgression linaire
Erreur standard
Modle R R-deux R-deux ajust de l'estimation
a
1 ,994 ,989 ,987 34,761
b
ANOVA
Total 3683239,500 39
a. Valeurs prdites : (constantes), Mauvais, Pages de Publicit, Trs Mauvais, Nombre Repr.
a
Coefficients
Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.
Page 119
La rgression linaire
5
La DV est gale au rapport des CA des magasins offrant la marque divise par la somme des CA de tous les
magasins de la zone. La DV donne une ide de la reprsentation, pondre par limportance des magasins, de la
marque dans la zone de chalandise.
Page 120
La rgression linaire
3- La rgion a-t-elle une influence significative sur le chiffre daffaires ? Classer les rgions
en fonction du chiffre daffaires moyen.
Etude des deux variables qualitatives simultanment
1- Quelle est la validit statistique du modle obtenue ?
2- Analyser le tableau de l'analyse de la variance, conservez-vous les deux variables
explicatives ?
3- Quel modle variable(s) explicative(s) qualitative(s) conseillez-vous ?
Conclusion :
Quel modle vous semble-t-il le plus adapt pour lexplication et la prvision du chiffre
daffaires ?
Page 121