0% ont trouvé ce document utile (0 vote)
66 vues93 pages

CH1 Stat Mines

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1/ 93

Statistique descriptive univariée et bivariée

M. Fihri & I. Medarhri


m.fihri@um5r.ac.ma

MINES — Rabat (1/93) Pr. M. Fihri & Pr. I. Medarhri


1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

1 Statistique descriptive univariée


1.1 Vocabulaire Statistique

La Statistique est la science du traitement de l’information et de la prise


de décision. Elle englobe un ensemble de méthodes et théories appliquées à
l’analyse des données associées à une simulation ou à un phénomène dont le
comportement ne peut être décrit avec certitude mais plutôt être analysé dans
un contexte d’incertitude. Le but de l’utilisation de ces méthodes est d’arriver
à des conclusions pratiques pour éventuellement proposer des recommandations
et des mesures correctives s’il y a lieu.
Statistics is the science of information processing and decision-making.
It encompasses a set of methods and theories applied to the analysis
of data associated with a simulation or a phenomenon whose behavior
cannot be described with certainty but rather analyzed in a context of
uncertainty. The goal of using these methods is to draw practical conclusions,
eventually proposing recommendations and corrective measures if necessary.
Dans un autre autre sens on appelle une statistique une donnée ou une
information tirée d’une population (ou d’un échantillon), c’est la collection

MINES — Rabat (2/93) Pr. M. Fihri & Pr. I. Medarhri


1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

des données numériques (chiffres), relatif à un phénomène, à une activité etc :


gestion financière (états, banques, assurances, entreprises...), démographie,
contrôles de qualité, études de marché, sciences expérimentales (biologie,
psychologie...).
In another sense, a statistic is data or information drawn from a
population (or a sample). It is the collection of numerical data (figures)
related to a phenomenon, an activity, etc. : financial management (statements,
banks, insurance, companies...), demography, quality control, market studies,
experimental sciences (biology, psychology...).
La Statistique Descriptive (univariée, bivariée, multivariée) a pour
objet de proposer une description simple, clairement présentée et aussi complète
que possible d’un ensemble des données (ou informations) que l’on possède
sur un sujet.
Descriptive Statistics (univariate, bivariate, multivariate) aims to
provide a simple, clearly presented, and as comprehensive as possible
description of a set of data (or information) that one possesses on a
subject.
Ci-après quelques définitions de base pour développer le vocabulaire statistique.
Définition 1.1.
MINES — Rabat (3/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

1. La science statistique : Méthode scientifique du traitement des


données. La statistique s’applique dans la plupart des disciplines :
agronomie, biologie, démographie, économie, sociologie, linguistique,
psychologie, ...
2. Statistique Descriptive et Inférentielle : La Statistique Descriptive
à pour objectif de traiter les données, et d’en dégager certaines conclusions.
La Statistique Inférentielle est la statistique inductive a pour
objectif de tirer des conclusions et des décisions sur une population
à partir d’un échantillon (sous-population) tiré de cette population.
3. Population : La population est l’ensemble des éléments sur lesquels
porte une étude statistique.
Exemple : Dans une usine fabriquant des produits d’éclairage, on
a mesuré la durée de vie de certaines type lampes. L’ensemble des
lampes fabriquées au cours de cette étude constitue la population.
4. Individu : L’individu (ou aussi appelé unité statistique) est l’un des
éléments de la population, qui est soumis à une étude statistique.
Exemple : Dans l’exemple précédent de l’usine fabriquant des produits
d’éclairage. Chaque lampe est un individu de la population.
MINES — Rabat (4/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

5. Échantillon : L’échantillon est un sous ensemble tiré aléatoirement


d’une population (la taille de l’échantillon est raisonnable par rapport
à la taille de la population, lorsque cette dernière est impossible de
la tirer entièrement, on a recours à l’échantillonnage).
6. Caractère et Modalité : Le caractère (ou variable statistique)
représente l’objectif de l’étude statistique, c’est la caractéristique étudiée
sur tous les individus de la population (on le note par des lettres
majuscules X, Y , ...). Le résultat pris par chaque individu est appelé
modalité.
Exemple : Dans l’exemple précédent de l’usine fabriquant des produits
d’éclairage. L’objectif est de mesurer la durée de vie de certaines
type lampes. Donc la variable statistique est X : ”durée de vie des
lampes”. les résultats peuvent êtres : 5h, 0h, 2h, ... ces derniers sont
les modalités de la variables.
Les modalités nous permettent de distinguer les types de la variable.
Définition 1.2.
1. Statistical science : Scientific method of data processing. Statistics
is applied in most disciplines : agronomy, biology, demography, economics,
MINES — Rabat (5/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

sociology, linguistics, psychology, ...


2. Descriptive and Inferential Statistics : Descriptive Statistics
aims to process data and draw certain conclusions. Inferential Statistics
is inductive statistics that aim to draw conclusions and make decisions
about a population based on a sample (sub-population) drawn from
that population.
3. Population : The population is the set of elements on which a
statistical study focuses.
Example : In a factory manufacturing lighting products, the lifespan
of a certain type of lamp has been measured. The set of lamps manufactured
during this study constitutes the population.
4. Individual : The individual (also called a statistical unit) is one of
the elements of the population subject to statistical study.
Example : In the previous example of the factory manufacturing
lighting products, each lamp is an individual in the population.
5. Sample : The sample is a randomly drawn subset of a population
(the sample size is reasonable compared to the population size, and
when it is impossible to draw the entire population, sampling is used).
MINES — Rabat (6/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

6. Variable and Modality : The variable (or statistical variable)


represents the objective of the statistical study. It is the characteristic
studied on all individuals in the population (denoted by uppercase
letters X, Y , ...). The result taken by each individual is called a
modality (outcome).
Example : In the previous example of the factory manufacturing
lighting products, the objective is to measure the lifespan of a certain
type of lamp. So the statistical variable is X : ”lifespan of lamps.”
The results can be : 5h, 0h, 2h, ... these are the modalities of the
variable.
Modalties allow us to distinguish between the types of the variable.
Définition 1.3 (Variable qualitative et Variable quantitative).
1. Un caractère (ou une variable) est dit quantitatif si ses modalités
sont mesurables, sinon le caractère est dit qualitatif.
2. Un caractère quantitatif peut être
(a) discret : Lorsque le caractère statistique prend un nombre fini
de valeurs : entre deux valeurs successives de modalités il n’existe

MINES — Rabat (7/93) Pr. M. Fihri & Pr. I. Medarhri


1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

pas de valeur pour une autre modalité (nombre d’enfants, nombre de


pièces, ...),
(b) continu : Lorsque le caractère statistique peut prendre toutes
les valeurs d’un intervalle de l’ensemble des nombres réels : entre
deux valeurs successives de modalités il existe toujours une autre
valeur pour une modalité (durée de vie, taille, temps d’appel, ...).
3. Un caractère qualitatif peut être
(a) ordinal : lorsqu’on peut établir un ordre pour les modalités
(Appréciation de la qualité d’un produit consommé : excellente, bonne,
moyenne, mauvaise),
(b) nominal : lorsqu’on ne peut pas établir un tel ordre (La couleur :
jaune, bleue, verte, rouge, ...).

1.2 Tableau Statistique (Statistical Table)

— On appelle série statistique la suite des valeurs prises par une variable (un
caractère) X sur les unités d’observation, ces unités forment les modalités
de la variable.

MINES — Rabat (8/93) Pr. M. Fihri & Pr. I. Medarhri


1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

— Le nombre d’unités d’observation est noté n, c’est la taille totale de la


population.
— Les valeurs de la variable X sont notées x1, x2, ..., xn.

Sn = {x1, x2, ..., xn}


— Cette série statistique est non-groupée et d’où vient la définition du
tableau statistique.
— Le tableau statistique permet de regrouper la série en modalité/effectif :
on compte le nombre d’observations associé à chaque modalité puis on les
dresse dans un tableau (tableau statistique, ou distribution statistique)
Exemple 1.1. Soit la variable X représentant ”l’état civil de 20 employés
dans une entreprise”.
La série statistique des valeurs prises par X est la suivante :
M −M −D−C−C−M −C−C−C−M −C−M −V −M −V −D−C−C−C−M,
où, C : célibataire, M : marié(e), V : veuf(ve), D : divorcé(e).
Le tableau statistique associé à cette série statistique est le suivant :

MINES — Rabat (9/93) Pr. M. Fihri & Pr. I. Medarhri


1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

Modalité (xi) Effectif (ni)


C 9
M 7
V 2
D 2
Σ 20
Exemple 1.2. On a relevé une population de 50 ménages et la variable
X représentant ”le nombre de personnes par ménage”. Les valeurs de la
variable sont
1−1−1−1−1−2−2−2−2−2−2−2−2−2−3−3−3−3−3−3−3−3−3−3−3
3−3−3−3−4−4−4−4−4−4−4−4−4−4−5−5−5−5−5−5−6−6−6−8−8.
Le tableau statistique associé à cette série statistique est le suivant :

MINES — Rabat (10/93) Pr. M. Fihri & Pr. I. Medarhri


1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

Modalité (xi) Effectif (ni)


1 5
2 9
3 15
4 10
5 6
6 3
8 2
Σ 50
Exemple 1.3. Dans le domaine de l’ingénierie ferroviaire, considérons
une enquête portant sur la capacité d’occupation des wagons dans un
parc ferroviaire. La variable Y représente ”le nombre de passagers par
wagon”. Les valeurs de la variable sont les suivantes :
50−50−50−60−60−60−60−70−70−70−70−70−80−80−80−90−
90 − 90 − 90 − 90 − 90 − 100 − 100 − 100 − 100 − 100 − 110 − 110 − 110 − 120 −
120−130−130−130−140−140−150−150−150−150−160−160−170−170
Le tableau statistique associé à cette série statistique est le suivant :

MINES — Rabat (11/93) Pr. M. Fihri & Pr. I. Medarhri


1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

Modalité (yi) Effectif (ni)


[50, 80[ 12
[80, 120[ 17
[120, 150[ 7
[150, 170] 8
Remarque 1.1. En plus des effectifs, le tableau statistique contient d’autres
informations telles que : les fréquences, les effectifs cumulés et les fréquences
cumulées.

1.3 Effectif, fréquence, fréquence cumulée et effectif cumulé

– Cas discret :
Soit une série statistique à n observations et à k modalités discrètes x1, x2, ..., xk .
Le tableau statistique (complet) associé à cette série statistique est le suivant :

MINES — Rabat (12/93) Pr. M. Fihri & Pr. I. Medarhri


1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

Modalité (xi ) Effectif (ni ) Fréquence (fi ) Fréquence cumulée (Fi ) Effectif cumulé (Ni )

x1 n1 f1 F1 N1
x2 n2 f2 F2 N2
: : : : :
: : : : :
xi ni fi Fi Ni
: : : : :
: : : : :
xk nk fk Fk = 1 Nk = n
Σ n 1 // //
avec, pour i = 1, 2, ..., n :
• ni est l’effectif associé à la modalité xi.
• fi = nni est la fréquence associée à la modalité xi.
Pi
• Fi = j=1 fj est la fréquence cumulée associée à la modalité xi.
Pi
• Ni = j=1 nj est l’effectif cumulé associé à la modalité xi.
Pk Pk
De plus, on a i=1 ni = n, i=1 fi = 1 et Fi = Fi−1 + fi, ...
– Cas continu :
Une variable quantitative continue peut prendre une infinité de valeurs
MINES — Rabat (13/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

possibles. Soit une série statistique à n observations : x1, x2, ..., xn, on regroupe
les données sous forme de k classes.
Le tableau statistique (complet) associé à cette série statistique est le suivant :
Modalité (xi ) Effectif (ni ) Fréquence (fi ) Fréquence cumulée (Fi ) Effectif cumulé (Ni )

[v1, v2[ n1 f1 F1 N1
[v2, v3[ n2 f2 F2 N2
: : : : :
: : : : :
[vi, vi+1[ ni fi Fi Ni
: : : : :
: : : : :
[vk , vk+1[ nk fk Fk = 1 Nk = n
Σ n 1 // //
Si [vi, vi+1[ désigne la classe i, alors, pour i = 1, 2, ..., k :
— ni, fi, Fi et Ni se calculent de la même manière que dans le cas discret
et on a les mêmes propriétés,
— ci = vi+v2 i+1 est le centre de la classe [vi, vi+1[,
— ai = vi+1 − vi est l’amplitude de la classe [vi, vi+1[,
MINES — Rabat (14/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

— Il arrive que l’amplitude des classes extrêmes soit indéterminée,


— Détermination du nombre de classes :
Le nombre de classes ne devrait, en généraln être ni inférieur à 5 ni
supérieur à 20. De préférence, il varie entre 5 et 12 classes.
En pratique on peut utiliser une formule pour déterminer le nombre de
classes : Il s’agit de la formule de Sturges (la plus utilisée) ou la formule
de Yule :
Soient n la taille de la population et k le nombre de classes à utiliser,
alors :
10
Formule de Sturges : k = 1 + log10(n).
3√
Formule de Yule : k = 2.5 4 n.
On arrondit le nombre de classe k à l’entier le plus proche.
On calcule l’amplitude des classes : A = ke , avec e = xmax − xmin est
l’étendue de la série.
A partir de la plus petite valeur observée, on obtient les bornes de classes
en additionnant successivement par A et on retrouve l’intervalle de chaque
classe (qui a la même amplitude de tous les intervalles).
MINES — Rabat (15/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

Exemple 1.4. Les données suivantes sont les durées de vie en heures
de 30 lampes miniatures.
419 451 412 412 375 397 429 407 454 375 393 357 456 355 364 414
413 425 467 345 432 392 329 422 426 439 381 451 413 421
on suit, en général, les étapes suivantes :
1. On ordonne :
329 345 355 357 364 375 375 381 392 393 397 407 412 412 413
413 414 419 421 422 425 426 429 432 439 451 451 454 456 467
2. La formule de Sturges donne le nombre de classes :
k = 1 + 3, 33 log10(30) ≃ 6 ⇒ 6 classes.
3. On calcule l’étendue : e = xmax − xmin = 476 − 329 = 138.
e 138
4. On calcule l’amplitude des classes : A = = = 23.
k 6
5. On obtient le tableau des classes ci-dessous :

MINES — Rabat (16/93) Pr. M. Fihri & Pr. I. Medarhri


1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

Classe Effectif Fréquence Fréquence cumulée


[329,352[ 2 0,07 0,07
[352,375[ 3 0,1 0,17
[375,398[ 6 0,2 0,37
[398,421[ 7 0,23 0,6
[421,444[ 7 0,23 0,83
[444,467] 5 0,17 1
Total 30 1 //
— n3 = 6 : Effectif de la 3ème classe,
n3 6
— f3 = = = 0, 2 : Fréquence de la 3ème classe,
n 30
— F3 = F2 + f3 = 0, 17 + 0, 2 = 0, 37 : Fréquence cumulée de la 3ème
classe : représente la proportion des lampes ayant moins de 398.
– Cas qualitatif :
Lorsque la variable est qualitative, on ne calcule pas les fréquences cumulées
et les effectifs cumulés, ils n’ont pas de sens en statistique (...). les modalités
xi, i = 1, ..., k, deviennent des qualités et le tableau statistique (complet) a
la forme suivante :

MINES — Rabat (17/93) Pr. M. Fihri & Pr. I. Medarhri


1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

Modalité (xi ) Effectif (ni ) Fréquence (fi )

x1 n1 f1
x2 n2 f2
: : :
: : :
xi ni fi
: : :
: : :
xk nk fk
Σ n 1
ni
avec, fi = n, pour i = 1, 2, ..., n, est la fréquence associée à la modalité xi.
Exemple 1.5. (1) Reprenons l’exemple 1.1 sur la variable X représentant
”l’état civil de 20 employés dans une entreprise”.
Le tableau statistique (complet) associé à cette série statistique est le
suivant :

MINES — Rabat (18/93) Pr. M. Fihri & Pr. I. Medarhri


1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

Modalité (xi) Effectif (ni) Fréquence (fi)


C 9 0.45
M 7 0.35
V 2 0.10
D 2 0.10
Σ 20 1
(2) Reprenons l’exemple 1.2 de 50 ménages où la variable X représentant
”le nombre de personnes par ménage”.
Le tableau statistique (complet) associé à cette série statistique est le
suivant :
Modalité (xi ) Effectif (ni ) Effectif cumulé (Ni ) Fréquence (fi ) Fréquence cumulée (Fi )

1 5 5 0.10 0.10
2 9 14 0.18 0.28
3 15 29 0.30 0.58
4 10 39 0.20 0.78
5 6 45 0.12 0.90
6 3 48 0.06 0.96
8 2 50 0.04 1.00
Σ 50 // 1 //
MINES — Rabat (19/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

Exemple 1.6 (Autre Exemple). La répartition de 40 familles d’un


certain quartier de la ville selon le nombre d’enfants par famille est
donnée par le tableau suivant :
Nb d’enfants par famille Effectif Fréquence Fréquence cumulée
0 4 0,1 0,1
1 8 0,2 0,3
2 8 0,2 0,5
3 7 0,175 0,675
4 6 0,15 0,825
5 4 0,1 0,925
6 3 0,075 1
Total 40 1 //
n4 7
— n4 = 7 (resp. f4 = = = 0, 175) : Effectif (resp. Fréquence) de
n 40
ème
la 4 observation,
— n = Σni = n1 + ... + n7 = 40 : Effectif total,
— F1 = f1 = 0, 1 : Fréquence cumulée de la 1ère observation,
— F2 = f 1 + f2 = 0, 1 + 0, 2 = 0, 3 : Fréquence de la 2ème observation,
MINES — Rabat (20/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

— F4 = f1 + f2 + f3 + f4 = F3 + f4 = 0, 5 + 0, 175 = 0, 675 : Fréquence


cumulée de la 4ème observation,
— F7 = f1 + ... + f7 = F6 + f7 = 0, 925 + 0, 075=1 : Fréquence cumulée
de la dernière observation.

MINES — Rabat (21/93) Pr. M. Fihri & Pr. I. Medarhri


1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

1.4 Graphiques (Statistical Graphs)

Les représentations graphiques ont l’avantage de renseigner immédiatement


sur l’allure générale de la distribution. Elles facilitent l’interprétation des
données recueillies.

1.4.1 Variable qualitative

Pour les variables qualitatives, on trace le diagramme en barres (tuyaux


d’orgue) des effectifs (ou des fréquence), ou le diagramme en
secteur (circulaire).
Exemple 1.7. Moyens de transport des étudiants pour se rendre à l’université.
Modalité Effectif Fréquence
Auto 51 0,23
Bus 64 0,29
Marche 92 0,4
Moto 6 0,03
Vélo 11 0,05
Total 224 1
MINES — Rabat (22/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

Tuyaux d’orgue Diagramme circulaire


Bus : Angle = 0, 29 × 360 = 102, 85.
En général : pour une modalité ayant une fréquence fi l’angle associée est
calculée par la formule suivante :

Anglei = fi × 360
.

1.4.2 Variable quantitative discrète

Dans le cas où la variable est quantitative discrète, on trace le diagramme


en bâtons des effectifs (ou des fréquences).
Exemple 1.8. On reprend l’exemple 1.6 de la répartition du nombre
d’enfants de 40 famille (page 20).
MINES — Rabat (23/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

Figure 1 – Diagramme en bâtons des effectifs du nombre d’enfants de 40 famille

Définition 1.4 (Polygone des effectifs (ou des fréquences)).


le polygone des effectifs (ou des fréquences) est obtenu en joignant les
sommets de chaque bâton par des segments de droites. la seule utilité est
de présenter l’allure générale de la distribution des fréquences (ou des
effectifs).

1.4.3 Variable quantitative continue

Dans le cas où la variable est quantitative continue, on trace l’histogramme


(des fréquences ou des effectifs), en regroupant les données sous forme de
classes. Les amplitudes de ces classes peuvent être égales ou non.
Si les classes sont définies et ont la même amplitude A, on trace des
rectangles dont la base est l’amplitude A de la classe la hauteur est égale

MINES — Rabat (24/93) Pr. M. Fihri & Pr. I. Medarhri


1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

à la fréquence fi (ou l’éffectif ni) associée à chaque classe.


Si les classes ne sont pas définies, on utilise la formule de Sturges qui
permettra de donner le nombre de classe selon la taille de la population.
Exemple 1.9. Reprenons l’exemple 1.4 (page 15) :
l’histogramme des fréquences associée cette distribution est donné dans
la figure suivante :
Classe Effectif Fréquence
[329,352[ 2 0,07
[352,375[ 3 0,1
[375,398[ 6 0,2
[398,421[ 7 0,23
[421,444[ 7 0,23
[444,467] 5 0,17
Total 30 1

Définition 1.5 (Polygone des effectifs (ou des fréquences)).


Le polygone des effectifs (ou des fréquences) est obtenu en joignant
les milieux des sommets de chaque rectangle de l’histogramme par des
MINES — Rabat (25/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

Figure 2 – Histogramme des fréquences

segments de droites. la seule utilité est de présenter l’allure générale de


la distribution des fréquences (ou des effectifs), c’est le graphe commun
entre les deux caractères continu et discret.
Exemple 1.10. Reprenons l’exemple 1.4 (page 15). On trace le polygone
des fréquences en reliant les centres des classes (figure 3).
Remarque 1.2. — Dans le cas où les classes ont des amplitudes différentes,
pour chaque classe on trace un rectangle dont la base est l’amplitude
ai de la classe mais dont la hauteur est égale à la fréquence corrigée

MINES — Rabat (26/93) Pr. M. Fihri & Pr. I. Medarhri


1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

Figure 3 – Polygone des fréquences

fic obtenue ainsi :


fi
fic
= × a0
ai
où fi est la fréquence de la classe [xi, xi+1[ et a0 l’amplitude de base
choisie (c’est généralement la plus petite, ou on prend a0 = 1).

— On pourra aussi travailler avec les effectifs corrigés nci de la même


manière :
c ni
ni = × a0.
ai
— La correction des effectifs (ou des fréquences) sert seulement
à tracer l’histogramme des effectifs (ou des fréquences) et
MINES — Rabat (27/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

à la définition de la classe modale.

1.4.4 Courbe cumulative croissante (Fonction de répartition)

– Cas discret :
La représentation de la fonction cumulative croissante (appelée aussi fonction
de répartition) est réalisée au moyen des fréquences cumulées. Cette fonction
est définie de R dans [0, 1] et vaut, pour i = 1, 2, ..., k (où k est le nombre de
modalités discrètes) :

 0 si x < x1
F (x) = Fi si xi ≤ x < xi+1
1 si x ≥ xk

Exemple 1.11. Reprenons l’exemple 1.2 de 50 ménages où la variable X


représentant ”le nombre de personnes par ménage” (page 10). la fonction
de répartition (fonction cumulative) est représentée comme suit :
– Cas continu :
La courbe cumulative des fréquences de d’une distribution statistique (définie
par des classes [xi, xi+1[ et des fréquences cumulées Fi) s’obtient en liant les
points Ai(xi+1, Fi) par des segments (pour i = 1, 2, ..., k, avec k est le nombre
MINES — Rabat (28/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

Figure 4 – Courbe cumulative croissante de la variable discrète X

de classe, xk+1 = xmax et x1 = xmin). Il s’agit d’une fonction continue définie


de R dans [0, 1] dont sa limite en −∞ vaut 0 et en +∞ vaut 1.
Exemple : La courbe cumulative de l’exemple de la page 15 est la suivante :

Les tableaux et les graphes permettent d’obtenir une première image de


la distribution des données. Pour améliorer ou éclaircir plus cette image, on

MINES — Rabat (29/93) Pr. M. Fihri & Pr. I. Medarhri


1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

Figure 5 – Courbe cumulative croissante de la variable continue X

introduit de nouveaux indicateurs statistiques qui caractériseront la distribution :


On distingue des mesure de tendance centrale, des mesures de dispersion et
des mesures de forme (on peut aussi chercher des aspects particuliers : valeurs
extrêmes, groupe de valeurs, ...). Ces mesures ne sont calculées que dans
le cas d’un caractère quantitatif (non groupé ou groupé : discret,
continu).

MINES — Rabat (30/93) Pr. M. Fihri & Pr. I. Medarhri


1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

1.5 Mesures de tendance centrale


1.5.1 Mode

Variable quantitative discrète


Définition 1.6. Le mode, noté mo est la valeur de la variable ayant le
plus grand effectif (ou la plus grande fréquence). Si la série admet deux
modes on dit que la distribution et bimodale et note les deux modes.
Exemple 1.12. On reprend l’exemple de la page 20 du nombre d’enfants
par famille.
Nb d’enfants par famille Effectif Fréquence Fréquence cummulée
0 4 0,1 0,1
1 8 0,2 0,3
2 8 0,2 0,5
3 7 0,175 0,675
4 6 0,15 0,825
5 4 0,1 0,925
6 3 0,075 1
Total 40 1 //
MINES — Rabat (31/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

On dispose de deux modes mo = 1 ou mo = 2. Il s’agit d’une série


statistique bimodale.
Variable quantitative continue (classe modale)
Définition 1.7. — La classe modale est la classe de la variable ayant
le plus grand effectif (ou la plus grande fréquence).
— On peut considérer le mode comme la valeur milieu de la classe
modale.
— Si les classes ont des amplitudes inégales, alors la classe modale est
la classe associée au plus grand effectif corrigé ou la plus grande
fréquence corrigée.
Exemple 1.13. On reprend l’exemple 1.4 des lampes.

MINES — Rabat (32/93) Pr. M. Fihri & Pr. I. Medarhri


1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

Classe Effectif Fréquence Fréquence cummulée


[329,352[ 2 0,07 0,1
[352,375[ 3 0,1 0,17
[375,398[ 6 0,2 0,37
[398,421[ 7 0,23 0,6
[421,444[ 7 0,23 0,83
[444,467] 5 0,17 1
Total 30 1
Ici aussi, on dispose de deux classes modales [398, 421[ et [421, 444[, directement
puisque les classes ont la même amplitude.

1.5.2 Moyenne (mean)

La moyenne constitue l’un des paramètres fondamentaux de tendance centrale


mais non suffisant pour caractériser une distribution. Complémentaire du
mode. La moyenne constitue la mesure la plus calculée et la plus utilisée lors
de la description de séries statistiques. Il existe plusieurs types de moyennes,
chacun adapté à des situations précises :
Moyenne arithmétique
MINES — Rabat (33/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

La moyenne arithmétique (souvent appelée moyenne), notée x̄, d’une variable


dans une série statistique est définie par :
— Cas discret :
k k
1X n1x1 + ... + nk xk X
x̄ = nixi = = fi x i ,
n i=1 n i=1
où x1, .., xk sont les différentes valeurs de la variable.
— Cas continu :
k k
1X n1c1 + ... + nk ck X
x̄ = nici = = fici,
n i=1 n1 + ... + nk i=1
vi + vi+1
où ci = est le centre de la classe [vi, vi+1[.
2
— Cas où les données ne sont pas groupées :
n
1X
x̄ = xi ,
n i=1
où n est la taille de la série statistique.
MINES — Rabat (34/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

Exemple 1.14. On reprend l’exemple 1.6 du nombre d’enfants par famille


(page 20).
Nombre d’enfants par famille Effectif Fréquence Fréquence cumulée
0 4 0,1 0,1
1 8 0,2 0,3
2 8 0,2 0,5
3 7 0,175 0,675
4 6 0,15 0,825
5 4 0,1 0,925
6 3 0,075 1
Total 40 1
4 × 0 + 8 × 1 + ... + 3 × 6 107
La moyenne est : x̄ = = = 2, 675.
40 40
⇒ Environ, les familles ont en moyenne 3 enfants.
Exemple 1.15. On reprend l’exemple 1.4 des lampes (page 15).

MINES — Rabat (35/93) Pr. M. Fihri & Pr. I. Medarhri


1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

Classe Effectif Fréquence Fréquence cumulée


[329,352[ 2 0,07 0,1
[352,375[ 3 0,1 0,17
[375,398[ 6 0,2 0,37
[398,421[ 7 0,23 0,6
[421,444[ 7 0,23 0,83
[444,467] 5 0,17 1
Total 30 1
329 + 352 444 + 467
Les centres de classes sont : c1 = = 340, 5, ..., c6 = =
2 2
455, 5.
2 × 340, 5 + ...5 × 455, 5 12262
Et la moyenne est : x̄ = = = 408, 7333.
30 30
⇒ Environ, les lampes durent an moyenne 409h.

Moyenne géométrique
La moyenne géométrique est appliquée à des mesures de grandeurs dont la
croissance est géométrique ou exponentielle.
La moyenne géométrique, notée x̄G, d’une variable dans une série statistique
est définie par :
MINES — Rabat (36/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

— Cas discret :
v
u k k
uY n Y
n
x̄G = t xi i = xfi i ,
i=1 i=1
où x1, .., xk sont les différentes valeurs de la variable.
— Cas continu :
v
u k k
uY n Y
x̄G = t n
ci i = cfi i ,
i=1 i=1
vi + vi+1
où ci = est le centre de la classe [vi, vi+1[.
2
— Cas où les données ne sont pas groupées :
v
u n
uY
n
x̄G = t xi ,
i=1

où n est la taille de la série statistique.

MINES — Rabat (37/93) Pr. M. Fihri & Pr. I. Medarhri


1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

Remarque 1.3. On peut écrire la moyenne géométrique comme


l’exponentielle de la moyenne arithmétique des logarithmes des valeurs
observées, on a par exemple pour les données non groupées :
v
u n n
uY
n
1 X
x̄G = exp ln x̄G = exp ln t xi = exp ln xi
i=1
n i=1
Exemple 1.16. Si les taux d’intérêt pour 4 ans successif sont respectivement
de 5, 10, 15, et 10%. Quelle est le montant retrouvé après 4 si on place
1000DH
– Après 1 an on aura : 1000 × 1.05 = 1050DH.
– Après 2 ans on aura : 1000 × 1.05 × 1.1 = 1155DH.
– Après 3 ans on aura : 1000 × 1.05 × 1.1 × 1.15 = 1328.25DH.
– Après 4 ans on aura : 1000 × 1.05 × 1.1 × 1.15 × 1.1 = 1461.075DH.
Si on calcule la moyenne arithmétique des taux on obtient
1.05 + 1.10 + 1.15 + 1.10
x̄ = = 1.10.
4
Si on calcule la moyenne géométrique des taux, on obtient
x̄G = (1.05 × 1.10 × 1.15 × 1.10)1/4 = 1.099431377.
MINES — Rabat (38/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

Le bon taux moyen est bien x̄G et non x̄, car si on applique 4 fois le
taux moyen x̄G aux 1000DH, on obtient
1000DH × x̄4G = 1000 × 1.0994313774 = 1461.075DH.

Moyenne harmonique
La moyenne harmonique est utilisée lorsqu’on veut déterminer un rapport
moyen dans des domaines où il existe des liens de proportionnalité inverse.
Par exemple, pour une distance donnée, le temps de trajet est d’autant plus
court que la vitesse est élevée.
La moyenne harmonique, notée x̄H , d’une variable dans une série statistique
est définie par :
— Cas discret :
n 1
x̄H = Pk ni
== Pk fi
,
i=1 xi i=1 xi
où x1, .., xk sont les différentes valeurs de la variable.
— Cas continu :

MINES — Rabat (39/93) Pr. M. Fihri & Pr. I. Medarhri


1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

n 1
x̄H = Pk ni
= Pk fi
,
i=1 ci i=1 ci
vi + vi+1
où ci = est le centre de la classe [vi, vi+1[.
2
— Cas où les données ne sont pas groupées :
n
x̄H = Pn 1,
i=1 xi
où n est la taille de la série statistique.
Exemple 1.17. Un cycliste parcourt 4 étapes de 100km. Les vitesses
respectives pour ces étapes sont de 10km/h, 30km/h, 40km/h et 20km/h.
Quelle était sa vitesse moyenne ?
Un raisonnement simple nous dit qu’il a parcouru la première étape en
10h, la deuxième en 3h20 la troisième en 2h30 et la quatrième en 5h. Il
a donc parcouru le total des 400km en 10 + 3h20 + 2h30 + 5h = 20h50 =
20.8333h, sa vitesse moyenne est donc
400
M oyenne = = 19.2km/h.
20.8333
MINES — Rabat (40/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

Si on calcule la moyenne arithmétique des vitesses, on obtient


10 + 30 + 40 + 20
x̄ = = 25km/h.
4
Si on calcule la moyenne harmonique des vitesses, on obtient
4
1 1x̄H =
1 1 = 19.2km/h.
10 + 30 + 40 + 20
La moyenne harmonique est donc la manière appropriée de calculer la
vitesse moyenne.
Remarque 1.4. Il est possible de montrer que la moyenne harmonique
est toujours inférieure ou égale à la moyenne géométrique qui est toujours
inférieure ou égale à la moyenne arithmétique
x̄H ≤ x̄G ≤ x̄

1.5.3 Médiane (median)

Variable quantitative discrète


La médiane, notée Me, est la valeur de la variable qui partage la série en
deux parties égales. Pour déterminer la médiane Me, on utilise les valeurs
MINES — Rabat (41/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

ordonnées définies comme suit :


xmin = x(1) ≤ x(2) ≤ ... ≤ x(n) = xmax
où x(i) est la ième valeur dans la série ordonnée.
On distingue alors les deux cas suivants :
— Si n est impair alors la médiane est Me = x( n+1 ),
2
x( n ) + x( n +1)
— Si n est pair alors la médiane est Me = 2 2
.
2
Exemple 1.18. — Série : 5 − 2 − 6 − 8 − 1 − 9 − 3.
Ordonner ⇒ 1 − 2 − 3 − 5 − 6 − 8 − 9.
n = 7 est impair. Donc la médiane est Me = x(4) = 5
— Série : 3 − 2 − 7 − 1 − 8 − 5 − 9 − 2.
Ordonner ⇒ 1 − 2 − 2 − 3 − 5 − 7 − 8 − 9.
x(4) + x(5) 3 + 5
n = 8 est impair. Donc la médiane est Me = = =4
2 2
Variable quantitative continue
La médiane, notée Me, est la valeur de la variable telle que F (Me) = 0, 5
(ou Me = F −1(0, 5)) où F est la fréquence cumulée. Pour retrouver la valeur
de Me on utilise la méthode d’interpolation linéaire
MINES — Rabat (42/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

Exemple 1.19. Dans un atelier mécanique, on a fabriqué des tiges sur


un tour automatique, les diamètres de ces tiges sont données dans le
tableau suivant :
Classe Effectif Fréquence Fréquence cumulée
[36,5 ;37,5[ 3 0,05 0,05
[37,5 ;38,5[ 7 0,12 0,17
[38,5 ;39,5[ 17 0,28 0,45
[39,5 ;40,5[ 18 0,3 0,75
[40,5 ;41,5[ 9 0,15 0,90
[41,5 ;42,5[ 4 0,07 0,97
[42,5 ;43,5] 2 0,03 1
Total 60 1
On connait la valeur de la fréquence cumulée égale à 0, 5 et on cherche
la valeur Me de la variable telle que F (Me) = 0, 5.
Puisque 0, 5 ∈ [0, 45; 0, 75] alors Me ∈ [39, 5; 40, 5].
On a alors :
Me − 39, 5 0, 5 − 0, 45
=
40, 5 − 39, 5 0, 75 − 0, 45
MINES — Rabat (43/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

Donc la médiane est


0, 05
Me = 39, 5 + 1 × = 39, 6667
0, 3
Remarque 1.5. En général, si Me ∈ [xi, xi+1[ alors
0, 5 − F (xi)
Me = xi + (xi+1 − xi) ×
F (xi+1) − F (xi)
Remarque 1.6. La médiane peut aussi être déterminée graphiquement
à travers la courbe cumulée croissante (fonction de répartition), c’est
l’abscisse du point d’ordonnée 0.5.
Dans le cas de distribution uni-modale, la médiane est fréquemment
comprise entre la moyenne arithmétique et le mode, et plus près de
la moyenne que du mode. Si la distribution est symétrique, ces trois
caractéristiques de tendance centrale sont confondues (figure 6).

1.5.4 Quantiles

La notion de quantile d’ordre p (où 0 < p < 1) généralise la médiane.


Formellement un quantile est donné par l’inverse de la fonction de répartition :
xp = F −1(p).
MINES — Rabat (44/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

Figure 6 – positions possibles pour la moyenne, la médiane et le mode

Dans le cas discret / données non groupées, le quantile xp


d’ordre p se calcule de la manière suivante (n est la taille de la population) :
— Si np est un nombre entier, alors
x(np) + x(np+1)
xp = .
2

MINES — Rabat (45/93) Pr. M. Fihri & Pr. I. Medarhri


1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

— Si np n’est pas un nombre entier, alors


xp = x(⌈np⌉),
où ⌈np⌉ représente le plus petit nombre entier supérieur ou égal à np.
Dans le cas continu, on procède de la même manière que dans le calcul
de la médiane, par interpolation linéaire, pour Q1 on cherche l’intervalle qui
contient une fréquence cumulée supérieure ou égale à 0.25 et pour Q3 on
cherche l’intervalle qui contient une fréquence cumulée supérieure ou égale à
0.75.
Remarque 1.7. — La médiane est le quantile d’ordre p = 1/2, qui
donne le même résultat précédent.
— On utilise souvent :
x1/4 = Q1 le premier quartile,
x3/4 = Q3 le troisième quartile,
x1/10 = D1 le premier décile,
x9/10 = D9 le neuvième décile.
Exemple 1.20. Soit la série statistique ordonnée de taille n = 10 suivante :
12, 13, 15, 16, 18, 19, 22, 24, 25, 27
MINES — Rabat (46/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

- Le premier quartile : Comme np = 0.25×10 = 2.5 n’est pas un entier,


on a :
x1/4 = Q1 = x(⌈2.5⌉) = x(3) = 15.
- La médiane : Comme np = 0.5 × 10 = 5 est un entier, on a
x(5) + x(6)
x1/2 = M e = = (18 + 19)/2 = 18.5.
2
- Le troisième quartile : Comme np = 0.75 × 10 = 7.5 n’est pas un
entier, on a :

x3/4 = Q3 = x(⌈7.5⌉) = x(8) = 24.

1.6 Mesures de dispersion


1.6.1 Étendue (Range)

Définition 1.8. L’étendue, notée e, est la différence entre les valeurs


maximale et minimale de la variable.

e = xmax − xmin

MINES — Rabat (47/93) Pr. M. Fihri & Pr. I. Medarhri


1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

Exemple 1.21. On considère la série suivante :

12 − 15, 5 − 17 − 9 − 19 − 5 − 8, 5.
Les valeurs maximale et minimale sont respectivement : xmax = 19 et
xmin = 5, alors l’étendue est e = 19 − 5 = 14.

1.6.2 Écart interquartile

Les trois valeurs Q1, Q2 et Q3 avec Q1 ≤ Q2 ≤ Q3 partagent la série en 4


parties égales.

— [Q1, Q3] est l’intervalle interquartile, il contient 50% des observations.


— EIQ = Q3 − Q1 est l’écart interquartile.
Exemple 1.22. On reprend l’exemple des tiges, dont le tableau statistique
est le suivant :
MINES — Rabat (48/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

Classe Effectif Fréquence Fréquence cumulée


[36,5 ;37,5[ 3 0,05 0,05
[37,5 ;38,5[ 7 0,12 0,17
[38,5 ;39,5[ 17 0,28 0,45
[39,5 ;40,5[ 18 0,3 0,75
[40,5 ;41,5[ 9 0,15 0,90
[41,5 ;42,5[ 4 0,07 0,97
[42,5 ;43,5] 2 0,03 1
Total 60 1
— 0, 25 ∈ [0, 17; 0, 45] ⇒ Q1 ∈ [38, 5; 39, 5] et
(39, 5 − 38, 5)(0, 25 − 0, 17)
Q1 = 38, 5 + = 38, 7857.
0, 45 − 0, 17
— Q2 = Me = 39, 6667 calculée précédemment.
— Q3 = 40, 5 se lit directement de la table ci-dessus.
— EIQ = Q3 − Q1 = 40, 5 − 38.7857 = 1.7143.

MINES — Rabat (49/93) Pr. M. Fihri & Pr. I. Medarhri


1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

1.6.3 Variance et écart-type (variance and standard deviation)

Pour mesurer la dispersion d’une série, on peut s’intéresser à la moyenne


des carrées des distances des valeurs à la moyenne. il s’agit de la variance,
notée V (x) (ou aussi s2), qui est toujours strictement positive et d’unité le
carré de l’unité de la distribution. Elle se calcule de la manière suivante :
– Cas discret :
k k
1X 2
X
V (X) = ni(xi − x̄) = fi(xi − x̄)2
n i=1 i=1
1
Pk
où k est le nombre de modalités discrètes et x̄ = n i=1 nixi est la moyenne
de la distribution.
– Cas continu :
k k
1X 2
X
V (X) = ni(ci − x̄) = fi(ci − x̄)2,
n i=1 i=1

où k est le nombre de classes ; ci = (vi + vi+1)/2 et le centre de la classe


1
Pk
[vi, vi+1[ et et x̄ = n i=1 nici est la moyenne de la distribution.

MINES — Rabat (50/93) Pr. M. Fihri & Pr. I. Medarhri


1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

– Cas où les données ne sont pas groupées :


n
1X
V (X) = (xi − x̄)2,
n i=1
1
Pn
où x̄ = n i=1 xi est la moyenne de la distribution.
Remarque 1.8 (Formule de Konig). Par le théorème de Konig on peut
simplifier le calcul de la variance de la manière suivante (c’est la moyenne
des carrés moins le carré de la moyenne) :
– Cas discret :
k
1X
V (X) = nix2i − (x̄)2,
n i=1
– Cas continu :
k
1X 2
V (X) = nici − (x̄)2,
n i=1
– Cas où les données ne sont pas groupées :
n
1X 2
V (X) = xi − (x̄)2,
n i=1
MINES — Rabat (51/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

Notons que l’unité de la variance est le carré de l’unité de la distribution.


Pour revenir à l’unité de la distribution, on introduit, l’écart-type qui est
la racine carrée de la variance, noté σ (ou encore s). Sa formule est :
p
σ= V (X).
Exemple 1.23. On reprend l’exemple du nombre d’enfants des 40 femmes
(page 20) :
On rappelle que x = 2, 675.
La variance est alors

4 × (0 − 2, 675)2 + 8 × (1 − 2, 675)2 + ... + 3 × (6 − 2, 675)2


V (X) =
40
4 × 02 + 8 × 12 + ... + 3 × 62
= − 2, 6752
40
c’est à dire
V (X) = 3.019375
Et l’écart-type est :
s ≃ 1.7376
MINES — Rabat (52/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

Exemple 1.24. On reprend l’exemple des lampes (page 15)


On rappelle que x = 408, 7333.
La variance est alors
2 × (340, 5 − 408, 7333)2 + 3 × (363, 5 − 408, 7333)2 ... + 5 × (455, 5 − 408, 7333)2
V (X) =
30
2 × 340, 52 + 3 × 363, 52 ... + 5 × 455, 52
= − 408, 73332
30

c’est à dire
V (X) ≃ 1110.3395
Et l’écart-type est :
s ≃ 33.3217
Il existe d’autres indicateur de dispersion, on cite par exemple :
Remarque 1.9 (L’écart moyen absolu et L’écart médian absolu).
— L’écart moyen absolu, noté emoy , est la somme des valeurs absolues
des écarts à la moyenne divisée par le nombre d’observations :
n
1X
emoy = |xi − x̄|,
n i=1
— L’écart médian absolu, noté emed, est la somme des valeurs absolues
des écarts à la médiane divisée par le nombre d’observations :
MINES — Rabat (53/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

n
1X
emed = |xi − Me|,
n i=1

1.6.4 Moment et Moment centré

Définition 1.9 (Moment et Moment centré).


— On appelle moment d’ordre r ∈ N, noté mr , le paramètre
n
1X r
mr = xi .
n i=1
— On appelle moment centré d’ordre r ∈ N, noté µr , le paramètre
n
1X
µr = (xi − x̄)r .
n i=1
Les moments généralisent la plupart des paramètres. On a en particulier :
m1 = x̄, µ2 = V (X), ...
Nous allons voir plus loin que les moments d’ordres supérieurs (r = 3, 4)
sont utilisés pour mesurer la symétrie et l’aplatissement d’une distribution.
MINES — Rabat (54/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

Les formule données concerne les séries non groupées, pour retrouver les
autres formules, il suffit de procéder de la même manière que dans le calcul
de la variance par exemple.

1.6.5 Coefficient de variation

Définition 1.10. On appelle coefficient de variation d’une variable


X le nombre, noté CV , définit par :
s
CV =

— Si CV < 0.15 la série statistique est dite très homogène,
— Si 0.15 ≤ CV < 0.85 la série statistique est dite homogène,
— Si CV ≥ 0.85 la série statistique est dite non homogène,
Remarque 1.10. Le coefficient de variation permet d’apprécier la représentativité
de la moyenne par rapport à l’ensemble des données. Une série est fortement
dispersée quand sont coefficient de variation est supérieur à 0.85. Elle
est faiblement dispersée quand le coefficient de variation est proche de 0.
Le coefficient de variation permet aussi de comparer les dispersions de
plusieurs séries qui ne sont pas exprimées dans les mêmes unités ou des
MINES — Rabat (55/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

séries ayant des moyennes différentes.


Exemple 1.25. Un candidat à un examen a obtenu les notes suivantes :
x1 = 15 ; x2 = 10 ; x3 = 6 ; x4 = 9 ; x5 = 11 ; x6 = 5 ; x7 = 12 ; x8 = 7 ;
x9 = 16 ; x10 = 8
La moyenne est x̄ = 15+10+...+16+8
10 = 9, 9.
2 2 2 +82
La variance est s2 = V (X) = 15 +10 +...+16
10 − 9, 9 2
= 12, 09, et l’écart
type est s = 3, 4771.
Donc le coefficient de variation est
3, 4771
CV = ≃ 0, 35
9, 9
Comme 0, 15 ≤ 0, 35 < 0, 85, la série est homogène.

1.7 Mesures de forme


1.7.1 Coefficient d’asymétrie

Définition 1.11 (Coefficient d’asymétrie de Fisher).

MINES — Rabat (56/93) Pr. M. Fihri & Pr. I. Medarhri


1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

Le coefficient d’asymétrie de Fisher est défini par :


µ3
γ3 = 3
s
— Si γ3 > 0 la série présente une asymétrie à droite,
— Si γ3 = 0 la série est symétrique,
— Si γ3 < 0 la série présente une asymétrie à gauche.
Définition 1.12 (Coefficient d’asymétrie de Pearson).
Le coefficient d’asymétrie de Pearson est défini par :
3(x̄ − Me)
AP =
s
— Si AP > 0 la série présente une asymétrie à droite,
— Si AP = 0 la série est symétrique,
— Si AP < 0 la série présente une asymétrie à gauche.
En fait, pour ce coefficient, comme déjà mentionné dans la figure 6, il suffit
de comparer la moyenne et la médiane.
Définition 1.13 (Coefficient d’asymétrie de Yule).
Le coefficient d’asymétrie de Yule est basé sur les positions des 3
quartiles (Q1, Me, Q3), et est normalisé par la distance interquartile :
MINES — Rabat (57/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

Q3 + Q1 − 2Me
AY = .
Q3 − Q1
— Si AY > 0 la série présente une asymétrie à droite,
— Si AY = 0 la série est symétrique,
— Si AY < 0 la série présente une asymétrie à gauche.
Exemple 1.26. On reprend l’exemple des notes.
x1 = 15 ; x2 = 10 ; x3 = 6 ; x4 = 9 ; x5 = 11 ; x6 = 5 ; x7 = 12 ; x8 = 7 ;
x9 = 16 ; x10 = 8.
3(9.9 − 9.5)
On a x̄ = 9.9, Me = 9.5 donc AP = > 0. Donc la série est
s
étalée vers la droite.

1.7.2 Coefficient d’aplatissement

Définition 1.14 (Coefficient d’aplatissement de Fisher). Le coefficient d’aplatissemen


de Fisher, noté γ4 est défini par la relation :
µ4
γ4 = 4
− 3,
s
MINES — Rabat (58/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

— Si γ4 > 0 la série présente une léptokurtique (aigue),


— Si γ4 ≃ 0 la série est mésokurtique (normale),
— Si γ4 < 0 la série présente une platykurtique (aplatie).

Figure 7 – Comparaison des aplatissements

MINES — Rabat (59/93) Pr. M. Fihri & Pr. I. Medarhri


1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

1.8 Diagramme en boite (Box plot)

Définition 1.15. La boı̂te à moustaches (ou diagramme en boı̂te,


ou encore box plot en anglais) est un diagramme résumant les indicateurs
d’une série statistique : médiane, quartiles Q1 et Q3. Elle est généralement
utilisée pour comparer plusieurs séries de même unité.
Ce diagramme est composé de :
— un rectangle qui s’étend du premier au troisième quartile. Le rectangle
est divisé par une ligne correspondant à la médiane,
— ce rectangle est complété par deux demis-segments (moustaches) de limites :

a = max(Q1−1.5×EIQ; xmin) et b = min(Q3+1.5×EIQ; xmax),


— on identifie ensuite la plus petite et la plus grande observation comprise
entre ces bornes. Ces observations sont appelées ”valeurs adjacentes”,
— on trace les segments de droites reliant ces observations au rectangle,
— les valeurs qui ne sont pas comprises entre les valeurs adjacentes, sont
représentées par des points et sont appelées ”valeurs extrêmes”.

MINES — Rabat (60/93) Pr. M. Fihri & Pr. I. Medarhri


1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

Figure 8 – Exemple de diagramme en boite

1.9 Changement d’origine et d’unité

Définition 1.16. On appelle changement d’origine l’opération consistant


à ajouter (ou soustraire) la même quantité a ∈ R à toutes les observations
xi d’une variable X de taille n et on note la nouvelle variable Y ayant
les observations yi telle que :

yi = a + xi, i = 1, ..., n
Définition 1.17. On appelle changement d’unité l’opération consistant
à multiplier (ou diviser) par la même quantité b ∈ R toutes les observations
xi d’une variable X de taille n et on note la nouvelle variable Y ayant
MINES — Rabat (61/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

les observations yi telle que :

yi = bxi, i = 1, ..., n
Définition 1.18. On appelle changement d’origine et d’unité l’opération
consistant à multiplier (ou diviser) par la même quantité b ∈ R toutes les
observations xi d’une variable X de taille n puis rajouter (ou soustraire)
la même quantité b ∈ R et on note la nouvelle variable Y ayant les
observations yi telle que :

yi = a + bxi, i = 1, ..., n
Propriétés 1.1. Si on effectue un changement d’origine et d’unité
sur une variable X, alors
— sa moyenne est affectée du même changement d’origine et d’unité :

ȳ = a + bx̄;
— sa variance est affectée par le carré du changement d’unité et pas
par le changement d’origine :
V (Y ) = b2V (X).
MINES — Rabat (62/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

Remarque 1.11. — Les paramètres de position sont tous affectés


par un changement d’origine et d’unité.
— Les paramètres de dispersion sont tous affectés par un changement
d’unité mais pas par un changement d’origine.
— Les paramètres de forme et d’aplatissement ne sont affectés ni
par un changement d’unité ni par un changement d’origine.
Définition 1.19 (Variable centrée réduite). — Une variable est dite centrée
si sa moyenne est nulle.
— Une variable est dite réduite si sa variance est égale à 1.
— Une variable est dite centrée et réduite si sa moyenne est nulle et sa
variance est égale à 1.
Propriétés 1.2. Soit X une variable ayant la moyenne x̄ et la variance
V (X), alors la variable Z telle que :
X − x̄
Z= .
σX
est centrée et réduite.

MINES — Rabat (63/93) Pr. M. Fihri & Pr. I. Medarhri


1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

1.10 Exercice corrigé

Exercice
On a relevé la taille (en cm) de 50 étudiantes de la filière SMI, les résultats
sont regroupés dans le tableaux suivant
Classe [151.5, 155.5[[155.5, 159.5[[159, 5; 163, 5[[163, 5; 167, 5[[167, 5; 171, 5[
Effectif 10 12 11 7 10
1. Caractériser la distribution (la population et sa taille, l’individu, la
variable et son type).
2. Dresser le tableau statistique complet (calculer les fréquences, les fréquences
cumulées et les effectifs cumulés)
3. Tracer le diagramme correspondant.
4. Quelle est la classe modale ?
5. Définir et représenter la courbe cumulative croissante.
6. Calculer la moyenne et la variance.
7. Calculer le coefficient de variation. Interpréter le résultat.

MINES — Rabat (64/93) Pr. M. Fihri & Pr. I. Medarhri


1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

8. Calculer la médiane ainsi que le premier et le troisième quantile.


9. Quelle est la fréquence des étudiantes ayant au moins 165cm ?

Corrigé
(1) Caractériser la distribution (la population et sa taille, l’individu, la
variable et son type).
Population étudiée : Les étudiantes de la filière SMI ; Taille : 50 ;
L’individu : une étudiante de la filière SMI ;
Variable : ”taille en cm des étudiantes” ; Type : Quantitative continue.
(2) Le tableau statistique est le suivant :
Classe ni fi Fi Ni
[151.5, 155.5[ 10 0.20 0.20 10
[155.5, 159.5[ 12 0.24 0.44 22
[159, 5; 163, 5[ 11 0.22 0.66 33
[163, 5; 167, 5[ 7 0.14 0.80 40
[167, 5; 171, 5[ 10 0.20 1.00 50
Σ 50 1.00 // //
(3) Le diagramme correspondant : Puisque la variable est quantitative continue,
on trace l’histogramme des effectif ou des fréquence. Et puisque les classes
MINES — Rabat (65/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

Figure 9 – Histogramme des fréquences

sont d’amplitudes égales alors on trace directement l’histogramme.


(4) Puisque les classes sont d’amplitudes égales alors on retrouve directement
la classe qui contient l’effectif (ou la fréquence) le plus élevé(e) : il s’agit
de la classe des taille entre 155.5 et 159.5 centimètre.
(5) La courbe cumulative croissante (fonction de répartition) est définie par
les points Ai(xi+1, Fi) donnés dans le tableau statistique.

MINES — Rabat (66/93) Pr. M. Fihri & Pr. I. Medarhri


1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

Figure 10 – Fonction cumulative (fonction de répartition)

Pk Pk xi +xi+1
(6) La moyenne : x̄ = n1 i=1 ni ci = i=1 fi ci , avec ci = 2 est le centre
de la classe [xi, xi+1[.
10 × 153.5 + 12 × 157.5 + 11 × 161.5 + 7 × 165.5 + 10 × 169.5
x̄ =
50
= 0.20 × 153.5 + 0.24 × 157.5 + 0.22 × 161.5 + 0.14 × 165.5 + 0.20 × 169.5
= 161.1cm.

MINES — Rabat (67/93) Pr. M. Fihri & Pr. I. Medarhri


1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

2 1
Pk 2 2
Pk 2
(6) La variance : S = n i=1 ni ci − (x̄) = i=1 fi ci − (x̄)2.
k
1 X 2 10 × 153.52 + 12 × 157.52 + 11 × 161.52 + 7 × 165.52 + 10 × 169.52
nici =
n i=1 50
= 25984.73cm2

k
X
fic2i = 0.20×153.52+0.24×157.52+0.22×161.52+0.14×165.52+0.20×169.52.
i=1

S 2 = 25984.73 − 161.12 = 31.52cm2.


(7) Le coefficient de variation

S 31.52
CV = × 100 = × 100 = 03.49%.
x̄ 161.1
Interprétation : la série est très homogène.

MINES — Rabat (68/93) Pr. M. Fihri & Pr. I. Medarhri


1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

Classe Fi Ni
[151.5, 155.5[ 0.20 10
[155.5, 159.5[ 0.44 22
[159, 5; 163, 5[ 0.66 33
[163, 5; 167, 5[ 0.80 40
[167, 5; 171, 5[ 1.00 50
(8) La médiane : Me ∈]159, 5; 163, 5[ :
0.50 − 0.44
Me = 159.5 + × (163.5 − 159.5) ≃ 160.59cm
0.66 − 0.44
Le premier quartile : Q1 ∈]155, 5; 159, 5[ :
0.25 − 0.20
Q1 = 155.5 + × (159.5 − 155.5) ≃ 156.33cm
0.44 − 0.20
Le troisième quartile : Q3 ∈]163, 5; 167, 5[ :
0.75 − 0.66
Q3 = 163.5 + × (167.5 − 163.5) ≃ 166.07cm
0.80 − 0.66

⇒ EIQ = Q3 − Q1 ≃ 9.74cm
MINES — Rabat (69/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE

(9) Quelle est la fréquence des étudiantes ayant au moins 165cm ?


Par interpolation, on cherche d’abord la fréquence f des étudiantes ayant
moins de 165cm : puisque 165 ∈]163, 5; 167, 5[, alors par interpolation
linéaire on a :
f − 0.66 165 − 163.5
=
0.80 − 0.66 167.5 − 163.5
165−163.5
qui donne f = 0.66 + 167.5−163.5 × (0.80 − 0.66) = 0.7125
Donc la proportion (fréquence) des étudiantes ayant au moins 165cm est
égale à 1 − 0.7125 = 0.2875.

MINES — Rabat (70/93) Pr. M. Fihri & Pr. I. Medarhri


2 STATISTIQUE DESCRIPTIVE BIVARIÉE

2 Statistique descriptive bivariée


2.1 Introduction

La statistique descriptive bivariée permet de décrire simultanément deux


variables et, par le fait même, de donner une information sur la relation
possible entre les deux variables. Si les valeurs de la première variable sont
affectées par celles de la seconde variable, on dira que les deux variables sont
liées ; à l’inverse, s’il n y a pas de lien entre les deux variables on dira qu’elles
sont indépendantes.
L’étude statistique peut se porter sur n’importe quel type de ces variables,
on peut avoir :
— deux variables qualitatives ;
— une variable quantitative et l’autre qualitative ;
— deux variable quantitative.
Dans ce chapitre, on va traiter le cas des deux variables quantitatives
(continues ou discrètes). Ces deux variables seront représentées par X et Y .
Formellement, on considère une série statistique double non groupée

MINES — Rabat (71/93) Pr. M. Fihri & Pr. I. Medarhri


2 STATISTIQUE DESCRIPTIVE BIVARIÉE

{(x1, y1) , (x2, y2) , ..., (xn, yn)}


de n observations mesurées par les deux variables X et Y simultanément.
Ces données peuvent être groupées dans un tableau (comme dans le cas
d’une variable, par modalité/effectif). Ce tableau est appelé tableau croisé
(distribution conjointe) :
y1 . . . yj . . . yJ
x1 n11 . . . n1j . . . n1J
.. .. ..
xi ni1 . . . nij . . . niJ
.. .. ..
xI nI1 . . . nIj . . . nIJ

2.2 Nuage de points (Scatter Plot)

On représente dans le plan une distribution statistique à deux variables


quantitatives par un ensemble de points Ai (i ∈ {1, ..., n}). Les coordonnées
du point Ai sont (xi, yi). Chaque point représente alors un individu de la
population.
MINES — Rabat (72/93) Pr. M. Fihri & Pr. I. Medarhri
2 STATISTIQUE DESCRIPTIVE BIVARIÉE

On considère l’exemple suivant :


X 2 6 7 5 4 1 3
Y 5 9 12 9 8 1 5
Chaque observation est un point dans le plan. On peut donc représenter ces
données sous forme d’un nuage de points comme montré dans la figure
ci-dessous.

Figure 11 – Nuage de points du couple (X, Y )

MINES — Rabat (73/93) Pr. M. Fihri & Pr. I. Medarhri


2 STATISTIQUE DESCRIPTIVE BIVARIÉE

2.3 Ajustement linéaire (linear regression)


2.3.1 Covariance & corrélation

On considère une série statistique double (non groupée) mesurée par deux
variables X et Y ayant n observations : SX = {x1, ..., xn} et SY = {y1, ..., yn}
La liaison entre les deux variables X et Y est mesurée à travers plusieurs
indicateurs, on cite en particulier :
Définition 2.1. La Covariance entre deux variables X et Y , notée
cov(X, Y ), est donnée par la formule suivante :
n n
!
1X 1X
cov(X, Y ) = (xi − x̄)(yi − ȳ) = xiyi − x̄ȳ.
n i=1 n i=1
On remarque que la covariance dépend des unités de mesures dans lesquelles
sont exprimées les variables. Pour enlever l’effet de ces unité on réduit par les
écarts-type des deux variable, d’où la définition du coefficient de corrélation :
Définition 2.2. Le coefficient de corrélation linéaire entre X et
Y , noté cor(X, Y ) (ou encore r ou ρ), est donné par :

MINES — Rabat (74/93) Pr. M. Fihri & Pr. I. Medarhri


2 STATISTIQUE DESCRIPTIVE BIVARIÉE

cov(X, Y )
cor(X, Y ) = p p
V (X) V (Y )
Le coefficient de corrélation linéaire entre X et Y est un indicateur
sans unité permet de mesurer l’intensité de la liaison entre les deux
variables X et Y et il est toujours compris entre −1 et 1.

2.3.2 Propriétés

On a :
— toujours −1 ≤ cor(X, Y ) ≤ 1,
— si cor(X, Y ) est proche de 1 alors les variables X et Y sont positivement
corrélées : si X croit alors Y croit (et vis versa) linéairement,
— si cor(X, Y ) est proche de −1 alors les variables X et Y sont négativement
corrélés : si X croit alors Y décroı̂t (et vice versa) linéairement,
— pratiquement, si |cor(X, Y )| ≥ 0, 8 alors les deux variables X et Y sont
fortement corrélées,
— si cor(X, Y ) est proche de 0 alors les variables X et Y sont non corrélées :
si X croit (ou décroı̂t) ce n’influence pas sur le comportement de Y .

MINES — Rabat (75/93) Pr. M. Fihri & Pr. I. Medarhri


2 STATISTIQUE DESCRIPTIVE BIVARIÉE

Figure 12 – Différentes situations de corrélation entre deux variables

Comme mentionné, le coefficient de corrélation peut être négatif. On définie


le coefficient de détermination qui est égal au carré du coefficient de
corrélation (noté R2) :

R2 = (cor(X, Y ))2
et qui mesure l’adéquation entre le modèle et les données observées ou encore
à quel point l’équation de régression est adaptée pour décrire la distribution
des points.
Exemple 2.1. Considérons la série double précédente.
MINES — Rabat (76/93) Pr. M. Fihri & Pr. I. Medarhri
2 STATISTIQUE DESCRIPTIVE BIVARIÉE

Calculons cov(X, Y ) et cor(X, Y ).


D’abord, les moyennes de X et Y sont respectivement :
Pn
Xi 2 + 6 + 7 + 5 + 4 + 1 + 3 28
x̄ = i=1 = = =4
Pn n 7 7
i=1 Yi 5 + 9 + 12 + 9 + 8 + 1 + 5 49
ȳ = = = =7
n 7 7
Donc la covariance entre X et Y est :
−2 × (−2) + 2 × 2 + 3 × 5 + 1 × 2 + 0 × 1 − 3 × (−6) − 1 × (−2)
cov (X, Y ) =
7
4 + 4 + 15 + 2 + 0 + 18 + 2 45
= = ≃ 6.4286
7 7
De plus,
(−2)2 + 22 + 32 + 12 + 02 + (−3)2 + (−1)2
V (X) =
7
4 + 4 + 9 + 1 + 0 + 9 + 1 28
= = =4
7 7
(−2)2 + 22 + 52 + 22 + 12 + (−6)2 + (−2)2
V (Y ) =
7
4 + 4 + 25 + 4 + 1 + 36 + 4 78
= = ≃ 11.1429
7 7
MINES — Rabat (77/93) Pr. M. Fihri & Pr. I. Medarhri
2 STATISTIQUE DESCRIPTIVE BIVARIÉE

Donc le coefficient de corrélation entre X et Y est :


cov (X, Y ) 6.4286
cor (X, Y ) = p p =√ √ = 0.9629
V ar(X) V ar(Y ) 4 × 11.1429
On a cor(X, Y ) ≃ 0.9629 ≥ 0, 8 donc les variables X et Y sont très
corrélées positivement.

2.4 Droite de régression (regression line)

Lorsque X et Y sont fortement corrélées alors Y est liée linéairement à X.


C’est à dire, on peut écrire une équation linéaire entre les deux variables de
la forme
Y = aX + b.
Cette droite est appelée droite de régression, elle est la droite qui
ajuste au mieux un nuage de points au sens des moindres carrés. La variable
X s’appelle la variable explicative et la variable Y s’appelle la variable
dépendante.
Comment trouver les meilleurs valeurs (estimations) â et b̂ de a et b qui
ajustent au mieux le nuage ? on doit minimiser les résidus (erreurs) entre les
MINES — Rabat (78/93) Pr. M. Fihri & Pr. I. Medarhri
2 STATISTIQUE DESCRIPTIVE BIVARIÉE

valeurs réelle yi et les valeurs ajustées (notée yi∗) .


Il s’agit du principe des moindres carrés qui consiste à chercher la droite
qui minimise la somme des carrés des résidus ei = yi − âx − b̂ pour tout
i = 1, ..., n.

Figure 13 – Exemple de nuage de points et résidu de l’équation de régression

On définit la fonction suivante f à deux variables a et b tel que :


n
X
f (a, b) = (yi − axi − b)2.
i=1

MINES — Rabat (79/93) Pr. M. Fihri & Pr. I. Medarhri


2 STATISTIQUE DESCRIPTIVE BIVARIÉE

Alors les meilleures valeurs â et b̂ s’obtiennent en utilisant une méthode


très connue appelée méthode des moindres carrées ordinaires. Cette
méthode consiste à minimiser la fonction f .
En utilisant des techniques de dérivation on trouve :
Théorème 2.1. Les coefficients a et b qui minimisent le critère des
moindres carrés ordinaire sont donnés par :

cov(X, Y )
â = et b̂ = y − âx.
V ar(X)
Exercice. Démontrer ce théorème.
Remarque 2.1. — Ŷ = âX + b̂ s’appelle l’équation de la droite de
régression de Y en X.
— â est la pente de la droite.
— b̂ est l’ordonnée à l’origine.p
cov(X, Y ) cov(X, Y ) V (Y ) σY
— â = = p = cor(X, Y )
V (X) V (X) V ar(Y ) σX
où σX (respectivement σY ) est l’écart- type de X (respectivement de
Y ).
MINES — Rabat (80/93) Pr. M. Fihri & Pr. I. Medarhri
2 STATISTIQUE DESCRIPTIVE BIVARIÉE

— La droite de régression obtenue passe toujours par le point moyen


(x̄, ȳ).
— La droite de régression de Y en X n’est pas la même que la droite
de régression de X en Y .
Exemple 2.2. Reprenons l’exemple précédent. La pente est :
cov(X, Y ) 6.4286
â = = = 1.60715
V (X) 4
et l’ordonnée à l’origine est :
b̂ = y − âx = 7 − 1, 60715 × 4 = 0.5714
La droite de régression a pour équation :
Ŷ = 1.60715X + 0.5714.
Cette droite est représentée dans la figure suivante :

2.5 Prédiction

La droite de régression permet de donner une approximation future.


MINES — Rabat (81/93) Pr. M. Fihri & Pr. I. Medarhri
2 STATISTIQUE DESCRIPTIVE BIVARIÉE

Figure 14 – Ajustement linéaire de Y en X

Si une nouvelle valeur de variable X est disponible alors on peut calculer,


par l’équation de la droite de régression linéaire, la valeur prédite pour la
variable Y correspondante.
Exemple 2.3. Supposons que, pour la série double de données précédente,
on ait la nouvelle valeur x8 = 4.5. Alors la valeur prédite de x8 par la

MINES — Rabat (82/93) Pr. M. Fihri & Pr. I. Medarhri


2 STATISTIQUE DESCRIPTIVE BIVARIÉE

droite de régression est égale à :


ŷ8 = âx8 + b̂ = 1.60715 × 4.5 + 0.5714 ≃ 7.8075.

2.6 Distribution conjointe (tableau croisé) : joint distribution (cross-


tabulation)

De façon générale, quand on étudie simultanément les deux variables quantitatives


X et Y , ayant respectivement les modalités x1, x2, ..., xI et y1, y2, ..., yJ , alors
le tableau de la distribution conjointe (ou tableau croisé) des deux variables
PI PJ PI PJ
est présenté comme suit (n = i=1 ni. = j=1 n.j = i=1 j=1 nij ) :
y1 . . . yj . . . yJ total
x1 n11 . . . n1j . . . n1J n1.
.. .. .. ..
xi ni1 . . . nij . . . niJ ni.
.. .. .. ..
xI nI1 . . . nIj . . . nIJ nI.
total n.1 . . . n.j . . . n.J n.. = n

MINES — Rabat (83/93) Pr. M. Fihri & Pr. I. Medarhri


2 STATISTIQUE DESCRIPTIVE BIVARIÉE

Les modalités xi et yj peuvent être des valeurs discrètes (dans le cas d’une
variable quantitative discrète) ou intervalles (dans le cas d’une variable quantitative
continue).
Les ni. et n.j sont appelées les effectifs marginaux. Dans ce tableau,
— ni. représente le nombre de fois que la modalité xi apparait,
— n.j représente le nombre de fois que la modalité yj apparait,
n
— nij (resp. fij = nij ) représente le nombre de fois (resp. la fréquence) que
les modalités xi et yj apparaissent ensemble.
XI X J
On a : nij = n.j , pour j = 1, ..., J, nij = ni., pour i = 1, ..., I,
i=1 j=1

2.6.1 Distribution marginale

Le tableau croisé compte deux distributions marginales : la distribution


marginale de X et la distribution marginale de Y .
Distribution marginale de X : elle est composée des modalités de la
variable X et les effectifs marginaux correspondants quelles que soit la valeur
de la modalité de Y .

MINES — Rabat (84/93) Pr. M. Fihri & Pr. I. Medarhri


2 STATISTIQUE DESCRIPTIVE BIVARIÉE

X x1 x2 ... xI total
ni. n1. n2. ... nI. n
Distribution marginale de Y : elle est composée des modalités de la
variable Y et les effectifs marginaux correspondants quelles que soit la valeur
de la modalité de X.
Y y1 y2 ... yJ total
n.j n.1 n.2 ... n.J n
Remarque 2.2. On aura des distributions à une variable ; ce qui permettra
d’appliquer toutes les propriétés vues dans la statistique descriptive univariée :
moyenne, variance, écart-type, coefficient de variation, médiane, quantiles,
mode, ... ; toutes ces propriétés seront appelées des indicateurs marginaux.
Exemple : moyenne marginale de X, écart-type marginal de Y , ...

2.6.2 Covariance et corrélation

— La Covariance entre X et Y est donnée par :

MINES — Rabat (85/93) Pr. M. Fihri & Pr. I. Medarhri


2 STATISTIQUE DESCRIPTIVE BIVARIÉE

 
I J I J
1 XX 1 XX
cov(X, Y ) = nij (xi − x̄)(yj − ȳ) =  nij xiyj  − x̄ȳ.
n i=1 j=1 n i=1 j=1

— Le coefficient de corrélation entre X et Y est donné par :

cov(X, Y )
cor(X, Y ) = p p .
V (X) V (Y )
— Pour tout a, b ∈ R, on a : V (aX+bY ) = a2V (X)+b2V (Y )+2ab cov(X, Y ).
— Les variables X et Y sont indépendantes si et seulement si
ni. × n.j
fij = fi. × f.j ⇐⇒ nij = , pour i = 1, ..., I et j = 1, ..., J.
n
— Les variables X et Y sont indépendantes si et seulement si les lignes (resp.
colonnes) du tableau croisé associé sont proportionnelles entre elles.
— Si les variables X et Y sont indépendantes alors cov(X, Y ) = 0 (la
réciproque n’est pas toujours vraie).
Exemple 2.4. Soit le tableau suivant associé à deux variables X et Y .

MINES — Rabat (86/93) Pr. M. Fihri & Pr. I. Medarhri


2 STATISTIQUE DESCRIPTIVE BIVARIÉE

Y
H
HH
H
HH
−2 0 2 total
X H
HH
H
0 2 4 12 18
1 4 8 24 36
total 6 12 36 54
Les variables X et Y sont indépendantes.

2.7 Exercice corrigé

Exercice
Soit le tableau suivant donnant la distribution du couple (X, Y ).
Y
HH
H
HH
0 1
X
H
HH
H
H
[0.5, 1.5[ 21 8
[1.5, 2.5[ 23 15
[2.5, 3.5[ 10 23
1. Quelles sont les distributions marginales de X et de Y ?
MINES — Rabat (87/93) Pr. M. Fihri & Pr. I. Medarhri
2 STATISTIQUE DESCRIPTIVE BIVARIÉE

2. Calculer les moyennes et les variances marginales de X et de Y .


3. Calculer le coefficient de variation marginale de Y . Interpréter.
4. Les variables X et Y sont elles indépendantes ?
5. Calculer la moyenne et la variance de la variable Z = 0.165X + 0.13Y .

Corrigé

1. La distribution marginale de X est donnée dans le tableau suivant :


X effectif
[0.5, 1.5[ 29
[1.5, 2.5[ 38
[2.5, 3.5[ 33
Σ 100
La distribution marginale de Y est donnée dans le tableau suivant :
Y effectif
0 54
1 46
Σ 100
MINES — Rabat (88/93) Pr. M. Fihri & Pr. I. Medarhri
2 STATISTIQUE DESCRIPTIVE BIVARIÉE

2. On trouve :
3
1 X 29 × 1 + 38 × 2 + 33 × 3
x= ni.ci = = 2.04,
100 i=1 100
2
1 X 54 × 0 + 46 × 1
y= n.j yj = = 0.46,
100 j=1 100
3
!
1 X
V (X) = s2x = ni.c2i − (x)2 = 4.78 − 2.042 = 0.6184,
100 i=1
 
2
2 1 X
V (Y ) = sy =  n.j yj2 − (y)2 = 0.2484.
100 j=1

sy
3. CVY = y = 0.2484
0.46 = 1.083473 ≃ 108%. la distribution de Y est
hétérogène.
4. Rappelons que les variables X et Y sont indépendantes si et seulement si
ni. × n.j
nij = , ∀i = 1, 2, 3 et j = 1, 2.
n
MINES — Rabat (89/93) Pr. M. Fihri & Pr. I. Medarhri
2 STATISTIQUE DESCRIPTIVE BIVARIÉE

Y
H
HH
H
HH
0 1 Σ
X HH
H
H
[0.5, 1.5[ 21 8 29
[1.5, 2.5[ 23 15 38
[2.5, 3.5[ 10 23 33
Σ 54 46 100
Or, on a (contre exemple)
n2. × n.1 38 × 54
n21 = 23 ̸= = = 20.52,
n 100
donc les variables X et Y sont liées.
5. V (Z) = V (0.165X + 0.13Y ) = 0.1652V (X) + 0.132V (Y ) + 2 × 0.165 ×
0.13 cov(X, Y ),
avec, la covariance entre X et Y :
 
3 X 2
1 X
sxy = cov(X, Y ) =  nij ciyj  − x × y = 0.1316
100 i=1 j=1

MINES — Rabat (90/93) Pr. M. Fihri & Pr. I. Medarhri


3 MANIPULATION SOUS R

3 Manipulation sous R
Moyenne :
E=c(0,0,1,1,1,2,3,4)
n=length(E)
xb=sum(E)/n
xb
xb=mean(E)
xb
Médiane :
x=c(0 , 0 , 1 , 1 , 2 , 2 , 3)
median(x)
plot(ecdf(x),xlab="",ylab="",main="",frame=FALSE,yaxt = "n")
axis(2, c(0.0,0.25,0.50,0.75,1.00))
arrows(-1,0.5,1,0.50,length=0.14,col="blue")
arrows(1,0.50,1,0,length=0.14,col="blue")
x=c(0 , 0 , 1 , 1 , 2 , 2 , 3 , 4)
median(x)
plot(ecdf(x),xlab="",ylab="",main="",frame=FALSE,yaxt = "n")
MINES — Rabat (91/93) Pr. M. Fihri & Pr. I. Medarhri
3 MANIPULATION SOUS R

axis(2, c(0.0,0.25,0.50,0.75,1.00))
arrows(-1,0.5,1,0.50,length=0.14,col="blue")
arrows(1.5,0.50,1.5,0,,length=0.14,col="blue")
Quantiles :
x=c(12,13,15,16,18,19,22,24,25,27,28,34)
quantile(x,type=2)
x=c(12,13,15,16,18,19,22,24,25,27)
quantile(x,type=2)
Dispersion :
x=c(2,3,4,4,5,6,7,9)
n=length(x)
s2=sum((x-mean(x))^
2)/n
s2
S2=s2*n/(n-1)
S2
S2=var(x)
S2
s=sqrt(s2)
s
MINES — Rabat (92/93) Pr. M. Fihri & Pr. I. Medarhri
3 MANIPULATION SOUS R

S=sqrt(S2)
S
S=sd(x)
S
E=max(x)-min(x)
E
Nuage de Points :
poids=c(60,61,64,67,68,69,70,70,72,73,75,76,78,80,85,90,96,96,98,101
taille=c(155,162,157,170,164,162,169,170,178,173,180,175,173,175,179
plot(taille,poids)
Autres Exemples : voir Présentation de R.

MINES — Rabat (93/93) Pr. M. Fihri & Pr. I. Medarhri

Vous aimerez peut-être aussi