Cours Stat P1 P2

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 29

Partie I : Présentation de la statistique

Chapitre 1 : Les termes de la statistique

I- Introduction à la statistique descriptive :


Jusqu’au 19ème siècle la statistique s’est limitée à des recensements
démographiques. Depuis le début du 20ème siècle, et sous l’impulsion des
mathématiques qui ont introduit le calcul des probabilités, la statistique est
devenue une véritable science.
Dans le langage courant, le terme «statistique» désigne les collectes des
données numériques qui regroupent toutes les observations relatives à un même
phénomène.
La statistique a pour objet l’étude, à l’aide de traitements mathématiques
(méthodes d’analyse numérique), de nombreux faits correspondants à
l’observation d’un phénomène (les statistiques), dans le but de fournir une
description claire et complète de la réalité, d’essayer de l’expliquer et d’aider à
la prise de la décision. Autrement dit, la statistique est l’ensemble de méthodes
qui ont pour objet l’étude mathématique des statistiques. C’est un outil d’aide à
la décision.
Pour mieux cerner cette discipline, on peut décomposer une étude
statistique en plusieurs étapes suivant le schéma :

1
Schéma d’une analyse statistique

Phénomène
étudié

Définir les
variables

Collecte les
informations

Dépouillement

Tableaux Graphiques Valeurs Autres


caractéristiques analyses

Commentaires

Décision Prévision

2
Dans la pratique, quel est le rôle des statistiques dans les entreprises ?
Lorsqu’une entreprise est confrontée à un problème dont l’origine peut être
attribuée à plusieurs facteurs sans en connaître la proportion exacte, alors que
faire ?
Avant toute décision, il faut avoir les éléments chiffrés qui vont permettre à
l’entreprise de savoir ce qui l’en est exactement. C’est là qu’intervient une étude
statistique :

 1ère étape : Après avoir déterminé avec précision le phénomène étudié,


on procède au choix des informations pertinentes (variables) à
collecter par rapport à l’objet de l’étude.
 2ème étape : Collecte des informations.
 3ème étape : Elle consiste à tirer et placer les informations pour opérer
ainsi les dépouillements qui permettent d’obtenir les tableaux.
 4ème étape : Les tableaux obtenus représentent une information brute
difficile à analyser, il faut alors :
 Les visualiser sur des graphiques.
 Les résumer par des valeurs remarquables qu’on appelle valeurs
caractéristiques (de tendance centrale, de dispersion, de
concentration …) et qui fournissent des éléments essentiels
d’appréciation.
 5ème étape : Selon la complexité du problème étudié qu’on peut compléter
cette étude par d’autres analyses tels que :
 L’étude de la régression et la corrélation.
 Le calcul d’indice statistique.
 L’étude des séries chronologiques.
Ces techniques permettent entre autre de «modéliser» le
phénomène étudié, de le traduire en équations, qui permettront de
tester les différentes hypothèses de travail ou d’analyse.
6ème étape : Cette dernière étape consiste à analyser et commenter les
résultats obtenus afin de décider fiablement et de déboucher sur les
prévisions qui permettent d’améliorer le fonctionnement d’un
système : c’est le travail des statisticiens.

3
II – Quelques définitions :
1- Population et individu :
Il est nécessaire de définir avec précision l’ensemble référence sur lequel
vont porter les observations; cet ensemble est appelé ensemble statistique ou
population ou encore univers. L’élément de base de la population est appelé
individu ou unité statistique. Les individus peuvent être selon les cas des êtres
humains, des objets, des événements…
2- Recensement, sondage et échantillon :
L’étude complète d’une population, son recensement, c’est à dire l’examen
de toutes les unités qui la composent n’est pas toujours possible. On peut donc
être conduit à n’observer qu’une partie de la population, c’est à dire à procéder à
un sondage. Les unités étudiées à l’occasion du sondage constituent un
échantillon. L’étude de cet échantillon conduira à des conclusions qui pourront
être étendues à la population complète.
3- Caractère statistique :
C’est la caractéristique qu’on cherche à observer ou à mesurer sur chacun
des individus examinés dans le contexte d’un problème étudié. Ex : Si l’on
dresse une statistique du parc automobiles d’une ville à une date donnée, d’après
la marque des voitures, la population est ce parc d’automobiles, l’individu est
chacune des voitures, et le caractère statistique la marque de voiture.
4- Modalités d’un caractère :
On appelle modalité d’un caractère les différentes situations que peut
prendre ce caractère, ex : Le caractère marque de voitures a plusieurs modalités :
Mercedes, Renault, Fiat…

III- Différents types de caractère :


A/ Caractères qualitatifs :
On dit qu’un caractère est qualitatif si on ne peut ni le mesurer, ni le
compter, par exemple, le caractère situation familiale présentant les modalités :
célibataire, marié, divorcé, veuve, est un caractère qualificatif.
B/ Caractères quantitatifs :
On dit qu’un caractère est quantitatif, un caractère qui peut être mesuré ou
compté. On lui correspond alors une «variable statistique» qui est la mesure du
caractère. Par exemple, la variable poids, une variable quantitative, ainsi que le
nombre de pages d’un livre.
On appelle domaine de variations ou intervalle de variations l’ensemble des
valeurs que la variable peut prendre à l’intérieur d’un ou plusieurs intervalles.
Par exemple, la variable poids peut être comprise entre 50 et 90 kg donc [50 ;
90[kg.

4
Une variable statistique peut être discrète ou continue.
1- Caractères discontinus ou discrets :
On dit qu’un caractère est discret ou discontinu si ce caractère ne peut
prendre qu’un nombre fini de modalités possibles. Par exemple, le nombre de
pages dans un livre est un caractère discret.
2- Caractères continus :
a) Définition :
Un caractère est continu lorsqu’il peut prendre toutes les valeurs se
trouvant à l’intervalle de son variation. Par exemple, le poids et la taille sont des
caractères continus.
b) La présentation des caractères continus :
Pour présenter commodément les observations correspondantes à l’étude d’un
caractère continu, on les regroupe par intervalle ou classe. Les bornes des
classes doivent être définies de telle sorte qu’un individu ne puisse être classé
que dans un seul intervalle pour que les modalités soient exclusives les unes des
autres. Par exemple, pour le caractère poids on peut définir les modalités
suivantes : <50 ;
[50 ; 60[ ; [60 ; 70[ ; [70 ; 80[ ; 80.
On appelle borne d’un intervalle, ses extrémités inférieure et supérieure par
convention on considère souvent une classe fermée à gauche et ouverte à droite.
On appelle amplitude d’un intervalle la différence entre ses deux bornes.

IV- Les effectifs et les fréquences :


1- Les effectifs :
L’effectif total est le nombre d’individus appartenant à la population.
L’effectif d’une modalité xi d’un caractère X est le nombre d’individus
présentant cette modalité.
L’effectif total est noté N.
L’effectif correspondant à la modalité xi est noté ni .

 ni = N _
2- Les fréquences :
La fréquence d’une modalité xi d’un caractère X est la proportion
d’individus de la population totale qui présente cette modalité.
On la note généralement fi telle que :
fi = ni /N .

5
La somme des fréquences des différentes modalités d’un caractère est
toujours égale à 1.

 fi = 1

3- Les effectifs et les fréquences cumulés :


On peut obtenir les effectifs ou les fréquences cumulés de 2 façons, en
totalisant l’effectif ou la fréquence d’une modalité déterminée. Soit avec ceux
des modalités antérieures, on parle alors de cumul ascendant ou croissant. Soit
avec ceux des modalités postérieures, on parle de cumul descendant ou
décroissant.
D’où les définitions suivantes :
* L’effectif cumulé croissant d’une modalité xi est le nombre d’individus de la
population présentant au plus cette modalité. On le note généralement Ni tel
que :
Ni = np

Il est donc égal à la somme des effectifs des modalités qui lui sont inférieures ou
égales.
* La fréquence cumulée croissante de la modalité xi est la proportion
d’individus présentant au plus cette modalité. On la note généralement Fi :

Fi = fp

Elle peut être calculée à partir des effectifs cumulés :

Fi = Ni / N

 Exemple : On étudie le budget quotidien d’un groupe de 15 étudiants


(N=15).

6
Budget (en DH) Nombre d’étudiants
fi Ni () Fi () Ni () Fi ()
xi ni

[ 0 ; 15[ 6 0,4  40% 6 40% 15 100%


[15 ; 50[ 6 0,4  40% 12 80% 9 60%
[50 ;100[ 2 0,133  13,3% 14 93,3% 3 20%
+ de 100 1 0,067  6,7% 15 100% 1 6,7%

Total 15 1  100% __ __ __ __

7
Chapitre 2 : Les distributions, tableaux et graphiques
statistiques

I- Distribution et tableaux statistiques :


1-Tableaux des distributions à un seul caractère :
L’examen d’une population selon un seul caractère conduit à un tableau
statistique à une seule dimension. Dans chaque case de sa première colonne
correspond à l’une des modalités du caractère. Dans chacune des cases de sa
2ème colonne est inscrit le nombre d’individus présentant cette modalité.
Dans la construction d’un tableau statistique complet, il est nécessaire
d’indiquer : son titre, les intitulés des colonnes et des lignes, les unités
éventuellement la source.
Un tableau statistique décrivant une population P suivant un caractère X se
présente sous la forme générale suivante :

Titre : Distribution de la population P selon le caractère X


Modalités du Effectif de chaque
caractère X modalité ni
xi (unités)
x1 n1
x2 n2
 
xi ni
 
xk nk
Total N
Source : (ex : Département statistique, enquête par sondage sur …)

2- Tableaux statistiques à deux dimensions :


Une distribution statistique à 2 caractères donne le nombre d’individus de
la population présentant chaque modalité de chacun des 2 caractères. Un tableau
à double entrée ou un tableau de contingence ou un tableau de corrélation
représentent matériellement ces données. On appelle les marges la ligne et la
colonne qui indique les totaux. C’est pourquoi on parlera d’effectifs marginaux
pour les totaux partiels des lignes et des colonnes. De même, on appelle
fréquence marginale les fréquences qu’on aurait obtenu identiquement. Les
effectifs qui sont lus à l’intérieur du tableau, et les fréquences qu’on peut

8
calculer à partir de ces effectifs sont appelées effectifs partiels et fréquences
partielles.
 Exemple : Soit une population de 50 personnes. L’étude simultanée des deux
caractères : «sexe» et «Etat matrimoniale», donne naissance à un tableau
statistique à deux dimensions.

Sexe Homme Femme Totaux


E.M.

Marié 15 20 35

Non marié 10 5 15

Totaux 25 25 50

II- Représentations graphiques :


A/ Représentations graphiques de distribution à un seul caractère :
1- Graphiques à caractère qualitatif :
Deux types de représentations graphiques sont surtout utilisées :
Représentation par tuyaux d’orgue et par secteurs.
a- Dans la représentation par les tuyaux d’orgue les différentes modalités du
caractère sont figurés par des rectangles dont la largeur est constante et dont
la hauteur et par conséquent la surface est proportionnelle aux effectifs. Très
souvent, les différentes modalités sont ordonnées sur le graphique dont le
sens des effectifs croissant ou décroissant.
 Exemple : Le tableau suivant représente l’état matrimoniale d’un échantillon
de 500 personnes.

Nombre de personnes
Etat matrimoniale fi i
ni
Célibataire 220 0,44 158,4°
Marié 180 0,36 129,6°
Divorcé 30 0,06 21,6°
Veuf 50 0,10 36°
Séparé 20 0,04 14,4°
Total 500 1 360°

9
Représentation par tuyaux d'orgue

ni Célibataire
250 220
200 180 Marié
150
Veuf
100
50
50 30 20 Divorcé
0
Séparé

Divorcé
Veuf
Célibataire

Marié

Séparé
E.M.

b- Dans la représentation par secteurs, ces derniers ont une surface et par
conséquent un angle au centre proportionnel aux effectifs et modalités
correspondantes. Ce type de graphique permet mieux de visualiser la part
relative de chaque modalité. Cette part est tracée avec un angle au centre :
i = fi x 360° avec fi la fréquence.

Représentation par secteurs

Séparé
Divorcé
Célibataire
Veuf
Marié

Veuf
Célibataire

Divorcé

Séparé

Marié

10
Graphiques à caractère quantitatif :
a) Graphiques à caractère discret :
Pour représenter les statistiques à caractère discret on utilise un
diagramme en bâtons ou un graphique en barres.
 Un diagramme en bâtons : est un graphique dans lequel l’axe des abscisses
représente les modalités tandis que l’axe des ordonnés représente les effectifs.
Pour chaque modalité on trace un bâton d’une longueur proportionnelle aux
effectifs. (On peut aussi tracer un diagramme en bâtons à partir en fréquences).
 Le graphique en barres, relativement fréquent, est une sorte de diagramme
en bâtons où on utiliserait des rectangles verticaux, des barres à la place des
bâtons.
Exemple : Soit la distribution du nombre d’enfants à charge du personnel d’un
établissement scolaire suivant :

Nombre
Effectif
d’enfants fi
ni
à charge
0 32 0,32
1 16 0,16
2 20 0,2
3 24 0,24
4 8 0,08
5 ou plus 0 0
Total 100 1 0 1 2 3 4

Graphiques à caractère continu :


Pour un caractère continu, les observations sont regroupés par intervalle ou
par classe. Pour les représenter, on a principalement recours à l’histogramme ou
à des graphiques basés sur ce dernier.
L’histogramme des effectifs est une représentation d’observations
statistiques continues regroupées par classe. Il comprend :
- En abscisses : les bornes de chaque intervalle.
- En ordonnés : les effectifs.
L’effectif de chaque classe est repéré par un rectangle présentant une
surface proportionnelle à celui-ci. On peut tracer de la même façon
l’histogramme des fréquences.

11
 1er cas : Si les classes sont d’amplitudes égales :
Il suffira, pour représenter un rectangle d’une surface proportionnelle aux
effectifs, de mesurer une hauteur (en ordonnés) proportionnelle à ses effectifs.
Par exemple, l’histogramme de la distribution statistique du salaire en milliers
de dirhams de 100 salarié.
Salaires (en 103 dh) xi Effectifs ni fi
[6 ; 8[ 40 0,4
[8 ; 10[ 20 0,2
[10 ; 12[ 18 0,18
[12 ; 14[ 16 0,16
[14 ; 16[ 3 0,03
[16 ; 18[ 3 0,03
Total 100 1

 2ème cas : Si les classes sont d’amplitudes inégales :


i)Histogramme :
La hauteur des rectangles, n’est plus dans ce cas, proportionnelle aux
effectifs mais aux effectifs corrigés hi = ni / ai avec ai : l’amplitude.
Reprenons l’exemple précédent mais avec des observations réparties entre
les classes des amplitudes variables.
Salaires (en 103 Effectifs ni Amplitudes ai Effectifs
dh) xi corrigés
[6 ; 10[ 60 4 15
[10 ; 12[ 18 2 9
[12 ; 14[ 16 2 8
[14 ; 18[ 6 4 1,5
Total 100 __ __

12
ii) Polygone des effectifs ou des fréquences :
On trace le polygone à partir de l’histogramme en repérant les milieux des
côtés supérieurs des rectangles puis en joignant tous les points ainsi obtenus. On
complète le polygone aux extrémités avec deux points ayant pour ordonné 0 et
pour abscisse le milieu des classes extrêmes.
iii) Courbe de fréquences :
La courbe de fréquences provient de l’idée suivante :
Si la population étudiée est très nombreuse, l’histogramme ne donne
qu’une représentation imparfaite de celle-ci du fait du groupement des
observations en un nombre de classes relativement petites. Pour rendre la
représentation graphique plus conforme à la réalité, qu’ignore la division en
classe, on peut ajuster à main levée sur l’histogramme la courbe de fréquences
qui lui correspond. La surface délimitée par celle-ci est, comme celle de
l’histogramme, égale à l’unité. L’aire représentative de chaque classe doit
également rester la même. On est donc guidé dans le tracet de la courbe de
fréquences par la règle de compensation des aires.
B/ Graphiques des distributions à deux caractères :
De très nombreux graphiques peuvent être utilisés pour représenter des
distributions statistiques à 2 (ou même 3) caractères. Nous ne citerons que les
plus utilisés.
I- Les graphiques en secteurs :
On les utilise en général pour représenter la part respective (en %) de
chaque modalité du caractère à l’intérieur d’un ensemble représenté par un demi
cercle (100%). A l’intérieur de ce demi cercle, les secteurs sont déterminés de
façon que les surfaces ainsi délimitées soient proportionnelles au pourcentage
donné. Pour obtenir ce résultat on calculera les angles de ces secteurs
proportionnellement au pourcentage, sachant qu’un demi cercle (100%)
représente 180°.
 Exemple : Soit la distribution statistique des étudiants de 1ère année selon
leur âge et leur sexe.

Age Sexe Hommes Femmes H F


[16 ; 18[ 2 2 3,6 3,6
[18 ; 20[ 40 68 72 122,4
[20 ; 22[ 38 20 68,4 36
[22 ; 24[ 14 10 25,2 18
+ de 24 6 0 10,8 0
Total 100 100 180 180

13
II- Les graphiques à bandes comparées :
Chacun des caractères qualitatifs, et chacune de ses modalités sont
représentées par des rectangles permettant des comparaisons.
 Exemple : Reprenons les données précédentes, on obtient les graphiques
suivants :

Histogramme à bandes comparées


ni
80
70
60
50
Hommes
40
Femmes
30
20
10
0 Age
16-18 18-20 20-22 22-24 24

14
Partie II : Les caractéristiques des distributions statistique à un
caractère

Chapitre 3 : Les caractéristiques de tendance centrale


Trois caractéristiques de tendance centrale sont utilisées de façon courant :
Le mode, la médiane et la moyenne arithmétique. Cette dernière est, de loin, la
plus largement employée. On peut leur ajouter la moyenne géométrique, la
moyenne harmonique et la moyenne quadratique dont l’usage s’impose dans
certains cas particuliers.

A/ Le mode :
I- Définition :
Le mode (on note en général Mo) d’une distribution est la valeur de la
variable statistique la plus fréquente dans la population étudiée.
II- Modalités de calcul :
Le calcul du mode et sa difficulté dépendent de la nature continue ou
discrète de la variable étudiée.
a) Variable est discrète :
Le mode dans ce cas est simplement et directement observable. Dans un
tableau statistique c’est le xi correspondant à ni (ou fi) les plus élevés, et sur un
diagramme en bâtons, le xi associé au bâton le plus élevé.
 Exemple : Soit la distribution de 24 étudiants selon leur âge.
Age xi Effectif ni Fréquence
fi
18 6 0,25 Le mode est égal à 19 ans.
19 10 0,41 Mo = 19 ans
20 4 0,16
21 2 0,08
22 2 0,08 Soit sur le diagramme en bâtons
Total 24 1 correspondant à cette distribution :

15
b) variable est continue :
Dans ce cas, la détermination du mode est beaucoup moins précise, on peut
définir la classe modale comme la classe dont la fréquence ou l’effectif par unité
d’amplitude sont les plus importants, c’est à dire quand les classes sont de
même amplitude la classe modale correspond à la classe dont l’effectif est le
plus élevé. Quand les classes sont d’amplitude inégale, la classe modale
correspond à la classe qui a hi le plus grand.
 Exemple : Soit la distribution statistique de la même population des 24
étudiants selon leurs poids :

Poids xi Effectif ni Amplitude hi = ni / ai


(5kg unité)
ai
<60 2 1 2 La classe modale est
[60 ; 65[ 3 1 3 donc [70 ; 75[.
[65 ; 70[ 4 1 4
[70 ; 75[ 5 1 5
[75 ; 85[ 6 2 3
 85 4 2 2
Total 24 __ __

L’histogramme de cette distribution :

Une fois la classe modale est déterminée, le mode peut aussi l’être par les
façons suivantes :
a- Soit en considérant que le mode est le centre de la classe modale, celle-ci
étant [70 ; 75[ implique que le mode égal à : Mo = ( 70 + 75 ) / 2 = 72,5.
b- Soit par la méthode graphique, en traçant à l’intérieur de la classe modale
dans l’histogramme 2 diagonales, l’une joignant les bornes inférieures de la

16
classe modale et de la classe suivante et de la classe précédente, l’abscisse de
l’intersection des deux diagonales correspond alors au mode.
c- Soit par la méthode algébrique, en appliquant la formule qui découle de la
méthode graphique suivante :

1
Mo =  + _________
x a
1 + 2

avec:  : Borne inférieure de la classe modale .


a : L’amplitude de la classe modale.
1 : La différence entre les effectifs de la classe modale et la classe
précédente.
2 : La différence entre les effectifs de la classe modale et la classe
suivante.
 Exemple : Pour l’exemple précédent :
Mo = 70 + (5 – 4) (75 – 70) / (5 – 4) + (5 – 3) = 71,66 kg.
d- Le mode peut être estime en ajustant sur l’histogramme de la distribution une
courbe de fréquence, le mode correspondra alors à l’abscisse du maximum de
cette courbe.
III – Remarques :
 Le mode s’exprime dans la même unité de la variable.
 Il peut exister les distributions sans mode ce sont les distributions
uniformes dont toutes les modalités ont la même fréquence.
 Les distributions statistiques les plus répandues n’ont qu’un seul mode
(unimodales). Il peut exister des distributions qui présentent deux ou
plusieurs modes (bi ou plurimodales).
B/ La médiane :
I- Définition :
La médiane (Mé) d’une distribution est la valeur de la variable statistique
telle que la moitié de la population prenne une valeur qui lui soit inférieure (par
conséquent l’autre moitié prend une valeur qui lui est supérieure). La médiane
partage en deux effectifs égaux la population dont les observations sont rangées
par ordre croissant ou décroissant.
II- Détermination pratique :
a- Variable discrète :

17
Le calcul de la médiane se fait à partir des effectifs ou des fréquences
cumulées. La médiane sera la valeur à laquelle est associé un effectif cumulé
égal à Ni = N/2 (avec N : effectif total) ou bien la fréquence cumulée égale à
0,5. Si aucune valeur possible de la variable ne partage exactement la population
en deux sous ensembles égaux, par convention on retiendra dans ce cas comme
médiane la valeur de la variable immédiatement supérieure.
 Exemple : Soit la distribution de 24 étudiants selon leur âge.
Age xi ni Ni  Fi 
18 6 6 0,25
19 10 16 0,67
20 4 20 0,84 Mé  Ni = N/2 = 12  fi = 0,5
21 2 22 0,92 La médiane est alors égale à 19 ans.
22 2 24 1
Total 24 __ __

- Détermination graphique : courbe cumulative


La courbe cumulative est la représentation graphique des effectifs ou des
fréquences cumulées. C’est un graphique en escaliers dont « les paliers
horizontaux » ont pour ordonnée Ni (ou Fi) et les « marches » de l’escalier
correspondent aux valeurs possibles de xi et ils ont des hauteurs proportionnelles
ni (ou fi ).
Plus exactement, la courbe cumulative est la représentation graphique de la
proportion F(x) des individus de la population pour lesquels la valeur de la
variable statistique est inférieure à x. Cette fonction définie pour toute valeur de
x est appelée fonction cumulative ou fonction de répartition. Elle est constante
dans chaque intervalle sépare deux valeurs possibles consécutives.
F(x) = Fi xi  x < xi+1
 Elle est nulle pour x inférieur à la plus petite valeur observée.
 Elle est égale à 1 pour x supérieur à la plus grande valeur observée.
On note par convention : F(-) = 0 et F(+) = 1.Pour l’exemple précédent :

18
Graphiquement, la détermination de la médiane est très simple à partir de la
courbe cumulative ; le point d’ordonnée Fi = 0,5 ou Ni = N/2 détermine sur l’axe
des abscisses la valeur de la médiane.
b- Cas d’une variable continue
Il n’y a, pour le calcul de la médiane, aucune différence selon que les
classes sont d’amplitude égale ou inégale. Le calcul de la médiane se fait en
deux étapes :
1) Détermination de la classe médiane :
La classe médiane est la classe de la valeur de la variable contenant la
médiane. Elle est déterminée à partir des effectifs ou de fréquences cumulées.
 Exemple : Soit la distribution de 24 étudiants selon leur taille .
Taille xi (en ni Ni Fi
m)
< 1,60 6 24 6 0,25 6 individus ont une taille <
[1,60 ; 1,70[ 7 18 13 0,54 1,60
[1,70 ; 1,80[ 8 11 21 0,87 13 individus ont une taille <
[1,80 ; 1,90[ 2 3 23 0,95 1,70
 1,90 1 1 24 1
Total 24 __ __
Donc la médiane
correspond à Ni = 12 (ou fi = 0,5) sera comprise entre 1,60 et 1,70 m. Par
conséquent, la classe médiane est la classe [1,60 ; 1,70[.
i)Par le calcul :
L’estimation de la valeur exacte de la médiane va être obtenu par
interpolation linéaire à l’intérieur de la classe médiane. Aux deux bornes xi et xj
de la classe médiane, sont associés les effectifs cumulés Ni et Nj, et à la
médiane on associe l’effectif N/2.


xi Mé xj
Ni  N/2 Nj

D’après le théorème de Thalès :
  Mé - xi N/2 - Ni
_____
= ______
 _____________
= ______________

  xj - xi Nj - Ni
(N/2 - Ni)
 Mé = xi + ________________
x (xj – xi )

19
Nj - Ni
En fonction des fréquences :
(0,5 - Fi)
_______________
Mé = xi + x (xj - xi)
Fj - Fi
Pour l’exemple précédent :
Mé = 1,60 + (12 – 6) (1,70 – 1,60) / (13 – 6) = 1,685 m.
ii) Détermination graphique : courbe cumulative :
Comme pour la variable discrète, la courbe cumulative est la représentation
graphique de la fonction cumulative (fonction de répartition Fi). Celle-ci est
égale à la proportion des observations pour lesquelles la variable statistique est
inférieure à x. Les observations étant groupées par classe, on ne connaît de cette
fonction que les valeurs qui correspondent aux extrémités supérieures de classe
ei et pour lesquelles elle est égale à la fréquence cumulée F(ei) = Fi.
La courbe cumulative est la courbe qui passe par ses points. Cette fonction
est nulle pour les valeurs de x inférieure à la plus petite valeur observée, est
égale à 1 pour x supérieure à la plus grande valeur observée. On écrit, F(-) = 0
et F(+) = 1.

La médiane est déterminée graphiquement à partir de la courbe cumulative


en cherchant la solution de l’équation F(Mé) = 0,5 ou N(Mé) = N/2 . C’est le
point de la courbe qui a pour ordonnée la fréquence cumulée 0,5 et pour
abscisse la médiane.
Remarques :
1- Cette valeur est légèrement différente à celle trouvée par le calcul. En
remplaçant la portion de la courbe AB correspondant à la classe médiane
par le segment [AB] on obtient la même valeur de la médiane de celle
calculée.

20
2- Si on joint les points de la fonction cumulative par les segments, on
obtient un polygone cumulatif au lieu de la courbe cumulative.
Correspondance entre courbe cumulative et histogramme

Par construction, l’ordonnée F(x) de la courbe cumulative est égale à l’aire


de l’histogramme situé à gauche de la valeur x (l’aire hachurée sur
l’histogramme).
Remarque :
La médiane déterminée à partir de la courbe de fréquences ajustée sur
l’histogramme correspond au point d’inflexion de la courbe cumulative.

21
C/ Moyenne arithmétique :
Il est possible de calculer les différents types de moyennes d’une même
distribution. Cependant, certaines sont plus fréquemment utilisées et seront plus
détaillées ; ce sont les moyennes arithmétiques, géométriques, harmoniques et
quadratiques. Au delà, on montrera qu’une formulation générale des moyennes
peut être établie, les 4 types cités n’étant que des cas particuliers.
I- Définition :
La moyenne arithmétique pour une variable x d’une distribution est égale
au rapport de la somme des valeurs observées sur le nombre d’observations. On
la note généralement X
La moyenne est dite pondérée lorsque chaque modalité de la variable est
prise par plusieurs individus de la population. A chaque modalité x i est associé
un effectif ni devant être supérieur à 1. La moyenne est alors égale à :
X =  ni xi / N avec N =  ni.

En fonction de fréquences : X =  fi xi avec fi = ni / N et fi = 1.


La moyenne est dite non pondérée ou simple lorsque chaque modalité xi
n’est prise que par un seul individu. Autrement dit, les ni = 1  i.
II- Calcul et exemples :
a) La variable est discrète :
Le calcul de la moyenne arithmétique se fait directement à partir des
valeurs de ses modalités. On rajoute au tableau statistique une colonne
comprenant le produit ni x xi (ou bien fi x xi).
 Exemple : Soit la distribution des 24 étudiants selon leur âge.
Age xi ni xi ni fi fi x i
18 6 108 6/24 4,5
19 10 190 10/24 7,9166 X =  nixi /N = 464/24
20 4 80 4/24 3,3333 = 19,333 ans.
21 2 42 2/24 1,75
X =  fi xi = 19,333.
22 2 44 2/24 1,8333
Total 24 464 1 19,333

b) La variable est continue :


Les modalités sont des classes. La moyenne arithmétique est calculée à
partir des centres de classes (l’amplitude des classes n’a pas d’influence sur le
calcul de la moyenne).

22
Exemple : Soit la distribution des 24 étudiants selon leur taille.
Taille (en Centre de
ni ni xi fi fi x i
m) classe xi
< 1,60 6 1,55 9,3 6/24 0,387
[1,60 ; 1,70[ 7 1,65 11,55 7/24 0,481 X = ni xi / N
[1,70 ; 1,80[ 8 1,75 14 8/24 0,583
= 40,5/24
[1,80 ; 1,90[ 2 1,85 3,7 2/24 0,154
 1,90 1 1,95 1,95 1/24 0,081 = 1,687 m.
Total 24 __ 40,5 1 1,687

III- PROPRIÉTÉS

a - PROPRIÉTÉ DE LINÉARITÉ DE LA MOYENNE


Si on définît une nouvelle variable Z telle que: zi = a xi + b, a et b étant des
constantes réelles, on montre que: Z = a X + b.

b - LA SOMME ET LA MOYENNE DES ÉCARTS À LA MOYENNE


ARITHMÉTIQUE SONT NULLES
Pour une valeur de la variable xi l'écart entre cette valeur et la moyenne de la
distribution sera:
(xi – X )
La somme de tous les écarts calculés sur l'ensemble des individus sera:
 ni (xi – X )
On montre que cette somme des écarts à la moyenne arithmétique est nulle soit:
 ni (xi - X ) = 0
et donc que la moyenne des écarts à la moyenne arithmétique est nulle
également:
 ni (xi - X )/N = 0

c – PROPRIÉTÉ D’AGREGATION DE LA MOYENNE


Soit une population P composée de k sous populations P h d’effectifs nh et de
moyennes xh. La moyenne arithmétique globale de la population P s’écrit :

23
X =  nh xh/N

C’est la moyenne des moyennes.

D/ LES AUTRES MOYENNES


I . LA MOYENNE GÉOMÉTRIQUE
1- DÉFINITION
La moyenne géométrique d'une distribution statistique pour une variable X est
égale à la racine N-ième du produit des N valeurs (positives) de cette variable,
On la note généralement: Gx.
Elle est utilisée principalement dans le calcul de taux de croissance moyens et
dans celui de certains indices statistiques synthétiques. Sa formule de calcul est
dans le cas d'une moyenne pondérée:
 avec les effectifs:
Gx  N

 avec les fréquences:


Gx 

Lorsque la moyenne est non pondérée, on a : ni = l, (pour toute i) , soit:


Gx  N

2- EXEMPLE
Soit la distribution statistique d'une population de 20 individus selon la variable
X:
xi ni
1 3
2 5
3 9
4 2
5 1
 20
La moyenne géométrique sera:
G x  20

= 2,4272,

24
(Si la variable est continue et que ses modalités sont des classes, comme pour la
moyenne arithmétique, on retiendra et on utilisera dans les calculs comme
valeurs de la variable les centres de classes),
3- PROPRIÉTÉS
 Le logarithme de la moyenne géométrique d’une distribution est égale à la
moyenne arithmétique des logarithmes des valeurs de la variable, on a:
log GX =  ni log xi / N ou log GX =  fi log xi

N.B, : il est possible d'utiliser indifféremment des logarithmes dans


la base que l’on souhaite, par exemple des logarithmes décimaux
(log) ou népériens (Ln),

 La moyenne géométrique du produit de deux variables statistiques est


égale au produit de leurs moyennes géométriques,
Si on définit une nouvelle variable Z à partir de deux variables X et Y
telle que: zi = xi . yi
on montre que: Gz = Gx . Gy
 La moyenne géométrique du rapport de deux variables statistiques est
égale au rapport de leurs moyennes géométriques,
Si on définit une nouvelle variable Z à partir de deux variables X et Y
telle que : zi = xi / yi on montre que : Gz = Gx / Gy
II . LA MOYENNE HARMONIQUE
1- DÉFINITION
La moyenne harmonique d'une distribution statistique pour une variable X est
égale à l'inverse de la moyenne arithmétique des inverses des valeurs de cette
variable.
On la note généralement: Hx.
Elle est utilisée principalement dans le calcul de moyennes de rapports,
notamment. de vitesses moyennes, et dans celui de certains indices statistiques.
Sa formule de calcul est, dans le cas d'une moyenne pondérée:

25
 avec les effectifs:

 avec les fréquences:

et dans le cas d'une moyenne non pondérée:

2- EXEMPLE
Soit une distribution d’une population de 22 individus selon la variable X :

xi ni
10 1
20 10
30 6
40 3
50 1
60 1
 22
La moyenne harmonique sera :
Hx = 22 = 24,1316

(Si la variable est continue et que ses modalités sont des classes, comme pour la
moyenne arithmétique, on retiendra et on utilisera dans les calculs comme
valeurs de la variable les centres de classes.)
3- PROPRIÉTÉ
On démontre facilement que l'inverse de la moyenne harmonique est égale à
la moyenne arithmétique. des inverses des valeurs de la variable. En effet:

26
III . LA MOYENNE QUADRATIQUE
1- DÉFINITION
La moyenne quadratique d'une distribution statistique pour une variable X est
égale à la racine carrée de la moyenne arithmétique des carrés des valeurs de
cette variable.
On la note généralement: Qx.
On l'utilise principalement dans les mesures de dispersion (écart type) où
l'élévation des écarts au carré évite la présence d'écarts négatifs et donc évite la
compensation entre écarts positifs et négatifs.
Sa formule de calcul est, dans le cas d'une moyenne pondérée:
1
Qx 
N
n x
i
2
i ou Qx  fx
i
2
i

et dans le cas d'une moyenne non pondérée:


1
Qx 
N
x 2
i

2- EXEMPLE
Soit la distribution statistique d'une population de 40 individus selon la variable
X:
xi ni
5 2
10 4
15 14
20 12
25 7
30 1
 40

La moyenne quadratique sera:

Qx  1 (25 410 1415 1220 725 130 ) 18,4898


2 2 2 2 2 2
40

27
(Si la variable est continue et que ses modalités sont des classes, comme pour la
moyenne arithmétique, on retiendra et on utilisera dans les calculs comme
valeurs de la variable les centres de classes.)
IV. GÉNÉRALISATION DE LA NOTION DE MOYENNE
1- DÉFINITION
On peut démontrer que les quatre types de moyennes examinées, arithmétique,
géométrique, harmonique et quadratique, sont quatre cas particuliers d'une
forme générale de la moyenne.
On appelle moyenne d'ordre r, la moyenne calculée par:

On a alors :
Si r  (1)  M r  H (moyenne harmonique),

Si r  ( )  M r  G (moyenne géométrique,  étant un nombre positif très


petit),
Si r  (1)  M r  X (moyenne arithmétique),

Si r  (2)  M r  Q (moyenne quadratique).

On voit que l'on pourrait sans problème calculer des moyennes de tous ordres.
D'autre part, étant calculés différemment, il est évident que les différents types
de moyennes vont donner des résultats différents. Cependant, on peut montrer
qu'entre deux moyennes d'ordres différents, le classement de moyennes sera
toujours identique à celui de leurs ordres.
Autrement dit si : a < b ;
on a : Ma < Mb
Pour les quatre cas les plus fréquents de moyennes, on a donc:
H < G < X < Q< M3 < M4.

28
B . EXEMPLE
Soit la distribution suivante:

xi ni nixi nixi2 nixi3

1 120 120 ]20 120


2 52 104 208 416
3 27 81 243 729
4 11 44 176 704
5 2 10 50 250
 212 359 797 2219

Calculons par exemple les moyennes d'ordre 1 (moyenne arithmétique), d'ordre


2 (moyenne quadratique) et d'ordre 3, en employant la formule générale de la
moyenne d'ordre r ci-dessus.
 Moyenne d'ordre 1
M1 = X =  ni xi / N =

 Moyenne d'ordre 2
1
M2 = Q x 
N
n x
i
2
i =

 Moyenne d'ordre 3
M3 =

On retrouve bien la relation : M1 < M2 < M3

29

Vous aimerez peut-être aussi