Cours Stat Descriptive L1 Semestre 1 23 24

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 29

Université Internationale Année universitaire 2023-2024

ICK de Bouaké

Licence 1 Sciences Economiques et Gestion

STATISTIQUE DESCRIPTIVE

Semestre 1

Cours de Dr. N’GUESSAN N’Da Philippe

1
SOMMAIRE

Chapitre 1 : Généralités sur la statistique descriptive (3)


I. : Définition et objet de la statistique (3)
II. Le vocabulaire statistique (4)
III. Les opérateurs somme et produit (5)

Chapitre 2 : Présentations de la série statistique : tableaux et graphiques (6)


I. : La présentation sous forme de tableaux : la table des fréquences (6)
II : Les représentations graphiques (9)

Chapitre 3 : Les indicateurs de tendance centrale ou les paramètres de position (15)


I. : Le mode (15)
II. : La médiane (17)
III : Les moyennes (21)

Chapitre 4 : Les paramètres de dispersion et de forme (26)


I. : Les paramètres de dispersion (26)
II. : Les paramètres de forme (28)

Bibliographie (29)

2
Chapitre 1 : Généralités sur la statistique descriptive
I. Définition et objet de la statistique
Le terme statistique désigne à la fois un ensemble de données d’observations et l’activité
qui consiste dans leur recueil, leur traitement et leur interprétation.
Ainsi le relevé des débits journaliers d’une rivière de 2005 à 2023 constitue une statistique,
tandis que faire de la statistique sur ces données consisterait par exemple, à tracer des
graphiques mettant en évidence la périodicité du phénomène, à calculer un débit moyen ou
à prévoir la valeur maximale de la crue annuelle.
Les méthodes statistiques sont aujourd’hui utilisées dans presque tous les secteurs de
l’activité humaine et font partie des connaissances de base de l’économiste ou du
gestionnaire.
Parmi les innombrables applications on peut citer dans le domaine industriel : la fiabilité
des matériels, le contrôle de qualité, l’analyse des résultats de mesure et leur planification,
la prévision, et dans le domaine de l’économie et des sciences humaines : les modèles
économétriques, les sondages, les enquêtes d’opinion, les études quantitatives de marché,
etc.
Faire de la statistique suppose que l’on étudie un ensemble d’objets équivalents sur
lesquels on observe des caractéristiques. Ainsi en contrôle de qualité on prélèvera un
ensemble de pièces dans une production homogène et on mesurera leur poids, leur
diamètre, etc.
Cet ensemble d’éléments homogènes auxquels on s’intéresse s’appelle la
population. Par exemple, les étudiants d’une classe, les contribuables ivoiriens,
les ménages abidjanais.
La statistique traite des propriétés des populations plus que de celles
d’individus particuliers. Ainsi pour une population de pièces usinées, la statistique
s’intéressera à la proportion de pièces défectueuses, et non au caractère
défectueux de la pièce n°30.
Généralement la population à étudier est trop vaste pour pouvoir être observée
exhaustivement : c’est le cas lorsque la population est infinie (par exemple
l’ensemble des pièces métalliques que pourrait sortir une machine dans des
conditions de fabrication déterminées) ou lorsque les observations sont
coûteuses (contrôle destructif entre autres).
L’étude de tous les individus d’une population finie s’appelle un recensement.
Lorsque l’on n’observe qu’une partie de la population on parle de sondage, et la
partie étudiée s’appelle l’échantillon.
La démarche statistique consiste à traiter et interpréter les informations recueillies,
et elle comporte deux grands aspects : l’aspect descriptif ou exploratoire et
l’aspect inférentiel.
La statistique descriptive a pour but de synthétiser, résumer, structurer
l’information contenue dans les données. Elle utilise pour cela des représentations
des données sous forme de tableaux, de graphiques, d’indicateurs numériques.
3
Le rôle de la statistique exploratoire est de mettre en évidence des propriétés
de l’échantillon et de suggérer des hypothèses. Les modèles probabilistes ne
jouent ici qu’un rôle très restreint voire même nul. L’analyse statistique peut être
unidimensionnelle (ou univariée), bidimensionnelle ou multidimensionnelle. Dans
ce dernier cas, elle a donné lieu à une nouvelle branche de la discipline statistique
appelée Analyse de données.
La statistique inférentielle a pour but d’étendre les propriétés constatées sur
l’échantillon à la population toute entière et de valider ou d’infirmer des
hypothèses a priori ou formulées après la phase exploratoire. Le calcul des
probabilités joue ici un rôle fondamental.
II. Le vocabulaire statistique
On appelle population un ensemble d’éléments homogènes auxquels on
s’intéresse. Par exemple, les étudiants d’une classe, les contribuables ivoiriens, les
ménages abidjanais, etc.
Les éléments de la population sont appelés les individus ou unités
statistiques.
Des observations concernant un thème particulier ont été effectuées sur ces
individus. La série de ces observations forme ce que l’on appelle une variable
statistique. Par exemple, les Notes des Etudiants à l’Examen de Statistique, les
Mentions qu’ils ont obtenues à leur Bac, le Chiffre d’Affaire par PME, le Nombre
d’Enfants par Ménage, . . .
Les valeurs possibles d’une variable statistique sont des modalités.
Exemple 1

i X1 X2 X3 Xp

1 10 TB

2 15 B

3 10 P

4 12 AB

5 14 B

6 10 TB

7 20 B

8 17 AB

X1 désigne les notes des étudiants à l’examen de statistique


X2 désigne les mentions qu’ils ont obtenues à leur BAC.
4
Modalités :
X1 : 10, 12, 14, 15, 17, 20.
X2 : P, AB, B, TB.

Un échantillon est un sous-ensemble de la population considérée. Le nombre d’individus


dans l’échantillon est la taille de l’échantillon. La propriété ou l’aspect singulier que l’on
se propose d’observer dans la population ou l’échantillon est appelé caractère.
Un caractère qui fait l’objet d’une étude porte aussi le nom de variable statistique.
- Typologie des variables statistiques
Il existe différents types de variables statistiques :
- la variable quantitative ;
- la variable qualitative.
Lorsque la variable ne se prête pas à des valeurs numériques (ou lorsque ses
modalités ne sont pas des nombres, elle est dite variable qualitative.
Par exemple les modalités de la variable Genre sont : Masculin, Féminin. Celles de la
variable Couleurs des yeux sont : bleu, marron, noir et vert. Les modalités de la
variable mention au BAC sont : P, AB, B, TB.
On distingue 2 types de variables qualitatives : la variable qualitative ordinale et la
variable qualitative nominale.
Plus précisément, une variable qualitative est dite ordinale lorsque ses modalités
peuvent être classées dans un certain ordre naturel. C’est par exemple le cas de la
variable mention au BAC. Une variable qualitative est dite nominale lorsque ses
modalités ne peuvent être classées de façon naturelle, c’est par exemple le cas de la
variable couleur des yeux ou de la variable genre).
Lorsque la variable peut être exprimée numériquement, elle est dite quantitative. Par
exemple : les notes des étudiants à l’examen de statistique, les chiffres d’affaires par
PME, le nombre d’enfants par ménage, etc.
On distingue 2 types de variables quantitatives. Elle peut être discontinue ou
continue.
Elle est discontinue si elle ne prend que des valeurs isolées les unes des autres.
Une variable discontinue qui ne prend que des valeurs entières est une variable
discrète. Par exemple le nombre d’enfants d’un ménage.
La variable quantitative est dite continue lorsqu’elle peut prendre toutes les valeurs
d’un intervalle. Exemple : le diamètre des pièces, les salaires,…
Dans notre exemple 1, X1 est une variable quantitative discrète (alors que la variable
note est généralement discontinue), et X2 est une variable qualitative ordinale.
III. Les opérateurs somme (∑) et produit (∏)
5
Chapitre 2 : Présentations de la série statistique : tableaux
et graphiques

I. : La présentation sous forme de tableaux : la table des fréquences


La présentation sous forme de tableau s’applique à tout type de variable : qualitative comme
quantitative.

I.1 : Variable qualitative

On s’intéresse à la variable Etat civil notée X et à la série statistique des valeurs prises par
X sur 20 personnes. Le tableau des données est le suivant :

MMDCCMCCCM
CMVMVDCCCM
La codification est :
C : Célibataire V : veuf (ve)
D : Divorcé M : Marié

Présentez la table des fréquences.

La table des fréquences est présentée ci-dessous :


Tableau 1

Valeur de X Effectif Fréquence


C 9 0,45
M 7 0,35
V 2 0,1
D 2 0,1
Total 20 1

I.2 : Variable quantitative discrète


Exemple 2 : Soit le tableau donnant le nombre d’enfants pour 10 ménages.
Tableau 2
Ménage 1 2 3 4 5 6 7 8 9 10
Nombre 3 2 5 3 6 3 5 5 1 5
d’enfants

La table des fréquences est présentée ci-dessous :

6
Tableau 3

Valeur de X Effectif Fréquence Effectif Fréquence


cumulé cumulées
1 1 0,1 1 0,1
2 1 0,1 2 0,2
3 3 0,3 5 0,5
5 4 0,4 9 0,9
6 1 0,1 10 1
Total 10 1 SO SO

I.3 : Variable quantitative continue


Soit les données sur la superficie du logement de 10 ménages
Tableau 4
Ménage 1 2 3 4 5 6 7 8 9 10
Superficie 8 8,5 10 12,5 11 13 20 25 33 15

Règle de constitution des classes


Le nombre de classes ne devrait être ni inférieur à 5, ni supérieur à 20 (il varie
généralement entre 6 et 12). Ce choix est fonction du nombre d'observations et de leur
dispersion. En pratique, on peut utiliser la formule de Sturges : le nombre k indiqué de
classes pour une série de n observations est donné approximativement par :

k = 1+ 3,322log10 n

Cependant, le choix définitif du nombre de classes sera dicté par un souci de clarté.

Ainsi on a 5 classes, et l’amplitude de chaque classe est de (33-8)/5 =5.


La table des fréquences est donc présentée ci-dessous :

7
Tableau 5
Classes Centres Effectif Effectif Fréquence Fréquence
cumulé cumulée
8-13 10,5 5 5 0,5 0,5
13-18 15,5 2 7 0,2 0,7
18-23 20,5 1 8 0,1 0,8
23-28 25,5 1 9 0,1 0,9
28-33 30,5 1 10 0,1 1
Total SO 1 SO

8
II. Les représentations graphiques
Les représentations graphiques dépendent de la nature de la variable. Pour effectuer les
représentations graphiques, il faut se servir de la table des fréquences.
II.1 : Variable qualitative
Soit la table des fréquences de la variable état civil
Tableau 1 :
Modalité Effectif Fréquence
C 9 0,45
M 7 0,35
V 2 0,1
D 2 0,1
Total 20 1

Les représentations graphiques basées sur les effectifs (ou les fréquences) sont le
diagramme à bandes et les diagrammes à secteurs circulaires.
II.1.1 : Le diagramme à bandes
Mode de construction : Sur l’axe des abscisses on porte les modalités, et sur l’axe des
ordonnées les effectifs (ou fréquences). L’axe des abscisses n’est pas gradué,
contrairement à l’axe des ordonnées. On construit des bandes verticales, de largeurs
égales, dont la hauteur (pour chaque bande) est proportionnelle à l’effectif (ou à la
fréquence) associé à chaque modalité.
Exemple 1: Construire le diagramme à bandes

II.1.2 : Les diagrammes à secteurs circulaires


Mode de construction : L’effectif total est représenté par un disque (ou un demi-disque).
Chaque modalité est représentée par un secteur circulaire dont l’aire est proportionnelle
à l’effectif (ou à la fréquence) correspondant.

9
NB : L’aire d’un secteur circulaire étant proportionnelle à l’angle au centre, il suffit de
calculer l’angle au centre correspondant à chaque modalité pour construire le diagramme à
secteur circulaire.
Exemple 2 : Construire le diagramme circulaire correspondant au tableau 1.

II.2 : Variable quantitative discrète :


Soit la table des fréquences relative au nombre d’enfants par ménage.

Tableau 3 :
Valeur de X Effectif Fréquence Effectif cumulé Fréquence
croiss. cum. croiss.
1 1 0,1 1 0,1
2 1 0,1 2 0,2
3 3 0,3 5 0,5
5 4 0,4 9 0,9
6 1 0,1 10 1
Total 10 1 S.O. S.O.

Dans les cas où les cumuls ont un sens (comme pour les variables quantitatives), les
représentations graphiques se basent d’une part sur les effectifs (ou fréquences), et d’autre
part sur les effectifs cumulés (ou fréquences cumulées). La représentation graphique
basée sur les effectifs (ou fréquences) s’appelle le diagramme en bâtons, et celle basée

10
sur les effectifs cumulés s’appelle le diagramme cumulatif ou la courbe des fréquences
cumulées.
II.2.1 : Le diagramme en bâtons
Mode de construction : On porte sur l’axe des abscisses les valeurs discrètes du
caractère et sur l’axe des ordonnées les effectifs (ou fréquences) associés aux modalités.
Les 2 axes sont gradués. On trace des bâtons verticaux dont la longueur est
proportionnelle aux effectifs (ou aux fréquences).
Exemple 3 : Construire le diagramme en bâtons correspondant au tableau 2.

II.2.2 : Le diagramme cumulatif


Mode de construction : On porte sur l’axe des abscisses les modalités et sur l’axe des
ordonnées les fréquences cumulées croissantes. Ce diagramme permet de visualiser
l’évolution des effectifs cumulés (ou fréquences cumulées) liés aux valeurs du caractère.
Le caractère étant discret, la courbe des fréquences cumulées est une fonction en
escaliers. C’est la fonction de répartition notée F définie par
F(x) = Proportion des individus dont la valeur du caractère est strictement inférieure à x.
Chaque segment de la courbe en escalier est donc ouvert à gauche et fermé à droite (sauf
le dernier).
Exemple 4 : Construire le diagramme cumulatif correspondant au tableau 2

II.3 : Variable quantitative continue :


Soit la table des fréquences relative à la variable quantitative continue superficie du
logement de 10 ménages.

11
Tableau 5 :
Classes Centres Effectif Effectif cumulé Fréquence Fréquence cumulée
8-13 10,5 5 5 0,5 0,5
13-18 15,5 2 7 0,2 0,7
18-23 20,5 1 8 0,1 0,8
23-28 25,5 1 9 0,1 0,9
28-33 30,5 1 10 0,1 1
Total 10 SO 1 SO

La représentation graphique basée sur les effectifs (ou fréquences) s’appelle


l’histogramme, et celle basée sur les effectifs cumulés (ou fréquences cumulées)
s’appelle la courbe des fréquences cumulées croissantes.
II.3.1 : L’histogramme
Mode de construction : On porte sur l’axe des abscisses les classes et sur l’axe des
ordonnées les effectifs (ou fréquences) correspondant à chaque classe. L’histogramme est
formé d’un ensemble de rectangles contigus, de telle sorte que l’aire de chaque rectangle
soit proportionnelle à l’effectif (ou à la fréquence) de la classe considérée. Une petite
différence doit s’observer selon que les classes sont d’amplitudes égales ou inégales.
Classes d’amplitudes égales : Il suffit que chaque rectangle ait une hauteur
proportionnelle à l’effectif (ou à la fréquence) de chaque classe.
Exemple 5 : Construisez l’histogramme correspondant à la table des fréquences ci-
dessus, où l’amplitude de chaque classe est de 5.

Classes d’amplitudes inégales : La hauteur proportionnelle à l’effectif (ou à la


fréquence) ne permet plus de construire un histogramme. Il faut alors construire des
rectangles dont la hauteur est proportionnelle à la densité, ce qui permet d’assurer une aire
proportionnelle à l’effectif. Pour ce faire, il faut corriger les effectifs de chaque classe.
Correction des effectifs
On choisit la plus petite amplitude comme unité d’amplitude ( , et on calcule le facteur

12
.

L’effectif corrigé d’une classe est défini par

Exemple 6 : Construire l’histogramme correspondant au tableau ci-dessous


Tableau 6 :
Classes Centres Effectif
8-13 5
13-23 2
23-28 1
28-38 6
Total 14

II.3.1.1 : Le polygone des fréquences


Mode de construction : Si les classes sont d’amplitudes égales, on trace le polygone des
fréquences en joignant les milieux des segments supérieurs de chaque rectangle (en
ajoutant éventuellement deux classes de même amplitude et d’effectif nul, de chaque côté
de l’histogramme). Ce polygone des fréquences a une aire égale à l’aire de l’histogramme.
Remarque : Si les classes sont d’amplitudes inégales, on peut également tracer un
polygone des fréquences, mais en prenant soin que l’aire de celui-ci soit toujours égale à
l’aire de l’histogramme.
Exemple 7 : Construire le polygone des fréquences relatif au tableau 5.

13
Exemple 8 : Construire le polygone des fréquences relatif au tableau 6.

II.3.2 : La courbe des fréquences cumulées croissantes


Mode de construction : Les individus étant regroupés en classes, la fréquence cumulée
associée à la classe numéro i correspond à la proportion d’individus dont la valeur du
caractère est strictement inférieure à la limite supérieure de la classe numéro i.
Remarque : On peut également tracer une courbe associée aux fréquences cumulées
décroissantes.
Exemple 9 : Construire la courbe des fréquences cumulées croissantes correspondant au
tableau 5.

14
Chapitre 3 : Les indicateurs de tendance centrale ou
les paramètres de position.

L’objectif est de résumer à travers quelques indicateurs numériques ou paramètres


caractéristiques la distribution d’une variable statistique. On les appelle
des indicateurs de synthèse d’une distribution statistique. On utilise des indicateurs
de position (ou de tendance centrale), des indicateurs de dispersion et des
indicateurs de forme.
L’analyse numérique et l’analyse graphique d’une distribution sont
complémentaires et non exclusives.
Les caractéristiques de tendance centrale (ou paramètres de position) sont des
valeurs numériques qui « résument » une série statistique en caractérisant l’ordre de
grandeur des observations. Ils s’expriment dans la même unité que les observations.
Ces indicateurs fournissent l'ordre de grandeur des valeurs de la série et la position
où se rassemblent ces valeurs. Les principales caractéristiques de tendance centrale
sont : le mode, la médiane et les moyennes.

I. : Le mode
Le mode correspond à la valeur de la variable pour laquelle l’effectif (ou la
fréquence) est le plus grand. Le mode est la valeur la plus fréquente dans une série
d’observations. On le note généralement Mo.

On appelle mode d’une distribution statistique non groupée la valeur observée d’effectif
maximum.
Pour une distribution groupée dont les classes sont d’égales amplitudes, on appelle
classe(s) modale(s) la(les) classe(s) d’effectif maximum. Si les classes sont d’amplitudes
inégales, une classe d’effectif maximum n’est pas forcément classe modale. Une série
possédant plusieurs modes est dite plurimodale.

Détermination
I.1 : Caractère qualitatif : Le mode est la modalité d’effectif maximum.
Exemple 1: Pour le tableau 1, le mode est C
I.2 : Caractère quantitatif discret : classer les données. Celle(s) d’effectif(s) maximum
donne(nt) le(s) mode(s).
Exemple 2: Pour le tableau 2, le mode est 5.
Exemple 3. Recensement des familles dans une population régionale dont le
nombre d’enfants de moins de 14 ans est le suivant :
15
Nombre d’enfants Nombre de familles
0 2601
1 6290
2 2521
3 849
4 137
Total 12398

Ici le mode correspond à la valeur de 1 enfant.


I.3 : Caractère quantitatif avec regroupement en classes : La classe modale
correspond à celle qui a l’effectif corrigé le plus élevé.
Exemple : Pour le tableau 5, la classe modale est 8-13.
Pour la détermination précise du mode, il faut tracer l’histogramme et utiliser les
interpolations linéaires.
Exemple 4. On désire lancer un nouveau produit sur le marché ; on recherche le
prix psycho- logique nous permettant d’attirer le plus de consommateurs possible. La
détermination du mode peut, entre autre méthode, nous permettre d’approcher au
mieux le prix psychologique de lance- ment du produit. Présentant le produit à un
échantillon représentatif de la population étudiée, nous observons pour chaque
classe de prix, les effectifs prêts à faire l’acquisition du produit. Nous obtenons les
résultats suivants :

Prix (en Euros) Effectifs


[210, 230] 30
]230, 250] 60
]250, 270] 100
]270, 290] 20
Total = 210

Les classes de prix étant toutes de même amplitude (égale à 20), les hauteurs
des rectangles de l’histogramme des effectifs seront donc égales aux effectifs.

16
La classe modale est ]250, 270]. La projection du point d’intersection G des segments
[AB] et [CD] sur l’axe du Prix correspond à la valeur exacte du mode. Si on souhaite
davantage de précisons, on peut calculer (MG , NG ) les coordonnées de G. Pour ce
faire il faut d’abord trouver les équations des droites (AB) et (CD).
Déterminer la valeur exacte du mode.
Si les classes sont d’amplitudes inégales, la classe modale est celle qui a l’effectif corrigé
le plus élevé.
Exemple : Pour le tableau 6, la classe modale est 8-13
Remarques
– Le mode peut ê̂tre calculé pour tous les types de variables,
quantitative et qualitative.
– Le mode n’est pas nńécessairement unique, certaines variables pouvant
présenter plusieurs modes.
– Quand une variable continue est découpée en classes, on peut
définir une classe modale (classe correspondant à l’effectif corrigé
le plus é́levé).

II. : La médiane
Définition

C’est la valeur qui sépare une série d’observations ordonnées en ordre croissant ou
décroissant, en deux parties comportant le même nombre d’observations. On la
désigne par la notation Me.
Méthode de calcul – cas général

Présenter les données sous forme de série. Lorsque les données sont
présentées sous forme de tableau de distribution, les convertir en série.
Ordonner la série par ordre croissant ou décroissant.
Déterminer si la série comprend un nombre pair ou impair d’unités
statistiques.

II.1 : Variable quantitative discrète


Soit N le nombre d’observations :
Cas où N est impair : Dans ce cas la médiane est la valeur qui occupe le rang
(N+1)/2 dans la série ordonnée.
17
Exemple : Série S = 2 ; 4 ; 4 ; 6 ; 7 ; 8 ; 10 ; 10 ; 12
Ici, la médiane est égale à 7.
Cas où N est pair : Dans ce cas la médiane est la moyenne (arithmétique) des
valeurs de rangs ( N/2) et (N/2)+1.

Exemple : S = 0 ; 1 ; 1 ; 2 ; 2 ; 3 ; 3 ; 3 ; 4 ; 5. Me=(2+3)/2=2,5
Ex : dans la série du nombre d’enfants : 1,2,3,3,3,5,5,5,5,6, Me=4.
Dans la série de la superficie : 8 ;8.5 ;10 ;11 ;12.5 ;13 ;15 ;20 ;25 ;33 Me=12,75.

II.2 : Variable quantitative continue


Commençons d’abord par introduire les notions d’effectif cumulé, de
fréquence cumulée, et de fonction cumulative. X désigne une variable
quantitative continue, ou encore une variable discrète classée, dont
l’intervalle de variation a été divisé en « k » classes disjointes [x0 , x1 ], . . . ,
]xk−1 , xk ]. Les effectifs correspondant à ces classes sont notés « n1 », «
n2 », . . . ,
« nk ». L’effectif cumulé de la 1-ère classe (c’est-à-dire de la classe [x0 ,
x1 ]) est le nombre « N1 » d’individus pour lesquels la variable X prend une
valeur au plus égale à x1.

Remarque 2.5. De façon générale, la médiane notée par Me d’une variable


statistique continue X de fonction cumulative F est telle que :
F (Me ) = 50% ;
on peut déterminer Me au moyen de la représentation
graphique de F (par interpolation linéaire).

II.3 : Généralisation de la notion de médiane – Les quantiles.


La médiane est la valeur qui divise la population en deux sous-populations de tailles
égales. De la même façon on peut définir des valeurs qui divisent la population en
quatre, dix, cent, ... sous-populations de tailles égales. On définit ainsi :
Le quantile d’ordre a% est la valeur X1 du caractère telle que a% des valeurs
observées soient inférieures à Xa. La médiane est le quantile d’ordre 50%.
II.3.1. Les quartiles :
Ce sont les valeurs du caractère qui partagent la série en quatre sous-ensembles de
tailles égales. Ils sont au nombre de 3 : Q1, Q2 et Q3.

18
Q1 : 25 % de valeurs inférieures et 75 % de valeurs supérieures.

Q2 : 50 % de valeurs inférieures et 50 % de valeurs supérieures, Q2 est la

médiane.
Q3
: 75% des valeurs inférieures et 25% des valeurs supérieures.

19
25% 50% 75%

Q1 Q2 Q3

II.3.2. Les quintiles :


Ils divisent la série en cinq sous-ensembles de tailles égales, soit 20
%. Ils sont au nombre de quatre.

II.3.3. Les déciles : Au nombre de 9

Ils divisent la série en dix sous-ensembles de tailles


égales, soit 10 %.

II.3.4. Les centiles : Au nombre de 99

Ils divisent la série en cent sous-ensembles de 1 % de


la population.

II.3.5. Détermination des quantiles.

Les quantiles sont déterminés de la même manière que la médiane


par méthode graphique à partir de la courbe des fréquences
cumulées ou par interpolation linéaire.

Applications :
Exemple : Déterminer les quartiles de la série présentée dans le tableau 5.
Exemple : Déterminer les quintiles de la série présentée dans le tableau 5.

20
III : Les moyennes
Il y a 4 types de moyennes : la moyenne arithmétique, la moyenne
géométrique, la moyenne harmonique et la moyenne quadratique.
III.1 : La moyenne arithmétique :
La moyenne arithmétique d’une série statistique ( Est égale à
la somme des valeurs observées, divisée par le nombre d’observations. On
la note généralement .

Ainsi . , avec

Dans le cas d’un tableau de distribution, on a :

= .

sont les valeurs observées (ou les centres des classes si la


distribution est groupée) ;
les effectifs correspondant ; et

les fréquences correspondantes.

Pour des données regroupées en classes, on calcule la moyenne en


remplaçant chaque classe par son centre.
Application : Calculer la superficie moyenne des logements en vous
basant sur le tableau 4.

III.2 : La moyenne géométrique :


La moyenne géométrique d’une série statistique positive Xi est la racine n-
ième du produit des valeurs observées. On la note généralement G. Ainsi :

G=

Dans le cas d’un tableau de distribution, on a :

G= .

Le calcul de G peut s’effectuer grâce à la relation :

21
La moyenne g é o m é t r i q u e s’utilise, par exemple, quand on veut
calculer la moyenne de taux d’intérêt
Application :
Exemple 5 : Supposons que les taux d’intérêt pour 4
années consécutives soient respectivement de 5, 10, 15, et
10%. Que va-t-on obtenir après 4 ans si on place 1000
francs ?
Après 1 an, on a 100*1,05= 1050 fr
Après 2 ans, on 1050*1,1=1155 fr
Après 3 ans, on a 1155*1,15= 1328,25 fr
Après 4 ans, on a 1328,25*1,1=1461,075
Si on calcule la moyenne arithmétique des taux, on aura
En appliquant la moyenne arithmétique
sur une période de 4 ans, on aura 1464,1

Si on calcule la moyenne géométrique des taux, on obtient

En appliquant ce taux sur 4 ans, on obtient

Le bon taux moyen est bien G et non x̄ .

III.3 : La moyenne harmonique :


La moyenne harmonique d’une série statistique strictement positive Xi est
égale à l’inverse de la moyenne arithmétique des inverses des valeurs
observées. Elle ne peut être calculée si la série a des valeurs nulles. On la
note généralement H. Ainsi :

= .

le cas d’un tableau de distribution, on a :

= .

Il est judicieux d’appliquer la moyenne harmonique sur des vitesses.

22
Application :
Exemple 6 : Un cycliste parcourt 4 étapes de 100km. Les
vitesses respectives pour ces étapes sont de 10 km/h, 30
km/h, 40 km/h, 20 km/h. Quelle a été sa vitesse moyenne ?
Un raisonnement simple nous dit qu’il a parcouru la première étape en
10h, la deuxième en 3h20 la troisième en 2h30 et la quatrième en 5h. Il a
donc parcouru le total des 400km en
10h + 3h20 + 2h30 + 5h = 20h50
= 20,8333h,

23
sa vitesse moyenne est donc (400/20,83) = 19,2 km/h.
Si on calcule la moyenne arithmétique des vitesses, on obtient

Si on calcule la moyenne harmonique des vitesses, on obtient

La moyenne harmonique est donc la manière appropriée


de calculer la vitesse moyenne.

III.4 : La moyenne quadratique


La moyenne quadratique d’une série statistique positive Xi, est la racine carrée de la
moyenne arithmétique des carrés des valeurs observées. On la note généralement
Q. Ainsi :

Dans le cas d’un tableau de distribution, on a :

Application :
Calculer la moyenne quadratique relative au tableau 4 (superficie des logements).
Remarque : Soit une série statistique pour laquelle les quatre moyennes définies ci-
dessus existent ; on a alors :

Comparaisons du mode, la médiane et la moyenne.


La moyenne est le paramètre le plus utilisé. Le calcul de la moyenne est basé sur
l’ensemble des valeurs Xi ; de ce fait, celle-ci est influencée par les valeurs extrêmes,
contrairement à la médiane, paramètre calculé en fonction de sa position dans la
série. Le mode est facile à calculer mais c’est le paramètre le plus sensible lors du
regroupement des observations. Deux regroupements différents peuvent conduire à
deux modes distincts.

24
Exemple : Regrouper les données du tableau 6 afin d’obtenir un mode différent.

Lorsque la distribution est parfaitement symétrique, les trois paramètres mode,


médiane et moyenne sont alors égaux.

25
Chapitre 4 : Les paramètres de dispersion et de forme
Les paramètres de dispersion sont des nombres qui mesurent la dispersion des
valeurs observées autour d’un paramètre de position (Moyenne, Médiane, …). Ils
s’expriment dans la même unité que les observations et permettent de comparer des
séries statistiques de même nature.
Les paramètres de forme sont des nombres sans dimension qui renseignent sur la
forme de la distribution statistique (symétrie, aplatissement). Ils permettent de
comparer des séries de natures différentes.
I : Les paramètres de dispersion
I.1 : Les moments (simple et centré)
On appelle moment simple d’ordre r (r app. à N) d’une variable X le nombre (F 1):

NB : Toutes les définitions sont données pour un tableau de distribution. Si l’on


dispose de données ponctuelles, alors ni=1. Pour des données groupées, xi est le
centre de la classe n°i.
On appelle moment centré d’ordre r (r app. à N) d’une variable X le nombre (F2) :

Remarque : D’une manière générale, les moments centrés d’ordre pair renseignent
sur la dispersion des observations autour de la moyenne xbar, et les moments
centrés d’ordre impair sur la dissymétrie de la distribution.
Egalités remarquables
On a :
M0 =1 ; m1 = xbar ; m2=Q2 (Moyenne quadratique)
I.2 : La Variance et l’écart-type
La variance d’une variable X est son moment centré d’ordre 2. On a (F3):

L’écart-type est la racine carrée de la variance. On a (F4) :

26
L’écart-type s’exprime dans la même unité que les valeurs observées et mesure la
dispersion autour de la moyenne xbar. Plus l’écart-type est grand, plus la dispersion
des observations autour de la moyenne est importante.
I.3 : Le coefficient de variation
Le coefficient de variation est le rapport de l’écart-type et de la moyenne. On a (F5) :

C’est un nombre sans dimension, indépendant des unités choisies. Il permet de


comparer des séries exprimées dans des unités différentes. On peut le considérer
comme un indice de dispersion absolu.
I.4 : Les écarts absolus moyens
Par rapport à la moyenne : c’est la moyenne des écarts à la moyenne. On a (F6) :

Par rapport à la médiane : c’est la moyenne des écarts à la médiane. On a (F7) :

C’est le plus petit des écarts absolus moyens. Pour toute distribution statistique, on a
(F8) :

I.5 : Les écarts interquantiles


Un intervalle interquantile d’ordre a% contient a% des valeurs observées centrales,
en laissant ((100-a)/2) % des plus petites et ((100-a)/2) % des plus grandes.
L’intervalle interquartile [Q25-Q75] (mettre les crochets) contient 50% des
observations centrales
L’intervalle interdécile [Q10-Q90] contient 80% des observations centrales
L’intervalle intercentile [Q1-Q99] contient 98% des observations centrales
L’écart interquartile est le nombre Q75-Q25
L’écart interdécile est le nombre Q90-Q10
L’écart intercentile est le nombre Q99-Q1.
Ces écarts permettent de mesurer la dispersion de la série autour de la médiane.

27
I.6 : L’étendue
L’étendue est la différence entre le maximum et le minimum de la série. On a (F9) :

II : Les paramètres de forme


Les paramètres de forme comprennent les coefficients d’asymétrie (ou de
dissymétrie) et les coefficients d’aplatissement.
II.1 : Le coefficient d’asymétrie de Fisher (Skewness)
Il est défini par

Interprétation du coefficient

Si < 0, la distribution est dissymétrique à gauche (étalée vers la gauche ou


présentant un biais négatif).

Si = 0, la distribution est symétrique

Si > 0, la distribution est dissymétrique à droite (étalée vers la droite ou présentant


un biais positif).
II.2 : Le coefficient d’aplatissement de Pearson (Kurtosis)
Il est défini par

Interprétation du coefficient

Si < 3, la distribution est plus aplatie que la distribution normale (courbe


platykurtique ou hyponormale)

Si =3, la distribution est « normale » (Courbe en cloche de Gauss)

Si >3, la distribution est moins aplatie que la distribution normale (courbe


leptokurtique ou hypernormale).
Ces deux coefficients sont sans dimension et indépendants d’un changement
d’échelle et/ou d’origine. Ces coefficients sont invariants pour toute transformation
affine d’une variable x.

28
BIBLIOGRAPHIE

FENNETEAU H, BIALES C. (1993), Analyse statistique des données. Applications et


cas pour le marketing, Ellipses.

GRAIS B. (2000), Méthodes statistiques, Dunod, 3ème edition.

GUERRIEN B. (2002), Dictionnaire d’analyse économique, Editions La Découverte,


3ème édition.

GUYON X. (2001), Statistique et économétrie: du modèle linéaire … aux modèles


non linéaires, Ellipses.

LABROUSSE C. (1972), Statistique. Exercices corrigés avec rappels de cours. Tome


1. Edition Dunod, 4ème edition, nouveau tirage.

REAU J.P., CHAUVAT G. (1999), Probabilités & Statistiques. Résumé des cours.
Exercices et problems corrigés. QCM. Armand Colin.

SAPORTA G. (2002), Probabilités, Analyse de données et Statistique, Editions


Technip.

TILLE Y. (2001), Théorie des sondages. chantillonnage et estimation en populations


finies. Cours et exercices avec solutions. Edition Dunod.

VIALLET F. (1970), Statistique et recherche appliquée, Editions Chotard et associés.

WONNACOTT T, WONNACOTT R. (1995), Statistique, Economica 4e édition.

ZELLNER A. (2009), Statistics, Econometrics and Forecasting, Cambridge University


Press.

29

Vous aimerez peut-être aussi