Cours Stat Descriptive L1 Semestre 1 23 24
Cours Stat Descriptive L1 Semestre 1 23 24
Cours Stat Descriptive L1 Semestre 1 23 24
ICK de Bouaké
STATISTIQUE DESCRIPTIVE
Semestre 1
1
SOMMAIRE
Bibliographie (29)
2
Chapitre 1 : Généralités sur la statistique descriptive
I. Définition et objet de la statistique
Le terme statistique désigne à la fois un ensemble de données d’observations et l’activité
qui consiste dans leur recueil, leur traitement et leur interprétation.
Ainsi le relevé des débits journaliers d’une rivière de 2005 à 2023 constitue une statistique,
tandis que faire de la statistique sur ces données consisterait par exemple, à tracer des
graphiques mettant en évidence la périodicité du phénomène, à calculer un débit moyen ou
à prévoir la valeur maximale de la crue annuelle.
Les méthodes statistiques sont aujourd’hui utilisées dans presque tous les secteurs de
l’activité humaine et font partie des connaissances de base de l’économiste ou du
gestionnaire.
Parmi les innombrables applications on peut citer dans le domaine industriel : la fiabilité
des matériels, le contrôle de qualité, l’analyse des résultats de mesure et leur planification,
la prévision, et dans le domaine de l’économie et des sciences humaines : les modèles
économétriques, les sondages, les enquêtes d’opinion, les études quantitatives de marché,
etc.
Faire de la statistique suppose que l’on étudie un ensemble d’objets équivalents sur
lesquels on observe des caractéristiques. Ainsi en contrôle de qualité on prélèvera un
ensemble de pièces dans une production homogène et on mesurera leur poids, leur
diamètre, etc.
Cet ensemble d’éléments homogènes auxquels on s’intéresse s’appelle la
population. Par exemple, les étudiants d’une classe, les contribuables ivoiriens,
les ménages abidjanais.
La statistique traite des propriétés des populations plus que de celles
d’individus particuliers. Ainsi pour une population de pièces usinées, la statistique
s’intéressera à la proportion de pièces défectueuses, et non au caractère
défectueux de la pièce n°30.
Généralement la population à étudier est trop vaste pour pouvoir être observée
exhaustivement : c’est le cas lorsque la population est infinie (par exemple
l’ensemble des pièces métalliques que pourrait sortir une machine dans des
conditions de fabrication déterminées) ou lorsque les observations sont
coûteuses (contrôle destructif entre autres).
L’étude de tous les individus d’une population finie s’appelle un recensement.
Lorsque l’on n’observe qu’une partie de la population on parle de sondage, et la
partie étudiée s’appelle l’échantillon.
La démarche statistique consiste à traiter et interpréter les informations recueillies,
et elle comporte deux grands aspects : l’aspect descriptif ou exploratoire et
l’aspect inférentiel.
La statistique descriptive a pour but de synthétiser, résumer, structurer
l’information contenue dans les données. Elle utilise pour cela des représentations
des données sous forme de tableaux, de graphiques, d’indicateurs numériques.
3
Le rôle de la statistique exploratoire est de mettre en évidence des propriétés
de l’échantillon et de suggérer des hypothèses. Les modèles probabilistes ne
jouent ici qu’un rôle très restreint voire même nul. L’analyse statistique peut être
unidimensionnelle (ou univariée), bidimensionnelle ou multidimensionnelle. Dans
ce dernier cas, elle a donné lieu à une nouvelle branche de la discipline statistique
appelée Analyse de données.
La statistique inférentielle a pour but d’étendre les propriétés constatées sur
l’échantillon à la population toute entière et de valider ou d’infirmer des
hypothèses a priori ou formulées après la phase exploratoire. Le calcul des
probabilités joue ici un rôle fondamental.
II. Le vocabulaire statistique
On appelle population un ensemble d’éléments homogènes auxquels on
s’intéresse. Par exemple, les étudiants d’une classe, les contribuables ivoiriens, les
ménages abidjanais, etc.
Les éléments de la population sont appelés les individus ou unités
statistiques.
Des observations concernant un thème particulier ont été effectuées sur ces
individus. La série de ces observations forme ce que l’on appelle une variable
statistique. Par exemple, les Notes des Etudiants à l’Examen de Statistique, les
Mentions qu’ils ont obtenues à leur Bac, le Chiffre d’Affaire par PME, le Nombre
d’Enfants par Ménage, . . .
Les valeurs possibles d’une variable statistique sont des modalités.
Exemple 1
i X1 X2 X3 Xp
1 10 TB
2 15 B
3 10 P
4 12 AB
5 14 B
6 10 TB
7 20 B
8 17 AB
On s’intéresse à la variable Etat civil notée X et à la série statistique des valeurs prises par
X sur 20 personnes. Le tableau des données est le suivant :
MMDCCMCCCM
CMVMVDCCCM
La codification est :
C : Célibataire V : veuf (ve)
D : Divorcé M : Marié
6
Tableau 3
k = 1+ 3,322log10 n
Cependant, le choix définitif du nombre de classes sera dicté par un souci de clarté.
7
Tableau 5
Classes Centres Effectif Effectif Fréquence Fréquence
cumulé cumulée
8-13 10,5 5 5 0,5 0,5
13-18 15,5 2 7 0,2 0,7
18-23 20,5 1 8 0,1 0,8
23-28 25,5 1 9 0,1 0,9
28-33 30,5 1 10 0,1 1
Total SO 1 SO
8
II. Les représentations graphiques
Les représentations graphiques dépendent de la nature de la variable. Pour effectuer les
représentations graphiques, il faut se servir de la table des fréquences.
II.1 : Variable qualitative
Soit la table des fréquences de la variable état civil
Tableau 1 :
Modalité Effectif Fréquence
C 9 0,45
M 7 0,35
V 2 0,1
D 2 0,1
Total 20 1
Les représentations graphiques basées sur les effectifs (ou les fréquences) sont le
diagramme à bandes et les diagrammes à secteurs circulaires.
II.1.1 : Le diagramme à bandes
Mode de construction : Sur l’axe des abscisses on porte les modalités, et sur l’axe des
ordonnées les effectifs (ou fréquences). L’axe des abscisses n’est pas gradué,
contrairement à l’axe des ordonnées. On construit des bandes verticales, de largeurs
égales, dont la hauteur (pour chaque bande) est proportionnelle à l’effectif (ou à la
fréquence) associé à chaque modalité.
Exemple 1: Construire le diagramme à bandes
9
NB : L’aire d’un secteur circulaire étant proportionnelle à l’angle au centre, il suffit de
calculer l’angle au centre correspondant à chaque modalité pour construire le diagramme à
secteur circulaire.
Exemple 2 : Construire le diagramme circulaire correspondant au tableau 1.
Tableau 3 :
Valeur de X Effectif Fréquence Effectif cumulé Fréquence
croiss. cum. croiss.
1 1 0,1 1 0,1
2 1 0,1 2 0,2
3 3 0,3 5 0,5
5 4 0,4 9 0,9
6 1 0,1 10 1
Total 10 1 S.O. S.O.
Dans les cas où les cumuls ont un sens (comme pour les variables quantitatives), les
représentations graphiques se basent d’une part sur les effectifs (ou fréquences), et d’autre
part sur les effectifs cumulés (ou fréquences cumulées). La représentation graphique
basée sur les effectifs (ou fréquences) s’appelle le diagramme en bâtons, et celle basée
10
sur les effectifs cumulés s’appelle le diagramme cumulatif ou la courbe des fréquences
cumulées.
II.2.1 : Le diagramme en bâtons
Mode de construction : On porte sur l’axe des abscisses les valeurs discrètes du
caractère et sur l’axe des ordonnées les effectifs (ou fréquences) associés aux modalités.
Les 2 axes sont gradués. On trace des bâtons verticaux dont la longueur est
proportionnelle aux effectifs (ou aux fréquences).
Exemple 3 : Construire le diagramme en bâtons correspondant au tableau 2.
11
Tableau 5 :
Classes Centres Effectif Effectif cumulé Fréquence Fréquence cumulée
8-13 10,5 5 5 0,5 0,5
13-18 15,5 2 7 0,2 0,7
18-23 20,5 1 8 0,1 0,8
23-28 25,5 1 9 0,1 0,9
28-33 30,5 1 10 0,1 1
Total 10 SO 1 SO
12
.
13
Exemple 8 : Construire le polygone des fréquences relatif au tableau 6.
14
Chapitre 3 : Les indicateurs de tendance centrale ou
les paramètres de position.
I. : Le mode
Le mode correspond à la valeur de la variable pour laquelle l’effectif (ou la
fréquence) est le plus grand. Le mode est la valeur la plus fréquente dans une série
d’observations. On le note généralement Mo.
On appelle mode d’une distribution statistique non groupée la valeur observée d’effectif
maximum.
Pour une distribution groupée dont les classes sont d’égales amplitudes, on appelle
classe(s) modale(s) la(les) classe(s) d’effectif maximum. Si les classes sont d’amplitudes
inégales, une classe d’effectif maximum n’est pas forcément classe modale. Une série
possédant plusieurs modes est dite plurimodale.
Détermination
I.1 : Caractère qualitatif : Le mode est la modalité d’effectif maximum.
Exemple 1: Pour le tableau 1, le mode est C
I.2 : Caractère quantitatif discret : classer les données. Celle(s) d’effectif(s) maximum
donne(nt) le(s) mode(s).
Exemple 2: Pour le tableau 2, le mode est 5.
Exemple 3. Recensement des familles dans une population régionale dont le
nombre d’enfants de moins de 14 ans est le suivant :
15
Nombre d’enfants Nombre de familles
0 2601
1 6290
2 2521
3 849
4 137
Total 12398
Les classes de prix étant toutes de même amplitude (égale à 20), les hauteurs
des rectangles de l’histogramme des effectifs seront donc égales aux effectifs.
16
La classe modale est ]250, 270]. La projection du point d’intersection G des segments
[AB] et [CD] sur l’axe du Prix correspond à la valeur exacte du mode. Si on souhaite
davantage de précisons, on peut calculer (MG , NG ) les coordonnées de G. Pour ce
faire il faut d’abord trouver les équations des droites (AB) et (CD).
Déterminer la valeur exacte du mode.
Si les classes sont d’amplitudes inégales, la classe modale est celle qui a l’effectif corrigé
le plus élevé.
Exemple : Pour le tableau 6, la classe modale est 8-13
Remarques
– Le mode peut ê̂tre calculé pour tous les types de variables,
quantitative et qualitative.
– Le mode n’est pas nńécessairement unique, certaines variables pouvant
présenter plusieurs modes.
– Quand une variable continue est découpée en classes, on peut
définir une classe modale (classe correspondant à l’effectif corrigé
le plus é́levé).
II. : La médiane
Définition
C’est la valeur qui sépare une série d’observations ordonnées en ordre croissant ou
décroissant, en deux parties comportant le même nombre d’observations. On la
désigne par la notation Me.
Méthode de calcul – cas général
Présenter les données sous forme de série. Lorsque les données sont
présentées sous forme de tableau de distribution, les convertir en série.
Ordonner la série par ordre croissant ou décroissant.
Déterminer si la série comprend un nombre pair ou impair d’unités
statistiques.
Exemple : S = 0 ; 1 ; 1 ; 2 ; 2 ; 3 ; 3 ; 3 ; 4 ; 5. Me=(2+3)/2=2,5
Ex : dans la série du nombre d’enfants : 1,2,3,3,3,5,5,5,5,6, Me=4.
Dans la série de la superficie : 8 ;8.5 ;10 ;11 ;12.5 ;13 ;15 ;20 ;25 ;33 Me=12,75.
18
Q1 : 25 % de valeurs inférieures et 75 % de valeurs supérieures.
médiane.
Q3
: 75% des valeurs inférieures et 25% des valeurs supérieures.
19
25% 50% 75%
Q1 Q2 Q3
Applications :
Exemple : Déterminer les quartiles de la série présentée dans le tableau 5.
Exemple : Déterminer les quintiles de la série présentée dans le tableau 5.
20
III : Les moyennes
Il y a 4 types de moyennes : la moyenne arithmétique, la moyenne
géométrique, la moyenne harmonique et la moyenne quadratique.
III.1 : La moyenne arithmétique :
La moyenne arithmétique d’une série statistique ( Est égale à
la somme des valeurs observées, divisée par le nombre d’observations. On
la note généralement .
Ainsi . , avec
= .
G=
G= .
21
La moyenne g é o m é t r i q u e s’utilise, par exemple, quand on veut
calculer la moyenne de taux d’intérêt
Application :
Exemple 5 : Supposons que les taux d’intérêt pour 4
années consécutives soient respectivement de 5, 10, 15, et
10%. Que va-t-on obtenir après 4 ans si on place 1000
francs ?
Après 1 an, on a 100*1,05= 1050 fr
Après 2 ans, on 1050*1,1=1155 fr
Après 3 ans, on a 1155*1,15= 1328,25 fr
Après 4 ans, on a 1328,25*1,1=1461,075
Si on calcule la moyenne arithmétique des taux, on aura
En appliquant la moyenne arithmétique
sur une période de 4 ans, on aura 1464,1
= .
= .
22
Application :
Exemple 6 : Un cycliste parcourt 4 étapes de 100km. Les
vitesses respectives pour ces étapes sont de 10 km/h, 30
km/h, 40 km/h, 20 km/h. Quelle a été sa vitesse moyenne ?
Un raisonnement simple nous dit qu’il a parcouru la première étape en
10h, la deuxième en 3h20 la troisième en 2h30 et la quatrième en 5h. Il a
donc parcouru le total des 400km en
10h + 3h20 + 2h30 + 5h = 20h50
= 20,8333h,
23
sa vitesse moyenne est donc (400/20,83) = 19,2 km/h.
Si on calcule la moyenne arithmétique des vitesses, on obtient
Application :
Calculer la moyenne quadratique relative au tableau 4 (superficie des logements).
Remarque : Soit une série statistique pour laquelle les quatre moyennes définies ci-
dessus existent ; on a alors :
24
Exemple : Regrouper les données du tableau 6 afin d’obtenir un mode différent.
25
Chapitre 4 : Les paramètres de dispersion et de forme
Les paramètres de dispersion sont des nombres qui mesurent la dispersion des
valeurs observées autour d’un paramètre de position (Moyenne, Médiane, …). Ils
s’expriment dans la même unité que les observations et permettent de comparer des
séries statistiques de même nature.
Les paramètres de forme sont des nombres sans dimension qui renseignent sur la
forme de la distribution statistique (symétrie, aplatissement). Ils permettent de
comparer des séries de natures différentes.
I : Les paramètres de dispersion
I.1 : Les moments (simple et centré)
On appelle moment simple d’ordre r (r app. à N) d’une variable X le nombre (F 1):
Remarque : D’une manière générale, les moments centrés d’ordre pair renseignent
sur la dispersion des observations autour de la moyenne xbar, et les moments
centrés d’ordre impair sur la dissymétrie de la distribution.
Egalités remarquables
On a :
M0 =1 ; m1 = xbar ; m2=Q2 (Moyenne quadratique)
I.2 : La Variance et l’écart-type
La variance d’une variable X est son moment centré d’ordre 2. On a (F3):
26
L’écart-type s’exprime dans la même unité que les valeurs observées et mesure la
dispersion autour de la moyenne xbar. Plus l’écart-type est grand, plus la dispersion
des observations autour de la moyenne est importante.
I.3 : Le coefficient de variation
Le coefficient de variation est le rapport de l’écart-type et de la moyenne. On a (F5) :
C’est le plus petit des écarts absolus moyens. Pour toute distribution statistique, on a
(F8) :
27
I.6 : L’étendue
L’étendue est la différence entre le maximum et le minimum de la série. On a (F9) :
Interprétation du coefficient
Interprétation du coefficient
28
BIBLIOGRAPHIE
REAU J.P., CHAUVAT G. (1999), Probabilités & Statistiques. Résumé des cours.
Exercices et problems corrigés. QCM. Armand Colin.
29