Statistique Descriptive
Statistique Descriptive
Statistique Descriptive
STATISTIQUE DESCRIPTIVE
Table des matières
1 Statistique descriptive 3
1.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.1 Vocabulaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Variable qualitative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.1 Effectifs -Fréquences . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.2 Représentation graphique . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3 Variable quantitative discrète . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.1 Effectifs - Fréquences . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.2 Paramètres caractéristiques . . . . . . . . . . . . . . . . . . . . . . . 13
1.3.2.1 Paramètres de position . . . . . . . . . . . . . . . . . . . . . 13
1.3.2.2 Paramètres de dispersion . . . . . . . . . . . . . . . . . . . . 14
1.3.3 Représentation graphique . . . . . . . . . . . . . . . . . . . . . . . . 16
1.4 Variable quantitative continue . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4.1 Effectifs - Fréquences . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4.2 Paramètres caractéristiques d’une variable continue . . . . . . . . . . 18
1.4.2.1 Les paramètres de position . . . . . . . . . . . . . . . . . . 18
1.4.2.2 Les paramètres de dispersion . . . . . . . . . . . . . . . . . 20
1.4.3 Représentation graphique . . . . . . . . . . . . . . . . . . . . . . . . 20
2
Chapitre 1
Statistique descriptive
1.1 Généralités
La statistique est l’étude de la collecte de données, leur analyse, leur traitement, l’inter-
prétation des résultats et leur présentation afin de rendre les données compréhensibles par
tous. C’est à la fois une science, une méthode et un ensemble de techniques.
L’analyse des données est utilisée pour décrire les phénomènes étudiés, faire des prévisions
et prendre des décisions à leur sujet. En cela, la statistique est un outil essentiel pour la
compréhension et la gestion des phénomènes complexes.
Les données étudiées peuvent être de toute nature, ce qui rend la statistique utile dans
tous les champs disciplinaires et explique pourquoi elle est enseignée dans toutes les filières
universitaires, de l’économie à la biologie en passant par la psychologie et bien sûr les sciences
de l ?ingénieur. La statistique consiste à :
– Recueillir des données.
– Présenter et résumer ces données.
– Tirer des conclusions sur la population étudiée et d’aider à la prise de décision.
1.1.1 Vocabulaire
Les statistiques se sont développées dans la deuxième moitié du XIXe siècle dans le
domaine des sciences humaines (sociologie, économie, anthropologie, ...). Elles se sont dotées
d ?un vocabulaire particulier.
Population. En statistique, on travaille sur des populations. Ce terme vient du fait que
la démographie, étude des populations humaines, a occupé une place centrale aux débuts de
la statistique, notamment au travers des recensements de population. Mais, en statistique,
le terme de population s’applique à tout objet statistique étudié, qu’il s’agisse d ?étudiants
(d’une université ou d’un pays), de ménages ou de n’importe quel autre ensemble sur lequel
on fait des observations statistiques. Nous définissons la notion de population.
Définition 1.1 (Population). On appelle population l’ensemble sur lequel porte l’étude
statistique. C’est un ensemble d’éléments homogènes auxquels on s’intéresse.
3
Exemple 1.1.
• Si une étude statistique concerne les étudiants d’une section, alors la population est
l’ensemble des étudiants de la section.
• Si l’étude s’intéresse à la circulation automobile dans une ville, la population est alors
constituée de l’ensemble des véhicules susceptibles de circuler dans cette ville à une date
donnée.
Remarque 1.1.
• Une population peut être un ensemble de personnes, de choses ou d’animaux.
• Dans une population les informations sont recueillies sur les individus.
Exemple 1.2.
• Dans une population d’étudiants, les individus sont les étudiants.
• Dans une population d’entreprise, les individus sont les entreprises.
• Dans une population de ménages les individus sont les ménages.
Définition 1.4. Soit Ω une population, on appelle caractère ou variable statistique toute
application
X: Ω→C
ω 7→ X(ω)
L’ensemble C est dit : ensemble des valeurs du caractère X (c’est ce qui est mesuré ou observé
sur les individus).
Exemple 1.3. Quelques exemples de caractères : taille, poids, âge, température, mention au
Bac, nationalité, situation matrimoniale, couleur des yeux, catégorie socioprofessionnelle,...
4
Remarque 1.2. Notons que l’application caractère X n’est pas forcément numérique, c’est-à-
dire que X(ω) n’est pas toujours un réel. Cela dépend de la nature du caractère. si le caractère
X est qualitatif, alors ∀ ω ∈ Ω, X(ω) n’est pas une valeur numérique. Si le caractère X est
quantitatif dans ce cas ∀ ω ∈ Ω, X(ω) ∈ R.
Exemple 1.4.
• Si la variable statistique X désigne la « couleur de la voiture » lorsqu’une étude est
réalisée sur une population de véhicule, alors pour toute voiture ω ∈ Ω, X(ω) est une couleur
(rouge, jaune, noire beige,· · · )
• Si la variable statistique X désigne le « poids » des individus d’une population Ω, alors
pour toute personne ω ∈ Ω, X(Ω), est un réel.
Modalités. Les modalités sont les différentes situations dans lesquelles les individus peuvent
se trouver à l’égard du caractère considéré.
Définition 1.5. Les modalités d’une variable statistique sont les différentes valeurs que peut
prendre celle-ci.
Exemple 1.5.
• Le caractère « catégorie socio-professionnelle », a pour modalités : cadres, employés,ouvriers,
retraités,. . .
• Le caractère « mention au Bac » a pour modalités : passable, assez bien, bien et très
bien.
Série statistique. Elle décrit les modalités (ou valeurs) prises par la variable statistique.
Définition 1.6. On appelle série statistique l’énumération de toutes les valeurs prises par
la variable statistique, mesurées ou observées chez les individus de la population d’étude.
Exemple 1.6. Une étude statistique est réalisée sur une population de ménages, et concer-
nant le nombre d’enfants de chaque ménage. Les valeurs relevées sont les suivantes : 1 ; 2 ;
0 ; 1 ; 3 ; 5 ; 1 ; 2 ; 0 ; 4 ; 6 ; 3.
La liste de ces valeurs constitue la série statistique de la variable (ou caractère) « nombre
d’enfants ».
Typologie des variables. Les variables statistiques (ou caractères) sont principalement
de deux natures : les variables qualitatives (qui ne prennent pas des valeurs numériques)
et les variables quantitatives (qu’on quantifie, et donc prennent des valeurs numériques).
5
1.2 Variable qualitative
Définition 1.7. On appelle variable qualitative, une variable dont les modalités ne sont
pas des valeurs numériques. Il s’agit donc d’une variable qu’on ne quantifie pas (ne mesure
pas), mais qui décrit juste l’état des individus étudiés. On distingue deux types de variables
qualitatives : les variables nominales et les variables ordinales.
Exemple 1.7. Une étude statistique concerne un groupe d’étudiants Ω, et s’intéresse à deux
variables : la « couleur des yeux » , notée X et le « sexe » , notée Y . On a alors X(Ω) =
{bleu, marron, noir, vert} et Y (Ω) = {masculin, féminin}. Les modalités de X et Y ne
sont pas des valeurs numériques donc X (couleur des yeux) et Y (sexe) sont des variables
qualitatives.
Définition 1.8 (variable nominale). On appelle variable qualitative nominale, une va-
riable qualitative dont les modalités ne peuvent pas être ordonnées.
Exemple 1.8. Dans l’exemple précédent, les variables « couleur des yeux » et « sexe »
sont des variables qualitatives nominales, car leurs modalités respectives ne peuvent pas être
ordonnées.
Définition 1.9 (variable ordinale). On appelle variable qualitative ordinale, une variable
qualitative dont les modalités peuvent être ordonnées.
Exemple 1.9. Une étude statistique concerne un groupe d’étudiants Ω, et s’intéresse a leur
« mention au Bac ». Notons X cette variable.
On a alors X(Ω) = {assez bien, passable, très bien, bien}. La variable X (mention au Bac)
a des modalités qui ne sont pas des valeurs numériques, dont c’est une variable qualitative.
En plus ses modalités peuvent être ordonnées dans un sens croissant d’importance, à savoir :
passable, assez bien, bien, très bien. Il s’agit donc d’une variable qualitative ordinale.
Définition 1.10 (Effectif ). On appelle effectif d’une modalité xi observée sur une variable
qualitative, le nombre ni d’individus dont la variable prend cette modalité.
6
Définition 1.11 (Fréquence). On appelle fréquence d’une modalité xi observée sur une
variable qualitative, la proportion fi d’individus dont la variable prend cette modalité.
Tableau statistique . Lorsqu’une étude statistique est faite sur une population, et que les
données concernant une variable d’intérêt sont recueillies, il est nécessaire pour une bonne
analyse, d’organiser ces données dans un tableau appelé tableau statistique.
Exemple 1.10. Une étude statistique est réalisée sur un groupe de 15 étudiants, et a concerné
les variables « couleur des yeux » et « mention au Bac ». Les données sont relevées et consti-
tuent les deux séries statistiques suivantes :
• couleur des yeux : vert, bleu, noir, marron, bleu, vert, noir, marron, bleu, vert, noir, bleu,
vert, noir, marron.
• mention au Bac : P, AB, P, P, AB, P, B, AB, B, B, P, TB, AB, P, TB.
1) Établir le tableau statistique partiel pour la variable « couleur des yeux ».
2) Établir le tableau statistique partiel pour la variable « mention au Bac ».
Solution
7
Couleur P AB B TB total
Effectifs 6 4 3 2 15
Fréquences 0,4 0.267 0,2 0,133 1
8
Propriété 1.6. Soient f1 , f2 , . . . , fk les fréquences des différentes modalités x1 , x2 , . . . , xk ,
telles que xi < xj si i < j, de la variable ordinale X. Alors la FCD d’une modalité xi est
donnée par
Xk
−
Fi = fj
j=i
Couleur P AB B TB total
Effectifs 6 4 3 2 15
ECC 6 10 13 15 -
ECD 15 9 5 2 -
Fréquences 0,4 0,267 0,2 0,133 1
FCC 0,4 0,667 0.867 1 -
FCD 1 0.6 0,333 0.133 -
Définition 1.18 (mode). Pour une variable qualitative (nominale ou ordinale), on appelle
mode, la modalité qui a le plus grand effectif (ou la fréquence la plus élevée).
Exemple 1.12. La variable qualitative ordinale « mention au Bac » a pour mode la modalité
P.
9
Diagramme en barres. Il est tracé dans un repère du plan, où les modalités de la variable
sont placées sur l’axe des abscisses (axe horizontal), et les effectifs (ou les fréquences) sur
l’axe des ordonnées (axe vertical). La hauteur de chaque barre est proportionnelle à l’effectif
(ou à la fréquence) de la modalité correspondante. Les barres ont toutes la même largeur et
sont décalées les une des autres en gardant un espacement constant.
xi C M V D total
Effectifs 9 7 2 2 20
Fréquences 0,45 0,35 0,1 0,1 1
2) Construisons 1.3.
le diagramme en barres des effectifs.
VARIABLE QUALITATIVE ORDINALE 13
10
8
6
4
2
0
Diagramme circulaire.
1.3 Variable Il est décrit par un ordinale
qualitative disque partagé en plusieurs parts. Le disque
correspondant à un angle de 360°(effectif total, ou fréquence totale), à chaque modalité est
1.3.1 Le tableau statistique
attribuée un angle associé à son effectif ou sa fréquence. Pour une modalité xi , l’angle αi ° est
Les valeurs distinctes d’une variable ordinale peuvent être ordonnées, ce
calculé avec la formule
qu’on :écrit
i×
x1 ≺ x2 ≺ · · · ≺ xj−1n≺ 360°
xj ≺ · · · ≺ xJ−1 ≺ xJ .
αi =
La notation x1 ≺ x2 se lit x1 précède x2 . n
Si la variable est ordinale, on peut calculer les effectifs cumulés :
j
� 10
Nj = nk , j = 1, . . . , J.
k=1
12CHAPITRE 1. VARIABLES, DONNÉES STATISTIQUES, TABLEAUX, EFFECTIFS
En langage R
où ni est l’effectif >X=c(’Marié(e)’,’Marié(e)’,’Divorcé(e)’,’Célibataire’,’Célibataire’,’Marié(e)’,’Céli
de la modalité xi , et n l’effectif de la population étudiée.
’Célibataire’,’Célibataire’,’Marié(e)’,’Célibataire’,’Marié(e)’,’Veuf(ve)’,’Mar
’Veuf(ve)’,’Divorcé(e)’,’Célibataire’,’Célibataire’,’Célibataire’,’Marié(e)’)
Exemple 1.14. En reprenant l’exemple précédent, construire le diagramme circulaire
> T1=table(X) des
fréquences. > V1=c(T1)
> data.frame(Eff=V1,Freq=V1/sum(V1))
Solution Eff Freq
Construisons leDivorcé(e)
diagramme
Célibataire
circulaire des fréquences.
9 0.45
2 0.10
Calculons d’abord les angles
Marié(e) pour chaque modalité
7 0.35
Veuf(ve) 2 0.10
9 × 360° 7 × 360°
αC ° = = 162°; αM ° = = 126°
20 20
1.2.2 Diagramme en secteurs et diagramme en barres
2 × 360° 2 × 360°
αV ° =
Le tableau statistique d’une variable αD ° =nominale peut être
= 36°;qualitative = représenté
36°
20 Les effectifs sont représentés20par un diagramme
par deux types de graphique.
en barres et les fréquences par un diagramme en secteurs (ou camembert ou
piechart en anglais) (voir Figures 1.1 et 1.2).
Célibataire
Divorcé(e)
Veuf(ve)
Marié(e)
En langage R
> pie(T1,radius=1.0)
X: Ω→C
ω 7→ X(ω)
Exemple 1.15. Une enquête réalisée dans un village porte sur le nombre d’enfants par
famille. On note X le nombre d’enfants, les résultats sont donnés dans le tableau suivant
11
xi 0 1 2 3 4 5 6
ni 12 24 8 20 17 6 4
X est une variable quantitative discrète car X(Ω) = {0, 1, 2, . . . , 5, 6} où Ω est l’ensemble des
familles.
Définition 1.20 (Effectif ). On appelle effectif d’une valeur xi , mesurée sur une variable
quantitative discrète, le nombre ni d’individus dont la variable prend cette valeur.
Définition 1.23 (Fréquence). On appelle fréquence d’une valeur xi mesurée sur une
variable quantitative discrète, la proportion fi d’individus dont la variable prend cette valeur.
12
xi 0 1 2 3 4 5 6 total
ni 12 24 8 20 17 6 4 91
ECC 12 36 44 64 81 87 91 -
ECD 91 79 55 47 27 10 4 -
fi 0,132 0,264 0,088 0,22 0,187 0,066 0,044 1
FCC 0,132 0,396 0,484 0,704 0,891 0,957 1 -
FCD 1 0,869 0,605 0,517 0,297 0,11 0,044 -
Définition 1.26 (mode). Le mode d’une variable quantitative discrète est la valeur qui
possède le plus grand effectif ou la fréquence la plus élevée.
Exemple 1.18. Les notes en mathématiques des étudiants d’une classe sont donnée par la
série statistique suivante : 6 ; 10 ; 7 ; 6 ; 8 ; 12 ; 8 ; 6 ; 15 ; 12 ; 18 ; 7.
Calculer la note moyenne de la classe.
Solution
Calculons la moyenne
p
1X 1
x̄ = ni xi = (3 · 6) + (2 · 7) + (2 · 8) + (1 · 10) + (2 · 12) + (1 · 15) + (1 · 18) = 9, 58
n i=1 12
Définition 1.28 (médiane). La médiane, notée Me, d’une variable quantitative discrète
est la valeur observée ou possible de la série statistique correspondante dont les valeur sont
au préalable ordonnées de façon croissante, et qui partage la série en deux effectifs égaux.
13
Calcul de la médiane : On range d’abord la série par ordre croissant des valeur.
• Si l’effectif total est impair. Dans ce cas la médiane est la modalité xp de la série
(ordonnée), avec p = n+1
2
, où n est l’effectif total.
• Si l’effectif total est pair. Dans ce cas, il existe un entier p tel que l’effectif total
s’écrit sous la forme n = 2p. La médiane est alors le centre de l’intervalle [xp ; xp+1 ], c’est-à-dire
xp + xp+1
Me =
2
Exemple 1.19. En reprenant l’Exemple 1.18, calculer la médiane de la série.
Solution
• On ordonne d’abord la série de façon croissante, on a alors
6 6 6 7 7 8 8 10 12 12 15 18
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12
Exemple 1.20. Considérons la série statistique de l’Exemple 1.18, et calculer son étendue.
Solution
On a min = 6 et max = 18, donc E = 18 − 6 = 12
Les quartiles. Ce sont des valeurs caractéristiques qui partagent la série statistique en
quatre effectifs représentant chacun 25% de l’effectif total. Ils sont au nombre de trois : le
quartile d’ordre 25%, Q1 , le quartile d’ordre 50%, Q2 , et le quartile d’ordre 75%, Q3 .
Définition 1.30. On appelle quartile d’ordre 25% (ou 1er quartile), noté Q1 , la plus petite
valeur de la série telle qu’au moins 25% des observations lui sont inférieures ou égales.
Définition 1.31. On appelle quartile d’ordre 75% (ou 3me quartile), noté Q3 , la plus
petite valeur de la série telle qu’au moins 75% des observations lui sont inférieures ou égales.
14
n
Calcul de Q1 : On calcule , le premier quartile Q1 est alors la valeur de rang l’entier
4
n
juste supérieur ou égal à .
4
3n
Calcul de Q3 : On calcule , le troisième quartile Q3 est alors la valeur de rang l’entier
4
3n
juste supérieur ou égal à .
4
Exemple 1.21. Considérons la série statistique de l’Exemple 1.18, et calculons les quatiles
Q1 et Q3 .
Solution
• On ordonne d’abord la série de façon croissante, on a alors
6 6 6 7 7 8 8 10 12 12 15 18
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12
n 12
• Calcul de Q1 : soit n = 12 l’effectif total, calculons alors = =3
4 4
Q1 est alors la valeur x3 , donc Q1 = 6.
3n 36
• Calcul de Q3 : calculons = = 9, alors Q3 est la valeur x9 , donc Q3 = 12.
4 4
Définition 1.32.
• On appelle écart interquartile la différence entre le troisième quartile et le premier
quartile. On a
EI = Q3 − Q1
• On appelle intervalle interquartile, l’intervalle II = [Q1 , Q3 ].
15
1.3.3 Représentation graphique
Pour une variable quantitative discrète on rencontre essentiellement deux types de repré-
sentations graphiques : le diagramme en bâtons et le diagramme cumulatif.
Exemple 1.24. Reprenons l’Exemple 1.18, et représenter le diagramme en bâtons des effec-
tifs de la variable « notes en mathématiques » .
Solution
Représentons le diagramme en bâtons des effectifs
3.0
2.5
2.0
Effectifs
1.5
1.0
0.5
0.0
6 7 8 10 12 15 18
Valeurs de la variable
Diagramme cumulatif. C’est une représentation faite aussi dans un repère du plan et qui
permet de visualiser les ECC ou les FCC. L’axe des abscisses porte les observations tandis que
l’axe des ordonnées porte les ECC ou les FCC. C’est une fonction en escaliers dont chaque
palier est à hauteur de l’ECC ou la FCC associée à une valeur disctincte.
16
1.0
●
0.8
●
0.6
0.4 ●
●
0.2
0.0
6 7 8 10 12 15 18
Valeurs de la variable
17
Fréquence - Fréquence cumulée croissante - Fréquence cumulée décroissante
Définition 1.38 (Fréquence). On appelle fréquence d’une classe [a, b[ la proportion d’in-
dividus dont la valeur de la variable est dans cette classe.
Exemple 1.26. La répartition des notes des étudiants d’une classe est décrite dans le tableau
suivant
18
• Les classes sont de même amplitude : dans ce cas la classe modale est celle qui
possède l’effectif le plus grand ou la fréquence la plus élevée.
• Les classes sont d’amplitudes différentes : dans ce cas on calcule d’abord les
densités d’effectifs ou les densités de fréquences. La classe modale est alors celle qui la densité
la plus grande. Pour une classe [bi , bi+1 [ d’effectif ni , de fréquence fi et d’amplitude ai , alors
ni fi
sa densité d’effectif est dni = et sa densité de fréquence est dfi =
ai ai
Définition 1.41 (Le mode). C’est la valeur de la variable qui a le plus grand effectif ou
la fréquence la plus élevée. Il se calcule par interpolation linéaire et est donné par la formule
suivante
∆i
Mo = a + (b − a)
∆i + ∆s
où [a, b[ est la classe modale. ∆i et ∆s se calculent selon l’un des deux cas suivants :
X si les classes sont de même amplitude :
∆i = dno −dni (ou ∆i = dfo −dfi ), où dno (ou dfo ) est la densité d’effectif (ou la densité de
fréquence) de la classe modale et dni (ou dfi ) la densité d’effectif (ou la densité de fréquence)
de la classe adjacente inférieure à la classe modale.
∆s = dno −dns (ou ∆s = dfo −dfs ), où dno (ou dfo ) est la densité d’effectif (ou la densité de
fréquence) de la classe modale et dns (ou dfs ) la densité d’effectif (ou la densité de fréquence)
de la classe adjacente supérieure à la classe modale.
Définition 1.42 (moyenne). Soit X une variable continue dont les modalités sont repré-
sentées par p classes [bi , bi+1 [, i = 1, . . . , p. La moyenne de X est donnée par
p
1X
x̄ = n i ci
n i=1
où n est l’effectif total, ni l’effectif de la classe [bi , bi+1 [ et ci son centre, c’est-à-dire ci = bi +bi+1
2
Définition 1.43 (médiane). Comme pour la variable discrète, la médiane d’une variable
continue est le quartile d’ordre 50%. Cependant pour la variable continue le calcul est dif-
férent : on procède par interpolation linéaire. Si F est la fonction des fréquences cumulées
croissantes et [a, b[ la classe qui contient la médiane Me = Q2 , alors on a
F (M e) − F (a)
Me = a + (b − a)
F (b) − F (a)
19
Remarque 1.4. Soit F la fonction des fréquences cumulées croissantes, alors F (M e) = 0, 5
(ou F (M e) = 50 si les fréquence sont exprimées en pourcentage).
Les quartiles. Les trois quartiles Q1 , Q2 et Q3 sont définies de la même manière que pour
la variable discrète. Cependant leur calcul est différent pour la variable continue.
Calcul du premier quartile. Le quartile d’ordre 25%, Q1 , pour une variable continue
se calcule par interpolation linéaire. Si F est la fonction des fréquences cumulées croissantes
(FCC), et si Q1 ∈ [a, b[, alors Q1 est donné par :
F (Q1 ) − F (a)
Q1 = a + (b − a)
F (b) − F (a)
Calcul du troisième quartile. Le quartile d’ordre 75%, Q3 , pour une variable continue
se calcule par interpolation linéaire. Si F est la fonction des fréquences cumulées croissantes
(FCC), et si Q3 ∈ [a, b[, alors Q3 est donné par :
F (Q3 ) − F (a)
Q3 = a + (b − a)
F (b) − F (a)
Remarque 1.5. Soit F la fonction des fréquences cumulées croissantes, alors F (Q1 ) = 0, 25
(ou F (Q1 ) = 25 si les fréquences sont exprimées en pourcentage) et F (Q3 ) = 0, 75 (ou
F (Q3 ) = 75 si les fréquences sont exprimées en pourcentage)
Définition 1.45 (variance). Soit X une variable continue dont les modalités sont repré-
sentées par p classes [bi , bi+1 [, i = 1, . . . , p. La variance est donnée par
p
1X 2
V ar(X) = ni ci − x̄2
n i=1
où n est l’effectif total, ni l’effectif de la classe [bi , bi+1 [ et ci son centre, c’est-à-dire ci = bi +bi+1
2
20
Histogramme. C’est un graphique représenté dans un repère du plan. Sur l’axe des abs-
cisses (axe horizontal) sont portés les classes (modalités) alors que sur l’axe des ordonnées
(axe vertical) sont portés les effectifs (ou fréquences) ou les densités d’effectifs (ou densités
de fréquences). Pour construire
22CHAPITRE l’histogramme
1. VARIABLES, DONNÉESnousSTATISTIQUES,
distinguons deux TABLEAUX,
cas : EFFECTIFS
cas où les classes ont toutes la même amplitude. L’histogramme est constitué d’un
– L’aire de l’histogramme est égale à l’effectif total n, puisque l’aire de
ensemble de rectangles « debout » collés les uns aux autres, et qui ont la même largeur
chaque rectangle est égale à l’effectif de la classe j : aj × hj = nj .
(amplitude commune des classes). La longueur de chaque rectangle est proportionnelle à
Pour un histogramme des fréquences on a
l’effectif (ou fréquence) de la classe correspondante.
fj
cas où les classes sont d’amplitudes ddifférentes. j =
aj L’histogramme est constitué d’un
ensemble de rectangles « debout » collés les uns aux autres, et dont la largeur de chacun est
égale à l’amplitude de ladjclasse
– On appelle associée.
la densité La longueur de chaque rectangle est proportionnelle
de fréquence.
à la densité d’effectif
– L’aire de (ou densité de fréquence)
l’histogramme est égale àde1,lapuisque
classe correspondante.
l’aire de chaque rectangle
est égale à la fréquence de la classe j : aj × dj = fj .
ExempleFigure Exemple
1.27. 1.8 d’histogramme
représente avec classes
l’histogramme de mêmedeamplitude
des fréquences l’exemple précedent :
0.06
0.04
0.02
0.00
En langage R
Courbe cumulative des ECC/FCC. C’est une courbe tracée dans un
> hist(S,breaks=c(151.5,155.5,159.5,163.5,167.5,171.5), repère du plan.
freq=FALSE,
Sur l’axexlab="",ylab="",main="",xaxt
des abscisses sont portés les observations
= "n") (plus précisément les bornes de classes),
alors que sur l’axe des ordonnées sont inscrites les ECC ou les FCC. Pour le tracé de la courbe
> axis(1, c(151.5,155.5,159.5,163.5,167.5,171.5))
on place d’abord les points associés à chaque classe. Ces points sont tels que l’abscisse est la
borne supérieure de la classe et l’ordonnée l’ECC ou la FCC de la classe.
Si les deux dernières classes sont agrégées, comme dans la Figure 1.9, la
Exemple du En
1.28.
surface reprenant
dernier l’Exepmle
rectangle 1.26,
est égale oùsurface
à la l’étude des
concerne la variable
deux derniers « notes »
rectangles
1) Calculer le mode, la moyenne
de l’histogramme et la1.8.
de la Figure variance.
2) Calculer les quartiles Q1 , Q2 et Q3 .
3) Représenter
En langagel’histogramme
R des fréquences et la courbe cumulative des FCC.
21
> hist(S,breaks=c(151.5,155.5,159.5,163.5,171.5),
xlab="",ylab="",main="",xaxt = "n")
> axis(1, c(151.5,155.5,159.5,163.5,171.5))
Solution :
Reprenons le tableau statistique de l’Exepmle 1.26.
on a ∆i = 3, 67 − 3 = 0, 67 et ∆s = 3, 67 − 1, 8 = 1, 87 et donc
0, 67
M o = 12 + (15 − 12) = 12, 79
0, 67 + 1, 87
• Calcul de la moyenne : on calcule d’abord les centres de classe
0+5 5 5+8 13
pour [0; 5[ c1 = = = 2, 5 ; pour [5; 8[ c2 = = = 6, 5
2 2 2 2
8 + 12 20 12 + 15 27
pour [8; 12[ c3 = = = 10 ; pour [12; 15[ c4 = = = 13, 5
2 2 2 2
15 + 20 35
pour [15; 20] c5 = = = 17, 5.
2 2
1
x̄ = (10 × 2, 5) + (8 × 6, 5) + (12 × 10) + (11 × 13, 5) + (9 × 17, 5) = 10, 06
50
• Calcul de la variance : nous avons déjà les centres de classes, donc
1
V ar(X) = (10 × 2, 52 ) + (8 × 6, 52 ) + (12 × 102 ) + (11 × 13, 52 ) + (9 × 17, 52 ) − (10, 06)2
50
V ar(X) = 26, 0264
22
• Calcul du premier quartile Q1 : on détermine d’abord la classe qui contient Q1
Notons par F la fonction des fréquences cumulées croissantes (FCC)
On a 0, 2 < 0, 25 < 0, 36 ⇐⇒ F (5) < F (Q1 ) < F (8) =⇒ 5 < Q1 < 8 d’où Q1 ∈ [5, 8[
0, 25 − 0, 2
ainsi Q1 = 5 + (8 − 5) = 5, 94
0, 36 − 0, 2
On a 0, 36 < 0, 5 < 0, 6 ⇐⇒ F (8) < F (Q2 ) < F (12) =⇒ 8 < Q2 < 12 d’où Q2 ∈ [8, 12[
0, 5 − 0, 36
ainsi Q2 = 8 + (12 − 8) = 10, 33
0, 6 − 0, 36
On a 0, 6 < 0, 75 < 0, 82 ⇐⇒ F (12) < F (Q3 ) < F (15) =⇒ 12 < Q3 < 15 d’où Q3 ∈ [12, 15[
0, 75 − 0, 6
ainsi Q3 = 12 + (15 − 12) = 14, 045
0, 82 − 0, 6
23