Chapitre1 - Statistiques Descriptives
Chapitre1 - Statistiques Descriptives
Chapitre1 - Statistiques Descriptives
Introduction
• Exemple typique de situation à laquelle est
confrontée le chercheur ou l’ingénieur
On veut connaître un paramètre à partir d’une mesure
• Etc.
Il y a tout un tas de
paramètres que je ne peux
pas maîtriser ou prendre en
compte. Mon résultat contient
une part d’aléa !
Pourquoi n’ai-je pas toujours la même valeur ?
Les données comportent des incertitudes et présentent des variations
pour plusieurs raisons :
• le déroulement des phénomènes observés n’est pas prévisible à l’avance
avec certitude
• toute mesure est entachée d’erreur
• seuls quelques individus sont observés
• ...
• Etc.
0.188 + 0.177 + 0.189 + 0.178 + 0.178 + 0.176 + 0.174 + 0.19 + 0.187 + 0.183
= 0.182
10
Je refais cette série d’essai
Ça ressemble, mais on a
encore des valeurs différentes! expérience 1 0.188
expérience 2 0.188
expérience 3 0.175
expérience 4 0.171
expérience 5 0.183
expérience 6 0.175
expérience 7 0.184
La valeur moyenne a changé
expérience 8 0.178
aussi. Est-ce qu’elle ne risque
expérience 9 0.174
pas de trop bouger si je fais
encore des essais ? expérience 10 0.184
0.188 + 0.188 + 0.175 + 0.171 + 0.183 + 0.175 + 0.184 + 0.178 + 0.174 + 0.184
= 0.180
10
J’ai besoin d’outils pour maîtriser au
mieux cette incertitude pour extraire des
informations utiles des données, par
l’intermédiaire de l’analyse des
variations dans les observations.
4 Introduction aux
4 Introduction auxtests
testsd’hypothèse
d’hypothèse
Plan du cours
• Introduction
– Bases de la statistique descriptive
– Vocabulaire
– Tableaux statistiques
• Représentations graphiques
– Histogrammes
– Fonction de répartition empirique
• Indicateurs statistiques
– Indicateurs de localisation ou de tendance centrale
– Indicateurs de dispersion ou de variabilité
• Corrélation et causalité
– Régression linéaire
– Exemples de corrélations
Terminologie
• On étudie un caractère X prenant ses valeurs dans
Ω, sur une population P.
• Exemple : si l’échantillon est un groupe de TD de la
FSA
– un individu est un étudiant
– la population peut être l’ensemble des étudiants de la
FSA (ou du pôle Béthunois, ou de l’université d’Artois, ou
…)
– les variables étudiées peuvent être le sexe, la taille, l’âge,
le nombre de frères et sœurs, la moyenne aux examens,
le nombre de kilomètres effectués pour venir en cours,
….
Terminologie et objectifs
• Il n’est souvent pas possible d’étudier ce caractère sur tous les
individus d’une population P (population trop grande,
opération trop coûteuse, trop longue) , mais seulement sur
une sous-population de P de taille n.
• On notera alors :
– la sous population : {i1,…, ij,…,in} un ensemble de n individus
choisis au hasard dans P.
– l’échantillon de données : {x1,…, xj,…,xn} les n valeurs observées du
caractère X sur les individus de la sous-population.
• n la taille de l’échantillon
• k le nombre de modalités.
• mi ; 𝑖 ∈ [1; 𝑘] les modalités
• ni le nombre d’occurences (l’effectif) de mi dans l’échantillon
• fi la fréquence correspondante.
• on a
▪ 𝑛 = σ𝑘𝑖=1 𝑛𝑖
▪ 𝑓𝑖 = 𝑛𝑖Τ𝑛
▪ 1 = σ𝑘𝑖=1 𝑓𝑖
Tableaux statistiques – 1er exemple
• Exemple : nombre de pièces des logements :
• n=35672000 la taille de l’échantillon Variables quantitatives discrètes
• k=6 le nombre de modalités.
• mi ; 𝑖 ∈ [1; 6] les modalités
• ni le nombre d’occurences (l’effectif) de mi dans l’échantillon
• fi la fréquence correspondante.
mi 1 2 3 4 5 6
10404 valeurs !
Variables quantitatives continues
On peut trouver toutes les valeurs réelles possibles
10404 valeurs !
Variables catégorielles
Répartition par classe
Diagrammes en bâtons :
à chaque modalité
correspond un rectangle
vertical dont la hauteur
est proportionnelle à la
fréquence relative de la
modalité.
Représentations graphiques
Variables discrètes – Diagrammes en bâtons
mi 1 2 3 4 5 6
Diagrammes en bâtons :
à chaque modalité
correspond un rectangle
vertical dont la hauteur
est proportionnelle à la
fréquence relative de la
modalité.
Représentations graphiques
Variables discrètes – Diagrammes sectoriels
alpha i 23 51 88 103 62 33
Représentations graphiques
Variables continues – Histogramme des effectifs
L’histogramme est la figure constituée de rectangles dont les bases sont
les classes et les hauteurs sont les effectifs.
classes effectifs
[0;100[ 301
[100;200[ 3221
[200;300[ 3925
[300;400[ 1894
[400;500[ 686
[500;600[ 212
[600;700[ 98
[700;800[ 39
[800;900[ 14
[900;1000[ 7
[1000;1100[ 4
[1100;1200[ 3
Représentations graphiques
Variables continues – Histogramme des fréquences
L’histogramme est la figure constituée de rectangles dont les bases sont
les classes et dont les aires sont égales aux fréquences de ces classes.
Autrement dit, la hauteur hi du ième rectangle est ni=n.ampi.
ampi est la largeur (amplitude) de la classe i (souvent constante)
hauteurs
classes fréquences histogramme
[0;100[ 0.02893118 0.000289
[100;200[ 0.30959246 0.003096
[200;300[ 0.37725875 0.003773
[300;400[ 0.18204537 0.001820
[400;500[ 0.06593618 0.000659
[500;600[ 0.02037678 0.000204
[600;700[ 0.00941945 0.000094
[700;800[ 0.00374856 0.000037
[800;900[ 0.00134564 0.000013
[900;1000[ 0.00067282 0.000007
[1000;1100[ 0.00038447 0.000004
[1100;1200[ 0.00028835 0.000003
consommation classe
x*1=32
estimation ges
énergie consommation
1 32 A 2
2 39.45 A 1.88
3 40 A x*5=40.48
3
4 40 A 10
5 40.48 A 2.42
6 43.66 A 2.06
7 44 A 10
8 46 A 10
9 46.12 A 10.79
10 47 A 1
x*1<x*2<x*3<x*4<…<x*i<……<x*10404
Fonction de répartition empirique Fn
• La fonction Fn permet de répondre à la question suivante : « Quel est
le pourcentage de valeurs inférieures à une valeur particulière x ? »
• Cas 2 : x*i<x<x*i+1 exemple x=225.38 on constate que x*4748<x<x*4749
dans la série il y a donc 4748 valeurs inférieures à x soit
1 10404 4748 45.6 % des
Fn (225.38) =
10404 i =1
1xi 225.38 =
10404
= 0.456 valeurs sont
inférieures à
4743 225.16 225.38
4744 225.18
On compte toutes les valeurs inférieures à 225.38 c’est-à-dire 4745 225.23 x*4748=225.35
qu’on ajoute 1 pour chaque valeur inférieure trouvée
4746 225.31
4747 225.33
Donc pour toute valeur x 4748 225.35
1 n i
Fn ( x) = 1xi x =
4749 225.4
xi* x xi*+1 4750 225.52
n i =1 n 4751 225.54 x*4749=225.4
4752 225.56
4753 225.65
<x*4<…<x*
x*1<x*2<x*34754 i<……<x*10404
225.68
4755 225.68
Fonction de répartition empirique Fn
• La fonction Fn permet de répondre à la question suivante : « Quel est
le pourcentage de valeurs inférieures à une valeur particulière x ? »
• Cas 3 : x>x*10404 ici si x>1187 toutes les valeurs sont inférieures donc
à x Fn(x)=1 (100%)
x*10404=1187
10402 1122
10403 1133
10404 1187
x*1<x*2<x*3<x*4<…<x*i<……<x*10404
Si x>1187 Fn(x)=1
Si x<32 Fn(x)=0
Fonction de répartition empirique Fn
Autre utilisation de Fn…
x0
Fonction de répartition empirique
• Qu’est ce que cela donne avec des données réparties dans
k classes (modalités) ?
Fréquences
classes effectifs fréquences cumulées
[0;100[ 301 0.029 0.029
[100;200[ 3221 0.310 0.339
[200;300[ 3925 0.377 0.716
[300;400[ 1894 0.182 0.898
[400;500[ 686 0.066 0.964
[500;600[ 212 0.020 0.984
[600;700[ 98 0.009 0.994
[700;800[ 39 0.004 0.997
[800;900[ 14 0.001 0.999
[900;1000[ 7 0.001 0.999
[1000;1100[ 4 0.000 1.000
[1100;1200[ 3 0.000 1.000
Si x classe c
k
Fn ( x) = f i classe i c
i =1
En superposant les 2 approches
Fréquences cumulées
1.000
0.900
0.800
0.700
0.600
0.500
0.400
0.300
0.200
0.100
0.000
Fréquences cumulées
1.000
0.800
0.600
0.400
On constate que le regroupement en classes
0.200 modifie l’information.
0.000
[0;100[
[100;200[
[200;300[
[300;400[
[400;500[
[500;600[
[600;700[
[700;800[
[800;900[
[900;1000[
[1000;1100[
[1100;1200[
Indicateurs statistiques
• Indicateurs de localisation ou de tendance centrale
• Indicateurs de dispersion ou de variabilité
La médiane
La médiane partage la série en 2 sous-ensembles de même effectif donc
50% - 50%. Médiane
50% 50%
x*1 x*n
Fn(x)
1
0.9
0.8
0.4
0.3
50 % des
0.2 valeurs 50 % des valeurs
0.1
0
0 200 400 600 800 1000 1200 1400
232.705
Les quantiles empiriques
La médiane partage la série en 2 sous-ensembles de même effectif donc
50%-50%. Médiane
50% 50%
x*1 x*n
1er quartile
25% 75%
x*1 x*n
1er quartile limite des 25%
1er quartile
25% 75%
x*1 x*n
2600 178.72
n 10404
= = 2601 2601
2602
178.75
178.76
Limite de 25%
4 4 2603 178.78
x25%=178.755
Fn(x)
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.25 0.2
178.755
3ème quartile limite des 75%
3ème quartile
75% 25%
x*1 x*n
7802 312.05
3 3
n = .10404 = 7803 7803
7804
312.12
312.16 Limite des 75%
4 4 7805 312.17
x75%=312.14
Fn(x)
1
0.9
0.8
0.75 0.7
0.6
0.5
0.4
0.3
0.2
75 % des valeurs 25 % des valeurs
0.1
0
0 200 400 600 800 1000 1200 1400
312.14
Autres quantiles : les déciles
Fn(x)
1
0.90 0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.10 0.1
0
0 200 400 600 800 1000 1200 1400
Série de mesures
x = 0.180
0.3
La tendance centrale (ici la
0.25 moyenne) ne suffit pas
pour décrire la série.
valeurs
0.2
0.15
0.1
0 2 4 6 8 10 12
numéro de la mesure
Mesures de la dispersion
Idée : étudier les écarts (distances) de chaque valeur par rapport à la
moyenne.
Série de mesures
0.3
(x − x )
0.25
i
valeurs
0.2
x = 0.180
0.15
0.1
0 2 4 6 8 10 12
numéro de la mesure
(x − x )
0.25
valeurs i
x = 0.180
0.2
0.15
0.1
0 2 4 6 8 10 12
numéro de la mesure
x1 − x + x2 − x + ... + xi − x + ... + xn − x
Ecart moyen = EM =
n
1 i =n
EM = xi − x
n i =1
Ecart moyen
1 i =n
EM = xi − x = 0.0012
n i =1
Série de mesures
0.3
0.25
1 i =n
EM = xi − x = 0.0539
valeurs
0.2
0.15
n i =1
0.1
0 2 4 6 8 10 12
numéro de la mesure
Ecart type empirique et variance empirique
Variance =
(x − x )² + (x
1 ) ( ) (
− x ² + .... + xi − x ² + ... + xn − x ²
2 )= s²
n
1 i =n
s² = xi − x ²
n i =1
( )
« L’écart type est la racine carrée de la variance »
Ecart type =
(x − x )² + (x
1 2 ) ( ) ( )
− x ² + .... + xi − x ² + ... + xn − x ²
= s² = s
n
s=
1 i =n
n i =1
xi − x ² ( )
Ecarts types et variances (empiriques)
Variance
( )
2
1 i =n
s² = xi − x = 1,76.10 −6
n i =1
Ecart type
( )
2
1 i =n
s=
n i =1
xi − x = 1,16.10 −6 = 0.0013
Coefficient de variation Cv
s 0.0013
= = 0.0073 = 0.73%
x 0.18
Série de mesures
0.3
Variance
( )
2
1 i =n
s² = xi − x = 3,41.10 −3
0.25 n i =1
Ecart type
valeurs
( )
0.2 2
1 i =n
0.15
s=
n i =1
xi − x = 3,41.10 −3 = 0.058
Coefficient de variation Cv
0.1
s 0.058
= = 0.325 = 32.5%
0 2 4 6 8 10 12
numéro de la mesure
x 0.18
Etendue interquartile
Amplitude de la plage des 50% des valeurs situées au centre des observations.
Fn(x)
1
0.9
0.8
0.7
0.75 Les 50% des valeurs situées au centre des
0.6 observations sont situées dans cet intervalle.
0.5
Q3-Q1=312.14-178.755=133.385
0.4
0.3
0.25
0.2
0.1
0
0 200 400 600 800 1000 1200 1400
1er quartile= x25% 3ème quartile = x75%
Q1 Q3
Etc.
Exercice
• Soit l’ensemble de valeurs suivant de taille N = 5
2, 7, 3, 12, 9
σ𝑁
𝑖=1 𝑥𝑖 2+7+3+12+9
• La moyenne 𝑥ҧ = = = 6.6
𝑁 5
2 σ𝑁
𝑖=1 𝑥𝑖 −𝑥ҧ
2
• La variance 𝜎 = =
𝑁
(2−6.6)2 + (7−6.6)2 + (3−6.6)2 + (12−6.6)2 + (9−6.6)2
= 13.84
5
Variance =
(x − x )² + (x
1 2 ) ( ) ( )
− x ² + .... + xi − x ² + ... + xn − x ²
= s²
n
1 i =n
(
s² = xi − x ²
n i =1
)
s=
1 i =n
n i =1
(
xi − x ² )
Remarque sur le calcul de la variance empirique
1 i =n
n i =1
( )
1 i =n
s² = xi − x ² = ( x ² i − 2.xi x + x ² )
n i =1
1 i =n 1 i =n 1 i =n
s² = ( x ² i ) − 2 ( xi x ) + ( x ² )
n i =1 n i =1 n i =1
1 i =n 1 i =n 1 i =n
s² = ( x ² i ) − 2 x ( xi ) + x ² 1
n i =1 n i =1 n i =1
s² = x ² − 2 x.x + x 2 = x ² − 2 x 2 + x 2
s² = x ² − x 2
x = 257.25 x = 258.24
Valeur Max
Médiane (Q2)
Valeur Min
Valeur Moyenne
Boîte à moustache – Boxplot
Série de mesures
0.3
0.25
valeurs
0.2
0.15
0.1
0 2 4 6 8 10 12
numéro de la mesure
Boîte à moustache - Boxplot
Valeurs considérées
comme aberrantes
Médiane (Q2)
1er quartile (Q1)
x (mm) y (K.m²/W)
2 0.83
4 1.34
6 1.63
8 2.29
10 2.44
12 2.93
15 4.06
20 4.48
Nuage de points
Le plan P étant muni d’un repère orthogonal, on peut associer au couple (xi ; yi)
de la série statistique double, le point Mi de coordonnées xi et yi.
L’ensemble des points Mi obtenus constitue le nuage de points représentant la
série statistique.
Mi(xi,yi)
i =n
Somme des distances au carré = ( yi − (a.xi + b) ) = E (a, b)
2
i =1
Droite de régression des y en fonction de x
Chercher les valeurs a et b qui rendent E la plus petite possible. On aura un minima
pour :
E (a, b) E (a, b)
= 0 et =0 2 calculs à faire….
a b
(y ² )
i =n
i − 2 y i (a. xi . + b ) + a ². x ² i + 2 a. xi .b + b 2
= E ( a, b)
i =1
E (a, b) i = n
= (− 2 yi + 2a.xi + 2b ) = 0
b i =1
i =n i =n i =n i =n i =n
− ( yi ) + (a.xi ) + (b ) = 0 ( yi ) = a. xi + n.b
i =1 i =1 i =1 i =1 i =1
i =n i =n
(y ) i x i
i =1
= a. i =1
+ b y = ax + b
n n
La droite passe par le centre de gravité du nuage de points G( x , y )
Droite de régression des y en fonction de x
2ème étape
(y ² )
i =n
i − 2 y i (a. xi . + b ) + a ². x ² i + 2 a. xi .b + b 2
= E ( a, b)
i =1
E (a, b) i = n
= (− 2 yi .xi + 2a.x ² i + 2.xi .b ) = 0 on sait que y = ax + b
a i =1
i =n
(− 2 y .x + 2a.x²
i =1
i i i + 2.xi .( y − ax ) ) = 0
i =n i =n
(− 2 y .x + 2.x y ) = (− 2a.x²
i =1
i i i
i =1
i + 2a.xi x ) )
i =n i =n i =n i =n
− 2 ( yi .xi ) + 2 y ( xi ) = −2a ( x ² i ) + 2ax ( xi ) )
i =1 i =1 i =1 i =1
i =n i =n i =n i =n
− ( yi .xi ) + y ( xi ) = −a ( x ² i ) + ax ( xi ) )
i =1 i =1 i =1 i =1
− xy + y.x = −a x ² + ax.x
xy − y.x cov( x, y )
a= =
x ² + x .x var( x)
Calcul de la droite de régression
x (mm) y (K.m²/W) x² y² x.y
2 0.83 4 0.6889 1.66 G ( x , y ) G (9.625,2.5)
4 1.34 16 1.7956 5.36
1 n
cov( x, y ) = ( xi − x )( yi − y ) = xy − y.x
6 1.63 36 2.6569 9.78
8 2.29 64 5.2441 18.32
10 2.44 100 5.9536 24.4
n i =1
12 2.93 144 8.5849 35.16 cov( x, y ) = 30.6475 − 9.625 * 2.5 = 6.585
15 4.06 225 16.4836 60.9
20 4.48 400 20.0704 89.6
1 n
var( x) = s ² = ( xi − x )² = x ² − x ²
moyennes 9.625 2.5 123.625 7.68475 30.6475 n i =1
var( x) = 123.625 − 9.625² = 30.984
xy − y.x cov( x, y ) 6.585
a= = = = 0.2125
x ² +- x.x var( x) 30.984
y = ax + b b = y − ax y = 0.2125.x + 0.454
b = 2.5 − 0.2125 * 9.625 = 0.454
Droite de régression des x par rapport aux y
y = 0.2125.x + 0.454
4.5
x (mm) y (K.m²/W) D(x)
4
2 0.83 0.88
3.5
4 1.34 1.30
3 6 1.63 1.73
2.5 8 2.29 2.15
2
10 2.44 2.58
12 2.93 3.00
1.5
15 4.06 3.64
1
20 4.48 4.70
0.5
0
0 5 10 15 20 25
Droite de régression des x en fonction de y
i =n 2
3.5
3 x = 4.58965. y − 1.84912
2.5
1.5
1
Les 2 droites sont « presque » superposées
0.5
0
0 5 10 15 20 25
Attention : on s’intéresse bien ici à une ajustement par une droite. Il faut faire
attention aux conclusions que l’on tire d’une valeur de r.
Ajustements d’autres formes
• Des considérations pratiques (lois physiques connues ou
répartitions des points) permettent d’estimer la forme de la
fonction d’approximation. Dans notre cas, on savait que la
résistance variait linéairement avec l’épaisseur.
• Par exemple :
– Ajustement linéaire : y=a x+b
– Ajustement puissance : y=a.xb
– Ajustement exponentiel : y=a.eb.x
– Ajustement logarithmique : y=a.ln(x)+b
– Ajustement parabolique : y=a+ b.x+c.x2
– Ajustement cubique : y=a+b.x+c.x2+d.x3
– Etc.
1 0
2 0
3 1
4 0
5 0
6 1
4 piles sur 10 soit 40% des réalisations
7 1
8 0
9 0
10 1
Je lance 200 fois
numéro lancer pile ou face nombre piles fréquence pile
1 0 0 0.00 109 piles sur 200 soit 55% des réalisations
2 0 0 0.00
3 1 1 0.33
4 0 1 0.25
5 0 1 0.20
6 1 2 0.33
7 1 3 0.43
8 0 3 0.38
9 0 3 0.33
10 1 4 0.40