Statistique S
Statistique S
Statistique S
1
Plan
Introduction
2
bibliographie
3
Introduction
4
Définition
5
Difficultés
6
Domaines d’utilisation
Médecine : études épidémiologiques
Démographie, politique…
7
Inférence statistique
8
Chapitre 1
Notions de base
9
1. Vocabulaire statistique
Population : ensemble des éléments considérés dans une étude particulière
10
1. Vocabulaire statistique : exemple
Étudiants des universités par discipline et par cursus (année 2007-2008)
11
1. Vocabulaire statistique
Attention aux confusions possibles… Tout ce qui est numérique n’est pas
quantitatif !
12
1. Vocabulaire statistique
13
2. Présentation des données
Données qualitatives
Données (fictives) d'un échantillon de 50 achats de boisson non
alcoolisée
nombre de
fréquence Fréquence Fréquence
Boisson bouteilles
relative (en %) cumulée
vendues
Coca-cola 19 0,38 38 38
Pespi cola 13 0,26 26 64
Coca-cola light 8 0,16 16 80
Sprite 5 0,1 10 90
Orangina 5 0,1 10 100
Effectif total 50 1 100
source : D. ANDERSON, D. SWEENEY et T. WILLIAMS (2001)
Effectif de la modalité x
Fréquence relative =
effectif total
Effectif de la modalité x
Fréquence relative = X 100
effectif total
14
2. Présentation des données
15
2. Présentation des données
Choix nombre de classes = 5
largeur approximative de la Valeur la plus élevée - valeur la plus faible
=
classe nombre de classes
Amplitude de la classe : Valeur la plus élevée de la classe - valeur la plus faible de la classe
16
2. Présentation des données
17
3. Représentation graphique
Diagramme en bâtons (effectifs en niveau ou en pourcentage)
Bouteilles de boissons non alcooisées vendues
(en niveau)
20
18
16
14
12
10
8
6
4
2
0
Coca-cola Pespi cola Coca-cola light Sprite Orangina
40
35
30
25
20
15
10
5
0
Coca-cola Pespi cola Coca-cola Sprite Orangina
light
18
3. Représentation graphique
Diagramme circulaire : adapté pour représenter des
répartitions en %
Taille des secteurs : coca représente un angle de 0,38x360
= 136,8°
Orangina
10%
Sprite
10%
Coca-
cola
38%
Coca-cola light
16%
Pespi cola
26%
19
3. Représentation graphique
Histogrammes : utilisés pour représenter des variables continues
Les histogrammes doivent représenter des densités, en particulier
lorsque les classes ne sont pas d’amplitudes égales.
Remarque : pas d’importance lorsque les classes sont d’amplitudes
égales
20
3. Représentation graphique
Structure démographique en France
16 000
14 000
12 000
10 000
Effectifs
8 000
6 000
4 000
2 000
0
0 - 19 20 - 29 30 - 39 40 - 49 50 - 59 60 - 69 70 - 79 80 - 99 90 - 99
ans ans ans ans ans ans ans ans ans
Effectifs
corrigés
8281
7842
7405
7057
3 074
878 878
21
Chapitre 2 : Méthodes
numériques permettant de
résumer une série
22
Plan
23
Introduction
24
1. Statistiques résumant la tendance
centrale : moyenne
xi
Moyenne arithmétique simple : X
i N
ni x i
Moyenne arithmétique pondérée : X f i xi
i N i
Moyenne avec des données groupées : on suppose que les données sont
réparties de manière homogène à l’intérieur des classes. On utilise donc le centre de
classe.
Moyenne pondérée des salaires mensuelles
Salaires (xi) ni nixi fi fixi
1200 10 12000 0,13 160
1600 20 32000 0,27 426,67
2000 25 50000 0,33 666,67
2400 10 24000 0,13 320
2800 10 28000 0,13 373,33
Total 75 146000 1946,67
Moyenne 1946,67 1946,67
Source : B. PY (2007)
25
1. Statistiques résumant la tendance
centrale : moyenne
Pour être significative, une moyenne doit être calculée sur un grand
échantillon
26
1. Statistiques résumant la tendance
centrale : médiane
Médiane : correspond à la valeur centrale de la population (partage la
population en 2) 50% de l’effectif se situe en dessous de la
médiane et 50% de l’effectif se situe au dessus
Si toutes les modalités ont les mêmes Si les modalités n’ont pas toutes les mêmes
effectifs, on classe les données par effectifs, on classe les observations par ordre
ordre croissant, et croissant, et
Si l’effectif est impair, alors la médiane est la Calculer les fréquences cumulées
valeur centrale
27
1. Statistiques résumant la tendance
centrale : médiane
Effectifs identiques par modalité
Moyenne obtenue par les étudiants Moyenne obtenue par les étudiants
classement Etudiants Moyenne
classement Etudiants Moyenne 1 Thibaud 4,4
2 Pierre 8,7
1 Thibaud 4,4
3 Agnes 10,0
2 Pierre 8,7
4 Christophe 10,5
3 Agnes 10,0
5 damine 12,5
4 Christophe 10,5
6 Claire 12,6
5 damine 12,5
7 Clara 13,2 Me =
6 Claire 12,6
8 Elise 13,3 13,25
7 Clara 13,2
8 Elise 13,3 9 Franck 15,0
9 Franck 15,0 10 Bruno 15,,6
10 Bruno 15,,6 11 Caroline 16,,2
11 Caroline 16,,2 12 patrick 16,8
12 patrick 16,8 13 Hélène 17,2
13 Hélène 17,2 14 Benoit 18,0
28
1. Statistiques résumant la tendance
centrale : médiane
Effectifs différents pour chaque modalité : interpolation
linéaire
Distribution des notes pour le restaurant Y
fréquence fréquence
Note Effectif fixi
relative (%) cumulée (%)
1 2 4 4 0,04
2 6 12 16 0,24
3 10 20 36 0,6
4 13 26 62 1,04
5 19 38 100 1,9
Total 50 100
Moyenne 3,82
source : D. ANDERSON, D. SWEENEY et T. WILLIAMS (2001)
Me - 3 4 -3
=
0,5 - 0,36 0,62 - 0,36
Me = 3,85*0,14+3 = 3,54
29
1. Statistiques résumant la tendance
centrale : médiane
Médiane avec des données par classes
La dépense médiane se situe entre 600 et 700 € par mois
Dépenses mensuelles en emplois à domicile
Fréqence
Dépense en Fréqence en centre de
Effectifs cumulées fici
euros % classe (ci)
(%)
[300; 400[ 5 2,38 2,38 350 8,33
[400; 500[ 60 28,57 30,95 450 128,57
[500; 600[ 15 7,14 38,09 550 39,29
[600; 700[ 95 45,24 83,33 650 294,05
[700; 800[ 30 14,29 97,62 750 107,14
30
1. Statistiques résumant la tendance
centrale : quantiles
Généralisent la médiane
Quartiles : partagent les observations en 4 groupes égaux, chacun
représentant 25% des observations
Exemples
Q1 = 479,18, soit 25% des dépenses mensuelles sont inférieures à 479,18€
Q3 = 681,58, soit 75% des dépenses mensuelles sont inférieures à 681,58€
31
1. Statistiques résumant la tendance
centrale : mode
Le mode : variable qui a l’effectif (ou la fréquence) le plus grand.
32
2. Statistiques résumant la dispersion
La moyenne et/ou la médiane ne permettent pas d’apprécier la
répartition des données. Quelle statistique construire ?
33
2. Statistiques résumant la dispersion
i i
34
2. Statistiques résumant la dispersion
Notes des étudiants
Etudiant X Etudiant Y Etudiant Z
0 7 12
0 6 12
0 15 12
0 13 12
20 4 12
20 18 12
20 20 12
20 16 12
20 12 12
20 9 12
Max 20 20 12
Min 0 4 12
intevalle de
20 16 0
variation
moyenne 12 12 12
variance 96 26 0
écart-type 9,80 5,10 0
35
Chapitre 3
36
Plan
1. Comparaisons de données
3. Les indices
37
1. Comparaisons de données pour une
date donnée : Parts
Les parts
Lorsqu’une variable est égale à la somme des ces composantes, on peut
calculer la part de chaque composante par rapport à l’ensemble pour une
même date
CAville
Part CA x100
CAtotal
38
1.Comparaisons de données pour une
date donnée
Ecarts relatifs et absolus
Permet de comparer des variables à une même date pour des individus
différents
CA et CA/employé
CA (en CA/employé
milliers Rang employés (en milliers Rang
d'euros) d'euros
Brest 11000 3 300 36,67 1
Caen 9000 4 260 34,62 3
Nantes 27000 1 800 33,75 4
Rennes 18000 2 500 36,00 2
Total 65000 1860 34,95
40
2. Mesures de l’évolution
Mesure l’évolution d’une variable entre deux dates différentes pour
un même individu
Notations :
V0 : valeur à la date t = 0
V1 : valeur à la date t =1
Vt : valeur à la date t
gt : taux de croissance entre les dates t et t+1
Variation absolue = Vt – V0
Variation relative = taux de croissance
= ((Vt – V0)/ V0)*100
= (Vt/ V0 - 1)*100
41
2. Mesures de l’évolution : taux de
croissance
V2008 = (1+g)*V2000
V2000 = V2008/ (1+g)
42
2. Mesures de l’évolution : taux de
croissance
Taux de croissance d’un produit
= x*y
g = (1+gx)(1+gy) – 1
Taux de croissance d’un quotient
Q = x/y
gQ = (1+gx)/(1+gy) – 1
43
2. Mesures de l’évolution : taux de
croissance annuel moyen
Produit intérieur brut aux prix de marché (en valeur)
1998 1999 2000 2001 2002 2003 2004 2005 2006 2007
Niveau 1315,26 1367,97 1441,37 1497,17 1548,56 1594,81 1660,19 1726,07 1807,46 1892,24
taux de croissance 1999/1998 2000/1999 2001/2000 2002/2001 2003/2002 2004/2003 2005/2004 2006/2005 2007/2006
4,01 5,37 3,87 3,43 2,99 4,10 3,97 4,72 4,69
44
Les indices
Exemple
L’indice du taux de change €/$ en 2008 base 100 en 2002 est 160,
alors l’ € s’est apprécié de 60% par rapport au $
45
Les indices élémentaires
Définition
Indice élémentaire de la variable G, à la date t, base 1 en t = 0, est It/0 =
Gt/G0
Indice élémentaire de la variable G, à la date t, base 100 en t = 0, est
It/0 = Gt/G0 *100
Indice élémentaire chaîné de la variable G, à la date t, base 100 en t =
t-1, est It/t-1 = Gt/Gt-1 *100
46
Les indices élémentaires
Produit intérieur brut aux prix de marché (en valeur)
1998 1999 2000 2001 2002 2003 2004 2005 2006 2007
Niveau 1315,26 1367,97 1441,37 1497,17 1548,56 1594,81 1660,19 1726,07 1807,46 1892,24
taux de croissance 4,01 5,37 3,87 3,43 2,99 4,10 3,97 4,72 4,69
Indice (base 100 en 1998) 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007
100 104,01 109,59 113,83 117,74 121,25 126,22 131,23 137,42 143,87
Indice (base 100 en 2002) 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007
84,93 88,34 93,08 96,68 100,00 102,99 107,21 111,46 116,72 122,19
Indice chainé 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007
(base 100 en t-1) - 104,01 105,37 103,87 103,43 102,99 104,10 103,97 104,72 104,69
47
Les indices élémentaires : propriétés
Circularité
Base 1: It2/t0 = It2/t1 * It1/t0
Base 100: It2/t0 = It2/t1 * It1/t0 *100
Réversibilité
It1/t0= 1/ It0/t1
48
Les indices synthétiques
49
Les indices synthétiques
p qi
t
i
t
Indice de valeur : It / 0 i
100
p q
i
i
0
i
0
2000 100
2008 207,14
50
Les indices synthétiques : Indices de
Laspeyres et Paasche
Indice de Laspeyres des prix fixe les quantités à l’année de départ (2000)
Seuls les prix évoluent pti q0i
Lt / 0 i
100
p0i q0i
i
Remarque : on peut faire des indices des quantités sur le même modèle…
51