Statistique S

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 51

Méthodes quantitatives

1
Plan

Introduction

Chapitre 1 : Notions de base

Chapitre 2 : Méthodes numériques permettant


de résumer une série

Chapitre 3 : Indice et taux de croissance

2
bibliographie

B. PY (2007), La statistique sans formule mathématique,


Pearson Education, 2007

D. ANDERSON, D. SWEENEY et T. WILLIAMS,


Statistiques pour l’économie et la gestion, De Boeck,
2010

E. BRESSOUD et J.C. KAHANE, Statistique descriptive


avec Excel et la calculatrice, Pearson Education, 2010

B. TRIBOUT, Statistique pour économistes et


gestionnaires, Pearson éd., 2007

3
Introduction

Qu’est-ce que la statistique ?

4
Définition

La statistique est l’art et la science de collecter,


d’analyser, de présenter et d’interpréter des
données.

 La statistique permet de résumer et


d’interpréter une réalité complexe
 Aide à la prise de décision

5
Difficultés

 Doit être facile à concevoir et à calculer

 Ne permet pas de décrire tous les profils

 Les indicateurs doivent être neutres et facilement


interprétables

 L’interprétation des indicateurs est indispensable

6
Domaines d’utilisation
 Médecine : études épidémiologiques

 Finance : comparer plusieurs informations permet la


prise de décisions

 Marketing : connaissance des comportements moyen


des consommateurs

 Production : contrôle de la qualité

 Economie : visualiser l’état de l’économie

 Démographie, politique…
7
Inférence statistique

Population souvent trop importante

 Pour réduire le coût de collecte, on utilise un échantillon


de la population observée

A partir de l’étude de cet échantillon, possibilité d’estimer


les comportements ou caractéristiques pour toute la
population (contrôle de la qualité) : c’est l’inférence
statistique

8
Chapitre 1

Notions de base

9
1. Vocabulaire statistique
Population : ensemble des éléments considérés dans une étude particulière

Echantillon : sous-ensemble de la population

Unité statistique = élément de la population (individus, animaux, pays…)

La population (ou l’échantillon) est décrite selon différents critères (données


quantitatives) ou caractères (données qualitatives).

Chaque caractère peut présenter différentes modalités (hommes-femmes pour


le sexe, chômeur ou salarié pour le statut…)

Effectif : nombre d’occurrences de chaque modalité

10
1. Vocabulaire statistique : exemple
Étudiants des universités par discipline et par cursus (année 2007-2008)

Cursus Cursus Cursus


Licence Master Doctorat Effectif total
Effectif Effectif Effectif
Droit, sciences politiques 106690 64064 8371 179125
Sciences économiques, gestion (hors AES) 75544 56395 4535 136474
Administration économique et sociale (AES) 30962 7067 0 38029
Lettres, sciences du langage, arts 66541 23525 6932 96998
Langues 84027 17060 2746 103833
Sciences humaines et sociales 135396 63463 14759 213618
Pluri-lettres-langues-sciences humaines 2505 3167 28 5700
Sciences fondamentales et applications 77420 65371 15898 158689
Sciences de la nature et de la vie 39322 19547 10873 69742
Sciences et techniques des activités physiques et sportives 25501 6135 516 32152
Pluri-sciences 20769 1387 145 22301
Médecine - Odontologie 55459 102508 1028 158995
Pharmacie 11752 19560 559 31871
Total hors IUT 731888 449249 66390 1247527
Instituts universitaires de technologie 116223 - - 116223
Total avec IUT 848111 449249 66390 1363750
Source : INSEE d'après direction de l'Évaluation, de la Prospective et de la Performance (Depp).

11
1. Vocabulaire statistique

Données quantitatives vs qualitatives


Données quantitatives : critères mesurables, représentés par des chiffres.
Exemples : superficie, PIB, ventes, CA…

Données qualitatives : les caractères ne sont pas mesurables (noms ou


étiquettes). Exemples : discipline, cursus, couleur des yeux.

Attention aux confusions possibles… Tout ce qui est numérique n’est pas
quantitatif !

12
1. Vocabulaire statistique

Données en coupe transversale et données en séries


temporelles
Coupe transversale : données collectées à peu près au même moment ou
pour une même période (année, mois, jours…)
Séries temporelles : données collectées sur plusieurs périodes (années, mois,
jours…)

Variables discrètes vs variables continues


Variables discrètes : modalités ne peuvent prendre que certaines valeurs
(cursus, nombre d’enfants par famille, …)
Variables continues : variable peut prendre toutes les valeurs sur un
intervalle. Souvent représentées sous forme d’intervalles (Superficie,
revenu, …)

13
2. Présentation des données

Données qualitatives
Données (fictives) d'un échantillon de 50 achats de boisson non
alcoolisée

nombre de
fréquence Fréquence Fréquence
Boisson bouteilles
relative (en %) cumulée
vendues
Coca-cola 19 0,38 38 38
Pespi cola 13 0,26 26 64
Coca-cola light 8 0,16 16 80
Sprite 5 0,1 10 90
Orangina 5 0,1 10 100
Effectif total 50 1 100
source : D. ANDERSON, D. SWEENEY et T. WILLIAMS (2001)

Effectif de la modalité x
Fréquence relative =
effectif total

Effectif de la modalité x
Fréquence relative = X 100
effectif total

14
2. Présentation des données

Données quantitatives Regroupements en classes


Délais de livraison
Durée d’un audit en jours Car :
(en jours)
12 1 Modalités trop nombreuses ou
13 0 manque de variabilité
14 2
15 1
16 1
Choix
17 1
18 3  Nombre de classes
19 1
 Largeur des classes :
20 1
21 1 préférable qu’elles soient de
22 2 largeurs identiques pour éviter
23 1
27 1
les mauvaises interprétations
28 1 (pas toujours possible)
31 1

15
2. Présentation des données
Choix nombre de classes = 5
largeur approximative de la Valeur la plus élevée - valeur la plus faible
=
classe nombre de classes

Chaque donnée ne doit appartenir qu’à une seule et unique classe :

Amplitude de la classe : Valeur la plus élevée de la classe - valeur la plus faible de la classe

Centre de la classe : centre de la classe =


Valeur la plus élevée + valeur la plus faible
2

Distributions pour les délais de livrasions


Durée des Fréquence Fréquence Fréquence
Nombre
audits (jours) relative en % cumulée

[12 - 16[ 4 0,21 21,05 20


[16 - 20[ 6 0,32 31,58 60
[20 - 24[ 5 0,26 26,32 85
[24 - 28[ 1 0,05 5,26 95
[28 - 32[ 3 0,16 15,79 100
Total 19 1 100

16
2. Présentation des données

Quatre principes fondamentaux pour la présentation d’un


tableau ou graphique

 Le titre : le plus précis possible


 La source des données
 L’intitulé des lignes et colonnes
 Les unités des variables

17
3. Représentation graphique
Diagramme en bâtons (effectifs en niveau ou en pourcentage)
Bouteilles de boissons non alcooisées vendues
(en niveau)

20
18
16
14
12
10
8
6
4
2
0
Coca-cola Pespi cola Coca-cola light Sprite Orangina

Répartition (en %) des ventes de bouteilles de boissons non


alcoolisées

40
35
30
25
20
15
10
5
0
Coca-cola Pespi cola Coca-cola Sprite Orangina
light

18
3. Représentation graphique
Diagramme circulaire : adapté pour représenter des
répartitions en %
Taille des secteurs : coca représente un angle de 0,38x360
= 136,8°

Répartition (en %) des bouteilles de boissons non alcoolisées


vendues

Orangina
10%
Sprite
10%
Coca-
cola
38%
Coca-cola light
16%

Pespi cola
26%

19
3. Représentation graphique
Histogrammes : utilisés pour représenter des variables continues
Les histogrammes doivent représenter des densités, en particulier
lorsque les classes ne sont pas d’amplitudes égales.
Remarque : pas d’importance lorsque les classes sont d’amplitudes
égales

Structure démographique en France


effectifs
nombre (en amplitude dénsité
âge (xi) corrigés nci =
milliers) (ni) (ai) (di=ni/ai)
di*min(ai)
0 - 19 ans 14 115 20 705,75 7057,5
20 - 29 ans 7 405 10 740,5 7405
30 - 39 ans 7 842 10 784,2 7842
40 - 49 ans 7 967 10 796,7 7967
50 - 59 ans 8 281 10 828,1 8281
60 - 69 ans 7 716 10 771,6 7716
70 - 79 ans 5 521 10 552,1 5521
80 - 99 ans 3 074 10 307,4 3074
90 - 99 ans 878 10 87,8 878
source : E. BRESSOUD et J.C. KAHANE (2008) d'après INSEE, Projection à 2020, juillet 2006

20
3. Représentation graphique
Structure démographique en France

16 000

14 000

12 000

10 000
Effectifs

8 000

6 000

4 000

2 000

0
0 - 19 20 - 29 30 - 39 40 - 49 50 - 59 60 - 69 70 - 79 80 - 99 90 - 99
ans ans ans ans ans ans ans ans ans

Effectifs
corrigés

8281

7842
7405
7057

7 842 7 967 8 281 7 716


7 405
3074 5 521
14 115

3 074

878 878

0 - 19 ans 20 - 29 ans 30 - 39 ans 40 - 49 ans 50 - 59 ans 60 - 69 ans 70 - 79 ans 80 - 99 ans 90 - 99 ans

21
Chapitre 2 : Méthodes
numériques permettant de
résumer une série

22
Plan

1. Statistiques résumant la tendance centrale


 Moyennes
 Médiane
 Quantiles
 mode

2. Statistiques résumant la dispersion


 Variance
 écart-type
 coefficient de variation

23
Introduction

Deux étudiants qui ont des moyennes identiques peuvent-ils être


considérés comme égaux ?

Un étudiant qui obtient une moyenne de 16/20 est-il un bon élève ?

Pour répondre à ces questions, il faut connaître la moyenne, la


médiane et/ou la répartition des notes.

24
1. Statistiques résumant la tendance
centrale : moyenne
xi
Moyenne arithmétique simple : X 
i N
ni x i
Moyenne arithmétique pondérée : X   f i xi
i N i

Moyenne avec des données groupées : on suppose que les données sont
réparties de manière homogène à l’intérieur des classes. On utilise donc le centre de
classe.
Moyenne pondérée des salaires mensuelles
Salaires (xi) ni nixi fi fixi
1200 10 12000 0,13 160
1600 20 32000 0,27 426,67
2000 25 50000 0,33 666,67
2400 10 24000 0,13 320
2800 10 28000 0,13 373,33
Total 75 146000 1946,67
Moyenne 1946,67 1946,67
Source : B. PY (2007)

25
1. Statistiques résumant la tendance
centrale : moyenne
 Pour être significative, une moyenne doit être calculée sur un grand
échantillon

 Elle est sensible aux valeurs extrêmes

 Ne suffit pas pour caractériser finement une série

26
1. Statistiques résumant la tendance
centrale : médiane
Médiane : correspond à la valeur centrale de la population (partage la
population en 2)  50% de l’effectif se situe en dessous de la
médiane et 50% de l’effectif se situe au dessus

Si toutes les modalités ont les mêmes Si les modalités n’ont pas toutes les mêmes
effectifs, on classe les données par effectifs, on classe les observations par ordre
ordre croissant, et croissant, et

Si l’effectif est impair, alors la médiane est la Calculer les fréquences cumulées
valeur centrale

Déterminer la médiane par interpolation linéaire


Si l’effectif est pair, alors la médiane est
obtenue en faisant la moyenne des deux
valeurs centrales.

27
1. Statistiques résumant la tendance
centrale : médiane
Effectifs identiques par modalité

Moyenne obtenue par les étudiants Moyenne obtenue par les étudiants
classement Etudiants Moyenne
classement Etudiants Moyenne 1 Thibaud 4,4
2 Pierre 8,7
1 Thibaud 4,4
3 Agnes 10,0
2 Pierre 8,7
4 Christophe 10,5
3 Agnes 10,0
5 damine 12,5
4 Christophe 10,5
6 Claire 12,6
5 damine 12,5
7 Clara 13,2 Me =
6 Claire 12,6
8 Elise 13,3 13,25
7 Clara 13,2
8 Elise 13,3 9 Franck 15,0
9 Franck 15,0 10 Bruno 15,,6
10 Bruno 15,,6 11 Caroline 16,,2
11 Caroline 16,,2 12 patrick 16,8
12 patrick 16,8 13 Hélène 17,2
13 Hélène 17,2 14 Benoit 18,0

28
1. Statistiques résumant la tendance
centrale : médiane
Effectifs différents pour chaque modalité : interpolation
linéaire
Distribution des notes pour le restaurant Y
fréquence fréquence
Note Effectif fixi
relative (%) cumulée (%)
1 2 4 4 0,04
2 6 12 16 0,24
3 10 20 36 0,6
4 13 26 62 1,04
5 19 38 100 1,9
Total 50 100
Moyenne 3,82
source : D. ANDERSON, D. SWEENEY et T. WILLIAMS (2001)

Me - 3 4 -3
=
0,5 - 0,36 0,62 - 0,36

Me = 3,85*0,14+3 = 3,54

29
1. Statistiques résumant la tendance
centrale : médiane
Médiane avec des données par classes
La dépense médiane se situe entre 600 et 700 € par mois
Dépenses mensuelles en emplois à domicile
Fréqence
Dépense en Fréqence en centre de
Effectifs cumulées fici
euros % classe (ci)
(%)
[300; 400[ 5 2,38 2,38 350 8,33
[400; 500[ 60 28,57 30,95 450 128,57
[500; 600[ 15 7,14 38,09 550 39,29
[600; 700[ 95 45,24 83,33 650 294,05
[700; 800[ 30 14,29 97,62 750 107,14

[800; 1000[ 5 2,38 100 900 21,43


Total 210 100,00
Moyenne 598,81
Source : B. PY (2007)

Me - 600 700 - 600


= Me = 221,04(0,5 - 0,3809)+600 = 626,326
0,5 - 0,3809 0,8333 - 0,3809

30
1. Statistiques résumant la tendance
centrale : quantiles
Généralisent la médiane
 Quartiles : partagent les observations en 4 groupes égaux, chacun
représentant 25% des observations
Exemples
Q1 = 479,18, soit 25% des dépenses mensuelles sont inférieures à 479,18€
Q3 = 681,58, soit 75% des dépenses mensuelles sont inférieures à 681,58€

 Déciles : partagent les observations en 10 groupes égaux, chacun


représentant 10% des observations

 Centiles : partagent les observations en 100 groupes égaux, chacun


représentant 1% des observations

31
1. Statistiques résumant la tendance
centrale : mode
Le mode : variable qui a l’effectif (ou la fréquence) le plus grand.

 Si la variable est qualitative ou quantitative discrète, le mode


correspond à l’effectif (ou fréquence) maximal
 Si la variable est quantitative continue, on parle de classe modale et
il faut calculer la valeur modale

Remarque : Il peut ne pas exister de mode pour certaines séries

32
2. Statistiques résumant la dispersion
La moyenne et/ou la médiane ne permettent pas d’apprécier la
répartition des données. Quelle statistique construire ?

 Valeur maximale et valeur minimale

 Intervalle de variation : valeur max. – valeur min.


Pb : valeurs extrêmes peuvent être très différentes des autres valeurs

 Intervalle interquartile ou interdécile : Q3 – Q1 ou D9 – D1


Délimitent la plage au sein de laquelle 50% ou 80% des valeurs sont
regroupées
Plus ces plages sont larges, plus les valeurs sont dispersées.
Pb : ne pas prend en compte toutes les valeurs

33
2. Statistiques résumant la dispersion

 Variance : somme des écarts à la moyenne, au carré


V ( x) 
1
N

 ni xi  x  
2 1
N
 ni xi  x
2 2

i i

 Ecart-type : racine de la variance (pour se ramener aux unités de


base)
x  V ( x)

 Coefficient de variation : rapport entre l’écart-type et la


moyenne x
cv 
x

34
2. Statistiques résumant la dispersion
Notes des étudiants
Etudiant X Etudiant Y Etudiant Z
0 7 12
0 6 12
0 15 12
0 13 12
20 4 12
20 18 12
20 20 12
20 16 12
20 12 12
20 9 12
Max 20 20 12
Min 0 4 12
intevalle de
20 16 0
variation
moyenne 12 12 12
variance 96 26 0
écart-type 9,80 5,10 0

35
Chapitre 3

Indices et taux de croissance

36
Plan

1. Comparaisons de données

2. Mesures de l’évolution des données

3. Les indices

37
1. Comparaisons de données pour une
date donnée : Parts
Les parts
Lorsqu’une variable est égale à la somme des ces composantes, on peut
calculer la part de chaque composante par rapport à l’ensemble pour une
même date
CAville
Part CA  x100
CAtotal

Parts des Chiffres d'affaires de Machin


(en %)
Villes 2000 2008
Brest 18,87 16,92
Caen 15,09 13,85
Nantes 37,74 41,54
Rennes 28,30 27,69
Total 100,00 100,00

Permet de visualiser l’évolution de la structure du chiffre d’affaire de cette


entreprise

38
1.Comparaisons de données pour une
date donnée
Ecarts relatifs et absolus
Permet de comparer des variables à une même date pour des individus
différents

Ecart absolu = valeur i – valeur j


Ecart relatif = ((valeur i – valeur j)/valeur j)*100
= (valeur i/valeur j – 1)*100
Comparaisons des CA

ecart absolu écart relatif


(en millions (en %)
Villes d'euros)
Rennes - Caen 5 000 50
Caen - Rennes -5 000 -33,33

Remarque : Attention au sens du calcul de l’écart relatif


39
1. Comparaisons de données pour une
date donnée
Ratio
Rapport significatif entre 2 variables. Permet d’affiner
l’analyse à une même date

CA et CA/employé
CA (en CA/employé
milliers Rang employés (en milliers Rang
d'euros) d'euros
Brest 11000 3 300 36,67 1
Caen 9000 4 260 34,62 3
Nantes 27000 1 800 33,75 4
Rennes 18000 2 500 36,00 2
Total 65000 1860 34,95

40
2. Mesures de l’évolution
Mesure l’évolution d’une variable entre deux dates différentes pour
un même individu

Notations :
V0 : valeur à la date t = 0
V1 : valeur à la date t =1
Vt : valeur à la date t
gt : taux de croissance entre les dates t et t+1

Variation absolue = Vt – V0
Variation relative = taux de croissance
= ((Vt – V0)/ V0)*100
= (Vt/ V0 - 1)*100

41
2. Mesures de l’évolution : taux de
croissance
V2008 = (1+g)*V2000
V2000 = V2008/ (1+g)

Attention : Les taux de croissance ne sont pas additifs

Points de croissance = différence entre deux taux de croissance


Le taux de croissance de Caen est 2,5 points plus élevé que le taux de
croissance de Brest

42
2. Mesures de l’évolution : taux de
croissance
Taux de croissance d’un produit
 = x*y
g = (1+gx)(1+gy) – 1
Taux de croissance d’un quotient
Q = x/y
gQ = (1+gx)/(1+gy) – 1

Approximations : Pour de faibles taux de croissance (< 20%)


g   gx + g y
g Q  gx - gy

43
2. Mesures de l’évolution : taux de
croissance annuel moyen
Produit intérieur brut aux prix de marché (en valeur)
1998 1999 2000 2001 2002 2003 2004 2005 2006 2007
Niveau 1315,26 1367,97 1441,37 1497,17 1548,56 1594,81 1660,19 1726,07 1807,46 1892,24

taux de croissance 1999/1998 2000/1999 2001/2000 2002/2001 2003/2002 2004/2003 2005/2004 2006/2005 2007/2006
4,01 5,37 3,87 3,43 2,99 4,10 3,97 4,72 4,69

On cherche le taux de croissance identique pour chaque période qui


donnerait la même évolution sur la période
V1 = (1+g)*V0
V2 = (1+g)*V1 = (1+g)2 *V0
V3 = (1+g)*V2 = (1+g)3 *V0

V9 = (1+g)9 *V0  g = (V9/V0)1/9 - 1

D’où g = (1892,24/1315,26)1/9 – 1 = 0,0412 = 4,12%

44
Les indices

De nombreuses variables sont exprimées sous forme d’indices


Un indice évalue une variation et non un niveau

Exemple
L’indice du taux de change €/$ en 2008 base 100 en 2002 est 160,
alors l’ € s’est apprécié de 60% par rapport au $

45
Les indices élémentaires

Un indice est un rapport de la même variable prise à deux dates


différentes ou lieux distincts

Définition
Indice élémentaire de la variable G, à la date t, base 1 en t = 0, est It/0 =
Gt/G0
Indice élémentaire de la variable G, à la date t, base 100 en t = 0, est
It/0 = Gt/G0 *100
Indice élémentaire chaîné de la variable G, à la date t, base 100 en t =
t-1, est It/t-1 = Gt/Gt-1 *100

46
Les indices élémentaires
Produit intérieur brut aux prix de marché (en valeur)
1998 1999 2000 2001 2002 2003 2004 2005 2006 2007
Niveau 1315,26 1367,97 1441,37 1497,17 1548,56 1594,81 1660,19 1726,07 1807,46 1892,24
taux de croissance 4,01 5,37 3,87 3,43 2,99 4,10 3,97 4,72 4,69
Indice (base 100 en 1998) 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007
100 104,01 109,59 113,83 117,74 121,25 126,22 131,23 137,42 143,87

Indice (base 100 en 2002) 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007
84,93 88,34 93,08 96,68 100,00 102,99 107,21 111,46 116,72 122,19
Indice chainé 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007
(base 100 en t-1) - 104,01 105,37 103,87 103,43 102,99 104,10 103,97 104,72 104,69

Base 100 en 1998 : entre 1998 et 2007, le PIB en valeur a augmenté


de 43,87%
Base 100 en 2002 : entre 2002 et 2005, le PIB en valeur a augmenté
de 11,46%
Attention : on ne connaît la progression que par rapport à l’année de
base
Taux de croissance entre 2000 et 2001  113,83 – 109,59 = 4,24%
Voir indices chaînés

47
Les indices élémentaires : propriétés

Circularité
Base 1: It2/t0 = It2/t1 * It1/t0
Base 100: It2/t0 = It2/t1 * It1/t0 *100

Réversibilité
It1/t0= 1/ It0/t1

48
Les indices synthétiques

Comment synthétiser l’évolution simultanée de plusieurs variables.


Prix et quantités consommées du café et du sucre
café sucre dépense
Prix Quantité dépense Prix Quantité Dépense totale
2000 0,8 100 80 0,2 90 18 98
2008 1,4 120 168 0,5 70 35 203

Possibilité de calculer les indices élémentaires pour chaque variable (4


indices)
Indices élémentaires du café et du
sucre base 100 en 2000
café sucre
2000 100 100
2008 210 194,44

 Construction d’indices synthétiques

49
Les indices synthétiques
p qi
t
i
t
Indice de valeur : It / 0  i
100
p q
i
i
0
i
0

Indices de valeur de la consommation


de café et de sucre base 100 en 2000

2000 100
2008 207,14

Indice mesure l’évolution des prix et des quantités


 Calculs d’indices qui fixent les quantités et donc mesure uniquement
l’évolution des prix

50
Les indices synthétiques : Indices de
Laspeyres et Paasche
Indice de Laspeyres des prix fixe les quantités à l’année de départ (2000)
 Seuls les prix évoluent  pti q0i
Lt / 0  i
100
 p0i q0i
i

Indice de Paasche des prix fixe les quantités à l’année finale ou


année courante (2008)
p q
i i
t t
Pt / 0  i
100
p qi
i
0
i
t

Remarque : on peut faire des indices des quantités sur le même modèle…

51

Vous aimerez peut-être aussi