Cours Statistiques L1 S2

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 29

LICENCE DE PSYCHOLOGIE

Semestre II

DISTRIBUTIONS DE PROBABILITES
&
DISTRIBUTIONS D’ECHANTILLONNAGE
DISTRIBUTIONS DE PROBABILITES

1.1 Variables Aléatoires & Distribution de Probabilités

1.1.1 Variable Aléatoire Réelle

Au chapitre 1 de la première partie nous avons donné une définition relativement


informelle d’une variable ("caractéristique pouvant prendre plusieurs valeurs ou modalités").
L’étude des distributions de probabilités nécessite que nous précisions plus avant cette
définition.
Imaginons qu’à chaque événement d’une variable X on associe un nombre unique. Par
exemple, à chaque personne rencontrée dans la rue (événement élémentaire) on associe la
taille (en cm) de cette personne. On peut affecter à un rat le nombre d’essais qu’il lui a fallu
pour apprendre un labyrinthe. La variable X est appelée variable aléatoire réelle et joue un
rôle de fonction (ou application) associant à un événement un nombre unique.
Attention de bien faire la différence entre les événements élémentaires eux-mêmes, qui
peuvent être des nombres ou non et les valeurs qui sont associées à ces événements. Celles-ci
sont les valeurs d’une variable aléatoire.

1.1.2 Variable Aléatoire Discrète vs Continue

Au chapitre 1 nous avons fait la distinction entre les variables discrètes et les variables
continues. D'un point de vue mathématique une variable discrète peut prendre des valeurs qui
restent dénombrables, alors qu'une variable continue peut potentiellement prendre une infinité
de valeurs. Par exemple, le nombre de personnes se rendant à un concert est une variable
discrète parce qu'on peut les compter. Par contre, la distance que conservent deux personnes
entre elles dans une interaction verbale est une variable continue parce que cette distance peut
être de 1m, ou de 1.5 m ou 1.285365115 m. Bien que cette distinction soit mathématiquement
correcte il en est souvent autrement dans la pratique.
En général, lorsqu'on parle de variable discrète on entend une variable qui prend relativement
peu de valeurs (e.g., nombre de phonèmes). Une variable qui peut avoir un grand nombre de
valeurs est généralement étudiée comme une variable continue. Par exemple, nous admettons
généralement que les scores de Q.I. sont continue alors que la plupart du temps ils sont
arrondis à des entiers et on trouve rarement dans la littérature un Q.I. de 105.317.
La distinction entre les deux types de variables est importante dans l'étude des distributions de
probabilités. Avec des variables discrètes on va parler de probabilité d'un score spécifique.
Par contre, avec des variables continues on va parler de la probabilité d'obtenir un score
compris dans un certain intervalle de données.

2
Au chapitre précédent nous avons appris à calculer la probabilité d’un événement
particulier. Cependant, il peut être utile de connaître les probabilités associées à toutes les
valeurs d’une variable aléatoire. L’ensemble des probabilités associées aux valeurs d’une
variable aléatoire s’appelle une distribution de probabilité (ou Loi de probabilité). Une loi
de probabilité d’une variable aléatoire X est notée

L(X)

et peut être représentée à la fois sous forme de tableau ou sous forme de graphique.

L(X) xi pi = P(X=x i)
x1 p1
.
xi pi

xn pn
∑ pi = 1

Exemple : On lance deux dés, on associe un gain au lancer des dés de la façon suivante :

10 F si les deux « 6 » sortent


5 F si un seul « 6 » sort
−2 F si aucun « 6 » ne sort

La variable aléatoire X représente donc le gain aléatoire associé au lancer des 2 dés.

L(X) xi pi = P(X=x i)
-2 25/36 = 0.69
5 10/36 = 0.28
10 1/36 0.03
∑ pi = 1

Lorsque la variable aléatoire est discrète il convient de représenter la distribution de


probabilités à l’aide d’un diagramme en bâtons.

pi

0.5

-2 5 10 xi

3
1.1.3 Paramètres d'une Variable Aléatoire

• Moyenne d'une Variable Aléatoire : Espérance Mathématique

Nous avons déjà évoqué la notion d’espérance mathématique dans la première partie
de ce cours. Précisons d’abord qu’il s’agit d’une moyenne théorique puisque les probabilités
des événements considérés sont également des valeurs théoriques et interviennent directement
dans le calcul de l'espérance mathématique :

µ X = E ( X ) = p1 x1 + Λ + p i x i + Λ + p n x n

n
µ X = ∑ pi xi
i

Dans notre exemple :

µ X = (− 2 × 25 / 36 ) + (5 × 10 / 36) + (10 × 1 / 36) = 10 / 36 = 0.28F


Ce qui signifie que le jeu permet de gagner en moyenne 0.28 F par lancer si on joue une
infinité de fois (µx est un paramètre qui s'exprime dans la même unité que X).

• Variance et Ecart-type d'une Variable Aléatoire

Les remarques faites pour la moyenne d'une variable aléatoire restent ici valides :

n
σ X = Var ( X ) = ∑ pi (x i − µ )
2 2

Pour simplifier les calculs on peut appliquer la formule suivante :

n
σ X = ∑ pi xi − µ X
2 2 2

4
Dans notre exemple :

n
σ 2X = ∑ pi xi2 − µ 2X
i
2
450  10 
= − 
36  36 
= 12.42 F 2

σ² est un paramètre de dispersion (déviation) autour de la moyenne théorique µ. Il s'exprime


dans l'unité carrée de X.

Pour avoir une mesure de dispersion exprimée dans l'unité de X, il suffit de calculer la racine
carrée de la variance, c'est-à-dire l'écart-type :

σ X = Var ( X )

Pour notre exemple :

σ X = 12.42 = 3.52 F

σ est un paramètre de dispersion exprimé dans l'unité de X.

1.2 Variable Aléatoire Discrète : La Distribution Binomiale

La distribution binomiale résulte de la répétition d’une loi de probabilité appelée loi


de Bernoulli. Cette loi donne simplement les probabilités des événements d’une expérience
n’ayant que deux issues possibles. On dit qu’il s’agit d’une expérience à alternative simple.
Par exemple, le sexe d’un enfant à la naissance est un processus aléatoire à deux issues
possibles (féminin, masculin). Le côté sur lequel retombe une pièce lancée en l’air est
également un processus aléatoire à deux issues possibles. On appelle arbitrairement l’une des
deux issues succès et l’autre échec. C’est une dénomination totalement arbitraire et ne
comporte aucune connotation positive ou négative. Le côté pile de la pièce peut par exemple
être appelé un succès (symbolisé par le chiffre 1) et le côté face un échec (symbolisé par le
chiffre 0). La naissance d’une fille peut arbitrairement être étiqueté par le mot succès et la
naissance d’un garçon par le mot échec. Le tableau suivant donne la loi de probabilité d'une
variable aléatoire de Bernoulli.

5
L(X) xi pi pix i pix i²
0 q 0 0
1 p p p
1 p p

Nous avons introduit deux nouvelles notations qui sont les probabilités respectives
d'un succès : p et d'un échec : q. Ces deux probabilités sont complémentaires, c'est-à-dire que
leur somme est toujours égale à 1. Ainsi si on considère que l'événement "la pièce tombe sur
face" est un succès la probabilité de cet événement sera notée p = 0.5 et la probabilité de
l'événement "la pièce tombe sur pile" sera notée q = 1 − p = 0.5.

Le tableau montre également comment calculer les paramètres d'une variable aléatoire de
Bernoulli :

µ x = ∑ pi xi = p
i

σ = ∑ pi x i − µ x = p − p = p (1 − p ) = pq
2 2 2 2
x
i

σx = pq

Exemple : L'expérience consiste à lancer un dé et à noter les événements "6" et "Non 6".

L(X) xi pi = P(X=x i)

0 5/6 = 0.83
1 1/6 = 0.17
∑=1

pi

0 0.17 1 xi

6
1
µx = = 0.17
6
5
σ 2x = = 0.14
36
σ x = 0. 37

Comme nous l'avons dit précédemment, une variable aléatoire binomiale résulte de la
répétition d'une variable aléatoire de Bernoulli. Une variable aléatoire binomiale, notée Sn,
représente le nombre de succès que l'on peut obtenir en répétant n fois une même épreuve
de Bernoulli.

Important :
La notation Sn pour la variable aléatoire binomiale se justifie par la décomposition suivante :
Soit Xi la variable aléatoire de Bernoulli associée à la ième répétition de l'alternative, alors :
S n = X 1 + X 2 + X 3 + X i +LL + X n
n
Sn = ∑ Xi
i =1

n
Xi, variable aléatoire de Bernoulli, indique le succès à la ième alternative et S n = ∑ X i ,
i= 1
variable aléatoire binomiale, comptabilise par addition les succès en les n alternatives.

Mathématiquement la distribution binomiale est définie par la formule suivante :

P(S n = k ) = Cnk p k q n− k k = 0,1,Λ Λ , n

où :
P(Sn = k) : probabilité que le nombre de succès soit égal à k.
n : Le nombre de répétitions de l'expérience à alternative simple.
p : La probabilité d'un succès pour un essai.
q : La probabilité d'un échec pour un essai donné
C nk : Le nombre de combinaisons de k événements pour n essais.

Prenons un exemple pour illustrer cette formule. Supposons que nous nous
intéressions à l'art de la connaissance des vins. Nous demandons pour cela à une personne
expérimentée de goûter deux vins et de désigner le meilleur des deux. Cette tâche est répétée
10 fois. Imaginons que nous ayons affaire à un imposteur, n'y connaissant rien du tout et
répondant de ce fait totalement au hasard. La probabilité que notre imposteur choisisse le bon
vin à un essai donné est de 0.5 puisqu'il y a uniquement deux choix possibles. Quelle est la
probabilité que, tout en répondant au hasard, notre expert ait raison dans son choix 9 (k) fois
sur 10 (n). La probabilité de trouver le bon vin pour chaque essai (succès) est de p = 0.5 et la
probabilité de se tromper pour chaque essai (échec) est de q = 0.5. Alors nous pouvons
appliquer la formule :

7
P(S10 = 9) = C109 × 0.59 × 0.51
10!
= × 0.59 × 0.51
9! 1!
= 0.0098

Ainsi, la probabilité de trouver la bon vin 9 fois sur 10 en répondant au hasard à chaque essai,
soit avec une probabilité p = 0.5, est de 0.0098. Ceci signifie que cette répartition des
bonnes/mauvaises réponses (succès/échec) se produirait environ une fois sur 100 séries
d'essais.
La probabilité d'obtenir 6 réponses correctes sur 10 essais est égale à

P(S 10 = 6) = C106 × 0.5 6 × 0.5 4


10!
= × 0.5 6 × 0.5 4
6!4!
= 0.2050

On remarque que cette probabilité est supérieure à celle d'obtenir 9 réponses correctes sur 10
essais en répondant au hasard. Ce résultat n'a rien d'étonnant puisqu'on peut s'attendre que la
personne répondant au hasard soit dans le vrai une fo is sur deux. Le tableau suivant donne les
probabilités pour toutes les valeurs possibles de k, c'est à dire pour toutes les quantités de
réponses correctes possibles pour une série de 10 essais.

Nb de succès Probabilité
0 0.001
1 0.010
2 0.044
3 0.117
4 0.205
5 0.246
6 0.205
7 0.117
8 0.044
9 0.010
10 0.001
1.000

Comme toujours la somme des probabilités de tous les événements possibles est égale
à 1. Le graphique suivant donne une idée plus précise de la distribution de probabilité de la
variable aléatoire binomiale étudiée. La représentation en bâtons est la plus appropriée car la
variable aléatoire étudiée est discrète.

8
.25

.20

.15

.10

.05

0
0 1 2 3 4 5 6 7 8 9 10

On remarque que cette distribution de probabilités est symétrique par rapport au mode.
Ceci est toujours le cas lorsque la probabilité d'un succès, et par conséquent d'un échec, est
égale à 0.5. Mais ce n'est pas le cas pour toutes les valeurs de p et q.

• La Moyenne et la Variance d'une Variable Aléatoire Binomiale

Nous avons vu au chapitre précédent qu'il est possible de décrire une distribution par
différents indicateurs. La moyenne et la variance d'une variable aléatoire binomiale se
calculent simplement de la manière suivante :

µ = np
σ² = npq
σ = npq

Pour notre exemple nous trouvons une moyenne de µ = 10 × 0.5 = 5 et un écart-type de


10(0.5)(0.5) = 2.5 = 1.58. Nous voyons que, lorsque la probabilité d'un succès est de 0.5,
la distribution de probabilité est symétrique autour de la moyenne µ.

Si nous avions eu un expert un peu plus expert dans la connaissance des vins, sa
probabilité de donner la bonne réponse à chaque essai aurait certainement été plus élevée (0.6
par exemple) que celle reflétant le pur hasard. Dans ce cas la distribution de probabilités
aurait été différente de ce que nous avons obtenu pour p = 0.5.
La figure ci-dessous montre les distributions de probabilités pour 3 différentes valeurs de p.

9
0.6 0.6 0.6

0.5 0.5 0.5

0.4 p = 0.50 0.4 p = 0.30 0.4 p = 0.05

0.3 0.3 0.3

0.2 0.2 0.2

0.1 0.1 0.1

0 0 0
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

n =10

Comme nous l'avons déjà précisé plus haut on voit que seule la distribution avec p =
0.5 est symétrique par rapport à sa moyenne.

Un autre point qu'il importe de souligner concerne les paramètres d'une variable
aléatoire binomiale. En effet, nous avons pu établir les trois différentes distributions ci-dessus
en ne précisant que deux paramètres : p et n. On dit qu'une variable aléatoire binomiale est
définie par ses paramètres n et p et on note la loi de probabilité d'une telle variable de la
manière suivante :

B(n,p)

Ainsi, en connaissant la probabilité d'un succès et le nombre d'essais qu'on désire


effectuer on peut calculer avant même la réalisation de l'expérience les probabilités de toutes
les répartitions de succès/échecs possibles.

Utilisation de la Loi Binomiale

Il serait légitime de se demander à quoi peut bien servir de connaître a priori les
probabilités des différents résultats obtenus à une expérience donnée (nous anticipons quelque
peu sur la suite de ce cours concernant les tests d'hypothèses).
Si on reprend l'exemple de l'art de la connaissance du vin et qu'on présente le
problème d'une autre manière on se rend vite compte de l'utilité de la loi binomiale comme de
toute loi de probabilité. Imaginons qu'au vu des résultats obtenus par une personne on se
demande s'il est probable qu'il s'agisse vraiment d'un expert ou si la personne n'a fait que
répondre au hasard. Supposons par exemple que la personne ait désigné 7 fois sur 8 le bon
vin. Ces données montrent-elles que la personne n'a pas répondu au hasard ? En d'autres
termes, est- il probable d'obtenir un tel résultat si la personne répond totalement au hasard ?

10
Pour répondre à ces questions il suffit de regarder quelle serait la probabilité d'un tel résultat
si le sujet répond au hasard, c'est-à-dire s'il a autant de chance de donner la bonne réponse que
la mauvaise (i.e., p = q = 0.5) :

P(S 8 = 7 ) = C87 × 0.5 7 × 0.51


8!
= × 0.5 7 × 0.51
7!1!
= 0.0312

La calcul montre qu'une personne répondant au hasard n'a que 3 chances sur 100 de trouver 7
fois sur 8 le bon vin. Par conséquent, il y a fort à parier que le sujet ne répondait pas au
hasard.

1.3 Variable Aléatoire Continue : La Loi Normale

Lorsque la variable aléatoire étudiée est continue le calcul des probabilité devient
légèrement plus compliqué. La difficulté vient du fait que la probabilité d'une valeur
spécifique de la variable aléatoire est nulle. L'exemple suivant va permettre de clarifier ce
point :
La figure ci-dessous représente la distribution approximative de l'âge auquel un enfant
commence à marcher (données issues des études de Hindley, Filliozat, Klackenberg, Nicolet-
Meister et Sand, 1966). La moyenne de cette distribution est approximativement 14 mois et
l'écart-type est approximativement 3 mois. Ainsi, bien que le point le plus haut de la courbe
soit 14 mois, il est peu probable qu'un enfant pris au hasard marchera exactement à
14.00000000000… mo is. De même, la probabilité qu'il commence à marcher à exactement
14.0000000000001 mois est infiniment petite. Les mathématiciens diront que cette probabilité
est nulle. Il ne convient donc pas de parler de la probabilité d'occurrence d'une valeur précise
d'une variable aléatoire continue. Mais on parlera de la probabilité qu'une valeur se trouve
dans un intervalle donné.
C'est pour cette raison que l'ordonnée de la courbe n'exprime pas des probabilités mais des
densités de probabilités. Cette unité n'est en aucun cas l'équivalent de la probabilité ou de la
fréquence mais il convient de la concevoir comme une concentration de masse (densité de
masse) à un point précis de la courbe. En d'autres termes, on peut dire que c'est au point 14
que les événements sont le plus dense.

11
Densité

6 8 10 12 14 16 18 20 22 24 26

Age (mois)

Ainsi, pour une variable aléatoire continue nous essaierons de trouver la probabilité
qu'une valeur se trouve dans un intervalle donné. Des exemples d'intervalles sont représentés
dans la figure ci-dessous.

Densité

a b c d

6 8 10 12 14 16 18 20 22 24 26

Age (mois)

Si on admet que l'aire totale comprise entre la courbe et l'axe des abscisses est égale à 1 alors
l'aire grisée entre a et b représentera la probabilité qu'un enfant pris au hasard commence à
marcher à l'âge indiqué par l'intervalle [a,b]. Pour calculer l'aire d'un intervalle sous une
courbe il faut connaître la fonction définissant cette courbe et procéder à un calcul
d'intégration. Ceci ne sera pas nécessaire pour les lois de probabilité que nous allons étudier
puisque ces calculs ont déjà été faits et sont reportés dans des tables dont l'usage est
extrêmement simple.

La distribution continue la plus utilisée en sciences humaines et la distribution


normale ou de Laplace-Gauss (du nom des mathématiciens qui l'ont élaborée).

12
La distribution normale est une distribution symétrique, unimodale et souvent appelée
"distribution en cloche" (figure ci-dessous). Elle présente des limites à ± ∝ ce qui signifie que
les extrêmes ne touchent jamais l'axe des abscisses. Etant donné qu'il s'agit d'une distribution
continue l'ordonnée s'exprime en densité de probabilités. A titre d'information nous donnons
la formule mathématique de cette distribution :

f (X ) =
1
e −( X − µ ) / 2σ
2 2

σ 2π

où π et e sont des constantes (π = 3.1416 et e = 2.7183) et µ et σ sont la moyenne et l'écart-


type de la distribution respectivement. µ et σ sont les deux paramètres définissant une loi
normale qui est notée :

Densité

µ X

Il n'existe pas une seule distribution normale mais une infinité de distributions puisqu'elles
sont définies par leur moyenne et leur écart-type dont il existe une infinité de valeurs.
Comme nous l'avons déjà vu, µ, la moyenne de la distribution, est un paramètre de position.
La figure ci-dessous montre qu'a écart-type σ constant la position de la courbe sur l'axe des
abscisses est fonction de la valeur du paramètre µ.

σ1 = σ2 = σ3

µ1 < µ2 < µ3 X

13
Le paramètre σ est un paramètre de dispersion autour de la moyenne µ. Plus ce paramètre est
petit plus les scores sont resserrés autour de la moyenne et plus la courbe est pointue. Plus ce
paramètre est grand plus les scores sont dispersés autour de la moyenne et plus la courbe est
aplatie (figure ci-dessous).

σ1

σ1 < σ2 < σ3
σ2

σ3

µ1 = µ2 = µ3

Beaucoup de caractéristiques se distribuent selon une loi normale. La taille et le poids


d'une population, le QI d'une population. Cependant, lorsqu'on procède à des mesures sur un
nombre fini d'individus la distribution de la caractéristique mesurée ne suit pas exactement la
forme de la distribution normale. On dit que la caractéristique étudiée suit approximativement
une loi normale. Considérons l'exemple de la figure ci-dessous qui est tiré d'une étude menée
par Achenbach en 1991. Il montre la fréquence des problèmes de comportements chez 309
enfants du niveau 6ème à 3ème (provocations, impulsivité, agressions…). Un score élevé
témoigne d'un plus grand nombre de problèmes de comportements. La distribution est
approximativement centrée sur le score 50 (valeur exacte : 50.98) et relativement symétrique
de part et d'autre de cette valeur. L'écart-type de cette distribution est environ 10 (valeur
exacte : 10.42). La distribution n'est pas parfaitement lisse (elle présente des pics et des
creux). Si l'on admet que le caractère "Problèmes de comportements" se distribue
approximativement selon une loi normale on peut postuler que l'irrégularité observée dans cet
histogramme est due au nombre relativement faible d'individus observés. Plus ce nombre
augmentera, plus la distribution s'approchera d'une distribution normale de moyenne µ = 50 et
d'écart-type σ = 10 : N(50,10).

30

25

20

15

10

Standardisation 0
8 16 24 32 40 48 56 64 72 80 88 96
Scores de problèmes de comportements

14
Nous avons vu plus haut qu'il existe autant de distributions normales qu'il existe de
combinaisons de µ et σ. Par conséquent, il faudrait une infinité de tables donnant les
probabilités recherchées.
Il existe une solution à ce problème qui consiste à transformer toute distribution normale de
moyenne µ et d'écart-type σ à une loi normale de moyenne 0 et d'écart-type 1 ( N(0,1) ). Cette
opération s'appelle la standardisation des données.
Une note standardisée s'obtient simplement en lui retranchant la moyenne µ de la population
dont elle provient et en divisant le résultat par l'écart-type σ suivant la formule ci-dessous :

X−µ
z=
σ

La ci-dessous illustre la transformation des données d'une distribution dont la moyenne est de
50 et l'écart-type est de 10.

X : 20 30 40 50 60 70 80
X − µ : -30 -20 -10 0 10 20 30
Z : -3 -2 -1 0 1 2 3

La figure montre qu'une aire, et par conséquent la probabilité correspondant à l'intervalle


délimitant cette aire, comprise entre 30 et 40 dans l'unité originale est conservée dans la
nouvelle unité des notes standardisées : –2 et –1. Ces notes standardisées z sont exprimées en
unités d'écart-type puisqu'elles sont obtenues en divisant une quantité par des écarts-types.
On voit ainsi que tout calcul de probabilités issues d'une loi normale de moyenne µ et σ
quelconques peut se ramener à un calcul de probabilités (soit à la consultation de la table
existante) issues de la loi normale N(0,1).

Pour reprendre notre exemple des scores de problèmes de comportements nous pouvons poser
la question suivante :
Quelle est la probabilité pour qu'un enfant pris au hasard dans la population ait un score
supérieur à 70. Sachant que la distribution des scores suit une loi normale de moyenne 50 et
d'écart-type 10 on peut transformer le score de 70 en un score standardisé :

70 − 50
z= =2
10

15
Il suffit donc de trouver la probabilité qu'une note z soit supérieure à 2. C'est ce que donne
l'aire grisée sous la courbe de la figure ci-dessous.

X : 20 30 40 50 60 70 80
X − µ : -30 -20 -10 0 10 20 30
Z : -3 -2 -1 0 1 2 3

16
DISTRIBUTIONS D'ECHANTILLONNAGE

Le concept fondamental qui sous-tend tous les tests statistiques est la distribution
d'échantillonnage d'une statistique (e.g. X ). Sans distributions d'échantillonnage, nous
n'aurions pas de tests statistiques. D'une manière générale, les distributions d'échantillonnage
nous disent quelles valeurs nous pourrions (ou ne pourrions pas) nous attendre à obtenir pour
une statistique bien déterminée sous un ensemble de conditions prédéfinies.

Imaginons que nous nous intéressons aux scores d'une population dont la moyenne est
50 (µ = 50) et l'écart-type est 10 (σ = 10). Si nous prélevons des échantillons de 10 individus
de cette population et que nous calculons le score moyen de chacun des échantillons
( x1 , x2 , x3 ,... ) nous obtiendrons des moyennes d'échantillons différant plus ou moins de la
moyenne µ de la population. Cependant, certaines moyennes d'échantillons se présenteront
plus souvent. Ce seront notamment les moyennes proches de la moyenne de la population
(50). D'autres moyennes d'échantillon, plus ou moins éloignées de la moyenne de la
population s'observeront avec une fréquence moindre.
Cette distribution des moyennes d'échantillons de taille n s'appelle une distribution
d'échantillonnage. Un exemple de distribution d'échantillonnage est illustré dans la figure
1.1.

Figure 1.1

Fréquenc
es

41.0 45.5 50.0 54.5 59


Moyennes d'échantillon ( X )

Rappelons que tout comme X , la variable aléatoire qui à chaque individu associe son
score, X est une variable aléatoire qui à chaque échantillon de taille n associe sa mo yenne.

X1 + X 2 + Κ + X n
X =
n
n

∑X i
X = i =1

17
Attention : ne pas confondre X qui est une variable aléatoire (i.e., dont l'issue est incertaine)
x + x2 + Κ + xn 1 n
et x = 1 = ∑ xi (Cf. Statistiques Descriptives, cours L1S1) qui est une
n n i =1
réalisation de X .

Nous allons voir que les paramètres et la "forme " de la distribution de X sont directement
liés à ceux de la distribution de X.

Lien entre les paramètres de la distribution parente et les paramètres de


la distribution d'échantillonnage

Nous avons dit plus haut que les distributions d'échantillonnage sont indispensables à
l'élaboration de tests statistiques. Par conséquent, il est très important de connaître les
caractéristiques définissant une distribution d'échantillonnage. Nous allons voir que la
distribution d'échantillonnage dépend directement des paramètres (µ, σ ou p) de la population
parente.

Ainsi on montre que :

Pour une population sur laquelle on étudie un caractère quantitatif (variable aléatoire X) :
Si la moyenne de X est µ et sa variance σ² (écart-type = σ) alors la variable aléatoire
σ2
X (moyennes d'échantillons de taille n) aura une moyenne µ et une variance ,
n
σ
(écart-type = ).
n

Pour une population sur laquelle on étudie un caractère qualitatif (variable aléatoire X à
alternative simple) :
Si la moyenne de X est p et sa variance pq (écart-type = pq ) alors la variable
n

∑X i
Sn pq
aléatoire X = i =1
= = Fn aura une moyenne de p et une variance de (écart-
n n n
pq
type = )
n

18
Lien entre "la forme" de la distribution parente et la "forme" de la
distribution d'échantillonnage.

X variable aléatoire Quantitative

Si L (X) = N (µ, σ)

alors en vertu des propriétés de la loi normale :

σ
L (X )=N (µ, )
n
Une illustration de cette relation est donnée dans la figure 1.2. Cette figure montre que la
distribution de la statistique X sera toujours plus resserrée autour de sa moyenne µ que
celle de la variable X de la population parente. Ceci vient du fait que l'écart-type de
σ
X( ) est toujours plus petit que l'écart-type de X (σ) puisque l'écart-type de X est égal à
n
celui de X divisé par n .

L (X)
Figure 1.2
L (X)

Si L (X) est quelconque de moyenne µ et d'écart-type σ

Alors en vertu du théorème Central - Limite et à condition que n soit "assez"


grand:
σ
L ( X ) ≈ N (µ, )
n

Théorème Central - Limite :

La somme d'un "grand" nombre de variables aléatoires indépendantes dont la


plus grande, en valeur absolue, fournit une contribution négligeable par rapport

19
à la somme est approximativement distribuée suivant une loi normale de
moyenne égale à la somme des moyennes, de variance égale à la somme des
variances des variables aléatoires initiales.
Bien que le théorème central - limite désigne le cas d'une somme de variables
aléatoires, il s'applique à notre statistique X puisque celle-ci est obtenue en
faisant la somme des variables X avant de diviser cette somme par n :

Rappel :
X1 + X2 +Κ + Xn
X=
n

En résumé :
Lorsqu'une variable aléatoire X se distribue selon une loi normale, la
distribution des moyennes d'échantillons de taille n suit également une
loi normale. En d'autres termes, lorsque nous prélevons successivement
des échantillons de taille n dans une population normalement distribuée,
la distribution des moyennes de ces échantillons est également normale.
D'autre part, lorsque la distribution de la variable aléatoire X ne suit pas
une loi normale, la distribution des moyennes des échantillons de taille
n suit quand même une loi normale, à condition que n soit "assez
grand".
Règle :
En général, on admet que lorsque la taille n de l'échantillon atteint
environ 30 individus, alors la distribution de X est approximativement
normale.

X variable aléatoire de Bernoulli associé à un caractère


qualitatif

Si X suit une loi de Bernoulli de moyenne p et d'écart-type pq (avec p probabilité


d'un succès et q probabilité d'un échec)

alors en vertu du théorème central - limite et de l'approximation de la loi binomiale par la loi

normale :

pq
L (Fn) ≈ N (p, )
n

Si np, nq ≥ 10

Rappel : Fn représente la fréquence de succès dans un échantillon à n variables aléatoires de

Bernoulli.

20
Conclusion :

Comme nous l'avons déjà dit en introduction, les distributions d'échantillonnage

constituent un passage incontournable pour l'application des tests d'hypothèses ou des

( )
statistiques inférentielles en général. Qu'il s'agisse de moyenne Xn ou de fréquences (Fn ), la

connaissance de la distribution de ces statistiques permet de déterminer la probabilité

d'observer une moyenne ou une fréquence donnée, ce qui est le principe même des tests

d'hypothèses. Nous avons brièvement montré de quelle manière on peut déterminer la

distribution d'échantillonnage d'une statistique lorsqu'on connaît la distribution de la

population dont l'échantillon est issu. On a pu remarquer que, bien que les cas cités ne soient

pas exhaustifs, dans la majeure partie des situations la distribution d'échantillonnage d'une

statistique peut se ramener à une loi normale. Ceci est très pratique puisque le calcul de

probabilités est de cette manière extrêmement simplifié. A tel point, qu'on admet trop

facilement que la distribution d'échantillonnage considérée est normale dans l'application d'un

test d'hypothèse donné.

21
INFERENCE STATISTIQUE

Nous avons déjà expliqué la différence entre la statistique descriptive qui consiste à
décrire un ensemble de données et la statistique inférentielle qui consiste à estimer à partir de
statistiques des paramètres de la population qui sont inaccessibles (cf. cours Deug I, p. 20-22).
Nous allons voir qu'il est possible de donner deux types d'estimation d'un paramètre telle que
la moyenne µ ou la proportion p. D'une part, nous étudierons les estimations ponctuelles et
d'autre part les estimations par intervalle pour lesquelles nous pourrons déjà investir les
connaissances que nous avons des distributions d'échantillonnage.

Estimation Ponctuelle

Estimateur (a priori) / Estimation (a posteriori)

Il faut faire la distinction entre un Estimateur et une Estimation d'un paramètre


inconnu. Un estimateur est une variable aléatoire ( X, Sx ou Fn ) utilisée pour estimer (a priori)
le paramètre inconnu (µ, σ ou p) à partir d'un échantillon de taille n. Une estimation ( x , sx ou
f n ) est une réalisation d'un estimateur. Etant donné qu'un estimateur est une variable aléatoire
(i.e., son issue est aléatoire) il y a autant d'estimations possibles d'un paramètre qu'il y a
d'échantillons. Nous verrons que l'étude a priori d'un estimateur prend toute son importance
pour les estimations par intervalle.

Rappel : On se souviendra (cf. cours Deug I) qu'un estimateur doit être non - biaisé,
convergent et efficace.

Ainsi :
x est une réalisation de X qui est un estimateur de µ
s²x est une réalisation de S²x qui est un estimateur de σ²
f n est une réalisation de Fn qui est un estimateur de p

Rappel : On se souviendra (cf. cours Deug I) que S²x, la variance d'échantillon, doit être
n
corrigée par pour être un estimateur efficace de σ².
n −1

Exemple :
Un sondage effectué parmi 1600 téléspectateurs choisis au hasard indique que 576 d'entre eux
apprécient les émissions sportives. Déterminer l'estimation ponctuelle de la proportion de
téléspectateurs qui apprécient les émissions sportives ?
Ici on cherche à donner une estimation du paramètre p (proportion d'individus dans toute la
population considérée qui apprécient les émissions sportives). Un estimateur de p est Fn est
S 576
une réalisation de Fn est f n = n = = 0.36 .
n 1600

22
Insistons : ce résultat ne signifie aucunement que exactement 36% des individus dans la
population apprécient les émissions sportives. Si nous prenons un autre échantillon de 1600
individus nous en compterons peut-être 600 qui apprécient les émissions sportives. Mais nous
pouvons dire "avec confiance" que la proportion p n'est pas trop éloignée de 36% puisque Fn
est un estimateur efficace de p. Nous allons voir qu'il est possible de quantifier en quelque
sorte la confiance que nous pouvons avoir en notre estimation.

Estimation par intervalle

Comme nous l'avons déjà fait remarquer plus haut, l'estimation par intervalle est une
opération qui repose sur la loi de probabilité de l'estimateur et qui a pour but de donner une
"fourchette" ou un intervalle de confiance pour le paramètre inconnu.

Intervalle de confiance de µ, moyenne théorique

Loi de probabilité de X , estimateur de µ

3 cas sont à distinguer :

Si L (X) = N (µ,σ) alors :


 
 
 σ  − µ
L (X ) = N  µ,  ou L (z ) = L 
X 
 n  σ 
 
 n 

Si L (X) est quelconque de moyenne µ et d'écart-type σ alors d'après le théorème


central limite :

 σ 
L (X )  → N  µ,
n →∞ 
 n

L (z ) → N (0,1)
n→ ∞

Si L (X) = N (µ,σ) mais σ est inconnue alors :


σ est estimé par SX ou σ est estimé par S et
n n
 
 
 X −µ
L =T avec ν = n − 1
 S  ν
 
 n 

Tν : Loi de Student à ν = n − 1 degrés de liberté (ddl : c'est un paramètre).

23
Approximation : Tν ≈ N (0,1) dès que ν ≥ 30.

La figure 2.1 montre une distribution de Student (trait continu). Plus ν sera grand, plus les
deux courbes (Loi Normale et de Student) auront tendance à être confondues.

Figure 2.1

N (0,1)

Intervalle de confiance de µ

L'intervalle de confiance, au même titre qu'un estimateur X , est un intervalle aléatoire


noté Ic. On pourra calculer une réalisation de Ic qu'on notera ic.

Ic varie suivant l'échantillon prélevé dans la population.


En effet, Ic est centré sur X tel que la probabilité que Ic contienne µ est égale à 1 − α.

α est appelé un seuil ou un risque. Nous reviendrons plus loin sur cette notion. Admettons
pour l'instant que α représente une marge d'erreur qu'on veut bien s'accorder dans la
construction de notre intervalle de confiance. En Sciences Humaines, α est généralement fixé
à 5% ou 1%.

2 cas sont à distinguer :

σ est connu ou σ est inconnu, mais n est grand (ν = n − 1 ≥ 30)


à on pourra admettre que la distribution d'échantillonnage de X suit une loi normale
et après standardisation on pourra utiliser la table N (0,1).

Figure 2.2

α α α
2 2
−z +z z
0
La figure 2.2 montre l'aire sous-tendue par la probabilité α.. On remarque que la
probabilité totale α est divisée en deux parties égales de part et d'autre de la moyenne.

24
Ainsi la totalité du risque α est également répartie de part et d'autre de la moyenne, de
manière à ce que l'intervalle de confiance soit centré autour de celle-ci.

La lecture de la table fait que lorsqu'on fixe α, on obtient z.


Exemple : α = 0.05 à z = 1.96

L'intervalle de confiance est donné par la formule suivante :


 σ σ 
Ic =  X − z × ;X + z×
 n n 

Une réalisation de Ic est donnée par :


 σ σ 
ic =  x − z × ;x + z ×
 n n 

Figure 2.3

σ x σ
x−z x+z
n n
ic
Exemple : Le tableau ci-dessous donne, en francs, les différences de prix (di ) de plusieurs
produits, entre 2 époques, relevées auprès de 100 commerçants.

Déterminer l'estimation ponctuelle de :

1) La moyenne des différences de prix


2) L'écart-type correspondant

di −2 −1 0 1 2 3
ni 4 15 30 35 10 6

n
x = 1 ∑ ni xi = 1 ×50=0.5
n i=1 100

 
s 2 = 1 ∑ ni xi2 − x 2  =160 −(0.5) ≈1.37
n
2

 n−1 i=1  99

s= 1.37 =1.17

Donner un intervalle de confiance pour la moyenne des différences de prix.

x =0.5
s=1.17
α =0.05→ z =1.96
 1.17 1.17 
i c = 0.5 − 1.96 × ;0.5 + 1.96 × 
 100 100 

25
ic =[0.27;0.73]

σ est inconnu, n est petit (ν = n − 1 ≤ 30)

Dans ce cas on n'utilisera plus la loi normale comme dans le cas précédent mais la loi de
Student comme l'illustre la figure 2.4 (La statistique z est remplacée par la statistique t).

Figure 2.4

α
α α
2 2
−t +t t
0

L'intervalle de confiance se calcule de la même manière :


 S S 
Ic = X − t × ;X +t× 
 n n

Sa réalisation :
 s s 
ic =  x − t × ;x +t× 
 n n

Exercice :
Reprenons l'exercice précédent mais admettons que n = 10.

x =5

s =11.6

α =0.05→t=2.262

26
 11.6 11.6 
i c = 5 − 2.262 × ;5 + 2.262 × 
 10 10 

ic =[−3. 75;13.75]

Intervalle de confiance de p

Loi de Probabilité de Fn , estimateur de p.

Sn
Fn = : proportion de succès dans l'échantillon.
n

Rappel : L(S n) = B (n, p) → N np, npq


n→ ∞
( )
S   pq 
L (Fn ) = L  n →N  p,



 n   n 
- Ainsi
 pq 
L (Fn ) n

→∞
→ N 
 p, 

 n 

M condition d'utilisation : np et nq ≥ 10 et n ≥ 30.

- ou
 
 
 Fn − p 
L → N (0,1) si np et nq ≥ 10 et n ≥ 30.
 pq 
 
 n 

Intervalle de confiance de p.

A priori c'est un intervalle aléatoire noté Ic


A posteriori, après réalisation de l'échantillon c'est un intervalle calculé noté ic,
réalisation de Ic.

* Construction de Ic :

Ic varie suivant l'échantillon prélevé dans la population, en effet Ic est centré sur Fn tel
que la probabilité pour que Ic contienne p soit égale à 1 − α.

P ( I c ∋ p) = 1 − α avec α = risque.

27
La table de la loi normale : N(0,1) permet, à partir de α, de trouver le nombre d'écart
type qu'on doit mettre autour de F n

 pq pq 
I c =  Fn − z × ; Fn + z × 
 n n 

* problème : p est inconnu.


Solution : p sera estimé ponctuellement par f n dans l'expression de l'écart type.

**Pratiquement :

 f n (1 − f n ) f n (1 − f n ) 
ic =  f n − z × ; fn + z × 
 n n 

Exemple : on a interrogé 1600 téléspectateurs dont 576 apprécient les émissions


576
sportives. f n = = 0. 36 soit 36%
1600

donner une estimation de l'intervalle de confiance avec un risque α = 5%

→ z = 1.96.
f n (1 − f n )
fn − z = 0.336
n
f n (1 − f n )
fn + z = 0.384
n

Fourchette centrée sur 36%. Elle s'étend entre 33% et 39%. Longueur d'environ 6%.

Commentaire : Sur un très grand nombre de réalisations d'échantillons la proportion


d'intervalles de confiance comprenant p est égal à 1 – α. (Ex : 1 – α = 95%).

28
B IBLIOGRAPHIE

D.C. Howell (1992). Méthodes statistiques en sciences humaines. Duxbury Press, California.
Chapitre 5.

T.H. Wonnacott & R.J. Wonnacott (1984). Statistique. John Wiley & Sons, Inc.
Chapitres 3 → 5.

B. Beaufils (1996). Statistiques appliquées à la psychologie (Tome2). Bréal, Paris.


Chapitres 1 → 3.

M. Laviéville (1996). Statistique et probabilités. Dunod, Paris.


Chapitres 7 → 9.

G. Mialaret (1991). Statistiques appliquées aux sciences humaines. PUF, Paris.


Chapitres 5 → 6.

Ph. Lazar & D. Schwartz (1997). Eléments de probabilités et statistiques. Flammarion, Paris.
Chapitres 2 → 7

29

Vous aimerez peut-être aussi