Rappels Statistiques

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 28

Méthodologie – Statistiques

Moyenne – Écart type/Variance – coefficient de variation

Écart type relatif – Sans unité


Permet de mieux juger la dispersion

µ σ CV (%)
0,1 1 1000 %
100 1 1%

1
Méthodologie – Statistiques

Droite de régression linéaire – Coefficient de corrélation R et Coefficient de détermination R²

R≈1
R≈0
R ≈ -1 2
Méthodologie – Statistiques

Tests statistiques

Student Fisher Cochran

 Test l’égalité de deux variances  Teste l’homogénéité des variances


 Comparaison de moyennes

 Test de nullité d’un coefficient


d’une régression linéaire

3
Paramètres d’un échantillon

4
Calcul de moyenne (average or mean) : µ

Exemple 01:
Trois séries d’échantillons d’ASPEGIC 250 mg aspirine/sachet

1 in
µ   xi
n i 1

Formule Excel : MOYENNE

La moyenne ne suffit pas à décrire un échantillon

5
Calcul de l’écart type (Standard Deviation ) : σ

Exemple 01:
Trois séries d’échantillons d’ASPEGIC 250 mg aspirine/sachet

in
1
σ 
n
 i
(x 
i 1
m) 2

Formule Excel : ECARTYPEP

6
Calcul de la variance (Variance) : σ²

Exemple 01:
Trois séries d’échantillons d’ASPEGIC 250 mg aspirine/sachet

1 in
σ 2
 
n i 1
(x i  m) 2

Formule Excel : VAR.P

7
Calcul de la variance (Variance) : σ²

Exemple 01:
Trois séries d’échantillons d’ASPEGIC 250 mg aspirine/sachet

Inconvénient de la variance

8
Coefficient de variation : CV (Relative Standard Deviation RDS)

Exemple 02:
Dosage des éléments dans une eau de boisson

9
Utilisation des tables

10
Comparaison de deux moyennes
Petits échantillons n<30
Position du problème:

Échantillon1 Échantillon2
Moyenne m 1 = 10 Moyenne m 2 = 8
Écart type s 1 = 1 Écart type s 2 = 2
Effectif n1 = 7 Effectif n2 = 9

Les échantillons 1 et 2 proviennent –t-ils d’une même population ?

11
Formulation des hypothèses de travail
H° : la différence observée n’est pas statistiquement significative : elle ne
provient que du hasard d’échantillonnage
H1 La différence observée est statistiquement significative: le hasard seul
n’explique pas cette différence

Solution :
On commence par tester l’égalité des variances par un test F

variance la plus élévée σ 22


Fech   2 4
variance la moins élévée σ 1

F[0,05 ; n1(numérateur) = 9-1 =8 ; n2 (dénominateur) = 7-1 = 6 = 4,15

12
F[0,05 ; n1(numérateur) = 9-1 =8 ; n2 (dénominateur) = 7-1 = 6] = 4,15
Distribution "F" de Fisher-Snedecor

(seuil de risque alpha = 0,05)


DL 1 (num)
DL 2
(den) 1 2 3 4 5 6 8 12 24
1 161 199 216 225 230 234 239 244 249
2 18,5 19,0 19,2 19,2 19,3 19,3 19,4 19,4 19,5
3 10,1 9,55 9,28 9,12 9,01 8,94 8,84 8,74 8,64
4 7,71 6,94 6,59 6,39 6,26 6,16 6,04 5,91 5,77
5 6,61 5,79 5,41 5,19 5,05 4,95 4,82 4,68 4,53
6 5,99 5,14 4,76 4,53 4,39 4,28 4,15 4,00 3,84
7 5,59 4,74 4,35 4,12 3,97 3,87 3,73 3,57 3,41
8 5,32 4,46 4,07 3,84 3,69 3,58 3,44 3,28 3,12
9 5,12 4,26 3,86 3,63 3,48 3,37 3,23 3,07 2,90
10 4,96 4,10 3,71 3,48 3,33 3,22 3,07 2,90 2,74
11 4,84 3,98 3,59 3,36 3,20 3,10 2,95 2,79 2,61
12 4,75 3,89 3,49 3,26 3,11 3,00 2,85 2,69 2,51
13 4,67 3,81 3,41 3,18 3,03 2,92 2,77 2,60 2,42
14 4,60 3,74 3,34 3,11 2,96 2,85 2,70 2,53 2,35
15 4,54 3,68 3,29 3,06 2,90 2,79 2,64 2,48 2,29
16 4,50 3,63 3,24 3,01 2,85 2,74 2,59 2,42 2,24
17 4,45 3,59 3,19 2,96 2,81 2,70 2,55 2,38 2,20
18 4,41 3,55 3,16 2,93 2,77 2,66 2,51 2,34 2,15
19 4,38 3,52 3,13 2,90 2,74 2,63 2,48 2,31 2,11

=INVERSE.LOI.F(0,05;8;6)
13
Ici F ech < F°  les variances sont comparables
 on peut comparer les moyennes
Si F ech > F°  les variances ne sont pas comparables
 les échantillons ne proviennent pas de la même population
14
Comparaison des moyennes
VA = différence des moyennes
Cette VA admet
Comme moyenne (mpop – mpop) = 0

1 1
Comme écart type σd  σe (  )
n1 n 2
n1σ12  n 2 σ 22
σ 2

n1  n 2 - 2
e

avec ou
(n1 - 1)σ1pop
2
 (n 2 - 1)σ 22pop
σ e2 
n1  n 2 - 2

(m1 - m 2 ) - 0 m1 - m 2 2
t ech     2,40
σd σd 0,83
t ( a  0,05 ; n  n1n22  14)  2,15
15
(m1 - m 2 ) - 0 m1 - m 2 2
t ech     2,40
σd σd 0,83
t ( a  0,05 ; n  n1n22  14)  2,15

Ici t ech > t°


 les moyennes ne sont pas statistiquement égales (H° est
fausse)
 Les deux échantillons ne proviennent pas de la même
population

Si on avait eu tech < t°


 les moyennes auraient été comparables (H° vraie)
 on aurait pu affirmer que les deux échantillons
proviennent de la même population

16
Exemple 06

Dans un fut de comprimes on prélève


•10 comprimés au niveau supérieur
 m1 = 360 mg s1pop = 5 mg
•16 comprimés au niveau inférieur
 m2 = 365 mg s2pop = 4 mg

Le fut est-il homogène ?

17
Corrigé

•10 comprimes au niveau supérieur  m1 = 360 mg s1pop = 5 mg


•16 comprimés au niveau inférieur  m2 = 365 mg s2pop = 4 mg
 Comparaison des variances
Fech = 5²/4² = 1,56
Les variances sont comparables
F° = inverse.loi.F (0,05;9;15) = 2,59
 Comparaison des moyennes
(n1 - 1)σ1pop
2
 (n 2 - 1)σ 22pop (10 - 1) * 5 * 5  (16 - 1).* 4.* 4 9 * 25  15 *16
σ 
2
   19,375
n1  n 2 - 2 10  16 - 2
e
24
 σ e  19,375  4,4
1 1 1 1
σd  σe (  )  4,4 *  )  1,77
n1 n2 10 16)

m1 - m 2 5
t ech     2,82 Les moyennes ne sont pas
σd 1,77
comparables
t° = loi.student.inverse(0,05; 24) =2,06
18
3-5 Analyse de la variance : ( ANalyse Of VAriance = AN0VA)
Exemple 07 GROUPES
(laboratoires, opérateurs, jours
d'analyses etc..)
<--------------j-(varie de 1 à k)---------------->
L1 L2 L3 L4 Lj Lk

X1 41 36 50 43
X2 46 39 51 53
X3 54 43 51 47
X4 44 38 37 53
X5 42 37 47 53
i (1 à n) X6 45 35 47 50

Xi Xi1 Xi2 Xi3 Xi4 Xij Xik

Xn XnJ

MOYENNE => mj 45,33 38,00 47,17 49,83


VARIANCE => VARj 21,47 8,00 28,17 16,97

Position du problème
Peut-on considérer que les groupes (échantillons) sont comparables ? C’est-à-
dire qu’ils proviennent d’une même population ?
19
Formulation des hypothèses de travail
H° : les différences de moyennes observées ne sont pas statistiquement
significatives : elles ne proviennent que du hasard d’échantillonnage
H1 Les différences observées sont statistiquement significatives: le hasard
seul n’explique pas ces différences

Si H° est vraie et si les variances des groupes sont homogènes alors les
variances de la population estimées à partir:
•des valeurs contenues à •des valeurs des moyennes
l’intérieur de chaque groupe: des échantillons :
S12 = MSE (Mean Square Error) S22 =MSM (Mean Square Model)

* m1 * m3
* * m4 doivent être
m2 statistiquement comparables

20
Il faut commencer par tester l’homogénéité des variances par un test de
COCHRAN

L1 L2 L3 L4

X1 41 36 50 43
X2 46 39 51 53
X3 54 43 51 47
X4 44 38 37 53
X5 42 37 47 53
somme
X6 45 35 47 50 Cech
VAR
VAR 21,47 8,00 28,17 16,97 74,6 0,38

Variance maximale
On compare Cech = = 0,38
 Variances
Avec la valeur C° (0,05; k; n-1) lue dans la table de COCHRAN
K = nombre de groupe (ici 4 ) et n = nombre de répétitions ou d’essais par groupe (ici 6)

21
Table de Cochran
risque 5%
n = n-1==>
n nbr répétitions
ou essais par
groupe 1 2 3 4 5 6 7 8
k=p
(nombre de
groupes)

2 1 0,975 0,939 0,906 0,877 0,853 0,833 0,816
3 0,967 0,871 0,798 0,746 0,707 0,677 0,653 0,633
4 0,906 0,768 0,684 0,629 0,59 0,56 0,537 0,518
5 0,841 0,684 0,598 0,544 0,506 0,478 0,456 0,439
6 0,781 0,616 0,532 0,48 0,445 0,418 0,398 0,382
7 0,727 0,561 0,48 0,431 0,397 0,373 0,354 0,338
8 0,68 0,516 0,438 0,391 0,36 0,336 0,319 0,304
9 0,638 0,478 0,403 0,358 0,329 0,307 0,29 0,277
10 0,602 0,445 0,373 0,331 0,303 0,282 0,267 0,254
11 0,57 0,417 0,348 0,308 0,281
12 0,541 0,392 0,326 0,288 0,262 0,244 0,23 0,219
13 0,515 0,371 0,307 0,271 0,243
14 0,492 0,352 0,291 0,255 0,232
15 0,471 0,335 0,276 0,242 0,22 0,203 0,191 0,182

Cech = 0,38 < C° (=0,59) => Les variances sont homogènes


22
Puisque les variances des groupes sont homogènes on va
comparer les variances de la population estimée:

Si H° est vraie ces deux variances doivent être comparables

23
in j
1
Pour un groupe Gj donné σ 2
pop  
n j  1 i 1
(x ij  m j ) 2

 Pour l’ensemble des Gj j k in


1 1 j

(en supposant que les k groupes S12    (x  m ) 2

k j1 n j  1 i 1
ij j
comportent le même nombre n de valeurs)

ddl = n = k(n-1) (=4(6-1) = 20 dans l’exemple)


j k I  nj
1 1
σ 2pop  S12    (x  m ) 2
( = 18,65 dans l’exemple)
k j1 n j  1 i 1
ij j

24
m1 , m2 , … mj, …mk sont les éléments constituant l’échantillon de la
population des moyennes: On peut donc à partir de cet échantillon estimer
j k
1
La moyenne de la population des moyennes μ m  m  k
m
j1
j

j k
1
La variance de la population des σ 2m  
k - 1 j1
(m j  m) 2
moyennes
j k
n
s pop
2
 S22  nσ 2m  
k - 1 j1
(m j  m) 2 ( = 154,28 dans
l’exemple)
Avec un ddl n = k- 1 ( = (4-1)= 3 dans l’exemple)

25
Si H° est juste S22 = S12
Les variances estimées S12 et S22 doivent être voisines
MSM = MSE

Si H° est fausse (donc si H1 est juste):

S22 = S12 + n (variance intergroupe)


en effet on démontre
que dans ce cas MSM = MSE + n (variance intergroupe)

26
TEST F
S22 154,28
Fech  2  9,93 F ( a = 0,05 ; n1 = (k-1) = 3 , n2 = (k(n-1) =20 ) =
S1 15,54 3,1

Fech > F° l’hypothèse émise H° est rejetée: Les différences de


moyennes constatées ne proviennent pas uniquement du hasard:
les groupes (ici laboratoires) ne sont pas comparables
Si Fech < Fa on aurait accepté l’hypothèse H°

27
Exemple de calcul avec EXCEL

L1 L2 L3 L4

X1 41 36 50 43
X2 46 39 51 53
X3 54 43 51 47
X4 44 38 37 53
X5 42 37 47 53
X6 45 35 47 50
Var 17,89 6,67 23,47 14,14
moy 45,33 38,00 47,17 49,83

moyenne des variances 2


15,54 S 1

2
6* var(ensemble des moyennes) 154,28 S 2

S22 154,28
Fech  2   9,93 F° ( α = 0,05 ; 3 , 20 ) = 3,1
S1 15,54

28

Vous aimerez peut-être aussi