Biostat Ii
Biostat Ii
Biostat Ii
Cours de Biostatistiques
NEW EDITION
Objectifs pédagogiques
L’objectif de cette brochure est d’apporter certains outils
méthodologiques classiquement utilisés pour décrire et tester
des phénomènes biologiques.
Introduction
Toute étude statistique peut être décomposée en deux
phases au moins : le rassemblement ou la collecte des
données, d'une part, et leur analyse ou leur interprétation,
d'autre part.
La collecte des données peut être décomposée en deux
étapes, l'une déductive ou descriptive et l'autre inductive.
La statistique descriptive a pour but de mesurer et de
présenter les données observées d'une manière telle qu'on
puisse en prendre connaissance aisément, par exemple sous
la forme de tableaux ou de graphiques.
L'inférence statistique permet d'étudier ou de généraliser
dans certaines conditions les conclusions ainsi obtenues à
l'aide de tests statistiques en prenant certains risques
d'erreur qui sont mesurées en utilisant la théorie des
probabilités (DAGNELIE.P., 1986).
1) La collecte des données : il existe deux façons de
collecter des données qui sont :
ère
a) Une simple observation : permet d’acquérir une 1
connaissance des phénomènes de la nature ex :
médiologie, économie……
b) Une expérimentation : l’expérience a pour but d’apporter
de nouvelles informations aux connaissances que l’on
possède déjà. Les phénomènes étudiés peuvent être
provoqués facilement en biologie, en physique et/ou en
biochimie et, pour réaliser une expérience il faut suivre
les étapes suivantes (DAGNELIE.P., 2003) :
• Planification
• Réalisation
• Collecte des données
• Analyse des données
• Interprétation des résultats
• Conclusion
Ce plan constitue la pierre angulaire de la méthode
expérimentale.
2) Analyse statistique : c’est l’application des tests
statistiques pour analyser les données collectées. Ces
tests sont expliqués dans les chapitres suivants.
Cours de bio statistiques Page 1
Chapitre I : Statistique descriptive à une dimension
ou statistique univariée
Nb étudiants
Cours de bio statistiques Page 3
Filière (discontinue)
b) Histogrammes : pour les variables continues avec
des valeurs continues de -∞ à +∞.
ni
(Continue) classe
c) Polygones de
fréquences : pour variables discontinues avec des
fréquences.
Ex : nombre d’accidents par mois :
Nb d’accidents
n i1+¿ 2+… …+ n ¿
x=
n = x=∑∋ n ¿
Propriétés :
*) la somme des ni - x est nulle
*) c’est par rapport à cette moyenne que la somme
de carrés des écarts est la plus petite.
b) La moyenne géométrique : xg
La moyenne géométrique xg d’une série statistique
composée de n valeurs positives
n1+n2+…nn est par définition, la racine n ième du
produit de ces n valeurs :
xg= x1+x2………xn(xi ≥ 0)
c) La moyenne harmonique : Xh
La moyenne harmonique d’une série de n valeurs
positives est égale à l’inverse de la moyenne
arithmétique des inverses n
yh 1 1 1 (xi
0) x1
x2 xn
d) La moyenne quadratique : la moyenne quadratique
d’une série des n valeurs positives, nulles ou
négative, est la racine carrée de la moyenne
arithmétique des carrés
yq x12 x22
xn
2n
e) La médiane :
La médiane est la valeur qui laisse 50% des
observations en-dessous et 50% des observations
au-dessus. On l’appelle également parfois
“percentile 50” : c’est la valeur centrale par
excellence.
Cours de bio statistiques Page 6
Pour la calculer, il faut d’abord trier l’échantillon.
Ensuite,
S 2 1n yi2
1nin1 yi
2 n i
1
SCE
S S
CV ou
100 %
x x
Remarques
2
s ,s et CV sont nuls si et seulement si tous les
écarts yi y sont nuls, c’est-à-dire si toutes les
valeurs observées sont égales entre elles, et à
leur moyenne ou plus simplement, s’il n’y a pas
de variabilité dans les observations
2
l’unité suit l’unité des donnée observée s (unité
au carré), s (unité), CV est sans unité ou en
pourcentage.
| |
d) L’écart-moyen absolu : em
- Le coefficient de corrélation
- Le coefficient de détermination
Poid Taill
s yi e xi
i y1 = x1 =
= 75,2 1,55
1 y2 = x2 =
i 82,5 1,82
= : :
2 : :
: y5000 = x5000 =
: 65,0 1,92
n=
500
0
n
xi xyi y
Covx.y i1
n
SPE
Covx.y
n
1n 1 n n
Covx.y n xi yi ni1 xi i1 yi
i 1
1
SPE xi yi n
xi yi
approximativement linéaire.
r +1 r -1 r
0
Forte corrélation positive Forte corrélation négative
Pas de corrélation
1r1
-1 0 +1
Cov
x.y r
H : r=0
H : r ≠0
Remarque : (autres hypothèses alternatives). On peut vouloir
définir une hypothèse alternative différente (H : r<0 ou H : r
> 0). Les caractéristiques des distributions restent les
mêmes.Pourun risque α donné, seul est modifié le seuil de
rejet de H puisque le test est unilatéral dans ce cas.
Le test étudié est paramétrique. On suppose a priori que
le couple (X.Y) suit une loi normale bivariée. Dans ce cas : la
distribution sous H de la statistique du test que nous
présenterons plus bas est exact : le test de significativité
équivaut à un test d’indépendance.
Cette restriction est moins contraignante lorsque n est
suffisamment grand (RAKOTOMALALA R., 2015). A partir de 25
observations, l’approximation est bonne, même si nous
écartons (un peu) de la distribution normale conjointe. La
distribution est valable sous l’hypothèse r=0. Mais le test de
significativité revient simplement à tester l’absence ou la
présence de corrélation.
Statistique du test : Sous H , la statistique :
0 r 2 1
2.3.4 Les droites de régression au sens des moindres
carrés et les variances résiduelles
La droite de régression de y en x a pour but de résumer
le nuage de points c’est-à-dire de représenter sur le plan
l’allure de la distribution à deux caractères. Cette droite
donne une idée de la façon dont varie en moyenne la variable
y dite dépendante ou variable à expliquer, en fonction de la
variable x, dite indépendante ou explicative. La droite est
appelée également diagramme de régression.
Lorsque le diagramme de régression est linéaire ou
approximativement linéaire, on peut s’efforcer de rechercher
l’équation de la droite qui s’y ajuste le mieux (DAGNELIE. P.,
2006).
2.3.5 La variance résiduelle de y apparait ainsi comme un
indice de dispersion des points observés autour de la
droite de régression de y en x
La quantité cov2(x,y)/s2x est considéré comme la part de la
variance de y qui est expliquée ou justifiée par régression de
y en x, tandis que la variance résiduelle est la part de cette
variance qui ne peut être expliquée de la sorte S 2y.x
yiobs yˆiest 2
n
Sy.x S 2y.x
covx y,
y a bx a y bx et b x2
s
SCE SCE
donc : xinf x xsup x
1 nn1 1 2nn1
2
x m0 x
m0 tobs ˆ
SCE n nn1
12
x x
Sin1 n2 tobs 1 x2 tobs 1 x2
n11S12 SCE1 1
0,05 n2n2S222 2SCE 2
Sitobs n11 n11 t12
RH0 n12 n n12 n m1 m2
pour n2 n1 n2
2 ddl
tobs x1 x2
SCE1 SCE2
nn1
0,05
Sitobs t1 RH0 m1 m2 pour 2n 1 ddl
2
Application : Dans 2 types de forêt distincte on a
mesuré les hauteurs respectivement de 13 et 14 arbres
choisis au hasard et indépendamment, dans le but de vérifier
si les hauteurs moyennes des 2 types de forêt sont ou ne sont
pas égale, les valeurs observées sont les suivantes :
Type Type 27,0 26,7
1 2 27,6 26,9
23,4 22,5 27,7 27,4
24,4 22,9 28,5
24,6 23,7
24,9 24,0
25,0 24,4
26,2 24,5
26,3 25,3
26,8 26,0
26,8 26,2
26,9 26,4
x1 25,97 x2 25,39
25,9725,39
Cours de bio statistiques Page 20
tobs 0,95
22,15 40,88 1 1
25 1314
n n
d yx
1 2 di
tobs
yi xi
SCEd SCEd
y1 x1 y1 – d1
y2 x2 x1 y2 d2 nn1nn1
: : – x2 :
yn xn : dn
yn–
xn
y x d
ˆm1 m2 d
t12
nSCE
nd1
pour
n
10,d
dl05
Arbr Arbre
es s
Di
debo abatt
ut us
20,4 21,7 -1,3
25,4 26,3 -0,9
25,6 26,8 -1,2
25,6 28,1 -2,5
H0 :m1 m2
12,92
SCEdi 28,45 14,58
12
1,08 0,05
tobs 14,58 3,25 t1 0,205 t0,975 2,201 pour
n1ddl
132
SCE SCE
0,05
- Quandn30 : Sinf2 et pour Sn1ddl
sup
2
1
2 2
2
2n 1 2 SCE
2
- Quandn30 : 2 Sinf 2n 3 1
2
etSsup 2SCE
2n3
Cours de bio statistique Page 26
1
2
si obs2 2
si obs2 12
2
Quand k30 : le test peut être réalisée d’une
manière approchée en calculant la quantité
2 SCE suivante :
2 n 3
obs 02 si obs RH0 2 02
1
2
2
SCE106,169,651 m2 ˆ 3,106 m
ˆ n1 11
2
106,164,85Sinf 4,85 2,202
Sinf
21,9
106,16
Cours de bio statistique Page 27
Ssup2 27,8Ssup 27,8 5,272
3,82
SCE37.173.400
ˆ 871 Kg
n1 49
237.173.400
Sinf 730 Kg
97 1,96 237.173.400
97 1,96
Calculons l’intervalle de confiance :
Ssup 1093 Kg
Sinf 728Kg // 730Kg
0 237.173.400
obs 97 1,227 1,96 H0
:8711000 1.000.000 1 2
Quand : n1 n2
2
0,05
Fobs ˆ max
2 si Fobs F RH 0 ˆ 12 ˆ 22 pour k n 1 ddl
1
1
ˆ min 1
k 2 n2 1ddl
2
Application:
Les données de l’application x1 25,97
: n1 13 n2 14
SCE1 22,15
x2 25,39
SCE2 40,88
22 3,145 max2 1
2
; F 3,26pour
ˆmax23,1451,703 0,05
Fobs ˆ 2 k1 13
1,846 min 1
2 k2 12
Fobs F
On constate que Fobs F donc AH0 d’égalité
des 2 variances (ˆ12 ˆ22 ).
1
2
k
SCESCEi SCE1 SCE2 ...SCEp ˆ2
SCE
n p
i1
10
n i
1log10 ˆ i
2
obs p
i 1
1 1 1
1
3p 1i 1 ni 1 n p
obs2 2,3026
340,53541120,26623130,497629
0,77510
Remarques
1
obs2 3,46 120,05 5,99 (Pour 2ddl) obs2 12AH0 ˆ12 ˆ22 ˆ32
RH
Hobs SCESCEmaxmin si Hobs H 2 2
...ˆP2 pourknp01,05ddl
1 0 ˆ1 ˆ2
H0 :m1 m2 ... mP
m1 m2 m3 mP
……………………
mˆ1 x1
n1 n2 n3 nP
xn1 x1 xn2 x2 xn3 x3 xnP xP
X nxi ik et x.
1 xik
n1i nxi
i ni
On peut alors écrire le modèle observé « la
variation totale se divise en deux composantes
additives » : l’écart par rapport à la moyenne
générale (variation totale)= l’écart des
moyennes des échantillons par rapport à la
moyenne générale (variation factorielle) + les
écarts existants à l’intérieur des échantillons
(variation résiduelle)
En élevant au carré les deux membres de cette
identité et en sommant pour toutes les valeurs
observées, on obtient l’équation de l’analyse de
la variance à un critère de classification :
La somme des carrés des écarts totale peut
elle aussi se diviser en deux composantes
additives : la SCE factorielle (entre échantillons)
et la SCE résiduelle
(dans les échantillons)
SCEt= SCEf+SCEr
Objectifs
A. Première partie
p
X. .j Xij. (pour tout j)
i1
B. Deuxième partie
p q
Xi.. X X. .j ...
i1 j1
32,00 -32,00= 0
29-29,25-32+32= -0.25
Exemple:
Etc...
H B M Xi..
(j=1) (j=2) (j=3)
Race 147 130 140 417
1( i=1)
Race 123 112 116 351
2(i=2)
270 242 256 768
Terme correctif:C
X...
2
24576
pqn
4172 3512
SCEf 24576 181,50
12
2702 2422 2562
SCEb 24576 49,00
8
SCEfb 346,00112,50181,5049,00
3,00
Conclusion