Biostat Ii

Télécharger au format docx, pdf ou txt
Télécharger au format docx, pdf ou txt
Vous êtes sur la page 1sur 57

République Démocratique Du Congo

Ministère de l’Enseignement Supérieur


et
Universitaire

Institut Supérieur des Techniques Médicales de kikwit

Cours de Biostatistiques

Destiné aux étudiants en deuxième année Santé publiques

Elaboré par : Ass.1 NGOVULA Ryaz Jeancy

NEW EDITION
Objectifs pédagogiques
L’objectif de cette brochure est d’apporter certains outils
méthodologiques classiquement utilisés pour décrire et tester
des phénomènes biologiques.
Introduction
Toute étude statistique peut être décomposée en deux
phases au moins : le rassemblement ou la collecte des
données, d'une part, et leur analyse ou leur interprétation,
d'autre part.
La collecte des données peut être décomposée en deux
étapes, l'une déductive ou descriptive et l'autre inductive.
La statistique descriptive a pour but de mesurer et de
présenter les données observées d'une manière telle qu'on
puisse en prendre connaissance aisément, par exemple sous
la forme de tableaux ou de graphiques.
L'inférence statistique permet d'étudier ou de généraliser
dans certaines conditions les conclusions ainsi obtenues à
l'aide de tests statistiques en prenant certains risques
d'erreur qui sont mesurées en utilisant la théorie des
probabilités (DAGNELIE.P., 1986).
1) La collecte des données : il existe deux façons de
collecter des données qui sont :
ère
a) Une simple observation : permet d’acquérir une 1
connaissance des phénomènes de la nature ex :
médiologie, économie……
b) Une expérimentation : l’expérience a pour but d’apporter
de nouvelles informations aux connaissances que l’on
possède déjà. Les phénomènes étudiés peuvent être
provoqués facilement en biologie, en physique et/ou en
biochimie et, pour réaliser une expérience il faut suivre
les étapes suivantes (DAGNELIE.P., 2003) :
• Planification
• Réalisation
• Collecte des données
• Analyse des données
• Interprétation des résultats
• Conclusion
Ce plan constitue la pierre angulaire de la méthode
expérimentale.
2) Analyse statistique : c’est l’application des tests
statistiques pour analyser les données collectées. Ces
tests sont expliqués dans les chapitres suivants.
Cours de bio statistiques Page 1
Chapitre I : Statistique descriptive à une dimension
ou statistique univariée

C’est une partie de la statistique qui a pour but :

- De rassembler des données numériques ;


- D’en donner des représentations graphiques ;
- D’en résumer l’information sous une forme condensée
plus accessible, plus commode.

Pour cela, on définit des valeurs caractéristiques qui sont les


paramètres de position et de dispersion (LEGRAS. B.,1998).
Généralité

La population est un ensemble de sujets (objets =


éléments) qui ont au-moins une propriété en commun.
L’échantillon de la population est un sous-ensemble de la
population. Cet échantillon doit être représentatif de la
population.
L’unité statistique est l’élément de la population sur lequel
on travaille. Par exemple, si on s’intéresse aux étudiants
d’une école, l’unité sera l’étudiant.
Variable statistique : c’est une caractéristique des individus
constituant la série étudiée.
On peut répartir les variables en deux catégories
principales.
 Variables qualitatives : ce sont des variables non
mesurables.
On distingue deux catégories secondaires :
- Les variables ordinales (ou semi-quantitatives), elles
peuvent bénéficier d’un classement ordonné.
Exemple : intensité de la douleur
(nulle, légère, forte, ...) ; - Les
variables qualitatives pures.
Exemple : couleur des yeux.
Cours de bio statistiques Page 2
 Variables quantitatives : ce sont des variables
mesurables. On distingue deux catégories secondaires
(LEGRAS. B.,1998):
- Les variables discontinues, elles ne peuvent prendre
qu’un nombre fini de valeurs. Exemple : nombre
d’enfants… ;
- Les variables continues, elles peuvent prendre un
nombre infini de valeurs.
Exemple : taille, pression artérielle, ….

1.1. Tableaux statistiques

Un tableau statistique est une représentation chiffrée d’un


fait social ou économique construit à partir d’une ou plusieurs
variables (ligne, colonne) chacune caractérisée par une ou
plusieurs modalités (âge, sexe, année,), par exemple un
tableau du poids de 5000 animaux :
I yi Classe de ni
i=1 y1 = 75,2 poids
i=2 y2 = 82,5
50 – 55 60
: :
55 – 60 2500
: :
60 – 65 470
: : Simplifier
:
: dans un cahier 96 pages : :
Tableau Tableau de: distribution des fréquences
:
n = 5000 y5000 = 65,0
1.2. : (Une seule page) :
Représentation graphiques : la
représentation graphique donne la 1ère idée de l’aspect
général des distributions étudiées. Il y a 3 types de
graphiques
a) Diagramme en bâtons : pour les variables
discontinues avec les valeurs discontinues.
Ex : nombre d’étudiants par filière :
B.V 53 Biochimie 25
B.M 30 Microbiologie 80

Nb étudiants
Cours de bio statistiques Page 3
Filière (discontinue)
b) Histogrammes : pour les variables continues avec
des valeurs continues de -∞ à +∞.

ni

(Continue) classe

c) Polygones de
fréquences : pour variables discontinues avec des
fréquences.
Ex : nombre d’accidents par mois :

Nb d’accidents

Cours de bio statistiques Page 4


Mois

1.3 Réduction des données


La réduction des données permet de condenser les données
sous forme des paramètres typiques qui sont les suivants :
 Paramètres de position
 Paramètres de dispersion
 Paramètres de dissymétrie et d’aplatissement

1.3.1 Paramètres de position

Ce sont des valeurs moyennes qui servent à caractériser


l’ordre de grandeur des observations. Ce sont
principalement :
- La moyenne arithmétique
- La moyenne géométrique
- La moyenne harmonique
- La moyenne quadratique
- La médiane
- Le mode

a) La moyenne arithmétique X:̅


Cours de bio statistiques Page 5
ni = les valeurs observées

n i1+¿ 2+… …+ n ¿
x=
n = x=∑∋ n ¿
Propriétés :
*) la somme des ni - x est nulle
*) c’est par rapport à cette moyenne que la somme
de carrés des écarts est la plus petite.
b) La moyenne géométrique : xg
La moyenne géométrique xg d’une série statistique
composée de n valeurs positives
n1+n2+…nn est par définition, la racine n ième du
produit de ces n valeurs :

xg= x1+x2………xn(xi ≥ 0)
c) La moyenne harmonique : Xh
La moyenne harmonique d’une série de n valeurs
positives est égale à l’inverse de la moyenne
arithmétique des inverses n
yh  1 1 1 (xi
 0)   x1
x2 xn
d) La moyenne quadratique : la moyenne quadratique
d’une série des n valeurs positives, nulles ou
négative, est la racine carrée de la moyenne
arithmétique des carrés
yq  x12 x22
xn
2n
e) La médiane :
La médiane est la valeur qui laisse 50% des
observations en-dessous et 50% des observations
au-dessus. On l’appelle également parfois
“percentile 50” : c’est la valeur centrale par
excellence.
Cours de bio statistiques Page 6
Pour la calculer, il faut d’abord trier l’échantillon.
Ensuite,

– si l’effectif n de l’échantillon est impair,

– si l’effectif n de l’échantillon est pair,

La médiane a, comme propriété, d’être peu


sensible aux valeurs extrêmes.
f) Le mode est la valeur la plus fréquente dans
l’échantillon. C’est la valeur dominante = la valeur
observée qui a la fréquence maximum. On peut
avoir des séries unimodales, bimodales et
plurimodales

Remarque : la moyenne arithmétique est la plus couramment


utilisée.

1.3.2 Paramètre de dispersion

Ce sont des paramètres qui permettent de chiffrer la


variabilité des valeurs observées, autour d’un paramètre de
position, ce sont principalement :
La variance
L’écart-type
Le coefficient de variation
L’écart-moyen absolu
L’amplitude
a) La variance : c’est la moyenne arithmétique des carrés
des écarts par rapport à la moyenne
n

2 i1 yi y2  SCE


S
Cours de bio statistiques Page 7
n n
Et la formule pratique de calcul est :

S 2  1n yi2
1nin1 yi
2  n i
1

SCE

b) L’écart-type : ou l’écart quadratique moyen c’est la


racine carrée de la variance :
SCE
S2 
S n

c) Le coefficient de variation : il est utilisé pour comparer la


variabilité relative de plusieurs séries statistiques

S S
CV  ou
100  %
x x

Remarques
2
 s ,s et CV sont nuls si et seulement si tous les
écarts yi y sont nuls, c’est-à-dire si toutes les
valeurs observées sont égales entre elles, et à
leur moyenne ou plus simplement, s’il n’y a pas
de variabilité dans les observations
2
 l’unité suit l’unité des donnée observée s (unité
au carré), s (unité), CV est sans unité ou en
pourcentage.

| |
d) L’écart-moyen absolu : em

Cours de bio statistiques Page 8


e) L’amplitude : w
C’est l’écart entre les valeurs extrêmes d’une série
d’observation classées par ordre croissants.

1.3.3 Paramètre de forme ou de dissymétrie et


d’aplatissement : coefficient de PEARSON et
FISHER
a) Moments centrés d'ordre k

– moyenne arithmétique des écarts à la moyenne


élevée à la puissance k.
– si k pair => paramètre de dispersion.
– si k impair => paramètre de symétrie.
b) Coefficient de Pearson et de Fisher
– b1 pour caractériser la symétrie de la courbe; b2
pour caractériser l'aplatissement.
– b1 = M32 / M23 : est voisin de 0 si la distribution est
symétrique.
– b2 = M4 / M22 : est voisin de 3 si la distribution suit
une loi normale (plus aplatie qu'elle si b2 < 3).

Chapitre 2 : La régression : statistique descriptive à


deux dimensions ou à deux variables ou bi variées

Cours de bio statistiques Page 9


Ce chapitre a pour but de mettre en évidence les
relations qui existent entre deux séries d’observations
considérées simultanément. Ici aussi on distingue 3 méthodes
(DAGNELIE. P., 2006) :
2.1. L’élaboration de tableaux statistiques :
permettant de condenser les données sous formes de
distribution de fréquences
2.2. La représentation graphique :
a) Diagrammes de dispersion ou nuage de points qui
sont obtenus en représentant chaque
couple d’observation (xi,yi) par un points dans un plan
(x,y).

b)Diagrammes en bâtons Pour distribution


de fréquences à deux dimensions c) Les
stéréogrammes
2.3-Réduction des données: il existe deux types de
paramètres:

 les paramètres relatifs à une seule variable: sont


des paramètres qui ne concernent qu’une
variable à la fois: la moyenne, la variance, et
l’écart-type.
 les paramètres relatifs aux deux variables: qui
servent à décrire les relations entre les deux
variables prises simultanément sont:
- La covariance

- Le coefficient de corrélation

- Le coefficient de détermination

- Les variances résiduelles

- Les droites de régression des moindres carrés

Cours de bio statistiques Page 10


2.3.1 La covariance: caractérise simultanément les deux
séries d’observation. Elle est positive ou négative selon que la
relation entre les deux séries de données est croissante ou
décroissante, c’est-à-dire selon que les valeurs élevées d’une
série correspondant, dans l’ensemble, aux valeurs élevées ou
aux valeurs peu élevées de l’autre.
Ex : Le tableau suivant montre les données observées de
poids et de taille de 5000 étudiants :

Poid Taill
s yi e xi
i y1 = x1 =
= 75,2 1,55
1 y2 = x2 =
i 82,5 1,82
= : :
2 : :
: y5000 = x5000 =
: 65,0 1,92
n=
500
0
n
xi xyi y
Covx.y i1
n
SPE
Covx.y
n

1n 1  n   n 
Covx.y n xi yi  ni1 xi i1 yi 
i 1

1
SPE xi yi  n
xi yi

Cours de bio statistiques Page 11


Poid Taill
yi2 xi2 xiyi
s yi e xi
i y1 = x1 = (75,2)2 (1,55)2 75,21,55
= 75,2 y2 1,55 x2 (82,5)2 (1,82)2 82,51,82
1 = 82,5 = 1,82 : : :
i : : : : :
= : : : : :
2 : : (65,0)2 (1,92)2 65,01,92
: y5000 = x5000 =
: 65,0 1,92
:
n=
5000
Σ yi Σ xi Σ yi2 Σ xi2 Σ xiyi

2.3.2 Le coefficient de corrélation r : sert à mesurer


l’intensité de la relation qui existe entre les deux séries
de données pour autant que cette relation soit linéaire ou

approximativement linéaire.

r  +1 r  -1 r
0
Forte corrélation positive Forte corrélation négative
Pas de corrélation

1r1

-1 0 +1

Cov
x.y r 

Cours de bio statistiques Page 12


Sx Sy

Cours de bio statistiques Page 13


Test de signification de la corrélation
Le premier test qui vient à l’esprit est la significativité de la
corrélation c’est-à-dire le coefficient de corrélation est-il
significativement différent de 0 ?
Le test s’écrit :

H : r=0
H : r ≠0
Remarque : (autres hypothèses alternatives). On peut vouloir
définir une hypothèse alternative différente (H : r<0 ou H : r
> 0). Les caractéristiques des distributions restent les
mêmes.Pourun risque α donné, seul est modifié le seuil de
rejet de H puisque le test est unilatéral dans ce cas.
Le test étudié est paramétrique. On suppose a priori que
le couple (X.Y) suit une loi normale bivariée. Dans ce cas : la
distribution sous H de la statistique du test que nous
présenterons plus bas est exact : le test de significativité
équivaut à un test d’indépendance.
Cette restriction est moins contraignante lorsque n est
suffisamment grand (RAKOTOMALALA R., 2015). A partir de 25
observations, l’approximation est bonne, même si nous
écartons (un peu) de la distribution normale conjointe. La
distribution est valable sous l’hypothèse r=0. Mais le test de
significativité revient simplement à tester l’absence ou la
présence de corrélation.
Statistique du test : Sous H , la statistique :

Suit une loi de Student à (n-2) degrés de liberté. L’hypothèse


nulle est rejetée si :

Cours de bio statistiques Page 14


t t1

2.3.3 Le coefficient de détermination r2: est égale à la


part de la variation de y qui est expliquée par la
régression de y en x.

r 2  r 2  Coefficient de détermination (%)

0 r 2 1
2.3.4 Les droites de régression au sens des moindres
carrés et les variances résiduelles
La droite de régression de y en x a pour but de résumer
le nuage de points c’est-à-dire de représenter sur le plan
l’allure de la distribution à deux caractères. Cette droite
donne une idée de la façon dont varie en moyenne la variable
y dite dépendante ou variable à expliquer, en fonction de la
variable x, dite indépendante ou explicative. La droite est
appelée également diagramme de régression.
Lorsque le diagramme de régression est linéaire ou
approximativement linéaire, on peut s’efforcer de rechercher
l’équation de la droite qui s’y ajuste le mieux (DAGNELIE. P.,
2006).
2.3.5 La variance résiduelle de y apparait ainsi comme un
indice de dispersion des points observés autour de la
droite de régression de y en x
La quantité cov2(x,y)/s2x est considéré comme la part de la
variance de y qui est expliquée ou justifiée par régression de
y en x, tandis que la variance résiduelle est la part de cette
variance qui ne peut être expliquée de la sorte S 2y.x
yiobs  yˆiest 2
n

L’écart-type résiduel: c’est la racine carrée de la variance


résiduelle, ce paramètre mesure la dispersion des points
Cours de bio statistiques Page 15
observés autour de la droite de régression. C’est l’erreur que
l’on connaitrait si l’on estime à l’aide del’équation

yabx Equation de régression

Sy.x  S 2y.x

Remarque: L’équation de la régression est utilisée le plus


souvent dans un but de prévision ou d’estimation.
℮i: l’erreur d’ajustement

L’équation de la droite est alors de la forme y=a+bx cette


droite passe par le point moyen(x , ȳ).

covx y, 
y     a bx a y bx et b x2
s

On appelle résidus de y par rapport à x les écarts: y i-ŷ(xi)


entre les points correspondants de la droite de régression de
y en x. Ces écarts sont de somme et de moyenne nulle ce
sont ces valeurs qu’on ne peut pas expliquer.
La variance résiduelle de y est la variance de ces résidus.
Chapitre 3 : les méthodes statistiques relatives aux
moyennes

Ces méthodes sont subordonnées à deux conditions :

- la normalité des populations


- le caractère aléatoire et simple des échantillons

Dans le cas de certains tests relatifs aux moyennes ces


méthodes nécessitent une troisième condition :

- l’égalité des variances des populations.

Cours de bio statistiques Page 16


3.1 Intervalle de confiance et le test de conformité
d’une moyenne
3.1.1 Intervalle de confiance

Estimation de la moyenne : il est dit que la meilleure


estimation de la moyenne mˆ de la population est donnée par
la moyenne x de l'échantillon mˆ x

Intervalle de confiance de la moyenne estimée


- Dansle cas où la variance de la population parent est
connue les limites de l'intervalle de confiance sont alors :

xinf  x   xsup x  


1 n 1 2 n 2
- Dansle cas où la variance de la population parent n'est pas
connue alors il faut l'estimer à partir de la
2 SCE nS 2 nS 2
variance de l'échantillon ˆ   ˆ 
n1 n1 n1

SCE SCE
donc : xinf  x  xsup  x  
1 nn1 1 2nn1
2

Dans la pratique quand n est supérieur à 30 (n30 ) on


remplace   par la valeur 2   2 .
1 1 2
2

Cependant pour des effectifs inférieurs à 30 (n30) on utilise


la loi t de STUDENT et on remplace

 12 par t12 12  t12 pour n 10,


ddl05

Cours de bio statistiques Page 17


Application : dans une forêtdistincte on a pris au hasard 12
arbres et on a mesuré leurs hauteurs :
20,4 ; 25,4 ; 25,6 ; 25,6 ; 26,6 ; 28,6 ; 28,7 ; 29,0 ; 29,8 ;
30,5 ; 30,9 ; 31,1.

Estimer la moyenne et calculer l'intervalle de confiance ?

x  xi  27,68m mˆ x 27,68 m


3,107
SCE 106,16 xinf  27,682,201 12  25,70
ˆ    9,63  3,107 m n1 11 3,107
xsup  27,68 2,201
29,65
12

3.1.2 Test de conformité d’une moyenne

Test de conformité d'une moyenne: le test de conformité


d'une moyenne à pour but de vérifier si la moyenne m d'une
population est ou n'est pas égale à une valeur donnée m0. H0
:mm0 et on rejette cette hypothèse lorsque la moyenne
observé x est trop différente de la moyenne théorique m0 Le
test se réalise en calculant les quantités suivantes :
 0,05
sitobs  t12  RH0  m  m0 n 1 ddl

x m0 x
m0 tobs  ˆ 
SCE n nn1

Application : supposant que l'on souhaite vérifier si la


forêt dans laquelle les 12 mesures ont été réalisées

Cours de bio statistiques Page 18


appartient, quand à la hauteur, à un type de forêt donné,
dont la moyenne est parfaitement connue et égale à 29 m.
27,6829
H0 :27,68 29 tobs  3,107 1,47 ett12  2,201 donc tobs  t12 
AH0  m  m0

12

3.2 Le test de signification et l’intervalle de


confiance d’une différence de deux moyennes
: échantillons indépendants

Le cas de populations de même variance : On supposant


satisfaite les conditions précédentes et en admettant que les
échantillons sont indépendants et que les populations sont de
même variance on peut donc tester l'hypothèse d'égalité
suivante : H0 :m1  m2

x x
Sin1 n2 tobs  1  x2 tobs  1  x2

n11S12 SCE1 1
 0,05 n2n2S222 2SCE 2
Sitobs n11   n11  t12 
RH0  n12  n n12  n m1  m2
pour n2 n1 n2 
2 ddl

Ce test est appelé test t de STUDENT ou test de STUDENT -


FISHER.

Cours de bio statistiques Page 19


Sin1 n2 n la formule se simplifie considérablement et elle
sera comme suit :

tobs x1  x2
SCE1  SCE2
nn1

 0,05
Sitobs  t1 RH0  m1  m2 pour 2n 1 ddl
2 
Application : Dans 2 types de forêt distincte on a
mesuré les hauteurs respectivement de 13 et 14 arbres
choisis au hasard et indépendamment, dans le but de vérifier
si les hauteurs moyennes des 2 types de forêt sont ou ne sont
pas égale, les valeurs observées sont les suivantes :
Type Type 27,0 26,7
1 2 27,6 26,9
23,4 22,5 27,7 27,4
24,4 22,9 28,5
24,6 23,7
24,9 24,0
25,0 24,4
26,2 24,5
26,3 25,3
26,8 26,0
26,8 26,2
26,9 26,4

x1  25,97 x2  25,39

SCE1  22,15 SCE2  40,88

25,9725,39
Cours de bio statistiques Page 20
tobs  0,95
22,15 40,88 1 1 
  
25 1314

t t 0,05 t0,975 


2,060
1 1
2 2
n1 n2  2  25 ddl

Cours de bio statistiques Page 21


On constate que tobs  0,95est inférieure à t12  2,060 par
conséquent on accepte l’hypothèse d’égalité de la moyenne
des 2 types de forêt ; c’est-à-dire qu’il n’existe pas de
différences significatives entre m1 et m2
Remarque : quand n1 n2 avant d’appliquer le test t de
STUDENT d’égalité de 2 moyennes, il faut toujours vérifier
l’hypothèse d’égalité des 2 variances.
Chaque fois qu’on rejette l’hypothèse d’égalité de 2
moyennes il faut alors estimer la différence des 2 moyennes
et calculer sont intervalle de confiance.

Quandn1 n2 : x1  x2t12 SCE1 SCE2


n11  n12 
n1 n20,052ddl n1
n2 2 

Quandn1 n2 n : x1  x2 t  SCE1 SCE2   0,05


1 nn1 2n 1ddl
2

Le cas de populations de variance inégale :


Plusieurs auteurs ont montré que l’hypothèse de normalité est
secondaire dans le test d’égalité de 2 moyennes. De même
l’hypothèse d’égalité des variances n’est pas fondamentale
lorsque les effectifs des échantillons sont égauxn1 n2.
Quand le test est non sensible à la non normalité et à
l’inégalité de variance, le test est alors robuste, par contre,
lorsque n1 n2il est absolument indispensable de s’assurer de
l’égalité de variance. Si cette hypothèse n’est pas vérifiée, il
est indispensable d’utiliser une méthode adaptée à ces
circonstances, on peut procéder à une transformation de
variable destinée à stabiliser la variance et utiliser ensuite le
test t de STUDENT (DAGNELIE.P .,1999).
.

Cours de bio statistique Page 22


3.3 Le test de signification et l’intervalle de confiance
d’une différence de deux moyennes : échantillons
associés par paires.
3.3.1 Introduction

Un autre cas important de comparaison de moyenne est


relatif aux échantillons dont les individus sont associés par
paires ou par couple ex : les mêmes individus soumis à 2
méthodes différentes
(comparaison de 2 méthodes). Pour tester l’égalité des
moyennes, on doit alors considérer la population de
différence et vérifier la nullité de la moyenne de ces
différences, les conditions d’application du test sont alors :
- le caractère aléatoire simple des échantillons.
- La normalité de la population de différence.
Le test d’égalité de moyennes s’écrit alors : H0 :m1  m2 ou
0

L’hypothèse se réalise en calculant les différences suivantes :

n n
d yx
1 2 di
tobs  
yi xi
SCEd SCEd
y1 x1 y1 – d1
y2 x2 x1 y2 d2 nn1nn1
: : – x2 :
yn xn : dn
yn–
xn
y x d

Cours de bio statistique Page 23


2
1 di2
SCEd di  n

Si tobs  t  RH0  m1  m2 pour n10,05ddl


1 2

Ce test est appelé test t de STUDENT pour échantillons


associés par paires ou par couple.

* Dans le cas du rejet de l’hypothèse d’égalité des 2


moyennes il faut alors estimer la différence des 2 moyennes
est calculer l’intervalle de confiance de cette différence.

ˆm1 m2 d
t12

nSCE
nd1

pour
n
10,d
dl05


Application : On a mesuré les hauteurs de 12 arbres avec 2


méthodes différentes :

Arbr Arbre
es s
Di
debo abatt
ut us
20,4 21,7 -1,3
25,4 26,3 -0,9
25,6 26,8 -1,2
25,6 28,1 -2,5

Cours de bio statistique Page 24


26,6 26,2 +0,4
28,6 27,3 +1,3
28,7 29,5 -0,8
29,0 32,0 -3,0
29,8 30,9 -1,1
30,5 32,3 -1,8
30,9 32,3 -1,4
31,1 31,7 -0,6
x1  x2  d
27,68 28,76 1,0
8

H0 :m1  m2
12,92
SCEdi  28,45 14,58
12

1,08 0,05
tobs  14,58  3,25 t1 0,205  t0,975  2,201 pour
n1ddl

132

tobs 3,25t  2,201 RH0 :m1  m2


1
2

donc : dinf = 1,81 m et dsup = 0,35 m

Cours de bio statistique Page 25


Chapitre 4 : Les méthodes statistiques
relatives aux variances

4.1. Introduction : toutes les méthodes


proposées sont applicables dans le cas des
conditions suivantes :
- les échantillons sont aléatoires, simples et
indépendants.
- la normalité des populations parents.
4.2 Estimation de la variance de la
population et intervalle de confiance
SCE SCE n
S2  ˆ   S 2
n n1 n1
En pratique, et dans les conditions définies
précédemment, les limites de confiance (Sinf – Ssup)
sont donc pour un niveau de signification  donné :

SCE SCE
0,05
- Quandn30 : Sinf2  et pour Sn1ddl
sup 

2
1
2 2

 
2
  2n 1 2 SCE
2
- Quandn30 :   2 Sinf  2n  3  1 

2

etSsup 2SCE
2n3 
Cours de bio statistique Page 26
1
2

4.3 Test de conformité d’une variance


H0 :2 02 Valeur théorique sik30
2
SCE
En pratique on calcule le rapport
suivant : obs  2 0

si obs2 2 

ou2 RH0 2 02

si obs2 12
2
Quand k30 : le test peut être réalisée d’une
manière approchée en calculant la quantité
2 SCE suivante :
2 n 3
obs   02   si obs  RH0 2 02
1
2

Application 1: reprenant une fois encore les 12


mesures de hauteur des arbres considérés
précédemment et estimons la variance des
hauteurs de toute la forêt et calculons ses limites
de confiance.

2
SCE106,169,651 m2 ˆ  3,106 m
ˆ    n1 11
2
106,164,85Sinf  4,85  2,202
Sinf  
21,9
106,16
Cours de bio statistique Page 27
Ssup2   27,8Ssup  27,8  5,272
3,82

Application 2: supposer que pour une race


bovine donnée dans une région donnée on ait
mesuré la production laitière de 50 bêtes choisis
au hasard et indépendamment et que l’on ait
obtenu comme SCE par rapport à la masse : SCE =
37.173.400 Kg2

SCE37.173.400
ˆ   871 Kg
n1 49

237.173.400
Sinf  730 Kg
97 1,96 237.173.400
97 1,96
Calculons l’intervalle de confiance :
Ssup 1093 Kg
Sinf  728Kg // 730Kg

Ssup 1085Kg //1093Kg

Supposons maintenant que l’écart type estimé


appartient à une production laitière ayant un écart
type égal à 1000 Kg.


0 237.173.400
obs   97 1,227 1,96 H0
:8711000 1.000.000 1 2

obs  AH0 0 8711000


1
2

Cours de bio statistique Page 28


4.4 Les tests de comparaisons et l’intervalle
de confiance de rapport de 2 variances

4.4.1 Le test d’égalité de 2 variances H0 :11


22

Dans la pratique, on calcule le rapport des 2


variances en mettant la variance maximale en
numérateur et la variance minimale en
dénominateur et on calcule le rapport suivant :

Quand : n1 n2 
2
   0,05
Fobs  ˆ max
2 si Fobs  F   RH 0  ˆ 12  ˆ 22 pour  k n  1 ddl
 1 
1
ˆ min 1
k 2 n2  1ddl

2

1 SCE 22,151,846 ; 22 


SCE  40,88  3,145 ˆ12 1,846 ˆmin2 ;
ˆ1   
n1 12 n1 13
Cours de bio statistique Page 29
Quand : n1 n2  Fobs  ˆmax22  Fobs 
SCESCEmax si Fobs F RH0 ˆ12 ˆ22
ˆmin min 1 2
pour k1n01,05ddl

k2n 1ddl
Ce test est appelé test F de
FISHER

Application:
Les données de l’application x1  25,97
: n1 13 n2 14
SCE1  22,15

x2  25,39
SCE2  40,88
22 3,145 max2 1
2
; F  3,26pour
ˆmax23,1451,703 0,05
Fobs  ˆ 2    k1 13
1,846  min 1
2 k2 12
Fobs  F 
On constate que Fobs  F  donc AH0 d’égalité
des 2 variances (ˆ12 ˆ22 ).
1
2

4.4.2 Deux tests d’égalité de plusieurs


variances : deux méthodes sont utilisées pour
tester l’égalité de variance de plusieurs
populations :
- letest de BARTLETT : pour les échantillons
d’effectifs différents et aussi pour des effectifs
constants. Ce test est long à réaliser.
- letest de HARTLEY : il est d’un usage
beaucoup plus rapide mais il ne s’applique qu’à
des échantillons de même effectifs. Dans les

Cours de bio statistique Page 30


deux cas les conditions d’application doivent
être très strictes.
a) Le test de BARTLETT : considérant p
échantillons aléatoires, simples des
effectifs n1,n2,...,nP

H0 :ˆ12 ˆ22 ...ˆp2 Calculons pour chaque


échantillon la SCE et laˆ2 , calculons aussi la
SCE de la variance estimée relative à
l’ensemble des observations
p
nn1 n2 ...nP nni
i1

k
SCESCEi SCE1 SCE2 ...SCEp ˆ2 
SCE
n p
i1

En pratique le test se réalise en calculant la


quantité suivante :

Quand :n1 n2 ...nPp 


2,3026 n  p log ˆ   
2 2

10
n i
1log10 ˆ i

 
2
 obs  p

i 1

1  1 1 
1
 
3p 1i 1 ni 1 n  p 

Quand : n1 n2 ... nP n H0 :ˆ12 ˆ22 ...ˆp2


p
p log SCE 
2,3026n 1
 10   log10 SCE
p i
2
 obs   i 1 

p 1
1
3 pn 1
22
RH0 ˆ12 ˆ22 ...ˆp2 pour p

10,ddl05

Cours de bio statistique Page 31


si obs 1 

Application : considérons 3 types de forêts
dans lesquelles nous avons prélevé des
échantillons d’effectifs inégaux et pour lesquels
nous avons mesuré les hauteurs.
n= n= n=
13 14 10
Typ Type Type
e1 2 3
23,4 22,5 18,9
24,4 22,9 21,1
24,6 23,7 21,2
24,9 24,0 22,1
25,0 24,4 22,5
26,2 24,5 23,6
26,3 25,3 24,5
26,8 26,0 24,6
26,8 26,2 26,2
26,9 26,4 26,7
27,0 26,7
27,6 26,9
27,7 27,4
28,5

Paramè Type Type Type Tota


tres 1 2 3 ux
ni 13 14 10 n =
37
SCEi 22,1 40,8 53,6 SCE
5 8 2 =
116,
65
ˆi2 1,84 3,14 5,95 _

Cours de bio statistique Page 32


6 5 8
log10ˆ 0,266 0,497 0,775 _
i2 23 62 10
1
0,08 0,07 0,11 0,27
33 69 11 13
ni 1

- Testez l’égalité des variances des hauteurs


des 3 types de forêts

H0 :ˆ12 ˆ22 ˆ32

ˆ2 = 3,4309 log10ˆ2 = 0,53541

obs2  2,3026 
340,53541120,26623130,497629
0,77510  
Remarques

- le test de BARTLETT est très sensible à la


non normalité des populations parents
quels que soient les effectifs des
échantillons, de plus, il s’agit d’une
méthode approximative, qui n’est
satisfaisante que si les effectifs ni  4 et si
le nombre d’échantillons p n’est pas trop
élevé par rapport aux effectifs ni ce test ne
permet donc pas de comparer les
variances d’un grand nombre de petits
échantillons

1

obs2 3,46 120,05  5,99 (Pour 2ddl) obs2 12AH0 ˆ12 ˆ22 ˆ32

La variance des hauteurs est égale pour les 3 types de forêts.

Cours de bio statistique Page 33


- enfin, signalons que pour 2 populations, le
test de BARTLETT n’est strictement
équivalent au test F que si les 2
échantillons sont de même effectifs.
b) Le test de HARTLEY : lorsque les
effectifs des échantillons sont constants et
égaux à n le test de HARTLEY permet de
vérifier plus rapidement l’hypothèse
d’égalité des variances H0 :ˆ12 ˆ22
...ˆp2 quand n1 n2 ... nP n en effet, ce
test nécessite seulement le calcul des
différentes SCEi et le calcul des cautions ou
du rapport des valeurs extrêmes.

RH
Hobs SCESCEmaxmin si Hobs H  2 2
...ˆP2 pourknp01,05ddl
1 0 ˆ1 ˆ2 

Chapitre 5 : L’analyse de la variance à un


et à deux critères de classification

5.1 Analyse de la variance à un critère de


classification
Le test d'analyse de la variance à un
critère ou à un facteur de classification consiste
à comparer plus de deux moyennes de
plusieurs populations à partir des données

Cours de bio statistique Page 34


d'échantillons aléatoires simples et
indépendants (DAGNELIE.P., 1999).
La réalisation du test se fait soit en
comparant la valeur de Fobs avec une valeur
théorique F1-α extraite à partir de la table F de
FISHER pour un niveau de signification α=0,05,
0,01 ou 0,001 et pour K1 et K2 degrés de liberté,
soit en comparant la valeur de la probabilité P
avec toujours les différentes valeurs de α=5%,
0,1 % ou 1‰. Selon que cette hypothèse
d'égalité des moyennes est rejetée au niveau
α=0,05; 0,01 ou 0,001, on dit
conventionnellement que l'écart observé est
significatif, hautement significatif ou très
hautement significatif (DAGNELIE.P.,1999).
H0 :m1  m2  test de STUDENT-FISHER

H0 :m1  m2 ... mP

L’analyse de la variance à un critère de


classification, ou à un facteur, a pour but de
comparer les moyennes de plusieurs
populations supposées normales et de même
variance, à partir d’échantillons aléatoires
simples et indépendants les uns des autres.
C’est une généralisation du test t de STUDENT
pour deux échantillons indépendants.

5.1.1 Principe de l’analyse de la variance

Pour tester l’hypothèse d’égalité des


moyennes de p populations H0 :m1  m2 ... mP

Cours de bio statistique Page 35


x

m1 m2 m3 mP
……………………

mˆ1  x1

n1 n2 n3 nP
xn1 x1 xn2 x2 xn3 x3 xnP xP

On prélève un échantillon aléatoire et simple


dans chaque population, les moyennes de ces
p échantillons et la moyenne générale de
l’ensemble des observations x permettent de
définir deux types de variations : les écarts
existants entre les différents échantillons
(variation entre échantillon ou variation
factorielle) et les écarts existants à l’intérieur
des échantillons (variation dans les échantillons
ou variation résiduelle).
L’importance de ces deux sources de variations
est mesurée par deux quantités : carré moyen
ou variance :
o le carré moyen factoriel est défini à partir des
écarts entre les moyennes des différents
échantillons et la moyenne générale (CM f ).
o le carré moyen résiduel (CMr ) est défini à
partir des écarts existants chaque fois entre
les valeurs observées et la moyenne de
l’échantillon correspondant. Lorsqu’il existe
des différences importantes entre les
Cours de bio statistique Page 36
moyennes des populations, on doit s’attendre
à ce qu’il en soit de même pour les
échantillons, on doit donc s’attendre aussi à
observer un carré moyen factoriel élevé, par
comparaison avec le carré moyen résiduel :
le rapport du carré moyen factoriel au carré
moyen résiduel est une mesure observée du
degré de fausseté de l’hypothèse nulle.
Dans le cas où le test d’égalité de plusieurs
moyennes concerne un nombre infini de
population alors on fait un échantillonnage à
deux degrés. Au 1er degré on choisit P
populations d’individus ou de mesures (unité
de 1er de degré). Au 2èmedegré on choisit un
échantillon de plusieurs individus ou de
plusieurs observations (unité de 2ème degré)
dans chacune de ces P populations.
L’H0 concerne alors l’égalité des moyennes de
l’infinité de populations.
H° : m1=m2=…=mp
- Quand le nombre de populations est fini
le modèle est fixe
- Quand le nombre de populations est infini
le modèle est aléatoire

5.1.2 Le modèle fixe

Considérons P échantillons d’effectifs n1, n2,


…,nP : n.=∑ni

Désignons par xik les valeurs observées, le


symbole xik représentant d’une manière
générale la kème observation (k= 1,2,..,ni) de
l’échantillon extrait de la ième population

Cours de bio statistique Page 37


(i=1,2,…,p) désignons en autre par x i les
moyennes des différents échantillons et X la
moyenne générale :

X  nxi ik et x.  
1 xik 
 n1i nxi
i ni  
On peut alors écrire le modèle observé « la
variation totale se divise en deux composantes
additives » : l’écart par rapport à la moyenne
générale (variation totale)= l’écart des
moyennes des échantillons par rapport à la
moyenne générale (variation factorielle) + les
écarts existants à l’intérieur des échantillons
(variation résiduelle)
En élevant au carré les deux membres de cette
identité et en sommant pour toutes les valeurs
observées, on obtient l’équation de l’analyse de
la variance à un critère de classification :
La somme des carrés des écarts totale peut
elle aussi se diviser en deux composantes
additives : la SCE factorielle (entre échantillons)
et la SCE résiduelle
(dans les échantillons)
SCEt= SCEf+SCEr

Pour utiliser cette formule dans le test de


l’analyse de la variance, nous supposerons que
:
- Les P populations sont normales et de
même écart-type

Cours de bio statistique Page 38


- Les échantillons sont aléatoires, simples et
indépendants les uns des autres

Les carrés moyens sont : CMt= SCEt/n.-1


CMf= SCEf/P-1
CMr= SCEr/n.-P
Lorsque l’hypothèse nulle est vraie, le quotient
(résultat de division)
Fobs=CMf/CMr est donc une valeur observée
d’une variable F de SNEDECOR à k1=P-1 et k2=
n.-Pddl
La moyenne de cette variable F est voisine de
l’unité, les valeurs attendues du numérateur et
du dénominateur étant égales. Par contre
lorsque l’H° est fausse, la valeur attendue du
numérateur est supérieure à celle du
dénominateur et d’autant plus grande que l’H°
est plus fausse : la moyenne de la variable F
est donc supérieure à l’unité et, elle aussi,
d’autant plus grande que cette H° est plus
fausse.
On rejette donc l’H° lorsque au niveau α :
Fobs ≥ F1- α avec k1= P-1ddl
k2= n.-Pddl

5.1.3 Le modèle aléatoire

Dans le cas du modèle aléatoire tout ce qui


concerne les observations se présente sous la
même forme que pour le modèle fixe :
- Le modèle observé.
- L’équation de l’AVI.
- Les Sommes des Carrés des Ecarts.

Cours de bio statistique Page 39


- Les nombres de ddl.
- Les Carrés Moyens.

5.1.4 Réalisation de l’Analyse de la


variance

 Quand les échantillons sont d’effectifs


inégaux
Les calculs peuvent être réalisés
conformément au tableau en utilisant les
notations et les formules suivantes :
 Pour l’effectif total : n.= ∑ni

 Pour les totaux par échantillon : Xi. xik


(pour tout i)
 Pour le total général : X.. Xi.
 Pour la somme des carrés général :T
xik2

 Pour la somme des carrés des écarts


par échantillon :SCEi xik2  Xnii2.

 Pour la somme des carrés des écarts


résiduelle : SCEr= ∑SCEi
X.. Xi.
 X et xi 
n. ni

Pour pouvoir dresser le tableau d’AVI, il reste à


calculer :

 Le terme correctif : C= X2../n.


 SCEt= T-C
 SCEf= SCEt-SCEr

Cours de bio statistique Page 40


 Les carrés moyens : CMf=SCEf/P-1
CMr=SCEr/n.-P
 Ainsi que le rapport Fobs= CMf/CMr

On peut alors réaliser le test de l’H° nulle, par


comparaison de Fobs avec la valeur F1-α dont les
nombres de degrés de liberté sont : k 1= P-1 et
k2= n.-P
 Quand les échantillons sont d’effectifs
égaux

Les calculs peuvent être simplifiés comme le


montre le tableau de l’analyse de la variance.
Les notions et les formules principales sont
alors les suivantes :
 Pour l’effectif total : n.= Pn
 Pour les totaux par échantillon : ik

 Pour le total général : X..= ∑Xi.


 Pour la somme des carrés général :
2
ik

 Pour la somme des carrés des écarts par


échantillon :SCEi= ∑xik2-Xi.2/n
 Pour la somme des carrés des écarts
résiduelle : SCEr= ∑SCEi

Le tableau d’AVI est dressé comme dans le cas


général grâce aux relations suivantes :

 Pour le terme correctif : C= X..2/Pn


 Pour la somme des carrés des écarts totale
: SCEt= T-C
 Pour la somme des carrés des écarts
factorielle : SCEf= SCEt-SCEr  Pour les
Cours de bio statistique Page 41
carrés moyens : CMf= SCEf/P-1 CM r=
SCEr/P(n-1)
 Et le rapport final : Fobs= CMf/CMr

5.2 Analyse de variance à deux critères


de classification : Modèle croisés et
Echantillons de mêmes effectifs

Objectifs

1. De réaliser une analyse de variance à deux


critères de classification
2. De définir concrètement une interaction
entre deux facteurs
3. D’interpréter les résultats d’une analyse de
variance à deux critères de classification
Position du problème

Dans l’analyse de variance à un critère de


classification, le principe consistait à diviser la
variation totale en deux composantes :

Factor
ielle

Résid
uelle
Cette façon de procéder être étendue à deux
critère de classification, la variation totale étant
alors divisée en plus de deux composantes :
l’une résiduelle et les autres liées aux deux
critères de classification.

Cours de bio statistique Page 42


Les deux facteurs considérés peuvent être
placé sur le même pied (modèles croisés) ou
subordonnés l’un à l’autre (modèles
hiérarchisés).
Dans chaque cas, on doit distinguer un
modèle fixe, un modèle aléatoire et un modèle
mixte selon que les deux critères de
classification sont fixes. Aléatoire, ou l’un fixe ;
l’autre aléatoire.
Dans ce qui suivra, nous ne considérons que
la réalisation et l’interprétation de l’analyse de
variance à deux critères de classification pour
des modèles croisés et des échantillons de
mêmes effectifs.

5.2.1 Réalisation et interprétation de


l’analyse de variance à deux critères de
classification échantillons de plusieurs
observations
Présentation des données et des calculs

La présentation des tableaux des données et


des calculs se fera en deux parties.

A. Première partie

Tableau d’analyse de la variance à deux


critères de classification.
I 1 ....... p Tota
... ux
J 1 ..... ....... .......
Q 1 q
K ... ... ...

Cours de bio statistique Page 43


1 x1 …… x1q1 ……. xp11 …… xp
2 11 . x1 .. xp … q1
. x11 …… q2 . 12 …… xp
. 2 . . . ……. . … q2
. . . . . .
N . . . . .
x1 …… x1qn . xp1 …… .
1n . n … xpqn
…….
X X11. …… X1 ……. ……
i n . .q X p1. … X pq.
j  n ……. n n
. k1 ……  ……  X...

n . k1
x k1 … k1
x2ij T
k211x12q
k ……. x2p k1 …… x2pqk
k
k1 …
X …….
…… Xp21 Xpq2
211./ X1 .2 ……
. ./ n ./n
n q / n …
X2ij. SCEr
/n …… SCEp SCEp
SCE1 . SCE1
SCEi 1 1 q
q
j

Réalisation des calculs avec les principales


notions et formules suivantes:
n
• Pour les totaux par échantillon : Xij. xijk
pour tout i et tout j
k1
pq
• Pour les totaux généraux: X...  Xij.
i 1 j 1
pqn

Cours de bio statistique Page 44


• Pour la somme des carrés générale :T
xijk2
i  1 j 1 k 1
X...2
• Pour le terme correctif :C  pqn
• Pour la somme des carrés des écarts
totale:SCEt  T C
n 2
Xij2.
• Pour la somme des carrés des écarts par
échantillon : SCEij k1 xijk  n
(pour tout i et tout j)
pq
• Pour la somme des carrés des écarts
résiduelle:SCErSCEij
i 1 j 1
La différence (SCEt –SCEr) est une somme
des carrés des écarts relative à l’ensemble
des facteurs contrôlés.
Cette différence sera en fait divisée en
trois composantes factorielles:
- Les deux premières liées chacune
à l’un des 2 facteurs contrôlés -
La troisième à l’interaction des 2
facteurs.
Pour cela, il faut dresser un deuxième
tableau de la façon suivante:

- en reportant le contenu de la ligne


Xij. du tableau précédant ; - et
en calculant les sommes suivantes :
q
Xi.. Xij. (pour tout i)

Cours de bio statistique Page 45


j

1

p
X. .j Xij. (pour tout j)
i1

B. Deuxième partie

Tableau d’analyse de la variance à deux


critères de classification:

Suite de la réalisation des calculs


J 1 ....................... q Xi..
i
1 X11 ....................... X1q . X1..
. . . . .
. . . . .
. . . . .
P Xp1. ...................... Xpq. Xp..

X.J. X.1. .................... X.q. X...

Dans ces conditions, on aura évidemment

p q
 Xi..  X X. .j  ...
i1 j1

Les sommes des carrés des écarts liées


aux deux facteurs seront:

SCEf  qn1 in1 Xi2.. C

Cours de bio statistique Page 46


SCEb pn1 jq1 X. .2j C

On obtient alors par différance:

SCEfb  SCEt – SCEr – SCEf – SCEb

Ou encore, l’équation de l’analyse de variance


pour deux facteurs contrôlés simultanément:
SCEt  SCEf SCEbSCEb SCEr

Cette équation indique donc que la variation


totale (SCEt) peut être décomposée en 4
composantes principales:
Variation due au facteur a :SCEf

Variation due au facteur b : SCEb

Variation due à interaction entre les


facteurs a et b :SCEfb.

Une somme résiduelle.

La notion d’interaction sera précisée plus


loin

A ces différentes sommes des carrées sont


affectés des nombres de degrés de liberté
par la formule suivants :

pqn     1 p 1 q 1 p1 q


1 pq n  1

A cette étape, nous pouvons dresser le


tableau d’analyse de la variance en
calculant les nombres de degrés de liberté,

Cours de bio statistique Page 47


les carrés moyens et les valeurs de F f ,Fb et
Fab

Tableau d’analyse de variance


Source de ddl SCE CM F
variation
Facteur a p-1 SCEf CMf Ff
Facteur b q-1 SCEb CMb Fb
Interaction (p-1) (q- SCEfb SCEfb Ffb
Variation 1) pq SCEr CMr
résiduelle (n-1)
Totaux pqn-1 SCEt

5.2.2 Application pratique

Supposons que l’on veuille comparer, chez


deux races bovines différentes (critère 1), les
effets de 3 régimes alimentaire caractérisés par
des teneurs énergétiques différentes (critère 2)
: haut (H), bas (B) et moyen (M).
Le tableau suivant donne les résultats de la
production laitière (en kg de lait/jour)

Obtenus avec chacun de ces 3 régimes. Pour


chaque combinaison entre ces 2 critère, 4
valeurs sont données.

Cours de bio statistique Page 48


Tableau de comparaison des productions
laitières (en Kg de lait/j), chez 2 races bovines
différentes recevant 3 régimes énergétiques
différents (H, B ou M).
H B M Moyenne
(j = 1) (j= 2) (j=3) s
Race 33 31 32
1 (i= 35 32 34
1) 36 33 36
43 34 38 34,75
36,75 32,50 35,00
Race 30 25 27
2 (i= 30 27 29
2) 30 30 30
33 30 30 29,25
30,75 28,00 29,00
Meyenne 33,75 30,25 32,00 32,00
s

Ainsi calculées, ces moyennes montrent


une influence considérable du facteur (race).
En effet, tous régimes confondus, la race 2
présente une moyenne de 29,25 Kg de lait
contre 34,75 pour la race 1 soit une différence
de 5,5 Kg.
Calculées par rapport à la moyenne générale,
les différences dues à ce premier critère de
classification sont:
34,75-32,00=02,75

29,25 -32,00 =-2,75

Vous remarquerez que la somme de ces deux


termes est forcément nulle.De la même façon,
si on considère le deuxième critère, on aura:

Cours de bio statistique Page 49


33,75-32,00 =1,75

30,25 -32,00 =-1,75

32,00 -32,00= 0

La somme de ces 3 termes étant également


nulle.

Considérons à présent l’interaction entre le


facteur (race) et le facteur (régime) .

Le tableau suivant illustre ce phénomène.

Tableau de calcul des termes de


l’interaction entre les 2 facteurs
H B M Somme
Race 1 0,25 -0,50 0,25 0
Race 2 -0,25 0,50 -0,25 0
Somme 0 0 0 0

La première case ombrée (0,25) est obtenue


ainsi:

36,75 - 34,17 - 33,75 + 32=0,25

De la même façon, la dernière case ombrée (-


0,25) est obtenue ainsi:

29-29,25-32+32= -0.25

Et ainsi de suite pour les autres cases......

Ces valeurs ainsi obtenues représentent les


termes de l’inter action entre les deux facteurs
étudiés.

Cours de bio statistique Page 50


Dans le cas présent l’interaction entre le
facteur (race) et le facteur (régime) peut être
considérée comme étant faible. On le
confirmera plus loin par des calculs.
Imaginons à présent, des valeurs différentes
pour la race 2 avec le régime B (valeurs en gras
dans le tableau suivant).
H B M M
(j=1) ( j = 2) (j=3)
Race 33 31 32
1 (i 35 32 34
=1) 36 33 36
43 34 38 28,75
36,50 32,50 35,00
Race 2 30 25,5 27
(i = 2) 30 28,5 29
30 24,5 30
33 27,5 30 28,75
30,75 26,5 29,00
Moyenne 33,75 29,50 32,00 31,75
s

Avec de telles valeurs, tous les termes de


l’interaction seraient exactement nuls.

Exemple:

Race 1, régime H :36,75-34,75-


33,75+31,75=0
Race2, régime B : 26,5-28,75-
29,50+31,75=0

Etc...

Ce cas particulier traduit l’absence totale


d’interaction entre les 2 facteurs.
Cours de bio statistique Page 51
Concrètement cela signifie que les 3 types de
régimes donnent exactement la même différence
entre les 2 races. Cet écart s’obtient tout
simplement par différence entre les valeurs
moyennes obtenues pour chaque race. Dans notre
cas, ce sera:
36,75-30,75(colonne1)=32,50 -
26,50(colonne 2) = 35,00 - 29,00(colonne3)
=6

Bien évidemment, cette valeur peut être


également obtenue directement par la différence
entre X (soit 34,75 pour la race 1) et X ( soit 28,75
pour la race 2). En effet :
34 ,75 -28,75 =6

Vous remarquez aussi que l’absence d’interaction


signifie aussi que les différences entre les races
sont indépendantes des régimes.
Exemples: 36,75 – 32,50=30,75-26,50=4,25
pour les régimes H et B

36 ,75 -35 ,00 = 30,75 -29,00 = 1,75


pour le régime H et M, ….. Etc.

En revanche, la présence de termes d’interaction


non nuls signifie qu’il existe une (dépendance)
entre les 2 facteurs étudiés.
Reprenons à présent les données du tableau et
effectuons l’analyse de variance.
Race Race Totaux
1 2
(i=1) (i=2)
H B M H B M
(j=1) (j= (j= (j=1) (j= (j=

Cours de bio statistique Page 52


2) 3) 2) 3)
1 33 31 32 30 25 27
2 35 32 34 30 27 29
3 36 33 36 30 30 30
4 43 34 38 33 30 30
Moyen 36,8 32, 35, 30,8 28, 29, -
ne 5 0 0 0
Xij 147 130 140 123 112 116 X..+768
5459 423 492 3789 315 337 T=24922
0 0 4 0
5402, 422 490 3782, 313 336 -
25 5 0 25 6 4
SCEij 56,8 5,0 20, 6,8 18, 6,0 SCEr=11
0 0 2,5

H B M Xi..
(j=1) (j=2) (j=3)
Race 147 130 140 417
1( i=1)
Race 123 112 116 351
2(i=2)
270 242 256 768

Terme correctif:C
X...
2 
24576
pqn

Somme des carrées des écarts totale: SCEt


= T – C + 346,00
pq
Somme des carrées des écartes
résiduelle:SCErSCEij 112,5

Cours de bio statistique Page 53


i 1 j 1

4172 3512
SCEf  24576 181,50
12
2702  2422  2562
SCEb  24576  49,00
8
SCEfb  346,00112,50181,5049,00 
3,00

Tableau de l’analyse de variance


Sources d ddl SCE CM Fobs Ftable
variation e
Race 1 181,5 181,5 29,04** F1 ;18 ;0,
* 05=4,41
Régime 2 49,0 24,5 3,92* F2 ;18 ;0,
05=3,55
Interactio 2 3,00 1,5 0,24 F2 ;18 ;0,
n 05=3,55
Variance 18 112,5 6,25
résiduelle
Totaux 23 346,0

Conclusion

• Il existe un effet race très important


(Fobs>>>ftable)
• Il existe un effet régime mais faible
( Fobs>Ftable):
• Il n’y a pas d’interaction entre la race
et le régime (Fobs<Ftable).

Cours de bio statistique Page 54


Références Bibliographiques

LEGRAS.B., 1998. Eléments de statistique à


l’usage des étudiants en médecine et en
biologie. Édition marketing S.A, Paris, pp 222.
DAGNELIE.P., 1986. Analyse statistique à
plusieurs variables. Gembloux, Pesses
agronomiques, pp. 362.

DAGNELIE.P., 2003. Principes


d'expérimentation. Planification des
expériences et analyse de leurs résultats. Les
Presses Agronomiques de Gembloux,
Belgique, pp.397.

DAGNELIE. P., 2006. Statistique théorique et


appliquée. Tomme 2: inférences à une et à
deux dimensions. Bruxelles-université DE
BOECK et LARCIER: pp.659.

RAKOTOMALALA R., 2015. Analyse de


corrélation. Étude des dépendances -
Variables quantitatives. Version 1.1. Université
Lumière Lyon 2. Notes de cours. pp99.

Cours de bio statistique Page 55

Vous aimerez peut-être aussi