Biostat 2
Biostat 2
Biostat 2
La valeur x14 est évidemment une valeur aberrante. Sans cette observation, � = 399,8/20 = 19,99 ; la
valeur aberrante augmente la moyenne � plus de 1. Si l’observation 45,0 était remplacée par la
valeur 295,0 une valeur aberrante vraiment extrême, alors � = 5 694,8/21 = 5 33,09 qui est plus
grande que toutes les observations sauf une !
La médiane
Le mot « médiane » est synonyme de « milieu », et la médiane de l’échantillon est en effet la valeur
médiane une fois que les observations sont ordonnées du plus petit au plus grand. Lorsque les
observations sont notées x 1 , ..., x n , nous utiliserons le symbole � pour représenter la médiane de
l’échantillon.
Si n est impair:
Si n est pair:
La médiane
Exemple
Il est à noter que si la plus grande observation 79,0 n’avait pas été incluse dans
l’échantillon, la médiane de l’échantillon résultante pour les n = 11 observations
restantes aurait été la valeur médiane unique 66,4 ([n+1/2 = 6ième valeur de la
liste ordonée. La moyenne de l’échantillon est
un peu plus grande que la médiane. La moyenne est un peu tirée par rapport
à la médiane parce que l’échantillon « s’étend » un peu plus à l’extrémité
supérieure qu’à l’extrémité inférieure.
Comparaison de la moyenne avec la médiane
(a) : La moyenne et la médiane sont similaires ici
parce que la distribution des observations est
symétrique autour du centre.
(b) Si nous avons des données biaisées, la moyenne
et la médiane peuvent différer.
( c ) Si l e s d o n n é e s o n t p l u s d ’ u n c e n t r e , n i l a
médiane ni la moyenne n’ont d’interprétations
significatives.
(d) Si nous avons des valeurs aberrantes, il est sage
d’utiliser la médiane parce que la moyenne est
sensible aux valeurs aberrantes.
Exemple de la température à Bangkok en décembre. Les valeurs ordonnées x(i), i = 1, 2,..., 31 sont les
suivantes ::
P o u r d é t e r m i n e r le s q u a rt i le s , c ’e s t - à - d i r e l e s
quantiles de 25, 50 et 75%, nous calculons n� comme
31x 0,25 = 7,75, 31x 0,5 = 15,5 et 31x 0,75 = 23,25. Ainsi
�̃0,25 = x(8) = 25, �̃0,50 = x(16) = 26, �̃0,75 = x(24) = 29.
Le mode
Considérons n observations x 1 , x 2 ,..., x n qui sont toutes positives et recueillies sur une
variable quantitative. La moyenne géométrique �G de ces données est définie comme
suit :
Pour les statisticiens, la moyenne géométrique est moins sensible que la moyenne
arithmétique aux valeurs les plus élevées d'une série de données.
TDexercice1
Les valeurs suivantes sont des montants de vente de maisons pour un
échantillon de maisons (1000 de $) : 590, 815, 575, 608, 350, 1285, 408,
540, 555, 679
a) Calculer et interpréter la moyenne et la médiane de l’échantillon.
b) Supposons que la 6ème observation ait été 985 plutôt que 1285.
Comment la moyenne et la médiane changeraient-elles ?
640.5, 582.5
610.5, 582.5
TDexercice2
L’exposition aux produits microbiens, en particulier aux endotoxines, peut avoir un
impact sur la vulnérabilité aux maladies allergiques. L’article « Dust Sampling Methods
for Endotoxin—An Essential, But Underestimated Issue » (Indoor Air, 2006 : 20–27)
examinait diverses questions associées à la détermination de la concentration
d’endotoxines. Les données suivantes sur la concentration (UE/mg) dans la poussière
décantée pour un échantillon de maisons urbaines et un autre de maisons agricoles
ont été aimablement fournies par les auteurs de l’article cité.
6.5, 12.0, 14.9, 10.0, 10.7, 7.9, 21.9, 12.5, 14.5, 9.2
314,106
�2 = = 31,41; s = �2 = 5,60
11−1
Le coefficient de variation est une mesure de dispersion sans unité. Il est souvent
utilisé lorsque les mesures de deux variables sont dans des unités différentes.
TDexercice1
L’article « Oxygen Consumption During Fire Suppress : Error of Heart Rate Estimation »
(Ergonomics, 1991 : 1469–1474) rapportait les données suivantes sur la consommation
d’oxygène (mL/kg/min) pour un échantillon de dix pompiers effectuant une
simulation d’extinction d’incendie :
29.5, 49.3, 30.6, 28.2, 28.0, 26.3, 33.9, 29.4, 23.5, 31.6
a) L’étendue de l’échantillon
b) La variance de l’échantillon s2 en calculant d’abord les écarts, puis les
quadratures, etc.)
c) L’écart type de l’échantillon
TDexercice2
Une étude de la relation entre l’âge et diverses fonctions visuelles (telles que l’acuité
et la perception de la profondeur) a rapporté les observations suivantes sur la zone
de la lame sclérale (mm2) des têtes de nerf optique humain (« Morphometry of
Nerve Fiber Bundle Pores in the Optic Nerve Head of the Human, » Experimental Eye
Research, 1988 : 559-568) :
2.75, 2.62, 2.74, 3.85, 2.34, 2.74, 3.93, 4.21, 3.88, 4.33, 3.46, 4.52, 2.43, 3.65, 2.78, 3.56, 3.01
a) Calculer et
b) Utilisez les valeurs calculées dans la partie (a) pour calculer la variance
de l’échantillon s2, puis l’écart type de l’échantillon s.
TDexercice3
Calculer et interpréter les valeurs de la moyenne et
l’écart-type pour les observations suivantes :
87, 93, 96, 98, 105, 114, 128, 131, 142, 168
116.2 ± 25.75
TDexercice4
Le s trouble s e t le s sym ptôm e s de l'a nxié té pe uve nt s o u v e n t ê t r e t r a i t é s
efficacement par des médicaments à base de benzodiazépines. On sait que les
animaux exposés au stress présentent une diminution de la fixation des récepteurs
des benzodiazépines dans le cortex frontal. L'article "Decreased Benzodiazepine
Receptor Binding in Prefrontal Cortex in Combat-Related Posttraumatic Stress
Disorder" (Amer. J. of Psychiatry, 2000 : 1120-1126) décrit la première étude sur la
fixation des récepteurs des benzodiazépines chez les personnes souffrant du
syndrome de stress post-traumatique. Les données relatives à la mesure de la
fixation des récepteurs (volume de distribution ajusté) ont été lues à partir d'un
graphique dans l'article.
SPT: 10, 20, 25, 28, 31, 35, 37, 38, 38, 39, 39, 42, 46
Sain: 23, 39, 40, 41, 43, 47, 51, 58, 63, 66, 67, 69, 72
Utilisez diverses méthodes parmi celles étudiées jusqu’à présent pour décrire et
résumer les données?