Écart type
L'écart type (en anglais standard deviation) est une notion mathématique définie en probabilités et appliqué à la statistique. L'écart type est une mesure de la dispersion d'une variable aléatoire réelle. Il est défini comme la racine carrée de la variance. Il a la même dimension que la variable aléatoire dont on calcule la dispersion.
C'est une grandeur dont l'invention remonte à la période du XXe siècle qui vit la statistique se développer au Royaume-Uni.
Les écarts types sont rencontrés dans tous les domaines où sont appliqués les probabilités et la statistique, en particulier dans le domaine des sondages, en physique, en biologie ou dans la finance. Ils permettent en général de synthétiser les résultats numériques d'une expérience répétée.
Quand l'écart type d'une population est inconnu, sa valeur est approchée à l'aide d'estimateurs.
Tant en probabilités qu'en statistique, il sert à l'expression d'autres notions importantes comme le coefficient de corrélation, ou la répartition optimale de Neyman.
Sur de grands ensembles de données, l'écart type peut être calculé grâce à l'ordinateur mais il faut rechercher le bon algorithme.
Histoire
C'est à Abraham de Moivre qu'est attribuée la découverte du concept de mesure de la dispersion qui apparaît dans son ouvrage The Doctrine of Chances en 1718[b 1]. Mais le terme d'écart type (« standard deviation ») a été employé pour la première fois par Karl Pearson en 1893 devant la « London Royal Society »[b 2]. C'est aussi Karl Pearson qui utilisa pour la première fois le symbole pour représenter l'écart type[b 2]. En 1908, William Gosset, plus connu sous le pseudonyme de Student, définit l'écart type empirique d'un échantillon et montre qu'il est important de le distinguer de l'écart type d'une population[b 2]. La variance est une notion qui apparut plus tard, en 1918, dans un texte de Ronald Fisher intitulé The Correlation between Relatives on the Supposition of Mendelian Inheritance[i 1].
Contexte général
En statistique comme en probabilités, on définit des critères de position ainsi que des critères de dispersion. Dans le domaine des probabilités, la dispersion d'une variable aléatoire réelle X autour de sa moyenne est mesurée par divers indicateurs comme l'écart interquartile, l'étendue, la variance, l'écart type , etc.[b 3].
En statistique descriptive, où l'étude porte sur une population finie parfaitement connue, la moyenne et la médiane sont utilisées comme critères de position et l'écart type, l'écart moyen, l'étendue , etc. comme critères de dispersion. Tous ces critères aident ensemble à résumer l'échantillon statistique[b 4].
Dans la pratique, on préfère l'écart type (lettre grecque sigma) à la variance , car l'écart type peut-être comparé à l'ordre de grandeur des valeurs, ce qui n'est pas le cas de la variance[b 5].
Applications
L'écart type sert à mesurer la dispersion d'un ensemble de données. Plus il est faible, plus les valeurs sont regroupées autour de la moyenne. Par exemple pour la répartition des notes d'une classe, plus l'écart type est faible, plus la classe est homogène. À l'inverse, s’il est plus important, les notes sont moins resserrées. Dans le cas d'une notation de 0 à 20, l'écart type minimal est 0 (notes toutes identiques), et peut valoir jusqu'à 10 si la moitié de la classe a 0/20 et l'autre moitié 20/20[Note 1].
En sciences humaines, il est fréquent de considérer que les valeurs se répartissent selon une courbe de Gauss. Dans ce cas, la moyenne et l'écart type permettent de déterminer un intervalle dans lequel on trouve une majorité de la population. En effet, si la moyenne est et l'écart type est , on trouve 95 % de la population dans l'intervalle et on trouve 68 % de la population dans l'intervalle [b 6].
L'écart type est aussi utilisé pour construire un intervalle de confiance attribuable à un échantillon. Si l'on se réfère à la figure ci-contre, on voit qu'un sigma d'écart de part et d'autre de la valeur moyenne recouvre 68.2% de la distribution, deux sigmas d'écart ([, ], 13.6+34.1+34.1+13.6 =) 95.4%, 3 sigmas d'écart ([, ], 2.1+13.6+34.1+34.1+13.6+2.1 =) 99.8% et ainsi de suite... C'est l'usage notamment en physique des particules, où la détection d'évènements est quantifiée en nombre de sigmas, et où un résultat notamment est considéré comme significatif par l'obtention de 5 sigmas, représentant une probabilité d'erreur inférieure à 0,00003 % (niveau de confiance de plus de 99.9999%)[i 2].
Dans le domaine de l'analyse technique des cours de la bourse, l'écart type est une mesure de la volatilité des cours [b 7]. Les bandes de Bollinger sont des outils facilitant l'analyse des prévisions boursières. John Bollinger a construit la courbe des moyennes mobiles sur 20 jours et les courbes, de part et d'autre de cette courbe, situées à deux fois l'écart type sur ces 20 jours. John Bollinger a utilisé une définition adaptée de l'écart type[i 3]. En outre, le risque d'un actif boursier et le risque associé au marché sont mesurés par l'écart type de la rentabilité attendue, dans le modèle d'évaluation des actifs financiers de Harry Markowitz[i 4].
Dans l'industrie, l'écart type intervient dans le calcul de l'indice de qualité des produit manufacturés ou dans l'indice de fidélité d'un appareil de mesure[i 5],[i 6].
Enfin, en mécanique quantique, le principe d'incertitude d'Heisenberg exprime que le produit des écarts-types de la position x et de l'impulsion p d'une particule est supérieur ou égal à la constante de Plank divisée par deux, soit [i 7].
En probabilité
Dans la formulation moderne des probabilités, suite aux travaux de Henri Lebesgue et à la mise en place de l'axiomatique de Kolmogorov, une variable aléatoire X est une application à valeurs réelles, ou vectorielles[Note 2], suivant une loi de probabilité P. L'application X ne joue pas un rôle fondamental ; seule sa loi importe : l'image de P par X, notée PX. Il s'agit d'une mesure sur ou sur [b 8].
Définition
Si X est une variable aléatoire de carré intégrable, appartenant donc à l'espace [Note 3], son écart type, généralement noté , est défini comme la racine carrée de l'espérance mathématique de (X−E[X])² , soit:
L'élévation au carré pour le membre de droite désigne implicitement la norme euclidienne au carré dans le cas où X est à valeurs vectorielles.
Enfin, l'écart type élevé au carré est égal à la variance.
Exemples
Cette identité se spécialise dans un grand nombre de cas particuliers, dont celui des variables aléatoires discrètes. Si la variable X prend un nombre fini de valeurs réelles x₁, …, xn, avec des probabilités respectives p₁, …, pn, l'écart type est donné par , où désigne la moyenne . En particulier, si la loi de X est uniforme sur un ensemble fini de valeurs, c'est-à-dire si [b 9], alors , où cette fois, . Ces formules se généralisent immédiatement en dimension supérieure en remplaçant l'élévation au carré par la norme euclidienne au carré.
La loi PX est dite continue lorsque la probabilité que X appartienne au segment ]a,b[ est où f est une fonction localement intégrable, pour la mesure de Lebesgue par exemple, mais pas nécessairement une fonction continue[b 10]. Cette fonction f s'appelle la densité de probabilité de la loi PX. L'écart type de X est défini par où et la formule est équivalente aussi.
Avec ces formules et la définition le calcul des écarts types pour les lois couramment rencontrées est aisée. Le tableau suivant donne les écarts types de quelques-unes de ces lois :
Nom de la loi | Paramètre(s) | Description | Écart type |
---|---|---|---|
Loi de Bernoulli[b 9] | p | Loi discrète de valeurs 0 avec probabilité 1-p et 1 avec probabilité p | |
Loi binomiale[b 11] | p et | Loi de la somme de n variables indépendantes suivant la loi de Bernoulli de paramètre p | |
Loi géométrique[b 12] | p | Loi discrète sur telle que la probabilité d'obtenir l'entier n soit (1-p)pn | |
Loi uniforme sur un segment[b 13] | a<b | Loi uniformément continue sur de densité un multiple de la fonction indicatrice de [a;b] | |
Loi exponentielle[b 13] | p | Loi uniformément continue de support de densité la fonction | |
Loi de Poisson[b 14] | Loi sur de densité la fonction où | ||
Loi du χ²[b 15] | Loi sur de densité la fonction pour tout x positif où est la fonction gamma |
Si la variable X suit une loi log-normale alors suit une loi normale et l'écart type de X est relié à l'écart type géométrique[b 16].
Mais toutes les lois de probabilité n'admettent pas forcément un écart type fini : la loi de Cauchy (ou loi de Lorentz) n'a pas d'écart type, ni même d'espérance mathématique[b 17].
Propriétés
L'écart type est toujours positif ou nul, celui d'une constante est nul. L'écart type d'une variable aléatoire X à laquelle a été ajoutée une constante [Note 5]est égal à l'écart type de la variable X. Cette propriété est nommée invariance par translation. L'écart type d'une variable multipliée par une constante est égal à la valeur absolue de la constante multipliée par l'écart type de la variable. Cette propriété est nommée invariance par dilatation[Note 6],[b 18]. Ceci peut se résumer par .
L'écart type de la somme algébrique de deux variables est égal à où est le coefficient de corrélation entre les deux variables X et Y[b 19].
La fonction admet son minimum au point et prend donc pour valeur en ce point l'écart type de la variable [b 20].
Usage
L'écart type intervient en probabilité pour comparer des variables ou des distributions entre elles.
Variable centrée réduite
Si X est une variable aléatoire d'écart type non nul, on peut lui faire correspondre la variable centrée et réduite Z définie par . Deux variables aléatoires centrées et réduites et sont aisées à comparer, puisque et [b 21]. Le théorème central limite a pour objet la limite d'une suite de variables aléatoires centrées réduites[b 22], les coefficients de dissymétrie et d'aplatissement d'une densité de probabilité, , permettent de comparer des distributions différentes[b 23].
Coefficient de corrélation
Le coefficient de corrélation est une autre application de l'écart type en probabilité. Si X et Y sont deux variables aléatoires, on appelle coefficient de corrélation le rapport où est la covariance des variables X et Y. D'après l'inégalité de Cauchy-Schwarz, ; ce qui permet de dire que prend ses valeurs dans l'intervalle [b 24]. Si les deux variables ne sont pas corrélées, si les deux variables sont linéairement dépendantes[b 25].
Inégalité de Bienaymé-Tchebychev
C'est grâce à l'inégalité de Bienaymé-Tchebychev que l'écart type apparaît comme une mesure de la dispersion autour de la moyenne. En effet, cette inégalité exprime que [b 3] et montre que la probabilité pour que X s'écarte de E(X) de plus de k fois l'écart type est inférieure à [b 26].
En statistique
Pour une population finie - relativement faible en nombre - le calcul de l'écart type est purement algébrique, sans référence aux probabilités, et le statisticien emploie l'écart type empirique défini par [b 27].
Mais, en statistique, la population étudiée est souvent très importante en nombre, et il n'est pas possible de connaître toutes les valeurs de la caractéristique considérée. Le statisticien procède par échantillonnage et estimation pour évaluer les grandeurs analysées telles que l'écart type.
Estimateurs
Un estimateur est une fonction permettant d'approcher un paramètre d'une population à l'aide d'un échantillon tiré au hasard[b 28].
Deux estimateurs de l'écart type sont généralement utilisés. Ces estimateurs sont notés (ou S) et (ou S′ ) et s'expriment en fonction des valeurs de l'échantillon par et . est l'estimateur privilégié[b 29],[b 27].
Propriétés des estimateurs
Ainsi, deux propriétés importantes des estimateurs sont la convergence et l'absence de biais[b 27].
Si est un estimateur du paramètre , le biais est la quantité . Si cette quantité est différente de zéro, cela signifie que se positionne autour de au lieu de se positionner autour de . L'estimateur est alors entaché d'erreur. Un bon estimateur n'a pas de biais[b 30]. Un estimateur naturel de l'écart type est biaisé mais dont le biais est acceptable[b 31],[Note 7],[i 9].
Si , converge vers a quand n tend vers l'infini[Note 8]. Or, et sont des estimateurs convergents de σ², ce qui reflète l'approximation de σ² par ces deux séries lorsque n devient de plus en plus grand[b 30]. Grace au théorème de continuité, stipulant que si f est continue , la fonction racine carrée étant continue, les estimateurs et sont convergents eux aussi[Note 9],[b 32]. Ce qui conforte le statisticien à utiliser ces estimateurs.
Écart type des moyennes
Pour estimer la précision de l'estimation de la moyenne d'une variable, la méthode du calcul de l'écart type de la distribution d'échantillonnage des moyennes est utilisée. Appelé aussi erreur type de la moyenne (« Standard error »), noté , c'est l'écart type des moyennes des échantillons de tailles identiques d'une population. Si n est la taille des échantillons prélevés sur une population d'écart type , et si N est la taille de la population, alors [b 33]. Lorsque l'écart type de la population est inconnu, il peut être remplacé par l'estimateur [b 33]. Quand n est suffisamment grand (), la distribution d'échantillonnage suit approximativement une loi de Laplace-Gauss, ce qui permet de déduire un intervalle de confiance, fonction de , permettant de situer la moyenne de la population par rapport à la moyenne de l'échantillon[b 34],[b 35].
Écart type des écarts-types empiriques
En général, il est très difficile de calculer la loi de distribution des écarts-types empiriques. Mais si est une suite de variables aléatoires distribuées selon la loi normale , alors suit une loi du à n degrés de liberté[b 15],[Note 10]. Cette loi a pour écart type et donc l'écart type de la distribution des écarts types de variables normales a pour expression [b 15].
Interprétation d'un écart type élevé
Trois raisons au moins font que l'écart type peut être élevé. Tout d'abord il peut indiquer une grande dispersion des données autour de la valeur centrale. Plus les valeurs sont largement distribuées, plus l'écart type est élevé.
Ensuite, en raison de ses liens étroits avec la moyenne, il peut être important parce que la moyenne est importante. Mais, il n'est pas toujours facile d'évaluer la valeur de l'écart type à partir de laquelle la dispersion doit être considérée comme forte. Pour cette raison, il est quelques fois utile de travailler avec le coefficient de variation égal à l'écart type divisé par la moyenne et qui exprime l'écart type en pourcentage de la moyenne[b 5].
Enfin, autre raison pour laquelle l'écart type peut être élevé est la présence de valeurs aberrantes dans l'échantillon. Une façon de savoir si la valeur x est une valeur aberrante est de calculer la valeur absolue de , qui, si elle est supérieure ou égale à 3, désigne x comme une valeur potentiellement aberrante[b 36]..
Sondages d'opinion
Dans les sondages d'opinion, l'écart type évalue l'incertitude des variations accidentelles de inhérentes au sondage, ce qu'on appelle la marge d'erreur due aux variations accidentelles[i 10].
De plus, avec la méthode d'échantillonnage représentatif, lorsque les différentes strates ont des écarts types très différents, l'écart type est utilisé pour calculer la répartition optimale de Neyman qui permet d'évaluer la population dans les différentes strates en fonction de leur l'écart-type ; en d'autres termes est la taille de l'échantillon dans la strate i, où n est la taille totale de l'échantillon, est la taille de la strate i, l'écart-type de la strate i[i 10].
En algorithmique
Le calcul de l'écart type par un programme d'ordinateur peut aboutir à des résultats incohérents si on n'utilise pas un algorithme adapté aux données, comme lorsqu'on utilise celui qui exploite directement la formule sur des grands échantillons de valeurs comprises entre 0 et 1[i 11],[i 12].
Un des meilleurs algorithmes est celui de B.P. Welford qui est décrit par Donald Knuth dans son livre The Art of Computer Programming, Vol 2[i 13],[i 14].
Une approximation de l'écart type de la direction du vent est donnée par l'algorithme de Yamartino dont on se sert dans les anémomètres modernes[i 15],[i 16].
Notes et références
Notes
- Si n élèves ont 0/20 et n élèves ont 20/20, c'est-à-dire l'échantillon contient n fois la valeur 20 et n fois la valeur 0, la moyenne est ; soit et .
Les valeurs au carré, notées , sont n fois 400 et n fois 0. La moyenne de vaut donc . On en déduit que la variance vaut 100 et l'écart type 10. - en fait, à valeurs dans des espaces de Banach, mais cet article se limite au cas réel qui est le plus utilisé en pratique
- où est un ensemble, une tribu sur , et une mesure sur .
- la première égalité définit , la seconde est donnée par le Théorème de König-Huyghens
- Toutes ces propriétés sont la conséquence directe du théorème de Huygens et des propriétés de l'espérance mathématique .
- d'après G. Saporta on a qui tend vers lorsque où et la Fonction gamma
- la convergence peut-être en loi, en moyenne, presque surement, en probabilité...
- d'après le théorème de continuité on a :
Théorème — Si g est continue, alors :
- par définition de la loi du
Références
Ouvrages spécialisés
- Bernstein 1996, p. 127
- Dodge 2010, p. 506
- Saporta 2006, p. 25
- Saporta 2006, p. 119
- Saporta 2006, p. 121
- Saporta 2006, p. 43-44
- Jean-Pierre Petit, La Bourse : Rupture et Renouveau, Paris, Odile Jacob economie, , 285 p. (ISBN 978-2738113382), p. 36
- Saporta 2006, p. 16
- Saporta 2006, p. 30
- Rioul 2006, p. 45
- Saporta 2006, p. 31
- Saporta 2006, p. 38
- Saporta 2006, p. 39
- Saporta 2006, p. 33
- Dodge 2010, p. 71
- (en) Warren H. Finlay, The Mechanics of Inhaled Pharmaceutical Aerosols: An Introduction , San Diego, Academic Press Inc, , 320 p. (ISBN 978-0122569715), p. 5
- Dodge 2010, p. 60
- Saporta 2006, p. 23-25
- Saporta 2006, p. 26
- Rioul 2006, p. 146
- Gautier 1975, p. 387
- Saporta 2006, p. 66
- Rioul 2008, p. 157
- Rioul 2008, p. 175
- Rioul 2008, p. 178
- Jacquard 1976, p. 28-29
- Saporta 2006, p. 279-280
- Saporta 2006, p. 289
- Tufféry 2010, p. 655
- Saporta 2006, p. 290
- Saporta 2006, p. 284
- Rioul 2008, p. 253
- Dodge 2010, p. 508-509
- Dodge 2010, p. 472
- Vessereau 1976, p. 56
- (en) David R. Anderson, Dennis J. Sweeney et Thomas A. Williams, « statistics », Encyclopaedia Britannica Ultimate Reference Suite, , statistics
Articles de revue
- [PDF] (en) Ronald Aylmar Fisher, « The Correlation between Relatives on the Supposition of Mendelian Inheritance », Philosophical Transactions of the Royal Society of Edinburgh, vol. 52, , p. 399–433 (lire en ligne)
- Rolf Heuer, « Une fin d’année pleine de suspense », Bulletin Hebdomadaire du CERN, vol. 2012, no 3, (lire en ligne, consulté le )
- (en) John Bollinger, « Bollinger Bands Introduction » (consulté le )
- [PDF]P Fery, « Risque et calcul socioéconomique », Centre d'analyse stratégique, (lire en ligne, consulté le )
- [PDF]P Ferignac, « Contrôle de réception quantitatif ou par mesure. », Revue de statistique appliquée, vol. 7, no 2, (lire en ligne, consulté le )
- [PDF]P Ferignac, « Erreurs de mesure et contrôle de la qualité. », Revue de statistique appliquée, vol. 13, no 2, (lire en ligne, consulté le )
- [PDF]Yves Meyer, « Principe d'incertitude, bases hilbertiennes et algèbres d'opérateurs. », Séminaire Bourbaki, vol. 662, (lire en ligne, consulté le )
- [PDF] Sylvie Méléard, « Aléatoire : Introduction à la théorie et au calcul des probabilités » (consulté le ), p. 57,94
- [PDF]Emmanuel Grenier, « Quelle est la « bonne » formule de l’écart-type ? », La revue MODULAD, no 37, (lire en ligne, consulté le )
- [PDF]W.E. Deming, « Quelques méthodes de sondage. », Revue de statistique appliquée, vol. 12, no 4, (lire en ligne, consulté le )
- (en) John D. Cook, « Theoretical explanation for numerical results » (consulté le )
- (en) John D. Cook, « Comparing three methods of computing standard deviation » (consulté le )
- [PDF] (en) B.P. Welford, « Note on a Method for Calculating Corrected Sums of Squares and Products », Technometrics, vol. 4, no 3, , p. 419-420 (lire en ligne, consulté le )
- (en) John D. Cook, « Accurately computing running variance » (consulté le )
- (en) [PDF] (en) R.J. Yamartino, « A comparison of several "single-pass" estimators of the standard deviation of wind direction », Journal of climate and applied meteorology, vol. 23, , p. 1362-1366 (lire en ligne, consulté le )
- [PDF] (en) Mike Bagot, « Victorian Urban Wind Resource Assessment » (consulté le )
Voir aussi
Bibliographie
- Gilbert Saporta, Probabilités, Analyse des données et Statistiques, Paris, éditions Technip, , 622 p. (ISBN 978-2-7108-0814-5)
- Alain Monfort, Cours de Statistique Mathématique, Paris, éditions Economica, , 333 p. (ISBN 2-7178-3217-2[à vérifier : ISBN invalide])
- (en) Encyclopaedia Britannica Ultimate Reference Suite, Chicago, Encyclopædia Britannica,
- Olivier Rioul, Théorie des probabilités, Paris, éditions Hermes sciences, , 364 p. (ISBN 978-2-7462-1720-1)
- (en) Yadolah Dodge, The Concise Encyclopaedia of Statistics, New York, Springer, , 622 p. (ISBN 978-0-387-31742-7)
- Stéphane Tufféry, Data Mining et statistique décisionnelle, Paris, éditions Technip, , 705 p. (ISBN 978-2-7108-0946-3)
- (en) Peter L. Bernstein, Against the Gods : The Remarkable Story of Risk, New York, John Wiley & sons, inc, , 383 p. (ISBN 978-0-471-12104-6)
- Albert Jacquard, Les Probabilités, Paris, Presses Universitaires de France, coll. « Que sais-je » (no 1571), , 125 p. (ISBN 2-13-036532-9)
- C. Gautier, G. Girard, D. Gerll, C. Thiercé et A. Warusfel, Aleph1 Analyse, Paris, éditions Hachette, , 465 p. (ISBN 2-01-001370-0)
- André Vessereau, La Statistique, Paris, Presses Universitaires de France, coll. « Que sais-je » (no 281), , 128 p. (ISBN 2-13-052942-9)
Articles connexes
Liens externes