Chapitre III L'analyse Univariée
Chapitre III L'analyse Univariée
Chapitre III L'analyse Univariée
II : L’analyse uni-variée
Introduction :
L’analyse uni-variée concerne l’étude d’une seule variable, pour laquelle on dispose
de mesures sur un échantillon de n individus. L’analyse statistique unidimensionnelle a pour
but de résumer à mieux l’information concernant une variable déterminée en faisant une
description graphique et numérique. Deux types de traitement sont abordés par l’analyse uni-
variée.
La description des données sera abordée sous deux aspects : la tendance
centrale (si on devait résumer la série d’observations par une seule valeur,
quelle serait la plus « typique », la plus représentative) ; la dispersion (quelle
est la variabilité des observations autour de cette tendance centrale ?).
L’inférence (ou analyse inférentielles) : un ensemble de méthodes permettant
de formuler un jugement sur la population mère à partir des données observées
sur l’échantillon. Pour l’analyse uni-variée, il s’agit de comparer les valeurs
observées à une valeur prédéterminée.
Lorsque les variables sont prêtent, à la suite des tris à plat, les méthodes classiques de
statistique descriptive sont employées ; calcul des valeurs centrales (moyenne, mode et
médiane) et de la dispersion (variance, écart-type), établissement d’histogramme, etc.
La description des données peut être abordée sous deux aspects : la tendance centrale
(si on devait résumer la série d’observation par une seule valeur, quelle serait la plus typique,
la plus représentative ? La dispersion (quelle est la variabilité des observations autour de cette
tendance centrale ?) ; plus généralement on peut étudier la forme de la distribution des
observations.
Diagramme en barres
III- Analyse uni-variée des variables quantitatives métriques :
Dans le cas d’une variable métrique, la tendance centrale est la moyenne. La dispersion
va être la variance et l’écart type. Deux autres indicateurs visent à comparer la distribution
observée à celle de la loi normale ; il s’agit du coefficient de symétrie (ou « skewness ») et du
coefficient d’aplatissement (ou « kurtosis », qui concerne l’étalement de la distribution).
L’inférence sera étudiée par le test de moyenne.
Pour que la variable puisse être considérée comme suivant une loi normale le coefficient
d’asymétrie ou « Skewness » doit être inférieur à│1│et le coefficient d’aplatissement ou
« kurtosis » doit être inférieur à│1,5│.
1) les paramètres de tendance centrale :
si on note Xk la valeur de la variable X pour l’observation k (k= 1, ……., n), la moyenne
observée est donnée par la formule :
La médiane
La médiane est une valeur qui sépare la première moitié et la seconde moitié de
l’échantillon. Pour cela il convient de placer les données par ordre croissant.
Si l’échantillon a un effectif impair, la médiane est donc la valeur de l'individu placé
exactement au milieu. Avec un effectif pair, la médiane est une valeur située entre celle du
dernier de la première moitié et celle du premier de la seconde moitié (en général, on
considère la moyenne de ces deux valeurs si la variable est quantitative).
Exemple : Si la série de valeurs étudiée correspond à la valeur en euros du panier des 10 derniers
clients d'une boutique et que les valeurs sont les suivantes : 150, 34, 30, 45, 110, 19, 40, 119, 25 et 167, alors
elle devra être classée ainsi : 19, 25, 30, 34, 40, 45, 110, 119, 150, 167.
la médiane, nécessite de faire un calcul basique. Une fois identifiées les deux valeurs figurant au milieu
de la liste (40 et 45 dans l'exemple), elles doivent être ajoutées l'une à l'autre, puis divisées par deux pour
obtenir une moyenne. Ainsi, 40 + 45 = 85 et 85 ÷ 2 = 42,5. La médiane est donc 42,5.
Ensuite, la série de valeurs doit être coupée en deux afin d'obtenir deux moitiés. La valeur se situant au
milieu de la première moitié, c'est-à-dire la valeur médiane, se nomme le premier quartile. Ici, la première moitié
de la série se compose des valeurs suivantes : 19, 25, 30, 34, 40. Le premier quartile correspond donc à 30.
De la même manière, la valeur médiane de la deuxième moitié correspond au troisième quartile. Dans
l'exemple, la seconde moitié comporte les valeurs suivantes : 45, 110, 119, 150, 167. Le troisième quartile a
donc pour valeur 119.
4) la représentation graphique :
Les variables discrètes : Diagramme en bâtons
Un diagramme en bâtons est une représentation graphique de données statistiques à
l’aide de segments. Les valeurs de la variable étudiée (quantitative discrète) sont représentées
sur l’axe horizontal, les effectifs sur l’axe vertical. À chaque valeur correspond un bâton. Les
hauteurs des bâtons sont proportionnelles aux effectifs représentés.
Les valeurs à l'extérieur des moustaches sont représentées par des points. On ne peut pas dire
que si une observation est à l'extérieur des moustaches alors elle est une valeur aberrante. Par
contre, cela indique qu'il faut étudier plus en détail cette observation.