0% ont trouvé ce document utile (0 vote)
259 vues153 pages

Cours Statistiques L1SA

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1/ 153

Statistiques Appliquées

Dr. El-Hadef El-Okki M.


Maître de Conférence B
INATAA – UFMC1

L1 Sciences Alimentaires
Objectif

Connaître les grands aspects


de la Statistique ainsi que son utilité
dans le domaine
des Sciences Alimentaires
Objectif
Canevas de la Formation : Licence Sciences Alimentaires

L’objectif du cours
est d’initier l’étudiant
aux concepts et aux méthodes
statistiques de base.
Matière : Statistiques Appliquées
Unité d’Enseignement Méthodologique : UEM 1.2
Cours : 1H30
TD : 1H30
TP : 1 TP d’initiation aux calculs assistés par ordinateur (CAO)

VHS : 42 heures
VH T.pero. : 33 heures

Crédit : 3
Coefficient : 2

Mode d’évaluation
Contrôle continu (CC) : interrogations, rapports, ….. (25 %)
Examen Final (EMD) (75 %)
Contenu du cours
1. Introduction
2. Statistique descriptive à une dimension
3. Statistique descriptive à deux dimensions
4. Les distributions d’échantillonnage
5. Théorie de l’estimation
6.
Introduction
Les tests statistiques (Notions)
Statistique
C’est un ensemble de méthodes permettant
de décrire (1) et d’analyser (2), de façon
quantifiée, des phénomènes repérés par des
éléments nombreux, de même nature, et
susceptibles d’être dénombrés et classés
Qu’est ce qu’une statistique descriptive ?
Statistique descriptive
C’est l'ensemble des méthodes et techniques
permettant de présenter (1), de décrire (2)
et de résumer (3) des données numériques
nombreuses et variées.
Présentation des données statistiques

N° Note de Nombre
âge Sexe
d’étudiant statistique de crédits
1 20 M 10,25 3
2 18 F 9,75 0
3 18 F 10,5 3
4 19 M 5,25 0
5 20 F 3,75 0
6 21 M 16,25 3
. . . .
. . . .
154 19 M 11,5 3
Présentation des données statistiques
• Chaque étudiant est
un individu ou unité statistique
• L'ensemble des n étudiants est
la population statistique
• La note de matière (/20) est
la variable statistique ou caractère

Le but est de voir comment la variable


statistique varie sur la population d’étudiants.

Les notes des étudiants sont elles comparables (ou


très différentes)?
Présentation des données statistiques
• Les notes des étudiants dans la matière statistiques est
La série statistique brute
(un ensemble de n nombres).

• Sur cette population, on peut s'intéresser au même temps à


d'autres variables:
* l'âge des étudiants,
* le nombre d’année à l’université,
* leur origine, etc.

On remarquera que le résultat de l'observation peut être


exprimé sous forme littérale (Constantine, Mila, masculin,
féminin, etc.) ou numérique.
• On présente alors souvent les résultats sous forme d'un
tableau 'individus x variables'.
Exemple :

Dans une laiterie, on dispose d’une chaîne de


mise en sachet de lait reconstitué. Le
remplissage est considéré correct si le contenu
du sachet se situe entre 0,95 L et 1,05 L.
Pour un échantillon de 10 sachets, nous avons
enregistré les contenus suivants :

1,09 . 0,99 . 0,91 . 0,97 . 1,01 . 1,02 . 1,04 . 0,90 . 1,01 . 0,98
N° Sachet Contenu Qualité
1 1,09 Mauvaise
2 0,99 Bonne
3 0,91 Mauvaise
4 0,97 Bonne
5 1,01 Bonne
6 1,02 Bonne
7 1,04 Bonne
8 0,90 Mauvaise
9 1,01 Bonne
10 0,98 Mauvaise
Bonne
D’une façon général,
la statistique descriptive traite les
propriétés de la population statistique
étudiée, que de celles d'individus.

Pour l’exemple précédent, on


s'intéressera à la proportion des
sachets trop ou pas assez remplies, et
non au fait que le 6e ou le 7e sachet
contrôlé était ou non bien rempli
Ce que vous devez retenir
La Statistique Descriptive

est l'ensemble des méthodes (techniques)


permettant de présenter, de décrire
et de résumer des données.
Pour cela, il faut préciser :

 l'ensemble étudié (population


statistique) dont les éléments sont des
individus (unités statistiques).
 chaque unité doit être décrite par une
ou plusieurs variables (caractères
statistiques).
VOCABULAIRE STATISTIQUE
Population
C'est l'ensemble des unités ou individus sur
lequel on effectue une analyse statistique.

• Exemples de populations.
• Etudiants de L1SA (2016-2017)
• Patients au niveau du CHUC
• Les Boites de conserves dans une unité de production
• Microorganismes dans un milieu donné
Echantillon
C'est un ensemble d'individus prélevés dans une
population déterminée

Exemple d'échantillon.
L'échantillon des véhicules automobiles immatriculés dans un département.
Caractère
C'est un trait déterminé présent chez tous les
individus d'une population sur laquelle on
effectue une étude statistique.

Quantitatif Qualitatif
Mesurable Repérable

• La note des étudiants. • Le lieu de résidence des étudiants


• Le poids total des boites de conserve. • La couleur des boites de conserve
• Le taux de bactéries dans le corps • État de santé des patients
Modalités
Ce sont les différentes situations Mi
possibles du caractère.
• tout individu doit présenter une et une seule modalité.
• L'ensemble des modalités est noté E.

• Caractère qualitatif  rubriques d'une nomenclature ;


• Caractère quantitatif  un nombre entier discret
un caractère continu
• Caractère mixte 
Effectif (n)

ni est l'effectif de la modalité Mi

La notion d'effectif d'une modalité est une notion absolue,


elle ne permet pas directement les comparaisons.
Fréquence (f)
La fréquence de la modalité Mi est

La notion de fréquence est une notion relative,


elle permet directement les comparaisons.
Variable (Var.) statistique

toute application X dans E qui, à chaque


individu xi de la population, associe une
modalité Mi d’un caractère donné.
Var. quantitative

Les valeurs sont des nombres exprimant


une quantité, sur lesquels les opérations
arithmétiques (somme, etc.) ont un sens.

La variable peut alors être discrète ou


continue selon la nature de l'ensemble des
valeurs qu'elle est susceptible de prendre
(valeurs isolées ou intervalle).
Var. qualitative :

Les valeurs sont des modalités, ou


catégories, exprimées sous forme
littérale ou par un codage numérique.
Cas d'une variable qualitative

Modalités Effectifs Fréquences %


Modalités Effectifs Fréquences %
L1 154 0,34 33,92
1 n1 f1 = n1 / n f1 × 100
... ... ... ... L2 120 0,26 26,43
I ni fi = ni / n fi × 100 L3 80 0,18 17,62
... ... ... ...
M1 60 0,13 13,22
K nk fk = nk / n fk × 100
M2 40 0,09 8,81
Total : n 1 100
Total : 454 1 100
Cas d'une variable discrète

Nombre Nombre
Valeurs de Fréquences
Effectifs Fréquences % d‘enfants de familles % fi ´ 100
la variable fi
Xi ni
0 4 0,03 2,58
x1 n1 f1 = n1 / n f1 × 100
1 10 0,06 6,45
... ... ... ... 2 32 0,21 20,65
xi ni fi = ni / n fi × 100 3 44 0,28 28,39
... ... ... ... 4 29 0,19 18,71
xk nk fk = nk / n fk × 100 5 31 0,20 20,00
6 5 0,03 3,23
Total : n 1 100
Total : 155 1 100
Contenu du cours
1. Introduction
2. Statistique descriptive à une dimension
3. Statistique descriptive à deux dimensions
4. Les distributions d’échantillonnage
5. Théorie de l’estimation
6.Statistiques descriptives
Les tests statistiques (Notions) univariées
Les variables seront ensuite analysées
différemment
selon leur nature
(quantitative, qualitative, etc.),

au moyen de

Calcul de
Tableaux Graphiques
paramètres
TABLEAUX
A partir d'un tableau brut :
individus & variables,

Dans un premier temps, on réalise


une description unidimensionnelle
de chacune des variables,
prise séparément.
On a noté les résultats
des 154 étudiants de L1SA
Type de Notes
Nom Sexe Age
scolarisation de Stat.
1 Abadi R M 20 8,75
2 Bendada N F 18 14,50
3 Delanda T M 19 12,00
4 Gendouz N F 20 7,50
5 Salmi N F 20 5,25

… … … … … …

154 Zaouia N F 17 18,50


Pour ce genre de tableau :

Le nombre d'individus étant souvent grand,


une telle série brute est difficilement lisible
et interprétable.
Il est indispensable de la résumer.

Pour cela, on commence par un tri à plat,


 des tableaux et des graphiques.
Le but est d'obtenir
des résumés clairs et concis,
mais en conservant
l'essentiel de l'information contenue
dans les données initiales,
en utilisant des techniques objectives
ne donnant pas une image déformée de
la réalité.
Nom Age
Abadi 20
Bendada 18
Delanda 19
Gendouz 20
Salmi 20
… …
• Dans notre cas, on ne s'intéresse pas à la
situation personnelle des étudiants (Abadi,
Bendada, …), mais à la répartition du
caractère "âge" chez les 154 étudiants.

• Ainsi, pour chacune des modalités de la


variable considérée, on doit déterminer
l'effectif correspondant, i.e. le nombre de
personnes ayant cette modalité.
• Il s’agit donc d’un dénombrement des
différentes modalités.
Le tableau brut se résume comme suit :

Modalités de Effectif
la variable
"Age" ni

17 01
18 66
19 47
20 19
21 14
22 07
On notera :
• x1, x2, ..., xk les différentes modalités,
• n1, n2, ... , nk les effectifs associés.

Dans le tableau ci-dessus,


x1 = "17" x2 = "18" x3 =
n1 = "1" n2 = "66" n3 =
f1 = "1/154" f2 = "66/154" f3 =

La somme des effectifs vaut : 154


Séance 1
N Nom
1 2 3 4 5 6 7 8 9 10 Total
1 Abadi 1 1 1 1 1 1 1 1 1 1 0
2 Bendada 0 1 1 1 1 1 1 0 1 1 2
3 Chaabna 1 1 1 1 1 1 1 1 1 1 0
4 Djimli 0 1 0 1 1 1 1 1 1 1 2
5 Fatahi 0 0 1 0 1 1 1 0 0 1 5
6 Gasmia 0 1 0 0 0 1 1 1 1 1 4
7 Khalaf 1 1 0 0 0 0 0 1 0 1 6
8 Larouk 0 0 0 0 1 1 0 1 1 1 5
9 Moumeni 1 0 0 1 1 1 1 1 0 1 3
10 Nouari 0 1 0 1 1 0 0 1 1 1 4
11 Rahmoun 0 1 0 1 1 1 1 1 0 0 4
12 Tayar 0 1 1 1 1 0 1 1 0 0 4
13 Zaouia 0 1 1 1 1 1 1 1 1 1 1
Effectif Effectif
Nb d’absence Appréciation
ni ni

0 2
1 1
2 2 10
3 1
4 4
5 2
3 Exclus
6 1
Total 13 13 10
GRAPHIQUES
Les graphiques

visualiser une distribution statistique.


Variable Qualitative

Les modalités ne peuvent pas être


représentées sur un axe, selon une échelle
donnée, car elles ne sont pas numériques.
Généralement, on utilise :

• des diagrammes circulaires :


Chaque modalité est représentée par un secteur
Exclus
circulaire dont l'angle (ou la surface) est
proportionnel à son effectif.

Ajournés
Admis
Généralement, on utilise :

• un diagrammes en barres :
100Chaque rectangle a une base
90constante et une hauteur
Admis

80proportionnelle à l'effectif ni ou à la
70fréquence fi .
60 Adjournés
50
40
30
20 Exclus
10
0
Variable Quantitative

Les valeurs observées, numériques,


seront toujours placées selon un axe,
en suivant une échelle précise.
Cas des séries chronologiques

On représente directement les données


brutes en ordonnée, l'échelle du temps
étant placée en abscisse.
Le temps étant continu, on relie par des
segments de droite les points obtenus.
Cas d’une variable discrète
5 Après un tri à plat conduisant à la
distribution observée, on représente
celle-ci par un diagramme en bâtons
4

3 les xi sont placés suivant une échelle


sur l'axe des abscisses, et les effectifs ni
sont matérialisés par un "bâton" de
2

1 longueur ni (axe des ordonnées).


0
0 1 2 3 4 5 6
Cas d'une variable continue
représentée sous forme d'un histogramme :
Age (ans) Nombre d’individus
Un histogramme est une surface
20 – 30composée100 d'une suite de rectangles
30 –adjacents
40 dont la hauteur de chacun est
150
40 proportionnelle
– 50 90 à l'importance de chaque
> 50 classe,20avec éventuellement une
correction des fréquences ou effectifs si les
amplitudes des classes ne sont pas égales
Paramètres Statistiques
Les paramètres statistiques

résumer, à partir de quelques nombres clés,


l'essentiel de l'information relative à
l'observation d'une variable quantitative.
On définira plusieurs sortes de paramètres :
• Certains, seront dits de position, tel que la
moyenne (position centrale) : qui
représente une valeur numérique autour de
laquelle les observations sont réparties.
• D'autres, seront dits de dispersion, ils
permettent de résumer l’étalement des
observations de part et d'autre du
paramètre de tendance centrale.
Paramètres de position
Paramètres de tendance centrale

• La moyenne arithmétique
• La médiane
• Le mode
Paramètres de tendance centrale

1. La moyenne arithmétique ( )

La moyenne arithmétique d'une série statistique (xi, ni)


se calcule de la manière suivante :

La moyenne s'exprime toujours dans la même unité


que les observations xi .
Elles peut être décimale, même si les xi sont entiers
par nature.
Paramètres de tendance centrale

1. La moyenne arithmétique ( )

Nombre Enfant (xi) Fréquences fi % fi x 100

0 0.0208 2.08
1 0.1458 14.58

2 0.2396 23.96
3 0.2500 25.00
4 0.1875 18.75
5 0.0938 9.38
6 0.0625 6.25
Total : 1 100

Ainsi la moyenne arithmétique du nombre d’enfant par famille est :


2,97 enfants par famille
Paramètres de tendance centrale

1. La moyenne arithmétique ( )

Sur un échantillon de 10 boites de concentré de


tomate (1 kg), le poids moyen était de 997 mg.

Une erreur s’est produite dans le remplissage d’une 11e


boite dont on a enregistré un poids de 169 mg
seulement.

Quelle serait la valeur de la nouvelle moyenne ?


Paramètres de tendance centrale

1. La moyenne arithmétique ( )

Pour plusieurs populations d'effectifs :


n1, n2, ....., nk,
de moyennes respectives :

La moyenne globale = la moyenne des moyennes


Paramètres de tendance centrale

1. La moyenne arithmétique ( )

Comparons les moyennes de deux sections d’étudiants

Section A : * 3/4 de filles : 12,5


* 1/4 de garçons : 14,0
Dans cette section, la moyenne est de : 12,88

Section B : * 1/2 de filles : 12,5


* 1/2 de garçons : 14,0
Dans cette section, la moyenne est de : 13,25

Déterminez la moyenne pour les deux sections ?


Si l’effectif de la section A est le double de celui de la section B
Paramètres de tendance centrale

1. La moyenne arithmétique ( )

• Il s'agit d'un effet de structure : cela vient du fait


que les filles sont plus nombreuses en A qu'en B.
• Donc, une moyenne ne résume pas bien une population
hétérogène, comprenant des sous-populations différentes
vis à vis du caractère étudié

• Exemple :
Comparaison entre les 6 groupes de L1SA.
Paramètres de tendance centrale

2. La médiane (M)

Si la série brute des valeurs observées est triée


par ordre croissant :

La médiane M est la valeur du milieu,


telle qu'il y ait autant d'observations
"au-dessous" que "au-dessus".
Paramètres de tendance centrale

2. La médiane (M)
Paramètres de tendance centrale

2. La médiane (M)

12,50
• Par exemple, 13,25
11,75
Déterminez la médiane de la 09,50
série des notes des étudiants de 14,75
L1SA ?
11,50
12,50
Quelle serait sa valeur si on 13,75
ajoute une autre note d’un 14,00
étudiant (2,50) ?
10,75
Paramètres de tendance centrale

2. La médiane (M)

Cas d'une variable continue


Pour des données groupées en classes,
la classe médiane est la classe
qui contient la médiane.
Paramètres de tendance centrale

2. La médiane (M)

Par exemple,

Notes ni ni cummulé
8-10 12 12
10-12 24 36
12-14 90 126
14-16 28 154

La médiane est la valeur de rang (77-78), celle ci se


trouve dans la classe des notes entre 12-14,
Donc, cette classe est la classe médiane.
Paramètres de tendance centrale

2. La médiane (M)

En général

Si a et b sont les bornes de la classe contenant la médiane,

F(a) et F(b) les valeurs de la fréquence cumulée croissante


en a et b,

alors
Paramètres de tendance centrale

2. La médiane (M)

Dans le cas d'une variable groupée en classes,


on peut calculer la médiane par la formule suivante :
n
ai (  N i 1 )
Med  L0  2
ni

L0 : Limite inférieure de la classe médiane


ai : Amplitude de la classe médiane
n : Nombre total des observations
Ni-1 effectif cumulé croissant de la classe inférieure à la
classe médiane
ni : effectif de la classe médiane
Paramètres de tendance centrale

3. Le Mode

La valeur dont la fréquence est la plus élevée.


Paramètres de tendance centrale

3. Le Mode

Cas d'une variable discrète

Le mode est facilement repérable.


Sur le tableau statistique,
c'est la valeur xi pour laquelle la fréquence est la
plus élevée.
Paramètres de tendance centrale

3. Le Mode

Cas d'une variable continu

deux situations se présentent: les amplitudes


sont égales ou non égales.
Les amplitudes sont égales Les amplitudes sont inégales :
La classe modale est la classe Corriger les effectifs de la même
correspondant à la fréquence la manière que pour la construction
plus élevée. de l'histogramme.

Le mode est le centre de la classe Le mode est le centre de la classe


modale. modale.
Position
des paramètres de tendance centrale
(mode, médiane et moyenne)

Pour une distribution unimodale:

symétrique : les trois paramètres sont confondus.

asymétrique: la médiane est généralement située


entre le mode et la moyenne et plus
proche de cette dernière.
Autres Paramètres de position

• Minimum, Maximum
• Quartiles
• Déciles
• Centiles
Paramètres de tendance centrale

4. Le minimum (min)

Le minimum correspond à la valeur la plus faible


du caractère.
Paramètres de tendance centrale

5. Le maximum (max)

Le maximum correspond à la valeur la plus élevée


du caractère.
Paramètres de tendance centrale

6. Les quantiles

Quartiles Déciles Centiles

Q1 : la plus petite des valeurs D1 : la plus petite des valeurs C1 : la plus petite des valeurs
q de (X) telles qu’au moins 25 d de (X) telles qu’au moins 10 c de (X) telles qu’au moins 1
% des termes de (X) soient % des termes de (X) soient % des termes de (X) soient
inférieurs ou égaux à q. inférieurs ou égaux à d. inférieurs ou égaux à c.

Q2 : la plus petite des valeurs D5 : la plus petite des valeurs C50 : la plus petite des valeurs
q de (X) telles qu’au moins 50 d de (X) telles qu’au moins 50 c de (X) telles qu’au moins 50
% des termes de (X) soient % des termes de (X) soient % des termes de (X) soient
inférieurs ou égaux à q. inférieurs ou égaux à d. inférieurs ou égaux à c.

Q3 : la plus petite des valeurs D9 : la plus petite des valeurs C99 : la plus petite des valeurs
q de (X) telles qu’au moins 75 d de (X) telles qu’au moins 90 c de (X) telles qu’au moins 99
% des termes de (X) soient % des termes de (X) soient % des termes de (X) soient
inférieurs ou égaux à q. inférieurs ou égaux à d. inférieurs ou égaux à c.
min Q1 Q3 max
Moyenne
Médiane
Mode

Q0 = Min Q1 Q2 Q3 Q4 = Max
Médiane
Moyenne
Moyenne
Médiane

min max
Q1 Q3

Q0 = Min Q1 Q2 Q3 Q4 = Max
Q1 Q3 max
min

Q0 = Min Q1 Q2 Q3 Q4 = Max
Q0 = Min Q1 Q2 Q3
Q4 = Max

La boite à moustaches
Boxplot
Paramètres de dispersion
Paramètres de dispersion
Dans le cas ou deux distributions ayant des
caractéristiques de tendance centrale voisines
peuvent être très différentes.

Il s’avère nécessaire de mesurer


la dispersion des valeurs
autour des tendances centrales.
Paramètres de dispersion

7. L’étendue (E)

• L'étendue (ou amplitude) d'une série statistique est


la différence entre les valeurs extrêmes de la série.

E = Max.(X) – Min.(X)
Paramètres de dispersion

7. L’étendue (E)

• Facile à déterminer, l'étendue ne dépend que


des 2 observations extrêmes qui sont parfois le
fait de situations exceptionnelles.

• Il est donc difficile de considérer l'étendue


comme une mesure stable de la dispersion.
Paramètres de dispersion

8. L’écart interquartile (EIQ)

• Afin de diminuer l'influence des valeurs extrêmes on


peut tenir compte de valeurs plus stables de la
distribution en prenant en compte que l’intervalle
interquartile [Q1 , Q3]

Soit

EIQ = Q3 - Q1
Paramètres de dispersion

9. La variance (Var, V,  ², S²)

Var(x) =

C’est la moyenne des carrés des écarts


à la moyenne.

Une variance est d'autant plus faible que les données


sont groupées autour de la moyenne
Paramètres de dispersion

10. L’écart-type (Et, , S)

= Var(x)

C’est la moyenne des carrés des écarts


à la moyenne.
Calculer les paramètres
Nombre
de dispersion de la série Enfant (xi)
ni
suivante : 0 2
1 14
2 24
Var(x) = 3 25
donc 4 18
5 9
= 6 6
Paramètres de dispersion

11. Le coefficient de variation (CV %)

Le coefficient de variation est le rapport de


l'écart-type par rapport à la moyenne.

Le coefficient de variation est indépendant


des unités choisies, il est utile pour comparer
des distributions qui ont des unités différentes.
La variance, l'écart-type et le coefficient
de variation sont les paramètres de
dispersion les plus utilisés.

En particulier, le coefficient de variation


permet de comparer la variabilité relative
de plusieurs distributions qui diffèrent
fortement par leur ordre de grandeur et
éventuellement même par leur unité de
mesure
Synthèse
En plus des tableaux et graphiques,
on résume l'observation d'une variable
quantitative par un petit nombre de
paramètres.
Contenu du cours
1. Introduction
2. Statistique descriptive à une dimension
3. Statistique descriptive à deux dimensions
4. Les distributions d’échantillonnage
5. Théorie de l’estimation
6. Statistiques descriptives
Les tests statistiques (Notions) bivariées
Description bivariée
La statistique descriptive à deux dimensions
a essentiellement pour but de:

Caractériser les relations qui existent


entre deux séries d'observations
considérées simultanément.

Ces observations peuvent être de nature


qualitative ou quantitative, continue ou
discontinue.
Exemple :

Afin d'étudier la répartition des étudiants de


l’institut sur les différentes formations, on a
noté un certain nombre de renseignements
sur chaque étudiants, notamment :

• L’âge ;
• La spécialité du Baccalauréat ;
• La mention du baccalauréat ;
• Nombre d’années à l’université ;
• La formation poursuivie ;
• ….
Le résultat est présenté sous la forme du tableau ci-
dessous , individus  variables

Nombre
Age
Baccalauréat Mention d’années à Formation
Étudiant (an)
l’université

1 18 Sciences Bien 1 LSA


2 20 Maths Très bien 2 Ingénieur
3 19 Maths Assez bien 1 LSA
4 22 Technologies Passable 1 LSA
5 25 Sciences Assez bien 6 Ingénieur
6 21 Sciences Bien 3 LBA
... ... ... ... … …
200 23 Sciences Très bien 2 LBA
Nous pouvons maintenant décrire
chacun des caractères, un par un :

• L’âge ;
• La spécialité du Baccalauréat ;
• La mention du baccalauréat ;
• Nombre d’années à l’université ;
• La formation poursuivie ;
Mais ceci ne nous permet pas de mettre en évidence

Les liens qui pourraient existant


entre l’âge de l’étudiant et le nombre
d’années à l’université :

Le nombre d’années est fonction où non de l’âge des étudiants ?


De même,
La formation poursuivie est-elle la même quelle que soit la
spécialité du baccalauréat ?
etc.
Série statistique double
Nombre
Age
d’années à
(an)
l’université
18 1
20 2
19 1
22 1
25 6
21 3
... …
23 2

Y-a-t-il un lien entre ces deux variables ?


Deux variables qualitatives
Distribution
Modalités + Effectifs associés (ou Fréquences associées)

Distribution jointe
Modalités de (X,Y) : (m1;m’1); (m2;m’2); ………..; (mp;m’q)
Effectifs associés : nij ; i = 1,…,p ; j = 1,…,q
p q
n   n
i 1 j 1
ij

Distributions marginales
Distribution de X et Distribution de Y .
p

Effectifs marginaux de X  ni   nij pour tout i = 1,…,p.


i 1

Effectifs marginaux de Y  n j   nij pour tout j = 1,…,q.


j 1

Distributions conditionnelles (de Y sachant X or de X sachant Y)


Deux variables qualitatives

Exemple

Taux d’absence
Faible Moyen Élevé
Admis 73 15 6
Résultats Ajournés 25 18 16
Exclus 1 3 13
Une variable qualitative et une quantitative
Variable qualitative : X ; Variable quantitative : Y

Distributions conditionnelles
Représenter les distributions conditionnelles et la distribution
marginale de Y .

Moyennes et variances conditionnelles


Distributions conditionnelles de Y : YX=m1,…,YX=mp.
Moyennes conditionnelles de Y : y1,…, yp.
Variances conditionnelles de Y : s21 ,…, s2p.

Décomposition de la moyenne 1 p
y   ni  yi
La moyenne globale de Y : n i 1
La moyenne globale n’est pas égale à la moyenne des moyennes conditionnelles
mais à une moyenne pondérée par les fréquences.
Décomposition de la variance 2
La variance globale de Y : 1 p 1 p
s ²   ni  si ²   ni  ( y i  y )
n i 1 n i 1
Une variable qualitative et une quantitative

Exemple

Emploi (parents)
Sans Contrat Titulaire
0 16 17 23
1 15 14 13
Nombre
2 17 11 17
d’enfant
3 13 18 11
4 11 12 7
Deux variables quantitatives

Représentation graphique (nuage de points)

Covariance intensité
Corrélation type de relation forme
Régression sens
Deux variables quantitatives

Exemple
Individu Poids (kg) Taille (cm)
1 3,21 48,6
2 3,03 49,3
3 2,92 47,2
4 3,46 50,5
5 3,78 51,2
6 2,87 49,9
7 3,76 52,1
8 3,34 50
9 2,97 50,2
10 3,56 52,1
Tableau de contingence

Considérons N individus (200 étudiants dans


notre cas) décrits simultanément selon deux
caractères X (âge) et Y (nombre d’années
à l’université).

Avec :
X possède p modalités : x1, x2, x3, ..., xi, ..., xp
Y possède q modalités : y1, y2, y3, …, yj, ..., yq
Tableau de contingence
Y
y1 y2 y3 ………….….. yj …….………….... Yq ni.
X
x1 n11 n12 n13 n1j n1q n1.
x2 n21 n22 n23 n2.
. . .
. . .
. . .
xi ni1 nij ni.
. . .
. . .
. . .
xp np1 npq np.

n.J n.1 n.2 n.3 ………….….. n.j ….………….... n.q n..


Tableau de contingence
Exemple
Nombre d’années à l’université
1 2 3 4 5 6 Total
[18 - 19[ 18 2 0 0 0 0 20
Age des étudiants

[19 - 20[ 9 11 0 1 0 0 21
[20 - 21[ 8 8 7 0 0 0 23
[21 - 22[ 2 10 8 3 3 0 26
[22 - 23[ 1 3 12 6 4 0 26
[23 - 24[ 1 4 1 10 8 0 24
[24 - 25[ 0 2 3 11 14 1 31
> 25 0 1 4 11 10 3 29
Total 39 41 35 42 39 4 200
• On appelle distribution marginale de X la distribution à une
dimension des individus de la population qui présente une modalité
de X quelque soit la modalité de Y.
• De façon analogue, on définit celle de Y.
Réduction des données

Les paramètres utilisés pour caractériser les


distributions à deux variables sont de deux
types :

• Les paramètres qui concernent une seule variable


servent à caractériser les diverses distributions
marginales ;

• Les paramètres qui concernent les deux variables


servent à décrire les relations qui pourraient exister
entre les deux séries d'observations.
Moyennes et variances marginales

1
x   xi
n i
1
y   yi
n i
1
Var ( x)   ( xi  x) 2
n i
1
Var (Y )   ( y j  y)²
n j
Moyennes et variances marginales
Exemple

Modalités X Y
1 152 26
2 155 27 x 
948
 158
3 160 28 6
4 155 28
5 162 29 203
y   29
6 164 30 7
7 35
Somme 948 203
Moyennes et variances marginales
Exemple

Modalités X Y (xi-x)2 (yi-y)2


1 152 26 36 9
2 155 27 9 4
3 160 28 4 1 110
4 155 28 9 1 Var ( X )   18,33
5 162 29 16 0
6
6 164 30 36 1
7 35 36
52
Somme 948 203 110 52 Var (Y )   7,43
7
Pour avoir une idée sur la variation simultanée de X et Y
on peut utiliser la covariance
La covariance
Un nombre permettant de quantifier les écarts
conjoints entre deux variables par rapport
à leurs espérances respectives.
• La covariance de X et Y s’écrit :

1 p
cov( x, y)  
n i 1
( xi  x)  ( yi  y)

• il est aussi égal à :


1 p
cov( x, y)  
n i 1
xi  yi  x  y
La covariance

La covariance est :

• positive si X et Y ont tendance à varier


dans le même sens,
• négative si elles ont tendance à varier
en sens contraire.
La covariance
Exemple
10 étudiants ont passé le contrôle continu (CC) et l'examen final
(EMD) de la matière « Statistiques » et ont obtenu les notes suivantes :
CC EMD
X.Y
X Y 1239 102 106
1 5 7 35 cov( x, y )   
2 7 6 42
10 10 10
3 10 9 90
4 11 12 132
cov( x, y )  15,78
5 9 10 90
6 14 15 210
7 3 4 12
La covariance est positive,
8 15 16 240
9 12 11 132 donc il y a un lien entre X et Y.
10 16 16 256 Autrement dit les deux variables
Total 102 106 1239 varient dans le même sens.
CC EMD
X Y
1 5 16
2 7 11
3 10 16
4 11 4
5 9 15
6 14 10
7 3 12
8 15 9
9 12 6
10 16 7
La corrélation

Dans le cas où les points du nuage se situent tous


sur une droite, on dit que la relation entre x et y
représente une dépendance fonctionnelle
linéaire.

Si les points du nuage de points ne sont pas tous


alignés sur une même droite, on peut mesurer le
degré de dépendance linéaire entre les deux
variables X et Y .

Comment ?
La corrélation
La corrélation
Le coefficient de corrélation linéaire a pour objet de
mesurer l'intensité de la liaison linéaire entre les deux
variables X et Y :

cov( x, y )
r
 ( x)  ( y)

Cette définition montre que ce coefficient possède le


même signe que la covariance

Sa valeur est comprise entre -1 et 1.


La corrélation
Exemple
10 étudiants ont passé le contrôle continu (CC) et l'examen final
(EMD) de la matière « Statistiques » et ont obtenu les notes suivantes :
CC EMD
X Y
1 5 7
2 7 6
3 10 9
4 11 12
5 9 10
6 14 15
7 3 4
8 15 16
9 12 11
10 16 16
La corrélation, outil d’aide à la prévision :
L’intérêt d’une forte corrélation tient au fait
que la connaissance de l’une des variables
entraîne la connaissance de l’autre avec un
faible risque d’erreur.
Dés lors, il convient de trouver la double
relation mathématique qui existe entre les
deux variables xi et yi :
- la relation de type yi=f(xi) décrit l’évolution
de la variable y en fonction de xi;
mais aussi
- la relation de type xi=f(yi) décrit l’évolution
de la variable x en fonction de yi
La droite de régression

La méthode des moindres carrés est une


méthode d’ajustement qui consiste à
minimiser la somme des carrés des différence
entre les valeurs observées, yi et les valeurs
estimées, par l'équation de la droite de
régression :
yi  a  xi  b
Exemple :
Nombre d’étudiants en L1 Nombre d’exclus
(Xi) (Yi)
152 25
155 26
160 29
155 26
162 27
164 32
192 42
223 33
241 51
265 49
On aura donc l’équation suivante :
yi = 0.21xi – 5.55

Si on se donne comme objectif pour


une année, où il aurai 201 étudiants,
quel sera le nombre des étudiants
exclus ?
Contenu du cours
1. Introduction
2. Statistique descriptive à une dimension
3. Statistique descriptive à deux dimensions
4. Les distributions d’échantillonnage
5. Théorie de l’estimation
6. Statistiques
Les tests statistiques Inférentielles
(Notions)
Statistique descriptive Statistique inférentielle

objectif principal

Description des données Préciser un phénomène sur une


étudiées population globale

Elle se fait à travers : Elle se fait à partir :


• Présentation la plus Des observation sur une partie
synthétique possible, restreinte de cette population
• Représentation graphique, (i.e. induire ou inférer du
• Calcul de résumés particulier au général).
numériques.

Modèles probabilistes
Les deux aspects de la statistique se complètent
bien plus qu’ils ne s’opposent.
Exemple numérique :

AB Ab aB Ab
Observée 100 18 24 18

La répartition observée est-elle conforme celle théorique


(loi de Mendel) ?
Exemple :

AB Ab aB Ab
Théorique 9 3 3 1
Observée 100 18 24 18

La répartition observée est-elle conforme celle théorique


(loi de Mendel) ?
Solution :

AB Ab aB Ab Total
Théorique 9 3 3 1 16
Observée 100 18 24 18 160

AB Ab aB Ab Total
Théorique 90 30 30 10 160
Observée 100 18 24 18 160
Test statistique

d’une réflexion scientifique


Hypothèses à partir des faits antérieurs observés.

Hypothèses testées
selon les résultats du test :

Hypothèses rejetées Hypothèses acceptées

Nouvelles hypothèses
peuvent être bâties et à nouveau testées.
Une série d’observations portant sur une variable
peut être décrite par :

• Paramètres résumant la distribution :


• Moyenne
• Pourcentage
• Variance

• Distribution des effectifs sous forme :


• Tableau
• Diagramme
Il existe deux familles de tests

• Tests paramétriques
Permettent de comparer des paramètres entre eux

• Tests semi-paramétriques
Permettent de comparer des distributions entre elles.
Applications des tests statistiques

Deux situations

Tests de Tests de
Comparaison Liaison
entre les séries entre deux variables
Tests de Comparaison
Existe deux situations

•Comparer un échantillon observé à une population


de références

•Comparer deux ou plusieurs échantillons entre eux

Principe

La différence observée est due au hasard


ou au contraire elle est probable ?
Rappel : comparer des séries de données entre elles
Etapes du Test
1. Etablir l’hypothèse nulle (H0)
2. Proposer l’hypothèse alternative (H1)
3. Calculer la valeur du test (µ0)
4. Choix du risque d’erreur (α, β)
5. Interprétation finale du test
1. Etablir l’hypothèse nulle (H0)

Les paramètres ou les distributions des populations


d’où sont issus les échantillons étudiés sont identiques ;

La différence observé provient seulement des


fluctuations d’échantillonnage.
2. Proposer l’hypothèse alternative (H1)

Les paramètres et les distributions des populations


d’où sont issus les échantillons étudiés sont différents

H1 bilatérale
Paramètre population 1 ≠ Paramètre population 2

H1 Unilatérale
Paramètre population 1 > Paramètre population 2
ou
Paramètre population 1 < Paramètre population 2
3. Calculer la valeur du test

Calculer une quantité mathématique exprimant


l’écart entre les paramètres ou les distributions (µ0).

Tester selon les hypothèses H0 et H1


4. Choix du risque d’erreur

Risque alpha (première espèce) α

Le risque de conclure à une différence qui n’existe pas


Probabilité de rejeter H0, si H0 est vraie

Risque béta (deuxième espèce) β

Le risque de ne pas conclure à une différence qui existe


Probabilité de ne pas rejeter H0, si H1 est vraie
5. Interprétation finale du test

Rejet Acceptation

H0 H1
Les types de tests de comparaison
 Test Z : Ecart réduit

 Test Khi-2 : Khi-2 de Conformité,


Khi-2 d’Homogénéité,
Khi-2 d’Indépendance

 Test t (Student) : deux moyennes,


coefficient de corrélation

 Test F (Fischer) : deux variances,


plusieurs moyennes
Tests de Comparaison
Exemple
Test du χ 2
(Khi-2)
Principe
Le test du Khi-2 (Pearson) a pour but de
comparer une distribution rangée par classes
à une distribution de rangement identique

Deux cas :

1. Comparer une distribution observée à une


distribution calculer à partir d’une loi théorique

2. Comparer 2 ou plusieurs distributions observées


entre elles.
Procédure de calcul
soit 2 distributions A et B rangées de la même façon
suivant les différentes valeurs (1, 2, 3, …., k)

A B
(observée) (théorique)
Caractère Répartition de A Répartition de B
1 n1 n’1
2 n2 n’2
3 n3 n’3
. . .
. . .
. . .
. . .
.
k nk n’k

∑n = N ∑n’ = N

• Deux répartitions ont le même effectif global N


• N étant fixe  k-1 ddl
Est-ce que les deux répartitions A et B
sont-elles conformes ou différentes ?

H0 : A et B sont conformes ?
H1 : A et B sont différentes ?

Si : n i = n’i  les deux répartitions sont identiques.

Si : n i ≠ n’i  les deux répartitions sont différentes.


Il faut donc étudier l’importance
statistique des différences ni - n’i.
Ainsi : X² = 13,51
Ainsi : X² = 13,51

Avec : ddl = 4-1 = 3


et, α = 5 %  χ2(tabulé) = 7,82

Conclusion :
L’échantillon n’est pas conforme
au risque α=5 % puisque

χ2(calculé) > χ2(tabulé)

Vous aimerez peut-être aussi