AFC fr
AFC fr
AFC fr
"ADD"
2023/01
Table of contents
Objectives 3
I - Analyse Factorielle des Correspondances (AFC) 4
1. Analyse Factorielle des Correspondances (AFC) ...............................................................4
2
Objectives
L’objet de ce cours est de présenter les principes de l’analyse des données. Le
programme rassemble un groupe de techniques aux fondements mathématiques qui
permet d’appréhender la structure de l’information contenue dans un espace à
plusieurs dimensions.
A l'issue de ce cours, l’étudiant sera capable de :
Traiter et décrire l'information contenue dans des grands ensembles de données.
Comprendre les moyens théoriques et pratiques pour exploiter les informations issues de base de
données statistiques multidimensionnelles grâce aux méthodes d’analyse statistique multivariées.
Comprendre les mécanismes qui justifient l'emploi de telle ou telle méthode
Interpréter correctement les graphiques et résultats fournis par les logiciels.
3
I Analyse Factorielle des
Correspondances (AFC)
Parmi les méthodes factorielles d’analyse des données qui tiennent compte de la dépendance entres les
variables, on avait cité l’AFC.
Cette méthode a pour objet de traiter les informations contenues dans un tableau appelé tableau de
contingence ou de dépendance. Ce tableau est relatif à deux ensembles de nature qualitatives différentes mais
qui sont liés d’une manière ou d’une autre.
y1 ... yj ... ym
x1 K1,.
xn Kn,.
Où :
Ki,j : est l’effectif conjoint ou l’effectif des individus qui présentent à la fois la modalité x de X et la
i
modalité y de Yj
i=1
Ki,j
Remarque :On a :
n m n m
∑ Ki,. = ∑ K.,j = ∑ ∑ Ki,j = N
i=1 j=1 i=1 j=1
4
Analyse Factorielle des Correspondances (AFC)
exemple :
Supposons que nous ayons mené une enquête auprès de 100 individus afin de comprendre leurs préférences
pour deux types de boissons, le café et le thé, en fonction de leur genre (Homme ou Femme). Les données
collectées sont les suivantes :
Homme 20 10 30
Femme 25 45 70
Total 45 55 100
On a :
Le nombre de modalités du caractère X « Genre » est égal 2 (n=2) et le nombre de modalités du
caractère Y « boissons» est égal à 2 (m=2).
Le nombre total d’individus est égal à N=100.
Avec :
fi,. =
Ki.
N
est la proportion des individus qui présentent la modalité x de X. i
Remarque :On a :
n m n m
∑ fi. = ∑ f.j = ∑ ∑ fij = 1
i=1 j=1 i=1 j=1
y1 ... yj ... ym
x1 f1.
xn fn.
Où :
Voici le tableau des fréquences relatives basé sur le tableau de l'exemple N° 01:
5
Analyse Factorielle des Correspondances (AFC)
Profil lignes :
Dans le tableau des profils lignes Z , il s’agit de diviser les éléments de chaque ligne i du
L
conditionnelles)
Ce tableau est aussi appelé : matrice des pourcentages lignes à partir desquels on obtient le nuage de points
dans R . m
Profil colonnes : Dans le tableau des profils colonnes Z , il s’agit de diviser les éléments de C
Ce tableau est aussi appelé : matrice des pourcentages colonnes à partir desquels on obtient le nuage de
points dans R . n
Modèle d’indépendance
conditionnelle =Probabilité
marginale)
L’AFC a pour objectif d’étudier la liaison qui existe entre deux variables qualitatives ce qui revient donc à
appréhender l’écart entre données observées et données dans le cas d’indépendance. L’étude de la
significativité de cet écart est faite par le test du khi deux.
Ce test consiste à évaluer l’écart entre valeur observées et valeurs théorique du modèle d’indépendance.
ki. .k.j
2 2
n m (fij −fi. .f.j ) n m (kij − )
2 N
χ = ∑ ∑ = ∑ ∑ k .k
i=1 j=1 fi. .f.j i=1 j=1 i. .j
on peut ecrire:
2
(kij −Eij )
2
χ = ∑
Eij
6
Analyse Factorielle des Correspondances (AFC)
Centre de gravité
Le centre de gravité, également appelé barycentre, pour le nuage de points des lignes noté (N (I )),
représente la distribution marginale de Y :
GX = (gx1 , gx2 , … , gxj , … , gxm ) = (f.1 , f.2 , … , f.j , … , f.m )
où g xj
= f.j
Le centre de gravité, ou le barycentre, pour le nuage de points des colonnes noté (N (J )), représente
la distribution marginale de X :
GY = (gy1 , gy2 , … , gyj , … , gym ) = (f1. , f2. , … , fj. , … , fn. )
où g yj = fj.
Inertie
Pour calculer l’inertie du nuage des points Lignes on doit calculer la distance entre les points lignes i et i
′
2
(fij −f )
2 i′ j
χ = n ∑ fi.
f.j
Si la distance est grande alors: Les modalités i et i de la variable X ont des valeurs très différentes dans les
′
modalités de Y
Pour calculer l’inertie du nuage des points colonnes on doit calculer la distance entre les points lignes j et j ′
2
(fij −fij′ )
2
χ = n ∑ f.j
fi.
Si la distance est grande alors : Les modalités j et j de la variable Y ont des valeurs très différentes dans les
′
modalités de X
Remarque :
- L’inertie est nulle alors X et Y sont indépendantes.
- Forte dépendance veut dire grande inertie
ou
P la matrice des poids associés aux points lignes :
et
la matrice profil ligne transformée et centrée
Aide à l’interprétation
Interprétation générale des graphiques :
On représente les deux nuages N(I) et N(J) sur le même graphique.
On n’interprète que les points bien représentés sur le plan factoriel étudié (comme Comme dans l’ACP)
7
Analyse Factorielle des Correspondances (AFC)
Récapitulatif AFC :
Nous résumons l'AFC en neuf étapes sur le premier plan factoriel :
Etape 1 : Cette première étape donne le tableau de contingence des modalités communes
aux deux variables. Les lignes et les colonnes jouent des rôles symétriques.
Etape 2 : Cette deuxième étape modifie le tableau en fréquences. Ces fréquences font
apparaître des lois de probabilités.
Etape 3 : Nous considérons ici le tableau comme une juxtaposition de lignes après transformation
en divisant par fi. Ces lignes sont appelées profil-lignes et peuvent être interprétées comme des probabilités
conditionnelles.
Etape 4 : Nous considérons ici le tableau comme une juxtaposition de colonnes après
transformation en divisant par f.j. Ces colonnes sont appelées profil-colonnes et
peuvent être interprétées comme des probabilités conditionnelles.
Etape5 : Les profils-lignes qui constituent le nuage N(I) sont projetés dans l'espace IRm et est analysé par
rapport au
centre de gravité qui constitue un profil moyen.
Etape 6 : Les profils-colonnes qui constituent le nuage N(J) sont projetés dans l'espace IRn et est analysé par
rapport
au centre de gravité qui constitue un profil moyen.
Etape 7 : Cette étape consiste en la projection du nuage N(I) sur le premier plan factoriel. Les distances
correspondent à des ressemblances entre les modalités.
Etape 8 : Cette étape consiste en la projection du nuage N(J ) sur le premier plan factoriel.
Les distances correspondent à des ressemblances entre les modalités.
(Relations de transition : ces relations expriment les résultats d'une AF en fonction
des résultats de l'autre).
Etape 9 : les relations de transition permettent des interprétations simultanées des axes.
Cette représentation simultanée facilite l'interprétation.