0% ont trouvé ce document utile (0 vote)
6 vues8 pages

AFC fr

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1/ 8

Analyse des données

"ADD"

L.Sami & R.AZZAZ

2023/01
Table of contents

Objectives 3
I - Analyse Factorielle des Correspondances (AFC) 4
1. Analyse Factorielle des Correspondances (AFC) ...............................................................4

2
Objectives
L’objet de ce cours est de présenter les principes de l’analyse des données. Le
programme rassemble un groupe de techniques aux fondements mathématiques qui
permet d’appréhender la structure de l’information contenue dans un espace à
plusieurs dimensions.
A l'issue de ce cours, l’étudiant sera capable de :
Traiter et décrire l'information contenue dans des grands ensembles de données.
Comprendre les moyens théoriques et pratiques pour exploiter les informations issues de base de
données statistiques multidimensionnelles grâce aux méthodes d’analyse statistique multivariées.
Comprendre les mécanismes qui justifient l'emploi de telle ou telle méthode
Interpréter correctement les graphiques et résultats fournis par les logiciels.

3
I Analyse Factorielle des
Correspondances (AFC)
Parmi les méthodes factorielles d’analyse des données qui tiennent compte de la dépendance entres les
variables, on avait cité l’AFC.
Cette méthode a pour objet de traiter les informations contenues dans un tableau appelé tableau de
contingence ou de dépendance. Ce tableau est relatif à deux ensembles de nature qualitatives différentes mais
qui sont liés d’une manière ou d’une autre.

1. Analyse Factorielle des Correspondances (AFC)


Tableau de contingence
On l’appelle aussi tableau à double entrée.
Soient la variable X à n modalités et la variable Y à m modalités

y1 ... yj ... ym

x1 K1,.

... ... ...

xi ... Ki,j .... Ki,.

... ... ...

xn Kn,.

K.,1 .. K.,j K.,m N

Où :
Ki,j : est l’effectif conjoint ou l’effectif des individus qui présentent à la fois la modalité x de X et la
i

modalité y de Yj

: est l’effectif des individus qui présentent la modalité x de X. Avec : K


m
Ki,. i i,. = ∑ Ki,j
j=1

K.,j : est l’effectif des individus qui présentent la modalité y de Y . Avec : K


j .,j
= ∑
n

i=1
Ki,j

Remarque :On a :
n m n m
∑ Ki,. = ∑ K.,j = ∑ ∑ Ki,j = N
i=1 j=1 i=1 j=1

4
Analyse Factorielle des Correspondances (AFC)

exemple :
Supposons que nous ayons mené une enquête auprès de 100 individus afin de comprendre leurs préférences
pour deux types de boissons, le café et le thé, en fonction de leur genre (Homme ou Femme). Les données
collectées sont les suivantes :

Café Thé Total

Homme 20 10 30

Femme 25 45 70

Total 45 55 100

On a :
Le nombre de modalités du caractère X « Genre » est égal 2 (n=2) et le nombre de modalités du
caractère Y « boissons» est égal à 2 (m=2).
Le nombre total d’individus est égal à N=100.

Fréquences conjointes / Tableau de contingence des fréquences relatives:


A partir des effectifs conjoints K on peut obtenir les fréquences conjointes f telles que : f est la
Kij
ij ij ij =
N

proportion des individus qui présentent à la fois la modalité x de X et la modalité y de Y


i j

Avec :
fi,. =
Ki.

N
est la proportion des individus qui présentent la modalité x de X. i

est la proportion des individus qui présentent la modalité y de Y .


K.j
f.j = j
N

Remarque :On a :
n m n m
∑ fi. = ∑ f.j = ∑ ∑ fij = 1
i=1 j=1 i=1 j=1

Voici le tableau de contingence des fréquences relatives noté Z :

y1 ... yj ... ym

x1 f1.

... ... ...

xi ... fij .... fi.

... ... ...

xn fn.

f.1 .. f.j f.m 1

Où :
Voici le tableau des fréquences relatives basé sur le tableau de l'exemple N° 01:

Café Thé Total

Homme 0.2 0.1 0.3

Femme 0.25 0.45 0.70

Total 0.45 0.55 1

5
Analyse Factorielle des Correspondances (AFC)

profil lignes et profil colonnes


L’AFC s’intéresse plus particulièrement aux effectifs marginaux des tableaux que l’on appelle profils.
Le tableau de contingence Z peut être alors transformé selon deux autres tableaux Z et Z appelés L C

respectivement : tableau des profils lignes et tableau des profils Colonnes.

Profil lignes :
Dans le tableau des profils lignes Z , il s’agit de diviser les éléments de chaque ligne i du
L

tableau des fréquences Z sur la fréquence marginale correspondante f (fréquences i.

conditionnelles)

Ce tableau est aussi appelé : matrice des pourcentages lignes à partir desquels on obtient le nuage de points
dans R . m

Profil colonnes : Dans le tableau des profils colonnes Z , il s’agit de diviser les éléments de C

chaque colonne j sur la fréquence marginale correspondante f ∙ .j

Ce tableau est aussi appelé : matrice des pourcentages colonnes à partir desquels on obtient le nuage de
points dans R . n

Modèle d’indépendance

Pour des variables


Pour les événements
qualitatives

deux Variables qualitative


sont indépendantes
⟹ fij = fi. . f.j
A et B sont deux événements
indépendants Autrement dit :
fij
⟹ p(A ∩ B) = P (A). P (B)
fi. = (Probabilité
f.j

conditionnelle =Probabilité
marginale)

Test d’indépendance du khi-deux


La liaison entre deux variables qualitatives c’est l’écart entre les données observées fij et les données du
modèle d’indépendance f . f i. .j

L’AFC a pour objectif d’étudier la liaison qui existe entre deux variables qualitatives ce qui revient donc à
appréhender l’écart entre données observées et données dans le cas d’indépendance. L’étude de la
significativité de cet écart est faite par le test du khi deux.
Ce test consiste à évaluer l’écart entre valeur observées et valeurs théorique du modèle d’indépendance.
ki. .k.j
2 2
n m (fij −fi. .f.j ) n m (kij − )
2 N
χ = ∑ ∑ = ∑ ∑ k .k
i=1 j=1 fi. .f.j i=1 j=1 i. .j

on peut ecrire:
2
(kij −Eij )
2
χ = ∑
Eij

Il s’agit de tester l’hypothèse :


H0 : Les deux variables X et Y sont indépendantes
Contre l’hypothèse alternative
H1 : Les variables X et Y sont liées.(Voir la série d’exercices corrigés)

6
Analyse Factorielle des Correspondances (AFC)

Centre de gravité
Le centre de gravité, également appelé barycentre, pour le nuage de points des lignes noté (N (I )),
représente la distribution marginale de Y :
GX = (gx1 , gx2 , … , gxj , … , gxm ) = (f.1 , f.2 , … , f.j , … , f.m )

où g xj
= f.j

Le centre de gravité, ou le barycentre, pour le nuage de points des colonnes noté (N (J )), représente
la distribution marginale de X :
GY = (gy1 , gy2 , … , gyj , … , gym ) = (f1. , f2. , … , fj. , … , fn. )

où g yj = fj.

Inertie
Pour calculer l’inertie du nuage des points Lignes on doit calculer la distance entre les points lignes i et i

centrés par le barycentre G en utilisant la métrique du khi-deux :


X

2
(fij −f )
2 i′ j
χ = n ∑ fi.
f.j

Si la distance est grande alors: Les modalités i et i de la variable X ont des valeurs très différentes dans les

modalités de Y
Pour calculer l’inertie du nuage des points colonnes on doit calculer la distance entre les points lignes j et j ′

centrés par le barycentre G en utilisant la métrique du khi-deux :


Y

2
(fij −fij′ )
2
χ = n ∑ f.j
fi.

Si la distance est grande alors : Les modalités j et j de la variable Y ont des valeurs très différentes dans les

modalités de X
Remarque :
- L’inertie est nulle alors X et Y sont indépendantes.
- Forte dépendance veut dire grande inertie

Recherche des axes factoriels


Analyse du nuage des points lignes N(I) (Analyse directe) :
Comme dans l’ACP on va donc diagonaliser V (Rechercher ses valeurs propres et vecteurs propres)
La matrice V peut s’écrire comme suit :

ou
P la matrice des poids associés aux points lignes :

et
la matrice profil ligne transformée et centrée

Aide à l’interprétation
Interprétation générale des graphiques :
On représente les deux nuages N(I) et N(J) sur le même graphique.
On n’interprète que les points bien représentés sur le plan factoriel étudié (comme Comme dans l’ACP)

7
Analyse Factorielle des Correspondances (AFC)

Interprétation des points par rapport aux axes :


Pour interpréter les groupes de points-profils d’une variable, on tient compte de leur position par
rapport aux axes (Chaque axe a son interprétation donnée)
Interprétation des proximités entre points :
Deux points d’une même variable suffisamment proches représentent deux modalités ayant des
distributions similaires selon les modalités de l’autre variable

Récapitulatif AFC :
Nous résumons l'AFC en neuf étapes sur le premier plan factoriel :
Etape 1 : Cette première étape donne le tableau de contingence des modalités communes
aux deux variables. Les lignes et les colonnes jouent des rôles symétriques.
Etape 2 : Cette deuxième étape modifie le tableau en fréquences. Ces fréquences font
apparaître des lois de probabilités.
Etape 3 : Nous considérons ici le tableau comme une juxtaposition de lignes après transformation
en divisant par fi. Ces lignes sont appelées profil-lignes et peuvent être interprétées comme des probabilités
conditionnelles.
Etape 4 : Nous considérons ici le tableau comme une juxtaposition de colonnes après
transformation en divisant par f.j. Ces colonnes sont appelées profil-colonnes et
peuvent être interprétées comme des probabilités conditionnelles.
Etape5 : Les profils-lignes qui constituent le nuage N(I) sont projetés dans l'espace IRm et est analysé par
rapport au
centre de gravité qui constitue un profil moyen.
Etape 6 : Les profils-colonnes qui constituent le nuage N(J) sont projetés dans l'espace IRn et est analysé par
rapport
au centre de gravité qui constitue un profil moyen.
Etape 7 : Cette étape consiste en la projection du nuage N(I) sur le premier plan factoriel. Les distances
correspondent à des ressemblances entre les modalités.
Etape 8 : Cette étape consiste en la projection du nuage N(J ) sur le premier plan factoriel.
Les distances correspondent à des ressemblances entre les modalités.
(Relations de transition : ces relations expriment les résultats d'une AF en fonction
des résultats de l'autre).
Etape 9 : les relations de transition permettent des interprétations simultanées des axes.
Cette représentation simultanée facilite l'interprétation.

Vous aimerez peut-être aussi