Rapport - Méthode - Exploratoire Fin
Rapport - Méthode - Exploratoire Fin
Rapport - Méthode - Exploratoire Fin
FPL
Méthodes exploratoires
Présenté par :
Réalisé par :
Sous la supervision de :
Kettaoui hakima
Seyouf farah Pr. MGHIZOU Hasnae
Ararou ayoub
1
Plan :
Table des matières
Résumé :.......................................................................................................................................................3
Introduction :...............................................................................................................................................4
I. Définition et caractéristique................................................................................................................5
1. Définition..........................................................................................................................................5
2. Objectifs des méthodes exploratoires :............................................................................................5
II. Outils d'analyse des données exploratoires :.......................................................................................6
III. Les méthodes exploratoires :...........................................................................................................6
1. ACP (Analyse en Composantes Principales)......................................................................................7
2. AFC (Analyse Factorielle des Correspondances)...............................................................................7
3. ACM (Analyse des Correspondances Multiples) :.............................................................................9
4. Analyse de similarité.......................................................................................................................10
5. Analyse typologique.......................................................................................................................12
Conclusion :................................................................................................................................................14
2
Résumé :
Les recherches, qu’elles soient de nature quantitative ou qualitative, visent la description,
l’exploration, l’évaluation, l’explication ou la prédiction du monde-vie tel que nous le percevons
et le construisons socialement. Camper la recherche qualitative dans le domaine exploratoire
représente une amputation de son pouvoir d’intelligibilité de la réalité. Il est plutôt souhaitable de
qualifier l’ambition descriptive, exploratoire, évaluative, explicative ou prédictive d’une
recherche. Et à notre travail, nous tentons de définir l'analyse exploratoire et présenter ces
méthodes.
3
Introduction :
Les méthodes d’analyse exploratoire prennent une extension nouvelle dans la recherche et la
statistique avec l’émergence des données massives (big data). Ces outils d’analyse et de
visualisation des données sont des fondements essentiels pour y repérer des structures et
développer des modélisations statistiques solides.
Quel que soit le type de données (quantitative, qualitative, textuelle, relationnelle, localisée)
l’étape d’exploration est une étape préliminaire dans la démarche d’une analyse statistique
pour répondre à une problématique posée.
Quand des individus sont décrits par un jeu de variables, plusieurs méthodes sont possibles
selon le type de variables considéré (quantitatives ou qualitatives).on trouve principalement 5
méthodes :
4
I. Définition et caractéristique
1. Définition
L’analyse exploratoire est une famille de méthodes qui ont pour objet de faciliter la visualisation
des données, de révéler leur structure sous-jacente et d’extraire certaines variables
importantes. On y fait généralement appel, dans une recherche de type hypothético-déductive,
pour affiner les interprétations dans le cadre de la vérification des hypothèses ou des questions
de recherche.
L'analyse exploratoire des données est un moyen puissant d'explorer un jeu de données. Même
lorsque l'objectif est d'effectuer des analyses planifiées, l'analyse exploratoire des données peut
être utilisée pour le nettoyage de données, l'analyse des sous-groupes ou simplement pour
mieux comprendre les données. Une étape initiale importante dans l'analyse des données
consiste à représenter graphiquement les données.
L'analyse exploratoire des données est donc un processus d'enquête qui consiste à
utiliser des résumés statistiques et des outils graphiques pour apprendre à connaître les
données.
Ces méthodes permettent d’obtenir des informations sur différents aspects des données
à partir de différents graphiques.
5
Ces méthodes consistent à utiliser des résumés et des visualisations numériques pour
examiner les données et identifier les relations potentielles entre des variables ;
trouver des anomalies dans les données, comme des observations inhabituelles ou des
valeurs aberrantes qui peuvent indiquer des problèmes de qualité des données ou
conduire à des informations intéressantes.
comprendre les relations potentielles entre des variables et formuler des questions ou
des hypothèses intéressantes.
Quand des individus sont décrits par un jeu de variables, plusieurs méthodes sont possibles
selon le type de variables considéré (quantitatives ou qualitatives). On distingue principalement
5 méthodes :
6
1. ACP (Analyse en Composantes Principales)
L'analyse en composantes principales (ACP, ou PCA en anglais) permet de dégager rapidement
les principales tendances de votre échantillon, en diminuant le nombre de variables nécessaires
à la représentation de vos données, tout en perdant le moins d'informations possible.
L’objectif de l’analyse en composantes principales (ou ACP) est purement descriptif : il s’agit «
d’explorer » un ensemble d’observations rassemblées sous la forme d’un tableau de données
indiquant pour chaque unité statistique les valeurs observées d’un certain nombre de variables
quantitatives. L’unité statistique peut-être primaire (par exemple un individu, une entreprise)
ou secondaire. Dans ce dernier cas, il s’agit de regroupement d’unités statistiques primaires.
L’objectif de l’Analyse en Composantes Principales est de revenir à un espace de dimension
réduite en déformant le moins possible la réalité. Il s’agit donc d’obtenir le résumé le plus
pertinent des données initiales.
L’analyse factorielle des correspondances, notée AFC, est une analyse destinée au traitement
des tableaux de données où les valeurs sont positives et homogènes comme les tableaux de
contingence (qui constituent la majeure partie des tableaux traités par cette méthode).
L’AFC a été introduite de façon complète dans les années 60 par JP BENZECRI. L’AFC est une
ACP. Les composantes principales sont toujours obtenues à partir de la distance entre les
différents points des nuages multidimensionnels, mais les points ont des coordonnées qui ont
7
subis une transformation préalable permettant de conserver une métrique identique à celle de
l’ACP pour calculer ces distances.
Le but principal de l’AFC reste donc le même ; lire l’information contenue dans un espace
multidimensionnel par une réduction de la dimension de cet espace tout en conservant un
maximum de l’information contenu dans l’espace de départ.
Principe
« L’analyse factorielle traite des tableaux de nombres. Elle remplace un tableau de nombres
difficile à analyser par une série de tableaux plus simples qui sont une bonne approximation de
celui-ci » Ces tableaux sont « simples », car ils sont exprimables sous forme de graphiques
Pourquoi « factorielle » ?
Il s’agit de décomposer le tableau original en une somme de tableaux/matrices qui sont chacun
le produit de facteurs simples. Autrement dit, on les « met en facteurs »
Démarche
L'analyse factorielle des correspondances AFC développée par Jean-Paul Benzecri et ses
collaborateurs emploie la métrique du chi-deux : chaque ligne est affectée d'une masse qui est
sa somme marginale, le tableau étudié est le tableau des profils des lignes, ce qui permet de
représenter dans le même espace à la fois les deux nuages de points associés aux lignes et aux
colonnes du tableau de données; elle est par ailleurs très agréablement complétée par des
outils de classification ascendante hiérarchique (CAH) qui permettent d'apporter des visions
complémentaires, en particulier en construisant des arbres de classification des lignes ou des
colonnes.
8
3. ACM (Analyse des Correspondances Multiples) :
L'Analyse des Correspondances Multiples (ACM) est une méthode qui permet d'étudier
l'association entre au moins deux variables qualitatives.
Elle permet en effet d'aboutir à des cartes de représentation sur lesquelles on peut visuellement
observer les proximités entre les catégories des variables qualitatives et les observations.
Cette méthode a pour objectif de Visualiser et de résumer l’information contenue dans des
masses volumineuses de données.
Etude des individus : deux individus sont proches s'ils ont répondu de la même façon
aux questions. On ne s'intéressera pas vraiment aux individus en tant que tels mais
plutôt aux populations : y a-t-il des groupes d'individus ?
Etude des variables et des modalités : les questions sont les mêmes que pour l'ACP.
Premièrement, on veut étudier les relations entre variables et les associations entre
modalités. Deux modalités sont proches si elles ont souvent été prises ensemble.
Deuxièmement, on recherche une ou plusieurs variable(s) synthétique(s) continue(s)
pour résumer les variables qualitatives. Troisièmement, on cherche à caractériser des
groupes d'individus par des modalités.
9
L'ACM permet d'étudier le lien entre ces variables par l'intermédiaire d'un tableau disjonctif
complet (TDC) ou du tableau de Burt (TB).
Domaine d'application :
L'ACM est une méthode très générale qui s'applique à tout tableau dans lequel un ensemble
d'individus est décrit par des variables qualitatives. Elle n'est donc pas inféodée à un champ
disciplinaire particulier. Toutefois elle est très utilisée dans le traitement des enquêtes
d'opinion, les questionnaires étant souvent composés de questions à choix multiples.
4. Analyse de similarité
Nous avons vu qu'une mesure associée à un concept établit une correspondance entre les
objets et des nombres, ce qui permet de comparer les objets et de déterminer la valeur de
vérité d'une ou de plusieurs des relations =, ≠, > ou <. Si, comme cela arrive souvent, un concept
comprend plusieurs dimensions, et que l'on veut néanmoins le traiter comme un tout.
Définition :
L'analyse de similitudes est une méthode d'analyse des données s'inscrivant dans une approche
issue de la théorie des graphes et qui se base sur la recherche de similitudes ou de
dissimilitudes. Cette approche permet de ne pas créer de catégories a priori, et de plutôt
10
construire les catégories à analyser à partir de similitudes formelles entre les entités au sein
d'un réseau.
Objectif :
L’analyse de similitude (ADS) est une technique, reposant sur la théorie des graphes,
classiquement utilisée pour décrire des représentations sociales, sur la base de questionnaires
d’enquête. Nous avons intégré au logiciel Iramuteq (P. Ratinaud) l’analyse de similitude d’une
matrice textuelle.
Les analyses permettent de montrer, en un seul graphique, à la fois les éléments communs
(généralement absents des recherches de spécificités, analyses des correspondances ou
classifications lexicales), mais également les éléments différentiés en fonction de variables liées
au corpus.
La démarche consiste à classer les objets pour dégager des types ne peut qu'être grandement
facilitée si l'on peut formaliser le concept de similarité et lui associer une mesure. Il existe
d'ailleurs des procédures de classification automatique fondées sur des mesures de similarité.
En outre, on souhaitera parfois s'en tenir à une démarche heuristique, plus informelle, et
examiner le degré de similarité entre des objets sans aller jusqu'à construire une typologie.
11
Logiciel utilisé :
Définition du logiciel :
5. Analyse typologique
Définition :
L’analyse typologique s’utilise sur tous types de variables (numériques, qualitatives…). Elle
permet de répartir la population de l’enquête en un nombre défini de sous-groupes aussi
12
différents que possibles les uns des autres et dans lesquels les individus sont aussi semblables
que possible entre eux. Les différentes méthodes d’analyse typologique partent des individus
eux-mêmes et essaient de les classer progressivement selon la ressemblance de leurs réponses
aux variables sélectionnées. Contrairement à la segmentation qui privilégie une seule variable à
expliquer, la typologie prend en compte toutes les variables choisies pour l’analyse, sur le même
plan. Ces variables sont utilisées pour découper le groupe d’individus initial en sous-groupes
aussi différents que possibles les uns des autres et avec des individus aussi semblables que
possibles à l’intérieur de chacun des groupes, ce qui est exactement ce que l’on recherche
lorsqu’on évoque ordinairement la notion de segmentation.
Objectif :
L’analyse typologique est une technique d’analyse qui a pour objet de regrouper les
sujets/objets, de telle sorte que chaque groupe de sujets/objets soit le plus homogène possible
sur les variables utilisées et diffère des autres groupes sur ces mêmes variables…
Quatre questions doivent être posées pour résoudre une analyse typologique :
La définition du corpus1
Le classement préalable
L’élaboration des types
La typologie.
1
Le corpus est un tout, un vaste ensemble, qui constitue à lui seul le cadre et le référentiel de l'analyse.
13
Logiciel utilisé :
Définition du logiciel :
SPSS signifie « Statistical Package for the Social Sciences ». Son objectif est d'offrir un logiciel
permettant de réaliser la totalité des analyses statistiques habituellement utilisées en sciences
humaines. C'est un logiciel très complet et dans ce cours, nous ne verrons qu'une très faible
partie de ses possibilités. Il existe bien d'autres logiciels comme S-Plus, R ou SAS qui permettent
d'atteindre les mêmes buts, c'est-à-dire faire des analyses statistiques.
Conclusion :
La recherche exploratoire est une méthode utilisée pour étudier des problèmes qui ne sont pas
clairement définis ou compris. Il est important que les chercheurs comprennent clairement leur
problème de recherche avant d'essayer d'y répondre afin de déterminer si le sujet vaut la peine
d'être étudié.
14