Appliquer Les Méthodes de La Statistique Textuelle

Appliquer les méthodes
de la statistique textuelle
Appliquer les méthodes
de la statistique textuelle
Bénédicte GARNIER
France GUÉRIN-PACE
INED
Paris 2010
Le Bureau d’Appui à la Recherche (BAR) suscite des groupes de travail rassemblant des
chercheurs du Nord et du Sud autour de questions émergentes. Ceux-ci développent un
programme d’activité annuel ou pluri-annuel, le plus souvent sous forme d’ateliers. Ces
activités sont valorisées par des publications et une diffusion large des résultats. Les sujets
sont thématiques, géographiques ou méthodologiques, en particulier le développement, la
mise en œuvre et l'évaluation d'outils de collecte et d'analyse.
Les Collections du CEPED comportent trois séries :
– la série « les Clefs pour »
– la série « Regards sur »
– la série « Les numériques du CEPED »
Ces publications permettent une diffusion rapide et validée des résultats de recherche ainsi
qu’une meilleure connaissance des nouvelles méthodes, techniques et concepts en matière de
Population et développement.
Les chercheurs, et particulièrement les chercheurs du Sud, qui y ont un accès privilégié, y
trouvent une validation scientifique et une bonne dissémination de leurs travaux.
Rédactrice en chef : Éva Lelièvre

Assistante de rédaction : Yvonne Lafitte
Directeur de la publication : Yves Charbit
Responsable du BAR : William Molmy
Maquette de couverture : Christine Tichit

Photo de couverture : © IRD – Laure Emperaire
Conception graphique : sbgraphik – www.sbgraphik.com
© Copyright UMR CEPED 2010

ISSN : 1777-4551 – ISBN : 978-2-87762-182-3
CEPED
UMR 196 Université Paris Descartes-INED-IRD
19, rue Jacob – 75006 Paris – France
Tél. : 33 (0)1 78 94 98 70 – Fax : 33 (0)1 78 94 78 79

Courriel : contact@ceped.org
Web : http://www.ceped.org
LES CLEFS POUR …
La série « les Clefs pour » des Collections du CEPED se donne pour objectif de faire
partager l’expérience, de ménager les échanges en assurant la diffusion des méthodes
et des concepts. Cette série se présente sous forme de petits manuels qui n’ont pas pour
ambition de faire le tour de la question mais plutôt de proposer soit une introduction,
soit un manuel pratique permettant de se familiariser avec le sujet présenté et
d’accéder aux publications plus élaborées le cas échéant.
Répondre à une demande concrète

Les chercheurs, les praticiens et les étudiants qui travaillent sur les questions de
population, sont confrontés à des contraintes spécifiques de terrain, à l’adaptation
d’outils et de concepts, au manque de données qui rend nécessaire une valorisation de
données existantes ou des collectes spécifiques et à la nécessité d’innover et d’utiliser
au mieux les avancées développées dans des contextes divers.
Ces contraintes appellent des solutions précises, des innovations méthodologiques et
des discussions conceptuelles dont la diffusion permet l’avancée de la recherche.
Faire circuler concepts et méthodes

Du point de vue des concepts, les échanges entre les chercheurs travaillant sur des
terrains du Sud comme du Nord sont primordiaux. La nécessaire adaptation et parfois
la critique de concepts historiquement ancrés ailleurs permet de cerner les
particularités et les ressemblances faisant progresser les termes de la comparaison. En
effet, l’ethnocentrisme conceptuel génère des catégories de collecte et d’analyse qui
peuvent entrer en contradiction avec les catégories de pensée des populations, ou
masquer la complexité de l’organisation sociale.
Les méthodes et outils de collecte (questionnaires, modes d’observation) provenant de

systèmes d’observation standardisés « universels » sont souvent inadaptés. Cela se
traduit par des imprécisions, voire une mésinterprétation réciproque des questions et
des réponses, et pervertit les données. Pour éviter ces écueils, des outils sont
expérimentés dans le recueil de l’activité, de la composition familiale des ménages, de
la complexité résidentielle… Il s’agit de favoriser la diffusion des expériences et
expertises méthodologiques multilatérales et interdisciplinaires.
Du point de vue de l’analyse s’appuyant sur la présentation d’outils développés au

Sud comme au Nord, la série « les Clefs pour » vise à diffuser des méthodes nouvelles
ou qui ont fait leurs preuves dans d’autres disciplines que la démographie, ménageant
ainsi les transferts interdisciplinaires.
Table des matières
INTRODUCTION ................................................................................................................ 9
1. LES ÉTAPES DE TRAITEMENT D’UN CORPUS .............................................................. 11
1.1. Sélectionner les mots à analyser ........................................................................ 11
1.1.1 Construire le lexique................................................................................. 11
1.1.2 Réduire le vocabulaire .............................................................................. 14
1.2. Construire les tableaux lexicaux ........................................................................ 16
1.2.1 Le Tableau Lexical Entier ........................................................................ 16
1.2.2 Le Tableau Lexical Agrégé....................................................................... 17
1.3. Choisir les méthodes à utiliser ........................................................................... 17
1.3.1 Les méthodes factorielles.......................................................................... 19
1.3.2 Les classifications ..................................................................................... 24
1.3.3 Les aides à l’interprétation........................................................................ 26
Les contextes d’utilisation des mots ......................................................... 26
Les spécificités lexicales........................................................................... 26
2. LES OUTILS ................................................................................................................ 33
2.1. Panorama des logiciels....................................................................................... 33
2.1.1 Trois logiciels de référence....................................................................... 33
2.1.2 D’autres logiciels ...................................................................................... 34
2.1.3 Quelques critères de choix de logiciels..................................................... 35
2.2. Préparer le corpus .............................................................................................. 38
2.2.1 Pour Spad .................................................................................................. 38
2.2.2 Pour Alceste .............................................................................................. 40
2.2.3 Pour Lexico............................................................................................... 42
3. LA MISE EN ŒUVRE .................................................................................................... 45
3.1. Spad (version 7) ................................................................................................. 45
3.1.1 Présentation générale ................................................................................ 45
3.1.2 Importer les données et créer le lexique ................................................... 48
La lemmatisation....................................................................................... 51
3.1.3 L’analyse factorielle sur le Tableau Lexical Agrégé ................................ 57
3.1.4 Le vocabulaire spécifique ......................................................................... 61
3.2. Alceste (version 4.8) .......................................................................................... 63
3.2.1 Présentation générale d’Alceste 4.8.......................................................... 63
Le menu Plan d’analyse............................................................................ 63
Le menu Analyse ...................................................................................... 64
Le menu Résultats..................................................................................... 64
3.2.2 Importer les données et créer le lexique ................................................... 64
Importer les données................................................................................. 64
Créer le lexique : la lemmatisation sous Alceste ...................................... 66
3.2.3 La classification d’Alceste........................................................................ 68
Découper les textes en Unités de Contexte............................................... 68
La classification ........................................................................................ 68
3.2.4 Les aides à l’interprétation........................................................................ 69
3.2.5 Intervenir dans le paramétrage.................................................................. 71
3.3. Lexico (version 3).............................................................................................. 71
3.3.1 Présentation générale ................................................................................ 72
3.3.2 Importer les données et créer le dictionnaire ............................................ 72
Importer les données................................................................................. 72
Créer le dictionnaire.................................................................................. 72
Les statistiques par partie.......................................................................... 75
3.3.3 Cartographie textuelle............................................................................... 77
CONCLUSION ................................................................................................................. 79
RÉFÉRENCES BIBLIOGRAPHIQUES .................................................................................. 81
Liste des figures ............................................................................................................ 83
Liste des tableaux.......................................................................................................... 85
Index ............................................................................................................................. 87
Introduction
L’objectif de ce manuel est de présenter de manière simple et illustrée les éléments

clés de la statistique textuelle et de sa mise en œuvre.
La statistique textuelle se situe à la croisée de plusieurs disciplines : la statistique
classique, la linguistique, l’analyse du discours, l’informatique, le traitement des
enquêtes (Lebart et Salem, 1994). Elle s’applique à des corpus de textes de nature
extrêmement variée : entretiens, réponses à des questions ouvertes, écrits historiques,
littéraires, textes d’archives, etc.
Il existe deux grandes familles de traitement des données textuelles : la première
s’intéresse à la description des textes du point de vue de leur forme (comparaison du
vocabulaire de différents auteurs, étude du style, etc.) ; la seconde privilégie le contenu
des textes sur leur forme afin d’en extraire le sens. C’est cette dernière approche que
nous aborderons ici.
Le corpus de textes à traiter peut être par exemple un ensemble de réponses à une
question ouverte dans une enquête. La taille des réponses varie de quelques mots à
quelques phrases, et on dispose par ailleurs d’un ensemble de caractéristiques sur les
répondants et de leurs réponses à d’autres questions de l’enquête. L’objectif de
l’analyse est d’extraire les principaux axes de différenciation du vocabulaire des
réponses et de les rattacher à des groupes de locuteurs.
La collection de textes à analyser peut aussi se présenter sous la forme de textes plus
longs tels que des entretiens, matériau de recherche fréquemment utilisé en sciences
humaines (démographie, psychologie, sociologie, géographie, histoire, etc.). Il s’agit
alors de synthétiser le contenu des entretiens en en faisant émerger des thématiques et
de les comparer selon les caractéristiques sociales et démographiques des répondants
(âge, sexe, milieu social, profession, région, etc.).
L’intérêt majeur des méthodes de la statistique textuelle est de traiter les textes tels
qu’ils ont été écrits ou recueillis sans intervenir pour les modifier. En effet, le recours à
une post-codification dans le cas de réponses à des questions ouvertes a pour
inconvénient de simplifier et parfois de déformer les réponses par la médiation du
chiffreur ou l’interprétation du chercheur. Ainsi, ce sont des textes sous leur forme
brute que l’on va tenter de saisir et d’analyser à travers le sens des mots et les formes
des phrases qui les structurent. La statistique textuelle permet d’objectiver et de
synthétiser ces informations qualitatives pour faire émerger une représentation
commune et diverse à la fois.
10 APPLIQUER LES MÉTHODES DE LA STATISTIQUE TEXTUELLE
Ce manuel s’adresse à tous ceux qui sont amenés à traiter des textes quel que soit leur
domaine d’étude : sociologie, histoire, démographie, géographie, marketing, etc. et
leur niveau de connaissances en statistique.
Il existe un grand nombre de logiciels qui permettent d’analyser un corpus de textes
mais il faut distinguer les logiciels à proprement dit de statistique textuelle des
logiciels d’aide à l’exploration de textes. Les premiers considèrent les textes comme
des variables de nature particulière que l’on peut traiter par des méthodes de statistique
exploratoire classiques (Spad, Alceste, Lexico, etc.) ; les seconds (Sphinx, Nvivo, etc.)
supposent l’élaboration a priori par le chercheur d’une grille d’analyse qui peut être
enrichie et modifiée par une relecture assistée du corpus grâce à des outils d’aide à la
lecture. Ces logiciels ne proposent aucune analyse statistique et ne seront pas exposés
dans cet ouvrage.
Quel que soit le logiciel de statistique textuelle utilisé, l’analyse des textes est précédée
de plusieurs étapes communes que nous décrirons dans la première partie de ce
manuel. Dans une seconde partie, nous présenterons quelques logiciels qui font
référence dans le domaine de la statistique textuelle (Spad, Alceste, Lexico) ainsi que
la mise en forme des corpus nécessaire à leur utilisation. Enfin, dans une dernière
partie, nous illustrerons les méthodes par des exemples concrets d’application de ces
logiciels.
1. Les étapes de traitement d’un corpus
Appliquer les méthodes de la statistique textuelle nécessite de procéder à une chaîne

de traitements :
- sélectionner les mots à analyser à partir du lexique associé au corpus et
éventuellement procéder à une lemmatisation du vocabulaire, manuelle, assistée
ou automatique selon les logiciels ;
- construire le Tableau Lexical (Entier ou Agrégé) sur lequel on va effectuer des
analyses statistiques multivariées ;
- choisir la (les) méthode(s) de traitement (factorielle et/ou de classification) que
l’on souhaite appliquer sur le corpus en fonction de l’objectif fixé.
1.1 Sélectionner les mots à analyser
1.1.1 Construire le lexique
L’inventaire des mots présents dans un corpus donné constitue le lexique 1 . Selon le
choix de l’utilisateur, le lexique peut être restitué, soit par ordre alphabétique soit par
ordre de fréquence décroissante d’apparition des mots (Tableau 1).
La lecture du vocabulaire est une étape très importante qui permet à l’utilisateur de
s’approprier progressivement le corpus :
- en repérant la présence et la fréquence des mots employés ;
- en recherchant un terme précis et sa fréquence d’apparition ;
- en comparant la fréquence des mots.
1
Pour une définition des termes spécifiques à l’analyse textuelle, on pourra se référer au glossaire de
Statistiques Textuelles : http://tal.univ-paris3.fr/wakka/wakka.php?wiki=Glossaire
Tableau 1 − Extrait du lexique associé à la question « Si je vous dis environnement,

qu’est ce que cela évoque pour vous ? 2 » (logiciel Spad)
Fréquence Mot
2650 la
2125 nature
1922 de
973 les
895 vie
891 ce
860 qui
859 le
716 l’
492 entoure
471 tout
464 autour
405 est
382 cadre
356 nous
355 pollution
328 espace
306 on
296 a
291 qualité
281 campagne
268 bien
262 ou
248 air
247 verdure
228 propreté
226 moi
224 être
215 m’
214 calme
Source : Enquête Populations - Espaces de vie - Environnements (Ined, 1992)
2
Nous appellerons corpus « Environnement » le corpus des réponses à la question: « Si je vous dis
Environnement qu’est ce que cela évoque pour vous ? » (Enquête lned « Populations - Espaces de
vie - Environnements » (Collomb et Guérin-Pace, 1998) qui a été choisi pour illustrer les traitements
d’une question ouverte. Cette enquête réalisée auprès d’un échantillon de 5 000 personnes,
représentatif de la population française, comportait un ensemble de questions d’opinion centrées sur
l’environnement.
B. GARNIER et F. GUÉRIN-PACE 13
Une lecture de cette liste de mots donne un premier aperçu du contenu du corpus.
Interprétation possible : Les français associent fréquemment l’environnement à la
nature, que ce soit par l’introduction même du mot nature ou par celle des éléments
qui la composent : « campagne », « verdure ». L’environnement semble souvent limité
à un pourtour immédiat du lieu d’habitation : « autour », « entoure » ou souvent
décliné sur le thème de la « qualité » ou du « cadre » de « vie », etc. (Guérin-Pace et
Collomb, 1998)
Outre une première interprétation du contenu du corpus, cette lecture attentive du

vocabulaire par ordre de fréquence décroissante permet aussi :
- de repérer les mots-outils les plus fréquemment utilisés (articles, prépositions,
pronoms, etc.) ;
- de déterminer le seuil d’occurrence des mots à prendre en compte dans les
analyses statistiques.
Cette lecture est à compléter par celle du vocabulaire classé par ordre alphabétique, qui
permet de repérer :
- les mots mal orthographiés ou abrégés en vue de les corriger ;
- les mots ayant une signification similaire (selon l’interprétation de l’utilisateur) en
vue d’un éventuel regroupement (cf. 1.1.2).
Il est utile de préciser que si le lexique contient ici des mots français, on pourrait de la
même manière traiter des mots exprimés dans une autre langue. En effet, la méthode
repose sur le traitement de suites de caractères séparés par des délimiteurs (blanc,
virgule, point, etc.), appelées forme graphique, indépendamment du sens qui leur est
conféré. Dans la suite du manuel, nous utiliserons indifféremment les termes mots ou
formes.
Cette première étape d’étude du vocabulaire peut être complétée et enrichie par une
recension des segments répétés ou suite de mots qui se répètent dans le corpus
(Tableau 2).
Tableau 2 − Extrait des segments répétés associés au corpus « Environnement »

(logiciel Spad)
Fréquence Segments répétés

1322 la nature
653 de vie
385 autour de
337 tout ce qui
324 cadre de vie
200 qualité de vie
213 qui nous entoure
174 la campagne
Comme nous venons de le voir, l’étude du lexique associé au corpus est une étape
incontournable car elle sert à la fois à supprimer dans le corpus des erreurs ou
coquilles inévitablement présentes et à se familiariser avec son contenu avant
d’entreprendre des analyses plus approfondies.
Selon la nature des textes et leur richesse lexicale, il pourra être envisagé de procéder à
une réduction du vocabulaire par une opération de lemmatisation, opération manuelle,
assistée ou automatique selon le logiciel utilisé (cf. 2.1.3).
1.1.2 Réduire le vocabulaire
L’opération qui consiste à rattacher un ou plusieurs mots à une forme dite racine est
dénommée lemmatisation (Lebart et Salem, 1994). Il s’agit par exemple de ramener les
formes verbales à leur infinitif, de regrouper les adjectifs au masculin et féminin,
singulier et pluriel, etc. Ainsi, sous la forme/racine aller, on peut associer toutes les
formes conjuguées du verbe présentes dans le corpus : allez, va, irons, etc. et sous la
forme/racine beau, on peut regrouper les mots : belle, belles, beaux.
Le bien-fondé et l’intérêt de l’opération de lemmatisation divise les spécialistes : pour
ses détracteurs elle comporte le risque de regrouper des mots dont l’emploi peut être
très différent (exemple : vert et verts dans le corpus « Environnement »). Quoi qu’il en
soit, cette opération de réduction du vocabulaire se justifie davantage pour des corpus
de taille importante (entretiens) dont le vocabulaire est riche et varié et dont
l’interprétation gagne à être affinée.
Le tableau 3 illustre une opération de lemmatisation. Les mots écologique, écolo-
giques, écologiste, écologistes et écolos, dont la fréquence dans le corpus est faible,
seront pris en compte sous la forme/racine écologie. On aurait aussi pu choisir de
distinguer les mots relatifs à l’écologie (écologies, écologique, écologiques) et ceux
qui désignent des acteurs (écolo, écolos, écologiste, écologistes).
Certains logiciels, notamment Alceste, proposent un traitement du vocabulaire encore
plus poussé. Non seulement les mots sont affectés automatiquement à des catégories
grâce à des dictionnaires grammaticaux inclus dans le logiciel qui permettent de les
différencier selon leur nature (article, pronom personnel, locutions, prépositions, noms
communs, noms propres, verbes) mais aussi selon leur fonction (marqueur de relation
temporelle, spatiale d’intensité, marqueurs d’énonciation, etc.) (Tableau 4). Cette
catégorisation peut ensuite être affinée manuellement par l’utilisateur en fonction de
l’analyse qu’il souhaite mener sur le corpus. Par exemple, il pourra choisir de
distinguer les prénoms utilisés selon qu’il s’agit d’un homme ou d’une femme ou
encore les lieux selon qu’ils sont situés en France ou à l’étranger.
Tableau 3 − Extrait de la lemmatisation du vocabulaire du corpus « Environnement »

(logiciel Alceste)
Forme racine Mot Fréquence

écologie 127
écolo 1
écologique 3
écologie+ écologiques 1
écologiste 2
écologistes 6
écolos 7
nuisance+ nuisance 6
nuisances 20
odeur 8
odeur+ odeurs 28
odorat 1
prairie+ prairie 2
prairies 9
vert+ vert 78
verts 98
Note : La forme vert-verts prête à confusion car elle peut aussi désigner les écologistes. Seule une
lecture du contexte d’utilisation du mot permettra d’effectuer la distinction.
Tableau 4 − Extrait de catégorisation de mots extraits du corpus « Environnement »

(logiciel Alceste)
Forme racine Mots Catégorie

naturel+ naturelle, naturelles, naturels Adjectif/Adverbe
nuisance+ nuisance, nuisances Noms
améliorer+ amélioration, améliorer Verbe
Bretagne Bretagne Lieux/Pays
dix dix Nombre
chez chez Marqueur d’une relation spatiale
près près Marqueur d’une relation spatiale
autrefois autrefois Marqueur d’une relation temporelle
beaucoup beaucoup Marqueur d’une intensité
je j', je Marqueur de la personne
on on Démonstratifs, indéfinis et relatifs
qui qui Démonstratifs, indéfinis et relatifs
1.2 Construire les tableaux lexicaux
Une fois le lexique constitué, il est nécessaire de construire à partir de celui-ci un

tableau de données lexicales sur lequel on appliquera des méthodes statistiques. Selon
la structure du corpus et le volume, il sera parfois nécessaire de procéder à un
découpage des textes en séquences de taille réduite. Dans le traitement de questions
ouvertes dans des enquêtes, les réponses contiennent généralement un nombre restreint
de mots et chaque réponse peut alors être considérée comme une unité textuelle. Dans
le cas de textes longs où il n’existe pas de césures naturelles (paragraphes, chapitres,
strophes, etc.), il est nécessaire de procéder à un découpage en parties de textes (suite
de quelques phrases, paragraphes) en fonction de critères à fixer. Selon les logiciels, le
découpage des textes est automatisé (Alceste) ou à effectuer manuellement lors de
l’étape de mise en forme du texte (Spad, Lexico) (cf. partie 3).
Une fois ce découpage effectué, les logiciels de statistique textuelle transforment le
corpus de textes initial en tableaux dits lexicaux sur lesquels peuvent ensuite être
appliquées des méthodes classiques d’analyse des données.
1.2.1 Le Tableau Lexical Entier
Le Tableau Lexical Entier (TLE) est un tableau disjonctif complet (ou tableau
d’absence-présence contenant des 0 et des 1) dont les lignes correspondent aux unités
textuelles (réponses à des questions ouvertes ou parties de textes) et les colonnes aux
mots du lexique (réduit ou non) extraits du corpus (Tableau 5). Ce tableau est qualifié
« d’hyper creux » car il comporte une très forte proportion de 0 (environ 95 %) et
nécessite des méthodes de traitement spécifiques.
Tableau 5 − Extrait du Tableau Lexical Entier associé au corpus « Environnement »
Formes lexicales (mots du corpus)

Réponses arbres cadre de entoure la le les nature nous oiseaux qualité qui vie
la nature, les
1 0 0 0 1 0 1 1 0 1 0 0 0
arbres, des oiseaux
la nature qui nous
0 0 0 1 1 0 0 1 1 0 0 1 0
entoure
la qualité de vie 0 0 1 0 1 0 0 0 0 0 1 0 1
le cadre de vie, la
0 1 1 0 1 1 0 1 0 0 0 0 1
nature

Note : Chacune des cases du Tableau Lexical Entier indique la présence (1) ou l’absence (0) de la
forme dans l’unité textuelle analysée (dans cet exemple, chaque ligne correspond à une
réponse à la question ouverte).
Le Tableau Lexical Entier permet avant tout de repérer les cooccurrences des mots
dans les réponses ou dans les parties de textes. Si l’on veut relier le vocabulaire du
corpus avec les caractéristiques des locuteurs, il est nécessaire de recourir à un
Tableau Lexical Agrégé (TLA).
1.2.2 Le Tableau Lexical Agrégé
Le Tableau Lexical Agrégé est un tableau de contingence, en réalité une juxtaposition

de tableaux de contingence, croisant les mots présents dans le lexique avec un
ensemble de variables données qui ont été choisies pour être analysées en relation avec
les données textuelles. Le plus souvent, il s’agit de caractéristiques individuelles des
répondants mais on peut aussi introduire des modalités de réponses à une ou plusieurs
autres questions que l’on aura sélectionnées, dans le cas d’une enquête, en fonction de
leur pertinence au regard de la question ouverte analysée.
Dans l’exemple illustré par le Tableau 6, les variables âge, diplôme et activité profes-
sionnelle ont été jugées pertinentes pour analyser la diversité des représentations en
matière d’environnement.
On juxtapose ainsi autant de tableaux lexicaux que l’on sélectionne de variables
différentes. S’il est possible de retenir un grand nombre de variables, on veillera
cependant à la répartition des effectifs dans les différentes modalités d’une variable.
Ainsi, il est préférable que chaque modalité d’une variable comptabilise à peu près
autant d’individus (on parlera de variable « équilibrée ») et qu’il n’y ait pas de
modalités « vides » ou quasi-vides (c’est-à-dire sans individu). Pour cela, il convient
d’effectuer au préalable des descriptions univariées (calculs de fréquences) sur les
variables avec lesquelles on souhaite construire le Tableau Lexical Agrégé. En
pratique, si l’on constate que moins de 5 % des individus sont regroupés dans une
modalité, il est alors opportun de ventiler/recoder cette variable 3 .
1.3 Choisir les méthodes à utiliser
Deux types d’analyse des données sont utilisés dans le cadre de la statistique textuelle :
les méthodes factorielles (Analyse Factorielle des Correspondances, Analyse des
Correspondances Multiples, etc.) qui mettent en évidence les principales structurations
du corpus selon des axes factoriels, et les techniques de classification automatique
destinées à « mettre en évidence une dimension d’organisation du corpus de textes »
selon une partition des unités textuelles (Reinert, 1983).
3
Il est possible avec le logiciel Spad de traiter ces modalités en éléments supplémentaires.
Tableau 6 − Extrait d’une juxtaposition de Tableaux Lexicaux Agrégés associés au corpus « Environnement »
Table au de continge nce
-2 0 ans 2 0 -2 9 ans 3 0 -3 9 ans 4 0 -4 9 ans 5 0 -5 9 ans +6 0 ans NOdip CEP B E prof B AC S up ag r& ouvr cadr& lib comm& as s employe ens & etud inactif ouvr_ s pe
ailleu rs 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 1 0
air 1 26 59 60 21 79 38 25 26 19 1 67 70 0 13 22 4 42 25
b io lo g ie 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1
camp ag n e 4 22 65 61 35 81 22 36 27 71 57 54 21 15 11 44 20 37 29
Co u s teau 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0
d is tractio n 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0
en trep ris e 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0
famille 1 6 9 9 4 11 11 7 6 1 0 4 11 0 5 1 2 4 4
g u erre 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0
HLM 1 0 0 0 0 1 1 0 0 0 1 0 0 0 0 0 1 1 0
in d is p en s ab le 0 0 1 0 0 1 0 0 0 0 0 1 1 0 1 0 0 0 0
jo u rn al 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1
lan d es 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 1
milieu 1 17 13 18 15 20 3 6 7 14 18 35 6 13 3 8 22 6 5
mo i 0 21 51 49 25 74 25 34 11 72 37 41 18 15 7 26 16 48 23
mo n 0 8 17 24 13 23 6 6 11 25 15 22 12 14 0 12 6 8 6
mo n d e 0 3 3 8 7 3 3 3 2 9 2 5 2 2 3 4 5 5 1
mo n o to n ie 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0
mo n t 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0
mo n tag n e 0 8 10 6 4 10 1 3 2 10 8 14 2 5 1 6 7 3 3
n atu re 26 306 553 476 245 481 156 252 173 637 331 532 139 164 77 323 271 319 265
p o llu tio n 10 52 90 67 32 79 13 30 21 104 59 103 24 25 10 69 54 43 26
p o u les 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0
p o u s s ière 0 0 0 0 0 1 0 1 0 0 0 0 0 0 1 0 0 0 0
un 0 9 34 37 19 53 9 17 11 34 21 60 9 14 4 17 25 19 12
une 1 8 13 13 11 16 6 4 4 12 12 24 1 13 4 6 9 6 5
v erts 1 17 31 14 19 16 7 18 3 26 18 25 1 9 1 21 13 14 21
Lecture : le mot campagne a été utilisé 61 fois par des répondants âgés de 40 à 49 ans.
1.3.1 Les méthodes factorielles
Effectuer une Analyse Factorielle des Correspondances (AFC) sur le Tableau Lexical
Entier permet de structurer l’ensemble des « mots » en fonction de leur répartition
dans les unités textuelles. La représentation des résultats sous forme de graphiques
appelés plans factoriels permet de visualiser la proximité des mots, les oppositions, les
tendances, impossibles à discerner directement sur un grand tableau lexical (Escofier
et Pagès, 2008). Deux mots seront d’autant plus proches sur un plan factoriel que leurs
contextes d’utilisation se ressemblent et d’autant plus éloignés qu’ils seront rarement
utilisés ensemble (Figure 1). Les cooccurrences de mots ainsi mises en évidence
permettront au lecteur de repérer des thèmes et de visualiser des oppositions entre
thèmes. On observe à la lecture de la figure que l’on peut quasiment reconstituer des
réponses : « le milieu dans lequel je vis », « l’endroit ou j’habite », « tout ce qu’il y
autour de moi », etc.
Figure 1 − Exemple de plan factoriel (1-3) issu d’une AFC sur le Tableau Lexical
Entier associé au corpus « Environnement » (logiciel Spad)

Note : les intitulés entourés sur la figure 1 ont été ajoutés par les auteurs.
Interprétation possible : On observe sur le graphique une proximité entre les

différentes composantes de la nature qui sont souvent citées dans les réponses sous
forme d’énumération (jardins, champs, fleurs, etc.). L’opposition la plus marquée (axe
1) apparaît entre les réponses des personnes qui évoquent un environnement construit
autour de la nature, des jardins, de la montagne, de la mer, associé à un ensemble de
sensations pur, calme, beauté, tranquillité, libre, et celles dont la conception de
l’environnement se limite à une proximité immédiate, l’autour (Guérin-Pace et
Collomb, 1998).
Effectuer une Analyse Factorielle des Correspondances sur le Tableau Lexical Agrégé
(croisant l’ensemble des mots du corpus et les caractéristiques des répondants) permet
de structurer l’ensemble des mots, non plus en fonction des réponses, mais des
caractéristiques des locuteurs. Le plan factoriel issu de l’analyse du corpus
« Environnement » (Figure 2) permet d’observer la position réciproque des mots et des
variables sociodémographiques et d’interpréter leurs proximités en répondant à la
question « Qui dit quoi ? ».
Figure 2 − Les mots et les caractéristiques des répondants (plan 1-2)

Note : Les modalités entourées sur le graphique correspondent aux caractéristiques individuelles
retenues dans l’analyse (âge des interviewés, localisation du lieu de résidence, profession,
niveau de diplôme, revenu du ménage, région, salaire).
Interprétation possible : La différenciation la plus importante pour parler d’environ-

nement se fait en fonction du niveau de diplôme des personnes interrogées. Les
populations peu ou pas diplômées, les ménages à bas revenus et les inactifs, ont une
conception de l’environnement limitée le plus souvent à la proximité du logement :
autour, alentours, maison, voisinage et centrée sur la personne elle-même : moi, je,
ma. Face à cette représentation d’un environnement considéré à une échelle très locale,
on relève un vocabulaire plus riche, plus abstrait, visant à donner une définition du mot
environnement, de la part des « cadres », des « enseignants et étudiants », des
personnes diplômées (« diplôme supérieur ») et de ménages aux revenus élevés
(« +20 000 »). On trouve un ensemble de mots qui décrivent des relations entre
l’homme et son milieu : équilibre, naturel, écologie, milieu, le plus souvent sous forme
d’énumération. Le thème de la qualité de vie, cadre de vie ou même hygiène de vie
apparaît aussi. Enfin, on relève les termes préserver et protection qui indiquent une
volonté d’agir ou tout du moins de conserver un patrimoine naturel (Guérin-Pace et
Collomb, 1998).
Au-delà des caractéristiques individuelles des locuteurs, il peut être intéressant de

croiser les réponses à une question ouverte avec les réponses à d’autres questions
portant sur le même thème pour compléter l’information apportée par la question
ouverte et ainsi entrevoir une partie de ce qui n’est pas exprimé spontanément. Ainsi,
dans l’enquête Populations - Espaces de vie – Environnements, la question ouverte
« Si je vous dis environnement qu’est ce que cela évoque pour vous ? » (question K1,
Figure 3) est suivie de deux questions fermées qui proposaient respectivement une liste
de mots et d’adjectifs pour lesquels il était demandé aux répondants si selon eux ces
mots pouvaient ou non être associés au mot environnement (questions K2 et K3,
Figure 3).
Une analyse simultanée des réponses à la question ouverte K1 et aux questions
fermées K2 et K3, au moyen d’une analyse des correspondances, a permis d’organiser
le discours des répondants à la question ouverte selon les associations suggérées par
les questions fermées portant sur le même thème (Figure 4).
Figure 3 − Extrait du questionnaire de l’enquête Populations - Espaces de vie -

Environnements
Figure 4 − Analyse simultanée d'une question ouverte et d'une question fermée (plan 1-2) (logiciel Spad)

Note : Les mots soulignés indiquent les réponses aux modalités proposées dans les questions fermées K2 et K3.
Interprétation possible : Face à une conception spontanée de l’environnement dans

laquelle l’homme est présent : vie, lieux, chacun, ville, immédiat, associée aux mots
violence, danger, on parle d’environnement naturel, abstrait, voire idéalisé duquel
l’homme est exclu forêt, fleur, mer, campagne et qui procure un ensemble de
sensations liberté, calme, tranquillité, bon. Cette dernière vision est évoquée par des
personnes qui refusent d’associer la notion d’environnement à des nuisances, en
particulier au bruit et aux adjectifs toxique et sale (Guérin-Pace et Garnier, 1995).
1.3.2 Les classifications
Les méthodes de classification hiérarchique permettent d’obtenir à partir d’un

ensemble d’éléments décrits par des variables une hiérarchie de classes partiellement
emboitées les unes dans les autres (Lebart et Salem, 1994). Appliquées à un corpus de
textes, ces méthodes permettent de représenter des proximités entre les éléments d’un
Tableau Lexical Entier (lignes ou colonnes), décrit dans le chapitre précédent, par des
regroupements en classes.
Nous présentons ici la méthode de classification descendante hiérarchique (CDH)
adaptée au traitement de tableaux lexicaux entiers. Cette technique a été mise au point
(Reinert, 1983) pour traiter des tableaux logiques ou de présence/absence (codage en 0
ou 1) de grande dimension (de l’ordre de 10 000 lignes par 1 400 colonnes) compor-
tant un grand nombre de 0. La technique est itérative : initialement toutes les unités
textuelles sont regroupées en une seule classe ; à chaque étape, on fait ressortir les
deux classes les plus différentes entre elles, en termes de vocabulaire. Le critère de
décomposition s’appuie sur une mesure du Khi2 (Benzecri, 1973). Cette analyse a
pour objectif d’obtenir un classement des « phrases » du corpus étudié en fonction de
la ressemblance ou de la dissemblance des mots dans ces « phrases » et d’ordonner les
textes en cernant les homologies et les oppositions (Rouré et Reinert, 1993).
L’arbre de classification qui en résulte donne une représentation schématique de la
constitution des classes et de leur importance relative (Figure 5).
Figure 5 − Exemple d’arbre issu d’une Classification Descendante

Hiérarchique sur le corpus « Environnement »
(logiciel Alceste)

Note : Le libellé des classes résulte de l’interprétation du chercheur. Le chiffre entre parenthèses
indique le nombre de réponses contenues dans la classe.
Interprétation possible : En effectuant une classification (CDH) sur le corpus

« environnement », on obtient une partition en huit classes aux effectifs comparables.
Au niveau le plus agrégé de l’arborescence, deux grands regroupements se trouvent
constitués. Ils correspondent à deux approches fondamentalement différentes de la
notion d’environnement. L’une de ces approches relève d’une définition et aborde
l’environnement selon un mode cognitif ou sémiotique, l’autre peut être considérée
comme une construction plus symbolique ou imaginaire.
On a choisi d’intituler « iconographie de la nature » la classe 2 qui regroupe un
ensemble de composantes de la nature. On relève principalement les termes arbre
(124), campagne (67), animal (59), maison (57), bois (55), oiseau (54), forêt (54),
fleur (51), mer (46), jardin (42), montagne (38), champ (28), rivière (16), soleil (15),
etc. (Guérin-Pace et Collomb, 1998).
Des traitements statistiques simples viennent compléter utilement les méthodes

d’analyse de données et aident à l’interprétation des résultats.
1.3.3 Les aides à l’interprétation
En premier lieu, pour interpréter la proximité entre deux formes (mots) sur un plan
factoriel (Figure 2), il est utile de regarder leur contexte respectif d’utilisation. De
même, on peut interpréter plus finement les proximités graphiques entre les mots et les
caractéristiques individuelles en recourant au calcul du vocabulaire spécifique pour
une caractéristique donnée de la population.
Les contextes d’utilisation des mots
Cette démarche, parfois intitulée concordance, consiste à restituer les parties de textes
dans lesquelles un mot donné est utilisé. À titre d’exemple, le tableau 7 donne un
extrait de l’emploi respectif des formes équilibre et naturel qui se situent à proximité
l’une de l’autre sur la figure 1. Cette proximité est en grande partie due aux réponses
de la forme équilibre naturel.
Les spécificités lexicales
Il s’agit ici de repérer des différenciations d’utilisation de vocabulaire entre différentes

partitions du corpus. Concrètement, le corpus est découpé selon les modalités d’une
variable que l’on choisit (exemple : âge, diplôme, etc.). Le vocabulaire de chacun des
sous-corpus ainsi formé est comparé au vocabulaire d’ensemble afin de repérer les
mots éventuellement sur ou sous représentés. L’utilisation d’un test statistique, par la
valeur-test qui en résulte, permet de dire si l’écart entre la fréquence relative d’une
forme dans une classe et la fréquence globale calculée sur l’ensemble des réponses
est°significatif ou non. Les mots ou formes caractéristiques d’une sous-population sont
Tableau 7 − Extrait du contexte d’utilisation des mots équilibre et naturel

dans le corpus « Environnement » (logiciel Spad)
l’ équilibre naturel
équilibre entre l'homme et ce qui l’entoure
un équilibre naturel
réalisation de son équilibre
tout ce qui maintient l’ équilibre psychique
l’équilibre naturel
tout ce qui entoure les hommes
naturel et social
dans un domaine
le bonheur de vivre dans un endroit le plus naturel possible
la préservation du milieu naturel
le cadre naturel
quelque chose de naturel et d’harmonieux
milieu naturel
l’espace naturel
milieu naturel ou artificiel dans lequel je vis
restitués selon leur degré de spécificité (valeur-test décroissante) (Tableau 8). En

pratique, une valeur test supérieure à 2 permettra de dire qu’une forme est spécifique
d’une sous-population donnée 4 .
4
L’écart (normé) pour une forme donnée est comparé à la réalisation d’une loi normale centrée et
réduite dans l’hypothèse d’une répartition aléatoire de celle-ci. Sous cette hypothèse, la valeur-test à
95 chances sur 100 d’être comprise entre les valeurs -1,96 et +1,96 (Lebart et Salem, 1994).
Tableau 8 − Extrait du vocabulaire spécifique selon le diplôme des répondants

(logiciel Spad)
Non diplômés
Mots ou segments Pourcentage Pourcentage Fréquence Fréquence Valeur-
Probabilité
caractéristiques interne global interne globale Test
Autour 2,61 1,53 63 454 4,069 0,000
Maison 0,70 0,28 17 84 3,364 0,000
Choses 0,37 0,14 9 41 2,574 0,005
Fleurs 0,41 0,17 10 49 2,542 0,006
Parle 0,17 0,04 4 11 2,360 0,009
Beaucoup 0,25 0,09 6 26 2,138 0,016
Diplômes supérieurs
Mots ou segments Pourcentage Pourcentage Fréquence Fréquence Valeur-
Probabilité
caractéristiques interne global interne globale Test
Vie 4,54 2,98 375 881 9,408 0,000
Qualité 1,71 0,97 141 287 7,571 0,000
Cadre 2,01 1,26 166 374 6,777 0,000
Ecologie 0,71 0,42 59 125 4,494 0,000
Equilibre 0,15 0,05 12 16 3,663 0,000
Protection 0,38 0,22 31 66 3,171 0,001
Naturel 0,21 0,10 17 31 2,978 0,001
Industrie 0,06 0,02 5 5 2,929 0,002
Mot 0,16 0,07 13 22 2,855 0,002
Urbain 0,07 0,02 6 7 2,803 0,003
Note : 2,61 % des réponses données par des personnes sans diplôme contiennent le mot autour
contre 1,53 % de l’ensemble des réponses. Concrètement, le mot autour a été employé 63 fois
sur 454 fois par les personnes sans diplôme. La valeur test associée est égale à 4,069 et la
probabilité de se tromper en disant que le mot autour est spécifique des réponses des non
diplômés est nulle.
Selon une démarche similaire, on obtient les réponses (ou unités textuelles) les plus
caractéristiques d’une sous-population donnée (Tableau 9). Ces réponses contiennent
les formes les plus spécifiques et sont classées par ordre de significativité décroissant
(Lebart et Salem, 1994). Pour cela, on associe à chaque réponse le rang moyen des
degrés de spécificités des formes qu’elle contient et on y associe une valeur test
moyenne qui est d’autant plus élevée que le rang moyen est petit (critère de
classement). La lecture des libellés permet de saisir le contexte d’utilisation des mots
les plus spécifiques.
Tableau 9 − Réponses caractéristiques selon le diplôme des répondants

(logiciel Spad)
Non Diplômés
Critère de
Libellé de la réponse
classement*
0,902 tout ce qui est autour de moi; les gens; la nature
0,919 ce qu'il y a autour de ma maison; la nature; les voisins
0,926 les gens; tout ce qui est autour de moi; les maisons; la campagne
0,939 ce qui est autour de moi
0,946 mon entourage; ce qu'il y a autour de la maison
0,946 ce qu'il y a autour de moi
Diplômes supérieurs
Critère de
Libellé de la réponse
classement*
0,721 le cadre de vie; la qualité de la vie
0,728 cadre de vie; nature; qualité de la vie
0,747 le cadre de vie; la pollution; la nature
0,810 le lieu de vie; la qualité de vie
0,812 l'espace de vie; la nature
0,814 la qualité de la vie
* Le critère utilisé ici est celui de la distance du Khi2. Plus la valeur est faible, plus la réponse est
caractéristique de la sous-population étudiée.
Interprétation possible : Les personnes qui n’ont pas de diplôme abordent davantage
l’environnement en termes de proximité (autour de, entourage) dans lequel elles sont
impliquées (moi) alors que les répondants très diplômés donnent une définition plus
extérieure à eux-mêmes en lien avec la qualité de vie et leur cadre de vie.
De manière un peu différente, à la suite d’une classification, l’analyse du vocabulaire

spécifique de chacune des classes permet de donner un intitulé à chaque classe. Nous
pouvons reprendre l’arbre de classification, donné en exemple sur la figure 5, et
détailler les classes 2 et 7, représentatives des deux modes d’approche de l’environne-
ment par les répondants (cognitive ou symbolique). C’est la lecture du vocabulaire
spécifique, complétée par les réponses (ou unités textuelles) spécifiques de chacune
des classes (Tableau 10), qui nous a permis de saisir le contenu de la classe et de lui
attribuer une dénomination. C’est parfois un exercice délicat qui nécessite des allers et
retours entre la lecture du vocabulaire et celle du corpus dans son ensemble.
Interprétation possible de la classe 7 : Par ce mode de définition, le déclarant centre

presque exclusivement l'environnement sur sa personne (je, on) et sur sa conception du
bien vivre, soit pour en détailler le milieu ou l'endroit, soit pour en préciser le mode ou
la façon. C'est plutôt d'un milieu idéal de vie dont il est question ici, décrit davantage
en termes d'aspiration (agréable, plaisir) que de réalité (Guérin-Pace et Collomb
1998).
Tableau 10 − Vocabulaire et réponses caractéristiques issues d’une CDH

(logiciel Alceste)
Classe 2 : Iconographie de la nature

Vocabulaire spécifique 5
arbre (124), campagne (67), animal (59), maison (57), bois (55), forêt (54), oiseau (54),
fleur (51), mer (46), jardin (42), montagne (38), champs (28), propre (17), rivière (16),
soleil (15), voiture (15), etc.
Réponses spécifiques
147 – voisins, nature, bois, décharges sauvages, nucléaires, chants des oiseaux, animaux,
fleurs
1295 – champs, forêt, rivières, parcs, mer, jardins
559 – les arbres, les fleurs, prairies, bêtes
1050 – c’est la nature qui nous entoure, le jardin, les fleurs, la rivière, le bord de mer, la
colline
1104 – les maisons, les fleurs, les champs cultivés, les potagers
1486 – la campagne, les arbres, les fleurs, les oiseaux
1585 – nature propre, oiseaux, poissons, arbres, chemins de terre, bois, forêts
1818 – les arbres, les oiseaux, les animaux sauvages
1872 – ce que l’on voit dehors, la nature, les prairies, les champs cultivés
Caractéristiques des répondants
Faible revenu, inactif, retraité, CEP, non diplômé, ouvrier, petite ville
Classe 7 : Lieu de vie agréable
Vocabulaire spécifique
vivre (143), milieu (62), endroit (60), vis (45), agréable (18), sentir (13), trouver (12),
plaisir (12), etc.
Réponses spécifiques
254 – la façon dont on se sent bien dans l’endroit où on se trouve
2976 – le plaisir de vivre dans un milieu agréable
454 – le bonheur de vivre dans un endroit le plus naturel possible
1901 – l’endroit où j’aime bien me trouver pour vivre dans les meilleures conditions
249 – le plaisir de vivre agréablement
394 – l’endroit où l’on vit, où l’on évolue, où l’on est
886 – plaisir de vivre, être bien à cet endroit là
1408 – endroit où on se sent bien et où on est content de vivre
Caractéristiques des répondants
retraité
5
Les nombres entre parenthèses indiquent le nombre d’occurrences de la forme dans la classe. Le
chiffre devant les réponses correspond à l’identifiant du questionnaire.
L’ensemble des méthodes que nous venons d’exposer permet de faire émerger le
contenu d’un corpus de textes, sans a priori sur celui-ci, à partir d’univers lexicaux ou
de thèmes qui sont identifiés au moyen d’analyses statistiques. Les représentations
graphiques (plans factoriels, arbre de classification) mettent en évidence des
oppositions et des hiérarchies entre les thèmes.
Dans la partie suivante, nous allons explorer différents outils de la statistique textuelle
et décrire les logiciels les plus utilisés dans ce domaine.
2. Les outils
2.1 Panorama des logiciels
Les logiciels qui permettent de traiter des données textuelles se distinguent

essentiellement par leur approche du corpus de textes et par les méthodes statistiques
qu’ils utilisent. Il est important de rappeler ici que les logiciels d’aide à la lecture
d’entretiens (exemple : Nvivo) ou à la post codification (exemple : Sphinx-Lexica) ne
sont pas des logiciels de statistique textuelle.
Si chaque logiciel possède une démarche qui lui est propre, ils ont en commun les
procédures ou traitements suivants (Jenny, 1997) :
- le calcul de spécificités lexicales pour un sous-corpus donné,
- l’édition du contexte d’utilisation des mots ou concordances,
- les analyses multivariées (analyse factorielle ou classifications).
Nous présenterons ici des logiciels qui permettent de mettre en œuvre les méthodes de
la statistique textuelle. Nous détaillerons trois logiciels : Spad, Alceste et Lexico qui
ont été développés par les initiateurs de ces méthodes et qui font toujours référence
aujourd’hui.
2.1.1 Trois logiciels de référence
• Spad (Système Portable pour l'Analyse des Données Textuelles) est un

logiciel de traitement de données qui comporte un module spécifique
dédié aux données textuelles. Il permet de traiter une ou plusieurs
variables textuelles en relation avec d’autres variables qualitatives ou
quantitatives par un choix de méthodes classiques d’analyse factorielle.
Les sorties graphiques sont soignées. Son lemmatiseur offre la possibilité
d’effectuer de manière assistée mais non automatique des regroupements
de mots. Ce logiciel est davantage adapté aux textes courts, en particulier
aux réponses à des questions ouvertes dans des enquêtes.
• Le logiciel Alceste (Analyse des Lexèmes Cooccurrents dans les Enoncés

Simples d’un Texte) a été conçu pour le traitement des données textuelles.
Il effectue une segmentation automatique du corpus en unités de contexte
et adopte une méthode spécifique de classification des textes qui permet
d’extraire des thématiques du corpus intitulées mondes lexicaux par son
concepteur. Les dictionnaires intégrés au logiciel permettent une lemmati-
sation automatique du corpus et une analyse fine du vocabulaire. Ce sont
les points forts du logiciel qui est plus adapté au traitement de corpus de
taille importante qu’à l’analyse de données d’enquête.
• Le logiciel Lexico, d’accès libre, repose sur une approche méthodo-
logique proche de Spad. Son interface est avant tout visuelle. Lexico
permet de visualiser les spécificités lexicales et de « cartographier » les
occurrences d’une forme dans un texte qui peut être partitionné par
l’utilisateur selon différentes caractéristiques des textes (date, csp, âge,
chapitre, etc.). La lemmatisation est assistée par une fonction de repérage
de chaînes de caractères qui permet de sélectionner facilement un
ensemble de mots afin de les regrouper sous la même forme.
2.1.2 D’autres logiciels
Parmi les autres logiciels de statistique textuelle, nous pouvons aussi citer :
• DtmVic, logiciel de statistique exploratoire multidimensionnelle, déve-
loppé dans le cadre d’un atelier impulsé par Ludovic Lebart, qui permet
de traiter simultanément des données numériques et textuelles. Il combine
des techniques d’analyse factorielle (Analyse en composantes principales,
Analyse des correspondances) et des méthodes de classification automa-
tique. Il est mis à disposition gratuitement à l’adresse suivante :
http://ses.telecom-paristech.fr/lebart/.
• Le logiciel Hyperbase, développé par Etienne Brunet, est assez répandu
dans le monde de la recherche et sert de support à l’enseignement de ces
méthodes dans plusieurs universités. Il combine des fonctionnalités docu-
mentaires et statistiques. À l'origine destiné aux analyses lexicologiques
de textes, il permet de traiter automatiquement des réponses à des
questions ouvertes mais surtout des corpus de textes volumineux (œuvres
littéraires). Conçu pour le standard Apple, puis adapté pour Windows, il
fait actuellement l’objet d’une refonte (cf. UMR Bases, corpus, langage de
l’Université de Nice-Sophia Antipolis :
http://www.unice.fr/bcl/spip.php?rubrique38).
• Trideux 5, créé par Philippe Cibois, est un logiciel destiné au traitement
de données d'enquête comprenant des réponses à des questions ouvertes et
fermées. Il permet de construire un tableau croisant les données textuelles
et les caractéristiques de répondants (appelé ici « tableau lexical des
questions ») et d’effectuer une analyse des correspondances sur ce
tableau. Une interface plus conviviale a été développée récemment par
Alex Alber. Elle est mise à disposition gratuitement sur le site suivant :
http://pagesperso-orange.fr/cibois/Trideux.html#Chargement.
• SAS "Text Miner" est un module de Sas® Entreprise Miner, outil de data
mining (traduit par fouille de données en français) qui permet d’analyser
des données textuelles de nature variée (e-mails, pages web, documents
PDF et Word, ASCII, etc.). Sas est un logiciel de statistique américain de
référence, en perpétuel développement, qui combine un très grand nombre
de fonctions de calculs statistiques et de gestion de bases de données. Cet
outil s’adresse à des utilisateurs confirmés mais le module "Text Miner"
n’est pas encore suffisamment développé pour être considéré comme un
bon outil d’analyse textuelle. De plus, son inconvénient majeur est son
coût.
• Le logiciel R avec son ensemble de fonctions (appelé package) « tm »
(text mining) permet de faire du comptage de mots, de calculer des
associations et de créer des tableaux lexicaux. Il intègre des options
permettant de rapporter des mots à leurs radicaux ou d’enlever des mots
communs comme les articles (sorte de lemmatisation). C’est avant tout un
logiciel statistique et graphique qui est libre et gratuit. Il fonctionne sous
Windows, Linux ou Macintosh (http://www.r-project.org/). Il nécessite
cependant des compétences en programmation et est peu convivial.
Associé au package d’analyse factorielle FactomineR qui lui est paramé-
trable par menus déroulants, il représente une alternative à Sas et permet
de faire de l’exploration de données.
2.1.3 Quelques critères de choix de logiciels
Le choix d’un logiciel s’effectue en fonction de plusieurs critères : la nature textuelle

du corpus que l’on traite (données d’enquête, entretiens, etc.), son volume, la
problématique étudiée, les moyens mis à disposition, leur coût d’entrée, etc. (Tableau
11). Nous ne donnons pas ici de véritables règles mais plutôt des conseils pour orienter
vos choix.
Si le corpus est constitué de réponses à des questions ouvertes en relation avec des
caractéristiques des répondants ou des réponses à des questions fermées, et que
l’objectif de l’analyse est de savoir « Qui dit quoi ? », nous préconisons les logiciels
Spad ou Trideux conçus plus spécifiquement pour le dépouillement d’enquêtes. Dans
ce cas, l’étape de lemmatisation peut être très succincte car en général les réponses
sont courtes et le vocabulaire restreint. L’utilisation de lemmatiseurs automatiques
n’est alors pas indispensable.
Si l’on doit analyser des entretiens individuels ou entretiens de groupe sur lesquels on
dispose généralement de données « externes » (d’ordre démographique ou sociolo-
gique, dates, etc.), notre choix se tourne vers le logiciel Alceste car il est plus
spécifiquement adapté à l’analyse de textes de volume important.
La lemmatisation automatique est très utile avec ce type de corpus car elle permet de
réduire efficacement et rapidement la taille du vocabulaire et d’analyser plus finement
le résultat d’une classification en observant les catégories de mots sur ou sous
représentés dans chacune des classes.
Si nous avons à effectuer l’analyse d’une série de textes à caractère historique pour
mettre en évidence des variations de l’emploi de vocabulaire au cours du temps,
Lexico nous apparait être le logiciel le plus adapté. Ses graphiques permettent de
représenter très efficacement l’évolution de l’usage d’un ou plusieurs mots dans le
temps (cf. exemple d’analyse de textes syndicaux dans Lamalle et Salem, 2002).
Enfin, on peut aussi traiter des corpus particuliers qui, à l’origine, ne sont pas des
textes. Par exemple, on peut considérer des trajectoires individuelles comme des
suites de mots particuliers formant des phrases artificielles. Ainsi chaque mot de la
phrase représente une séquence d’état transcrite sous forme de sigle auquel on attribue
un sens. On pourra se référer à l’étude des Itinéraires professionnels des couples
extraits de l’enquête Emploi de l’Insee de 1990 à 1992 (Courgeau et Guérin-Pace,
1998). Dans ce cas, les logiciels comme Spad (ou Lexico), qui ne se basent pas sur
une analyse linguistique à proprement parler, sont utiles pour traiter ces textes et les
croiser avec d’autres caractéristiques.
Tableau 11 − Comparaison de logiciels de statistique textuelle
Spad 7 Dimvic 4.3 Trideux 5 Lexico 3 Alceste 4.8 Tm de R

I. Feinerer,
L. Lebart,
Initiateurs L. Lebart Ph. Cibois A. Salem M. Reinert K. Hornik,
Morineau
D. Meyer
Année de mise à
1993 2005 1986 1990 1986 2008
disposition
réponses à des réponses à des réponses à des questions réponses à des questions
Type de texte tout type tout type
questions ouvertes questions ouvertes ouvertes ouvertes et textes courts
Mise en forme
(préparation du simple assez fastidieuse assez fastidieuse fastidieuse assez fastidieuse simple
corpus)
Lemmatisation assistée sans sans assistée automatique automatique
manuel (si manuel (si manuel (si
Découpage des textes manuel (si nécessaire) manuel (si nécessaire) automatique
nécessaire) nécessaire) nécessaire)
http://pagesperso- http://www.cavi.univ-
http://ses.telecom- http://www.image- http://www.r-
Site fournisseur www.spad.eu orange.fr/cibois/SitePhCib paris3.fr/ilpga/ilpga/tal/
paristech.fr/Lebart/ zafar.com/ project.org/
ois.htm lexicoWWW/
plans factoriels cartographie des données
Point fort complet simple lemmatisation Open source
dynamiques chronologiques
de 1000 à 3000€
de 600€ (licence simple)
(standard ou entreprise
Prix environ 700€ gratuit gratuit à 3000€ (multipostes) gratuit
selon la taille des
Versions 1 et 2 gratuites
corpus à traiter)
Interface graphique *** ** * * ** ***
Présentation des
*** ** ** ** ** **
résultats
*moyen(ne), **bon(ne), ***excellent(e)
2.2 Préparer le corpus
Avant tout traitement statistique il est important de « nettoyer » le corpus de textes,

c’est-à-dire de supprimer les éléments qui peuvent être assimilés à des erreurs et qui
nuisent à l’analyse.
Il s’agit par exemple :
- de fautes de frappe ou d’orthographe,
- de signes de ponctuation mal utilisés ou hors de propos (espaces en trop, majus-
cules, traits d’unions, etc.),
- de noms propres avec ou sans abréviations (par exemple : UK, U.K., United
Kingdom).
Les textes peuvent êtres saisis « au kilomètre » avec un logiciel de traitement de texte
quelconque pourvu qu’ils puissent être enregistrés en mode texte. Certains logiciels
intègrent toutefois un éditeur permettant leur saisie directe.
Quel que soit le logiciel utilisé, les textes à analyser doivent respecter une mise en
forme particulière. Il existe, selon les logiciels, certaines conventions d’écriture, en
particulier avec l’utilisation de majuscules et la désignation de noms propres ou de
sigles. Par ailleurs, selon le logiciel, les signes de ponctuation peuvent avoir une
fonction précise (délimitation d’un mot ou d’une unité textuelle).
Par exemple, avec le logiciel Alceste, ils sont utilisés pour le découpage automatique
des textes en unités textuelles.
La phase de préparation du corpus est donc plus ou moins longue et s’effectue selon
des règles spécifiques à chacun des logiciels qui doivent impérativement être
respectées. De même, l’introduction des variables qui vont servir à affiner l’analyse du
corpus est différente selon les logiciels.
Nous allons examiner successivement la mise en forme de deux corpus de nature
différente (réponses à une question ouverte, entretiens) pour l’utilisation respective des
logiciels : Spad, Alceste et Lexico 6 .
2.2.1 Pour Spad
Dans le cas de textes courts (réponses à des questions ouvertes), ceux-ci peuvent être
saisis ou importés directement d’un tableur. Les données se présentent alors sous la
forme d’un tableau où chaque ligne correspond à une réponse donnée par un individu
et chaque colonne à une variable du questionnaire (Tableau S 1). Ce tableau peut
contenir un très grand nombre de variables. L’identifiant du questionnaire figure en
6
Les tableaux résultant de ces analyses dans la suite du chapitre seront numérotés S x, A x et L x
afin de faciliter la comparaison.
première colonne et les autres colonnes contiennent des variables qui peuvent être de
nature différente : nominale, continue ou textuelle 7 .
Tableau S 1 − Exemple de mise en forme de réponses à une question ouverte

pour Spad
Si je vous dis environnement,

Id âge diplôme csp localité Revenu
qu’est cela évoque pour vous ?
Très grandes
2 20-29 Sup ens&etud 1 c'est tout; l'espace en général
villes
3 30-39 Sup employe Grandes villes 1 bien vivre dans le quotidien
Très grandes
4 30-39 BAC ens&etud 3 qualité de vie
villes
7 30-39 Sup cadr&lib Rural 2 un grand thème de débats
Très grandes cadre de vie; maisons et autour;
8 40-49 Sup prof_int 3
villes lieux
Très grandes
10 +60 Sup cadr&lib 2 la campagne
villes
11 +60 BAC retraite Rural NSP l'entourage; les gens
13 40-49 Sup inactif Rural NSP campagne; vie à l'air libre; nature
Très grandes
14 30-39 Sup cadr&lib 3 écologie; nature; propreté
villes
Très grandes
15 30-39 prof cadr&lib 2 nature; loisirs
villes
Il n’existe pas réellement de taille maximale des variables de type textuel sous Spad.
Généralement, les textes traités vont de quelques mots à quelques phrases par réponse
(maximum de l’ordre d’une page). Si l’on utilise un tableur pour la saisie des textes,
on peut être limité par la taille de la cellule. On pourra alors recourir à un éditeur de
texte en prenant soin de séparer les variables par des tabulations. Si l’on souhaite
traiter sous Spad des textes plus longs (entretien, textes littéraire ou historique, article),
la mise en forme des données devient laborieuse car il faut alors découper le corpus
manuellement en fixant des règles. Celles-ci peuvent être basées sur la ponctuation ou
dans le cas d’entretiens sur les interventions de l’enquêteur. Les caractéristiques des
textes seront alors répétées autant de fois qu’il y a d’unités textuelles issues du
découpage (Tableau S 2).
7
Une variable qui contient un nombre fini de valeurs (alphanumériques ou alphabétiques) est dite
nominale, une variable qui peut contenir un nombre infini de valeurs (numériques, avec ou sans
décimales) est dite continue et une variable contenant du texte est dite textuelle.
Tableau S 2 − Exemple de mise en forme d’un entretien 8 pour Spad
Id Sexe âge matri csp Entretien

« Voila je suis née à A… comme je vous ai dit, en 19..
et j'en suis partie au bout d'un an et demi. Je suis restée
un an et demi en A…, donc je n'ai pas de souvenirs
d'A…, mais des souvenirs de ce que les frères et sœurs,
0037 F 20-29 celib ens&etud
les plus grands et les parents racontaient. Et les photos.
Mais donc on habitait une maison avec un jardin et là, si
je vous parlais de souvenirs je mentirais. Parce qu'à un
an et demi..., il est difficile de se rappeler...
Après on a été… C'est mon père qui avait une
profession. qui était ingénieur dans une multinationale,
chez X, donc il bougeait, il était expatrié, il bougeait, et
après il a été muté a B… en T… et la j'y suis restée
0037 F 20-29 celib ens&etud jusqu'à l'âge de 6 ans, 7 ans. Voila de 2 à 7 ans, donc on
est resté 5 ans, donc de 0 à 2 à A… et de 2 à 7en T…,
et là ça j'ai des souvenirs, j'ai des souvenirs que je peux
recouper avec des photos, qui sont aidés par des photos,
mais j'ai des souvenirs…
Source : Enquête Proches et Parents (Ined, 1990 ; Bonvalet et al., 1999)
2.2.2 Pour Alceste
Le corpus traité sous Alceste peut être saisi avec n’importe quel éditeur de texte 9 mais
selon une structure particulière à respecter (Tableau A 1).
La première ligne introduit chaque texte à analyser (exemple : une réponse à une
question ouverte) par les caractéristiques du locuteur. En premier lieu, figure l’identi-
fiant du texte, suivi d’une série de modalités de variables précédées d’une étoile et du
nom de la variable. Il est préférable de mettre un blanc souligné entre le nom de la
variable et la modalité pour qu’il soit possible par la suite d’extraire des sous-corpus
selon les modalités d’une de ces variables.
8
Corpus d’entretiens réalisés en complément de l’enquête Ined Proches et Parents (Bonvalet et al.,
1999). La question posée était la suivante : Nous voudrions aujourd’hui retracer avec vous l’histoire
de votre parcours, notamment à travers les différents lieux que vous avez habités au cours de votre
vie … ? Si vous voulez, on peut commencer par l’endroit où vous êtres nés.
9
Seul impératif : si le texte a été saisi avec un éditeur de texte comme Word, il faudra sauvegarder le
fichier en format texte brut (.txt) avec l’option Insérer des sauts de ligne, car le logiciel ne gère pas
les lignes de plus de 1500 caractères.
Tableau A 1 − Exemple de mise en forme de réponses à une question ouverte

pour Alceste
0002 *age_20_29 *dipl_sup *csp_ens&etud * local_tgv *rev_1

C'est tout; l'espace en général
0003 *age_30_39 *dipl_sup*csp_employe * local_gv *rev_1

Bien vivre dans le quotidien
0004 *age_30_39 *dipl_bac *csp_ens&etud * local_tgv *rev_3

Qualité de vie
0007 *age_30_39 *dipl_sup *csp_cadr&lib * local_rur *rev_2

Un grand thème de débats
0008 *age_40_49 *dipl_sup *csp_prof_int * local_tgv *rev_3

Cadre de vie; maisons et autour; lieux
Dans le cas de textes longs, à la différence de Spad, le logiciel procède à un découpage

automatique des textes en unités de contexte (UC) selon des critères basés sur la
ponctuation, le nombre de mots dits analysables et la taille du corpus (Tableau A 2).
Nous détaillerons les modalités de ce découpage dans la partie 3.2.2.
Dans le cas d’un corpus d’entretiens, on peut être confronté au choix du statut à donner
aux relances effectuées par l’enquêteur dans la conduite d’entretiens. En fonction du
contexte et du contenu de chacune des relances on décidera de la supprimer ou de la
conserver. Cet arbitrage dépendra aussi du contenu de la réponse donnée par l’enquêté
à la suite de la relance. Si celle-ci reprend les termes de l’enquêteur, on enlèvera la
question afin d’éviter que les mêmes mots soient comptés deux fois. Sinon on conser-
vera la question de l’enquêteur en agissant comme si l’enquêté avait prononcé ces
mots.
On peut aussi considérer qu’une relance correspond à une rupture dans le discours
dont on veut rendre compte. Pour cela, on placera un signe de césure dans le texte, qui
aura pour fonction de considérer les parties de discours avant et après la relance
comme deux unités textuelles distinctes (Garnier et Guérin-Pace, 1998).
Dans l’exemple suivant (Tableau A 2), nous avons retiré la relance et placé un signe de
césure ($).
Tableau A 2 − Exemple de mise en forme d’un entretien pour Alceste
0037 *sexe_F *age_20_29 *matri_celib *csp_ ens&etud

« Voilà je suis née à A… comme je vous ai dit, en 19.. et j'en suis partie au bout d'un an et
demi. Je suis restée un an et demi en A…, donc je n'ai pas de souvenirs d'A…, mais des
souvenirs de ce que les frères et sœurs, les plus grands et les parents racontaient. Et les
photos. Mais donc on habitait une maison avec un jardin et là, si je vous parlais de souvenirs
je mentirais. Parce qu'à un an et demi, il est difficile de se rappeler...
$
Après on a été… C'est mon père qui avait une profession. qui était ingénieur dans une
multinationale, chez X, donc il bougeait, il était expatrié, il bougeait, et après il a été muté
a B… en T… et là j'y suis restée jusqu'à l'âge de 6 ans, 7 ans. Voila de 2 à 7 ans, donc on
est resté 5 ans, donc de 0 à 2 à A… et de 2 à 7 en T…, et là ça j'ai des souvenirs, j'ai des
souvenirs que je peux recouper avec des photos, qui sont aidés par des photos, mais j'ai des
souvenirs…
Source : Enquête Proches et Parents (Ined, 1990)
2.2.3 Pour Lexico
La mise en forme des textes sous Lexico est proche de celle d’Alceste (Tableau L 1 et
Tableau L 2). Les unités de texte sont séparées par des lignes contenant les caractéris-
tiques des textes ou des locuteurs encadrées par des signes <> appelés ici balises.
Le découpage du texte en unités textuelles, dans le cas de textes longs, doit comme
avec Spad être effectué manuellement par l’utilisateur. On pourra si on le souhaite
superposer plusieurs niveaux de découpage. Ainsi dans l’exemple suivant (Tableau
L 2) on a souhaité distinguer les parties d’entretiens situées avant les relances
(<part=01>) de celles situées après (<part02>) pour les étudier séparément.
Tableau L 1 − Exemple de mise en forme des réponses à une question ouverte

pour Lexico
<num=0002> <age=20_29><dip=sup> <csp=ens_etud> <rev=4_10mf>

c'est tout, l'espace en général
<num=0003> <age=30_39><dip=sup> <csp=ens_etud> <rev=4_10mf>
bien vivre dans le quotidien
<num=0004> <age=30_39><dip=sup> <csp=ens_etud> <rev=20mf>
qualité de vie
<num=0007> <age=30_39><dip=sup> <csp=cadre_lib> <rev=10_20mf>
un grand thème de débats
<num=0008> <age=40_49><dip=sup> <csp=prof> <rev=20mf>
cadre de vie, maisons et autour, lieux
<num=0010> <age=plus_de60> <dip=sup> <csp=cadre_lib> <rev=10_20mf>
la campagne
<num=0011> <age=plus_de60> <dip=bac> <csp=retraite> <rev=nsp>
l'entourage, les gens
<num=0013> <age=40_49><dip=sup> <csp=inactif> <rev=nsp>
campagne, vie à l'air libre, nature
<num=0014> <age=30_39><dip=sup> <csp=cadre_lib> <rev=20mf>
écologie, nature, propreté
Tableau L 2 − Exemple de mise en forme d’un entretien pour Lexico
<num=37> <sexe=F> <age=20_29> <matri=celib> <csp=ens&etud>

<part=01>
« Voilà je suis née à A… comme je vous ai dit, en 19.. et j'en suis partie au bout d'un an et
demi. Je suis restée un an et demi en A…, donc je n'ai pas de souvenirs d'A…, mais des
souvenirs de ce que les frères et sœurs, les plus grands et les parents racontaient. Et les
photos. Mais donc on habitait une maison avec un jardin et là, si je vous parlais de souvenirs
je mentirais. Parce qu'à un an et demi, il est difficile de se rappeler...
<part=02>
Après on a été… C'est mon père qui avait une profession. qui était ingénieur dans une
multinationale, chez X, donc il bougeait, il était expatrié, il bougeait, et après il a été muté a
B… en T… et là j'y suis restée jusqu'à l'âge de 6 ans, 7 ans. Voila de 2 à 7 ans, donc on est
resté 5 ans, donc de 0 à 2 à A… et de 2 à 7 en T…, et là ça j'ai des souvenirs, j'ai des
souvenirs que je peux recouper avec des photos, qui sont aidés par des photos, mais j'ai des
souvenirs …
Nous venons de voir comment préparer des textes pour les utiliser avec les logiciels
Spad, Alceste et Lexico. Nous allons maintenant détailler pas à pas leur mise en œuvre
sur un corpus de réponses à une question ouverte avec les logiciels Spad et Lexico, et
sur un entretien avec le logiciel Alceste.
3. La mise en œuvre
3.1 Spad (version 7.0)
Spad est un logiciel reconnu en analyse des données numériques ou textuelles. Nous
montrons ici comment utiliser son module d’analyse textuelle (Text mining) pour
étudier un corpus de réponses à une question ouverte.
3.1.1 Présentation générale
À l’ouverture du logiciel (Figure 6), l’utilisateur doit spécifier s’il veut :

- créer un nouveau projet,
- ouvrir un projet existant en vue de le réutiliser,
- ouvrir un projet archivé (dont les éléments ont été compressés pour être importés).
L’interface de Spad se présente en 4 zones qui s’affichent simultanément à l’écran :

Projet, Méthodes, Diagrammes et Résultats (Figure 7).
À l’ouverture d’un nouveau projet, seule la zone Méthodes n’est pas vide et contient
les méthodes statistiques disponibles dans le logiciel. Au fur et à mesure des traite-
ments, des éléments s’affichent dans les autres zones.
Figure 6 − Spad 7 : Ouverture du logiciel
Figure 7 − Spad 7 : Interface du logiciel

• La zone Méthodes contient toutes les méthodes de traitement de données

classées par rubrique, de l’importation des données aux traitements
statistiques plus ou moins complexes (Figure 7). Chaque méthode utilisée
sera symbolisée par une icône dans la zone Diagramme.
Les méthodes de statistique textuelle sont contenues dans la rubrique
intitulée Text Mining (Figure 8).
Figure 8 − Spad 7 : Les méthodes de la rubrique Text Mining
• La zone Diagramme est celle de l’utilisateur. C’est là qu’il construit son

plan d’analyse en insérant successivement par un glisser-déplacer les
données et les méthodes qu’il souhaite leur appliquer. Il indique la
manière dont elles s’enchaînent par une flèche qu’il trace entre les
différents éléments. En cliquant sur l’icône correspondant à une méthode,
on ouvre la fenêtre de paramétrage : choix des variables, des individus,
options des méthodes.
• La zone Projet recense l’ensemble des diagrammes créés (cadran supé-
rieur gauche de la Figure 7). Dans notre exemple, nous avons créé un
diagramme correspondant à l’analyse de la question ouverte, intitulé
Analyse question K1, et un diagramme correspondant à des statistiques
descriptives simples sur les variables nominales, intitulé Tris à plats. On
se déplace d’un diagramme à l’autre soit en sélectionnant son nom dans la
zone Projet soit en sélectionnant la feuille correspondante dans la zone

Diagramme.
• La partie inférieure de l’écran permet de visualiser les résultats sous 3
différentes rubriques :
- Exécutions indique le déroulement des calculs et permet d’accéder
aux résultats,
- Log où sont affichés les messages éventuels d’erreur,
- Données qui permet de visualiser les tableaux de données.
Une fois le corpus mis sous la forme exigée par le logiciel, l’utilisateur choisit les
méthodes qu’il souhaite lui appliquer. Chaque méthode est paramétrée en fonction des
analyses à effectuer : choix du fichier à analyser, des variables (actives, supplémen-
taires), sélection des individus si nécessaire, pondération éventuelle, etc.
3.1.2 Importer les données et créer le lexique
La première étape consiste à importer les données en choisissant le type du fichier.

Dans notre exemple, nous importons un fichier Excel (Figure 9). Pour cela, on
sélectionne la méthode Imports puis Feuille Excel de la zone Méthodes par un clic de
la souris et on déplace la méthode dans la zone Diagramme, feuille Analyse question
K1. La méthode est symbolisée par une icône intitulée Feuille Excel. On ouvre la
fenêtre de paramétrage de l’importation en cliquant dessus et on renseigne les
différents paramètres.
Dans le premier onglet de la fenêtre de paramétrage Import Feuille Excel, on

sélectionne la feuille dans laquelle se trouvent les données (Figure 10).
Dans l’onglet Métadonnées, on précise le rôle (ou type statistique) de chaque variable :
identifiant, nominal, continu, textuel (Figure 11). Lors de l’importation, le logiciel
Spad affecte automatiquement un rôle aux variables. Si le rôle attribué par défaut aux
variables n’est pas correct, il est nécessaire de le modifier par un clic droit sur la ligne
correspondant à la variable en question. Ainsi, dans notre exemple, nous modifierons
le type de la première variable num_id pour préciser qu’il s’agit de l’identifiant et celui
de la variable correspondant aux réponses à la question ouverte K1 pour préciser qu’il
s’agit d’une variable de type textuel.
Figure 9 − Spad 7 : Importation d’un fichier Excel

Figure 10 − Spad 7 : Paramétrage de l'importation des données
Figure 11 − Spad 7 : Modifier le type des variables

L’importation est lancée automatiquement à la fermeture de la fenêtre de dialogue et

une base Spad est générée en sortie. Une fois l’étape d’importation effectuée, on peut
choisir les méthodes de la statistique textuelle que l’on souhaite appliquer au corpus de
textes. La première étape consiste à créer le lexique des mots.
Pour créer le lexique, on sélectionne la méthode Construction de vocabulaire dans la
zone Méthodes et on la déplace par un glisser-déplacer dans la zone Diagramme dans
laquelle elle apparaît sous forme d’icône intitulée Mots. Il suffit alors de relier cette
méthode Mots à l’icône correspondant à l’importation par une flèche tracée automa-
tiquement en déplaçant le curseur de l’une vers l’autre (Figure 12).
Figure 12 − Spad 7 : Construction du lexique
Un clic sur l’icône ouvre la fenêtre de paramétrage de la méthode. On y trouve 3

onglets :
- l’onglet Variables permet de sélectionner la ou les variables textuelles. Dans le
corpus « Environnement », nous avons une seule variable textuelle (K1). On
pourrait sur un autre corpus choisir d’analyser conjointement deux questions
ouvertes complémentaires en ne créant qu’un seul lexique ;
- l’onglet Individus permet une sélection éventuelle des individus (répondants) en
fonction des variables (nominales) disponibles dans la base ;
- l’onglet Vocabulaire des mots, permet de préciser des attributs de lecture des
variables textuelles (casse, accentuation, séparateurs, etc.).
L’exécution est lancée automatiquement à la fermeture de la fenêtre de dialogue.
Les fichiers résultants s’affichent sous forme d’icône dans le cadre inférieur droit de la
fenêtre (cf. Figure 7 − Spad 7 : Interface du logiciel). On peut aussi y accéder en
opérant un clic droit sur l’icône de la méthode correspondante. Deux formats de
fichiers de résultats sont proposés (texte ou Excel).
La lemmatisation
Évoquée dans la première partie de ce manuel (cf. 1.1.2), la lemmatisation est une
opération facultative qui permet de regrouper des mots du lexique en vue d’accroître
leur fréquence. Pour effectuer cette opération avec le logiciel Spad 7, on sélectionne la
méthode Lemmatiseur Semi-automatique que l’on place dans la fenêtre Diagramme à
proximité de l’icône Mots afin de les relier entre elles (Figure 13).
Figure 13 − Spad 7 : Lemmatisation
En cliquant sur l’icône Lemmatiseur on accède au vocabulaire qui s’affiche (Figure

14) dans deux listes que l’on peut trier par ordre alphabétique ou par ordre de
fréquence. Dans la partie gauche, on visualise le vocabulaire initial et dans celle de
droite, le vocabulaire modifié. Au départ, ces deux listes contiennent le même nombre
de mots (ici 1 796) mais au fur et à mesure des regroupements effectués, le nombre de
mots du Vocabulaire modifié diminue.
Figure 14 − Spad 7 : Paramétrage de la lemmatisation

C’est sur la liste de droite que l’on intervient pour éliminer des mots, les corriger
(fautes de frappe) ou encore les regrouper. Dans cet exemple, nous avons décidé de
regrouper sous la forme racine écologie les mots écologie, écolo, écologique,
écologiques, écologiste, écologiste et écolos. Pour cela, il suffit de sélectionner dans la
liste de droite les mots à regrouper, puis par un clic droit sur la sélection, on choisit
l’option Créer une équivalence et on désigne la forme racine qui donnera son nom à ce
regroupement.
On peut aussi recourir à une sélection par filtre logique (que l’on ouvre par clic sur
l’icône , Figure 14) qui permet de choisir les mots au moyen d’outils de recherche
de chaînes de caractères ou selon leur fréquence ou leur longueur (Figure 15). Ce
filtre, une fois défini, permet de sélectionner des mots que l’on supprimera en cliquant
sur l’icône dans la fenêtre du Lemmatiseur.
Figure 15 − Spad 7 : Sélection de formes par filtre
On peut également fixer un seuil en dessous duquel on éliminera les mots du lexique
soit par l’utilisation du filtre, soit en sélectionnant directement les mots dans le
lemmatiseur. Dans notre exemple, on a choisi de ne pas retenir les mots qui appa-
raissent moins de 7 fois dans les réponses. Ces mots supprimés apparaissent précédés
d’une croix rouge dans la partie gauche de l’écran (Figure 16). Nous avons également
choisi de supprimer les formes NSP, sais, pas, sans, réponse, réponses, répondre, ne,
car elles ne nous intéressaient pas. Par ailleurs, les formes racines sont signalées par
un carré rouge et les formes équivalentes qui lui sont associées sont indiquées par un
carré blanc dans la partie gauche de l’écran.
Figure 16 − Spad 7 : Résultats d’une lemmatisation
Une fois tous les regroupements, corrections et suppressions effectués, la méthode

remplace le vocabulaire initial (1 796 mots) par le vocabulaire modifié (300 mots) qui
sera utilisé dans les analyses statistiques.
Il est parfois utile pour décider de la pertinence de certains regroupements de recourir
parallèlement à la méthode Edition du contexte des mots qui restitue tous les contextes
d’apparition d’un mot. Sur le même principe que pour les étapes précédentes, on relie
cette méthode à l’icône Mots (Figure 17).
Figure 17 − Spad 7 : Édition du contexte des mots
On choisit dans la liste des mots disponibles ceux pour lesquels on souhaite éditer le
contexte d’utilisation (Figure 18).
Figure 18 − Spad 7 : Fenêtre de paramétrage de l'édition du contexte des mots

On obtient en sortie (fichier texte ou Excel) la liste des réponses contenant les mots
sélectionnés et leur fréquence respective (Tableau 12).
Tableau 12 − Spad 7 : Édition du contexte des mots
- écologie (88)
- l’écologie (27)
- tout ce qui relève de l’écologie (1)
- le respect de l’écologie (1)
écologie - tout sauf l’écologie (1)
- mouvements politiques génération l’écologie (1)
- les fanas de l’écologie (1)
- le monde qui évolue vers l’écologie (1)
- le mot ne convient pas je préfère l’écologie (1)
- écologie liée à la défense de l environnement (1)
écolo - écolo (1)
- problème écologique (1)
écologique - sous entendu écologique (1)
- un terme écologique large (1)
écologiques - grands problèmes écologiques (1)
écologiste - écologiste (1)
- cela me fait penser aussi aux écologistes et donc à des excès (1)
écologistes - tout ce dont on parle à la télévision avec les écologistes (1)
- écologistes (1)
- les écologistes (3)
- tout ce qui est pour les écolos (1)
écolos - écolos (1)
- les écolos (4)
- écolos de mes deux (1)
La lecture de ces résultats nous confirme que ces mots ont été employés dans des
contextes proches et qu’il est pertinent de les regrouper sous une forme unique
intitulée écologie.
Cette réduction du lexique opérée manuellement peut sembler fastidieuse mais elle
permet en même temps de s’approprier progressivement le contenu du corpus. Si on
souhaite conserver le paramétrage d’une lemmatisation pour une utilisation ultérieure,
on clique respectivement sur les icônes (Appliquer des modifications sauve-
gardées ou Sauvegarder les modifications du vocabulaire).
C’est à partir du nouveau lexique intitulé Vocabulaire modifié issu de la lemmatisation
que la méthode de construction de tableaux lexicaux peut être opérée.
3.1.3 L’analyse factorielle sur le Tableau Lexical Agrégé
L’analyse factorielle la plus couramment utilisée dans le cas d’analyse de question-

naires d’enquêtes est conduite sur le tableau lexical agrégé croisant les mots du
lexique avec les caractéristiques des répondants. C’est celle-ci que nous allons détailler
dans cette partie.
Pour cela, on sélectionne la méthode Construction d’un tableau lexical de contingence
de la zone Méthodes et on la relie à la méthode Lemmatiseur semi-automatique dans la
zone Diagramme (Figure 7). L’icône correspondant à la construction du Tableau
Lexical Agrégé s’intitule Tableau lexical. Si on a fait le choix de ne pas lemmatiser le
corpus, on relie directement l’icône Tableau Lexical à l’icône Mots. On ouvre la
fenêtre de paramétrage en cliquant sur la méthode.
Dans notre exemple, chaque ligne du Tableau Lexical Agrégé correspond à un mot du
vocabulaire modifié qui contient 300 mots. On sélectionne les variables qui
constitueront les colonnes du tableau de contingence parmi les variables nominales
disponibles dans la base (Figure 19).
Figure 19 − Spad 7 : Paramétrage de la création d’un Tableau Lexical Agrégé

Ici, nous retenons toutes les variables disponibles, à savoir l’âge en 6 classes (age6), le
diplôme en 7 modalités (diplo), la catégorie socioprofessionnelle (csp) en 9 postes, etc.
À la fermeture de la fenêtre de paramétrage, la méthode s’exécute et crée le Tableau
Lexical Agrégé.
On pourrait en recourant à la méthode Création d’une table Mots/Segments/variables
d’origine construire le Tableau Lexical Entier, tel que nous l’avons présenté (cf.
1.2.1).
Nous pouvons maintenant effectuer une Analyse Factorielle des Correspondances sur
le Tableau Lexical Agrégé. Pour cela, on choisit la méthode AFC sur tableau lexical
que l’on relie à l’icône Tableau lexical (Figure 20) puis on paramètre le rôle des
variables (actif, illustratif) et des mots introduits dans l’analyse en accédant à la fenêtre
suivante (Figure 21).
Figure 20 − Spad 7 : AFC sur le Tableau Lexical Agrégé
Figure 21 − Fenêtre de paramétrage d’une AFC

De la même manière que dans une analyse factorielle classique, les variables prises en
compte dans le calcul des axes sont appelées variables actives. On peut ajouter dans
l’analyse des variables nommées illustratives ou supplémentaires qui ne contribuent
pas au calcul des axes mais pour lesquelles on pourra calculer des coordonnées sur ces
axes, permettant d’observer leur position par rapport aux autres variables. Avec le
logiciel Spad, il est possible de différencier pour une variable donnée le rôle de ses
modalités et d’attribuer à une ou plusieurs d’entre elles un rôle illustratif. Ceci permet
d’éviter les artefacts liés aux individus qui se démarquent des autres simplement parce
qu’ils sont peu nombreux à avoir une caractéristique donnée. Par exemple, on peut
choisir de traiter en actif la variable revenu mais de considérer la modalité « ne sait
pas » ou « refus » de cette variable ou une autre modalité dont l’effectif serait très
faible (<5 % des effectifs) en modalité supplémentaire. De la même façon, un mot du
lexique peut être introduit en illustratif.
Dans l’exemple ci-dessus, on a choisi de traiter la classe d’âges en variable active mais
de mettre la modalité « moins de 20 ans », peu nombreuse en termes d’effectifs, en
illustratif (Figure 21). L’exécution de l’analyse factorielle permet d’obtenir des sorties
classiques d’analyses factorielles (valeurs propres, coordonnées) et d’aides à
l’interprétation (contributions des variables et des mots, etc.).
L’Éditeur graphique de Spad permet de créer les représentations des plans factoriels
issus des résultats de l’analyse. On y accède en cliquant sur l’icône représentant un
graphique des résultats de l’AFC ou par le menu Résultats. Pour créer un graphique,
on sélectionne les individus (mots du tableau lexical) et les variables à représenter
(actives, illustratives, etc.) (Figure 22). Le lecteur pourra se reporter aux résultats de
l’analyse sur le corpus « Environnement » présentés dans la première partie (Figure 2).
Figure 22 − Spad 7 : Éditeur de Graphiques Factoriels

On visualise le nuage de points des mots et des variables retenus sur le plan factoriel
choisi (Figure 23).
Figure 23 − Spad 7 : Affichage du plan factoriel 1-2 (sans habillage)
Pour afficher les libellés des variables et les mots on utilise le menu Sélection de
l’éditeur puis Habillage pour choisir les couleurs et la police (Figure 24). On peut
choisir également de relier les modalités d’une même variable (exemple : âge, salaire,
etc.).
Figure 24 − Spad 7 : Menu de l’éditeur de graphiques

3.1.4 Le vocabulaire spécifique
L’étude du vocabulaire spécifique est une aide à l’interprétation de l’analyse facto-

rielle dans la mesure où elle restitue les mots spécifiques pour une sous-population
donnée. Elle permet ainsi de repérer une différenciation d’utilisation du vocabulaire
entre différents groupes d’individus. Pour mettre le calcul en œuvre, on place la
méthode Vocabulaire spécifique de groupes d’individus dans la Zone Diagramme et
on la relie à l’icône Mots de la même façon que pour les étapes précédentes (Figure
25).
Figure 25 − Spad 7 : Vocabulaire spécifique
En cliquant sur la méthode, on choisit la variable nominale qui va partitionner le

corpus selon les différentes modalités qu’elle contient et permettre de comparer le
vocabulaire de chacun des sous-corpus ainsi formé au vocabulaire d’ensemble. Dans
notre exemple, le choix de la variable diplôme a permis d’afficher les mots sur-
représentés selon le diplôme des répondants (cf. Tableau 8).
D’une manière générale, on accède aux fichiers contenant les résultats soit par un clic
droit sur l’icône de la méthode située dans la fenêtre Diagramme, soit par clic sur un
des fichiers résultats (format texte ou Excel) répertoriés dans l’onglet Exécutions
(Figure 26).
Figure 26 − Spad 7 : Accéder aux résultats
Nous avons vu l’enchaînement des étapes pour mettre en œuvre une analyse factorielle
sur un corpus de réponses à une question ouverte avec le logiciel Spad. Rappelons ici
que ce logiciel est plus adapté à l’analyse de textes courts en lien avec des
caractéristiques sur ces textes. L’analyse factorielle des correspondances effectuée sur
le Tableau Lexical Agrégé permet de structurer le nuage des mots à la fois en fonction
de leur proximité dans les réponses (cooccurrences) et des caractéristiques des
répondants. La position des mots sur les plans factoriels permet d’identifier des thèmes
en lien avec les profils de répondants et d’observer leur position respective
(associations, oppositions) (cf. Figure 2).
3.2 Alceste (Analyse des Lexèmes Cooccurrents dans

les Enoncés Simples d’un Texte) (version 4.8)
Nous allons aborder maintenant comment traiter un corpus d’entretiens avec le logiciel
Alceste, adapté à l’analyse de textes longs en raison des outils de lemmatisation et de
partitionnement qu’il contient. Nous montrerons à partir de l’analyse d’un entretien de
l’enquête Proches et Parents, comment la méthodologie Alceste nous permet
d’extraire du corpus des mondes lexicaux et de leur donner sens.
3.2.1 Présentation générale d’Alceste 4.8
Contrairement au logiciel Spad, l’enchaînement des méthodes utilisées par Alceste est
pré-programmé. L’utilisateur n’intervient que s’il souhaite modifier les paramètres
utilisés par défaut (types de mots analysés, critères de découpage des textes en unités
textuelles, etc.).
Trois menus sont disponibles dans la barre de menu principal.
Le menu Plan d’analyse
On choisit dans le menu Plan d’analyse (Figure 27) de créer une nouvelle analyse
(Nouveau), ou d’ouvrir un plan d’analyse existant (Ouvrir), accéder à l’éditeur de
texte EdImage (qui permet d’afficher le corpus ou le rapport d’analyse contenant les
résultats) ou encore de choisir la langue du dictionnaire qui sera utilisée dans l’étape
de lemmatisation 10 .
Figure 27 − Alceste 4.8 : Plan d’analyse
10
Il existe à ce jour des dictionnaires français, anglais, italiens, portugais, espagnols et allemands.
Le menu Analyse
C’est dans ce menu (Figure 28) que s’effectue l’exécution d’un plan d’analyse
(Analyser le corpus) et le paramétrage des analyses. Nous reviendrons sur le
paramétrage et l’édition des résultats dans la partie 3.2.4.
C’est aussi dans ce menu qu’il est possible d’extraire un sous-corpus (exemple :
réponses données par les femmes) en choisissant l’option Analyse tri-croisé.
Figure 28 − Alceste 4.8 : Analyse
Le menu Résultats
Par ce menu on accède à une interface interactive qui permet d’afficher et de naviguer
entre les différentes fenêtres graphiques de résultats.
3.2.2 Importer les données et créer le lexique
Importer les données
Dans le menu Plan d’analyse, on choisit Nouveau pour créer une nouvelle analyse,
puis on sélectionne le fichier (de type texte) à analyser. Rappelons que ce fichier peut
avoir été saisi avec n’importe quel éditeur de texte pourvu qu’il soit sauvé en format
texte (.txt).
Une fois le texte sélectionné, le logiciel propose à l’utilisateur de vérifier sa mise en
forme et l’écriture des variables étoilées pour éventuellement les corriger sous
l’éditeur de texte d’Alceste EdImage (Figure 29).
Figure 29 − Alceste 4.8 : Ouverture de l'éditeur EdImage
La mise en forme validée, le logiciel proposera à l’utilisateur d’Analyser le corpus.

L’exécution du plan d’analyse se déroule en 4 étapes distinctes (A, B, C et D) qui sont
exécutées successivement (Figure 30) et que nous allons détailler.
Figure 30 − Alceste 4.8 : Paramétrage (par défaut) de la méthodologie Alceste
Créer le lexique : la lemmatisation sous Alceste
Si on lance l’exécution sans intervenir sur le paramétrage, Alceste procède dans une
première étape (Étape A) à une lemmatisation automatique dans laquelle l’utilisateur
n’intervient ni sur le choix des mots à regrouper ni sur un éventuel seuil minimum de
fréquence (Figure 30). Nous allons détailler dans la partie qui suit cette opération.
Le logiciel contient des dictionnaires intégrés qui lui permettent d’identifier les caté-
gories grammaticales des mots du corpus puis de ramener les formes verbales à leur
infinitif, les mots ou adjectifs au pluriel à leur singulier, etc.
Le logiciel distingue les mots nécessaires à la syntaxe d’une phrase : articles, prépo-
sitions, conjonctions, adverbes, auxiliaires, marqueurs d’une relation temporelle,
spatiale, noms propres, etc., appelés mots-outils, des mots qui constituent le vocabu-
laire du corpus (noms, verbes, adjectifs, certains adverbes, etc.), appelés mots pleins
(ou analysables).
Durant l’opération de lemmatisation 11 , une catégorie intitulée clé catégorielle est

affectée dans un premier temps à chacun des mots du corpus selon une grille
prédéfinie : clé A pour les adjectifs, V pour verbes, etc. (Tableau 13). Dans un second
temps, au sein de chacune des catégories, les mots sont regroupés selon leur racine
étymologique sous une forme racine symbolisée par un signe + (cf. Tableau 3).
Par défaut, les noms propres et les mots-outils (articles, nombres, prépositions, etc.)
sont traités dans les analyses comme des mots illustratifs, au sens de variable
illustrative, par opposition aux mots analysables (appelés mots pleins). Ce sont ces
derniers qui sont utilisés lors de l’opération de découpage automatique du corpus et
dans la construction du Tableau Lexical Entier.
Tableau 13 − Valeurs des clés catégorielles et paramétrage pour l’analyse Alceste
Catégories grammaticales Clés Valeur par défaut

Adjectifs et adverbes A Mot analysable
Adverbes en "ment" B Mot analysable
Couleurs C Mot analysable
Mois/jour D Mot analysable
Epoques/Mesures E Mot analysable
Famille F Mot analysable
Lieux, pays G Mot analysable
Interjections I Mot-outil
Nombres J Mot-outil
Noms N Mot analysable
Verbes V Mot analysable
Prénoms W Mot analysable
Verbes modaux 1 Mot-outil
Marqueurs d'une modalisation 2 Mot-outil
Marqueurs d'une relation spatiale 3 Mot-outil
Marqueurs d'une relation temporelle 4 Mot-outil
Marqueurs d'une intensité 5 Mot-outil
Marqueurs d'une relation discursive 6 Mot-outil
Marqueurs de la personne 7 Mot-outil
Démonstratifs, indéfinis et relatifs- 8 Mot-outil
Auxiliaires être et avoir 9 Mot-outil
11
Le fichier issu de la lemmatisation automatique d’Alceste, nommé A2_dico et placé dans le même
répertoire que le fichier à analyser, est modifiable avec un éditeur de texte : les regroupements
effectués par le logiciel peuvent être changés et l’affectation d’un mot (forme) à une catégorie,
modifiée.
Nous allons maintenant détailler le procédé de partitionnement des textes sous Alceste.
3.2.3 La classification d’Alceste
Découper les textes en Unités de Contexte
Pour créer un Tableau Lexical Entier (cf. 1.2.1) sur lequel il sera possible de procéder
à une classification, Alceste effectue automatiquement le découpage du corpus
(entretiens par exemple) en séquences nommées Unités de Contexte (Étape B du plan
d’analyse, Figure 30).
Pour cela, Alceste procède en 3 temps :
• La première étape du découpage consiste à identifier les divisions natu-
relles du texte à analyser (chapitres d’un livre, paragraphes, strophes,
entretiens …) qui constituent les Unités de Contexte Initiales (UCI).
• Ces UCI sont ensuite découpées en unités plus petites appelées Unités de
Contexte Elémentaires (UCE) en fonction de la ponctuation présente dans
le texte, et selon l’ordre de priorité suivant : point, point-virgule, point
d’interrogation, point d’exclamation, deux points.
• L’Unité de Contexte (UC), unité textuelle de base des traitements statis-
tiques est obtenue par concaténation d'UCE successives, au sein d'une
même UCI, jusqu’à atteindre un seuil fixé de mots pleins ou analysables.
Le seuil est calculé automatiquement selon la taille du corpus.
Ces Unités de Contexte constitueront les lignes du Tableau Lexical Entier sur lequel
est effectuée la classification.
La classification
Le logiciel Alceste procède à une classification descendante hiérarchique (CDH) sur le

Tableau Lexical Entier composé en ligne des Unités de Contexte et en colonne des
mots analysables issus de la lemmatisation.
L’opération de classification se déroule de la manière suivante : initialement toutes les
Unités de Contexte sont regroupées dans une seule classe. À chaque étape, les calculs
font ressortir les deux sous-ensembles d’Unités de Contexte les plus différentes entre
elles qui constituent deux classes. Cette opération est répétée jusqu’à obtention d’un
nombre stable de classes.
Par défaut, Alceste procède à deux classifications successives qui permettent de
vérifier la stabilité des classes obtenues au découpage en Unités de Contexte en faisant
varier le seuil de mots analysables qui les déterminent.
Les variables dites étoilées (caractéristiques des textes) ne participent pas à la
détermination des classes. Elles jouent le rôle de variables illustratives qui permettent
d’affiner l’interprétation. Elles apparaissent dans les résultats lorsque leur présence est
significative pour une classe donnée.
3.2.4 Les aides à l’interprétation
La description des classes et l’interprétation de leur contenu s’effectue par la lecture

des résultats des étapes C et D du plan d’analyse.
On peut retrouver l’ensemble des résultats dans un fichier de type texte intitulé
Rapport, placé dans le répertoire où se trouve le fichier texte à traiter et consultable via
le menu Ouvrir le rapport d’analyse (Figure 27).
On peut aussi visualiser les résultats dans une fenêtre intitulée Synthèse du traitement
(Figure 31) qui s’affiche automatiquement après l’exécution de la classification et qui
est également accessible par le menu Résultats.
Figure 31 − Alceste 4.8 : Synthèse du traitement
À partir de cette fenêtre, on peut accéder au Navigateur (Figure 32) qui affiche les
résultats par classe. On passe d’une classe à l’autre en sélectionnant celle-ci en bas de
l’écran.
Figure 32 − Alceste 4.8 : Panorama des résultats de la classe 1
Nous allons détailler quelques-uns des résultats les plus utiles pour l’interprétation du
profil des classes :
- la mesure du Khi2 d’association d’un mot (analysable ou mot-outil) à une classe
qui permet d’identifier pour chaque classe les mots et caractéristiques des textes
les plus représentatifs ;
- la liste des Unités de Contexte Élémentaire, caractéristiques les plus représenta-
tives de chacune des classes. Leur lecture permet de saisir le contexte des mots
dans le corpus de textes ;
- la distribution des formes d’origine par racine qui permet d’observer la distribu-
tion des formes regroupées dans l’opération de lemmatisation pour juger de leur
pertinence ;
- la répartition des catégories de mots (issues de la lemmatisation) par classe. Elle
permet de caractériser plus finement le type de vocabulaire employé dans chacune
des classes ;
- un graphique issue d’une Analyse Factorielle des Correspondances effectuée sur
un tableau composé des mots croisés avec les numéros des classes. À l’intersec-
tion d’une ligne et d’une colonne figure le nombre d’UCE de la classe contenant
le mot correspondant. Le plan factoriel issu de cette AFC permet d’observer la
position relative des classes. Elle complète l’arbre de classification (Figure 5) et
aide à l’interprétation d’ensemble de la classification.
- l’arbre issu d’une classification ascendante hiérarchique sur le tableau précédent
qui permet de repérer des liens de voisinage des mots au sein des unités de
contexte d’une même classe.
3.2.5 Intervenir dans le paramétrage
Dans une première utilisation d’Alceste, il est préférable de procéder à une analyse
standard qui utilise les paramètres par défaut du logiciel. Par la suite on pourra
éventuellement modifier la lemmatisation, les catégories de mots à analyser, le critère
de découpage du corpus, le choix d’une simple ou double classification, etc.
En accédant au paramétrage des clés catégorielles dans le menu Analyse, Paramé-
trage, Clés catégorielles, Modification, on peut changer le statut des catégories de
mots issus de la lemmatisation. Par exemple, on peut décider que la catégorie de mots
Prénoms, traitée par défaut en supplémentaire, sera considérée comme analysable. Par
ailleurs, on peut affiner ou créer des catégories de mots ou encore ajouter des mots au
dictionnaire Alceste (exemple : vocabulaire médical).
On peut aussi supprimer des regroupements effectués par l’opération de lemmatisation
en intervenant dans le fichier A2_dico créé dans le même répertoire que le fichier à
analyser. Par exemple, on peut décider de supprimer le regroupement des formes vert
et verts en considérant que l’usage de ce mot au singulier ou au pluriel n’a pas le
même sens. C’est au fur et à mesure des utilisations et en fonction de la spécificité de
chacun des corpus que l’on ressentira le besoin d’intervenir sur les catégories de
lemmatisation d’Alceste.
Nous venons de voir que le logiciel Alceste opère par une méthodologie qui lui est
propre. À la différence de Spad qui traite les textes comme des variables particulières
sur lesquelles il applique des méthodes factorielles classiques, Alceste conserve la
richesse lexicale des textes pour retrouver la trace des « environnements mentaux »
que le locuteur a successivement investis, trace perceptible sous forme de « mondes
lexicaux » (Rouré et Reinert, 1993).
3.3 Lexico (version 3)
Dans cette dernière partie, nous allons illustrer la mise en œuvre de Lexico sur le
corpus « Environnement ». Nous insisterons en particulier sur le calcul du vocabulaire
spécifique (appelé spécificités lexicométriques) calculé sur des sous-corpus constitués
à partir d’une caractéristique des textes. Les résultats sont présentés sous forme de
représentations graphiques originales sur lesquelles on visualise les occurrences d’une
(ou de plusieurs) forme(s), d’un groupe de formes, ou encore de segments répétés au

sein du corpus.
Lexico a l’avantage d’être un logiciel d’accès libre et d’utilisation assez simple.
3.3.1 Présentation générale
Lexico se présente sous la forme d’une palette d’icones, chacune correspondant à une
méthode spécifique de traitement des données textuelles : fréquence des mots,
segments répétés, concordance, etc.
Au fur et à mesure des calculs, on peut stocker les résultats dans un dossier Rapport en
cliquant sur l’icône Ajouter au rapport (Figure 33).
Figure 33 − Lexico 3 : Interface
3.3.2 Importer les données et créer le dictionnaire
Importer les données
Pour créer une base on clique sur l’icône puis on sélectionne le fichier texte à
importer. Une base Lexico est alors générée puis sauvegardée automatiquement dans
un fichier (d’extension .par). Pour une utilisation ultérieure de cette base, il suffira de
la sélectionner par l’icône .
Créer le dictionnaire
L’utilisateur n’a pas à intervenir pour créer le vocabulaire. Celui-ci est automa-
tiquement généré au moment de la création ou de l’ouverture d’une base et s’affiche
dans la partie gauche de l’écran (Figure 34). Ce Dictionnaire des mots du corpus peut
être trié par ordre alphabétique ou par ordre de fréquence. Il est sauvegardé dans un
fichier d’extension .dic et s’ouvre avec un éditeur de texte.
Dans la partie droite de l’écran on visualise le texte importé. Par la suite, ce sont les
résultats des méthodes qui s’y s’afficheront au fur et à mesure des traitements
effectués.
Figure 34 − Lexico 3 : Extrait du dictionnaire des formes graphiques
L’opération de lemmatisation sous Lexico (accessible par l’icône ) s’effectue de

manière assistée au moyen d’un outil de recherche de chaînes de caractères. Celui-ci
permet de repérer et d’afficher les mots contenant une chaîne donnée et de les réunir
au sein d’une même forme à laquelle on attribue un nom, ici écologie+ (Figure 35).
Sous Lexico, ce groupe de formes est appelé types généralisés, ou Tgen.
Figure 35 − Lexico 3 : Lemmatisation assistée

Si l’on souhaite utiliser ce Tgen par la suite, il est nécessaire de le mémoriser en

cliquant sur la flèche rouge et en déposant celle-ci sur le Garde-Mots (lcône ). On
visualise les Tgen stockés dans le garde-mots par clic droit sur celui-ci. Il est possible
de les réutiliser par un glisser/déposer dans une des fenêtres de travail.
Comme avec Spad, le recours à l’édition du contexte de mots, dénommé ici
Concordances, peut s’avérer utile. Pour utiliser cette fonction, on clique sur l’icône
Concordances puis on sélectionne un mot du Dictionnaire ou un Tgen du Garde-
Mots que l’on place dans la fenêtre Concordances par clisser-déposer. Dans l’exemple
suivant, on a déplacé les mots écologiques, écologiques, écologiste et écologistes
(Figure 36) pour observer leur contexte d’utilisation respectif.
Figure 36 − Lexico 3 : Concordance des mots écologique, écologiste et écologistes

dans le corpus « Environnement »

Les statistiques par partie
Un intérêt de Lexico est de calculer des statistiques lexicales sur des partitions du
corpus constituées à partir des caractéristiques des textes (âge, CSP, etc.). Pour cela,
on utilise l’outil d’analyse Statistiques par Parties (Figure 37).
Figure 37 − Lexico 3 : Partitionnement du corpus en fonction

de variables caractéristiques
Dans l’exemple ci-dessous, on a choisi la variable âge pour créer une partition du
corpus puis on a placé dans le cadre graphique les mots du vocabulaire ou TGen dont
on souhaite observer la fréquence par classe d’âges (Figure 38).
Figure 38 − Lexico 3 : Répartition des mots nature, vie, cadre et entoure

par classe d'âges de l'enquêté

Le module Principales caractéristiques lexicométriques du corpus (PCLC), symbo-

lisée par l’icône , permet d’accéder à un ensemble de méthodes qui vont de la
description statistique univariée à l’analyse multidimensionnelle. La première méthode
proposée, appelée spécificités lexicométriques 12 , est accessible par le bouton Spécifs et
permet d’afficher le vocabulaire spécifique de chaque partie. En sélectionnant une
ligne correspondant à une classe d’âges donnée, on obtient dans la partie gauche de la
fenêtre le vocabulaire spécifique pour le sous-groupe correspondant (Figure 39).
Figure 39 − Lexico 3 : Tableau des spécificités d’une classe d’âges
Si l’on souhaite disposer d’un tableau synthétique du vocabulaire pour l’ensemble des
modalités de la variable, on utilise la méthode Spécificités Totales (bouton Sp. Tot )
(Figure 40).
Il est possible d’effectuer une Analyse Factorielle des Correspondances (AFC) sur une
partition donnée du corpus (par exemple, en fonction de l’âge). À la différence de
Spad, on ne peut traiter qu’une seule variable à la fois dans l’AFC.
Dans le cas d’une série de textes chronologiques, il est intéressant d’utiliser la méthode
Spécificités Evolutives (Sp. Evol.) qui permet de « visualiser l’évolution des emplois
de vocabulaire au cours du temps (spécificités chronologiques) » (Lamalle et Salem,
2002).
12
L’utilisation de ce module requiert au préalable d’avoir partitionné le corpus en fonction d’une
caractéristique donnée en utilisant le module Découpage en parties.
Figure 40 − Lexico 3 : Mots spécifiques par classe d'âges
3.3.3 Cartographie textuelle
Par ailleurs, Lexico propose une représentation originale des occurrences d’une ou
plusieurs formes présentes dans le corpus au moyen d’un traitement intitulé Carte des
sections (l’icône ). Cette « cartographie » interactive permet de visualiser la
localisation des occurrences d’une forme donnée (mot ou Tgen) dans l’ensemble d’un
texte (Figure 33).
Les unités textuelles issues du découpage sont figurées par des carrés et la couleur
indique la présence d’une forme donnée (Figure 41). Cette représentation « met
immédiatement en valeur la distribution des formes au sein du corpus et invite donc
dès la lecture à passer à l’interprétation » (Bonin et Dallo, 2003).
Figure 41 − Lexico 3 : Les occurrences du groupe de formes écologie+
Outre son aspect libre, la qualité de Lexico est de mettre en évidence par un
partitionnement du texte en « longitudinal » des chronologies ou des évolutions de
discours et de les représenter graphiquement.
Conclusion
Nous avons dans ce manuel exposé les principales clefs pour explorer les méthodes de
la statistique textuelle. Certes pas toutes les clefs, car l’analyse textuelle est avant tout
une démarche exploratoire qui nécessite un va et vient interactif entre les données et
leur interprétation (Demazière et al., 2006). Le matériau même qu’elle exploite, le
texte, peut revêtir des formes tellement variées qu’il est délicat de donner des règles
trop strictes d’exploitation.
C’est à chaque utilisateur au fur et à mesure du traitement de son corpus de se
familiariser avec ces différentes méthodes, de les conjuguer afin de tirer toute la
substance des textes analysés.
L’amélioration de ces méthodes et la diversité de leurs champs d’application font
l’objet de journées (Journées internationales d'Analyse statistique des Données
Textuelles) durant lesquelles sont exposées toutes les nouvelles techniques qui
permettent d’aller encore plus loin dans l’exploitation des textes. On retrouve les actes
de ces conférences dans la revue en ligne Lexicometrica.
En conclusion, les combinaisons de méthodes et de traitements sont infinies et nous ne
pouvons que vous encourager à les expérimenter par vous-même.
Références bibliographiques
Benzecri Jean-Paul, 1973 - L’analyse des Données (tome 1 et 2). Dunod, Paris.
Bonvalet Catherine, Gotman Anne, Grafmeyer Yves, Bertaux-Wiame Isabelle, Le
Bras Hervé, Maison Dominique, 1999 - La famille et ses proches : l'aménagement
des territoires. Ined, Paris, 291 p.
Bonin Emmanuel, Dallo Alain, 2003 - « Hyperbase et Lexico 3, outils lexicométriques
pour l’historien ». Histoire et Mesure, n° XVIII, 3/4.
Collomb Philippe, Guérin-Pace France, 1998 - « Les français et l’environnement ».
Enquête Populations - Espaces de vie - Environnements, INED - PUF, 255 p.
Courgeau Daniel, Guérin-Pace France, 1998 - « Le suivi des itinéraires professionnels
des couples par les méthodes de la statistique textuelle ». In Antipolis Université
de Nice-Sophia, UPRESA "Bases Corpus et Langage". In 4e Journées
internationales d'Analyse statistique des Données Textuelles. Nice : 221-231.
Demazière Didier, Brossaud Claire, Trabal Patrick, Van Meter Karl (dir.), 2006 -
Analyses textuelles en sociologie - Logiciels, méthodes, usages. Presses Univer-
sitaires, Rennes, Collection : Didact. Méthodes, 218 p.
Escofier Brigitte, Pagès Jérôme, 2008 - Analyses factorielles simples et multiples :
Objectifs, méthodes et interprétation. 4e Edition. Dunod, Paris, 318 p.
Garnier Bénédicte, Guérin-Pace France, 1998 - « La statistique textuelle pour traiter
une question ouverte suivie d'une relance ». In 4e Journées internationales
d'Analyse statistique des Données Textuelles. Nice : 315-324.
Guérin-Pace France, Garnier Bénédicte, 1995 - « La statistique textuelle pour le
traitement simultané des réponses à des questions ouvertes et fermées, sur le thème
de l'environnement ». Actes des 3èmes Journées internationales d’Analyse
statistique des Données Textuelles, CISU, Rome : 37-45.
Guérin-Pace France, 1997 - « La statistique textuelle : un outil exploratoire en sciences
sociales ». Ined, Population (4) : 865-887.
Guérin-Pace France, 1998 - “Textual statistics, an exploratory tool for the social
science”. Ined, Population in English, France :
http://www.jstor.org/pss/2998680)
Guérin-Pace France, Collomb Philippe, 1998 - « Les contours du mot "environne-
ment" : enseignements de la statistique textuelle ». L'Espace géographique (1) :
41-52.
Guérin-Pace France, Garnier Bénédicte, 1996 - « La statistique textuelle pour le

traitement simultané de réponses à des questions ouvertes et fermées sur le thème
de l'environnement ». In 3e Journées internationales d'Analyse statistique des
Données Textuelles. CISU, Rome, vol. 2 :37-44.
Jenny Jacques, 1997 - « Méthodes et pratiques formalisées d'analyse de contenu et de
discours dans la recherche sociologique française contemporaine. Etat des lieux et
essai de classification ». Bulletin de Méthodologie Sociologique, n° 54 : 64-112.
http://www.cmh.pro.ens.fr/bms/arcati/BMS54-Jenny-New.htm
Lamalle Cédric, Salem André, 2002 - « Types généralisés et topographie textuelle
dans l'analyse quantitative des corpus textuels ». In 6e Journées internationales
d'Analyse statistique des Données Textuelle, Saint-Malo.
Lebart Ludovic, Salem André, 1994 - Statistique textuelle. Paris, Dunod, 342 p.
Cet ouvrage est épuisé mais on peut le trouver sur le site de Ludovic Lebart :
http://www.dtmvic.com/
Voir Publications et choisir Télécharger (format pdf) ou Lecture sur écran.
Reinert Max, 1993 - « Les « mondes lexicaux » et leur « logique » à travers l’analyse
statistique d’un corpus de récits de cauchemars ». Langage et Société, n° 66, MSH.
Paris.
Reinert Max, 1983 - « Une méthode de classification descendante hiérarchique :
Application à l'analyse lexicale par contexte ». Cahiers de l'Analyse des Données,
3 : 187-198.
Rouré Hélène, Reinert Max, 1993 - « Analyse d’un entretien à l’aide d’une méthode
d’analyse lexicale ». In Journées internationales d'Analyse statistique des Données
Textuelles, ENST, Paris : 418-428.
.
Liste des figures
Figure 1 − Exemple de plan factoriel (1-3) issu d’une AFC sur le Tableau Lexical
Entier associé au corpus « Environnement » (logiciel Spad)................... 19
Figure 2 − Les mots et les caractéristiques des répondants (plan 1-2) .................... 20
Figure 3 − Extrait du questionnaire de l’enquête Populations - Espaces de vie -
Environnements....................................................................................... 22
Figure 4 − Analyse simultanée d'une question ouverte et d'une question fermée
(plan 1-2) (logiciel Spad).......................................................................... 23
Figure 5 − Exemple d’arbre issu d’une Classification Descendante Hiérarchique
sur le corpus « Environnement » (logiciel Alceste) .................................. 25
Figure 6 − Spad 7 : Ouverture du logiciel ................................................................. 46
Figure 7 − Spad 7 : Interface du logiciel ................................................................... 46
Figure 8 − Spad 7 : Les méthodes de la rubrique Text Mining ................................. 47
Figure 9 − Spad 7 : Importation d’un fichier Excel .................................................... 49
Figure 10 − Spad 7 : Paramétrage de l'importation des données............................. 50
Figure 11 − Spad 7 : Modifier le type des variables.................................................. 50
Figure 12 − Spad 7 : Construction du lexique........................................................... 51
Figure 13 − Spad 7 : Lemmatisation......................................................................... 52
Figure 14 − Spad 7 : Paramétrage de la lemmatisation............................................ 52
Figure 15 − Spad 7 : Sélection de formes par filtre .................................................. 53
Figure 16 − Spad 7 : Résultats d’une lemmatisation ................................................ 54
Figure 17 − Spad 7 : Édition du contexte des mots .................................................. 55
Figure 18 − Spad 7 : Fenêtre de paramétrage de l'édition du contexte des mots..... 55
Figure 19 − Spad 7 : Paramétrage de la création d’un Tableau Lexical Aggrégé..... 57
Figure 20 − Spad 7 : AFC sur le Tableau Lexical Agrégé......................................... 58
Figure 21 − Fenêtre de paramétrage d’une AFC ...................................................... 58
Figure 22 − Spad 7 : Éditeur de Graphiques Factoriels............................................ 59
Figure 23 − Spad 7 : Affichage du plan factoriel 1-2 (sans habillage)....................... 60
Figure 24 − Spad 7 : Menu de l’éditeur de graphiques ............................................. 60
Figure 25 − Spad 7 : Vocabulaire spécifique ............................................................ 61
Figure 26 − Spad 7 : Accéder aux résultats.............................................................. 62

Figure 27 − Alceste 4.8 : Plan d’analyse .................................................................. 63
Figure 28 − Alceste 4.8 : Analyse ............................................................................. 64
Figure 29 − Alceste 4.8 : Ouverture de l'éditeur EdImage ........................................ 65
Figure 30 − Alceste 4.8 : Paramétrage (par défaut) de la méthodologie Alceste...... 66
Figure 31 − Alceste 4.8 : Synthèse du traitement ..................................................... 69
Figure 32 − Alceste 4.8 : Panorama des résultats de la classe 1 ............................. 70
Figure 33 − Lexico 3 : Interface ................................................................................ 72
Figure 34 − Lexico 3 : Extrait du dictionnaire des formes graphiques ...................... 73
Figure 35 − Lexico 3 : Lemmatisation assistée......................................................... 73
Figure 36 − Lexico 3 : Concordance des mots écologique, écologiste et
écologistes dans le corpus « Environnement »...................................... 74
Figure 37 − Lexico 3 : Partitionnement du corpus en fonction de variables
caractéristiques...................................................................................... 75
Figure 38 − Lexico 3 : Répartition des mots nature, vie, cadre et entoure
par classe d'âges de l'enquêté............................................................... 75
Figure 39 − Lexico 3 : Tableau des spécificités d’une classe d’âges........................ 76
Figure 40 − Lexico 3 : Mots spécifiques par classe d'âges....................................... 77
Figure 41 − Lexico 3 : Les occurrences du groupe de formes écologie+ ................. 78
Liste des tableaux
Tableau 1 − Extrait du lexique associé à la question « Si je vous dis

environnement, qu’est ce que cela évoque pour vous ? »
(logiciel Spad) .............................................................................. 12
Tableau 2 − Extrait des segments répétés associés au corpus
« Environnement » (logiciel Spad) ............................................... 13
Tableau 3 − Extrait de la lemmatisation du vocabulaire du corpus
« Environnement » (logiciel Alceste)............................................ 15
Tableau 4 − Extrait de catégorisation de mots extraits du corpus
« Environnement » (logiciel Alceste)............................................ 15
Tableau 5 − Extrait du Tableau Lexical Entier associé au corpus
« Environnement »....................................................................... 16
Tableau 6 − Extrait d’une juxtaposition de Tableaux Lexicaux Agrégés
associés au corpus « Environnement » ....................................... 18
Tableau 7 − Extrait du contexte d’utilisation des mots équilibre et naturel
dans le corpus « Environnement » (logiciel Spad) ...................... 27
Tableau 8 − Extrait du vocabulaire spécifique selon le diplôme des
répondants (logiciel Spad)........................................................... 28
Tableau 9 − Réponses caractéristiques selon le diplôme des répondants
(logiciel Spad) .............................................................................. 29
Tableau 10 − Vocabulaire et réponses caractéristiques issues d’une CDH
(logiciel Alceste)......................................................................... 31
Tableau 11 − Comparaison de logiciels de statistique textuelle...................... 37
Tableau 12 − Spad 7 : Édition du contexte des mots...................................... 56
Tableau 13 − Valeurs des clés catégorielles et paramétrage pour l’analyse
Alceste ................................................................................................. 67
Tableau S1 – Exemple de mise en forme de réponses à une question ouverte pour

Spad.................................................................................................... 39
Tableau S2 – Exemple de mise en forme d’un entretien pour Spad......................... 40
Tableau A1 – Exemple de mise en forme de réponses à une question ouverte
pour Alceste ........................................................................................ 41
Tableau A2 – Exemple de mise en forme d’un entretien pour Alceste ..................... 42
Tableau L1 – Exemple de mise en forme des réponses à une question ouverte
pour Lexico.......................................................................................... 43
Tableau L2 – Exemple de mise en forme d’un entretien pour Lexico ....................... 43
Index
Analyse Factorielle des Correspondances : 17, 19, 20, 58, 62, 70, 76
Catégorisation : 14, 15
Classification(s) : 11, 17, 24, 25, 26, 30, 32, 33, 34, 36, 68, 69, 71, 82
Concordance(s) : 26, 33, 72, 74,
Cooccurrence(s) : 17, 19, 62
Découpage du corpus : 68, 71
Forme : 13, 15, 26, 27, 34, 54, 70, 71, 77, 78
Forme graphique : 13, 73
Forme racine : 14, 15, 53, 54, 67
Forme spécifique : 27, 29, 61, 77
Lemmatisation : 11, 14, 15, 34, 35, 36, 37, 51, 52, 54, 56, 63, 66, 67, 68, 70, 71, 73
Lexique : 11, 12,13, 14, 16, 17, 48, 51, 53, 56, 57, 59, 64, 66, 83, 85
Mots analysables pleins : 66, 67, 68
Mot(s)-outil(s) : 66, 67, 70
Plan(s) factoriel(s) : 19, 20, 26, 32, 37, 59, 60, 62, 71
Segment(s) répété(s) : 13, 71, 72, 85
Spécificités lexicales : 26, 33, 34
Tableau Lexical Agrégé : 11, 17, 20, 57, 58, 62, 83
Tableau Lexical Entier : 11 16, 17, 19, 24, 58, 67, 68
Unité(s) de contexte : 34, 41, 68, 70, 71
Unité(s) textuelle(s) : 16, 17, 19, 24, 29, 30, 38, 39, 41, 42, 63, 68, 77
Vocabulaire spécifique : 26, 28, 30, 31, 61, 71, 76
Pour une définition des termes spécifiques à l’analyse textuelle, on pourra

se référer au glossaire de Statistiques Textuelles :
http://tal.univ-paris3.fr/wakka/wakka.php?wiki=Glossaire
Légende de la photo de couverture
© IRD – Laure Emperaire

Gros plan de tamis à mailles fines servant à la préparation
des galettes de manioc (beijus). Motifs de vannerie. Amazonie, Brésil.
Imprimé en France
par PRÉSENCE GRAPHIQUE
2, rue de la Pinsonnière - 37260 MONTS
N° d’imprimeur :
Dépôt légal 4e trimestre 2010

Appliquer Les Méthodes de La Statistique Textuelle

Transféré par

Droits d'auteur :

Formats disponibles

Appliquer Les Méthodes de La Statistique Textuelle

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Appliquer Les Méthodes de La Statistique Textuelle

Transféré par

Droits d'auteur :

Formats disponibles

Appliquer les méthodes

Rédactrice en chef : Éva Lelièvre

Maquette de couverture : Christine Tichit

© Copyright UMR CEPED 2010

Tél. : 33 (0)1 78 94 98 70 – Fax : 33 (0)1 78 94 78 79

Répondre à une demande concrète

Faire circuler concepts et méthodes

Les méthodes et outils de collecte (questionnaires, modes d’observation) provenant de

Du point de vue de l’analyse s’appuyant sur la présentation d’outils développés au

L’objectif de ce manuel est de présenter de manière simple et illustrée les éléments

Appliquer les méthodes de la statistique textuelle nécessite de procéder à une chaîne

1.1 Sélectionner les mots à analyser

1.1.1 Construire le lexique

Tableau 1 − Extrait du lexique associé à la question « Si je vous dis environnement,

Outre une première interprétation du contenu du corpus, cette lecture attentive du

Tableau 2 − Extrait des segments répétés associés au corpus « Environnement »

Fréquence Segments répétés

1.1.2 Réduire le vocabulaire

Tableau 3 − Extrait de la lemmatisation du vocabulaire du corpus « Environnement »

Forme racine Mot Fréquence

Tableau 4 − Extrait de catégorisation de mots extraits du corpus « Environnement »

Forme racine Mots Catégorie

1.2 Construire les tableaux lexicaux

Une fois le lexique constitué, il est nécessaire de construire à partir de celui-ci un

1.2.1 Le Tableau Lexical Entier

Tableau 5 − Extrait du Tableau Lexical Entier associé au corpus « Environnement »

Formes lexicales (mots du corpus)

Source : Enquête Populations - Espaces de vie - Environnements (Ined, 1992)

1.2.2 Le Tableau Lexical Agrégé

Le Tableau Lexical Agrégé est un tableau de contingence, en réalité une juxtaposition

1.3 Choisir les méthodes à utiliser

1.3.1 Les méthodes factorielles

Source : Enquête Populations - Espaces de vie - Environnements (Ined, 1992)

Interprétation possible : On observe sur le graphique une proximité entre les

Figure 2 − Les mots et les caractéristiques des répondants (plan 1-2)

Source : Enquête Populations - Espaces de vie - Environnements (Ined, 1992)

Interprétation possible : La différenciation la plus importante pour parler d’environ-

Au-delà des caractéristiques individuelles des locuteurs, il peut être intéressant de

Figure 3 − Extrait du questionnaire de l’enquête Populations - Espaces de vie -

Source : Enquête Populations - Espaces de vie - Environnements (Ined, 1992)

Interprétation possible : Face à une conception spontanée de l’environnement dans

1.3.2 Les classifications

Les méthodes de classification hiérarchique permettent d’obtenir à partir d’un

Figure 5 − Exemple d’arbre issu d’une Classification Descendante

Source : Enquête Populations - Espaces de vie - Environnements (Ined, 1992)

Interprétation possible : En effectuant une classification (CDH) sur le corpus

Des traitements statistiques simples viennent compléter utilement les méthodes

1.3.3 Les aides à l’interprétation

Les contextes d’utilisation des mots

Les spécificités lexicales

Il s’agit ici de repérer des différenciations d’utilisation de vocabulaire entre différentes

Tableau 7 − Extrait du contexte d’utilisation des mots équilibre et naturel

restitués selon leur degré de spécificité (valeur-test décroissante) (Tableau 8). En

Tableau 8 − Extrait du vocabulaire spécifique selon le diplôme des répondants

Tableau 9 − Réponses caractéristiques selon le diplôme des répondants

De manière un peu différente, à la suite d’une classification, l’analyse du vocabulaire

Interprétation possible de la classe 7 : Par ce mode de définition, le déclarant centre

Tableau 10 − Vocabulaire et réponses caractéristiques issues d’une CDH

Classe 2 : Iconographie de la nature

2.1 Panorama des logiciels

0002 age_20_29 dipl_sup csp_ens&etud local_tgv *rev_1

0003 age_30_39 dipl_supcsp_employe local_gv *rev_1

0004 age_30_39 dipl_bac csp_ens&etud local_tgv *rev_3

0007 age_30_39 dipl_sup csp_cadr&lib local_rur *rev_2

0008 age_40_49 dipl_sup csp_prof_int local_tgv *rev_3

0037 sexe_F age_20_29 matri_celib csp_ ens&etud