Appliquer Les Méthodes de La Statistique Textuelle
Appliquer Les Méthodes de La Statistique Textuelle
Appliquer Les Méthodes de La Statistique Textuelle
de la statistique textuelle
Appliquer les méthodes
de la statistique textuelle
Bénédicte GARNIER
France GUÉRIN-PACE
INED
Paris 2010
Le Bureau d’Appui à la Recherche (BAR) suscite des groupes de travail rassemblant des
chercheurs du Nord et du Sud autour de questions émergentes. Ceux-ci développent un
programme d’activité annuel ou pluri-annuel, le plus souvent sous forme d’ateliers. Ces
activités sont valorisées par des publications et une diffusion large des résultats. Les sujets
sont thématiques, géographiques ou méthodologiques, en particulier le développement, la
mise en œuvre et l'évaluation d'outils de collecte et d'analyse.
Les Collections du CEPED comportent trois séries :
– la série « les Clefs pour »
– la série « Regards sur »
– la série « Les numériques du CEPED »
Ces publications permettent une diffusion rapide et validée des résultats de recherche ainsi
qu’une meilleure connaissance des nouvelles méthodes, techniques et concepts en matière de
Population et développement.
Les chercheurs, et particulièrement les chercheurs du Sud, qui y ont un accès privilégié, y
trouvent une validation scientifique et une bonne dissémination de leurs travaux.
CEPED
UMR 196 Université Paris Descartes-INED-IRD
19, rue Jacob – 75006 Paris – France
La série « les Clefs pour » des Collections du CEPED se donne pour objectif de faire
partager l’expérience, de ménager les échanges en assurant la diffusion des méthodes
et des concepts. Cette série se présente sous forme de petits manuels qui n’ont pas pour
ambition de faire le tour de la question mais plutôt de proposer soit une introduction,
soit un manuel pratique permettant de se familiariser avec le sujet présenté et
d’accéder aux publications plus élaborées le cas échéant.
INTRODUCTION ................................................................................................................ 9
1. LES ÉTAPES DE TRAITEMENT D’UN CORPUS .............................................................. 11
1.1. Sélectionner les mots à analyser ........................................................................ 11
1.1.1 Construire le lexique................................................................................. 11
1.1.2 Réduire le vocabulaire .............................................................................. 14
1.2. Construire les tableaux lexicaux ........................................................................ 16
1.2.1 Le Tableau Lexical Entier ........................................................................ 16
1.2.2 Le Tableau Lexical Agrégé....................................................................... 17
1.3. Choisir les méthodes à utiliser ........................................................................... 17
1.3.1 Les méthodes factorielles.......................................................................... 19
1.3.2 Les classifications ..................................................................................... 24
1.3.3 Les aides à l’interprétation........................................................................ 26
Les contextes d’utilisation des mots ......................................................... 26
Les spécificités lexicales........................................................................... 26
2. LES OUTILS ................................................................................................................ 33
2.1. Panorama des logiciels....................................................................................... 33
2.1.1 Trois logiciels de référence....................................................................... 33
2.1.2 D’autres logiciels ...................................................................................... 34
2.1.3 Quelques critères de choix de logiciels..................................................... 35
2.2. Préparer le corpus .............................................................................................. 38
2.2.1 Pour Spad .................................................................................................. 38
2.2.2 Pour Alceste .............................................................................................. 40
2.2.3 Pour Lexico............................................................................................... 42
3. LA MISE EN ŒUVRE .................................................................................................... 45
3.1. Spad (version 7) ................................................................................................. 45
3.1.1 Présentation générale ................................................................................ 45
3.1.2 Importer les données et créer le lexique ................................................... 48
La lemmatisation....................................................................................... 51
3.1.3 L’analyse factorielle sur le Tableau Lexical Agrégé ................................ 57
3.1.4 Le vocabulaire spécifique ......................................................................... 61
3.2. Alceste (version 4.8) .......................................................................................... 63
3.2.1 Présentation générale d’Alceste 4.8.......................................................... 63
Le menu Plan d’analyse............................................................................ 63
Le menu Analyse ...................................................................................... 64
Le menu Résultats..................................................................................... 64
3.2.2 Importer les données et créer le lexique ................................................... 64
Importer les données................................................................................. 64
Créer le lexique : la lemmatisation sous Alceste ...................................... 66
3.2.3 La classification d’Alceste........................................................................ 68
Découper les textes en Unités de Contexte............................................... 68
La classification ........................................................................................ 68
3.2.4 Les aides à l’interprétation........................................................................ 69
3.2.5 Intervenir dans le paramétrage.................................................................. 71
3.3. Lexico (version 3).............................................................................................. 71
3.3.1 Présentation générale ................................................................................ 72
3.3.2 Importer les données et créer le dictionnaire ............................................ 72
Importer les données................................................................................. 72
Créer le dictionnaire.................................................................................. 72
Les statistiques par partie.......................................................................... 75
3.3.3 Cartographie textuelle............................................................................... 77
CONCLUSION ................................................................................................................. 79
RÉFÉRENCES BIBLIOGRAPHIQUES .................................................................................. 81
Liste des figures ............................................................................................................ 83
Liste des tableaux.......................................................................................................... 85
Index ............................................................................................................................. 87
Introduction
Ce manuel s’adresse à tous ceux qui sont amenés à traiter des textes quel que soit leur
domaine d’étude : sociologie, histoire, démographie, géographie, marketing, etc. et
leur niveau de connaissances en statistique.
Il existe un grand nombre de logiciels qui permettent d’analyser un corpus de textes
mais il faut distinguer les logiciels à proprement dit de statistique textuelle des
logiciels d’aide à l’exploration de textes. Les premiers considèrent les textes comme
des variables de nature particulière que l’on peut traiter par des méthodes de statistique
exploratoire classiques (Spad, Alceste, Lexico, etc.) ; les seconds (Sphinx, Nvivo, etc.)
supposent l’élaboration a priori par le chercheur d’une grille d’analyse qui peut être
enrichie et modifiée par une relecture assistée du corpus grâce à des outils d’aide à la
lecture. Ces logiciels ne proposent aucune analyse statistique et ne seront pas exposés
dans cet ouvrage.
Quel que soit le logiciel de statistique textuelle utilisé, l’analyse des textes est précédée
de plusieurs étapes communes que nous décrirons dans la première partie de ce
manuel. Dans une seconde partie, nous présenterons quelques logiciels qui font
référence dans le domaine de la statistique textuelle (Spad, Alceste, Lexico) ainsi que
la mise en forme des corpus nécessaire à leur utilisation. Enfin, dans une dernière
partie, nous illustrerons les méthodes par des exemples concrets d’application de ces
logiciels.
1. Les étapes de traitement d’un corpus
L’inventaire des mots présents dans un corpus donné constitue le lexique 1 . Selon le
choix de l’utilisateur, le lexique peut être restitué, soit par ordre alphabétique soit par
ordre de fréquence décroissante d’apparition des mots (Tableau 1).
La lecture du vocabulaire est une étape très importante qui permet à l’utilisateur de
s’approprier progressivement le corpus :
- en repérant la présence et la fréquence des mots employés ;
- en recherchant un terme précis et sa fréquence d’apparition ;
- en comparant la fréquence des mots.
1
Pour une définition des termes spécifiques à l’analyse textuelle, on pourra se référer au glossaire de
Statistiques Textuelles : http://tal.univ-paris3.fr/wakka/wakka.php?wiki=Glossaire
12 APPLIQUER LES MÉTHODES DE LA STATISTIQUE TEXTUELLE
Fréquence Mot
2650 la
2125 nature
1922 de
973 les
895 vie
891 ce
860 qui
859 le
716 l’
492 entoure
471 tout
464 autour
405 est
382 cadre
356 nous
355 pollution
328 espace
306 on
296 a
291 qualité
281 campagne
268 bien
262 ou
248 air
247 verdure
228 propreté
226 moi
224 être
215 m’
214 calme
Source : Enquête Populations - Espaces de vie - Environnements (Ined, 1992)
2
Nous appellerons corpus « Environnement » le corpus des réponses à la question: « Si je vous dis
Environnement qu’est ce que cela évoque pour vous ? » (Enquête lned « Populations - Espaces de
vie - Environnements » (Collomb et Guérin-Pace, 1998) qui a été choisi pour illustrer les traitements
d’une question ouverte. Cette enquête réalisée auprès d’un échantillon de 5 000 personnes,
représentatif de la population française, comportait un ensemble de questions d’opinion centrées sur
l’environnement.
B. GARNIER et F. GUÉRIN-PACE 13
Une lecture de cette liste de mots donne un premier aperçu du contenu du corpus.
Interprétation possible : Les français associent fréquemment l’environnement à la
nature, que ce soit par l’introduction même du mot nature ou par celle des éléments
qui la composent : « campagne », « verdure ». L’environnement semble souvent limité
à un pourtour immédiat du lieu d’habitation : « autour », « entoure » ou souvent
décliné sur le thème de la « qualité » ou du « cadre » de « vie », etc. (Guérin-Pace et
Collomb, 1998)
Comme nous venons de le voir, l’étude du lexique associé au corpus est une étape
incontournable car elle sert à la fois à supprimer dans le corpus des erreurs ou
coquilles inévitablement présentes et à se familiariser avec son contenu avant
d’entreprendre des analyses plus approfondies.
Selon la nature des textes et leur richesse lexicale, il pourra être envisagé de procéder à
une réduction du vocabulaire par une opération de lemmatisation, opération manuelle,
assistée ou automatique selon le logiciel utilisé (cf. 2.1.3).
L’opération qui consiste à rattacher un ou plusieurs mots à une forme dite racine est
dénommée lemmatisation (Lebart et Salem, 1994). Il s’agit par exemple de ramener les
formes verbales à leur infinitif, de regrouper les adjectifs au masculin et féminin,
singulier et pluriel, etc. Ainsi, sous la forme/racine aller, on peut associer toutes les
formes conjuguées du verbe présentes dans le corpus : allez, va, irons, etc. et sous la
forme/racine beau, on peut regrouper les mots : belle, belles, beaux.
Le bien-fondé et l’intérêt de l’opération de lemmatisation divise les spécialistes : pour
ses détracteurs elle comporte le risque de regrouper des mots dont l’emploi peut être
très différent (exemple : vert et verts dans le corpus « Environnement »). Quoi qu’il en
soit, cette opération de réduction du vocabulaire se justifie davantage pour des corpus
de taille importante (entretiens) dont le vocabulaire est riche et varié et dont
l’interprétation gagne à être affinée.
Le tableau 3 illustre une opération de lemmatisation. Les mots écologique, écolo-
giques, écologiste, écologistes et écolos, dont la fréquence dans le corpus est faible,
seront pris en compte sous la forme/racine écologie. On aurait aussi pu choisir de
distinguer les mots relatifs à l’écologie (écologies, écologique, écologiques) et ceux
qui désignent des acteurs (écolo, écolos, écologiste, écologistes).
Certains logiciels, notamment Alceste, proposent un traitement du vocabulaire encore
plus poussé. Non seulement les mots sont affectés automatiquement à des catégories
grâce à des dictionnaires grammaticaux inclus dans le logiciel qui permettent de les
différencier selon leur nature (article, pronom personnel, locutions, prépositions, noms
communs, noms propres, verbes) mais aussi selon leur fonction (marqueur de relation
temporelle, spatiale d’intensité, marqueurs d’énonciation, etc.) (Tableau 4). Cette
catégorisation peut ensuite être affinée manuellement par l’utilisateur en fonction de
l’analyse qu’il souhaite mener sur le corpus. Par exemple, il pourra choisir de
distinguer les prénoms utilisés selon qu’il s’agit d’un homme ou d’une femme ou
encore les lieux selon qu’ils sont situés en France ou à l’étranger.
B. GARNIER et F. GUÉRIN-PACE 15
Le Tableau Lexical Entier (TLE) est un tableau disjonctif complet (ou tableau
d’absence-présence contenant des 0 et des 1) dont les lignes correspondent aux unités
textuelles (réponses à des questions ouvertes ou parties de textes) et les colonnes aux
mots du lexique (réduit ou non) extraits du corpus (Tableau 5). Ce tableau est qualifié
« d’hyper creux » car il comporte une très forte proportion de 0 (environ 95 %) et
nécessite des méthodes de traitement spécifiques.
Le Tableau Lexical Entier permet avant tout de repérer les cooccurrences des mots
dans les réponses ou dans les parties de textes. Si l’on veut relier le vocabulaire du
corpus avec les caractéristiques des locuteurs, il est nécessaire de recourir à un
Tableau Lexical Agrégé (TLA).
Deux types d’analyse des données sont utilisés dans le cadre de la statistique textuelle :
les méthodes factorielles (Analyse Factorielle des Correspondances, Analyse des
Correspondances Multiples, etc.) qui mettent en évidence les principales structurations
du corpus selon des axes factoriels, et les techniques de classification automatique
destinées à « mettre en évidence une dimension d’organisation du corpus de textes »
selon une partition des unités textuelles (Reinert, 1983).
3
Il est possible avec le logiciel Spad de traiter ces modalités en éléments supplémentaires.
18 APPLIQUER LES MÉTHODES DE LA STATISTIQUE TEXTUELLE
Tableau 6 − Extrait d’une juxtaposition de Tableaux Lexicaux Agrégés associés au corpus « Environnement »
Table au de continge nce
-2 0 ans 2 0 -2 9 ans 3 0 -3 9 ans 4 0 -4 9 ans 5 0 -5 9 ans +6 0 ans NOdip CEP B E prof B AC S up ag r& ouvr cadr& lib comm& as s employe ens & etud inactif ouvr_ s pe
ailleu rs 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 1 0
air 1 26 59 60 21 79 38 25 26 19 1 67 70 0 13 22 4 42 25
b io lo g ie 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1
camp ag n e 4 22 65 61 35 81 22 36 27 71 57 54 21 15 11 44 20 37 29
Co u s teau 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0
d is tractio n 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0
en trep ris e 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0
famille 1 6 9 9 4 11 11 7 6 1 0 4 11 0 5 1 2 4 4
g u erre 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0
HLM 1 0 0 0 0 1 1 0 0 0 1 0 0 0 0 0 1 1 0
in d is p en s ab le 0 0 1 0 0 1 0 0 0 0 0 1 1 0 1 0 0 0 0
jo u rn al 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1
lan d es 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 1
milieu 1 17 13 18 15 20 3 6 7 14 18 35 6 13 3 8 22 6 5
mo i 0 21 51 49 25 74 25 34 11 72 37 41 18 15 7 26 16 48 23
mo n 0 8 17 24 13 23 6 6 11 25 15 22 12 14 0 12 6 8 6
mo n d e 0 3 3 8 7 3 3 3 2 9 2 5 2 2 3 4 5 5 1
mo n o to n ie 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0
mo n t 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0
mo n tag n e 0 8 10 6 4 10 1 3 2 10 8 14 2 5 1 6 7 3 3
n atu re 26 306 553 476 245 481 156 252 173 637 331 532 139 164 77 323 271 319 265
p o llu tio n 10 52 90 67 32 79 13 30 21 104 59 103 24 25 10 69 54 43 26
p o u les 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0
p o u s s ière 0 0 0 0 0 1 0 1 0 0 0 0 0 0 1 0 0 0 0
un 0 9 34 37 19 53 9 17 11 34 21 60 9 14 4 17 25 19 12
une 1 8 13 13 11 16 6 4 4 12 12 24 1 13 4 6 9 6 5
v erts 1 17 31 14 19 16 7 18 3 26 18 25 1 9 1 21 13 14 21
Lecture : le mot campagne a été utilisé 61 fois par des répondants âgés de 40 à 49 ans.
B. GARNIER et F. GUÉRIN-PACE 19
Effectuer une Analyse Factorielle des Correspondances (AFC) sur le Tableau Lexical
Entier permet de structurer l’ensemble des « mots » en fonction de leur répartition
dans les unités textuelles. La représentation des résultats sous forme de graphiques
appelés plans factoriels permet de visualiser la proximité des mots, les oppositions, les
tendances, impossibles à discerner directement sur un grand tableau lexical (Escofier
et Pagès, 2008). Deux mots seront d’autant plus proches sur un plan factoriel que leurs
contextes d’utilisation se ressemblent et d’autant plus éloignés qu’ils seront rarement
utilisés ensemble (Figure 1). Les cooccurrences de mots ainsi mises en évidence
permettront au lecteur de repérer des thèmes et de visualiser des oppositions entre
thèmes. On observe à la lecture de la figure que l’on peut quasiment reconstituer des
réponses : « le milieu dans lequel je vis », « l’endroit ou j’habite », « tout ce qu’il y
autour de moi », etc.
Figure 1 − Exemple de plan factoriel (1-3) issu d’une AFC sur le Tableau Lexical
Entier associé au corpus « Environnement » (logiciel Spad)
Effectuer une Analyse Factorielle des Correspondances sur le Tableau Lexical Agrégé
(croisant l’ensemble des mots du corpus et les caractéristiques des répondants) permet
de structurer l’ensemble des mots, non plus en fonction des réponses, mais des
caractéristiques des locuteurs. Le plan factoriel issu de l’analyse du corpus
« Environnement » (Figure 2) permet d’observer la position réciproque des mots et des
variables sociodémographiques et d’interpréter leurs proximités en répondant à la
question « Qui dit quoi ? ».
Figure 4 − Analyse simultanée d'une question ouverte et d'une question fermée (plan 1-2) (logiciel Spad)
En premier lieu, pour interpréter la proximité entre deux formes (mots) sur un plan
factoriel (Figure 2), il est utile de regarder leur contexte respectif d’utilisation. De
même, on peut interpréter plus finement les proximités graphiques entre les mots et les
caractéristiques individuelles en recourant au calcul du vocabulaire spécifique pour
une caractéristique donnée de la population.
Cette démarche, parfois intitulée concordance, consiste à restituer les parties de textes
dans lesquelles un mot donné est utilisé. À titre d’exemple, le tableau 7 donne un
extrait de l’emploi respectif des formes équilibre et naturel qui se situent à proximité
l’une de l’autre sur la figure 1. Cette proximité est en grande partie due aux réponses
de la forme équilibre naturel.
l’ équilibre naturel
équilibre entre l'homme et ce qui l’entoure
un équilibre naturel
réalisation de son équilibre
tout ce qui maintient l’ équilibre psychique
l’équilibre naturel
tout ce qui entoure les hommes
naturel et social
dans un domaine
le bonheur de vivre dans un endroit le plus naturel possible
la préservation du milieu naturel
le cadre naturel
quelque chose de naturel et d’harmonieux
milieu naturel
l’espace naturel
milieu naturel ou artificiel dans lequel je vis
Source : Enquête Populations - Espaces de vie - Environnements (Ined, 1992)
4
L’écart (normé) pour une forme donnée est comparé à la réalisation d’une loi normale centrée et
réduite dans l’hypothèse d’une répartition aléatoire de celle-ci. Sous cette hypothèse, la valeur-test à
95 chances sur 100 d’être comprise entre les valeurs -1,96 et +1,96 (Lebart et Salem, 1994).
28 APPLIQUER LES MÉTHODES DE LA STATISTIQUE TEXTUELLE
Non diplômés
Mots ou segments Pourcentage Pourcentage Fréquence Fréquence Valeur-
Probabilité
caractéristiques interne global interne globale Test
Autour 2,61 1,53 63 454 4,069 0,000
Maison 0,70 0,28 17 84 3,364 0,000
Choses 0,37 0,14 9 41 2,574 0,005
Fleurs 0,41 0,17 10 49 2,542 0,006
Parle 0,17 0,04 4 11 2,360 0,009
Beaucoup 0,25 0,09 6 26 2,138 0,016
Diplômes supérieurs
Mots ou segments Pourcentage Pourcentage Fréquence Fréquence Valeur-
Probabilité
caractéristiques interne global interne globale Test
Vie 4,54 2,98 375 881 9,408 0,000
Qualité 1,71 0,97 141 287 7,571 0,000
Cadre 2,01 1,26 166 374 6,777 0,000
Ecologie 0,71 0,42 59 125 4,494 0,000
Equilibre 0,15 0,05 12 16 3,663 0,000
Protection 0,38 0,22 31 66 3,171 0,001
Naturel 0,21 0,10 17 31 2,978 0,001
Industrie 0,06 0,02 5 5 2,929 0,002
Mot 0,16 0,07 13 22 2,855 0,002
Urbain 0,07 0,02 6 7 2,803 0,003
Source : Enquête Populations - Espaces de vie - Environnements (Ined, 1992)
Note : 2,61 % des réponses données par des personnes sans diplôme contiennent le mot autour
contre 1,53 % de l’ensemble des réponses. Concrètement, le mot autour a été employé 63 fois
sur 454 fois par les personnes sans diplôme. La valeur test associée est égale à 4,069 et la
probabilité de se tromper en disant que le mot autour est spécifique des réponses des non
diplômés est nulle.
B. GARNIER et F. GUÉRIN-PACE 29
Selon une démarche similaire, on obtient les réponses (ou unités textuelles) les plus
caractéristiques d’une sous-population donnée (Tableau 9). Ces réponses contiennent
les formes les plus spécifiques et sont classées par ordre de significativité décroissant
(Lebart et Salem, 1994). Pour cela, on associe à chaque réponse le rang moyen des
degrés de spécificités des formes qu’elle contient et on y associe une valeur test
moyenne qui est d’autant plus élevée que le rang moyen est petit (critère de
classement). La lecture des libellés permet de saisir le contexte d’utilisation des mots
les plus spécifiques.
Non Diplômés
Critère de
Libellé de la réponse
classement*
0,902 tout ce qui est autour de moi; les gens; la nature
0,919 ce qu'il y a autour de ma maison; la nature; les voisins
0,926 les gens; tout ce qui est autour de moi; les maisons; la campagne
0,939 ce qui est autour de moi
0,946 mon entourage; ce qu'il y a autour de la maison
0,946 ce qu'il y a autour de moi
Diplômes supérieurs
Critère de
Libellé de la réponse
classement*
0,721 le cadre de vie; la qualité de la vie
0,728 cadre de vie; nature; qualité de la vie
0,747 le cadre de vie; la pollution; la nature
0,810 le lieu de vie; la qualité de vie
0,812 l'espace de vie; la nature
0,814 la qualité de la vie
Source : Enquête Populations - Espaces de vie - Environnements (Ined, 1992)
* Le critère utilisé ici est celui de la distance du Khi2. Plus la valeur est faible, plus la réponse est
caractéristique de la sous-population étudiée.
Interprétation possible : Les personnes qui n’ont pas de diplôme abordent davantage
l’environnement en termes de proximité (autour de, entourage) dans lequel elles sont
impliquées (moi) alors que les répondants très diplômés donnent une définition plus
extérieure à eux-mêmes en lien avec la qualité de vie et leur cadre de vie.
30 APPLIQUER LES MÉTHODES DE LA STATISTIQUE TEXTUELLE
5
Les nombres entre parenthèses indiquent le nombre d’occurrences de la forme dans la classe. Le
chiffre devant les réponses correspond à l’identifiant du questionnaire.
32 APPLIQUER LES MÉTHODES DE LA STATISTIQUE TEXTUELLE
L’ensemble des méthodes que nous venons d’exposer permet de faire émerger le
contenu d’un corpus de textes, sans a priori sur celui-ci, à partir d’univers lexicaux ou
de thèmes qui sont identifiés au moyen d’analyses statistiques. Les représentations
graphiques (plans factoriels, arbre de classification) mettent en évidence des
oppositions et des hiérarchies entre les thèmes.
Dans la partie suivante, nous allons explorer différents outils de la statistique textuelle
et décrire les logiciels les plus utilisés dans ce domaine.
2. Les outils
Nous présenterons ici des logiciels qui permettent de mettre en œuvre les méthodes de
la statistique textuelle. Nous détaillerons trois logiciels : Spad, Alceste et Lexico qui
ont été développés par les initiateurs de ces méthodes et qui font toujours référence
aujourd’hui.
Parmi les autres logiciels de statistique textuelle, nous pouvons aussi citer :
• DtmVic, logiciel de statistique exploratoire multidimensionnelle, déve-
loppé dans le cadre d’un atelier impulsé par Ludovic Lebart, qui permet
de traiter simultanément des données numériques et textuelles. Il combine
des techniques d’analyse factorielle (Analyse en composantes principales,
Analyse des correspondances) et des méthodes de classification automa-
tique. Il est mis à disposition gratuitement à l’adresse suivante :
http://ses.telecom-paristech.fr/lebart/.
• Le logiciel Hyperbase, développé par Etienne Brunet, est assez répandu
dans le monde de la recherche et sert de support à l’enseignement de ces
méthodes dans plusieurs universités. Il combine des fonctionnalités docu-
mentaires et statistiques. À l'origine destiné aux analyses lexicologiques
de textes, il permet de traiter automatiquement des réponses à des
questions ouvertes mais surtout des corpus de textes volumineux (œuvres
littéraires). Conçu pour le standard Apple, puis adapté pour Windows, il
fait actuellement l’objet d’une refonte (cf. UMR Bases, corpus, langage de
l’Université de Nice-Sophia Antipolis :
http://www.unice.fr/bcl/spip.php?rubrique38).
• Trideux 5, créé par Philippe Cibois, est un logiciel destiné au traitement
de données d'enquête comprenant des réponses à des questions ouvertes et
fermées. Il permet de construire un tableau croisant les données textuelles
et les caractéristiques de répondants (appelé ici « tableau lexical des
questions ») et d’effectuer une analyse des correspondances sur ce
tableau. Une interface plus conviviale a été développée récemment par
B. GARNIER et F. GUÉRIN-PACE 35
Alex Alber. Elle est mise à disposition gratuitement sur le site suivant :
http://pagesperso-orange.fr/cibois/Trideux.html#Chargement.
• SAS "Text Miner" est un module de Sas® Entreprise Miner, outil de data
mining (traduit par fouille de données en français) qui permet d’analyser
des données textuelles de nature variée (e-mails, pages web, documents
PDF et Word, ASCII, etc.). Sas est un logiciel de statistique américain de
référence, en perpétuel développement, qui combine un très grand nombre
de fonctions de calculs statistiques et de gestion de bases de données. Cet
outil s’adresse à des utilisateurs confirmés mais le module "Text Miner"
n’est pas encore suffisamment développé pour être considéré comme un
bon outil d’analyse textuelle. De plus, son inconvénient majeur est son
coût.
• Le logiciel R avec son ensemble de fonctions (appelé package) « tm »
(text mining) permet de faire du comptage de mots, de calculer des
associations et de créer des tableaux lexicaux. Il intègre des options
permettant de rapporter des mots à leurs radicaux ou d’enlever des mots
communs comme les articles (sorte de lemmatisation). C’est avant tout un
logiciel statistique et graphique qui est libre et gratuit. Il fonctionne sous
Windows, Linux ou Macintosh (http://www.r-project.org/). Il nécessite
cependant des compétences en programmation et est peu convivial.
Associé au package d’analyse factorielle FactomineR qui lui est paramé-
trable par menus déroulants, il représente une alternative à Sas et permet
de faire de l’exploration de données.
La lemmatisation automatique est très utile avec ce type de corpus car elle permet de
réduire efficacement et rapidement la taille du vocabulaire et d’analyser plus finement
le résultat d’une classification en observant les catégories de mots sur ou sous
représentés dans chacune des classes.
Si nous avons à effectuer l’analyse d’une série de textes à caractère historique pour
mettre en évidence des variations de l’emploi de vocabulaire au cours du temps,
Lexico nous apparait être le logiciel le plus adapté. Ses graphiques permettent de
représenter très efficacement l’évolution de l’usage d’un ou plusieurs mots dans le
temps (cf. exemple d’analyse de textes syndicaux dans Lamalle et Salem, 2002).
Enfin, on peut aussi traiter des corpus particuliers qui, à l’origine, ne sont pas des
textes. Par exemple, on peut considérer des trajectoires individuelles comme des
suites de mots particuliers formant des phrases artificielles. Ainsi chaque mot de la
phrase représente une séquence d’état transcrite sous forme de sigle auquel on attribue
un sens. On pourra se référer à l’étude des Itinéraires professionnels des couples
extraits de l’enquête Emploi de l’Insee de 1990 à 1992 (Courgeau et Guérin-Pace,
1998). Dans ce cas, les logiciels comme Spad (ou Lexico), qui ne se basent pas sur
une analyse linguistique à proprement parler, sont utiles pour traiter ces textes et les
croiser avec d’autres caractéristiques.
B. GARNIER et F. GUÉRIN-PACE 37
Dans le cas de textes courts (réponses à des questions ouvertes), ceux-ci peuvent être
saisis ou importés directement d’un tableur. Les données se présentent alors sous la
forme d’un tableau où chaque ligne correspond à une réponse donnée par un individu
et chaque colonne à une variable du questionnaire (Tableau S 1). Ce tableau peut
contenir un très grand nombre de variables. L’identifiant du questionnaire figure en
6
Les tableaux résultant de ces analyses dans la suite du chapitre seront numérotés S x, A x et L x
afin de faciliter la comparaison.
B. GARNIER et F. GUÉRIN-PACE 39
première colonne et les autres colonnes contiennent des variables qui peuvent être de
nature différente : nominale, continue ou textuelle 7 .
Il n’existe pas réellement de taille maximale des variables de type textuel sous Spad.
Généralement, les textes traités vont de quelques mots à quelques phrases par réponse
(maximum de l’ordre d’une page). Si l’on utilise un tableur pour la saisie des textes,
on peut être limité par la taille de la cellule. On pourra alors recourir à un éditeur de
texte en prenant soin de séparer les variables par des tabulations. Si l’on souhaite
traiter sous Spad des textes plus longs (entretien, textes littéraire ou historique, article),
la mise en forme des données devient laborieuse car il faut alors découper le corpus
manuellement en fixant des règles. Celles-ci peuvent être basées sur la ponctuation ou
dans le cas d’entretiens sur les interventions de l’enquêteur. Les caractéristiques des
textes seront alors répétées autant de fois qu’il y a d’unités textuelles issues du
découpage (Tableau S 2).
7
Une variable qui contient un nombre fini de valeurs (alphanumériques ou alphabétiques) est dite
nominale, une variable qui peut contenir un nombre infini de valeurs (numériques, avec ou sans
décimales) est dite continue et une variable contenant du texte est dite textuelle.
40 APPLIQUER LES MÉTHODES DE LA STATISTIQUE TEXTUELLE
Le corpus traité sous Alceste peut être saisi avec n’importe quel éditeur de texte 9 mais
selon une structure particulière à respecter (Tableau A 1).
La première ligne introduit chaque texte à analyser (exemple : une réponse à une
question ouverte) par les caractéristiques du locuteur. En premier lieu, figure l’identi-
fiant du texte, suivi d’une série de modalités de variables précédées d’une étoile et du
nom de la variable. Il est préférable de mettre un blanc souligné entre le nom de la
variable et la modalité pour qu’il soit possible par la suite d’extraire des sous-corpus
selon les modalités d’une de ces variables.
8
Corpus d’entretiens réalisés en complément de l’enquête Ined Proches et Parents (Bonvalet et al.,
1999). La question posée était la suivante : Nous voudrions aujourd’hui retracer avec vous l’histoire
de votre parcours, notamment à travers les différents lieux que vous avez habités au cours de votre
vie … ? Si vous voulez, on peut commencer par l’endroit où vous êtres nés.
9
Seul impératif : si le texte a été saisi avec un éditeur de texte comme Word, il faudra sauvegarder le
fichier en format texte brut (.txt) avec l’option Insérer des sauts de ligne, car le logiciel ne gère pas
les lignes de plus de 1500 caractères.
B. GARNIER et F. GUÉRIN-PACE 41
La mise en forme des textes sous Lexico est proche de celle d’Alceste (Tableau L 1 et
Tableau L 2). Les unités de texte sont séparées par des lignes contenant les caractéris-
tiques des textes ou des locuteurs encadrées par des signes <> appelés ici balises.
Le découpage du texte en unités textuelles, dans le cas de textes longs, doit comme
avec Spad être effectué manuellement par l’utilisateur. On pourra si on le souhaite
superposer plusieurs niveaux de découpage. Ainsi dans l’exemple suivant (Tableau
L 2) on a souhaité distinguer les parties d’entretiens situées avant les relances
(<part=01>) de celles situées après (<part02>) pour les étudier séparément.
B. GARNIER et F. GUÉRIN-PACE 43
Nous venons de voir comment préparer des textes pour les utiliser avec les logiciels
Spad, Alceste et Lexico. Nous allons maintenant détailler pas à pas leur mise en œuvre
sur un corpus de réponses à une question ouverte avec les logiciels Spad et Lexico, et
sur un entretien avec le logiciel Alceste.
3. La mise en œuvre
Spad est un logiciel reconnu en analyse des données numériques ou textuelles. Nous
montrons ici comment utiliser son module d’analyse textuelle (Text mining) pour
étudier un corpus de réponses à une question ouverte.
Une fois le corpus mis sous la forme exigée par le logiciel, l’utilisateur choisit les
méthodes qu’il souhaite lui appliquer. Chaque méthode est paramétrée en fonction des
analyses à effectuer : choix du fichier à analyser, des variables (actives, supplémen-
taires), sélection des individus si nécessaire, pondération éventuelle, etc.
Dans l’onglet Métadonnées, on précise le rôle (ou type statistique) de chaque variable :
identifiant, nominal, continu, textuel (Figure 11). Lors de l’importation, le logiciel
Spad affecte automatiquement un rôle aux variables. Si le rôle attribué par défaut aux
variables n’est pas correct, il est nécessaire de le modifier par un clic droit sur la ligne
correspondant à la variable en question. Ainsi, dans notre exemple, nous modifierons
le type de la première variable num_id pour préciser qu’il s’agit de l’identifiant et celui
de la variable correspondant aux réponses à la question ouverte K1 pour préciser qu’il
s’agit d’une variable de type textuel.
B. GARNIER et F. GUÉRIN-PACE 49
La lemmatisation
Évoquée dans la première partie de ce manuel (cf. 1.1.2), la lemmatisation est une
opération facultative qui permet de regrouper des mots du lexique en vue d’accroître
leur fréquence. Pour effectuer cette opération avec le logiciel Spad 7, on sélectionne la
méthode Lemmatiseur Semi-automatique que l’on place dans la fenêtre Diagramme à
proximité de l’icône Mots afin de les relier entre elles (Figure 13).
52 APPLIQUER LES MÉTHODES DE LA STATISTIQUE TEXTUELLE
C’est sur la liste de droite que l’on intervient pour éliminer des mots, les corriger
(fautes de frappe) ou encore les regrouper. Dans cet exemple, nous avons décidé de
regrouper sous la forme racine écologie les mots écologie, écolo, écologique,
écologiques, écologiste, écologiste et écolos. Pour cela, il suffit de sélectionner dans la
liste de droite les mots à regrouper, puis par un clic droit sur la sélection, on choisit
l’option Créer une équivalence et on désigne la forme racine qui donnera son nom à ce
regroupement.
On peut aussi recourir à une sélection par filtre logique (que l’on ouvre par clic sur
l’icône , Figure 14) qui permet de choisir les mots au moyen d’outils de recherche
de chaînes de caractères ou selon leur fréquence ou leur longueur (Figure 15). Ce
filtre, une fois défini, permet de sélectionner des mots que l’on supprimera en cliquant
sur l’icône dans la fenêtre du Lemmatiseur.
On peut également fixer un seuil en dessous duquel on éliminera les mots du lexique
soit par l’utilisation du filtre, soit en sélectionnant directement les mots dans le
lemmatiseur. Dans notre exemple, on a choisi de ne pas retenir les mots qui appa-
raissent moins de 7 fois dans les réponses. Ces mots supprimés apparaissent précédés
54 APPLIQUER LES MÉTHODES DE LA STATISTIQUE TEXTUELLE
d’une croix rouge dans la partie gauche de l’écran (Figure 16). Nous avons également
choisi de supprimer les formes NSP, sais, pas, sans, réponse, réponses, répondre, ne,
car elles ne nous intéressaient pas. Par ailleurs, les formes racines sont signalées par
un carré rouge et les formes équivalentes qui lui sont associées sont indiquées par un
carré blanc dans la partie gauche de l’écran.
On choisit dans la liste des mots disponibles ceux pour lesquels on souhaite éditer le
contexte d’utilisation (Figure 18).
On obtient en sortie (fichier texte ou Excel) la liste des réponses contenant les mots
sélectionnés et leur fréquence respective (Tableau 12).
- écologie (88)
- l’écologie (27)
- tout ce qui relève de l’écologie (1)
- le respect de l’écologie (1)
écologie - tout sauf l’écologie (1)
- mouvements politiques génération l’écologie (1)
- les fanas de l’écologie (1)
- le monde qui évolue vers l’écologie (1)
- le mot ne convient pas je préfère l’écologie (1)
- écologie liée à la défense de l environnement (1)
écolo - écolo (1)
- problème écologique (1)
écologique - sous entendu écologique (1)
- un terme écologique large (1)
écologiques - grands problèmes écologiques (1)
écologiste - écologiste (1)
- cela me fait penser aussi aux écologistes et donc à des excès (1)
écologistes - tout ce dont on parle à la télévision avec les écologistes (1)
- écologistes (1)
- les écologistes (3)
- tout ce qui est pour les écolos (1)
écolos - écolos (1)
- les écolos (4)
- écolos de mes deux (1)
Source : Enquête Populations - Espaces de vie - Environnements (Ined, 1992)
La lecture de ces résultats nous confirme que ces mots ont été employés dans des
contextes proches et qu’il est pertinent de les regrouper sous une forme unique
intitulée écologie.
Cette réduction du lexique opérée manuellement peut sembler fastidieuse mais elle
permet en même temps de s’approprier progressivement le contenu du corpus. Si on
souhaite conserver le paramétrage d’une lemmatisation pour une utilisation ultérieure,
on clique respectivement sur les icônes (Appliquer des modifications sauve-
gardées ou Sauvegarder les modifications du vocabulaire).
C’est à partir du nouveau lexique intitulé Vocabulaire modifié issu de la lemmatisation
que la méthode de construction de tableaux lexicaux peut être opérée.
B. GARNIER et F. GUÉRIN-PACE 57
Ici, nous retenons toutes les variables disponibles, à savoir l’âge en 6 classes (age6), le
diplôme en 7 modalités (diplo), la catégorie socioprofessionnelle (csp) en 9 postes, etc.
À la fermeture de la fenêtre de paramétrage, la méthode s’exécute et crée le Tableau
Lexical Agrégé.
On pourrait en recourant à la méthode Création d’une table Mots/Segments/variables
d’origine construire le Tableau Lexical Entier, tel que nous l’avons présenté (cf.
1.2.1).
Nous pouvons maintenant effectuer une Analyse Factorielle des Correspondances sur
le Tableau Lexical Agrégé. Pour cela, on choisit la méthode AFC sur tableau lexical
que l’on relie à l’icône Tableau lexical (Figure 20) puis on paramètre le rôle des
variables (actif, illustratif) et des mots introduits dans l’analyse en accédant à la fenêtre
suivante (Figure 21).
De la même manière que dans une analyse factorielle classique, les variables prises en
compte dans le calcul des axes sont appelées variables actives. On peut ajouter dans
l’analyse des variables nommées illustratives ou supplémentaires qui ne contribuent
pas au calcul des axes mais pour lesquelles on pourra calculer des coordonnées sur ces
axes, permettant d’observer leur position par rapport aux autres variables. Avec le
logiciel Spad, il est possible de différencier pour une variable donnée le rôle de ses
modalités et d’attribuer à une ou plusieurs d’entre elles un rôle illustratif. Ceci permet
d’éviter les artefacts liés aux individus qui se démarquent des autres simplement parce
qu’ils sont peu nombreux à avoir une caractéristique donnée. Par exemple, on peut
choisir de traiter en actif la variable revenu mais de considérer la modalité « ne sait
pas » ou « refus » de cette variable ou une autre modalité dont l’effectif serait très
faible (<5 % des effectifs) en modalité supplémentaire. De la même façon, un mot du
lexique peut être introduit en illustratif.
Dans l’exemple ci-dessus, on a choisi de traiter la classe d’âges en variable active mais
de mettre la modalité « moins de 20 ans », peu nombreuse en termes d’effectifs, en
illustratif (Figure 21). L’exécution de l’analyse factorielle permet d’obtenir des sorties
classiques d’analyses factorielles (valeurs propres, coordonnées) et d’aides à
l’interprétation (contributions des variables et des mots, etc.).
L’Éditeur graphique de Spad permet de créer les représentations des plans factoriels
issus des résultats de l’analyse. On y accède en cliquant sur l’icône représentant un
graphique des résultats de l’AFC ou par le menu Résultats. Pour créer un graphique,
on sélectionne les individus (mots du tableau lexical) et les variables à représenter
(actives, illustratives, etc.) (Figure 22). Le lecteur pourra se reporter aux résultats de
l’analyse sur le corpus « Environnement » présentés dans la première partie (Figure 2).
On visualise le nuage de points des mots et des variables retenus sur le plan factoriel
choisi (Figure 23).
Pour afficher les libellés des variables et les mots on utilise le menu Sélection de
l’éditeur puis Habillage pour choisir les couleurs et la police (Figure 24). On peut
choisir également de relier les modalités d’une même variable (exemple : âge, salaire,
etc.).
Nous avons vu l’enchaînement des étapes pour mettre en œuvre une analyse factorielle
sur un corpus de réponses à une question ouverte avec le logiciel Spad. Rappelons ici
que ce logiciel est plus adapté à l’analyse de textes courts en lien avec des
caractéristiques sur ces textes. L’analyse factorielle des correspondances effectuée sur
le Tableau Lexical Agrégé permet de structurer le nuage des mots à la fois en fonction
de leur proximité dans les réponses (cooccurrences) et des caractéristiques des
répondants. La position des mots sur les plans factoriels permet d’identifier des thèmes
en lien avec les profils de répondants et d’observer leur position respective
(associations, oppositions) (cf. Figure 2).
B. GARNIER et F. GUÉRIN-PACE 63
Nous allons aborder maintenant comment traiter un corpus d’entretiens avec le logiciel
Alceste, adapté à l’analyse de textes longs en raison des outils de lemmatisation et de
partitionnement qu’il contient. Nous montrerons à partir de l’analyse d’un entretien de
l’enquête Proches et Parents, comment la méthodologie Alceste nous permet
d’extraire du corpus des mondes lexicaux et de leur donner sens.
Contrairement au logiciel Spad, l’enchaînement des méthodes utilisées par Alceste est
pré-programmé. L’utilisateur n’intervient que s’il souhaite modifier les paramètres
utilisés par défaut (types de mots analysés, critères de découpage des textes en unités
textuelles, etc.).
Trois menus sont disponibles dans la barre de menu principal.
On choisit dans le menu Plan d’analyse (Figure 27) de créer une nouvelle analyse
(Nouveau), ou d’ouvrir un plan d’analyse existant (Ouvrir), accéder à l’éditeur de
texte EdImage (qui permet d’afficher le corpus ou le rapport d’analyse contenant les
résultats) ou encore de choisir la langue du dictionnaire qui sera utilisée dans l’étape
de lemmatisation 10 .
10
Il existe à ce jour des dictionnaires français, anglais, italiens, portugais, espagnols et allemands.
64 APPLIQUER LES MÉTHODES DE LA STATISTIQUE TEXTUELLE
Le menu Analyse
C’est dans ce menu (Figure 28) que s’effectue l’exécution d’un plan d’analyse
(Analyser le corpus) et le paramétrage des analyses. Nous reviendrons sur le
paramétrage et l’édition des résultats dans la partie 3.2.4.
C’est aussi dans ce menu qu’il est possible d’extraire un sous-corpus (exemple :
réponses données par les femmes) en choisissant l’option Analyse tri-croisé.
Le menu Résultats
Par ce menu on accède à une interface interactive qui permet d’afficher et de naviguer
entre les différentes fenêtres graphiques de résultats.
Dans le menu Plan d’analyse, on choisit Nouveau pour créer une nouvelle analyse,
puis on sélectionne le fichier (de type texte) à analyser. Rappelons que ce fichier peut
avoir été saisi avec n’importe quel éditeur de texte pourvu qu’il soit sauvé en format
texte (.txt).
Une fois le texte sélectionné, le logiciel propose à l’utilisateur de vérifier sa mise en
forme et l’écriture des variables étoilées pour éventuellement les corriger sous
l’éditeur de texte d’Alceste EdImage (Figure 29).
B. GARNIER et F. GUÉRIN-PACE 65
Si on lance l’exécution sans intervenir sur le paramétrage, Alceste procède dans une
première étape (Étape A) à une lemmatisation automatique dans laquelle l’utilisateur
n’intervient ni sur le choix des mots à regrouper ni sur un éventuel seuil minimum de
fréquence (Figure 30). Nous allons détailler dans la partie qui suit cette opération.
Le logiciel contient des dictionnaires intégrés qui lui permettent d’identifier les caté-
gories grammaticales des mots du corpus puis de ramener les formes verbales à leur
infinitif, les mots ou adjectifs au pluriel à leur singulier, etc.
Le logiciel distingue les mots nécessaires à la syntaxe d’une phrase : articles, prépo-
sitions, conjonctions, adverbes, auxiliaires, marqueurs d’une relation temporelle,
spatiale, noms propres, etc., appelés mots-outils, des mots qui constituent le vocabu-
laire du corpus (noms, verbes, adjectifs, certains adverbes, etc.), appelés mots pleins
(ou analysables).
B. GARNIER et F. GUÉRIN-PACE 67
11
Le fichier issu de la lemmatisation automatique d’Alceste, nommé A2_dico et placé dans le même
répertoire que le fichier à analyser, est modifiable avec un éditeur de texte : les regroupements
effectués par le logiciel peuvent être changés et l’affectation d’un mot (forme) à une catégorie,
modifiée.
68 APPLIQUER LES MÉTHODES DE LA STATISTIQUE TEXTUELLE
Nous allons maintenant détailler le procédé de partitionnement des textes sous Alceste.
Pour créer un Tableau Lexical Entier (cf. 1.2.1) sur lequel il sera possible de procéder
à une classification, Alceste effectue automatiquement le découpage du corpus
(entretiens par exemple) en séquences nommées Unités de Contexte (Étape B du plan
d’analyse, Figure 30).
Pour cela, Alceste procède en 3 temps :
• La première étape du découpage consiste à identifier les divisions natu-
relles du texte à analyser (chapitres d’un livre, paragraphes, strophes,
entretiens …) qui constituent les Unités de Contexte Initiales (UCI).
• Ces UCI sont ensuite découpées en unités plus petites appelées Unités de
Contexte Elémentaires (UCE) en fonction de la ponctuation présente dans
le texte, et selon l’ordre de priorité suivant : point, point-virgule, point
d’interrogation, point d’exclamation, deux points.
• L’Unité de Contexte (UC), unité textuelle de base des traitements statis-
tiques est obtenue par concaténation d'UCE successives, au sein d'une
même UCI, jusqu’à atteindre un seuil fixé de mots pleins ou analysables.
Le seuil est calculé automatiquement selon la taille du corpus.
Ces Unités de Contexte constitueront les lignes du Tableau Lexical Entier sur lequel
est effectuée la classification.
La classification
À partir de cette fenêtre, on peut accéder au Navigateur (Figure 32) qui affiche les
résultats par classe. On passe d’une classe à l’autre en sélectionnant celle-ci en bas de
l’écran.
70 APPLIQUER LES MÉTHODES DE LA STATISTIQUE TEXTUELLE
Nous allons détailler quelques-uns des résultats les plus utiles pour l’interprétation du
profil des classes :
- la mesure du Khi2 d’association d’un mot (analysable ou mot-outil) à une classe
qui permet d’identifier pour chaque classe les mots et caractéristiques des textes
les plus représentatifs ;
- la liste des Unités de Contexte Élémentaire, caractéristiques les plus représenta-
tives de chacune des classes. Leur lecture permet de saisir le contexte des mots
dans le corpus de textes ;
- la distribution des formes d’origine par racine qui permet d’observer la distribu-
tion des formes regroupées dans l’opération de lemmatisation pour juger de leur
pertinence ;
- la répartition des catégories de mots (issues de la lemmatisation) par classe. Elle
permet de caractériser plus finement le type de vocabulaire employé dans chacune
des classes ;
- un graphique issue d’une Analyse Factorielle des Correspondances effectuée sur
un tableau composé des mots croisés avec les numéros des classes. À l’intersec-
B. GARNIER et F. GUÉRIN-PACE 71
tion d’une ligne et d’une colonne figure le nombre d’UCE de la classe contenant
le mot correspondant. Le plan factoriel issu de cette AFC permet d’observer la
position relative des classes. Elle complète l’arbre de classification (Figure 5) et
aide à l’interprétation d’ensemble de la classification.
- l’arbre issu d’une classification ascendante hiérarchique sur le tableau précédent
qui permet de repérer des liens de voisinage des mots au sein des unités de
contexte d’une même classe.
Dans une première utilisation d’Alceste, il est préférable de procéder à une analyse
standard qui utilise les paramètres par défaut du logiciel. Par la suite on pourra
éventuellement modifier la lemmatisation, les catégories de mots à analyser, le critère
de découpage du corpus, le choix d’une simple ou double classification, etc.
En accédant au paramétrage des clés catégorielles dans le menu Analyse, Paramé-
trage, Clés catégorielles, Modification, on peut changer le statut des catégories de
mots issus de la lemmatisation. Par exemple, on peut décider que la catégorie de mots
Prénoms, traitée par défaut en supplémentaire, sera considérée comme analysable. Par
ailleurs, on peut affiner ou créer des catégories de mots ou encore ajouter des mots au
dictionnaire Alceste (exemple : vocabulaire médical).
On peut aussi supprimer des regroupements effectués par l’opération de lemmatisation
en intervenant dans le fichier A2_dico créé dans le même répertoire que le fichier à
analyser. Par exemple, on peut décider de supprimer le regroupement des formes vert
et verts en considérant que l’usage de ce mot au singulier ou au pluriel n’a pas le
même sens. C’est au fur et à mesure des utilisations et en fonction de la spécificité de
chacun des corpus que l’on ressentira le besoin d’intervenir sur les catégories de
lemmatisation d’Alceste.
Nous venons de voir que le logiciel Alceste opère par une méthodologie qui lui est
propre. À la différence de Spad qui traite les textes comme des variables particulières
sur lesquelles il applique des méthodes factorielles classiques, Alceste conserve la
richesse lexicale des textes pour retrouver la trace des « environnements mentaux »
que le locuteur a successivement investis, trace perceptible sous forme de « mondes
lexicaux » (Rouré et Reinert, 1993).
Dans cette dernière partie, nous allons illustrer la mise en œuvre de Lexico sur le
corpus « Environnement ». Nous insisterons en particulier sur le calcul du vocabulaire
spécifique (appelé spécificités lexicométriques) calculé sur des sous-corpus constitués
à partir d’une caractéristique des textes. Les résultats sont présentés sous forme de
représentations graphiques originales sur lesquelles on visualise les occurrences d’une
72 APPLIQUER LES MÉTHODES DE LA STATISTIQUE TEXTUELLE
Lexico se présente sous la forme d’une palette d’icones, chacune correspondant à une
méthode spécifique de traitement des données textuelles : fréquence des mots,
segments répétés, concordance, etc.
Au fur et à mesure des calculs, on peut stocker les résultats dans un dossier Rapport en
cliquant sur l’icône Ajouter au rapport (Figure 33).
Pour créer une base on clique sur l’icône puis on sélectionne le fichier texte à
importer. Une base Lexico est alors générée puis sauvegardée automatiquement dans
un fichier (d’extension .par). Pour une utilisation ultérieure de cette base, il suffira de
la sélectionner par l’icône .
Créer le dictionnaire
L’utilisateur n’a pas à intervenir pour créer le vocabulaire. Celui-ci est automa-
tiquement généré au moment de la création ou de l’ouverture d’une base et s’affiche
dans la partie gauche de l’écran (Figure 34). Ce Dictionnaire des mots du corpus peut
être trié par ordre alphabétique ou par ordre de fréquence. Il est sauvegardé dans un
fichier d’extension .dic et s’ouvre avec un éditeur de texte.
Dans la partie droite de l’écran on visualise le texte importé. Par la suite, ce sont les
résultats des méthodes qui s’y s’afficheront au fur et à mesure des traitements
effectués.
B. GARNIER et F. GUÉRIN-PACE 73
Un intérêt de Lexico est de calculer des statistiques lexicales sur des partitions du
corpus constituées à partir des caractéristiques des textes (âge, CSP, etc.). Pour cela,
on utilise l’outil d’analyse Statistiques par Parties (Figure 37).
Dans l’exemple ci-dessous, on a choisi la variable âge pour créer une partition du
corpus puis on a placé dans le cadre graphique les mots du vocabulaire ou TGen dont
on souhaite observer la fréquence par classe d’âges (Figure 38).
Si l’on souhaite disposer d’un tableau synthétique du vocabulaire pour l’ensemble des
modalités de la variable, on utilise la méthode Spécificités Totales (bouton Sp. Tot )
(Figure 40).
Il est possible d’effectuer une Analyse Factorielle des Correspondances (AFC) sur une
partition donnée du corpus (par exemple, en fonction de l’âge). À la différence de
Spad, on ne peut traiter qu’une seule variable à la fois dans l’AFC.
Dans le cas d’une série de textes chronologiques, il est intéressant d’utiliser la méthode
Spécificités Evolutives (Sp. Evol.) qui permet de « visualiser l’évolution des emplois
de vocabulaire au cours du temps (spécificités chronologiques) » (Lamalle et Salem,
2002).
12
L’utilisation de ce module requiert au préalable d’avoir partitionné le corpus en fonction d’une
caractéristique donnée en utilisant le module Découpage en parties.
B. GARNIER et F. GUÉRIN-PACE 77
Par ailleurs, Lexico propose une représentation originale des occurrences d’une ou
plusieurs formes présentes dans le corpus au moyen d’un traitement intitulé Carte des
sections (l’icône ). Cette « cartographie » interactive permet de visualiser la
localisation des occurrences d’une forme donnée (mot ou Tgen) dans l’ensemble d’un
texte (Figure 33).
Les unités textuelles issues du découpage sont figurées par des carrés et la couleur
indique la présence d’une forme donnée (Figure 41). Cette représentation « met
immédiatement en valeur la distribution des formes au sein du corpus et invite donc
dès la lecture à passer à l’interprétation » (Bonin et Dallo, 2003).
78 APPLIQUER LES MÉTHODES DE LA STATISTIQUE TEXTUELLE
Outre son aspect libre, la qualité de Lexico est de mettre en évidence par un
partitionnement du texte en « longitudinal » des chronologies ou des évolutions de
discours et de les représenter graphiquement.
Conclusion
Nous avons dans ce manuel exposé les principales clefs pour explorer les méthodes de
la statistique textuelle. Certes pas toutes les clefs, car l’analyse textuelle est avant tout
une démarche exploratoire qui nécessite un va et vient interactif entre les données et
leur interprétation (Demazière et al., 2006). Le matériau même qu’elle exploite, le
texte, peut revêtir des formes tellement variées qu’il est délicat de donner des règles
trop strictes d’exploitation.
C’est à chaque utilisateur au fur et à mesure du traitement de son corpus de se
familiariser avec ces différentes méthodes, de les conjuguer afin de tirer toute la
substance des textes analysés.
L’amélioration de ces méthodes et la diversité de leurs champs d’application font
l’objet de journées (Journées internationales d'Analyse statistique des Données
Textuelles) durant lesquelles sont exposées toutes les nouvelles techniques qui
permettent d’aller encore plus loin dans l’exploitation des textes. On retrouve les actes
de ces conférences dans la revue en ligne Lexicometrica.
En conclusion, les combinaisons de méthodes et de traitements sont infinies et nous ne
pouvons que vous encourager à les expérimenter par vous-même.
Références bibliographiques
Benzecri Jean-Paul, 1973 - L’analyse des Données (tome 1 et 2). Dunod, Paris.
Bonvalet Catherine, Gotman Anne, Grafmeyer Yves, Bertaux-Wiame Isabelle, Le
Bras Hervé, Maison Dominique, 1999 - La famille et ses proches : l'aménagement
des territoires. Ined, Paris, 291 p.
Bonin Emmanuel, Dallo Alain, 2003 - « Hyperbase et Lexico 3, outils lexicométriques
pour l’historien ». Histoire et Mesure, n° XVIII, 3/4.
Collomb Philippe, Guérin-Pace France, 1998 - « Les français et l’environnement ».
Enquête Populations - Espaces de vie - Environnements, INED - PUF, 255 p.
Courgeau Daniel, Guérin-Pace France, 1998 - « Le suivi des itinéraires professionnels
des couples par les méthodes de la statistique textuelle ». In Antipolis Université
de Nice-Sophia, UPRESA "Bases Corpus et Langage". In 4e Journées
internationales d'Analyse statistique des Données Textuelles. Nice : 221-231.
Demazière Didier, Brossaud Claire, Trabal Patrick, Van Meter Karl (dir.), 2006 -
Analyses textuelles en sociologie - Logiciels, méthodes, usages. Presses Univer-
sitaires, Rennes, Collection : Didact. Méthodes, 218 p.
Escofier Brigitte, Pagès Jérôme, 2008 - Analyses factorielles simples et multiples :
Objectifs, méthodes et interprétation. 4e Edition. Dunod, Paris, 318 p.
Garnier Bénédicte, Guérin-Pace France, 1998 - « La statistique textuelle pour traiter
une question ouverte suivie d'une relance ». In 4e Journées internationales
d'Analyse statistique des Données Textuelles. Nice : 315-324.
Guérin-Pace France, Garnier Bénédicte, 1995 - « La statistique textuelle pour le
traitement simultané des réponses à des questions ouvertes et fermées, sur le thème
de l'environnement ». Actes des 3èmes Journées internationales d’Analyse
statistique des Données Textuelles, CISU, Rome : 37-45.
Guérin-Pace France, 1997 - « La statistique textuelle : un outil exploratoire en sciences
sociales ». Ined, Population (4) : 865-887.
Guérin-Pace France, 1998 - “Textual statistics, an exploratory tool for the social
science”. Ined, Population in English, France :
http://www.jstor.org/pss/2998680)
Guérin-Pace France, Collomb Philippe, 1998 - « Les contours du mot "environne-
ment" : enseignements de la statistique textuelle ». L'Espace géographique (1) :
41-52.
82 APPLIQUER LES MÉTHODES DE LA STATISTIQUE TEXTUELLE
Figure 1 − Exemple de plan factoriel (1-3) issu d’une AFC sur le Tableau Lexical
Entier associé au corpus « Environnement » (logiciel Spad)................... 19
Figure 2 − Les mots et les caractéristiques des répondants (plan 1-2) .................... 20
Figure 3 − Extrait du questionnaire de l’enquête Populations - Espaces de vie -
Environnements....................................................................................... 22
Figure 4 − Analyse simultanée d'une question ouverte et d'une question fermée
(plan 1-2) (logiciel Spad).......................................................................... 23
Figure 5 − Exemple d’arbre issu d’une Classification Descendante Hiérarchique
sur le corpus « Environnement » (logiciel Alceste) .................................. 25
Figure 6 − Spad 7 : Ouverture du logiciel ................................................................. 46
Figure 7 − Spad 7 : Interface du logiciel ................................................................... 46
Figure 8 − Spad 7 : Les méthodes de la rubrique Text Mining ................................. 47
Figure 9 − Spad 7 : Importation d’un fichier Excel .................................................... 49
Figure 10 − Spad 7 : Paramétrage de l'importation des données............................. 50
Figure 11 − Spad 7 : Modifier le type des variables.................................................. 50
Figure 12 − Spad 7 : Construction du lexique........................................................... 51
Figure 13 − Spad 7 : Lemmatisation......................................................................... 52
Figure 14 − Spad 7 : Paramétrage de la lemmatisation............................................ 52
Figure 15 − Spad 7 : Sélection de formes par filtre .................................................. 53
Figure 16 − Spad 7 : Résultats d’une lemmatisation ................................................ 54
Figure 17 − Spad 7 : Édition du contexte des mots .................................................. 55
Figure 18 − Spad 7 : Fenêtre de paramétrage de l'édition du contexte des mots..... 55
Figure 19 − Spad 7 : Paramétrage de la création d’un Tableau Lexical Aggrégé..... 57
Figure 20 − Spad 7 : AFC sur le Tableau Lexical Agrégé......................................... 58
Figure 21 − Fenêtre de paramétrage d’une AFC ...................................................... 58
Figure 22 − Spad 7 : Éditeur de Graphiques Factoriels............................................ 59
Figure 23 − Spad 7 : Affichage du plan factoriel 1-2 (sans habillage)....................... 60
Figure 24 − Spad 7 : Menu de l’éditeur de graphiques ............................................. 60
Figure 25 − Spad 7 : Vocabulaire spécifique ............................................................ 61
84 APPLIQUER LES MÉTHODES DE LA STATISTIQUE TEXTUELLE
Analyse Factorielle des Correspondances : 17, 19, 20, 58, 62, 70, 76
Catégorisation : 14, 15
Classification(s) : 11, 17, 24, 25, 26, 30, 32, 33, 34, 36, 68, 69, 71, 82
Concordance(s) : 26, 33, 72, 74,
Cooccurrence(s) : 17, 19, 62
Découpage du corpus : 68, 71
Forme : 13, 15, 26, 27, 34, 54, 70, 71, 77, 78
Forme graphique : 13, 73
Forme racine : 14, 15, 53, 54, 67
Forme spécifique : 27, 29, 61, 77
Lemmatisation : 11, 14, 15, 34, 35, 36, 37, 51, 52, 54, 56, 63, 66, 67, 68, 70, 71, 73
Lexique : 11, 12,13, 14, 16, 17, 48, 51, 53, 56, 57, 59, 64, 66, 83, 85
Mots analysables pleins : 66, 67, 68
Mot(s)-outil(s) : 66, 67, 70
Plan(s) factoriel(s) : 19, 20, 26, 32, 37, 59, 60, 62, 71
Segment(s) répété(s) : 13, 71, 72, 85
Spécificités lexicales : 26, 33, 34
Tableau Lexical Agrégé : 11, 17, 20, 57, 58, 62, 83
Tableau Lexical Entier : 11 16, 17, 19, 24, 58, 67, 68
Unité(s) de contexte : 34, 41, 68, 70, 71
Unité(s) textuelle(s) : 16, 17, 19, 24, 29, 30, 38, 39, 41, 42, 63, 68, 77
Vocabulaire spécifique : 26, 28, 30, 31, 61, 71, 76