Université Libre de Bruxelles
Faculté de Philosophie et Lettres
Ecole Doctorale Théorie du langage et de l’esprit
Laboratoire de Phonologie
Contrôle et connaissance phonétique :
Les voyelles nasales du français
Véronique Delvaux
Dissertation présentée en vue de l’obtention du grade de Docteur en Linguistique,
préparée sous la direction de Didier Demolin.
Année académique 2002-2003
Remerciements
Je voudrais témoigner ici ma reconnaissance à tous ceux, et ils sont nombreux, qui
m’ont guidée et soutenue tout au long de ces quatre années. Sans vous, cette thèse
n’aurait jamais pu voir le jour.
Tout d’abord, je pense aux professeurs qui m’ont initiée à la phonétique et à la
phonologie. Merci à Georges Lavis, Micheline Stasse et Marie-Guy Boutier, de l’Université
de Liège, qui ont su faire naître une vocation. Merci à François-Xavier Nève de Mévergnies,
qui a dirigé mon mémoire de licence, déjà consacré aux voyelles nasales du français, et qui
a guidé mes premiers pas dans la recherche.
J’ai eu la chance de bénéficier d’un encadrement exceptionnel pour mener à bien ce
doctorat. Je remercie mon directeur de thèse, Didier Demolin.
Comment trouver les mots pour remercier Didier Demolin, Alain Soquet et John
Kingston. Ils m’ont tout appris.
Je ne trouve pas les mots pour exprimer ma reconnaissance à
Merci à tous les membres, passés ou présents, du Laboratoire de Phonologie de
l’ULB : Merci à Hubert Ngonga, Moges Yigezu, Gordon Ramsay, Hans Van de Velde, pour
les discussions scientifiques et les moments échangés. Merci à Stéphanie, Marjorie XX,
Yann, Mariana et Masumi. Merci à Caroline Corneau avec qui j’ai partagé mes premières
années de recherche.
Je remercie Thierry Metens, qui a supervisé les sessions expérimentales d’imagerie
par résonance magnétique, à l’hôpital Erasme. Merci encore à John Kingston pour les
expériences perceptuelles effectuées auprès des auditeurs anglophones. Que tous les
participants aux expériences, de production et de perception, francophones et anglophones,
soient également remerciés. J’espère que ce travail sera à la hauteur des efforts qu’ils ont
consenti.
Merci aux membres de l’ILVP à côté de qui j’ai travaillé pendant plusieurs années :
Paul Jospa, Jean Schoentgen, Fabrizio Bucella, Jean-Marie Ramelot, Danou, Joëlle,
Martine. Merci en particulier à Renaud Beeckmans, pour son avis toujours éclairé sur les
statistiques.
Merci aux membres de l’Ecole Doctorale Théorie du Langage et de l’Esprit, et en
particulier aux membres du Service de Linguistique Générale, Emmanuelle Damblon,
Fabienne Martin, Sylvie Delvenne.
Un tout grand merci à tous ceux, famille et amis, qui m’ont soutenue et aidée tout au
long de ces années. C’est grâce à eux que j’ai pu tenir le coup.
Merci à Denis, pour tout.
Introduction
1.
Choix du sujet
Le cadre théorique dans lequel s’inscrit ce travail est celui de l’hypothèse du contrôle
et de la connaissance phonétique (Kingston et Diehl, 1994). Le choix s’est porté sur cette
théorie parce qu’elle permet de penser à la fois les relations entre phonétique et
phonologie, et les relations entre production et perception de la parole. Ces deux
problématiques sont centrales dans l’étude de la parole et des langues naturelles.
Nous avons choisi d’aborder ces questions en étudiant un trait phonologique en
particulier, afin de pouvoir le traiter au sein du paradigme de la phonologie expérimentale
(Ohala et Jaeger, 1986) : le trait de nasalité pour les voyelles du français. La nasalité est
liée à de nombreuses régularités observées dans les systèmes phonologiques des langues,
et qui demandent à être expliquées. De plus, les relations entre propriétés articulatoires,
acoustiques et auditives sont particulièrement complexes pour la nasalité vocalique, et
nécessitent une approche intégrée des phénomènes de production et de perception de la
parole.
Les sections suivantes sont consacrées à l’hypothèse du contrôle, et à la manière
dont cette hypothèse permet d’envisager les relations entre phonétique et phonologie
(section 2), ainsi que les relations entre perception et production de la parole (section 3). La
section 4 inscrit dans ce cadre les enjeux spécifiques liés à la nasalité vocalique. Enfin, la
section 5 clôture cette introduction par un aperçu général de la thèse.
2.
Contrôle et relations entre phonétique et phonologie
Depuis l’avènement de la phonologie structuraliste, phonétique et phonologie sont
souvent considérées comme deux disciplines scientifiques séparées, qui traitent
éventuellement d’un même objet, les sons des langues, mais selon un point de vue et avec
des méthodes profondément différents. Ainsi, Troubetzkoy (1939) distingue :
(...) the study of sound pertaining to the act of speech (phonetics) which is concerned with
concrete physical phenomena, and would have to use the methods of the natural sciences,
while the study of sound pertaining to the system of language (phonology) would use only the
methods of linguistics, or the humanities, or the social sciences (p.6).
Même si l’on s’accorde généralement aujourd’hui sur la nécessité d’une coopération
entre les deux disciplines, nombreux sont ceux qui continuent de penser que leurs objectifs
respectifs sont foncièrement distincts (p.ex. Anderson, 1985). La phonologie est considérée
comme l’étude des sons des langues du point de vue de leur structure logique et
fonctionnelle, alors que la phonétique étudie la façon dont les sons de la parole sont
produits et perçus. Pierrehumbert (1990) distingue nettement entre
les représentations
phonologiques, considérées comme qualitatives, cognitives et relativement accessibles à
4
l’introspection, et les représentations phonétiques, qui seraient quant à elles quantitatives,
non cognitives et relativement inaccessibles à l’introspection. Selon une vue peu éloignée
de celle défendue par Chomsky et Halle (1968), le domaine privilégié de la phonologie est
donc défini par Pierrehumbert (1990) comme celui des représentations mentales et
cognitives, alors que la phonétique, exclue de la grammaire, inclut les propriétés des sons
relevant de l’univers physique. En effet, les termes « phonétique » et « phonologie »
renvoient également à deux modules distincts de la fonction de langage. Dans l’acte de
parole, les post-générativistes considèrent généralement que le composant phonétique a
pour fonction d’implémenter les représentations fournies par le composant phonologique.
Cette exécution est vue comme une opération flexible mais automatique : une valeur
donnée pour un trait phonologique peut être réalisée phonétiquement de différentes façons
suite à l’action de plusieurs contraintes physiques (aérodynamiques, articulatoires,
acoustiques), mais ces contraintes suffisent à prédire l’entièreté de la variabilité.
Kingston et Diehl (1994) proposent un modèle différent d’implémentation
phonétique. Une phonétique automatique ne peut pas rendre compte, selon eux, de la
totalité de la variabilité observée. En particulier, diverses langues implémentent
différemment un même contraste, ou un même ensemble de variantes contextuelles, sans
qu’on puisse imputer ces spécificités à l’action de contraintes phonétiques universelles
(Keating, 1985, 1990). Plutôt que d’inclure les particularités propres à ces langues dans
leurs phonologies respectives, Kingston et Diehl font l’hypothèse de la connaissance
phonétique. Pour ces auteurs, les contraintes phonétiques ne permettent pas de prédire
comment un trait sera réalisé phonétiquement dans un cas donné. Les contraintes ne font
que limiter le comportement phonétique des locuteurs. A l’intérieur du cadre défini par les
contraintes opère un mécanisme de contrôle qui s’appuie sur la connaissance phonétique.
La connaissance phonétique est une connaissance linguistique implicite, qui est à la fois
une connaissance des représentations phonologiques à implémenter et une connaissance
fine et étendue de l’ensemble des contraintes phonétiques agissant sur la production et la
perception des sons de la parole. Le locuteur contrôle activement ses articulations afin
d’optimiser son comportement phonétique en minimisant l’effort articulatoire et en
maximalisant la distinctivité auditive, selon des principes comparables à ceux proposés par
Lindblom (1983, 1990). Le mécanisme de contrôle est défini comme un mécanisme cognitif
actif, quoique survenant en-dessous du niveau de l’attention consciente. L’implémentation
phonétique contrôlée donne une impression d’automaticité parce qu’elle a fait l’objet d’un
apprentissage intensif. Les stratégies individuelles de contrôle débouchent, dans une
communauté de parole donnée, sur une réorganisation des articulations en catégories
phonétiques distinctes, les allophones, et non sur une simple variation continue le long de
certaines dimensions phonétiques. Ainsi, Kingston et Diehl remplacent un modèle dans
5
lequel la phonétique implémente automatiquement les représentations phonologiques, par
un modèle où les réalisations phonétiques sont activement contrôlées par le locuteur sur la
base de sa connaissance phonétique. Ce modèle autorise plus de variabilité à l’intérieur du
cadre défini par les contraintes phonétiques, mais cette variabilité est limitée par les besoins
liés à l’efficacité de la communication, soit par l’interaction des besoins du locuteur et de
l’auditeur.
Le mécanisme de contrôle proposé par Kingston et Diehl assure en quelque sorte
l’interface entre phonétique et phonologie. En effet, de nombreux linguistes ont montré
qu’une séparation totale des domaines de la phonétique et de la phonologie était une
position peu souhaitable d’un point de vue empirique, voire difficile à tenir d’un point de vue
théorique (Browman et Goldstein, 1990 ; Diehl, 1991). A la différence de John Ohala
(1990), qui plaide en faveur de leur intégration complète, Kingston et Diehl considèrent la
phonétique et la phonologie comme deux modules séparés, quoique nécessitant une
interface qui assure leur bon fonctionnement. L’intérêt de cette position est qu’elle
débouche sur une proposition concrète quant au mécanisme qui permet de gérer la
réalisation phonétique des représentations phonologiques.
Rompant avec les dichotomies nettes mises en exergue par Pierrehumbert (1990,
voir ci-dessus), l’hypothèse du contrôle introduit en dehors de la phonologie un mécanisme
de nature cognitive, qui s’appuie sur une connaissance en phonétique, et dont le produit est
d’ordre « qualitatif », c’est-à-dire qu’il est constitué de catégories discrètes. Il s’agit d’une
hypothèse forte qui, pour être validée, demande à être testée expérimentalement sous
différents aspects. Du point de vue des sciences cognitives, par exemple, il faudrait préciser
les modes de fonctionnement caractéristiques de ce mécanisme de contrôle (actif mais non
conscient), et déterminer quels types de conduites pourrait être gérées par des processus
similaires1, sans parler d’en spécifier les éventuels fondements neurologiques.
Du point de vue linguistique, qui est plus précisément le nôtre, l’existence du
contrôle est inférée à partir de l’analyse de la variation phonétique dans la réalisation des
contrastes. En particulier, le problème de la covariation des articulations et de leurs
conséquences acoustiques est central si l’on souhaite confronter les points de vue d’une
« phonétique automatique »
et
d’une
« phonétique contrôlée ».
Lorsque
diverses
articulations covarient dans la réalisation phonétique d’une spécification phonologique, on
cherche à déterminer si cette covariation est le produit automatique de l’action des
différentes contraintes phonétiques (coarticulation entre segments, coexistence de plusieurs
traits dans un même segment, dépendance physique entre articulateurs, contraintes
aérodynamiques, etc.) ou bien si il y a la trace d’une réorganisation contrôlée des
1
Kingston et Diehl (1994, p.420) proposent par exemple une analogie avec la conduite d’une voiture.
6
articulations en vue de favoriser une meilleure production et/ou une meilleure perception
des sons. Dans cette dernière hypothèse, les locuteurs sont à même de modifier leur
comportement phonétique afin d’anticiper les effets des contraintes phonétiques sur la
production de certains sons2. Ils peuvent également faire covarier diverses articulations
parce qu’elles rehaussent mutuellement leurs effets acoustiques, et assurer ainsi la
robustesse des impressions auditives (auditory enhancement theory, Diehl et al. 1990). Ce
type d’analyse de la variation phonétique a été réalisée par Kingston et Diehl (1994) pour le
trait de voisement, et nous nous proposons de faire de même dans ce travail en ce qui
concerne le trait de nasalité pour les voyelles du français (voir 4.1 ci-dessous).
Une caractéristique importante de la connaissance phonétique est qu’il s’agit à la
fois d’une connaissance à propos des représentations phonologiques, et d’une
connaissance des contraintes phonétiques. On envisage ici la problématique des relations
entre phonétique et phonologie sous l’angle de la réciprocité. De même, Browman et
Goldstein (1990) remarquent que les relations entre phonologie et phonétique ne sont pas
de même nature que celles qui unissent un concept et ses instanciations dans le monde
réel (comme l’a proposé Pierrehumbert, 1990), parce que le concept ne peut influencer le
comportement de ses instanciations, alors que la phonologie affecte les réalisations
phonétiques. Browman et Goldstein proposent une vision alternative, où la phonologie et la
phonétique sont considérées respectivement comme la macro-structure et la microstructure d’un système biologique complexe, dont les relations internes sont de multiples
réciprocités ou influences mutuelles. Ainsi, loin d’être non pertinente linguistiquement, la
phonétique informe la phonologie au sens propre du terme, c’est-à-dire que les propriétés
articulatoires, acoustiques et auditives de l’appareil vocal humain déterminent (ou du moins
limitent) les propriétés qualitatives sur lesquelles les systèmes phonologiques fondent leurs
opérations de contraste et de combinaison. On peut citer les contraintes liées au
fonctionnement de l’appareil vocal énoncées par Ohala (1983), les contraintes
perceptuelles mises en avant par Diehl et al. (2001), ou encore la théorie de la dispersion
adaptative énoncée par Lindblom et ses collègues pour rendre compte de la structuration
des systèmes vocaliques (Lindblom et al., 1983 ; Lindblom et Engstrand, 1989).
D’autres études mettent en lumière l’importance des influences du système
phonologique sur les réalisations phonétiques. Au-delà des représentations phonologiques
à implémenter dans un cas particulier, qui par définition président à la réalisation
phonétique, la phonologie en tant que système d’unités contrastives informe la phonétique,
en ce sens que les relations paradigmatiques qu’entretiennent les unités du système
agissent sur la façon dont elles sont réalisées phonétiquement. Ladefoged (1982) donne
2
Cf. la notion de « feed forward » proposée par Ohala (1981) et reprise par Kingston et Diehl (1994) comme un
précurseur à leur notion de contrôle phonétique.
7
plusieurs exemples de langues qui diffèrent dans certains détails de production en fonction
de la présence ou de l’absence de certains contrastes dans leur inventaire phonologique.
Tant les contraintes imposées par les phénomènes phonétiques sur les systèmes
phonologiques, que celles imposées par la phonologie sur les réalisations phonétiques
peuvent être considérées comme limitant (encadrant) les spécificités phonétiques et
phonologiques d’une communauté linguistique donnée sans permettre pour autant de les
prédire au sens mathématique du terme. L’hypothèse du contrôle proposée par Kingston et
Diehl nous amène donc à modéliser le comportement phonétique des locuteurs comme une
stratégie adaptative visant à rencontrer les besoins des acteurs impliqués dans la
communication (locuteur et auditeur), et agissant dans le cadre délimité par les contraintes
physiques d’une part, et par les contraintes imposées par le système phonologique de la
langue d’autre part.
3.
Contrôle et relations entre production et perception de la parole
L’hypothèse du contrôle phonétique est une théorie à propos des relations entre
production et perception de la parole, dans la mesure où elle pose que le locuteur contrôle
ses articulations afin d’assurer entre autres une bonne perception des sons par l’auditeur.
Le processus de production de la parole est donc orienté vers la perception autant que vers
la production elle-même. Le locuteur est présenté comme prenant une part particulièrement
active dans le processus de communication, alors que l’auditeur reste plutôt passif en
première analyse. En effet, si la covariation des articulations est une stratégie contrôlée du
point de vue du locuteur, du point de vue de l’auditeur l’intégration des diverses propriétés
acoustiques en une impression auditive renforcée est considérée par Kingston et Diehl
comme un mécanisme automatique qui se situe à un stade précoce de la perception, au
niveau du traitement auditif du signal. Le propos de Kingston et Diehl ne s’étend donc pas
explicitement jusqu’à des processus perceptuels spécifiques à la parole, tels que ceux
proposés par Ohala (1981, 1986) pour rendre compte des changements phonétiques
(soustraction du « bruit » présent dans le signal mais non voulu par le locuteur, attribution
des effets de coarticulation au phonème qui en est la source, réinterprétation des
informations présentes dans le signal etc.). On pourrait pourtant envisager ces processus
comme autant d’exemples de l’utilisation de la part de l’auditeur de sa connaissance
phonétique, pourvu qu’elle soit définie comme une connaissance détaillée des aspects
phonétiques de la parole ainsi que du système phonologique de la langue.
La théorie de Kingston et Diehl peut être classée comme une « théorie auditive
forte » (Nearey 1995), dans la mesure où elle suppose que la relation entre les traits et les
8
propriétés perceptuelles (ou « percepts ») est robuste et transparente3, tandis que la
relation entre les traits et les gestes est plus indirecte et plus complexe. En un mot, les
véritables objets de la production de la parole sont les percepts. Cette position peut être
considérée comme l’opposé de la théorie motrice de la perception de la parole (Liberman et
Mattingly, 1985), pour laquelle les objets de la perception sont les gestes.
Que ce soit dans la théorie motrice ou dans la théorie auditive de la perception de la
parole, il existe un déséquilibre au profit de l’un des deux agents de la communication.
L’autre agent doit « travailler dur » pour adapter ses propres représentations. C’est la façon
dont ces deux théories rendent compte de la problématique de l’invariance, qui provient du
constat qu’il est toujours difficile, et souvent impossible, de déterminer une signature
acoustique invariante pour les unités linguistiques discrètes (que ce soit les traits, les
allophones, les phonèmes ou les syllabes). Les partisans de la théorie motrice pensent que
les gestes sont invariants4, et que les auditeurs sont capables de traiter la variabilité
acoustique afin d’extraire ces invariants du signal. Les partisans de la théorie auditive
pensent que l’invariance se situe dans le domaine auditif, et que les locuteurs sont à même
de produire des énoncés variables du point de vue acoustique mais équivalents du point de
vue auditif.
La problèmatique de l’invariance est centrale en phonétique et en phonologie car
elle est liée à la catégorisation, habituellement envisagée comme l’opération qui consiste à
extraire, voire à soustraire, de la variabilité du monde réel les propriétés invariantes qui
signalent les catégories mentales correspondantes. La recherche d’invariants dans le signal
lui-même est-elle pour autant la seule façon de parvenir à la catégorisation ? Par ailleurs,
on peut se poser la question de savoir si la variabilité doit être nécessairement considérée
comme du bruit brouillant le signal et donc masquant la véritable information, ou bien si elle
peut être envisagée comme le lieu de l’information elle-même. En effet, le cerveau humain
semble gérer la variabilité de façon particulièrement efficace, si l’on compare par exemple
avec un ordinateur qui doit accomplir une tâche de reconnaissance de la parole. De plus,
les catégories se construisent en ontogenèse en interaction avec la variabilité
caractéristique du milieu, plutôt qu’en opposition à celle-ci (Werker et al. 1981, Jusczyk,
1992, 1993). Kingston (A paraître) a d’ailleurs montré qu’une certaine part de variation était
nécessaire pour un bon apprentissage des contrastes phonologiques d’une langue
étrangère. Une façon de concevoir la variabilité acoustique comme un avantage au lieu d’un
handicap pour la perception de la parole est de considérer les éventuels « invariants
3
Les traits phonologiques sont considérés par Kingston et Diehl comme des primitives, et non comme des
descripteurs.
4
C’est particulièrement le cas lorsque l’on envisage les gestes dans la perspective de la phonologie articulatoire
(Browman et Goldstein, 1992), soit comme des unités physiques spécifiées dans le domaine articulatoire ainsi
que comme des unités abstraites supportant le contraste phonologique.
9
relationnels » qui émergent de la variation : même si A est profondément différent de B, A et
B pourront être catégorisés de la même façon pourvu que, au niveau de leurs composantes
internes, a1 soit à a2 et a3 ce que b1 est à b2 et b3. C’est une information de cette nature
qui est capturée par les équations de locus proposées par Sussman et ses collègues en
tant que corrélats acoustiques du lieu d’articulation pour les consonnes obstruentes
(Sussman et al. 1991, Sussman et Shore, 1996). Certains de ces invariants relationnels
pourraient rendre compte du fait que les auditeurs n’ont pas de problème particulier à
comprendre des locuteurs qui diffèrent par l’âge, le sexe, le timbre de la voix, etc. La
normalisation n’est pas vue ici comme une étape précédant et profondément différente de
la reconnaissance des mots, mais comme le fondement même de ce processus en général
(Kuhl, 1997).
Même s’ils sont les tenants d’une « théorie auditive forte » de la perception de la
parole, Kingston et Diehl (1994) font avec l’hypothèse du contrôle une proposition qui
considère la variation phonétique comme non prédictible et potentiellement porteuse
d’information. Kingston et Diehl soutiennent qu’il y aura toujours une part de variation, dont
on ne pourra pas rendre compte par l’action des contraintes phonétiques lors de
l’implémentation des représentations phonologiques. A la suite de Lindblom (1990), ils
insistent sur la notion de distinctivité (plutôt que d’invariance) des attributs phoniques
supportant les contrastes phonologiques. En s’appuyant sur leur connaissance phonétique,
les locuteurs adaptent leurs réalisations phonétiques aux besoins propres à la situation
dans laquelle ils se trouvent : le mécanisme de contrôle a pour but de rencontrer à la fois
les besoins liés à la production et ceux liés à la perception des messages, dans un système
de communication biologiquement fondé.
4.
La nasalité vocalique
Nous envisageons dans cette section les problèmes spécifiques posés par la
nasalité vocalique au regard des questions générales débattues dans les sections
précédentes, en nous focalisant en particulier sur le cas du français. Pour la clarté de
l’exposé, nous séparons les phénomènes liés aux deux problématiques identifiées plus
haut, même si dans la pratique elles sont largement interconnectées.
4.1.
Voyelles nasales et relations entre phonétique et phonologie
Il existe un ensemble d’universaux (de type implicationnel) de la nasalité vocalique,
c’est-à-dire de régularités dans les systèmes phonologiques des langues du monde en ce
qui concerne les voyelles nasales. Tout d’abord, la nasalité constitue la première dimension
phonétique ajoutée au plan F1/F2 pour accroître le nombre de contrastes phonologiques
dans les systèmes vocaliques. Dans la base de données UPSID, 22,4% des langues
10
utilisent contrastivement la dimension de nasalité, contre 18,6% pour la dimension de
quantité
vocalique,
et
3,7%
pour
toutes
les
autres
dimensions
phonétiques
complémentaires, telles que l’aspiration, la pharyngalisation, etc. (Vallée, 1994). Ensuite, les
inventaires phonologiques obéissent à un schéma commun en ce qui concerne les
nasales : dans un système phonologique donné, les voyelles nasales sont aussi
nombreuses ou moins nombreuses que les orales, mais jamais plus nombreuses (Ruhlen,
1975, 1978). Les nasales « manquantes » sont d’une part les voyelles d’aperture moyenne
(Ruhlen, 1973), et d’autre part toutes les voyelles non périphériques (Vallée, 1994).
On donne généralement une explication d’ordre phonétique à ces tendances
systématiques dans la structuration des systèmes phonologiques. En effet, l’acoustique de
la nasalité vocalique implique une interaction complexe entre les résonances et les antirésonances des cavités pharyngo-buccale et pharyngo-nasale, et aboutit à des
modifications dans le plan F1/F2 des positions des voyelles lorsqu’elles sont nasalisées (Cf.
Première partie, Chapitre 3). La tendance générale est à une distinctivité moindre des
voyelles nasalisées entre elles. Wright (1986) observe que l’espace acoustique et
perceptuel des voyelles nasalisées est resserré par rapport à celui des orales, en particulier
dans
la
dimension
d’aperture
(liée
à
F1)
mais
aussi
dans
la
dimension
d’antériorité/postériorité (liée à F2). Sous l’effet de la nasalité, les voyelles fermées sont plus
ouvertes, les ouvertes plus fermées, et les antérieures se centralisent. Cette réduction de la
distance perceptuelle entre nasalisées entraîne la réduction du nombre de contrastes
phonologiques possibles entre les éléments du système selon la théorie de la dispersion
adaptative (Liljencrants et Lindblom, 1972, Lindblom et Engstrand, 1989). D’où la tendance
à la disparition des voyelles nasales non extrêmes (voyelles périphériques d’aperture
moyenne et voyelles centrales). Les voyelles nasales fournissent donc un cas bien
documenté de l’influence des facteurs phonétiques (liés au fonctionnement de l’appareil
vocal et auditif humain) sur la structuration des systèmes phonologiques, c’est-à-dire de
l’influence des micro-structures sur la macro-structure du système selon la terminologie
utilisée par Browman et Goldstein (1990). Le français constitue un cas assez particulier au
regard de ces tendances générales, étant donné qu’à la suite de différentes fusions
vocaliques (achevées il y a plusieurs siècles), l’inventaire phonologique du français ne
compte pas aujourd’hui de voyelles nasales fermées alors qu’il y a au moins deux nasales
d’aperture moyenne /(, o/ (Straka, 1979). Par ailleurs, la réalisation phonétique des voyelles
nasales du français ne correspond pas à celle que l’on attend si l’on considère les
tendances
phonétiques
décrites
plus
haut
comme
des
contraintes
strictes
sur
l’implémentation phonétique de ce trait phonologique (Cf. p. 127).
Au point de vue de leur réalisation phonétique, en effet, les voyelles nasales sont
caractérisées par une large variabilité chez les locuteurs d’une même langue. Ceci est vrai
11
en particulier de la nasalité en français, pour laquelle on peut distinguer au moins trois types
de variation, la variation allophonique, la variation phonétique et la variation dialectale.
L’analyse de ces trois types de variation doit permettre de confronter les différentes théories
de l’implémentation phonétique présentées dans les sections précédentes :
La variation allophonique désigne les différences dans la réalisation phonétique des
voyelles nasales selon le contexte phonologique dans lequel elles apparaissent.
Dans le cadre du présent travail, nous chercherons notamment à déterminer si la
variation contextuelle peut être décrite comme une variation continue dans la
dimension et la synchronisation temporelle des gestes (comme cela doit toujours
être le cas selon Browman et Goldstein, 1992, et Fowler, 1990), ou bien si elle
requiert le type de réorganisation en catégories phonétiques distinctes proposé par
Kingston et Diehl (1994).
La variation phonétique concerne les différences majeures qui existent en français
entre les nasales et les orales dites correspondantes. Ces correspondances sont
fondées en synchronie sur les alternances morpho-phonologiques du type /S(L]$S(L]DQ/, /Eo-EoQ/, /V(-V(Q/, /=¡-=¡Q/et en diachronie sur les orales qui ont été
nasalisées autrefois et sont à l’origine des nasales actuelles5. Or, loin d’être la
simple
contrepartie
nasalisée
des
voyelles
orales,
les
nasales
diffèrent
profondément de celles-ci au niveau du timbre et de la quantité vocalique.
L’implémentation phonétique de la nasalité en français implique la covariation d’un
ensemble de propriétés phonétiques. L’abaissement du voile du palais est
accompagné de divers ajustements articulatoires dont les effets acoustiques
interagissent de façon complexe avec ceux liés au couplage nasal proprement dit
(Cf. Première partie, Chapitre 2 et 3). Le cas du français permet donc de confronter
les prédictions des modèles concurrents de phonétique automatique et de
phonétique contrôlée. Il s’agira notamment pour nous de déterminer si la covariation
de ces diverses articulations peut être analysée comme le résultat de l’action des
différentes contraintes phonétiques, telles que les liens biomécaniques entre
articulateurs par exemple (Moll, 1962). Dans le cas contraire, nous envisagerons
l’hypothèse selon laquelle ces diverses articulations interviennent dans le contraste
de nasalité parce qu’elles font partie d’une stratégie des locuteurs orientée vers une
meilleure production et/ou une meilleure perception des voyelles nasales.
5
Strictement parlant, / / correspond plus exactement à la voyelle orale / /, qui chez les locuteurs francophones
de Belgique a fusionné avec l’antérieure / /.
12
La variation dialectale est importante en ce qui concerne la réalisation phonétique
des voyelles nasales du français. On peut distinguer trois grands groupes : le
français septentrional (moitié nord de la France et Belgique francophone) sur lequel
nous avons concentré notre étude expérimentale, le français méridional (moitié sud
de la France) et le français canadien. Les réalisations méridionales (/Y/ = [Y 1])
posent la question de la coordination temporelle des gestes, et du statut des
allophones : catégories ou non ? Les voyelles nasales canadiennes divergent des
orales par un ensemble de modifications qui s’apparentent à un mouvement général
vers la gauche du triangle vocalique (avec des nasales plus antérieures : Gendron,
1966, Maurais, 1993) qui semble à première vue être l’opposé du mouvement de
postériorisation observé en français septentrional. On doit considérer ici l’influence
éventuelle sur les réalisations phonétiques de facteurs de type systémique (p.ex.
des facteurs de type « chain shifts» : Labov, Yaeger et Steiner, 1972), c’est-à-dire
de l’ensemble des relations paradigmatiques qu’entretiennent les unités au sein du
système vocalique. Selon la terminologie de Browman et Goldstein (1990), nous
envisagerons donc l’influence de la macro-structure (phonologique) du système sur
les micro-structures qui le constituent.
4.2.
Voyelles nasales et relations entre production et perception de la parole
La nasalité vocalique est un domaine d’investigation qui a été privilégié par les
tenants des théories auditive et motrice de la perception de la parole. Deux questions en
partie liées ont fait l’objet de nombreux débats : (1) la perception des voyelles nasales en
contexte (et particulièrement en contexte phonologique nasal), et (2) la perception des
voyelles lorsque la dimension phonétique d’aperture covarie avec celle de la nasalité.
La question (1) s’articule autour d’un phénomène bien établi de compensation, en
vertu duquel les auditeurs réduisent perceptuellement les effets acoustiques d’une source
coarticulante, c’est-à-dire qu’ils attribuent (tout ou partie de) la nasalité d’une voyelle à
l’influence des consonnes (nasales) environnantes (Kawasaki, 1986). Les opinions
divergent quant au stade du processus de perception de la parole au cours duquel la
compensation intervient, et quant à la nature profonde du phénomène. Les tenants d’une
théorie auditive pensent que la compensation s’inscrit dans le cadre de processus auditifs
généraux (non spécifiques à la parole, ni même à l’être humain : Lotto et al., 1997, Lotto et
Kluender, 1998) impliquant une intégration précoce des attributs spectraux des segments
nasalisés adjacents (Kingston et Diehl, 1995). Les partisans des gestes quant à eux, et en
particulier ceux qui défendent la théorie de la perception directe de la parole (Fowler, 1986,
1996), considèrent que l’auditeur analyse directement le signal acoustique en termes de
13
sources articulatoires (gestes) et qu’il entend donc une voyelle nasalisée contextuellement
comme une voyelle orale. Comme le notent Beddor et Krakow (1999), la prédiction que fait
cette théorie d’une compensation totale n’est pas vérifiée expérimentalement. Les résultats
attestent plutôt d’une compensation partielle (Krakow et Beddor, 1991, Beddor et Krakow,
1999). L’analyse de Beddor et Krakow est que la voyelle est perçue comme nasalisée, mais
qu’une partie de la nasalité est attribuée par les auditeurs à l’influence des consonnes
environnantes. Le processus est d’ordre décisionnel (et non de l’ordre de la sensibilité
auditive) et lié à l’expérience linguistique des auditeurs. Ce type d’interprétation est assez
proche de la position d’Ohala (1986), qui propose que les auditeurs utilisent leur
connaissance de la variation contextuelle pour désigner la consonne nasale comme la
source de la nasalisation de la voyelle dans les items [NVN].
Si les positions d’Ohala et de Beddor et Krakow se démarquent nettement des vues
« auditoristes », elles ne sont pas selon nous en contradiction avec l’hypothèse même de la
connaissance phonétique, en particulier lorsqu’on considère celle-ci du point de vue de
l’auditeur (Cf. section 3 ci-dessus). Dans cette optique, nous considérons l’auditeur comme
étant à même d’utiliser dans ses stratégies de perception la connaissance qu’il a des
contraintes phonétiques qui agissent sur les mécanismes de production de la parole, y
compris la coarticulation. Notre étude de la production et de la perception des voyelles
nasales du français inclut une liste d’items de type /NV/ et /NV/ destinés à investiguer la
question de la coarticulation nasale dans le cas du français.
La question (2) est celle de la perception de la covariation de la nasalité avec
d’autres dimensions phonétiques, en particulier avec la dimension d’aperture. Kingston et
Macmillan ont testé expérimentalement l’hypothèse selon laquelle les locuteurs font covarier
la hauteur de la langue avec la hauteur du voile du palais lorsqu’ils produisent des voyelles
parce que les effets acoustiques de cette covariation se rehaussent mutuellement au point
de vue auditif (Kingston et Macmillan, 1995, Macmillan et al. 1999). Les résultats confirment
que la distance perceptuelle entre deux voyelles est plus grande lorsque l’on fait covarier de
manière appropriée les deux dimensions concernées, et plaident donc en faveur du modèle
de phonétique contrôlée. De plus, ces auteurs ont trouvé que l’intégration prenait place
dans tous les contextes, y compris lorsque la voyelle précédait une consonne nasale, ce qui
s’acommode mal avec la façon dont la théorie de la perception directe de la parole rend
compte des phénomènes de compensation liés à la nasalité contextuelle (voir ci-dessus).
Ces résultats sont apparemment en contradiction avec ceux obtenus par Krakow et al.
(1988), qui ont trouvé que les auditeurs ne percevaient un changement d’aperture dans une
voyelle nasalisée que lorsque la nasalité qu’elle portait ne pouvait pas être attribuée au
contexte, soit pour les items /CVC/ . L’intégration des effets acoustiques de la nasalité avec
14
la valeur de F1 était beaucoup moins prononcée dans les items /NVN/. En fait, Kingston et
Macmillan (1995) ont montré que des différences méthodologiques pouvaient être à
l’origine de ces apparentes contradictions entre les deux séries d’expérience6, et que les
résultats dans leur ensemble attestaient en tout cas de l’interaction de deux types de
mécanismes perceptuels. Le premier, automatique et universel, intervient au niveau de la
sensibilité auditive des auditeurs. Il s’agit de l’un des processus auditifs généraux mis en
avant par les tenants de la théorie auditive de la perception de la parole. Le second, d’ordre
décisionnel, est déterminé par l’expérience linguistique des auditeurs. Il s’appuie sur le type
de connaissance des phénomènes de coarticulation proposé par Ohala (1981, 1986), et
que nous considérons comme un exemple de connaissance phonétique envisagée du point
de vue de l’auditeur (voir ci-dessus).
Nous pensons donc que l’hypothèse de la connaissance phonétique permet de
rendre compte de l’existence des deux mécanismes différents qui interviennent dans la
perception de la covariation des dimensions de nasalité et d’aperture. Dans le cadre de
cette hypothèse, notre travail est consacré notamment à la covariation des dimensions
particulière au français, soit à la covariation de la nasalité avec la dimension d’antérioritépostériorité.
5.
Aperçu de la thèse
La thèse a pour objet la réalisation phonétique des voyelles nasales du français. Elle
est conçue comme une étude intégrée de la production et de la perception de ces voyelles
afin de tester expérimentalement l’hypothèse du contrôle et de la connaissance phonétique.
La première partie, relative à la production de la parole (p.17), est constituée d’une
étude aérodynamique, d’une étude articulatoire et d’une étude acoustique des voyelles
nasales du français septentrional. L’objectif est de dresser la carte des relations
entretenues par les propriétés des nasales aux différents stades de leur production, de
façon à isoler à la fois les propriétés communes, qui caractérisent la nasalité vocalique en
général, et les dimensions le long desquelles s’établit la variation. En rapport avec
l’hypothèse du contrôle, une analyse fine est menée de la variation phonétique et
allophonique qui caractérise l’implémentation phonétique des voyelles nasales du français
(voir plus haut). Nous cherchons ainsi à déterminer le rôle joué par les contraintes
phonétiques lors de la réalisation des voyelles nasales, et le statut des variantes
contextuelles. Les contraintes prédisent-elles la totalité de la variabilité observée ou
permettent-elles uniquement de l’encadrer ? La variation est-elle continue le long de
6
Néanmoins, à partir d’un paradime pourtant comparable à celui utilisé par Krakow et al. (1988), Macmillan et
al. (1999) ont ensuite obtenu des résultats fondamentalement différents de leurs prédécesseurs (Cf. p.253).
15
certaines dimensions phonétiques, ou bien mène-t-elle à une réorganisation des variantes
en catégories phonétiques distinctes ?
La deuxième partie de la thèse (p.141), relative à la perception de la parole, rend
compte de plusieurs expériences de discrimination et d’identification des nasales du
français, qui ont été effectuées à partir de stimuli semi-synthétiques auprès d’auditeurs
francophones et anglophones. Cette partie du travail s’articule sur les résultats obtenus
dans la première partie. Les expériences ont tout d’abord pour objectif de tester la validité
des propriétés phonétiques identifiées en production de la parole en tant qu’indices
perceptuels de la nasalité. Ensuite, dans le cadre de l’hypothèse du contrôle, les
expériences menées permettent de tester l’hypothèse selon laquelle il y a une motivation
d’ordre perceptuel à la covariation de diverses propriétés acoustiques lors de
l’implémentation phonétique du contraste de nasalité pour les voyelles du français.
La discussion générale (p.256) fera le point sur la façon dont l’hypothèse de la
connaissance et du contrôle phonétique permet de rendre compte des caractéristiques de
la réalisation phonétique des voyelles nasales du français, tant en production qu’en
perception de la parole.
16
Première partie : Production des voyelles
nasales du français
Chapitre
1
Etude aérodynamique
1.
Matériel et Méthode
L’étude aérodynamique a été réalisée au Laboratoire de Phonologie de l’Université
Libre de Bruxelles au cours de l’automne 1999.
1.1.
Sujets
Huit locuteurs belges francophones, quatre hommes et quatres femmes, ont participé à
l’étude aérodynamique. Ils étaient âgés de 22 à 45 ans au moment de l’expérience. Leur tâche
était de lire des listes de mots contenant les items du corpus.
1.2.
Corpus
Le corpus est constitué de 156 items où les voyelles orales et les voyelles nasales du
français sont placées en contexte phonologique nasal et oral (voir Table 1 à Table 6). Pour des
raisons méthodologiques, nous avons choisi de ne pas inclure la nasale /¡/ (ni les orales /¡,2/)
dans ce corpus. En effet, la nasale /¡/, qui est en cours de disparition en français septentrional,
a une fréquence d’occurence très faible (Nève, 1984, Walter, 1994), ce qui la rend absente de
la plupart des contextes phonologiques que nous étudions ici7 :
Les items CV (Table 1) combinent toutes les consonnes orales du français (à l’exception
des semi-consonnes /M,É,Z/) avec les voyelles nasales /$,(,o/ et les orales
correspondantes /D,(,o/. Lorsque le mot recherché n’existait pas en français, on l’a
remplacé par un mot de type CV.CV, où la séquence phonologique apparaît également
en syllabe ouverte accentuée, c’est-à-dire dans la deuxième syllabe du mot. Par
ailleurs, à la suite des phénomènes bien établis de neutralisation phonologique entre
voyelles semi-ouvertes et semi-fermées en syllabe ouverte (François, 1974, Lefebvre,
1985), certains des items présentés dans la table comme correspondant à une
combinaison CV/(o/ peuvent avoir été prononcés CV[H,R]. Par exemple, /So/ = [SR], mais
/N(/ = [N(].
7
Ce problème méthodologique est la raison principale pour laquelle le corpus des études articulatoire et acoustique
diffère du corpus de l’étude aérodynamique (voir p.64). Ce second corpus ne contiendra pas de mots du français,
mais uniquement des séquences de sons sans signification, ce qui permet d’inclure la nasale /¡/, qui subsiste
encore chez nos locuteurs belges.
19
Table 1. Corpus de mots (1/6) pour l’étude aérodynamique. Items CV. La transcription phonologique est donnée
quand elle diffère de l’exacte combinaison des phonèmes en tête de ligne et de colonne. La syllabe soulignée est la
syllabe étudiée.
/D/
/$/
/(/
/(/
/o/
/o/
S
pas
paon
paix
pain
pot
pont
E
bas
banc
baie
bain
bot
bon
W
ta
temps
tait
teint
tôt
thon
G
dada
/GD.GD/
dans
des
daim
dos
don
N
cas
quand
quai
coquin
/No.N(/
coco
/No.No/
con
J
gars
gant
gai
gain
cargo
gon
I
fa
faon
fait
fin
faux
fon
Y
va
vent
vais
vin
vos
vont
V
sa
sang
c’est
saint
sot
son
]
Zaza
/]D.]D/
faisan
/I¡.]$/
fusait
/I\.](/
fusain
/I\.](/
Zozo
/]o.]o/
faisons
/I¡.]o/
6
chat
chant
lâchait
/OD.6(/
machin
/PD.6(/
chaud
manchon
/P$.6o/
=
déjà
/GH.=D/
gens
geai
geint
Jojo
/=o.=o/
jonc
U
rat
rend
rai
rein
rot
rond
O
là
lent
laid
lin
vélo
/YH.Oo/
long
Table 2. Corpus de mots pour l’étude aérodynamique (2/6). Items NV.
mV
mV
nV
nV
D/$
ma
ment
na
manant
/PD.Q$/
(/(
mais
main
naît
nain
o/o
mot
mon
nos
non
/L/
mis
nid
/\/
mu
nu
/X/
/H/
mou
nous
mémé
/PH.PH/
nez
maux
Lacanau
/OD.ND.QR/
/R/
20
Les items NV (Table 2) combinent les consonnes nasales /P,Q/ avec les trois voyelles
nasales et leur correspondante orale, ainsi qu’avec les autres orales /L,\,X,H,R/.
Dans le cas des items VN (Table 3), les mêmes combinaisons de phonèmes n’ont pu
être réalisées sans recourir à des séquences de plusieurs mots (pour les orales et les
nasales correspondantes), et à des items de structure syllabique et/ou accentuelle
assez diverses (pour les autres orales). L’analyse des données tient compte de ces
particularités.
La Table 4 présente les items NVN, où la consonne nasale peut être /P,Q/ et la voyelle
orale /D,(,o,L/.
Table 3. Corpus de l’étude aérodynamique (3/6). Items VN.
Vm
Vm
Vn
Vn
D/$
amener
/DPQH/
emmener
/$PQH/
la nuit
/OD.QÉL/
l’ennui
/O$.QÉL/
(/(
c’est Marcel
/V(.PD^.V(O/
saint Marcel
/V(.PD^.V(O/
c’est Nicolas
/V(.QL.No.OD/
saint Nicolas
/V(.QL.No.OD/
o/o
homme-à-tout faire
/o.PD.WX.I(^/
On m’a tout dit
/o.PD.WX.GL/
Honni sois-tu
/o.QL.VZD.W\/
On y va
/o.QL.YD/
/L/
dîme
/GLP/
fine
/ILQ/
/\/
hume
une
/X/
boum
/EXP/
scoumoune
/VNX.PXQ/
/H/
ému
/H.P\/
énorme
/H.Qo^P/
/R/
Beaune
/ERQ/
heaume
Table 4. Corpus pour l’étude aérodynamique (4/6). Items NVN.
mVm
nVn
mVn
nVm
/$/
hammam
/D.PDP/
banane
/ED.QDQ/
manne
Viêt Nam
/YM(W.QDP/
/(/
même
naine
mène
phonème
/Io.Q(P/
/o/
môme
nonne
Simone
/VL.PoQ/
bonhomme
/Eo.QoP/
/L/
mime
Lenine
/OH.QLQ/
mine
Nîmes
21
Enfin, les Table 5 et Table 6 donnent respectivement les items de type CV.CV et CVC, où
Y est l’une des trois voyelles nasales et C est une obstruente sourde.
Table 5. Corpus de mots pour l’étude aérodynamique (5/6). Items CVC.
tVt
pVt
pVs
/$/
tante
pente
pense
/(/
teinte
peinte
pince
/o/
tonte
ponte
ponce
Table 6. Corpus de mots pour l’étude aérodynamique (6/6). Items CV.CV.
tV.te
/$/
tenter
/(/
ton thé
/o/
teinter
En tout, le corpus de l’étude aérodynamique est constitué de 316 segments par locuteur
(66 voyelles nasales, 66 voyelles orales correspondantes, 24 voyelles orales sans
correspondante nasale, 36 consonnes occlusives, 36 consonnes fricatives, 12 liquides et 76
consonnes nasales), soit 2528 segments8.
1.3.
Matériel
Les données aérodynamiques ont été recueillies à l’aide de la station de travail
« Physiologia » (Teston et Galindo, 1990). Celle-ci est munie d’une « pièce-à-main », sur
laquelle sont fixés un masque buccal et deux tubes flexibles (terminés par des olives nasales)
reliés à des pneumotachographes, qui permettent de mesurer respectivement le débit d’air
buccal (DAB), et le débit d’air nasal (DAN). Un microphone (AKG C419) placé à la sortie du
masque buccal enregistre simultanément le signal de parole. Au détriment d’une éventuelle
mesure de pression intra-orale, nous avons choisi d’utiliser deux tubes nasals, et non un seul,
ce qui fournit une mesure plus fiable du débit d’air nasal (la plus importante dans le cadre de
cette étude), en particulier pour les sujets féminins. La fréquence d’échantillonnage était de 16
KHz (12 bits) pour le signal de parole, et de 2KHz (12 bits) pour les débits d’air nasal et buccal.
Le niveau maximal de débit d’air était fixé à 50 cm3/sec, à l’exception du débit d’air nasal pour
les sujets féminins, qui était ramené à un maximum de 20 cm3/sec.
8
Afin de maintenir une symétrie au sein des consonnes analysées, on n’a pas inclu les consonnes des items repris
dans les Table 5 et Table 6 dans les données aérodynamiques quantifiées (voir ci-dessous).
22
1.4.
Logiciel
Les données ont été visualisées puis analysées au moyen d’une application
personnalisée réalisée par Alain Soquet, ingénieur au Laboratoire de Phonologie, avec le
logiciel auteur multi-médias iShell (www.tribeworks.com). Cette application nous a permis de
segmenter l’ensemble du corpus sur la base du signal de parole (Muller et Brown, 1980) puis
de calculer les moyennes de débit par segment (voir ci-dessous). Les analyses statistiques ont
été effectuées à l’aide du logiciel SPSS.
1.5.
Les données
Deux types de données sont examinées dans ce chapitre : les « données quantifiées »
(section 2) et les tracés de débit d’air nasal et buccal proprement dits (section 3). Les
« données quantifiées » font référence aux valeurs de débit moyennées sur la totalité d’un
segment donné. Elles permettent d’objectiver les niveaux de débit observés, et donc de
comparer différents types de segments (de contextes, etc.), en utilisant notamment l’analyse
statistique de variance. Cependant, ces moyennes ne fournissent par définition aucune
information sur l’évolution temporelle du débit au cours des segments. C’est pourquoi la section
3 est consacrée à l’analyse comparée des trajectoires de débit d’air nasal et buccal. Ces deux
méthodes d’analyse d’un même corpus de données sont complémentaires ; l’objectif final est
de parvenir à décrire et à interpréter l’ensemble des aspects aérodynamiques relatifs à la
nasalité en français.
2.
Résultats : données quantifiées
2.1.
Paramètres d’analyses
Quatre paramètres d’analyses ont été retenus, désignés respectivement « T »,
« DANm », « DABm », et « PNAm » :
T désigne la durée totale d’un segment (en ms) ;
Le DANm désigne le débit d’air nasal moyen par segment (en cm3/sec);
Le DABm désigne le débit d’air buccal moyen par segment (en cm3/sec);
Le PNAm désigne la proportion moyenne du débit d’air total imputable au débit d’air
nasal (en %). Le PNAm est calculé pour chaque segment selon la formule :
DANm
PNAm =
DANm + DABm
23
Pourquoi cette mesure de PNAm ? Les paramètres aérodynamiques directement
mesurés (DAN, DAB) doivent être considérés en relation étroite avec les sons étudiés. Ainsi, il
convient de préciser quelle type d’information ces paramètres fournissent dans le cadre
particulier de la nasalité vocalique.
L’objectif principal de cette section est l’étude comparée du taux de nasalité des
différents types de segment (voyelles nasales entre elles, voyelles nasales vs. voyelles orales,
etc.). La définition la plus neutre du « taux de nasalité » d’un son renvoie à son degré de
nasalité au point de vue acoustique, c’est-à-dire essentiellement à l’ampleur du couplage
acoustique entre les cavités nasales et la cavité pharyngo-buccale. Quoique directement lié
aux mouvements du voile du palais, le couplage nasal ne peut être réduit à ces seuls
mouvements. Par exemple, lorsque le voile commence à descendre pour une voyelle nasale, il
y a un délai entre cette mise en mouvement et l’ouverture proprement dite du port vélique.
L’examen de la fonction vélo-pharyngienne, et en particulier l’étude électro-myographique des
muscles responsables des mouvements du voile du palais, ne permet donc qu’une évaluation
indirecte du degré de couplage nasal (Krakow et Huffman, 1993). La mesure de débit d’air
nasal ne présente pas ce désavantage, puisqu’en dehors du bruit inhérent à la prise de mesure
elle-même, celle-ci n’est positive que lorsque le port vélique est ouvert. Le niveau de débit d’air
nasal n’est pas pour autant une mesure absolue de l’ouverture vélo-pharyngienne. En effet,
indépendamment du niveau d’abaissement du voile du palais pour un segment donné, la valeur
de DAN peut varier selon deux autres facteurs : (1) le débit d’air total, et (2) le niveau de
constriction dans la cavité buccale :
La mesure de PNA permet de neutraliser les effets du facteur (1) : si la variation du
DAN n’est due qu’à une variation du débit d’air total (plus important pour une voyelle portant un
accent d’intensité, par exemple), la mesure de PNA reste stable, puisque la position du voile du
palais n’est pas changée et que la proportion du débit d’air total s’échappant par le nez est
donc restée la même.
Par contre, les mesures de PNA et de DAN restent tributaires du facteur (2). Pour un
même degré d’abaissement du voile, le DAN et le PNA sont plus élevés (et le DAB moins
élevé) s’il y a une forte constriction orale, parce que celle-ci induit une résistance importante au
passage de l’air par la cavité buccale. L’air s’échappe alors prioritairement par le nez. La
prudence est donc de mise lorsque l’on compare les moyennes de PNA obtenues pour des
sons d’aperture très différente, telles que les voyelles /L/ et /D/ par exemple. Toutefois, il faut
sans doute réduire la portée d’une telle mise en garde, puisque la contribution spectrale des
fosses nasales ne dépend pas uniquement de la taille du couplage (de l’abaissement du voile),
24
mais également de la masse acoustique totale des deux voies empruntées par les ondes
sonores, la voie orale et la voie nasale (Stevens, 1998, 307-308, Cf. Chapitre 3, p.93).
Ainsi, nous avons inclus dans nos données quantifiées les moyennes de PNAm
(calculées à partir des valeurs de DANm et de DABm pour chaque segment). En tenant compte
des restrictions exposées ci-dessus, la mesure de PNAm constitue la meilleure évaluation à
partir des paramètres aérodynamiques du taux de nasalité moyen d’un segment.
2.2.
Tendances générales
La Table 7 présente un résumé statistique des données obtenues pour les 2430
segments du corpus9. On donne les moyennes (et déviations standard) des valeurs de DANm
et de DABm (en cm3/sec), de PNAm (en %) et de T (en ms), en fonction de deux
variables indépendantes : le genre du locuteur (masculin ou féminin), et le type de segment
(voyelle orale, voyelle nasale, consonne orale, consonne nasale). De plus, la table présente les
résultats de l’analyse de variance multivariée (MANOVA) effectuée avec les quatres
paramètres aérodynamiques comme variables dépendantes, et les variables de ‘genre du
locuteur’ et de ‘type de segment’ comme facteurs fixes : dans chaque cas la statistique F (avec
les degrés de liberté au numérateur et au dénominateur correspondants) et le degré de
significativité p sont donnés.
Tout d’abord, on observe une grande différence entre locuteurs féminins et masculins
en ce qui concerne les moyennes de DABm et de DANm : les débits sont significativement
moindres pour les sujets féminins (p<.001). Les femmes ont plus de PNAm en moyenne que
les hommes, mais cette différence n’est pas significative (p=.112). L’interaction entre les
variables de genre et de type de segment n’est pas significative pour le PNAm (p=.243), alors
qu’elle l’est pour le DANm (p<.001). La mesure de PNAm remplit ici son rôle : elle neutralise les
variations de débit d’air nasal dues aux différences qui existent entre hommes et femmes du
point de vue de leur débit d’air en général, en raison sans doute de leurs différences
anatomiques (de volume pulmonaire, Cf. Bakken et Orlikov, 2000).
9
En raison de problèmes techniques survenus pendant l’expérience, certaines mesures sont manquantes pour deux
sujets, ce qui ramène le nombre exact de segments effectivement analysés de 2528 (Cf. p.22) à 2430.
25
3
Table 7. Données quantitatives (DANm, DABm en cm /sec, PNAm en % et T en ms) concernant l’ensemble du corpus (N=2430). Statistiques descriptives (moyenne,
déviation standard SD, nombre de cas N), et paramètres de l’analyse de variance MANOVA (statistique F, degré de significativité p) pour deux variables
indépendantes et leur interaction : le genre du locuteur et le type de segment prononcé.
Genre du locuteur
feminin
DANm
DABm
PNAm
T
Moyenne
SD
N
F
p
Moyenne
SD
N
F
p
Moyenne
SD
N
F
p
Moyenne
SD
N
F
p
masculin
30.7
39.7
29.3
40.3
1191
1239
F(1,2422) = 80.91
p < .001
54.1
101.2
55
94.2
1191
1239
F(1,2422) = 268.93
p < .001
49.1
40
164.6
138.7
1191
1239
F(1,2422) = 2.53
p = .112
172.3
183.8
62.4
65.2
1191
1239
F(1,2422) = 24.04
p < .001
Type de segment
voyelle
voyelle
consonne
orale
nasale
orale
19.7
47.3
12.8
27.1
32.9
16.1
694
506
650
F(3,2422) = 559.94
p < .001
103
79.7
102.4
61.8
53
113.5
694
506
650
F(3,2422) = 192.25
p < .001
18.9
40
31.6
29.5
24
243.7
694
506
650
F(3,2422) = 29.5
p < .001
171.8
223.6
169.7
58.8
67.7
49.4
694
506
650
F(3,2422) = 137.25
p < .001
26
consonne
nasale
68.7
33.2
580
Genre par Type de
segment
F(3,2422) =33.9
p < .001
9.6
34.7
580
F(3,2422) =8.01
p < .001
93.3
59.5
580
F(3,2422) =1.39
p = .243
155.6
62.7
580
F(3,2422) =12.9
p < .001
En ce qui concerne la variable de type de segment, elle atteint également le plus haut
degré de significativité pour les quatres paramètres aérodynamiques (p<.001). Des tests Post
Hoc (indice de Scheffé) ont cependant montré que les différences entre les différents types de
segment pris deux à deux n’étaient pas toutes significatives, en particulier pour le PNAm. Pour
cette variable, on obtient seulement deux sous-ensembles de variance indépendante, le
premier contenant les voyelles orales, les voyelles nasales et les consonnes orales, le second
les consonnes nasales. On peut s’étonner en effet du fait que les voyelles orales et les
consonnes orales présentent des moyennes relativement élevées de DANm (respectivement
19.7 et 12.8 cm3/sec) et de PNAm (respectivement 18.9 et 31.6 % du débit d’air total).
Pour les voyelles orales, les valeurs obtenues sont essentiellement dues aux
phénomènes de coarticulation, que le corpus visait à mettre en évidence (Cf. le grand nombre
de voyelles orales en contexte phonologique nasal :
Table 2, Table 3 et Table 4). Pour les consonnes orales, la coarticulation nasale est
nettement moins attestée, comme le montrent les tracés aérodynamiques (Cf. p.36). Mais le
faible débit d’air nasal mesuré (parfois simplement du « bruit ») est proportionnellement
important puisque le DABm est faible lui aussi, en particulier pour les consonnes occlusives qui
ne présentent du débit d’air buccal qu’au moment du relâchement10. Enfin, la forte différence de
PNAm observée entre voyelles et consonnes nasales (en moyenne, 40% vs. 93.3% du débit
d’air total des segments) peut s’expliquer par l’absence de débit d’air buccal pour les
consonnes. Le DABm est en effet quasi nul pour les consonnes nasales en raison de
l’occlusion bilabiale ou dentale, et l’air s’échappe uniquement par les fosses nasales. Même si
cela reste possible d’après nos données, il n’est donc pas nécessaire de supposer que le voile
occupe pendant les consonnes nasales une position radicalement différente (plus basse) de
celle qu’il a pendant les voyelles nasales.
2.3.
Voyelles
La Table 8 présente de façon plus détaillée les données recueillies pour les 1200
voyelles du corpus. Sur le modèle de la Table 7, on donne les moyennes obtenues pour les
quatre variables
dépendantes DANm,
DABm, PNAm
et
T en fonction de deux
variables indépendantes (le contexte phonologique et le type de voyelle), ainsi que les résultats
de l’analyse de variance multivariée MANOVA effectuée sur ces paramètres.
10
Pour les consonnes occlusives, la mesure de PNAm a peu de pertinence puisqu’elle renvoie essentiellement à un
rapport de « bruit » entre les mesures de débit d’air nasal et buccal, pour des segments au cours desquels l’air ne
sort théoriquement ni par la bouche ni par le nez. D’où la grande variabilité des moyennes de PNAm, qui se traduit
par une déviation standard exceptionnellement élevée (SD = 371.1, Cf. Table 9, p.33).
27
3
Table 8. Données quantitatives (DANm, DABm en cm /sec, PNA en % et T en ms) concernant les voyelles du corpus (N=1200). Statistiques descriptives (moyenne,
déviation standard SD, nombre de cas N), et paramètres de l’analyse de variance MANOVA (statistique F, degré de significativité p) pour deux variables
indépendantes et leur interaction : le type de voyelle (voyelles nasales V, voyelles orales correspondantes V (1) et voyelles orales sans correspondante nasale V (2)),
et le contexte phonologique. Les données en italiques correspondent à des contextes où un type de voyelle est manquant.
Type de voyelle
v (1)
v (2)
47.3
11.7
41.6
32.9
18
35
506
510
184
F(2,1188) = 111.25
p < .001
79.7
115.7
67.9
53
60
52.6
506
510
184
F(2,1188) = 33.2
p < .001
40
11.4
39.6
24
24.9
31.4
506
510
184
F(2,1188) = 113.34
p < .001
223.6
172.9
168.7
67.7
56.2
65.6
506
510
184
F(2,1188) = 21.61
p < .001
v
DANm
DABm
PNAm
T
Moyenne
SD
N
F
p
Moyenne
SD
N
F
p
Moyenne
SD
N
F
p
Moyenne
SD
N
F
p
Contexte
C_#
_N
24.5
19.1
32.4
27.6
650
166
F (5,1188) = 55.76
p < .001
104.8
98.3
62.6
57.5
650
166
F (5,1188) = 22.97
p < .001
21.9
16.5
30.8
23.5
650
166
F (5,1188) = 62.22
p < .001
204.6
134.3
58.2
63.6
650
166
F (5,1188) = 68.61
p < .001
28
N_#
N_N
C_C
C_.CV
51.3
30.3
169
43.7
25.1
123
50
30
69
41.1
25.5
23
Type de voyelle
par Contexte
F (4,1188) = 6.15
p < .001
63.9
44.9
169
65.5
38.8
123
87.8
53.2
69
109
60.4
23
F (4,1188) = 2.12
p = .076
46.5
22.7
169
42.2
22.9
123
37.7
19.8
69
29.4
17.5
23
F (4,1188) = 7.24
p < .001
190.2
60.9
169
180.2
68.7
123
279.8
49.8
69
151
32.1
23
F (4,1188)=26.77
p < .001
a.
Type de voyelle
Nous avons choisi de rassembler les voyelles en trois groupes : les voyelles nasales,
les voyelles orales correspondantes /D,(,o/, et les voyelles orales sans correspondante
phonologique nasale /L,\,X,H,R/, soit respectivement V, V(1) et V(2) dans la Table 8. En effet,
pour l’ensemble des paramètres étudiés, la variation est importante entre voyelles nasales et
voyelles orales, mais également entre les différentes voyelles orales. Ainsi, les voyelles orales
/D,(,o/ ont en moyenne un faible PNAm (11.4%) alors que les autres orales du corpus ont un
PNAm beaucoup plus élevé (39.6%). Il ne diffère d’ailleurs pas statistiquement du PNAm des
voyelles nasales (40%) d’après les tests Post Hoc réalisés sur la variable de type de voyelle
(p=.978, indice de Scheffé). En fait, les deux groupes de voyelles orales V(1) et V(2) divergent
tant du point de vue du DANm (11.7 vs. 41.6 cm3/sec) que du point de vue du DABm (115.7 vs.
67.9 cm3/sec). Il y a donc une sorte de compromis entre les valeurs de débit d’air buccal et
nasal : les orales ayant une correspondante phonologique nasale présentent peu de DANm et
beaucoup de DABm, alors que les autres orales ont en moyenne beaucoup de DANm et peu
de DABm. Ces résultats sont à mettre en relation avec le degré d’aperture des voyelles
concernées : /D,(,o/ sont des voyelles ouvertes ou semi-ouvertes, alors que /L,\,X,H,R/ sont des
voyelles fermées ou semi-fermées. Il est donc possible que la variation observée soit due aux
différences de configuration orale entre ces voyelles, et non à des différences dans le degré
d’abaissement du voile du palais. Cependant, les variations de PNAm restent un indice du fait
que le rapport d’impédance acoustique sera plus favorable aux cavités nasales dans le cas de
V(2)
que de V(1). On s’attend donc à ce que les effets acoustiques de la nasalité soient plus
importants pour les voyelles /L,\,X,H,R/ que pour les voyelles /D,(,o/ : à abaissement du voile
comparable (ce qui est l’hypothèse la plus conservatrice au regard des chiffres), l’effet
acoustique est plus important pour les voyelles fermées que pour les voyelles ouvertes (House
et Stevens, 1956, Ohala 1975). L’observation d’un abaissement du voile du palais au moins
aussi important pour les voyelles orales fermées que pour les autres orales constitue une
particularité du français qui demande à être expliquée (Cf. Discussion).
Enfin, en ce qui concerne la variable de ‘type de voyelle’, il faut noter la nette différence
de durée, tous contextes confondus, entre voyelles nasales d’une part et voyelles orales
d’autre part. Dans le cas de T, en effet, les tests Post Hoc indiquent que la différence entre les
moyennes obtenues pour V(1) et V(2) n’est pas significative (p=.664). Le contraste de nasalité
vocalique s’appuie dans de nombreuses langues du monde sur une distinction concomitante de
quantité (Beddor, 1993).
29
b.
Contexte phonologique
La variance des paramètres aérodynamiques en fonction du contexte phonologique est
hautement significative, comme l’indique la Table 8 (p <.001). En particulier, les moyennes de
DANm et de PNAm sont nettement supérieures lorsqu’une consonne nasale précède la voyelle
(respectivement 51.3 cm3/sec et 46.5% en contexte N_#), par rapport aux cas où une consonne
nasale suit la voyelle (19.1 cm3/sec et 16.5% en contexte _N), et ce, quel que soit le type de
voyelle concerné. Il y a nettement plus de nasalisation progressive que de nasalisation
régressive en français.
Les données relatives aux contextes N_N, C_C et C_.CV sont en italiques dans la Table 8
parce qu’elles doivent être analysées en relation avec le corpus et ses particularités. Seules
des voyelles orales V(1) et V(2) apparaissent en contexte N_N, ce qui explique sans doute que
la moyenne de PNAm, quoique élevée (42.2%), n’atteigne pas celle obtenue en contexte N_#
(46.5%) pour des voyelles orales et nasales. Quant aux environnements phonologiques
purement oraux C_C et C_.CV, ils ne concernent dans notre corpus que des voyelles nasales,
c’est pourquoi les moyennes de PNAm y sont élevées (37.7 et 29.4%). Afin de clarifier
l’analyse, on propose donc dans la Figure 1 une représentation des valeurs de PNAm pour
chaque contexte phonologique selon le type de voyelle. Chaque « boxplot » donne l’étendue et
la répartition des valeurs prises par la mesure de PNAm : le corps coloré représente les 2e et 3e
quartiles, les lignes verticales représentent les 1er et 4e quartiles, et la ligne horizontale indique
la médiane.
30
PNAm (en%)
Contexte phonologique
Figure 1. Boxplots représentant la répartition des valeurs de PNAm (en %) pour les trois types de voyelle en fonction du contexte phonologique.
31
La Figure 1 permet d’analyser la nature des interactions entre les deux variables
indépendantes de ‘contexte’ et de ‘type de voyelle’. Pour chaque contexte étudié, tout d’abord,
les moyennes de PNAm varient en fonction du type de voyelle, les voyelles /D,(,o/ étant les
moins nasalisées, suivies des autres orales /L,\,X,H,R/, et enfin des voyelles nasales, qui sont
toujours les plus nasalisées dans un contexte donné.
Pour chaque type de voyelle, par
ailleurs, d’importantes variations contextuelles sont attestées du point de vue du PNAm : un
contexte phonologique nasal favorise généralement la nasalisation (même les voyelles nasales
ont un taux plus élevé de PNAm en contexte N_#), et il y a nettement plus de nasalisation
progressive que de nasalisation régressive. La combinaison de ces deux types de phénomène
amène à une réduction de la distance (en terme de taux de PNAm) entre voyelles orales et
voyelles nasales en contexte phonologique nasal.
Deux types de valeur méritent une explication supplémentaire en rapport avec la nature
des items sélectionnés dans le corpus. D’une part, dans le cas du contexte _N, les voyelles
orales /D,(,o/ et les nasales ne tombent pas sous l’accent, ce qui peut sans doute expliquer en
partie le faible niveau de PNAm pour ces voyelles (voir par exemple le niveau de PNAm des
voyelles nasales, qui est inférieur en contexte _N par rapport à C_). Cette question sera
abordée lors de l’analyse des tracés aérodynamiques (Cf. p.48). D’autre part, la moyenne
particulièrement élevée obtenue pour les voyelles de type V(2) en contexte N_N est
probablement surestimée, en raison du fait que les données concernent la seule voyelle /i/, qui
a le plus faible DABm et le plus haut DANm, toutes voyelles orales confondues.
2.4.
Consonnes
Sur le modèle des tables précédentes, la Table 9 présente les données recueillies pour
les 1230 consonnes du corpus. Les moyennes obtenues pour les quatre variables
aérodynamiques sont données en fonction du type de consonne (occlusive, fricative, liquide11,
ou consonne nasale) de même que les résultats de l’analyse de variance (ANOVA) effectuée à
partir de ces paramètres pour ce sous-ensemble du corpus.
11
Latérales /O/et trilles /^/.
32
3
Table 9. Données quantitatives (DANm, DABm en cm /sec, PNA en % et T en ms) concernant les consonnes du
corpus (N=1230). Statistiques descriptives (moyenne, déviation standard SD, nombre de cas N), et paramètres de
l’analyse de variance ANOVA (statistique F, degré de significativité p) pour la variable indépendante de type de
consonne (occlusive, fricative, liquide ou nasale).
Occlusives Fricatives Liquides Nasales
DANm
DABm
PNAm
T
Moyenne
SD
N
F
p
Moyenne
SD
N
F
p
Moyenne
SD
N
F
p
Moyenne
SD
N
F
p
8.5
17
10.8
18.9
278
279
F(3, 1226) = 497.48
p < .001
31
168.5
42.5
127.5
278
279
F(3, 1226) = 303.45
p < .001
57.3
12.5
371.1
14.6
278
279
F(3, 1226) = 11.48
p < .001
156.9
183.9
44.7
50.8
278
279
F(3, 1226) = 17.86
p < .001
13.1
17.1
93
68.7
33.2
580
117.8
86.5
93
9.6
34.7
580
12.2
15.1
93
93.3
59.5
580
165.1
47.5
93
155.6
62.7
580
Les consonnes occlusives ont très peu de DANm en moyenne (8.5 cm3/sec), et
relativement peu de DABm (31 cm3/sec). En fait, le DAB est nul pendant la majeure partie des
occlusives, puis atteint très rapidement une valeur élevée au moment du relâchement. La
situation est différente pour les fricatives et les liquides, qui ont un DABm très élevé
(respectivement 168.5 et 117.8 cm3/sec en moyenne), puisque l’air s’échappe par la bouche
tout au long de la consonne. Dans ces conditions, le niveau de DANm mesuré pour les
fricatives et les liquides (17 et 13.1 cm3/sec en moyenne) n’est pas négligeable. L’analyse des
tracés aérodynamiques permet de vérifier que la coarticulation nasale est plus importante pour
ces consonnes que dans le cas des occlusives (Cf. p.41). Sans surprise, les consonnes
nasales ont un DANm élevé et un DABm très bas (qui s’apparente à du bruit de mesure).
33
2.5.
Voyelles nasales
La Table 10 présente les données relatives aux seules voyelles nasales (N=506). Les
résultats de l’ANOVA montrent que la variance en fonction de la variable de segment est
hautement significative pour les paramètres aérodynamiques, mais pas pour la durée (p=.
011). Comme précédemment pour les voyelles orales d’aperture différente, on observe un
compromis entre les valeurs de DANm et de DABm. La voyelle la plus ouverte, /$/, est celle qui
a la moyenne la plus faible de DANm et la moyenne la plus élevée de DABm. Nous ne
prédisons pourtant pas à partir de ces données que le voile aura une position radicalement
différente pour cette voyelle que dans le cas de /(/, dont le DANm est en moyenne plus élevé
(45.1 vs. 26.4 cm3/sec pour /$/) mais le DABm plus bas (79.4 vs. 102.7 cm3/sec pour /$/), sans
doute parce qu’il s’agit d’une voyelle semi-ouverte. Les données articulatoires permettent
d’affiner cette analyse (Cf. p.86).
3
3
Table 10. Données quantitatives (DANm en cm /sec, DABm en cm /sec, PNA en % et T en ms) concernant les
voyelles nasales du corpus (N=506). Statistiques descriptives (moyenne, déviation standard SD, nombre de cas N),
et paramètres de l’analyse de variance ANOVA (statistique F, degré de significativité p) pour la variable
indépendante de segment (/$/, /(/, /o/).
/$/
DANm
DABm
PNAm
T
Moyenne
SD
N
F
p
Moyenne
SD
N
F
p
Moyenne
SD
N
F
p
Moyenne
SD
N
F
p
/(/
26.4
45.1
18.1
26.4
169
168
F (2, 503) = 107.34
p < .001
102.7
79.4
48.6
54.1
169
168
F (2, 503) = 35.39
p < .001
21.3
40.9
13.5
23.2
169
168
F (2, 503) = 158.72
p < .001
233
226.4
65.6
65.3
169
168
F (2, 503) = 4.6
p = .011
34
/o/
70.3
35.5
169
57.2
46
169
57.8
18.7
169
211.4
70.6
169
Dans le cas de /o/, la position arrière de la langue, qui s’approche du palais dans la
région du voile, offre encore plus de résistance au passage de l’air par la bouche, ce qui se
traduit par un DABm particulièrement faible pour une voyelle (57.2 cm3/sec), et par un DANm
très élevé (70.3 cm3/sec). Même si le voile n’est sans doute pas plus bas pour /o/ que pour les
autres nasales, nous prédisons que le couplage nasal aura des effets acoustiques
particulièrement importants dans le cas de cette voyelle. Les données acoustiques confirment
cette prédiction (Cf. p.110).
2.6.
Consonnes nasales
La Table 11 présente les données relatives aux consonnes nasales uniquement
(N=580). Les résultats de l’ANOVA montrent que la variance en fonction de la variable de
segment n’est pas significative pour les paramètres aérodynamiques (p=.196 pour DANm,
p=.060 pour DABm, et p=.305 pour PNAm), alors qu’elle est significative pour la durée (p<.05).
Du point de vue aérodynamique donc, les consonnes nasales /m/ et /n/ ont un comportement
tout à fait comparable d’après nos données.
3
Table 11. Données quantitatives (DANm, DABm en cm /sec, PNA en % et T en ms) concernant les consonnes
nasales du corpus (N=580). Statistiques descriptives (moyenne, déviation standard SD, nombre de cas N), et
paramètres de l’analyse de variance ANOVA (statistique F, degrés de significativité p) pour la variable indépendante
de segment (/m/, /n/).
DANm
DABm
PNAm
T
Moyenne
SD
N
F
p
Moyenne
SD
N
F
p
Moyenne
SD
N
F
p
Moyenne
SD
N
F
p
/m/
/n/
70.5
32.1
291
F (1,578) = 1.68
p = .196
16.9
33.5
291
F (1,578) = 3.54
p = .060
100.1
81.2
291
F (1,578) = 1.05
p = .305
161.4
61.8
291
F (1,578) = 5.03
p = .025
66.9
34.2
289
35
22.4
35.7
289
86.5
34.1
289
149.8
63.2
289
2.7.
Résumé des résultats
En résumé, l’examen des données quantifiées mène à la conclusion qu’une grande
partie de la variation des niveaux moyens des paramètres aérodynamiques peut être attribuée
aux conditions de production des sons étudiés : position (ouverte ou fermée) du voile,
configuration orale (depuis la fermeture des occlusives jusqu’à l’aperture maximale des
voyelles ouvertes) et coarticulation (des phonèmes nasals vers les phonèmes non nasals). En
première analyse, la différence entre nasalisation progressive et nasalisation régressive ne
peut être expliquée de la même façon. Ce phénomène, de même que les différences de DANm
observées entre occlusives d’une part et fricatives et liquides d’autre part, nécessite une
analyse plus détaillée des trajectoires de débit lors des transitions entre un son oral et un son
nasal.
3.
Résultats : analyse des tracés aérodynamiques
L’objectif de cette section est d’analyser l’évolution temporelle, au cours des segments,
des trajectoires de débit d’air nasal et de débit d’air buccal, en affinant l’analyse de la variation
proposée dans la section précédente à partir des données quantifiées. Pour illustrer les
problèmes étudiés, on propose ici un ensemble de figures, qui donnent les tracés de débit d’air
nasal et de débit d’air buccal, ainsi qu’un spectrogramme à bandes larges (fenêtre de Hamming
de 5ms, FFT de 512 points), en comparant à chaque reprise deux items du corpus. Des labels
numérotés (1), (2), (3), etc. ont été placés manuellement sur les tracés, afin de souligner
certains événements et de clarifier le commentaire présent dans le texte.
3.1.
Items cv
a.
C[occlusive] V
La Figure 2 concerne les items /SD/ et /S$/, prononcés par le sujet féminin S1. En ce qui
concerne /SD/, le tracé de DAN reste plat, signe que le port vélo-pharyngien reste fermé tout au
long de l’item.
36
S
D
S
$
Figure 2. Spectrogramme, signal, et tracés de débit d’air nasal (en bleu) et de débit d’air buccal (en vert). Items /SD/
(en haut) et /S$/ (en bas) pour le sujet féminin S1.
37
La courbe de DAB connaît plusieurs inflexions : au moment du burst, soit dès le
relâchement de l’occlusion (1), le DAB monte fortement, puis lors de l’entrée en vibration des
cordes vocales (2), il redescend rapidement. Le DAB atteint alors un niveau relativement
stable, puis remonte progressivement à partir de (3) jusqu’à la fin de la voyelle. La chaîne des
événements est assez comparable pour l’item /S$/ en ce qui concerne le DAB, à l’exception de
la montée finale, qui n’a pas lieu généralement pour la voyelle nasale. Quant au DAN, il entame
sa montée en (4), soit ici environ 25 ms après le début de la voyelle nasale.
Les tracés obtenus pour les autres voyelles, orales et nasales, dans les items
C[occlusive]V, suivent généralement le schéma établi plus haut. Pour les nasales, le DAN se met à
monter entre 10 et 70 ms après l’entrée en vibration des cordes vocales, puis il atteint dès la
deuxième moitié de la voyelle un niveau comparable, voire supérieur, au DAB. Le cas de /o/ est
un peu particulier, comme le montre la Figure 3, où sont présentés les items /So/ et /So/ pour le
sujet masculin S3. En effet, après être rapidement monté (1) et redescendu (2), le tracé de
DAB revient en (3) à un niveau très bas, proche de zéro, pour toute la deuxième moitié de la
« voyelle ». Pour la voyelle /o/, en effet, la langue se relève dans la région où s’abaisse le voile
du palais, ce qui peut mener à un blocage presque total du passage de l’air par la cavité
buccale.
b.
C[fricative] V
La Figure 4 concerne les items /V(/ et /V(/ pour le sujet masculin S4. Elle est représentative des
cas où les voyelles orales et nasales sont précédées par une consonne fricative. Au contraire
des occlusives, il y a du DAB pendant toute la durée de la fricative, puisque l’occlusion du
conduit buccal n’est pas complète durant ce type de consonne. Ensuite, le tracé de DAB est
fort comparable aux cas précédents : lors du relâchement de la constriction, le DAB monte
rapidement, puis redescend dès la mise en vibration des cordes vocales (1). Il atteint une
position stable (2), puis se remet à monter à la fin de la voyelle (3), lorsque l’impédance est
moins forte à la glotte.
38
S
S
o
o
Figure 3. Spectrogramme, signal, et tracés de débit d’air nasal (en bleu) et de débit d’air buccal (en vert). Items /So/
(en haut) et /So/ (en bas) pour le sujet masculin S3.
39
V
(
V
(
Figure 4. Spectrogramme, signal, et tracés de débit d’air nasal (en bleu) et de débit d’air buccal (en vert). Items /V(/
(en haut) et /V(/ (en bas) pour le sujet masculin S4.
40
La grande différence avec le cas des occlusives se situe au niveau du DAN pour les
voyelles nasales : celui-ci se met à monter à la fin de la consonne fricative (4), avant que les
cordes vocales ne se mettent à vibrer (1).
Ainsi, le DAN entame sa montée au début de la voyelle ou quelque temps après dans le
cas des items C[occlusive] V, tandis qu’il se met à monter au début de la voyelle ou quelque temps
avant dans le cas des items C[fricative] V. La montée anticipative est plus marquée pour certains
sujets et pour certaines fricatives, en particulier les sonores, comme le montre la Figure 5, qui
compare un même item /I\](/, prononcé par deux sujets (masculins) différents, S7 et S8. Dans
les deux cas, les labels (1) et (3) marquent respectivement le début et la fin de la consonne /]/ ;
le label (2) marque le début de la montée du DAN, soit de l’abaissement du voile du palais, qui
dans un cas prend place dès le milieu de la consonne, et dans l’autre au début de la voyelle
seulement. L’analyse des tracés aérodynamiques permet donc de compléter l’information
fournie par les données quantifiées, qui indiquaient un taux plus élevé de DANm en moyenne
pour les consonnes fricatives, en particulier au regard de leur important DABm (Cf. p.33).
c.
C[liquide] V
La Figure 6 montre que les transitions entre consonnes liquides et voyelles nasales sont
plutôt proches de celles observées entre fricatives et voyelles nasales. En effet, tant pour /^(/
que pour /O(/, le DAN commence à monter durant la consonne (2), avant le début de la voyelle
nasale proprement dite (3). Les consonnes liquides sont nasalisées plus tôt encore que les
fricatives lorsqu’elles précèdent une voyelle nasale.
En résumé, les données montrent que le mouvement d’abaissement du voile pour une
voyelle nasale se produit au début de celle-ci lorsque la consonne précédente est une
occlusive, et pendant la consonne lorsqu’il s’agit d’une fricative ou surtout d’une liquide. Nous
reviendrons sur l’explication à donner à ces phénomènes dans la discussion (Cf. pp.54 et
suivantes).
41
I
I
\
\
]
]
(
(
Figure 5. Spectrogramme, signal, et tracés de débit d’air nasal (en bleu) et de débit d’air buccal (en vert). Item /I\](/
pour les sujets masculins S7 (en haut) et S8 (en bas).
42
^
O
(
(
Figure 6. Spectrogramme, signal, et tracés de débit d’air nasal (en bleu) et de débit d’air buccal (en vert). Items /^(/
(en haut) et /O(/ (en bas) pour le sujet féminin S5.
43
3.2.
Items NV
La Figure 7 présente les tracés aérodynamiques pour les items /PD/ et /P$/ (S1). Dans
les deux cas, le début de la voyelle (1) marque le début d’une chute du DAN et d’une montée
du DAB. Les deux phénomènes sont sans doute liés à l’ouverture de la bouche lors du
relâchement de la consonne nasale, sans qu’il soit nécessaire de supposer une remontée du
voile du palais à l’entame de la voyelle. A partir de (2) en tout cas, le tracé de DAN remonte
pour la voyelle nasale, alors qu’il continue à descendre pour la voyelle orale, ce qui indique un
comportement différent du voile du palais, d’autant que le DAB monte dans les deux cas. Ces
tracés expliquent que les moyennes de DANm que nous obtenons sont élevées pour toutes les
voyelles en contexte N_#, mais qu’elles sont supérieures lorsque la voyelle est une voyelle
nasale (voir Figure 1, p.31).
La Figure 7 est représentative des données concernant les voyelles /D,$/ et /(,(/. Pour
/o,o/, la situation est légèrement différente, parce qu’il s’agit là de voyelles postérieures. La
Figure 8 concerne les items /Po/ et /Po/ prononcés par le même locuteur que précédemment,
S1. On remarque que le DAN n’atteint jamais le niveau zéro dans le cas de /Po/, et que le DAB
est relativement faible. Ceci est sans doute dû au fait que, pour une voyelle postérieure, la
langue se rapproche du palais dans la région précise où le voile s’abaisse. Le phénomène est
encore amplifié pour /Po/, puisque le niveau de DAB reste nettement inférieur au DAN pendant
toute la voyelle.
Enfin, la Figure 9 montre que, pour rendre compte des moyennes très élevées de
DANm obtenues pour les voyelles orales sans correspondante nasale (voir Table 8, p.28), il
faut tenir compte de l’influence de deux facteurs. Tout d’abord, la coarticulation (la nasalisation
progressive) est très importante pour ces voyelles : le voile ne remonte que tard dans la voyelle
pour /i/ (2), et il ne remonte sans doute pas du tout pour /y/. Ensuite, il y a peu de passage pour
l’air dans la cavité orale, d’où un DAB faible (et un DANm d’autant plus élevé).
44
P
D
P
$
Figure 7. Spectrogramme, signal, et tracés de débit d’air nasal (en bleu) et de débit d’air buccal (en vert). Items /PD/
(en haut) et /P$/ (en bas) pour le sujet féminin S1.
45
P
o
P
o
Figure 8. Spectrogramme, signal, et tracés de débit d’air nasal (en bleu) et de débit d’air buccal (en vert). Items /Po/
(en haut) et /Po/ (en bas) pour le sujet féminin S1.
46
P
L
P
\
Figure 9. Spectrogramme, signal, et tracés de débit d’air nasal (en bleu) et de débit d’air buccal (en vert). Items /PL/
(en haut) et /P\/ (en bas) pour le sujet féminin S1.
47
Dans leur ensemble, les données aérodynamiques montrent que la nasalisation
progressive
est
très
importante
en
français,
et
qu’en
conséquence
les
voyelles
phonologiquement orales sont fortement nasalisées, en particulier les voyelles fermées, qui
sont sans doute prononcées dans leur totalité avec un voile abaissé. Les voyelles nasales
restent plus nasalisées que leur correspondante orale dans ce contexte, surtout en fin de
voyelle, mais une question se pose néanmoins : est-ce suffisant pour assurer le contraste
phonologique ?
3.3.
Items VN
La quantification des données aérodynamiques montre que la nasalisation régressive
est très inférieure à la nasalisation progressive en français (voir
Table 2, p.20 et Figure 1, p.31). Les tracés de débit de la Figure 10 (sujet féminin S6)
permettent de visualiser le phénomène. Ainsi, pour l’item /ODQÉL/, il n’y a aucun DAN pendant la
voyelle /D/ (entre (1) et (2)), tandis qu’après la consonne nasale, à partir de (3), le DAN
redescend lentement : la semi-voyelle /É/ ([É ]) et le début de la voyelle /L/ sont nasalisés. De
plus, lorsque c’est une voyelle phonologiquement nasale qui précède une consonne nasale
(dans le cas de /O$QÉL/), le voile du palais s’abaisse avec retard au cours de la voyelle. Nous
avons voulu savoir si ces observations étaient liées au fait que les voyelles /D,$/ sont en
position inaccentuée dans les items présentés dans la Figure 10. Nous disposions en effet de
données additionnelles (non inclues dans la quantification de la section précédente) pour les
huit sujets de l’expérience, dont le détail est fourni dans la Table 12.
Table 12. Données additionnelles pour les tracés aérodynamiques : items VN.
Vm
Vn
/$/
ame
Anne
/(/
aime
haine
/o/
homme
tonne
48
O
D
O
ÉZ L
Q
$
Q
ÉZ L
Figure 10. Spectrogramme, signal, et tracés de débit d’air nasal (en bleu) et de débit d’air buccal (en vert). Items
/ODQÉL/ (en haut) et /O$QÉL/ (en bas) pour le sujet féminin S6.
49
D
P
o
P
Figure 11. Spectrogramme, signal, et tracés de débit d’air nasal (en bleu) et de débit d’air buccal (en vert). Items /DQ/
(en haut) et /oP/ (en bas) pour le sujet féminin S6.
50
Ces items monosyllabiques VN combinent les consonnes nasales /P,Q/ avec les
voyelles orales /D,(,o/, qui sont dès lors en position accentuée. La Figure 11 donne les tracés
aérodynamiques pour deux de ces items, prononcés par S6 : /DQ/ et /oP/. Dans les deux cas, il
n’y a pas de débit d’air nasal ou presque pendant la voyelle : le DAN entame sa montée en (2),
à l’extrême fin de la voyelle orale ou au début de la consonne nasale.
En résumé, les tracés aérodynamiques pour les items VN confirment qu’il y a très peu
de nasalisation régressive en français. Les voyelles nasales elles-mêmes ne sont pas
complètement nasalisées dans ce contexte.
3.4.
Items NVN
La Figure 12 (sujet S4) est représentative des courbes de débit mesurées au cours des
items NVN pour les voyelles orales ayant une correspondante nasale (/Q(Q/) et pour les autres
(/PLQ/). Les tracés de DAN et de DAB suivent des inflexions similaires dans les deux cas. A
l’ouverture de la bouche pour la voyelle (1), le DAB augmente et le DAN diminue, puis les
débits atteignent une phase de relative stabilité entre (2) et (3). A la fin de la voyelle, la langue
s’approche du palais pour former l’occlusion alvéolaire, et le DAB diminue rapidement tandis
que le DAN remonte. La synchronisation parfaite entre les deux courbes permet de supposer
que le voile bouge peu pendant la séquence (il est abaissé), et que ce sont les modifications
intervenant dans la cavité buccale qui sont principalement responsables de la diminution de
DAN pendant la voyelle orale. La diminution est d’ailleurs moindre dans le cas de /PLQ/, tandis
que le DAB n’atteint qu’un niveau assez faible parce qu’il s’agit d’une voyelle fermée (et
nasalisée). Ce que montrent les données dans leur ensemble, c’est que les voyelles orales du
point de vue phonologique sont entièrement nasalisées du point de vue de leur réalisation
phonétique en contexte N_N.
51
Q
(
P
L
Q
Q
()
Figure 12. Spectrogramme, signal, et tracés de débit d’air nasal (en bleu) et de débit d’air buccal (en vert). Items
/Q(Q/ (en haut) et /PLQ/ (en bas) pour le sujet masculin S4.
52
W
W
$
$
W
W
H
Figure 13. Spectrogramme, signal, et tracés de débit d’air nasal (en bleu) et de débit d’air buccal (en vert). Items /W$W/
(en haut) et /W$WH/ (en bas) pour le sujet féminin S2.
53
3.5.
Items CVC et CV.CV
La Figure 13 présente les données concernant les items /W$W/ et /W$.WH/ prononcés par le
sujet féminin S2. Les courbes de débit ont un comportement comparable, bien que la voyelle
nasale soit en syllabe fermée accentuée dans le premier cas, et en syllabe ouverte inaccentuée
dans le deuxième. En (1), le débit d’air buccal, qui était à son maximum pour le burst,
redescend rapidement au moment où les cordes vocales se mettent à vibrer pour la voyelle
nasale. C’est seulement 30 à 50 ms plus tard que le DAN entame sa montée (2), indiquant un
abaissement relativement tardif du voile du palais après une consonne occlusive (Cf. p.36). A
la fin de la voyelle nasale (4), l’occlusion buccale se forme, induisant une chute du DAB et une
montée concomitante du DAN (alors que le voile n’a pas encore bougé). Ensuite seulement,
c’est-à-dire pendant la consonne occlusive (5), le voile du palais commence à remonter. Le
niveau zéro est atteint au moment où l’occlusion est relâchée pour le second /W/ (6).
Les données aérodynamiques montrent donc que les mouvements du voile du palais et
de la langue sont asynchrones dans les items de type C[occlusive] V C[occlusive]. Le voile du palais
s’abaisse avec retard par rapport au début de la voyelle et remonte avec retard par rapport au
début de la seconde consonne occlusive. La conséquence est qu’une occlusive précédant une
voyelle nasale n’est pas nasalisée, alors qu’elle est prénasalisée après une voyelle nasale.
4.
Discussion
La Figure 14 propose un résumé des tracés de DAN observés en fonction des différents
types d’items examinés ci-dessus. Il s’agit bien sûr de trajectoires idéalisées, qui visent à
capturer l’essentiel de l’information en vue de la généralisation que nous proposons dans la
présente discussion.
54
C[occlusive]V
C[fricative/liquide]V
VC[occlusive]
NV
NV(1)
NV(2)
VN
NVN
Figure 14. Résumé des tracés aérodynamiques de DAN. Tracés idéalisés pour les différents types d’items étudiés :
C[occlusive]V ; C[fricative/liquide]V ; VC[occlusive] ; NV ; NV(1) /D,(,o/ ; NV(2) /L,X,\,H,R/ ; VN ; NVN. Les lignes rouges, vertes et
bleues font référence aux prédictions du modèle adopté par Cohn (1990, voir texte).
55
Les paramètres aérodynamiques de la nasalité en français n’ont pas fait l’objet d’une
étude systématique dans la littérature, à l’exception notable de l’étude réalisée par Abigail
Cohn en 1990 sur deux locuteurs masculins (de Paris et d’Aix-en Provence). Considéré dans
son ensemble, le corpus de Cohn (1990) est relativement comparable à celui de notre étude
aérodynamique. Quelques différences existent cependant : notre corpus ne compte pas de
semi-voyelles, alors qu’elles sont systématiquement étudiées dans Cohn (1990). Nous n’avons
pas non plus considéré les séquences VV, VV ou NN, qui franchissent souvent la frontière de
mot. Par contre, nous avons inclus dans nos itemss les consonnes fricatives et les voyelles
orales /L,\,X,H,R/. Malgré ces différences, la majeure partie des résultats présentés ici
convergent avec ceux obtenus par Cohn (1990). Ainsi, à l’exception du cas des items NVN,
l’ensemble des trajectoires idéalisées de la Figure 14 sont en accord avec celles rapportées
par Cohn. En ce qui concerne les items NVN, nos données indiquent sans équivoque que les
voyelles orales du français sont extrêmement nasalisées en contexte phonologique nasal, alors
qu’après différents calculs Cohn conclut que dans ce contexte, la nasalisation des voyelles
/D,(,o/ est importante mais pas maximale (pp.121-122). Obtenus sur un ensemble plus large de
voyelles, nos résultats permettent de contester l’hypothèse selon laquelle il existe un plafond
de nasalité pour les voyelles phonologiquement orales lorsqu’elles sont en contexte nasal
(Cohn, 1990, pp. 122 et 124).
Ainsi, les résultats obtenus indépendamment et à dix ans d’intervalle par Cohn (1990) et
par notre étude aérodynamique permettent d’établir l’existence d’un ensemble de faits en ce
qui concerne l’évolution temporelle des paramètres aérodynamiques pour les séquences oralenasale en français. Si les faits sont établis, leur interprétation varie néanmoins selon le point de
vue théorique adopté. Nous allons à présent envisager ces diverses interprétations en rapport
avec la vision du phénomène d’implémentation phonétique des représentations phonologiques
qui les sous-tend.
Le modèle d’implémentation phonétique adopté par Cohn (1990, 1993) est le « targetinterpolation model » (Pierrehumbert, 1980, Pierrehumbert et Beckman 1988). Ce modèle pose
qu’au sortir de la phonologie les spécifications pour les traits sont traduites en cibles
phonétiques possédant une durée propre, et que ces cibles phonétiques sont ensuite
interpolées suivant un certain nombre de règles. Ainsi, Cohn rend compte de l’ensemble de la
variation observée pour le DAN en français en faisant appel à quatre types de phénomènes :
(1) Les spécifications phonologiques pour le trait de nasalité. En quittant la phonologie,
les voyelles nasales et les consonnes nasales sont [+N], les voyelles orales et les occlusives
orales sont [-N], et les autres consonnes restent non spécifiées pour le trait de nasalité : les
56
fricatives, les liquides et les semi-voyelles sont [2N]. Ceci implique qu’en l’absence de règles
phonologiques ou phonétiques spécifiques, les voyelles nasales ont un DAN élevé pendant
toute leur durée, de même que les consonnes nasales, alors que le DAN est nul pour les
voyelles orales et les consonnes orales, si ce n’est au cours d’éventuelles transitions avec des
sons nasals. Les cibles prédites par les spécifications phonologiques sont schématisées par
des lignes horizontales rouges dans la Figure 14. De plus, les segments [2N] (les liquides et les
semi-voyelles, dans le corpus de Cohn) sont transparents vis-à-vis de l’interpolation entre
cibles [+N] et [-N], et sont donc relativement nasalisés dans ce cas (Cf. l’oblique rouge pour les
items C[fricatives/liquides] V dans la Figure 14).
(2) Les priorités dans les transitions. Même si les cibles ont une durée propre, il reste
une place en début et en fin de segment pour les transitions avec d’autres segments. Lorsque
deux segments divergent au point de vue de leur cible phonétique (par exemple [+N] vs. [-N]),
la transition d’une cible à l’autre se fait soit à la fin d’un segment, soit au début de l’autre, selon
les règles établies de priorités dans les transitions. Ces règles phonétiques étant spécifiques
aux différentes langues, elles appartiennent à la grammaire de ces langues selon Cohn (1993,
p.45). Deux règles sont proposées pour le français. La première règle stipule que le segment
nasal a toujours priorité sur le segment non nasal, et donc que la transition se fait pendant le
son oral. La seconde règle fait état d’une exception à la première quand une occlusive orale
précède une voyelle nasale, auquel cas la transition prend place pendant la nasale. Ces deux
règles permettent de rendre compte d’une grand partie des transitions observées entre
segments oraux et nasals, tant dans nos données que dans celles de Cohn (1990). La Figure
14 schématise les transitions prédites par ces deux règles au moyen de barres obliques vertes.
(3) Les règles phonologiques spécifiques. Les phénomènes dont on ne peut
manifestement pas rendre compte en invoquant les facteurs (1) et (2) ci-dessus sont
considérés comme faisant l’objet de règles phonologiques spécifiques à la langue concernée.
Pour le français, Cohn propose trois règles de ce type : la « nasal deletion rule », la « syllable
onset default rule » et la « onset assimilation rule ». Nous nous intéresserons essentiellement à
la première de ces règles, étant donné que les deux autres sont énoncées pour rendre compte
de particularités propres aux semi-voyelles, et aux liquides en contexte _.NV (qui
n’apparaissent pas dans notre corpus). La « nasal deletion rule » stipule qu’après un segment
[+N], un segment [-N] voit sa spécification pour le trait de nasalité effacée. Il devient [2N], ce qui
lui vaut d’être traversé par la nasalisation en provenance de voisin(s) nasalisé(s). Cette règle
permet de rendre compte de la différence nette qui existe entre nasalisation progressive et
57
nasalisation régressive en français. Ses prédictions quant aux trajectoires de DAN sont
indiquées par des lignes bleues sur la Figure 14.
(4) Les contraintes phonétiques. Il s’agit des conditions imposées par le composant
phonétique sur la réalisation de certains sons, comme par exemple la nécessité pour une
occlusive d’être entièrement orale à son relâchement. Ces contraintes ne sont pas
nécessairement universelles pour Cohn (1990, p.125) et ne peuvent en aucun cas prendre le
pas sur les contraintes d’ordre phonologique. L’auteur a recours aux contraintes phonétiques
pour expliquer une nasalité inférieure au niveau attendu dans les occlusives sonores et dans
les voyelles lorsqu’elles sont entre deux segments nasals (ce qui n’apparaît pas dans nos
données, comme nous l’avons rappelé ci-dessus).
Comme on le voit, ce modèle permet de rendre compte de phénomènes variés à partir
d’un certain nombre de principes simples. La conception des relations entre phonétique et
phonologie qui sous-tend la proposition n’est pas celle d’une phonétique traduisant
automatiquement les spécifications phonologiques. On ne recourt aux contraintes phonétiques
proprement dites (4) qu’en dernier lieu pour expliquer la variété des réalisations phonétiques,
tout en précisant que ces contraintes, même si elles sont imposées par le système perceptuel
et l’appareil vocal humain, n’induisent pas une réponse unique dans les langues du monde.
Auparavant, l’auteur fait appel aux règles de priorité dans les transitions (2), qui sont
considérées comme des règles phonétiques, appartenant pourtant à la grammaire de la
langue. La phonétique n’est donc pas une opération d’ordre automatique qui survient en dehors
du champ linguistique proprement dit. Cependant, ces règles phonétiques spécifiques à la
langue ne s’étendent pas, dans le modèle proposé par Cohn, au-delà des bordures du
segment : elles sont confinées aux transitions (gradientes, par définition). Lorsqu’il s’agit de
rendre compte de la différence nette (qualitative) de nasalisation qui existe entre les voyelles
orales phonologiques selon qu’elles suivent ou qu’elles précèdent une consonne nasale, Cohn
(1990) a recours à une règle phonologique spécifique au français (3), la « nasal deletion rule ».
Ainsi, à la suite de Keating (1988) et de Pierrehumbert (1990), le modèle proposé par Cohn
pour rendre compte de l’implémentation phonétique de la nasalité en français s’inscrit dans une
vision que nous avons qualifiée dans l’introduction (pp.4 et suivantes) de vision « postgénérativiste » de la répartition des tâches entre phonétique et phonologie, et ce, dans la
mesure où Cohn attribue à la phonologie d’une langue les différences qualitatives (vs.
gradientes) qui caractérisent les variantes contextuelles d’un même phonème.
Différents auteurs se sont intéressés à la place à attribuer (au sein de la phonologie ou
de la phonétique ?) à la nasalisation non contrastive dans d’autres langues que le français.
Ainsi, Solé et Ohala (1991), et Solé (1992, 1995), ont étudié la coarticulation nasale en
58
espagnol et en anglais américain, afin de déterminer si celle-ci était due à des phénomènes
phonétiques universels et automatiques, ou bien à des facteurs phonologiques spécifiques à
ces langues. Ils ont comparé l’amplitude de la coarticulation régressive nasale dans les deux
langues, et ce à différents débits de parole, du plus lent au plus rapide. Les résultats montrent
que la nasalisation varie avec le débit de parole pour les anglophones, alors qu’elle a une
durée fixe pour les hispanophones. Les auteurs concluent que la nasalisation est purement
mécanique en espagnol, alors qu’elle est phonologique en anglais américain, c’est-à-dire
qu’elle fait partie du plan des locuteurs lorsqu’ils prononcent des séquences de type VN. Solé
(1992) propose une explication d’ordre perceptuel à ce changement phonétique.
Ainsi, pour Solé et Ohala, le changement phonétique est phonologisé dans la mesure
où la nasalisation fait partie du programme du locuteur lors de la production de ces voyelles,
c’est-à-dire que la cible est délibérément nasalisée. C’est précisément ce type de phénomène
que Kingston et Diehl (1994) proposent d’inclure dans le champ de la connaissance
phonétique. En effet, dans le cas de l’anglais américain, la nasalisation n’est manifestement
pas le produit de contraintes d’ordre purement mécanique, mais elle fait partie des propriétés
nécessaires à la réalisation appropriée du son dans la communauté linguistique concernée.
L’hypothèse du contrôle n’inclut pourtant pas dans la phonologie la nasalisation contextuelle de
ce type parce qu’aucun contraste phonologique ne s’appuie sur la propriété phonique de
nasalité dans ces langues. L’interprétation proposée par Cohn (1993) dans le cas de l’anglais
américain est que la nasalisation relève de la phonétique, car elle résulte de l’interpolation
entre un segment [-N] et un segment [+N] à travers la voyelle orale, qui est non spécifiée pour
le trait de nasalité, soit [2N]. Ce type d’interprétation n’est pas valable pour le français puisque
un contraste phonologique existe entre voyelles nasales [+N] et voyelles orales [-N]. C’est
pourquoi Cohn (1990, 1993) énonce la « nasal deletion rule » dont nous avons parlé plus haut.
Nous considérons, quant à nous, que la position défendue par Kingston et Diehl, qui
consiste à situer ces phénomènes au sein de la connaissance phonétique (soit en dehors du
cadre de la phonologie ou de la phonétique proprement dites), est d’un intérêt capital dans le
cas du français. En français, en effet, il est plus qu’ailleurs nécessaire de distinguer entre la
nasalisation d’ordre phonologique, qui est l’une des oppositions structurant le système
vocalique, et la nasalisation d’ordre phonétique, qui dans de nombreux cas s’étend bien audelà de la durée nécessaire au voile du palais pour reprendre position.
Un modèle d’implémentation phonétique différent de celui choisi par Cohn (1990)
consiste donc à considérer les faits aérodynamiques examinés plus haut comme résultant de
l’action du mécanisme de contrôle phonétique, qui s’exerce à l’intérieur des limites fixées par (i)
le système phonologique du français en général, (ii) les spécifications phonologiques des
59
segments pour le trait de nasalité en particulier, et (iii) l’ensemble des contraintes imposées par
l’utilisation de l’appareil vocal et du système auditif humain12.
Comme le modèle de Cohn (1990), l’hypothèse du contrôle prédit que les consonnes et
les voyelles phonologiquement nasales sont phonétiquement nasalisées pour l’ensemble de
leur durée ou presque. Peut-être laisse-t-elle plus de marge pour rendre compte du fait
qu’avant une consonne nasale, une voyelle nasale n’est nasalisée que relativement
tardivement (Cf. p.51). Encore faudrait-il spécifier quel avantage (en production ou en
perception) un tel retard est susceptible d’apporter à la réalisation phonétique de la nasale (ou
de la consonne voisine), ce dont nous sommes incapable à ce stade de la recherche.
Par ailleurs, on peut considérer que la priorité des segments nasals sur les segments
non nasals dans les transitions (invoquée par Cohn en (2) ci-dessus) est une tendance
phonétique universelle, vu la généralité dans les langues du monde des phénomènes de
coarticulation nasale (Ladefoged et Maddieson, 1996)13. Une grande partie de la variation
observée en français dans l’étendue de la coarticulation nasale peut sans doute s’expliquer par
l’intervention de contraintes concurrentes relatives aux conditions de production des sons
concernés. C’est-à-dire que la tendance est à la coarticulation des sons nasals vers les sons
non nasals [-N] et [2N], sauf si des contraintes liées à leur production (ou à leur perception)
empêchent ces sons d’être (plus) nasalisés. Ainsi, Cohn (1990) rend compte de l’absence de
nasalisation des consonnes occlusives sourdes [-N] en contexte _V par une règle de priorité
inversée de transitions qui s’applique uniquement à ce cas. Puis elle fait appel aux contraintes
phonétiques lorsqu’il s’agit d’expliquer pourquoi les consonnes occlusives sonores [2N] ne sont
pas nasalisées jusqu’à la fin en contexte N_N. Nous pensons qu’un phénomène unique est à
l’oeuvre dans les deux cas : pour les occlusives, tant sourdes que sonores, les contraintes
aérodynamiques imposent que l’occlusion soit totale juste avant la fin de la consonne, afin que
la pression monte suffisamment et qu’un bruit d’explosion soit audible au moment du
relâchement. On peut donc nasaliser le début, mais pas la fin d’une occlusive. Ceci explique
l’assymétrie observée pour les consonnes occlusives vis-à-vis de la nasalisation contextuelle,
selon qu’elles précèdent ou qu’elles suivent une voyelle nasale (Cf. p.54).
Des contraintes spécifiques du même type s’appliquent dans le cas des fricatives et des
liquides. En effet, le modèle proposé par Cohn (1990) prédit erronément que pour toutes ces
consonnes [2N], le DAN entamera sa montée avant une voyelle nasale dès le début de la
12
Voir l’introduction (pages 4 et suivantes) pour un exposé critique de la proposition de Kingston et Diehl (1994).
Le phénomène de diffusion du trait oral (« oral spreading ») attesté dans certaines langues est considéré dans
cette hypothèse comme relevant du domaine de la phonologie, c’est-à-dire qu’il manipule les valeurs prises par les
traits phonologiques.
13
60
consonne. En fait, nos données montrent que ce n’est le cas que pour les liquides. Dans le cas
des fricatives, le DAN monte à la fin de la fricative seulement, dans la transition avec la voyelle
(Cf. pp.38 à 41). En effet, les contraintes aérodynamiques sur la production des fricatives sont
particulièrement sévères, puisque le flux de l’air à travers la cavité pharyngo-buccale doit
devenir turbulent. Si le voile du palais est abaissé tout au long de cette consonne, l’air
s’échappe par les fosses nasales, et la montée de pression en amont de la constriction n’est
pas suffisante pour que se crée la turbulence (Ohala, 1975). En français, le voile entame sa
descente à la fin de la fricative, ce qui précipite la chute de pression et l’extinction de la
turbulence. On peut se demander pourquoi la montée de DAN n’est pas simplement
synchronisée avec la vibration des cordes vocales. Nous tentons une explication dans le cadre
de l’hypothèse du contrôle. La proposition (à vérifier) est que les locuteurs s’assureraient de
cette manière que les voyelles nasales sont, dès le début, fortement nasalisées, et éviteraient
ainsi que les auditeurs n’attribuent les pôles et zéros additionnels présents dans le spectre de
la voyelle aux résonances sous-glottiques induites par la fricative voisine. Ohala et Busa# (1995)
ont proposé en effet que, réinterprétées erronément par les auditeurs, ces résonances sousglottiques sont à l’origine de plusieurs cas de nasalisation « spontanée », qui surviennent
prioritairement lorsque une voyelle avoisine une consonne pour laquelle la glotte est très
ouverte, telle que /K/ ou l’une des fricatives sourdes /I,7,V,6,;,[/. L’hypothèse est donc que les
locuteurs font usage de leur connaissance phonétique dans les limites imposées par les
contraintes aérodynamiques sur la production des fricatives.
Un autre phénomène présent dans nos données ne trouve pas d’explication
satisfaisante dans le cadre du modèle d’interpolation des cibles appliqué au français par Cohn
(1990). Il s’agit du débit d’air nasal particulièrement important mesuré pour les voyelles
/L,\,X,H,R/ par rapport aux voyelles /D,(,o/, alors que toutes ces voyelles sont [-N]. Comme nous
l’avons vu plus haut, l’explication réside en partie dans les différences de configuration orale
qui existe entre ces voyelles. Dans le cas des items NV pourtant, les données indiquent que le
voile du palais ne remonte que très tard dans la voyelle, voire pas du tout s’il s’agit
de
/L,\,X,H,R/, alors que le voile remonte au plus tard dès le milieu de la voyelle pour /D,(,o/ (Cf.
p.44). Par contre, quelle que soit la voyelle concernée, le voile reste abaissé tout au long des
séquences NVN. Ici pourrait intervenir selon nous une contrainte de type systémique, c’est-àdire une contrainte liée à la structuration particulière des oppositions phonologiques au sein du
système vocalique du français. Ce type de contrainte rend compte du fait que la réalisation
phonétique d’un phonème donné (vis-à-vis notamment de la coarticulation) dépend des
contrastes phonologiques qu’il entretient avec les autres phonèmes de la langue (Manuel,
61
1990). Dans le cas qui nous occupe, une contrainte systémique stipule qu’une voyelle
phonologiquement orale sera d’autant moins nasalisée contextuellement qu’elle risque d’être
interprétée par les auditeurs comme une voyelle phonologiquement nasale. Cette contrainte
prédit qu’il y aura toujours plus de coarticulation nasale pour les orales /L,\,X,H,R/, qui n’ont pas
de correspondante phonologique nasale, que pour les voyelles /D,(,o/, qui doivent maintenir un
contraste avec /$,(,o/. On suppose également que /D,(,o/ pourront être fortement nasalisées
dans les syllabes fermées de type NVN car il est impossible qu’une voyelle nasale apparaisse
dans ce contexte en français. Il faut noter cependant que les suites NV.NV sont tout à fait
permises en français, et qu’elles peuvent alors entrer en compétition avec des items NVN
resyllabifiés en NV.NV à la suite de la loi d’enchaînement. Par exemple, [P(P]+[L.VL] devient
dans la chaîne parlée [P(.PL.VL] « même ici » et entre en contraste avec des items du type :
[P(.PL]] « main mise ».
Ce dernier exemple permet de souligner l’une des grandes questions posées par l’étude
aérodynamique de la nasalité en français : vu le fort taux de nasalité phonétique présent en
français, et malgré l’influence apparente de contraintes comme celle que l’on vient de citer, les
différences de taux de nasalité sont-elles suffisantes pour supporter à elles seules un contraste
phonologique aussi fécond que le contraste de nasalité pour les voyelles du français ? Le
contraste de nasalité s’appuie-t-il en français sur d’autres phénomènes que sur l’abaissement
du voile du palais et ses conséquences acoustiques caractéristiques ? Les études articulatoire
et acoustique menées dans le Chapitre 2 (p.64) et le Chapitre 3 (p.92) devront apporter une
réponse à cette question. Dans l’affirmative, il sera possible de proposer que l’étendue de la
nasalité phonétique observée dans certains contextes en français en opposition à d’autres peut
faire l’objet d’une stratégie contrôlée de la part des locuteurs. En effet, nous avons affirmé plus
haut que les variantes contextuelles pour les voyelles orales précédant ou suivant une
consonne nasale relèvent de la connaissance phonétique plutôt que de la phonétique
automatique ou de la phonologie. Dans cette hypothèse, une réorganisation des articulations a
conduit en français à l’existence de deux catégories phonétiques distinctes pour les voyelles
orales du point de vue phonologique : les voyelles fortement nasalisées (après une consonne
nasale, ou entre deux nasales) et les voyelles faiblement nasalisées (avant une consonne
nasale). Quelles pourraient être les motivations d’une telle réorganisation ? Une « condition
négative » pesant sur la nasalisation des voyelles orales précédant une consonne nasale
pourrait être liée au fait qu’historiquement les voyelles nasales se sont développées à la suite
précisément de phénomènes de nasalisation régressive (Straka, 1979). La langue bloquerait
désormais ce type de nasalisation contextuelle en priorité. Une « condition positive » favorisant
62
la nasalisation des orales qui suivent une consonne nasale est moins facile à déterminer14,
même s’il ne faut pas négliger les avantages apportés à la production de séquences de sons
lorsque la langue autorise une grande liberté de coarticulation entre ces sons. Le facteur clé
réside ici dans la possibilité, pour le contraste phonologique de nasalité, d’être porté par
d’autres propriétés phonétiques que celles automatiquement engendrées par l’abaissement du
voile du palais. C’est sur cette possibilité que nous fondons notre étude comparée des
paramètres articulatoires et acoustiques des voyelles orales et nasales du français auxquels
sont consacrés les deux chapitres suivants.
14
Nous développons néanmoins une hypothèse quant à une condition de cette nature dans la discussion du
chapitre suivant (pp.87 et suivantes).
63
Chapitre
2
Etude articulatoire
1.
Matériel et méthode
L’étude articulatoire a été réalisée à l’Unité de Résonance Magnétique de l’hôpital
Erasme, à Bruxelles, au cours de l’hiver 2000.
1.1.
Sujets
Parmi les huit sujets qui ont pris part à l’étude aérodynamique, quatre ont participé à
l’étude articulatoire. Il s’agit des deux locuteurs féminins S1 et S2 et des deux locuteurs
masculins S3 et S4. Ces quatre locuteurs ont également participé à l’étude acoustique
présentée dans le chapitre 3 (pp. 92 et suivantes).
1.2.
Corpus
De même que les participants, le corpus est commun aux études articulatoire et
acoustique, afin de permettre une analyse comparée des résultats. Le corpus diffère par contre
de celui de l’étude aérodynamique, comme le montre la Table 13 :
Table 13. Corpus des études articulatoire et acoustique. Les barres obliques et les crochets sont utilisés pour
distinguer entre les séquences VVV où V est un phonème nasal et celles où V est une voyelle nasalisée (Cf. texte).
NV CV
CV VN
/VVV/
[VVV]
CV VC[occlusive]
CV VC[fricative]
NVN NV
D/ $ PDSD
SDDP
/D$D/
>DDD@
S$$S
V$$V
PDPP$
(/ ( P(S(
S((P
/(((/
>(((@
S((S
V((V
P(PP(
o/ o PoSo
SooP
/ooo/
>ooo@
SooS
VooV
PoPPo
S¡¡
V¡¡V
P¡PP¡
¡/ ¡ P¡S¡ S¡¡P /¡¡¡/ >¡¡¡@
PLSL
SLLP
H PHSH
SHHP
2 P2S2
S22P
X PXSX
SXXP
R PRSR
SRRP
L
Le corpus est constitué de 38 séquences de logatomes contenant les voyelles nasales
/$,(,o,¡/, les orales correspondantes /D,(,o,¡/ et les autres orales /L,H,2,X,R/ placées en
différents contextes phonologiques, oral ou nasal. La différence majeure avec les items de
l’étude aérodynamique réside dans le fait que les séquences orale-nasale sont ici constituées
65
de non mots. Elles ont d’ailleurs été proposées en alphabet phonétique international aux
locuteurs, qui étaient tous les quatre formés à la phonétique. L’utilisation de non mots permet
d’inclure la voyelle nasale /¡/ dans tous les environnements souhaités : même si /¡/ a une
faible distribution lexicale, les séquences phonologiques visées sont tout à fait permises en
français. On résout également les problèmes rencontrés dans l’étude aérodynamique, où
l’utilisation de mots existant en français a parfois mené à des divergences dans le type de
syllabe portant les voyelles étudiées, ou bien dans la position de ces voyelles par rapport à
l’accent et à la frontière de mot.
Par ailleurs, nous avons inclus dans le corpus des séquences contenant des sons qui
ne sont pas des phonèmes du français. C’est le cas des séquences [VVV] (Cf. Table 13, 4e
colonne). L’objectif de ces séquences est d’obtenir des voyelles nasalisées au sens strict du
terme, c’est-à-dire des voyelles qui diffèrent de leur correspondante orale uniquement par la
position du voile (plus abaissée). Pour ce faire, nous avons demandé aux quatre locuteurs de
produire les séquences [VVV] sans effectuer de pause et en maintenant les articulateurs dans la
même position du début à la fin de la séquence, à l’exception du voile du palais. Après
quelques minutes d’entraînement, les locuteurs sont parvenus à accomplir la tâche demandée
avec succès, comme le montrent les images obtenues (Cf. p.104).
1.3.
Matériel et technique
L’Imagerie par Résonance Magnétique (IRM) est une technique d’imagerie fondée sur
les propriétés des atomes d’hydrogène lorsqu’ils sont soumis à un champ magnétique. Elle a
l’avantage d’être non invasive et non ionisante, donc sans danger pour le corps humain. La
machine utilisée pour les expériences articulatoires est un système à 1.5 Tesla équipé de
gradients rapides (CompactPlus, PowerTrack 6000 de Philipps). Les sessions expérimentales
ont été effectuées sous la direction de Thierry Metens, qui supervise l’IRM effectuée à des fins
médicales et scientifiques à l’hôpital Erasme de Bruxelles.
Nous avons utilisé la technique dite « d'
IRM temps réel » mise au point par Thierry
Metens, Alain Soquet et Didier Demolin (Demolin et al. 2002). Comme son nom l’indique, cette
technique permet d’obtenir en temps réel des images du conduit vocal et donc d’étudier ses
mouvements au cours du temps. La résolution spatiale est moindre que dans le cas de l’IRM
dite « statique », mais on peut étudier en IRM dynamique des voyelles placées en contexte, et
non plus uniquement des voyelles isolées, soutenues pendant plusieurs secondes.
Chaque session expérimentale commence par l’acquisition d’images statiques (en
coupe transversale) des structures occipitales du locuteur. Puis on détermine sur ces images
66
anatomiques la position exacte d’une coupe médio-sagittale de 6 mm d'
épaisseur à acquérir en
IRM temps réel. Ensuite, au cours de l’expérience proprement dite, la coupe médio-sagittale
est acquise de façon continue pendant 15 secondes à raison de 5 images par seconde. Pour
chaque acquisition de 15 secondes, le locuteur est amené par stimulation visuelle à répéter
l'
une des séquences de sons du corpus. Le signal de parole est enregistré de façon
synchronisée grâce à un microphone optique placé à quelques centimètres de la bouche du
locuteur (Branderudt, communication personnelle). En raison du bruit émis par la machine, le
signal obtenu n'
est pas exploitable pour une analyse acoustique fine. On peut cependant
associer chaque image avec la portion de signal (200 ms) au cours de laquelle elle a été prise,
et donc associer les articulations observées avec le phonème prononcé.
En effet, les durées vocaliques moyennes obtenues lors de l’étude aérodynamique sont
de 223.6 ms pour les voyelles nasales, 172.9 ms pour les orales correspondantes, et 168.7 ms
pour les autres orales (Table 8, p.28). Malgré le temps pris pour l’acquisition d’une image, à
savoir les 100 premières millisecondes de la période totale de 200ms qui la sépare de
l’acquisition
suivante,
il
est
donc
possible
d’isoler
les
phénomènes
articulatoires
caractéristiques de la production d’une voyelle donnée au sein d’une seule image IRM. Sur les
sept ou huit répétitions effectuées par le sujet lors d’une acquisition de 15 secondes, on en a
donc retenu trois sur la base du signal acoustique, de sorte que l’image acquise coincide dans
chaque cas avec la production de la voyelle, à l’exclusion de la (des) consonne(s)
environnante(s).
67
3
1
2
Figure 15. Interface utilisateur de l’application logicielle destinée à visualiser et à traiter les données IRM.
68
1.4.
Traitement des données
A l’aide du logiciel auteur multi-média iShell (www.tribeworks.com), nous avons
personnellement programmé une application logicielle destinée à répondre aux besoins
spécifiques de l’étude articulatoire. La Figure 15 donne une copie de l’écran proposé à
l’utilisateur du logiciel. D’une part, notre application permet de visualiser les images obtenues
en relation avec le signal acoustique et de naviguer rapidement d’une image à l’autre suivant
les répétitions, les séquences et les locuteurs. D’autre part, l’application a été conçue de façon
à opérer un prétraitement des données IRM en vue de leur analyse. Ainsi, le profil des
différents articulateurs a été redessiné manuellement sur chaque image IRM apparaissant à
l’écran, puis stocké indépendamment de cette image, ce qui permet d’afficher le profil en
superposition avec d’autres profils articulatoires, en l’absence des images elles-mêmes. Deux
questions méthodologiques se posent lorsque l’on utilise une telle méthode : (1) une question
de précision et (2) une question de référence.
(1) La question de la précision. Redessiner le profil des articulateurs à main levée
introduit une certaine marge d’erreur dans les données qui seront finalement
examinées. Néanmoins, cette marge d’erreur doit être évaluée par rapport à la
précision des images elles-même. En effet, les images d’IRM dynamique ont une
résolution spatiale relativement pauvre, quoique satisfaisante dans la mesure où elle
permet de déterminer la limite air-tissus. En ce qui concerne cette limite, la précision
des images est de l’ordre de 1 pixel, soit en l’occurence de 3 mm. En tout état de
cause, l’erreur introduite par un utilisateur entraîné lorsqu’il retrace le profil des
articulateurs ne dépasse pas ce seuil de 1 pixel. L’examen des figures proposées dans
la section 2 (pp.70 et suivantes) permet d’affirmer que la variabilité intra-classes
(éventuellement imputable à l’utilisateur du logiciel) est nettement inférieure à la
variabilité inter-classes.
(2) La question de la référence. Au cours d’une session expérimentale (d’une durée
habituelle de deux heures), il arrive que le locuteur désire changer de position entre
deux acquisitions. Dans ce cas, on procède au repositionnement de la coupe médiosagittale à acquérir en fonction de la nouvelle position du sujet dans l’espace défini par
le champ magnétique. Si l’on veut superposer les profils obtenus pour des images
prises sur un même sujet au cours d’acquisitions différentes, il convient donc de
repositionner ces différents profils les uns par rapport aux autres. Nous avons utilisé à
cette fin un système de trois points de référence, que nous avons placés sur des
structures anatomiques fixes et visibles sur toutes les images IRM relatives à un même
69
sujet. La position spécifique des trois points est illustrée pour S4 dans la Figure 15. Le
point 1 est situé entre l’os sphénoïde et la première vertèbre. Le point 2 est situé sur un
axe parallèle à la paroi pharyngale passant par le point 1, là où il rencontre le disque
placé entre les vertèbres cervicales 3 et 4. Le point 3 est situé à l’intersection de
l’extrémité du cartilage nasal et d’un axe parallèle à l’os du palais dur passant par le
point 1. Une fois la place des trois points arrêtée pour un sujet donné, le système
d’axes de référence propre à ce sujet était définitivement déterminé. Pour les images
suivantes, les trois points restaient fixes les uns par rapport aux autres, et seul le
système d’axes dans son entier était autorisé à bouger si nécessaire (soit par
translation, soit par rotation). Les figures qui illustrent l’étude articulatoire (voir section 2,
pp. 70 et suivantes) consistent donc en diverses superpositions des profils des
articulateurs après réalignement de ces profils (si nécessaire) en fonction du système
d’axes de référence propre au sujet concerné. Les figures proposées concernent
toujours un même sujet, et comparent la production de différentes voyelles : orales vs.
nasales correspondantes, orales en divers contextes, etc. (trois répétitions par voyelle).
2.
Résultats
2.1.
Voyelles nasales vs. voyelles orales correspondantes
Le corpus (Table 13, p.65) a été construit de façon à permettre la comparaison entre les
propriétés articulatoires des voyelles nasales du français et celles des orales correspondantes.
Nous présentons dans cette section un ensemble de comparaisons entre les orales et les
nasales phonologiques, telles qu’elles ont été prononcées dans les séquences /VVV/ d’une part,
et NVN NV d’autre part. Dans les séquences /VVV/, on suppose que la nasalité contextuelle est
minimale pour les orales, parce que chaque orale est soutenue plusieurs secondes avant ou
après la voyelle nasale. Dans les séquences NVN NV, la nasalité contextuelle est supposée
maximale pour la voyelle orale, et la voyelle nasale avec laquelle elle est comparée est
également placée en contexte phonologique nasal.
a.
/D/ vs. /$/
La Figure 16 donne les profils articulatoires comparés pour les voyelles /D/ et /$/,
prononcées dans des séquences /VVV/ et /NVN NV/ par un locuteur féminin (S2) et par un
locuteur masculin (S4). Ces voyelles diffèrent dans la position du voile pendant leur
production : le voile est plus abaissé pour la nasale. Ce n’est pas toujours le cas dans les
70
séquences NVN NV, comme l’illustre la Figure 16 pour S4. De façon générale, le voile a déjà
une position relativement basse pour la voyelle ouverte /D/ en français (Cf. Figure 21 p.79). La
nasale diverge de l’orale antérieure sous bien d’autres aspects : /$/ est une voyelle plus
ouverte, plus postérieure et plus arrondie que /D/. Ces différences articulatoires sont plus
prononcées en contexte N_(N) que lors des voyelles soutenues, en séquence /VVV/. Une
différence majeure entre sujets masculins et féminins réside dans la taille de la constriction
pharyngale, tant pour les orales que pour les nasales : la place laissée au passage de l’air est
nettement plus réduite chez les femmes, si l’on en juge par cette vue médio-sagittale.
b.
/(/ vs. /(/
La Figure 17 permet d’illustrer les profils articulatoires obtenus pour les voyelles /(/
quand on les compare aux voyelles /(/. Les données concernent ici le sujet féminin (S1) et le
sujet masculin (S3). La différence articulatoire est très nette entre ces deux voyelles. De façon
consistante, pour tous les sujets et dans tous les contextes, /(/ est une voyelle plus postérieure
et plus ouverte que /(/. Pour les sujets féminins, la racine de la langue peut être très proche du
pharynx. Enfin, le voile est plus abaissé pour les nasales, mais la différence est souvent réduite
dans les séquences NVN NV, comme par exemple pour S1 dans la Figure 17.
c.
/o/ vs. /o/
On donne dans la Figure 18 les profils articulatoires comparés des voyelles /o/ et /o/,
obtenus pour les sujets S1 et S3. Comme précédemment, la différence de position du voile
entre voyelles orales et voyelles nasales est plus prononcée dans les séquences /VVV/.
L’observation la plus régulière en ce qui concerne les autres paramètres articulatoires est que
la nasale /o/ est plus arrondie que l’orale correspondante /o/. Chez les hommes, la position de
la langue diffère peu entre /o/ et /o/ dans les séquences /VVV/. Dans les autres contextes, et
chez les femmes en général, /o/ est une voyelle plus arrière que /o/, et parfois plus fermée. La
racine de la langue est alors très proche de la paroi pharyngale chez les sujets féminins, si l’on
en juge par nos vues médio-sagittale. Enfin, dans tous les cas, la partie médiane du voile se
dépose sur la langue (dans le creux sagittal lors de la production de /o/.
71
S2
S4
VVV
/D/ /$/
NVN NV
Figure 16. Profils articulatoires comparés pour /D/ (en gris) vs. /$/ (en noir) dans les items VVV (en haut) et NVN NV (en
bas). Trois répétitions par voyelle pour le sujet féminin S2 (à gauche) et pour le sujet masculin S4 (à droite).
72
S1
S3
VVV
/(/ /(/
NVN NV
Figure 17. Profils articulatoires comparés pour /(/ (en gris) vs. /(/ (en noir) dans les items VVV (en haut) et NVN NV (en
bas). Trois répétitions par voyelle pour le sujet féminin S1 (à gauche) et pour le sujet masculin S3 (à droite).
73
S1
S3
VVV
/o/ /o/
NVN NV
Figure 18. Profils articulatoires comparés pour /o/ (en gris) vs. /o/ (en noir) dans les items VVV (en haut) et NVN NV (en
bas). Trois répétitions par voyelle pour le sujet féminin S1 (à gauche) et pour le sujet masculin S3 (à droite).
74
S2
S4
VVV
/¡/ /¡/
NVN NV
Figure 19. Profils articulatoires comparés pour /¡/ (en gris) vs /¡/ (en noir) dans les items VVV (en haut) et NVN NV
(en bas). Trois répétitions par voyelle pour le sujet féminin S2 (à gauche) et pour le sujet masculin S4 (à droite).
75
d.
/¡/ vs. /¡/
La Figure 19 est représentative des données obtenues pour les voyelles /¡/ et /¡/ dans
les séquences /VVV/ et NVN NV. Au delà de la différence éventuelle dans le degré d’abaissement
du voile, qui est parfois inexistante dans les séquences NVN NV, les nasales sont en général
plus ouvertes et/ou plus rétractées que les orales correspondantes, en particulier chez les
sujets féminins. Les tendances sont donc comparables à celles observées pour la paire /(,(/,
mais les différences sont ici moins marquées.
2.2.
Les quatre voyelles nasales du français
La Figure 20 compare les profils articulatoires des voyelles nasales deux à deux, soit
respectivement les antérieures /(,¡/ et les postérieures /$,o/. On donne ici les images obtenues
pour S2 dans les séquences /VVV/.
a.
La position du voile.
La position du voile varie selon la voyelle nasale considérée, mais aussi parfois en
fonction du locuteur et du contexte. Très fréquemment pourtant, on constate qu’il existe une
relation entre la position du voile du palais et celle de la langue dans la région vélaire. Ainsi, le
voile est généralement le plus bas pour /$/, voyelle très ouverte, et le plus haut pour /o/, voyelle
postérieure mi-ouverte, voire mi-fermée. Les images médio-sagittales de la Figure 20
confirment le fait que, dans le cas de /o/, la partie médiane du voile se dépose sur le dos de la
langue : il ne pourrait donc pas descendre plus bas. C’est également ce qu’ont trouvé Demolin
et al. (sous presse) à partir de coupes obliques prises en IRM statique sur des voyelles
soutenues15. Enfin, le voile a une position intermédiaire pour /(/ et /¡/, deux voyelles
antérieures mi-ouvertes, par lesquelles l’uvula n’entre que rarement en contact avec la langue.
Contrairement à ce que laissait supposer l’étude aérodynamique, le voile n’a donc pas une
seule position d’abaissement, commune à toutes les voyelles nasales. Plus la voyelle nasale
est ouverte, plus le voile est abaissé.
b.
Le système des voyelles nasales du français.
On observe peu de différences au niveau de la configuration de la langue entre les deux
nasales antérieures (voir Figure 20). Ces deux voyelles sont relativement centralisées, /¡/
15
Les données obtenues par ces auteurs pour les nasales /(,¡/, et dans une moindre mesure pour /$/ sont par
contre assez variables et relativement proches les unes des autres, ce qui n’est pas exactement le cas ici.
76
étant légèrement plus ouverte et plus postérieure. Même si les locuteurs belges maintiennent
encore en majorité quatre voyelles nasales dans leur système phonologique, /(/ et /¡/ sont de
plus en plus proches au point de vue phonétique. Elles se distinguent essentiellement par la
position des lèvres. La Figure 20 montre les différences bien plus marquées qui existent entre
les nasales postérieures : /o/ est nettement plus fermée, plus postérieure et plus arrondie que
/$/.
S2
VVV
/(/ /¡/
/$/ /o/
Figure 20. Profils articulatoires comparés dans les séquences VVV pour les voyelles nasales antérieures à gauche,
/(/ (en gris) vs. /¡/ (en noir), et pour les postérieures à droite, /$/ (en gris) vs. /o/ (en noir). Trois répétitions par
voyelle pour le sujet féminin S2.
2.3.
Voyelles orales et nasalité
La technique d’IRM « temps réel » (Demolin et al. 2002) doit permettre à terme d’étudier
les mouvements des articulateurs dans la dynamique de la parole. Un taux d’acquisition de 5
images par seconde est cependant trop bas pour capturer les mouvements du voile survenant
au cours d’un même segment16. Par contre, la section précédente a montré que la méthode
utilisée permet de mettre en évidence les différences de position du voile qui existent entre
deux segments. Cette section est donc consacrée aux variations observées dans la position du
16
La même équipe de chercheurs a raffiné la technique, et on atteint aujourd’hui un taux d’acquisition de 10 images
par seconde avec une résolution spatiale satisfaisante (Metens, communication personnelle).
77
voile lorsque les voyelles orales sont placées en divers contextes phonologiques. Nasalité
contextuelle
a.
Nasalité contextuelle
Les Figure 21 et Figure 22 comparent les profils articulatoires obtenus pour les
différentes voyelles orales en fonction du contexte phonologique dans lequel elles sont
placées : C_, _N, N_ et N_N. La Figure 21 donne les voyelles orales qui ont une correspondante
phonologique nasale /(,¡,D,o/, et la Figure 22 concerne les voyelles orales qui n’en ont pas :
/L,H,2,X,R/. Les profils proviennent tous d’un même locuteur (S4). Pour une meilleure visibilité
dans la région du voile, le tracé correspondant à la paroi pharyngale n’est pas affiché.
Outre la configuration de la langue, qui connaît parfois des variations dans certains
contextes (par exemple, Figure 21 : /o,¡/ et Figure 22 : /2,R/), on observe que la position du
voile du palais varie systématiquement selon l’environnement phonologique dans lequel la
voyelle est placée. La Figure 21 montre que dans le cas des orales /(,¡,D,o/, le voile a la
position la plus haute dans les items CV (en gris), la position la plus basse pour les items NVN
(en vert), et une position intermédiaire pour les items VN (en orange) et NV (en noir), ce qui
confirme les résultats de l’étude aérodynamique relatifs à la nasalité contextuelle des voyelles
orales (Cf. Chapitre 1, p.30). Pour ces quatre voyelles, la différence n’est pas toujours nette
entre les items VN et NV, sans doute en raison de la faible résolution temporelle de l’IRM temps
réel (5 images par seconde). En ce qui concerne /L,H,2,X,R/, en revanche, nos images montrent
que la position du voile est plus basse en contexte NV que dans les items VN ou CV. Cette
nasalisation plus importante, par rapport à /D,(,o/, des voyelles sans correspondante nasale en
contexte NV pouvait être prédite à partir des résultats de l’étude aérodynamique (Cf. Chapitre 1,
3.2, p.44).
78
S4
/(/
/D/
CV
VN
NV
NVN
/¡/
/o/
Figure 21. Profils articulatoires comparés selon le contexte pour les voyelles orales ayant une nasale
correspondante /D,(,¡,o/ : items CV (en gris), VN (en orange), NV (en noir) et NVN (en vert). Trois répétitions par
contexte pour le sujet masculin S4.
79
S4
CV
/L/
VN
/X/
NV
/H/
/2/
/R/
Figure 22. Profils articulatoires comparés selon le contexte pour les voyelles orales sans correspondante phonologique nasale /L,H,2,X,R/ : items cv (en gris), vn (en
orange), nv (en noir) et nvn (en vert). Trois répétitions par contexte pour le sujet masculin S4.
80
b.
Position intrinsèque du voile pour les voyelles orales
La section précédente a montré que l’abaissement du voile du palais dépendait du
contexte phonologique, quelle que soit la voyelle orale concernée. Nous comparons ici la
position occupée par le voile du palais pour les diverses voyelles orales, lorsqu’elles sont
prononcées dans un contexte donné. Ainsi, la Figure 23 donne les profils articulatoires
comparés selon l’aperture de la voyelle orale pour les antérieures /L,H,(,D/ d’une part, et pour
les postérieures /X,R,o/, ainsi que /D/, d’autre part. Les profils présentés concernent les images
IRM obtenues dans trois contextes différents : CV et VN (sujet S2) et NV (sujet S4). Pour une
meilleure visibilité dans la région du voile, le tracé correspondant à la paroi pharyngale n’est
pas affiché.
81
CV
VN
NV
L
H
(
D
X
R
o
D
Figure 23. Profils articulatoires comparés selon l’aperture de la voyelle orale : voyelles antérieures /L,H,(,D/ (en haut) et postérieures /X,R,o,(D)/ (en bas). Les données
concernent S2 (items CV, à gauche, et VN, au milieu) ainsi que S4 (items NV, à droite).
82
Dans les items de type CV, la position du voile varie légèrement mais de façon régulière
selon la voyelle orale concernée. On remarque en effet que le voile occupe sa position la plus
haute lors de la prononciation des voyelles fermées (/L/ et /X/, toutes deux en noir dans la
Figure 23). L’abaissement le plus prononcé concerne la voyelle ouverte /D/, alors que pour les
voyelles d’aperture moyenne le voile occupe une position intermédiaire. La tendance générale
est donc que la position du voile varie en fonction du degré d’aperture de la voyelle orale dans
les items CV, le français suivant en ceci un schéma très souvent observé dans les langues du
monde (Cf. discussion, p.89).
Dans les items VN, les différences entre voyelles orales sont resserrées parce que le
voile est relativement abaissé pour les voyelles fermées dans ce contexte. Mais c’est en
contexte NV que le voile est véritablement bas pour les voyelles /L,X/17. Comme le montrent les
profils obtenus pour S4 (à droite de la Figure 23), ce sont les voyelles /L,X,D/ qui sont les plus
nasalisées dans les items NV. Ici, la position du voile est visiblement fonction d’autres facteurs
que l’aperture des voyelles. Suite aux résultats obtenus lors de l’étude aérodynamique, nous
proposons dans la discussion que l’un de ces facteurs est l’existence (ou non) d’un
correspondant phonologique nasal à la voyelle (Cf. p.90).
3.
Discussion
En résumé, les trois principaux résultats de l’étude articulatoire sont les suivants:
Résultat 1 : Les voyelles nasales diffèrent des orales correspondantes par
l’abaissement du voile du palais, ainsi que par un ensemble d’articulations
complémentaires qui modifient en profondeur la configuration orale de ces voyelles, en
particulier en contexte phonologique nasal.
Résultat 2 : L’abaissement du voile du palais n’est pas le même pour les quatre voyelles
nasales du français.
Résultat 3 : La position du voile du palais pour une voyelle orale varie également, et ce
en fonction de différents facteurs, parmi lesquels le contexte phonologique et la position
intrinsèque du voile au degré d’aperture concerné. Nous allons également examiner
l’influence éventuelle de l’existence d’un correspondant phonologique nasal à la
voyelle.
17
Ceci correspond à une partie de l’information capturée dans les Figure 21 et Figure 22, ainsi qu’aux données
aérodynamiques (voir Chapitre 1, p.29 et p.47).
83
3.1.
Résultat 1 : voyelles nasales vs. voyelles orales correspondantes
Plusieurs travaux ont été consacrés aux propriétés articulatoires des voyelles orales et
nasales du français dans la dynamique de la parole, en particulier les études
cinéradiographiques effectuées par Brichler-Labaeye (1970), Zerling (1984), et Bothorel et al.
(1986). De même que ces travaux antérieurs, nos images montrent que les voyelles nasales du
français se distinguent des orales par d’autres caractéristiques articulatoires que le seul
abaissement du voile du palais. D’après nos données, /(/ est une voyelle plus ouverte et plus
centralisée que /(/, soit [4]. C’est aussi ce que montre l’étude de Brichler-Labaeye (1970), mais
pas celle de Zerling (1984), où l’on trouve que /(/ est une voyelle plus postérieure mais de
même aperture que /(/. D’après nos images, /$/ est plus arrondie et plus arrière que /D/, soit [$],
et même [c], ce qui confirme les observations faites par Brichler-Labaeye et Zerling dans les
études précitées18. Par contre, de même que Bothorel et al. (1986), ces auteurs ne décrivent
pas /$/ comme une voyelle plus ouverte que son homologue orale, mais comme une voyelle
éventuellement plus fermée, plus proche de l’aperture de [o], ce qui n’est pas le cas pour nos
quatre sujets. Quoi qu’il en soit, /$/ reste une voyelle nettement distincte de /o/ du point de vue
articulatoire, puisque toutes les études (y compris la nôtre) s’accordent à décrire /o/ comme une
voyelle plus arrondie et plus postérieure que /o/, et parfois plus fermée, soit [R]. Enfin, /¡/ est
de l’avis général une voyelle un peu plus ouverte et plus arrière que /¡/, soit [¡], voire [].
Ainsi, les voyelles nasales diffèrent des orales correspondantes le long des trois autres
dimensions articulatoires qui supportent le contraste phonologique dans le système vocalique
du français, à savoir le degré d’aperture, la position de la langue dans la dimension antérieurepostérieure, et l’arrondissement des lèvres. Dans la Figure 24, nous envisageons ces
modifications dans leur ensemble, afin de voir si elles répondent à un schéma commun. Dans
cette figure, on représente par des flèches (en pointillé) les modifications articulatoires des
nasales (en rouge) par rapport aux orales correspondantes (en noir) dans l’espace vocalique
du français. On voit que l’ensemble des ajustements articulatoires peut se laisser décrire
comme un mouvement général vers l’arrière du triangle vocalique, ce que schématise la flèche
pleine. En plus de la postériorisation commune à toutes les voyelles nasales, d’autres
18
Le fait qu’il ne subsiste plus aujourd’hui en Belgique francophone qu’une seule voyelle ouverte /D/ (antérieure),
alors que la nasale /$/ a longtemps correspondu avec /$/ biaise en l’accentuant la distance entre la nasale et l’orale
dite correspondante (mais l’alternance morphologique entre /$/ et /DQ/ reste un fait établi). En fait, d’après nos
données /$/ est plutôt réalisée comme [c], c’est-à-dire qu’elle est également plus postérieure que [$]. C’est aussi ce
qu’a trouvé Zerling (1984).
84
modifications articulatoires (d’aperture, de labialisation) sont propres à chaque voyelle. Le recul
de la langue dans la cavité pharyngale, est un phénomène qui a été précédemment relevé pour
le français, même si son ampleur était moindre (Cf. Zerling, 1984). Ainsi réduite, la cavité
pharyngale serait de dimension comparable pour les quatre nasales selon Delattre (1968a). Ce
n’est pas le cas sur nos images, pour lesquelles une grande différence subsiste entre nasales
antérieures et postérieures de ce point de vue (Cf. p.76). Par ailleurs, si nos données indiquent
que les nasales antérieures /(,¡/ se distinguent essentiellement entre elles par la position des
lèvres, ce n’est pas le cas des nasales postérieures /$,o/ qui conservent une configuration orale
très différente pour nos locuteurs, au contraire des voyelles étudiées par Zerling (1984).
i
y
H
X
RR
2
(
o
¡
4
¡
D
($) c
Figure 24. Schématisation des déplacements articulatoires dans l’espace vocalique des voyelles nasales de nos
quatre locuteurs (en rouge) par rapport aux orales correspondantes (en noir). Les déplacements locaux sont
indiqués par des flèches en pointillé, le mouvement général par une flèche pleine.
Une fois ces phénomènes établis du point de vue articulatoire, il convient d’en évaluer
les conséquences au point de vue acoustique. Le chapitre 3 aura notamment pour objectif de
décrire les propriétés acoustiques des voyelles nasales du français en relation avec les
propriétés articulatoires décrites ci-dessus. A la suite des ajustements articulatoires observés,
on prédit en effet un ensemble de modifications dans le spectre acoustique des voyelles
nasales par rapport à celui des orales, tant au niveau de F1 que de F2 et F3. On cherchera en
particulier à déterminer dans quelle mesure les effets acoustiques des articulations
additionnelles interagissent avec les propriétés acoustiques liées à la nasalité proprement dite,
85
c’est-à-dire au couplage avec les cavités nasales uniquement. La complexité observée du point
de vue articulatoire (chaque nasale divergeant de l’orale correspondante d’une façon qui lui est
propre) se traduit-elle par une plus grande complexité encore au point de vue acoustique ? Ou
bien y a-t-il un dénominateur acoustique commun à toutes ces modifications articulatoires ? La
réponse donnée à cette question est essentielle lorsque l’on étudie les voyelles nasales du
français d’un point de vue perceptuel. Puisque les voyelles orales peuvent être fortement
nasalisées en contexte nasal (y compris les orales qui contrastent phonologiquement avec une
nasale), on peut émettre l’hypothèse que ce sont les articulations additionnelles qui assurent
jusqu’à un certain point que la distinction est maintenue entre orales et nasales
correspondantes. Dans le chapitre 3, nous utilisons l’analyse discriminante afin d’évaluer dans
quelle mesure les modifications articulatoires envisagées du point de vue de leurs effets
acoustiques augmentent la distance entre voyelles nasales et voyelles orales en français.
3.2.
Résultat 2 : position du voile pour les voyelles nasales
Contrairement à ce que nous avions proposé à la lumière des moyennes obtenues pour
les paramètres aérodynamiques (Cf. Chapitre 2, p.34), le voile du palais n’occupe pas la même
position pour les quatre voyelles nasales du français (Cf. ci-dessus, p.76). Il y a moins de DAN
en moyenne au cours de la voyelle /$/, qui est pourtant la nasale pour laquelle le voile atteint sa
position la plus basse. A l’inverse, la nasale /o/ est celle qui est prononcée avec le voile le
moins abaissé, mais qui atteint le niveau de DAN moyen le plus élevé. Les nasales /(,¡/
occupent une position intermédiaire sur ces deux échelles. Ainsi, plus la nasale est ouverte,
plus le voile est abaissé, mais cet abaissement plus important ne contrebalance qu’en partie
l’effet de l’aperture orale, et il y a proportionnellement moins d’air qui sort par le nez que par la
bouche pour une voyelle nasale ouverte ou semi-ouverte par rapport à une postérieure semifermée. Dans le cas de /o/, en effet, la partie médiane du voile se dépose sur le dos de la
langue, offrant ainsi une résistance plus forte au passage de l’air par la cavité orale, au profit du
passage par les fosses nasales à travers le port vélo-pharyngien ouvert. Le DAN est donc plus
élevé en moyenne pour /o/ que pour les autres nasales du français, même si la position
absolue du voile est plus haute pour cette voyelle. Puisque la contribution relative des fosses
nasales au spectre d’une voyelle nasale dépend non seulement de la taille du couplage, mais
également de la masse acoustique totale des deux résonateurs couplés (Fant, 1960, Stevens,
1998), nous prédisons à partir des données articulatoires et aérodynamiques que l’influence
des anti-résonances nasales sera plus importante pour la voyelle /o/ que pour les voyelles
/(,¡,$/ en français. Cette prédiction sera confirmée par les données acoustiques (Cf. p.110).
86
3.3.
Résultat 3 : position du voile pour les voyelles orales
La position du voile lors de la production d’une voyelle orale n’est ni unique pour toutes
les voyelles, ni fixée pour une voyelle donnée. Elle varie en fonction de plusieurs facteurs qui
interagissent de façon complexe.
a.
Nasalité contextuelle
Malgré la résolution temporelle relativement faible de la technique d’imagerie utilisée (1
image pour 200 ms), les données confirment les résultats obtenus au cours de l’étude
aérodynamique en ce qui concerne la nasalité contextuelle des voyelles orales du français. En
résumé, les voyelles orales sont légèrement nasalisées en contexte _N, plus fortement
nasalisées en contexte N_, en particulier s’il s’agit d’une voyelle fermée /L,X/, et toutes sont
complètement nasalisées en contexte N_N. Ces observations sont en contradiction avec la
tendance à une importante nasalisation anticipative observée pour certaines langues autres
que le français, telles que le portugais brésilien (Clumeck, 1976) et l’anglais américain (Ohala,
1971, Solé, 1992). Par contre, nos observations confirment ce que plusieurs auteurs ont
rapporté dans la littérature en ce qui concerne le français. Que ce soit l’étude fibroscopique du
voile du palais effectuée par Benguerel et ses collègues (1977), ou bien les études
cinéradiographiques de Brichler-Labaeye (1970) et de Botherel et al. (1986), ou encore l’étude
nasométrique effectuée par Rochet et Rochet (1991), toutes montrent qu’en français une
voyelle orale qui suit une consonne nasale est plus fortement nasalisée qu’une voyelle orale
qui précède une consonne nasale. C’est également l’un des résultats principaux de l’étude
aérodynamique du français effectuée par Abigail Cohn (1990, Cf. p.54), qui note qu’aucun de
ces chercheurs ne propose de véritable explication à cette asymmétrie entre nasalisation
progressive et régressive en français.
Dans le cadre de l’hypothèse de la connaissance phonétique présentée dans
l’Introduction (pp.5 et suivantes), nous envisageons la possibilité selon laquelle la nasalisation
contextuelle progressive fait partie d’une stratégie articulatoire délibérée qui vise à assurer une
meilleure perception de la consonne nasale dans les items de type NV :
Tout d’abord, il est loin d’être prouvé que la tendance à une plus forte nasalisation
régressive soit la tendance majoritaire dans les langues du monde. Le grand nombre
d’études consacrées à l’anglais américain ne doit pas masquer le fait que de
nombreuses autres langues se comportent différemment par rapport à la nasalisation
contextuelle. Ainsi, Clumeck (1976) a comparé à l’aide du nasographe la nasalisation
intrinsèque et contextuelle des voyelles orales dans six langues : l’anglais américain, le
87
suédois, le chinois Amoy, l’Hindi, le portugais brésilien et le français. A part l’anglais et
le portugais parlés sur le continent américain, les quatre autres langues (dont le
français) présentent un faible taux de nasalisation anticipative. En ce qui concerne les
études qui ont spécifiquement comparé les taux de nasalisation progressive et
régressive dans une langue donnée, on peut citer celle de Farnetani (1986) pour
l’italien, celle de Ushijima et Hirose (1974) pour le japonais, et celle de Schouten et Pols
(1979) pour le néerlandais, qui toutes concluent qu’une voyelle est plus nasalisée après
une consonne nasale qu’avant celle-ci.
Ensuite, plusieurs travaux ont montré que la partie du signal qui est la plus porteuse
d’informations pour la perception des consonnes nasales se situe autour du
relâchement de ces consonnes, en incluant la fin du murmure ainsi que le début des
transitions formantiques avec la voyelle suivante. D’après Kurowski et Blumstein
(1984), l’information acoustique en provenance de ces deux sources fait l’objet d’une
intégration perceptuelle chez les auditeurs. Au moment du relâchement, les indices
acoustiques concernant les traits de lieu et de manière d’articulation interagissent de
façon complexe en ce qui concerne la perception des consonnes nasales, et l’on peut
également observer un effet de contexte lié à l’aperture de la voyelle suivante
(Kurowski et Blumstein, 1987, 1993).
A propos de la voyelle précisément, Maturi (1991) a montré que dans le cas de l’italien,
la nasalisation de la voyelle qui suit une consonne nasale aide à la perception de cette
nasale. Or, en français comme en italien, les études effectuées en production de la
parole montrent que la nasalisation progressive est plus étendue que la nasalisation
régressive.
Notre proposition est donc qu’en français une voyelle phonologiquement orale est
particulièrement nasalisée après une consonne nasale afin de faciliter la perception de cette
nasale. Nasaliser la transition entre la consonne et la voyelle pourrait assurer une bonne
intégration perceptuelle des indices acoustiques qui entrent en jeu dans la perception du lieu et
de la manière d’articulation de la consonne nasale. Ce type d’explication a pour mérite
d’inscrire plus largement le phénomène dans l’ensemble des tendances observées en ce qui
concerne la dynamique du voile en français. En effet, nous avons régulièrement observé dans
le chapitre précédent que le voile s’abaissait à divers moments pour une voyelle nasale, et ce
en fonction de la consonne qui la précédait. Nous verrons dans le prochain chapitre (Cf. pp.117
et suivantes) que les autres indices acoustiques signalant le trait phonologique de nasalité, à
88
savoir ceux liés aux articulations additionnelles, évoluent dans le temps en référence à la mise
en vibration des cordes vocales pour la voyelle elle-même.
b.
Position intrinsèque du voile du palais
A la différence des données aérodynamiques, l’imagerie permet d’étudier d’éventuelles
différences dans la position du voile du palais entre voyelles orales, même lorsque le port vélopharyngal n’est pas ouvert. Ainsi, les images IRM montrent qu’en contexte C_, la position du
voile du palais varie selon le degré d’aperture de la voyelle orale, du plus haut pour les voyelles
fermées /L,X/, au plus bas pour la voyelle ouverte /D/, de sorte que le port vélo-pharyngal est
légèrement ouvert pour cette voyelle (Cf. Figure 23, p.82). Cette covariation entre la position du
voile du palais et celle de la langue a été très largement observée dans les langues du monde
(Moll, 1962, Fritzell, 1969, Ohala, 1971, Clumeck, 1976). C’est également ce que nous avons
observé pour nos voyelles nasales (voir Résultat 2 ci-dessus). Les explications données à cette
covariation ont d’abord été d’ordre mécanique. Ainsi, selon Moll (1962), et Moll et Shriner
(1967), la position du voile pour les voyelles ouvertes serait due à la relaxation du
palatoglossus, qui entraînerait passivement le voile vers le bas lors de l’abaissement de la
langue. On a montré depuis (Lubker, 1968, Bell-Berti 1973, 1980) que les variations dans la
position du voile du palais pour les voyelles orales résultent de variations dans l’activité des
muscles responsables de l’élévation du voile, soit, au premier chef, le levator palatini. La
covariation entre hauteur du voile et hauteur de la langue est généralement mise aujourd’hui en
relation avec des phénomènes d’ordre acoustique et perceptuel. House et Stevens (1956) ont
montré qu’un même degré de couplage produit des effets acoustiques plus importants sur une
voyelle fermée que sur une voyelle ouverte, ce que prédit la théorie acoustique lors du
couplage entre deux résonateurs (Fant, 1960, Stevens, 1998). Par conséquent, un plus grand
degré de « nasalisation passive » est toléré pour les voyelles ouvertes dans les langues du
monde (Lubker 1968, Ohala, 1975). D’après Ohala (1975), ceci amène le voile à une grande
variabilité de position pour les voyelles ouvertes, qui à terme peut déboucher sur une véritable
phonologisation. Un certain degré de nasalisation est alors requis pour ces voyelles, et fait
partie intégrante du contraste d’aperture.
Nos données permettent en effet de s’interroger sur le taux nécessaire de nasalité pour
la voyelle orale /D/ en français, puisque le voile semble (au moins légèrement) abaissé dans
tous les contextes (voir Figure 21). Diehl, Kluender et Walsh (1990) ont proposé qu’une
nasalisation modérée fait percevoir une voyelle ouverte en contexte phonologique oral comme
plus ouverte encore. Dans le cas d’une nasalisation modérée, en effet, l’effet acoustique
principal serait celui d’une augmentation de la bande passante en F1, propriété acoustique
89
caractéristique des voyelles ouvertes. Par contre, pour une nasalité plus importante, le premier
pôle nasal, qui apparait à une fréquence inférieure à F1, est à la fois plus proéminent et plus
séparé du zéro correspondant19, ce qui abaisse le centre de gravité de la voyelle en basse
fréquence (sous 1000 Hz), et aboutit à une voyelle perçue comme moins ouverte, même si la
langue n’a pas changé de position dans la cavité buccale. L’hypothèse de Diehl et ses
collègues s’inscrit dans la perspective de la connaissance et du contrôle phonétique. Lorsqu’il
s’agit d’implémenter phonétiquement le contraste d’aperture, certaines langues du monde
utiliseraient, plus que d’autres, l’intégration auditive des effets acoustiques liés à la nasalité
modérée d’une part, et à la hauteur de la langue d’autre part. A la lumière des données
obtenues en production de la parole, le français pourrait être l’une de ces langues. Les
expériences perceptuelles menées dans la deuxième partie de la thèse (Cf. p.206) permettent
notamment d’investiguer cette question.
c.
Le cas des voyelles fermées
Les deux facteurs considérés précédemment ne permettent pas à eux seuls de rendre
compte de la position du voile du palais pour les voyelles orales du français. En effet, si les
voyelles fermées sont prononcées avec un voile très relevé en contexte phonologique oral,
elles sont par ailleurs (avec /D/) les plus nasalisées sous l’effet de la coarticulation (progressive)
en contexte nasal. Le même type de résultat a été obtenu pour le français à partir de données
nasométriques par Rochet et Rochet (1991). Ici, le français diffère de nombreuses autres
langues, où la covariation entre hauteur du voile et hauteur de la langue s’étend à tous les
contextes, y compris les contextes nasals (Clumeck, 197620).
De même que précédemment (p.61), on pourrait proposer qu’intervienne ici une
contrainte de type systémique, soit en l’occurrence l’existence ou non d’un correspondant
phonologique nasal à la voyelle orale susceptible d’être contextuellement nasalisée. Les
voyelles fermées seraient donc les plus nasalisées par coarticulation nasale parce qu’en aucun
cas l’auditeur ne pourrait être amené à interpréter les voyelles ainsi nasalisées comme des
voyelles phonologiques nasales. Enoncés de cette façon, les phénomènes dont rend compte la
contrainte systémique pourraient aussi bien se placer au sein de la connaissance phonétique
telle que proposée par Kingston et Diehl (1994). La différence est que, dans ce dernier cas, ce
ne sont pas les correspondantes phonologiques mais les correspondantes phonétiques orales
des voyelles nasales que le locuteur nasalise moins en contexte nasal. Etant donné nos
observations concernant la configuration orale effective des voyelles nasales en français, nous
19
20
Pour plus de détails sur les caractéristiques acoustiques de la nasalité, voir Chapitre 3.
La covariation a lieu dans les tous contextes dans les six langues envisagées par Clumeck, y compris le français.
90
prédisons alors que le voile sera moins abaissé pour /R/ que pour /H/, toutes choses étant
égales par ailleurs. En effet, même si aucune de ces voyelles n’est la correspondante
phonologique orale d’une voyelle nasale du français, /R/ est phonétiquement la correspondante
orale de /o/ (dont la réalisation est [R]), alors que /H/ nasalisé ne correspond pas à /(/ (dont la
réalisation est [4]). La nasalisation contextuelle de /R/ devrait donc être défavorisée par rapport
à celle de /H/. C’est précisément le cas dans nos données, comme le montre la Figure 23. Sur
cette figure, les profils proposés pour S4 illustrent le fait qu’en contexte N_ le voile est plus
abaissé pour /H/ que pour /(/, alors que l’inverse se produit pour les voyelles postérieures, à
savoir que le voile est plus abaissé pour /o/ que pour /R/. Dans les deux cas, la voyelle
d’aperture moyenne la plus proche phonétiquement de la voyelle nasale (/(,R/) est la moins
nasalisée en contexte N_.
En conclusion, la réalisation phonétique des voyelles orales en ce qui concerne la
position du voile du palais dépend de facteurs liés à la production de la parole (notamment la
coarticulation nasale), ainsi que de facteurs liés à la perception (du degré d’aperture comme de
la nasalité de la voyelle). A ce stade du travail, nous pouvons uniquement émettre des
hypothèses quant au modèle d’implémentation phonétique (automatique ou contrôlée) qui rend
le mieux compte de l’ensemble de ces phénomènes.
91
Chapitre
3
Etude acoustique
1.
Introduction
L’acoustique de la nasalité en général, et l’acoustique des voyelles nasales en
particulier est un phénomène très complexe, qui a fait l’objet de nombreux travaux dans la
littérature (Fant, 1960, Fujimura et Lindquist, 1971, Lindquist et Sundberg, 1976, Maeda, 1993,
Chen, 1997, Stevens, 1998, entre autres). Lorsque le port vélo-pharyngal s’ouvre au cours de
la parole, un couplage acoustique s’établit entre les cavités nasales et le conduit pharyngobuccal, et les sons ainsi produits sont dits « nasalisés ». La théorie acoustique de la nasalité
pose que la fonction de transfert du système couplé T(s) est la somme des fonctions de
transfert aux deux extrémités du système, à la bouche U(m)/U(s), et aux narines U(n)/U(s). Ces
deux fonctions de transfert ont les mêmes pôles mais des zéros différents, qui tous varient en
fréquence en fonction de la taille du couplage. Les pôles du système complexe sont les pôles
communs à U(m)/U(s) et U(n)/U(s). Les zéros de la fonction de transfert du système complexe
ont une fréquence qui varie entre celle des zéros de U(m)/U(s) et celle des zéros de U(n)/U(s)
en fonction du rapport des masses acoustiques des deux passages empruntés par l’onde
acoustique : par la cavité buccale ou par les fosses nasales (Stevens, 1998).
D’un point de vue pratique, on compare souvent le spectre acoustique d’une voyelle
nasalisée avec celui de l’orale correspondante. Le spectre de la voyelle nasalisée est plus
complexe parce qu’il contient un plus grand nombre d’éléments dans une plage de fréquences
donnée : en plus des formants « oraux », qui sont déplacés dans le domaine fréquentiel par
rapport à la voyelle orale, un certain nombre de paires pôle-zéro sont introduites à certaines
fréquences, en particulier dans la région de F1. Plus le degré de couplage est important pour
une voyelle donnée, plus les zéros divergent des pôles au sein de chaque paire et affectent les
caractéristiques spectrales de la voyelle (Maeda, 1993).
La détection spectrale des pôles et des zéros est donc rendue difficile par le fait que,
pour une voyelle et un individu donnés, leur fréquence particulière varie en fonction du degré
de couplage, donc de l’abaisssement du voile du palais, qui lui-même n’est pas constant tout
au long de la voyelle. De plus, l’influence effective des résonances et anti-résonances
« nasales », qui sont souvent considérées en première analyse comme superposées aux
formants « oraux », dépend de la fréquence spécifique de ces formants « oraux » dans chaque
cas. En effet, une paire pôle-zéro qui survient dans le voisinage du formant correspondant au
F1 de la voyelle orale peut selon les cas simplement élargir la bande passante de ce formant,
ou bien l’affaiblir beaucoup plus, selon qu’elle survient à la même fréquence, ou à une
fréquence légèrement inférieure à la sienne.
93
Par ailleurs, les caractéristiques spectrales liées au conduit nasal sont loin d’être
constantes d’un individu à l’autre, parce que l’anatomie des fosses nasales varie largement
selon les sujets (Dang, Honda et Suzuki, 1994). L’asymmétrie observée pour certains individus
entre la partie gauche et la partie droite des cavités nasales (de part et d’autre du septum) est
susceptible d’introduire des paires pôle-zéro supplémentaires dans le spectre des voyelles
nasalisées. Enfin, l’effet des sinus en tant que cavités additionnelles est difficile à déterminer.
Ils varient également dans leur forme et leur volume pour chaque locuteur, et leur influence
effective dépend du poids des résonances nasales dans la sortie acoustique finale, donc du
rapport des masses acoustiques des résonateurs nasal et buccal (Lindquist et Sundberg, 1976,
Stevens 1998).
Etant donné cette complexité, et malgré le grand nombre d’études acoustiques
concernant la nasalité, peu ont donné la priorité à l’analyse de sons nasals prononcés en
parole naturelle. Ainsi, de nombreux chercheurs se sont plutôt intéressés à la modélisation
acoustique de la nasalité. House et Stevens (1956) ont utilisé un équivalent électrique des
conduits oral et nasal afin d’investiguer les effets du couplage nasal sur différentes
configurations orales. Fujimura et Lindqvist (1971) ont confirmé en grande partie ces premiers
résultats en mesurant les caractéristiques de transmission acoustique d’un conduit vocal
lorsqu’il était excité par un éventail de sons purs. Plus récemment, des expériences de
simulation basées sur des modèles articulatoires ont permis d’étudier la nasalité vocalique
(Maeda, 1982, 1993). En ce qui concerne la détermination des propriétés acoustiques de la
nasalité, ces études aboutissent à des caractéristiques qui sont difficilement exploitables
lorsque l’on étudie des voyelles nasalisées naturelles : soit les caractéristiques proposées sont
extrêmement fines, localisées, et dépendantes des paramètres du modèle choisi, soit elles sont
extrêmement générales lorsqu’il faut rendre compte des phénomènes relatifs à plusieurs
degrés de couplage, plusieurs voyelles et plusieurs locuteurs.
En fait, il est communément admis que l’effet acoustique le plus régulier du couplage
nasal survient dans la région de F1. Lorsque l’on modifie le spectre d’une voyelle orale dans la
région de F1, soit en y introduisant une paire pôle-zéro, soit en augmentant directement la
bande passante de F1, la voyelle est généralement perçue comme nasalisée (Delattre, 1954,
1968, Hawkins et Stevens, 1985, Kingston et Macmillan, 1995). Néanmoins, ces modifications
ne suffisent pas pour nasaliser les voyelles fermées (Takeuchi et al., 1975, Maeda, 1993).
Ainsi, une question demeure : cette différence dans la région du premier formant est-elle le seul
indice utilisé par l’auditeur pour détecter une voyelle nasalisée, ou bien y a-t-il des indices
secondaires, en particulier pour les voyelles fermées ? La théorie acoustique prédit en effet que
les différences entre voyelles orales et voyelles nasalisées s’étendent sur l’ensemble du
94
domaine fréquentiel. Outre le succès obtenu en synthèse de la parole, c’est la nécessité de
restreindre le champ d’investigation qui a mené beaucoup de chercheurs à se concentrer
uniquement sur la région de F1 lorsqu’ils étudiaient les voyelles nasalisées.
Relié à cette question des indices acoustiques de la nasalité, on trouve le problème de
la réalisation phonétique effective du contraste phonologique de nasalité. Nous avons établi
dans le chapitre précédent que les voyelles nasales, en plus d’être prononcées avec le voile du
palais abaissé, sont articulées avec une configuration orale nettement différente de leur
correspondante phonologique nasale. On peut dès lors s’interroger sur ce qui signale en
priorité la nasalisation phonologique en français : est-ce la nasalité proprement dite ou bien les
effets acoustiques des articulations complémentaires, telles que la labialisation ou la
postériorisation de la voyelle ? En ce qui concerne la catégorisation, les quatre voyelles
nasales appartiennent-elles à une classe spécifique ou sont-elles considérées par les auditeurs
comme des unités particulières du groupe principal (des orales) ?
Les objectifs poursuivis dans ce chapitre sont les suivants :
Déterminer les caractéristiques acoustiques de la nasalité sans préjuger a priori de la
zone fréquentielle où elles peuvent se manifester. Idéalement, la caractérisation
acoustique doit être suffisamment générale pour être applicable à un grand nombre de
voyelles, de degrés de couplage et de locuteurs, mais elle doit également être
suffisamment concrète pour permettre de déterminer si une voyelle donnée est
nasalisée ou non. Cette partie de l’analyse s’appuie essentiellement sur l’examen des
« voyelles nasalisées » (vs. voyelles nasales phonologiques en français) incluses dans
le corpus (Cf. Chapitre 2, p.65)
En relation avec les propriétés articulatoires énoncées dans le Chapitre 2, déterminer
les propriétés acoustiques des voyelles nasales du français par rapport aux orales
correspondantes, tant d’un point de vue général qu’au sein de chaque paire oralenasale.
Etudier les interactions entre les effets acoustiques de la nasalité proprement dite et
ceux liés aux ajustements articulatoires complémentaires. Déterminer leur contribution
respective dans la distance acoustique entre les nasales et les orales du français.
Etudier l’évolution temporelle de ces diverses propriétés acoustiques en relation avec
les tendances observées dans les chapitres précédents en ce qui concerne la
dynamique de la nasalité en français.
95
2.
Matériel et méthode
L’expérience acoustique s’est déroulée au printemps 2001, au Laboratoire de
Phonologie de l’Université Libre de Bruxelles.
2.1.
Sujets
Les quatre sujets ayant participé à l’étude articulatoire ont également participé à l’étude
acoustique. Il s’agit des deux sujets féminins S1 et S2 et des deux sujets masculins S3 et S4.
2.2.
Corpus
Le corpus est le même que le corpus de l’étude articulatoire (Cf. Table 13, p.65).
L’objectif est de permettre la comparaison entre les données acoustiques et articulatoires :
même si ces données ont été prises à deux moments différents, elles concernent les mêmes
locuteurs et le même corpus de voyelles.
2.3.
Enregistrement et traitement du signal
Les quatre locuteurs ont répété trois fois les 38 séquences orale-nasale du corpus dans
la chambre sourde du Laboratoire de Phonologie de l’ULB. Les enregistrements ont été
effectués au moyen d’un microphone (Neumann, U87A i P48), placé pour chaque locuteur à
une distance constante de la bouche. Le signal de parole a été enregistré sur DAT (Panasonic,
SV-3700) à une fréquence d’échantillonnage de 44100 Hz et avec une résolution de 16 bits.
Une fois digitalisés, les signaux de parole ont été filtrés avec un filtre anti-repliement d’une
fréquence de coupure de 10525 Hz, puis sous-échantillonnés à 22050 Hz.
2.4.
Données acoustiques
Les données acoustiques ont été traitées à l’aide de deux applications personnalisées
que nous avons développées dans le logiciel iShell. Les Figure 25 et Figure 26 permettent de
visualiser les interfaces de ces deux applications. La première application permet à l’utilisateur
de naviguer entre les enregistrements, et d’explorer les données acoustiques en examinant les
représentations paramétriques du signal proposées (spectrogrammes, LPC, FFT, etc). Nous
avons utilisé ces représentations du signal de parole pour segmenter le corpus (Muller et
Brown, 1980).
Deux types de représentations paramétriques ont été calculées après pré-emphase à
partir d’une fenêtre de Hamming de 30 ms centrée sur le milieu de chaque voyelle : le spectre
lissé par l’analyse cepstrale, et les "bandes d'
énergie".
96
Figure 25. Visualisation de l’interface utilisateur de la première application développée en iShell pour traiter les données acoustiques : segmentation du corpus.
97
Figure 26. Visualisation de l’interface utilisateur de la seconde application développée en iShell pour traiter les
données acoustiques : superposition des spectres lissés par l’analyse cepstrale.
Les « bandes d’énergie » désignent le logarithme de l'
énergie calculé à la sortie de 24
filtres triangulaires linéairement répartis dans le domaine fréquentiel (de 0 à 10500 Hz)
sur une échelle Mel. L’objectif est de représenter l’information relative à la répartition
fréquentielle de l’énergie d’une façon globale et proportionnellement plus détaillée en
basses fréquences. Cette représentation vise avant tout à mettre en évidence les effets
du couplage acoustique nasal proprement dit.
L’analyse cepstrale est prioritairement destinée à étudier les propriétés acoustiques des
voyelles nasales du français par rapport aux orales correspondantes, en particulier
celles qui sont dues aux ajustements articulatoires observés dans le chapitre
précédent. L’avantage de l’analyse cepstrale est qu’elle minimise la contribution de la
source dans le spectre obtenu. L’origine et l’étendue de la fenêtre étaient fixées
respectivement à 2 et 1.5 ms pour un spectre calculé sur la base de 1024 points. La
98
deuxième application logicielle que nous avons développée en iShell (Cf. Figure 26)
nous a permis d’afficher en superposition les cepstres obtenus en milieu de voyelle, sur
le modèle de ce qui a été réalisé pour les profils articulatoires dans le Chapitre 2. Nous
avons privilégié cette méthode de visualisation des données acoustiques parce qu’elle
permet d’estimer la variabilité inter-classes par rapport à la variabilité intra-classes sans
devoir effectuer de mesure complémentaire (de formants, d’anti-résonances,...) par
rapport à la représentation paramétrique du signal elle-même. On évite ainsi d’opérer
des choix délicats quant aux objets à mesurer avant d’effectuer la mesure proprement
dite.
Ces représentations calculées au centre des voyelles du corpus permettent de dégager
un ensemble de propriétés acoustiques, tant pour la nasalité proprement dite que pour chaque
voyelle nasale du français dans toute sa spécificité. En plus de ces mesures, on propose dans
les sections suivantes (et en particulier dans la section 4, p.117) divers spectrogrammes qui
permettent d’étudier l’évolution au cours du temps des propriétés acoustiques dégagées. Ces
spectrogrammes ont tous été calculés à partir d’une fenêtre de Hamming de 5 ms et d’une FFT
de 512 points. Enfin, la section 3.3 (p.113) est consacrée à la question des contributions
respectives des effets de la nasalité phonétique et de ceux des articulations complémentaires
dans la distance acoustique qui sépare voyelles orales et voyelles nasales en français.
Différentes analyses discriminantes ont été effectuées à partir des valeurs obtenues pour les
24 coefficients des bandes d’énergie par voyelle, et les performances enregistrées (en %)
constituent un dernier ensemble de données analysé ci-dessous.
3.
Oralité, nasalité phonétique et nasalité phonologique
3.1.
Bandes d’énergie
Les quatre graphiques de la Figure 27 donnent les valeurs moyennes des bandes
d’énergie en fonction de la fréquence, tous sujets confondus. Chaque graphique représente les
données recueillies pour un timbre vocalique en contexte VVV. L’objectif d’une telle analyse est
de laisser apparaître uniquement les tendances les plus générales de la répartition d’énergie
en fonction de la fréquence (en Mels), et ce sur l’ensemble du spectre. On évite de diriger
l’analyse en déterminant a priori dans quelle région rechercher les résonances et antirésonances du système couplé.
99
Energie (dB)
/(/
/D/
/¡/
/o/
Fréquence (Mels)
Figure 27. Moyennes des valeurs obtenues pour les bandes d’énergie (en dB) en fonction de la fréquence (en Mels). Données comparées pour les orales (en gris),
les nasales (en noir) et les oralisées (en orange). Moyennes calculées sur l’ensemble des locuteurs en fonction du timbre vocalique.
100
On constate que les nasales et les nasalisées diffèrent de leur contrepartie orale dans
l’ensemble du domaine fréquentiel, comme le prédit la théorie acoustique du couplage nasal
(Cf. p.93). Les tracés des quatre nasalisées (en orange) suivent les mêmes inflexions que ceux
des orales (en gris), mais leur niveau général d’énergie est notablement inférieur. Les nasales
(en noir) diffèrent plus fortement des orales, en particulier dans le cas de /(/ et /¡/, qui ont plus
d’énergie que /(/ et /¡/ autour de leur F2.
3.2.
Orales, nasalisées et nasales correspondantes
Dans cette section, nous comparons de façon systématique les propriétés des voyelles
orales, des voyelles nasalisées et des voyelles nasales correspondant à un même timbre
vocalique.
a.
/D/, [D], /$/
Les Figure 28 et Figure 29 illustrent les données recueillies pour les voyelles orales /D/,
les nasalisées [D] et les nasales /$/, prononcées dans les séquences /VVV/ et [VVV]21. On donne
dans la Figure 28 deux spectrogrammes représentant chacun une répétition de ces séquences
par le sujet masculin S3. La Figure 29 affiche en superposition les spectres lissés par l’analyse
cepstrale obtenus pour les 18 voyelles produites par ce sujet lors des trois répétitions de ces
séquences : 12 voyelles orales (en gris), 3 voyelles nasales (en noir), et 3 voyelles nasalisées
(en orange). Le même code de couleur est appliqué aux profils articulatoires présentés en haut
de la figure. Ceux-ci concernent les mêmes séquences de sons prononcées dans la machine
IRM par le même sujet, S3, quelques semaines auparavant. A des fins de lisibilité du
graphique, seules trois répétitions sont affichées pour les voyelles orales et la partie du tracé
relative à la paroi pharyngale est omise.
21
Comme dans la Table 13 (p.65), les barres obliques et les crochets sont utilisés tout au long de ce chapitre pour
distinguer entre les séquences contenant le phonème voyelle nasale et celles où V est une simple voyelle nasalisée.
101
[D
D
D]
/D
$
D/
Figure 28. Spectrogrammes et formes d’onde : voyelles orales /D/, voyelle nasalisée [D] et voyelle nasale /$/
prononcées par S3 au cours d’items [VVV] (en haut) et /VVV/ (en bas).
102
D
Figure 29. Comparaison des voyelles orales /D/ (en gris) avec les nasalisées [D] (en orange) et les nasales /$/ (en
noir). Profils articulatoires et spectres lissés par l’analyse cepstrale obtenus pour S3 dans les items VVV.
103
Les profils articulatoires montrent que le locuteur masculin S3 est parvenu à produire
les voyelles nasalisées [D] selon les consignes énoncées : la configuration orale de ces
voyelles est tout à fait comparable à celle des orales /D/, à l’exception du voile du palais, qui est
abaissé de la même façon que pour les nasales /$/. Nos données IRM contiennent un très
faible nombre de cas où le sujet n’a pas réussi à prononcer les voyelles nasalisées de la façon
demandée. Nous considérons donc que les résultats acoustiques obtenus sur ces voyelles sont
fiables, c’est-à-dire qu’ils permettent d’estimer l’effet acoustique de la descente du voile pour
une configuration orale donnée, en l’absence des modifications articulatoires complémentaires
habituellement observées pour la voyelle nasale correspondante. En ce qui concerne [D], le
spectrogramme de la Figure 28 et les cepstres de la Figure 29 montrent que l’effet acoustique
de la nasalisation se traduit principalement en terme d’énergie. Le niveau général d’énergie est
inférieur pour la nasalisée (de même que pour la nasale d’ailleurs), avec un F2 et surtout un F1
affaiblis, et un F3 complètement effacé. Ce qui différencie les nasales /$/ des nasalisées [D],
c’est le F2 qui est moins élevé pour les nasales, conséquence de l’arrondissement des lèvres et
de la postériorisation de ces voyelles par rapport à leur correspondante phonologique orale /D/.
Pour l’un des sujets féminins, F1 et F2 fusionnent régulièrement en un seul large pôle, centré
vers 900 Hz. De façon générale, /#/ est une voyelle plus compacte et plus grave que /D/22.
b.
/(/, [(], /(/
Sur le modèle des Figure 28 et Figure 29, les Figure 30 et Figure 31 présentent les
données obtenues pour les voyelles orales /(/, les nasalisées [(] et les nasales /(/, dans les
séquences /vvv/ et [vvv]. On donne deux spectrogrammes à titre d’illustration, ainsi que les
profils articulatoires et les spectres lissés par l’analyse cepstrale pour les voyelles prononcées
dans ces séquences par le sujet féminin S1.
22
Dans ce travail, nous utilisons les termes de « compacité » et de « gravité » pour caractériser les propriétés
spectrales générales des voyelles selon la définition qu’en donnent Jakobson, Fant et Halle (1952).
104
[(
(
/(
(]
(
(/
Figure 30. Spectrogrammes et formes d’onde: voyelles orales /(/, voyelle nasalisée [(] et voyelle nasale /(/
prononcées par S1 au cours d’items [VVV] (en haut) et /VVV/ (en bas).
105
(
Figure 31. Comparaison des voyelles orales /(/ (en gris) avec les nasalisées [(] (en orange) et les nasales /(/ (en
noir). Profils articulatoires et spectres lissés par l’analyse cepstrale obtenus pour S1 dans les items VVV.
106
Le couplage acoustique nasal seul a pour conséquence de diminuer l’énergie de la
voyelle, en particulier sous 1000 Hz, dans la région de F1, et entre 2500 et 3000 Hz, entre F2 et
F3. Pour tous les sujets, on remarque que le F2 de la voyelle nasalisée est légèrement plus bas
(de 100 Hz environ) et le F3 plus haut par rapport à la voyelle orale correspondante. Pour les
nasales /(/, les formants ont bougé dans le domaine fréquentiel par rapport aux orales /(/ : F1
est plus élevé, et sa bande passante est élargie, F2 est nettement plus bas et plus proéminent,
F3 est plus élevé. Les tendances acoustiques observées pour les voyelles nasalisées sont donc
renforcées pour les nasales par le biais de modifications articulatoires telles que l’abaissement
et le recul de la langue dans la bouche. Parce que le F2 des nasales est d’intensité très élevée
et de fréquence plus basse que celui des orales, l’énergie de la voyelle est concentrée sous
2000 Hz, et la baisse d’énergie entre 2500 et 3000 Hz observée dans le cas des nasalisées [(]
est une tendance nettement accentuée dans le spectre des nasales /(/, soit [4]. Comme dans
le cas de la paire /D,$/, les nasales /(/ sont du point de vue acoustique des voyelles plus graves
et plus compactes que leur correspondantes orales /(/.
c.
/¡/, [¡], /¡/
Les Figure 32 et Figure 33 donnent les spectrogrammes, les profils articulatoires et les
spectres lissés par l’analyse cepstrale relatifs aux voyelles orales /¡/, aux nasalisées [¡], et
aux nasales /¡/, prononcées en séquence VVV par le sujet féminin S1. De même que les
nasalisées [(], les voyelles [¡] se différencient de leurs orales correspondantes par un niveau
général d’énergie inférieur et par des modifications fréquentielles de certains formants.
L’introduction d’anti-résonances par le couplage vers les fosses nasales implique une perte
d’énergie à toutes les fréquences, et aboutit en particulier à une absence presque totale
d’énergie entre 2000 et 3000 Hz, dans la région correspondant au F3 de la voyelle orale. Les
modifications fréquentielles concernent F1 et F2, qui sont respectivement plus haut et plus bas
pour les nasalisées.
107
[¡
/¡
¡
¡
¡]
¡/
Figure 32. Spectrogrammes et formes d’onde: voyelles orales /¡/, voyelle nasalisée [¡] et voyelle nasale /¡/
prononcées par S1 au cours d’items [VVV] (en haut) et /VVV/ (en bas).
108
¡
Figure 33. Comparaison des voyelles orales /¡/ (en gris) avec les nasalisées [¡] (en orange) et les nasales /¡/ (en
noir). Profils articulatoires et spectres lissés par l’analyse cepstrale obtenus pour S1 dans les items VVV.
109
Les modifications dans la configuration orale des nasales /¡/ aboutissent ici aussi à un
renforcement des tendances enregistrées pour les nasalisées : F1 est plus élevé pour tous les
sujets lorsqu’ils prononcent une nasale /¡/, et F2 est plus bas, essentiellement pour les sujets
féminins. De façon générale, /¡/ est une voyelle plus compacte, et souvent plus grave que /¡/.
d.
/o/, [o], /o/
Les Figure 34 et Figure 35 illustrent le cas des voyelles /o/, [o] et /o/ pour S3. On donne
un spectrogramme pour une répétition de la séquence /VVV/, un autre pour la séquence [VVV],
ainsi que les profils articulatoires et les spectres lissés par l’analyse spectrale affichés en
superposition. Une grande variabilité est observée dans la réalisation acoustique des voyelles
/o/, [o] et /o/ en fonction des locuteurs :
Chez les locuteurs masculins, l’allure des spectres et des spectrogrammes est assez
similaire pour les nasalisées et les nasales. En revanche, elles divergent assez
radicalement des orales, car un zéro est introduit dans la zone de F2. L’effet de ce zéro
est différent selon le sujet : pour S4, F2 est complètement annihilé, pour S3, F2 est
affaibli et déplacé vers de plus hautes fréquences (Cf. Figure 35).
Chez les locuteurs féminins, l’effet de l’abaissement du voile seul (voyelles nasalisées)
est d’annuler F2, comme pour S4. Un seul pôle subsiste, plus large, « à la place » de
F1-F2. Dans le spectre des nasales par contre, on peut constater la présence d’un pic à
la fréquence du F2 des orales. Ceci peut éventuellement s’expliquer par la position
radicalement différente des articulateurs observée dans le cas des nasales /o/ pour les
locuteurs féminins (Cf. p.71). En effet, l’arrondissement des lèvres et la montée de la
langue dans la région du voile ont pour conséquence d’abaisser fréquentiellement la
résonance correspondant au F2 de la voyelle orale, mais également d’élever la
fréquence de l’anti-résonance dans cette région, parce que la masse acoustique du
chemin par la cavité buccale augmente, de sorte que la contribution du zéro
caractéristique des fosses nasales dans la sortie acoustique finale est plus importante.
En conséquence, l’anti-résonance survient à une fréquence légèrement supérieure,
plutôt que légèrement inférieure à F2, et un pôle est préservé dans cette région.
110
[o
/o
o
o
o]
o/
Figure 34. Spectrogrammes et formes d’onde: voyelles orales /o/, voyelle nasalisée [o] et voyelle nasale /o/
prononcées par S3 au cours d’items [VVV] (en haut) et /VVV/ (en bas).
111
o
Figure 35. Comparaison des voyelles orales /o/ (en gris) avec les nasalisées [o] (en orange) et les nasales /o/ (en
noir). Profils articulatoires et spectres lissés par l’analyse cepstrale obtenus pour S3 dans les items VVV.
112
Quoi qu’il en soit, l’effet acoustique général de la nasalité est très marqué pour les
voyelles [o] et /o/, qui n’ont qu’une énergie très faible au-delà de 1000 Hz. Les positions
relatives du voile du palais et de l’arrière de la langue nous avaient en effet amenée dans le
Chapitre 2 à prédire que la contribution spectrale du résonateur nasal serait particulièrement
importante pour cette voyelle (Cf. p.86). Cette nouvelle distribution de l’énergie implique que les
nasales peuvent être considérées ici aussi comme des voyelles plus graves et plus compactes
que leur correspondantes orales. En effet, F2 est très affaibli pour la voyelle /o/, de sorte que
même si sa fréquence est légèrement supérieure au F2 des orales, /o/ sera sans doute perçue
comme une voyelle plus postérieure que /o/.
3.3.
Analyse discriminante
a.
Principe général
L’analyse discriminante est une méthode statistique qui classe un ensemble de cas
dans une ou plusieurs classes en utilisant une combinaison linéaire des valeurs obtenues pour
ces cas le long de diverses variables indépendantes. Nous avons utilisé l’analyse discriminante
pour grouper les voyelles de notre corpus en différentes classes (orales vs. nasales, orales vs.
nasalisées, etc.) à partir des données fournies par les bandes d’énergie mesurées pour chaque
voyelle. Nous comparons ici les performances obtenues par l’analyse discriminante en fonction
de divers critères tels que le nombre de coefficients utilisés, le type de classification demandé,
etc. L’objectif est d’effectuer une analyse comparée de la distance acoustique entre les
voyelles orales, les voyelles nasalisées et les voyelles nasales.
b.
Méthode
L’analyse discriminante a été effectuée sur un sous-ensemble du corpus, soit sur les
voyelles présentes dans les quatre premières lignes de la Table 13 (p.65). Ces voyelles
ont été répétées trois fois par chacun des quatre sujets, ce qui donne un total de 288
voyelles nasales /$,(,¡,o/, 432 voyelles orales correspondantes /D,(,¡,o/, et 48 voyelles
nasalisées [D,(,¡,o].
Les résultats présentés ici ont été obtenus à l’aide du logiciel SPSS, au cours de la
procédure statistique de classification par analyse discriminante linéaire, avec pour
variables indépendantes les 24 coefficients des bandes d’énergie mesurés au milieu de
chaque voyelle (Cf. ci-dessus, p.98).
113
La tâche de l’analyse discriminante était de classer les voyelles soit en tant qu’orales
vs. nasales (720 cas), soit en tant qu’orales vs. nasalisées (480 cas), soit en tant que
nasales vs. nasalisées (336 cas).
En ce qui concerne les variables indépendantes utilisées dans la fonction de
discrimination, on a suivi une procédure par étapes successives basée sur une
minimisation de la statistique appellée lambda de Wilks. Cette procédure consiste à ne
conserver que les variables indépendantes suffisamment discriminantes. Ces variables
sont incluses une par une dans la fonction de discrimination (et éventuellement retirées
une par une) en fonction de leur valeur pour la statistique F, qui est réévaluée à chaque
étape du processus.
Les probabilités d’appartenance à l’une des classes sont supposées égales : chaque
voyelle à classer a une probabilité équivalente d’être une voyelle orale, une voyelle
nasale ou une voyelle nasalisée.
La procédure de classification s’est déroulée selon la méthode du canif, par laquelle on
teste successivement chaque cas à partir d’une fonction de discrimination entraînée sur
l’ensemble des autres cas.
c.
Redondance de l’information
La Table 14 donne les résultats de l’analyse discriminante pour deux tâches de
classification, la première consistant à différencier les voyelles nasales des orales
correspondantes, la deuxième les voyelles orales des voyelles nasalisées. Les performances
sont exprimées en pourcentage de cas correctement classés par l’analyse discriminante. La
Table 14 permet de comparer les performances enregistrées en fonction du nombre de bandes
d’énergie incluses dans l’analyse, et, lorsqu’il n’y en a que huit, selon les fréquences couvertes
par ces bandes d’énergie.
Les performances sont élevées lorsque l’on utilise les vingt-quatre bandes d’énergie
pour classer les voyelles en deux groupes. On dépasse les 90% de classification correcte dans
les deux tâches de discrimination (orales vs. nasales et orales vs. nasalisées), alors qu’au sein
d’une même classe on trouve des voyelles de différents timbres vocaliques prononcées par
plusieurs locuteurs. Les performances chutent lorsque huit coefficients successifs seulement
sont utilisés. C’est la région des hautes fréquences qui donne les moins bons résultats
(respectivement 74.3% et 72.5%). Par contre, l’analyse discriminante atteint le même niveau de
performance lorsqu’elle utilise les coefficients 1 à 8 ou les coefficients 9 à 16 (autour de 80%
de classification correcte). Les basses fréquences (de 0 à 1050 Mels, soit environ de 0 à 1100
114
Hz) ont donc un pouvoir discriminant comparable à celui des fréquences moyennes (de 1050 à
2100 Mels, soit environ de 1100 à 3800 Hz). L’information présente dans ces deux plages
fréquentielles n’est pas uniquement redondante, mais en partie complémentaire, puisque les
performances sont encore meilleures lorsque l’on utilise vingt-quatre coefficients au lieu de huit.
Table 14. Performances de l’analyse discriminante (en %) pour deux tâches de classification des voyelles du
corpus : voyelles orales vs. voyelles nasales (720 cas), et voyelles orales vs. voyelles nasalisées (480 cas).
Comparaison des performances en fonction du nombre et de la nature des coefficients (bandes d’énergie).
Tâche de discrimination
Bandes d’énergie
1 – 8 (0 - 1100 Hz)
Orales vs. Nasales
Orales vs. Nasalisées
81.0 %
80.2 %
9 – 16 (1100 - 3800 Hz)
77.2 %
80.8 %
17 – 24 (3800 - 10500 Hz)
74.3 %
72.5 %
93.6 %
90.4 %
1 – 24 (0 - 10500 Hz)
Ainsi, les résultats obtenus par l’analyse discriminante permettent de confirmer ce que
nous avions déduit de l’observation des données fournies par les bandes d’énergie (Cf. Figure
27, p.100) : les voyelles nasales et les voyelles nasalisées diffèrent acoustiquement des
voyelles orales correspondantes sur un vaste domaine fréquentiel. L’information semble
répartie en fonction de la fréquence d’une façon que l’échelle Mel peut capturer adéquatement.
Nous avons donc montré l’étendue de l’information qui est à disposition de l’auditeur. Il reste à
déterminer celle qu’il utilise effectivement lors de la détection du contraste de nasalité en
français : se concentre-t-il uniquement sur la région de F1 ou a-t-il besoin des informations
complémentaires qui sont présentes à d’autres fréquences ? C’est l’une des questions
abordées dans la deuxième partie de ce travail, consacrée à la perception des voyelles nasales
du français.
d.
Nasalité phonétique et nasalité phonologique
Nous avons utilisé l’analyse discriminante afin d’étudier la contribution spécifique de la
nasalité phonétique parmi les diverses propriétés acoustiques qui participent à la distance
acoustique entre voyelles orales et voyelles nasales du français. Pour ce faire, nous avons
comparé les performances de l’analyse discriminante sur divers sous-ensembles des voyelles
du corpus. Trois sous-ensembles ont été considérés : celui des voyelles orales et nasales (720
cas), celui des orales et des nasalisées (480 cas), et celui des nasales et des nasalisées (336
cas). Sur chacun de ces trois sous-ensembles, on a effectué trois types d’analyse
discriminante. La première tâche consistait à classer chacune des huit voyelles dans une
classe séparée ; par exemple, pour le premier sous-ensemble, /$/ vs. /(/ vs. /¡/ vs. /o/ vs. /D/
115
vs. /(/ vs. /¡/ vs. /o/. La seconde tâche était de classer les voyelles en quatre groupes, selon
leur timbre vocalique ; par exemple : /D,$/ vs. /(,(/ vs. /¡,¡/ vs. /o,o/. La troisième tâche
demandée consistait à classer les voyelles en deux groupes, en fonction de la nasalité, par
exemple : /D,(,¡,o/ vs. /$,(,¡,o/. Les performances sont données dans la Table 15.
Table 15. Performances comparées de l’analyse discriminante (en %) sur trois sous-ensembles du corpus : voyelles
orales et nasales (720 cas), voyelles orales et nasalisées (480 cas), voyelles nasales et nasalisées (336 cas).
Comparaison en fonction du sous-ensemble et du critère de classification : par voyelle (en 8 classes), par timbre
vocalique (en 4 classes) ou par nasalité (en 2 classes).
Critère de classification
Voyelle
(8 classes)
Timbre vocalique
(4 classes)
Nasalité
(2 classes)
Orales + Nasales (N = 720)
92.8 %
84.7 %
93.6 %
Orales + Nasalisées (N = 480)
88.3 %
93.3 %
90.4 %
Nasales + Nasalisées (N = 336)
83.0 %
89.9 %
83.3 %
Sous-ensemble de voyelles
Les pourcentages de classification correcte donnés dans la troisième colonne de la
Table 15 montrent que, sur base des bandes d’énergie, il est plus facile de discriminer entre les
orales et les nasales (93.6%), ou entre les orales et les nasalisées (90.4%), qu’entre les
nasales et les nasalisées (83.3%). Ainsi, les voyelles sont bien discriminées acoustiquement le
long de la dimension de nasalité, ce qui est cohérent avec l’existence en français du contraste
phonologique de nasalité.
Les performances présentées dans la première ligne de la table indiquent qu’il est
relativement difficile de grouper les voyelles nasales et les orales dites correspondantes sur la
base du timbre vocalique (84.7%). Les performances sont en tout cas meilleures lorsqu’il s’agit
de classer les huit voyelles dans huit classes différentes (92.8%). Chaque voyelle nasale et sa
correspondante phonologique orale ne sont donc pas séparées uniquement le long de la
dimension de nasalité, elles diffèrent aussi en termes de qualité vocalique. Il faut comparer ces
résultats avec ceux obtenus pour le sous-ensemble des voyelles orales et nasalisées
(deuxième ligne de la Table 15). Pour ces voyelles, en effet, l’analyse discriminante atteint de
bonnes performances dans la classification selon le timbre vocalique (93.3%). Il est plus difficile
de classer ces huit voyelles en huit classes différentes (88.3%). Le timbre des voyelles
nasalisées correspond donc plutôt bien à celui des voyelles orales. C’est ce à quoi on pouvait
s’attendre étant donné la position fort proche des articulateurs dans les deux cas (Cf. cidessus, p.104).
Ainsi, même si les voyelles nasales du français ont en commun d’être nasalisées, elles
diffèrent de leur correspondante phonologique orale à un point tel qu’elles peuvent se laisser
116
décrire acoustiquement comme des unités indépendantes, relevant du système vocalique
principal.
3.4.
Résumé des résultats
L’examen des propriétés acoustiques comparées des voyelles orales, des voyelles
nasalisées et des voyelles nasales aboutit aux conclusions suivantes :
L’information acoustique pertinente en ce qui concerne la nasalité est présente tout au
long du domaine fréquentiel sous 4000 ou 5000 Hz.
Un bon candidat en ce qui concerne l’indice acoustique de la nasalisation phonétique
est le niveau général d’énergie de la voyelle. Une propriété aussi générale permettrait
de résoudre le problème de la variabilité liée à la complexité de l’acoustique du
couplage nasal. Cependant, ceci nécessite une validation au point de vue perceptuel.
Les performances de l’analyse discriminante et les données acoustiques montrent que
(1) les voyelles orales et les voyelles nasalisées sont relativement comparables
acoustiquement parlant, à l’exception du niveau général d’énergie ; (2) les voyelles
nasales diffèrent des orales sous plusieurs autres aspects. Les voyelles nasales ne
sont donc pas uniquement la contrepartie nasalisée des voyelles orales. Elles se
comportent plutôt comme des unités additionnelles du système vocalique, avec une
propriété acoustique commune : la nasalité.
4.
Dynamique des propriétés acoustiques de la nasalité en français
4.1.
Nasalité phonétique vs. nasalité phonologique
Les Figure 36 et Figure 37 donnent un spectrogramme et le signal pour deux items
chacune, soit respectivement /So, So/ et /SD, S$/ prononcés par le sujet masculin S3. Ces
figures permettent d’illustrer pour les voyelles postérieures les tendances observées pour
toutes les voyelles nasales du corpus, en ce qui concerne la dynamique de leurs propriétés
acoustiques.
117
S
o
S
o
Figure 36. Spectrogramme et signal pour les items /So/ (en haut) et /So/ (en bas) prononcés par le sujet S3.
118
S
S
D
$
Figure 37. Spectrogramme et signal pour les items /SD/ (en haut) et /S$/ (en bas) prononcés par le sujet S3.
119
On remarque que les formants restent particulièrement stables au cours des voyelles
orales, à part le F3 de /SD/, qui monte en fréquence et perd de l’énergie pendant la voyelle.
Dans le cas des items /So/ et /S$/, par contre, les formants des voyelles évoluent au cours du
temps, tant au point de vue de leur fréquence que de leur énergie. Ce caractère dynamique
des formants est particulièrement marqué dans la première portion de la voyelle nasale. Dans
le cas de /$/, F3 monte puis s’affaiblit au point de disparaître, F2 diminue et F1 monte jusqu’à
former une large résonance centrée vers 900 Hz. Dans le cas de /o/, ce sont F4 et F3 qui se
rejoignent, tandis que F2 diminue puis semble s’effacer, ou se confondre avec F1.
Nous avons vu dans le Chapitre 2 que le voile du palais ne s’abaisse que tardivement,
au cours de la voyelle, lorsque la consonne précédente est une occlusive sourde. Les
mouvements acoustiques observés ci-dessus ne sont pourtant pas ceux qui caractérisent le
passage d’une voyelle orale à une voyelle nasalisée consécutivement au couplage des
résonateurs pharyngo-buccal et nasal. Ils correspondent plutôt à une transition entre une
configuration orale et une autre, c’est-à-dire entre la configuration articulatoire pour la voyelle
orale, et celle pour la voyelle phonologique nasale. C’est ce que soulignent les traits
horizontaux rouge sur les Figure 36 et Figure 37. Sur chaque figure, les traits sont disposés
aux mêmes fréquences pour la voyelle orale et pour la voyelle nasale. Ils soulignent le fait que
les formants occupent au début de la voyelle nasale la position qu’ils ont tout au long de la
voyelle orale correspondante. Les articulateurs se déplacent ensuite rapidement, et les
formants de la voyelle nasale évoluent en conséquence, pour finalement atteindre une position
stable, qui correspond à la configuration articulatoire et acoustique que nous avons décrite pour
chaque voyelle nasale ci-dessus sur la base d’informations recueillies au centre de la voyelle.
Les spectrogrammes et formes d’onde donnés dans les Figure 38 et Figure 39
confirment que les mouvements formantiques observés ci-dessus sont essentiellement dûs aux
ajustements articulatoires d’une configuration orale à une autre, et non à l’abaissement du voile
du palais. Ces figures concernent une répétition par le locuteur S3 des items /Vo, Po/ (Figure
38) et /V$, P$/ (Figure 39). Les formants des voyelles nasales connaissent une évolution
temporelle tout à fait comparable à celle décrite ci-dessus : ils passent rapidement de la
position qu’ils occupent pour les voyelles orales /D,o/ à une nouvelle position qui correspond à
la voyelle cible : /$,o/.
120
V
o
P
o
Figure 38. Spectrogramme et signal pour les items /Vo/ (en haut)et /Po/ (en bas) prononcés par le sujet S3.
121
V
$
P
$
Figure 39. Spectrogramme et signal pour les items /V$/ (en haut) et /P$/ (en bas) prononcés par le sujet S3.
122
Nous avons montré précédemment (Cf. Chapitre 1, 3.1 et 3.2, pp. 36 et suivantes) que
dans les items CV le voile du palais s’abaisse pour la voyelle nasale V selon un timing très
différent en fonction de la nature de la consonne C :
Lorsque C est une occlusive, le voile s’abaisse après le relâchement de l’occlusion, au
cours de la voyelle.
Si C est une fricative, le voile s’abaisse à la fin de la consonne, avant la mise en
vibration des cordes vocales pour la voyelle.
Quand C est une consonne nasale, le voile reste abaissé tout au long de la séquence
consonne nasale – voyelle nasale.
Alors que le voile du palais s’abaisse à des moments différents dans ces items, la
dynamique des formants reste elle remarquablement similaire : elle reflète le passage de la
configuration orale de la voyelle orale correspondante à celle de la voyelle nasale proprement
dite23. Ce passage s’effectue au cours du premier tiers de la voyelle, puis les formants restent
stables jusqu’au relâchement de la voyelle nasale. Notre interprétation de ces phénomènes est
que, dans les transitions entre consonnes et voyelles, la dynamique du voile est un phénomène
essentiellement lié aux contraintes (aérodynamiques et éventuellement perceptuelles) qui
pèsent sur la consonne (Cf. p.60) . En ce qui concerne la voyelle nasale, la condition minimale
semble être que le voile du palais soit abaissé lorsque la configuration orale pour la voyelle
nasale proprement dite est atteinte, soit au plus tard au début du deuxième tiers de la voyelle.
Dans les expériences perceptuelles rapportées dans la deuxième partie de ce travail, nous
tenterons de savoir si l’évolution dynamique des formants au début de la voyelle nasale est un
indice acoustique important pour la détection du contraste phonologique de nasalité en
français.
4.2.
Nasalité contextuelle vs. nasalité phonologique
Les Figure 40 et Figure 41 sont destinées à illustrer les effets acoustiques comparés de
la nasalité contextuelle progressive et régressive d’une part, et de la nasalité contextuelle
maximale par rapport à la nasalité phonologique d’autre part.
23
Le fait que ceci soit vrai en particulier de la paire /D,$/ montre que ces deux voyelles fonctionnent bel et bien
ensemble du point de vue de la nasalité phonologique en français, /$/ ayant disparu chez la plupart des locuteurs
belges francophones (Cf. note 18, p.84).
123
P
(
(
P
Figure 40. Spectrogramme et signal pour les items /P(/ (en haut) et /(P/ (en bas) prononcés par le sujet S1.
124
La Figure 40 donne un spectrogramme et le signal pour les items /P(/ et /(P/
prononcés par le sujet féminin S1. Certaines traces de nasalisation contextuelle des voyelles
orales en contexte phonologique nasal peuvent être relevées sur cette figure. Elles sont mises
en évidence grâce aux traits rouges. Ainsi, le premier formant de la voyelle /(/ est affaibli, voire
divisé en deux parties, et ce pour toute la première moitié de la voyelle, lorsqu’elle est
précédée par une consonne nasale. Le F2 voit également sa fréquence monter jusqu’en milieu
de voyelle. Ces phénomènes font partie de ceux rapportés précédemment lorsque la voyelle /(/
est nasalisée pour ce sujet (Cf. Figure 30). Par contre, lorsque la consonne nasale suit la
voyelle, on ne distingue presque aucun effet de nasalisation contextuelle sur la voyelle,
conformément à ce qu’ont montré les tracés aérodynamiques du premier chapitre (Cf. p.48).
Dans la Figure 41, on s’attend à ce que l’effet acoustique de la nasalité contextuelle soit
maximal pour la voyelle dans l’item /P(P/. F1 est en effet très affaibli, et F2 suit une trajectoire
en forme d’arc, sa fréquence étant moins élevée en début et en fin de voyelle, à proximité des
consonnes nasales. Néanmoins, ces variations spectrales de la voyelle orale sous l’effet de la
nasalisation restent marginales par rapport à la nasalisation phonologique proprement dite,
dont l’effet est illustré en bas de la Figure 41 pour l’item /P(/. Dans ce cas, en effet, la voyelle
est extrêmement nasalisée, avec un F1 très affaibli et un niveau général d’énergie plutôt bas.
Mais la fréquence de F2 est également très différente pour la voyelle nasale : il est aux
alentours de 1700 Hz dans ce cas précis, soit 400 Hz plus bas que dans le cas d’un /(/
nasalisé pour le même sujet.
Même si la nasalisation contextuelle est très importante dans certains contextes, et que
le voile est abaissé pendant la majeure partie d’une voyelle orale, les voyelles orales
nasalisées restent très différentes des voyelles nasales du français au point de vue acoustique.
Les ajustements articulatoires propres aux voyelles nasales modifient en profondeur leur
configuration orale, et partant, leurs propriétés spectrales, en particulier dans la région de F2.
125
P
(
P
P
(
Figure 41. Spectrogramme et signal pour les items /P(P/ (en haut) et /P(/ (en bas) prononcés par le sujet S1.
126
5.
Discussion
5.1.
Effets acoustiques de l’abaissement du voile du palais
La Table 16 présente un résumé des résultats de l’étude acoustique en ce qui concerne
les propriétés des voyelles étudiées. Nous comparons les modifications acoustiques qui
interviennent pour les voyelles nasalisées et pour les voyelles nasales par rapport à leur(s)
correspondante(s) orale(s).
Table 16. Résumé des résultats de l’étude acoustique. Propriétés acoustiques comparées des voyelles nasalisées et
des voyelles nasales par rapport à leur correspondante orale
Voyelles
orales
Voyelles nasalisées
Voyelles nasales
D
Peu de changement fréquentiel ; F2 plus bas?
F2 est plus bas
'
F1 est plus haut
F2 est plus bas
F1 est plus haut
F2 est plus bas
F1 est plus haut
F2 est plus bas
F1 est plus haut
F2 est plus bas (femmes)
n
F2 est très affaibli (annulé)
F2 est plus haut et est
affaibli
Toutes
Perte d’énergie à toutes les fréquences.
En particulier sous 1000Hz (bande passante en
F1 élargie) et entre 2000 et 3000Hz (F3 disparait)
Perte d’énergie.
En particulier au-dessus de
F2 ( région de F3).
La Table 16 rappelle que les voyelles nasalisées divergent des voyelles orales dans
deux directions. La première concerne chaque voyelle localement : lorsqu’une voyelle orale est
nasalisée, ses résonances subissent certaines modifications fréquentielles, même si les
articulateurs autres que le voile du palais n’ont pas changé de position. La seconde direction
est commune à toutes les nasalisées : le niveau général d’énergie est inférieur pour ces
voyelles par rapport aux voyelles orales correspondantes.
Ces deux types de modifications correspondent à ce que prédit la théorie acoustique
(Fant, 1960, Stevens, 1998). D’une part, les résonances du système couplé sont modifiées par
rapport à celles du résonateur pharyngo-buccal seul. Pour un individu donné, le résultat
dépend de la configuration orale propre à la voyelle, ainsi que du degré de couplage, ce qui
explique que les modifications fréquentielles observées pour les formants varient selon les
voyelles étudiées. Les nombreuses différences anatomiques, en particulier dans la
configuration des fosses nasales, ainsi que d’éventuelles variations dans le degré de couplage
peuvent rendre compte de la variation inter-individuelle observée, par exemple en ce qui
127
concerne le F2 de la voyelle [o] (Cf. p.71). D’autre part, l’affaissement du niveau général
d’énergie est consécutif à l’introduction de zéros spectraux par le couplage nasal, et à un
amortissement général de l’énergie acoustique dû à l’augmentation du volume d’air en
vibration, et de la surface des parois du système résonateur (Johnson, 1997, Stevens, 1998).
Plusieurs auteurs ont relevé précédemment que, toutes choses étant égales par
ailleurs, le niveau d’énergie général d’une voyelle nasalisée est inférieur à celui d’une voyelle
orale : de House et Stevens (1956), jusqu’à Kent, Liss et Philips (1989), en passant par
Dickson (1962), et surtout Bernthal et Beuckelman (1977), qui ont montré qu’une augmentation
de l’aire du port vélo-pharyngal avait pour principal effet d’abaisser l’intensité générale d’une
voyelle. On peut néanmoins se poser la question de savoir si ce type de généralisation ne nous
mène pas à une caractérisation acoustique trop peu précise de la nasalité, et qui n’aurait dès
lors que peu de valeur fonctionnelle.
A l’opposé de cette généralisation se situe la démarche poursuivie par Chen (1997), qui
relève le défi de la quantification précise en termes d’énergie du degré de nasalité spécifique
d’une voyelle. Ainsi, Chen propose une mesure spectrale de la nasalité qui se fonde sur
l’examen d’un corpus de voyelles contextuellement nasalisées de l’anglais, et de voyelles
nasales du français. Cette mesure est double, soit « A1-P0 » et « A1-P1 ». Elle s’appuie sur
une modélisation acoustique de la nasalité vocalique, qui prédit en l’occurence que le F1 pour
les voyelles nasales est de faible intensité (A1, en dB) et que des pics nasals (d’amplitudes P0
et P1, en dB) surviennent autour de 250 et 950 Hz. Les amplitudes P0 et P1 sont mesurées à
des fréquences qui sont choisies parce qu’elles correspondent à des pics (d’une seule
harmonique) sur le spectre FFT d’une nasalisée dans une région donnée. Par contre, la
recherche d’un pic éventuel dans le spectre de la voyelle orale correspondante est contrainte
par la fréquence spécifique du pic préalablement trouvé pour la voyelle nasalisée. La méthode
favorise donc a priori l’apparition de large différences A1-P0 et A1-P1 pour les voyelles
nasalisées exclusivement. De plus, à la différence de l’auditeur, qui ne sait pas qu’une voyelle
est nasalisée avant de l’entendre, l’expérimentateur est conscient du fait qu’il est en présence
de voyelles nasales, et se concentre dès lors sur deux régions extrêmement spécifiques du
spectre acoustique.
S’intéressant à l’énergie dans une région fréquentielle beaucoup plus large, Maeda
(1982) a proposé que l’indice acoustique de la nasalité, indépendamment de la voyelle
considérée, consiste en un aplatissement du spectre et en une répartition plus diffuse de
l’énergie en « basses fréquences ». Maeda (1993) a cependant précisé que la formule
mathématique qu’il propose pour mesurer le caractère diffus d’un spectre nécessite de la part
de l’expérimentateur la spécification d’une plage fréquentielle adéquate dans chaque cas, de
128
façon par exemple à exclure du calcul le F2 des voyelles antérieures. C’est à ce prix que les
résultats obtenus reflètent le degré de nasalité effectivement perçu pour chaque voyelle. Dans
une seconde tentative visant à caractériser acoustiquement la nasalité, Maeda (1993) a
proposé de considérer la distance entre deux pics N1 et N2 en basses fréquences (en dessous
de 10 Barks, soit 1300 Hz) comme la mesure du degré de nasalité au niveau perceptuel.
Malheureusement, l’identification de N1 et N2 nécessite elle aussi une intervention de
l’expérimentateur parce que le choix doit souvent s’effectuer parmi trois pics dans la région
fréquentielle concernée (pour /$/ par exemple). Pour /X/, l’identification de N1 et N2 ne pose
pas de problème, mais la mesure qui en résulte ne reflète que pauvrement l’évolution du degré
perceptuel de nasalité en fonction du couplage nasal.
Par rapport aux propositions faites par Chen (1997), et Maeda (1993), nous plaidons
quant à nous en faveur d’une mesure acoustique de la nasalité qui soit indépendante de toute
manipulation par l’expérimentateur, et qui émerge du spectre des voyelles nasalisées envisagé
dans son ensemble. Notre étude de la répartition comparée de l’énergie entre voyelles orales
et voyelles nasalisées nous amène à deux considérations :
Si l’on considère l’énergie moyennée pour tous les locuteurs et tous les environnements
phonologiques (Cf. Figure 27, p.100), la différence entre voyelles orales et voyelles
nasalisées s’opère sur l’ensemble du domaine fréquentiel sans distinction.
Si l’on étudie chaque paire orale-nasalisée pour un individu donné (Cf. 3.2 ci-dessus),
deux régions du spectre semblent particulièrement affectées par la baisse du niveau de
l’énergie : les fréquences situées sous 1000 Hz, et celles comprises entre 2000 et 3000
Hz. En conséquence, F1 et F3 sont particulièrement affectés par le couplage nasal, soit
que leur bande passante soit élargie (surtout dans le cas de F1), soit qu’ils disparaissent
presque complètement sous l’effet des anti-résonances (dans le cas de F3). La
présence d’anti-résonances dans la région spécifique de F3 a été précédemment
observée par Bloomer et Peterson (1955), Jha (1986) et Kent, Liss et Philips (1989).
Comme nous l’avons dit ci-dessus (p.117), le niveau général d’énergie pourrait donc
être un bon candidat en ce qui concerne l’indice acoustique de la nasalisation, mais ceci
nécessite une validation au niveau perceptuel. En effet, l’oreille humaine est-elle sensible au
niveau d’énergie d’une voyelle ? Ou bien l’auditeur est-il attentif aux effets de la perte d’énergie
dans certaines plages fréquentielles en particulier, telles que celles isolées ci-dessus ? Les
expériences perceptuelles menées dans la deuxième partie de ce travail ont notamment pour
129
objectif de tester l’efficacité des propriétés acoustiques relatives au niveau d’énergie d’une
voyelle, en tant qu’indices perceptuels de la nasalité.
5.2.
Propriétés acoustiques des voyelles nasales du français
L’analyse des cepstres et des spectrogrammes des voyelles nasales montre qu’elles
diffèrent des orales en ce qui concerne le niveau général d’énergie, mais également sous bien
d’autres aspects. Les performances de l’analyse discriminante indiquent qu’une voyelle nasale
est plus aisément classée comme une unité à part entière du système vocalique que comme le
second membre d’une classe à laquelle appartient aussi la voyelle orale correspondante. Les
voyelles nasales du français ne sont donc pas uniquement la contrepartie nasalisée des
voyelles orales. En plus des effets acoustiques de l’abaissement du voile du palais, on
remarque dans le spectre de toute voyelle nasale un certain nombre de propriétés acoustiques
qui sont liées aux articulations additionnelles ayant modifié sa configuration orale :
La voyelle /#/ est plus arrondie et plus arrière que /D/, ce qui se traduit acoustiquement
par un F2 plus bas, soit [b].
La nasale /(/, dont la réalisation phonétique est proche de [4], une voyelle antérieure
ouverte, a donc un F1 plus élevé et un F2 plus bas que l’orale /(/.
De même, /¡/ est un peu plus ouverte et plus postérieure que /¡/ : F1 est plus élevé, F2
plus bas, soit [¡].
Enfin /o/ est plus arrondie que /o/, et chez les locuteurs féminins, plus postérieure et
plus fermée, soit [R]. F2 n’est pourtant pas plus bas pour ces voyelles, à moins que le
pic à cette fréquence soit une résonance nasale. Quoi qu’il en soit, cette résonance est
très peu intense, et la nasale est sans doute perçue comme une voyelle très
postérieure.
En ce qui concerne les voyelles nasales antérieures /(,¡/, l’évolution fréquentielle de F1
et F2 renforce la tendance amorcée dans le spectre des nasalisées, comme le montre le
résumé de la Table 16. Nous proposons de rendre compte de ce phénomène dans le cadre de
la théorie des changements phonétiques proposée par John Ohala (1981). Dans cette optique,
nous considérons que le couplage nasal a induit de légères modifications dans les fréquences
des deux premiers formants des voyelles antérieures /(,¡/ ([(,¡]). A un moment donné, ces
modifications n’ont plus été interprétées par les auditeurs comme conditionnées par la nasalité,
130
mais comme résultant d’une action délibérée (d’ouverture et de postériorisation des voyelles)
de la part des locuteurs. Ces auditeurs devenus locuteurs à leur tour se sont mis à prononcer
les voyelles antérieures nasales en modifiant la position des articulateurs dans la cavité orale
de sorte que F1 et F2 évoluent dans la direction adéquate, soit [4,¡].
Ce type d’interprétation ne peut convenir pour les voyelles postérieures, en particulier
pour /o/. De plus, le couplage acoustique nasal n’induit pas vraiment d’abaissement de F2
lorsque /D/ est nasalisée ([D]), alors que diverses articulations additionnelles conduisent à un
abaissement net du F2 de la nasale /$/. En fait, l’abaissement du deuxième formant par rapport
à la fréquence qu’il occupe pour les orales est la propriété acoustique la plus largement
partagée par les voyelles nasales du français, à côté de la perte générale d’énergie. Lonchamp
(1979) avait déjà constaté que le F2 des nasales est régulièrement plus bas que celui des
orales correspondantes. Il attribuait cette différence à une position plus reculée de la langue
uniquement. L’arrondissement des lèvres que nous observons dans le cas de /#/, et surtout de
/n/, a des conséquences similaires. Ainsi, le mouvement articulatoire de postériorisation des
voyelles nasales du français est accompagné de diverses autres modifications telles que la
labialisation, qui ont pour conséquence majeure un abaissement du F2 de la voyelle par rapport
à l’orale correspondante. La seule voyelle pour laquelle F2 n’est pas toujours abaissé est /o/,
mais dans ce cas l’intensité très faible de cette résonance conduit sans doute à la perception
d’une voyelle très grave. En effet, on peut caractériser acoustiquement les voyelles nasales du
français comme étant plus graves et plus compactes que leurs correspondantes phonologiques
orales. La gravité est principalement liée à l’abaissement de F2, et la compacité relève de la
chute d’énergie observée sous 1000 Hz et entre 2000 et 3000 Hz, soit dans les régions de F1
et F3, mais pas dans celle de F2. Dans le cas des antérieures, la montée fréquentielle de F1
renforce la compacité de la voyelle. D’autre part, l’abaissement de F2 pour toutes les voyelles
nasales a pour effet d’accentuer encore la perte d’énergie dans la région de F3 puisque
l’amplitude des formants d’ordre supérieur est en partie déterminée par celle des formants
d’ordre inférieur (Fant, 1960, Stevens, 1998).
On constate donc que les effets acoustiques de l’abaissement du voile du palais et des
articulations complémentaires interagissent de façon complexe pour aboutir aux propriétés
spectrales des voyelles nasales du français. Nous tenterons dans la deuxième partie de ce
travail de déterminer leur contribution respective à la détection du contraste de nasalité : la
perte d’énergie est-elle une condition suffisante ou seulement nécessaire à la perception d’une
voyelle nasalisée ? Quel est le poids perceptuel de l’abaissement fréquentiel de F2 ? Nous
131
pensons que ce facteur est essentiel étant donné que c’est la différence de gravité qui permet
de distinguer une orale contextuellement nasalisée d’une voyelle phonologique nasale (Cf.
pp.123 à 126). Par ailleurs, ce ne sont pas les effets acoustiques de l’abaissement du voile,
mais
bien
les
mouvements
formantiques
associés
aux
ajustements
articulatoires
complémentaires, qui sont coordonnés dans le temps avec la mise en vibration des cordes
vocales pour la voyelle nasale (Cf. p.117). Les expériences de la deuxième partie permettent
de déterminer dans quelle mesure ce caractère dynamique de la propriété acoustique de
gravité est essentiel à la perception de la nasalité.
132
Discussion : Production des voyelles
nasales du français
Les résultats de notre étude consacrée à la production des voyelles nasales du français
montrent (1) que ces voyelles sont plus longues que les orales correspondantes (Cf. p.29), (2)
qu’elles sont prononcées avec un voile du palais abaissé, la position d’abaissement étant
atteinte à différents moments selon le contexte phonologique et au plus tard au début du
deuxième tiers de la voyelle, (3) que la configuration orale évolue rapidement au début des
nasales, en passant de la configuration propre à l’orale correspondante à une nouvelle
configuration qui est spécifique à chaque nasale, avec cependant une prépondérance des
mouvements de postériorisation et d’arrondissement des lèvres. En conséquence, dès le
deuxième tiers de la voyelle, les nasales du français ont un niveau général d’énergie toujours
inférieur à celui des orales, avec en particulier une baisse d’énergie sous 1000 Hz et entre
2000 et 3000 Hz, qui affecte plus précisément les régions de F1 et F3. Leur F2 est par contre
relativement proéminent et plus bas en fréquence que celui des orales correspondantes. En
résumé, les voyelles nasales du français sont plus longues, moins intenses, plus compactes et
plus graves que les orales correspondantes.
La réalisation phonétique du contraste phonologique de nasalité en français ne s’appuie
donc pas uniquement sur la présence ou l’absence du couplage nasal proprement dit. Un
ensemble d’articulations complémentaires covarient régulièrement avec l’abaissement du voile
du palais au cours de la production d’une voyelle nasale. Comme nous l’avons précisé dans
l’introduction générale de ce travail (p.12), les phénomènes de covariation phonétique
permettent de confronter les points de vue d’une phonétique automatique et d’une phonétique
contrôlée. Comment rendre compte, en effet, de la covariation observée entre les diverses
propriétés articulatoires (et leurs effets acoustiques) pour les nasales du français ? Faut-il situer
le phénomène dans le domaine de la phonétique automatique, dans celui de la phonologie, ou
bien au sein de la connaissance phonétique proposée par Kingston et Diehl (1994) ? Nous
allons successivement envisager ces trois hypothèses.
Tout d’abord, il semble peu probable que les phénomènes observés de covariation
procèdent uniquement de l’exécution automatique par le composant phonétique des
spécifications phonologiques pour le trait de nasalité en français. D’une part, on peut
difficilement soutenir que les diverses articulations complémentaires résultent de l’action de
contraintes
physiques
(aérodynamiques,
articulatoires
ou
bio-mécaniques)
liées
à
l’abaissement du voile du palais. En effet, les modifications articulatoires concernent bien trop
d’articulateurs pour supposer un lien bio-mécanique entre ceux-ci et le voile du palais. En ce
qui concerne les contraintes aérodynamiques liées à l’abaissement du voile, elles sont
importantes pour la production des consonnes en général, en raison de la chute de pression
intra-orale résultant de l’ouverture du port vélo-pharyngien (Ohala, 1975), mais sont à peu près
134
nulles pour les voyelles, qui par définition sont produites avec la bouche ouverte et une
pression intra-orale équivalente à la pression atmosphérique. Les contraintes articulatoires sont
également minimes, et concernent uniquement d’éventuelles modifications de la fonction d’aire
de la voyelle dans la région précise où le voile s’abaisse. Ce n’est manifestement pas cela qui
entraîne la postériorisation, les changements d’aperture et l’arrondissement des lèvres
régulièrement observés pour les voyelles nasales du français. D’autre part, l’action automatique
de contraintes physiques résulte typiquement en une variation continue dans la dimension et
dans la coordination temporelle des gestes (Fowler, 1990, Browman et Goldstein, 1992). Or,
les observations que nous avons rapportées dans cette première partie vont toutes dans le
même sens : les diverses modifications articulatoires et leurs corrélats acoustiques aboutissent
à une véritable réorganisation de la production de chaque voyelle nasale par rapport à l’orale
correspondante. Il y a un saut qualitatif entre l’une et l’autre, qui implique par exemple que
l’analyse discriminante classe plus facilement les voyelles /D,$,(,(,o,o,¡,¡/ en huit classes
différentes qu’en quatre classes regroupant l’orale et la nasale correspondante.
L’ampleur des modifications articulatoires et acoustiques, ainsi que leur constance pour
tous les locuteurs et à travers les différents contextes phonologiques, nous amènent à
envisager la possibilité que ces modifications appartiennent plus simplement à la phonologie
du français. Comme nous l’avons dit précédemment (Cf. p.130), on peut rendre compte des
ajustements articulatoires concernant les voyelles /(,¡/ dans le cadre de la théorie des
changements phonétiques proposée par John Ohala (1981). Les modifications fréquentielles
des formants induites automatiquement par le couplage nasal seul peuvent avoir été
réinterprétées par les auditeurs comme étant délibérées de la part du locuteur (même si ici la
source des modifications n’a pas disparu). Ils les auraient ensuite reproduites en utilisant divers
ajustements de la configuration articulatoire de la voyelle tels que l’arrondissement des lèvres
ou la postériorisation. Dans cette optique, la langue aurait phonologisé certaines particularités
phonétiques des voyelles nasalisées résultant des effets acoustiques du couplage des
résonateurs pharyngo-buccal et nasal. Ce type d’explication convient essentiellement pour les
voyelles nasales antérieures, à propos desquelles il faut néanmoins noter que leur nouvelle
configuration articulatoire et acoustique consiste en un dépassement, plutôt qu’en une simple
phonologisation de tendances phonétiques préexistantes : de [(], on passe à [4]. De plus, la
situation est moins claire pour /$/, qui a un F2 nettement plus bas que /D/, alors que ce n’est pas
toujours le cas pour les nasalisées [D]. Quant aux ajustements articulatoires qui surviennent
dans la production des nasales /o/ (chez les sujets féminins essentiellement), ils semblent
plutôt aboutir à la préservation d’un pôle dans la région de F2, là où le couplage nasal seul
135
l’avait anéanti24. Quoi qu’il en soit, on observe en français septentrional un mouvement général
de postériorisation qui s’appuie en partie sur les effets acoustiques du couplage nasal
proprement dit et aboutit à un renforcement de la gravité des voyelles nasales. Le renforcement
de la gravité de ces voyelles, consécutif à la convergence de divers ajustements articulatoires,
est suffisamment net et régulier pour être considéré comme faisant partie du programme des
locuteurs lorsqu’ils réalisent phonétiquement une voyelle nasale du français.
Une explication possible de la postériorisation généralisée est liée à la tendance bien
connue des voyelles nasales à se distinguer moins facilement entre elles que les orales
correspondantes. En effet, Wright (1986) a montré que l’espace acoustique des voyelles
nasales était resserré par rapport à celui des orales correspondantes, tant dans la dimension
d’aperture, que dans celle d’antériorité-postériorité (Cf. Figure 42). En conséquence, la
nasalisation a pour effet de réduire la distinctivité entre voyelles nasales, et donc leur nombre
dans les inventaires phonologiques des langues du monde25.
Figure 42. Schématisation des tendances générales observées en ce qui concerne l’évolution acoustique
(symbolisée par des flèches noires) des voyelles nasalisées (disques) par rapport aux orales correspondantes
(cercles) d’après Wright (1986). Comparaison avec le mouvement général observé en français septentrional (flèche
rouge) et en français canadien (flèche bleue).
Une fois nasalisées, les voyelles antérieures ont donc un F2 plus bas, et les
postérieures un F2 plus haut, que les orales correspondantes d’après Wright. Si le français
avait renforcé chez les nasales les mouvements opérés dans le triangle vocalique par toutes
ses voyelles nasalisées, en poursuivant jusqu’au bout la proposition faite ci-dessus, elles
auraient donc risqué de se rapprocher au point de ne plus être séparées par une distance
acoustique suffisante pour que le contraste soit maintenu entre elles. Le renforcement
généralisé de la gravité, symbolisé par une flèche rouge sur la Figure 42, permet donc
d’accroître la distance acoustique et perceptuelle entre les voyelles nasales et les orales
24
25
Voir cependant ci-dessous p.138 pour une interprétation différente des phénomènes concernant /o/.
Pour plus de détails, voir Introduction, p.11.
136
correspondantes, tout en maintenant par ailleurs une distance suffisante entre les nasales
elles-mêmes.
Ainsi, on pourrait arguer en faveur de l’existence d’une contrainte de type systémique,
en l’occurrence d’une contrainte qui limite la réalisation phonétique d’une voyelle nasale en
fonction des oppositions qu’elle entretient avec les autres voyelles dans le système
phonologique de la langue concernée. Ce type d’évolution phonétique « en chaîne » (Cf.
Labov, Yaeger et Steiner, 1972) des éléments du système phonologique permettrait également
de rendre compte du fait qu’en français canadien on observe un mouvement inverse
(représenté par une flèche bleue sur la Figure 42), soit un mouvement des nasales vers l’avant
du triangle vocalique par rapport à leur correspondante orale (Gendron, 1966, Maurais, 1993).
Dans le cas du français canadien comme dans celui du français septentrional, on considère
alors que le dialecte s’appuie sur une tendance phonétique liée à la nasalité (à savoir la
tendance des voyelles nasalisées antérieures à se postérioriser, ou bien celle des voyelles
nasalisées postérieures à s’antérioriser) pour modifier la configuration orale de toutes les
voyelles nasales dans la même direction, de façon à maintenir un contraste suffisant entre les
différentes voyelles nasales du système. Dans cette hypothèse, on a donc ici un exemple
d’interaction entre des contraintes d’ordre phonétique agissant sur le système phonologique, et
des contraintes provenant du système phonologique agissant à son tour sur les réalisations
phonétiques, c’est-à-dire un exemple de réciprocités entre la micro-structure et la macrostructure du système phonologique de la langue (Browman et Goldstein, 1990).
Quoi qu’il en soit, le renforcement du caractère grave ou, au contraire, du caractère aigu
des voyelles nasales du français par rapport aux orales correspondantes est un phénomène
qui fait manifestement partie du plan du locuteur, lorsqu’il prononce ces voyelles. Est-ce à dire
qu’il existe une règle phonologique dans les deux dialectes, qui modifierait (dans un sens ou
dans un autre) la valeur d’une voyelle pour le trait d’antériorité lorsque la spécification de cette
voyelle pour le trait de nasalité est [+N]? Nous ne le pensons pas. Nous considérons plutôt la
proposition de Kingston et Diehl (1994), qui consiste à réserver à la représentation des
propriétés contrastives des sons la manipulation des traits distinctifs, et à situer les
phénomènes de covariation articulatoire impliqués dans la réalisation phonétique d’une même
spécification phonologique au sein d’un composant phonétique contrôlé.
L’hypothèse ici est que la covariation des propriétés articulatoires et acoustiques telles
que la nasalité, la postériorisation et l’arrondissement d’une voyelle ne survient pas de façon
accidentelle, en réponse automatique à l’action de contraintes physiques, mais qu’il s’agit d’une
stratégie articulatoire contrôlée de la part du locuteur. Les locuteurs font covarier diverses
articulations, parce qu’ils ont une connaissance fine de la façon dont les effets acoustiques de
137
ces articulations interagissent, avec pour objectif ultime de renforcer chez les auditeurs
l’impression auditive de nasalité (« auditory enhancement theory », Diehl et al., 1990). La
réorganisation des articulations n’a pas pour origine une réinterprétation erronée du signal
acoustique comme dans le cas de la théorie des changements phonétiques proposée par
Ohala (1981). Pour Ohala, en effet, l’auditeur perçoit les messages en relation avec son
expérience linguistique, par exemple des phénomènes de coarticulation, et adapte son
comportement de locuteur en fonction de son interprétation des signaux acoustiques.
L’approche de Kingston et Diehl (1994) est plus téléologique, dans la mesure où le locuteur est
considéré comme à même de contrôler ses articulations dans le but d’optimiser la
communication. C’est également une hypothèse plus « cognitive », parce qu’elle pose que le
contrôle des articulations se fonde sur une véritable connaissance des mécanismes
phonétiques, tant au niveau de la production que de la perception de la parole.
L’hypothèse est donc que l’accroissement de la gravité renforce pour toutes les
voyelles, y compris les postérieures, la perception de la nasalité. Ceci peut sembler à première
vue en contradiction avec les tendances observées par Wright en ce qui concerne l’évolution
des voyelles nasales dans l’espace acoustique F1-F2 (voir ci-dessus). La Figure 42 donne à
penser qu’une antériorisation des postérieures, de même qu’une postériorisation des
antérieures, pourrait éventuellement renforcer les impressions auditives liées à la nasalité,
puisque ces modifications correspondraient aux mouvements formantiques amorcés par le
couplage nasal. En ce qui concerne le français, pourtant, nous avons constaté que, même si au
point de vue acoustique, la deuxième résonance de /o/ a une fréquence plus élevée que celle
de /o/, cette résonance est tellement peu intense que la voyelle nasale sera en fait perçue
comme une voyelle très postérieure, puisque l’essentiel de l’énergie en basses fréquences sera
ramassé sous 800 Hz. Cette résonance est très peu intense parce que lorsque des
modifications articulatoires interviennent dans le cas de la nasale (de recul, et de soulèvement
de la langue dans la région vélaire), elles favorisent un accroissement de la contribution des
fosses nasales dans le spectre du système couplé (voir p.110). Nous considérons donc que
l’objectif des locuteurs est bien celui d’un renforcement de la gravité de toutes les voyelles
nasales du français /(,¡,$/, et /o/26.
En quoi l’accroissement de la gravité d’une voyelle pourrait-il renforcer l’impression
auditive de nasalité ? Nous avons vu que l’effet acoustique principal du couplage nasal
consistait en une perte d’énergie dans la région de F1 et dans celle de F3, soit sous 1000 Hz et
26
Cette hypothèse sera confirmée par les expériences de perception (Cf. p.176), au cours desquelles nous avons
synthétisé avec succès la voyelle nasale /o/ avec un F2 plus bas que celui de /o/.
138
entre 2000 et 3000 Hz, alors que la plage fréquentielle située entre 1000 et 2000 Hz est
relativement peu affectée. Les ajustements articulatoires qui viennent modifier la configuration
orale des voyelles nasales aboutissent, dans le cas des antérieures, à un F2 plus bas et plus
proéminent. L’énergie est d’autant plus réduite au-delà de F2, dans la région de F3. Dans le cas
des voyelles nasalisées comme dans celui des voyelles nasales, l’énergie est donc ramassée
entre 1000 et 2000 Hz, et l’on peut considérer que la gravité de la voyelle renforce sa
compacité. En ce qui concerne les postérieures, l’accroissement de la gravité renforce le
percept de nasalité parce qu’il réduit encore la plage en basses fréquences où ne se manifeste
pas la chute généralisée de l’énergie ; la gravité rehausserait donc l’effet acoustique de la perte
d’intensité.
Pour résumer, notre hypothèse de l’interaction des contraintes systémiques et
phonétiques suppose que seule la postériorisation des antérieures constitue un renforcement
des tendances acoustiques amorcées par le couplage nasal proprement dit, mais que le
français septentrional postériorise toutes ses voyelles nasales de façon à maintenir la
distinction entre elles. L’hypothèse du contrôle phonétique à des fins de renforcement auditif
pose que l’ensemble des ajustements articulatoires survenant pour les voyelles nasales
contribuent à une meilleure perception de la nasalité, et que les locuteurs ont précisément
adapté leur comportement phonétique à cette fin.
Le modèle d’implémentation phonétique contrôlée a un avantage supplémentaire, c’est
qu’il permet d’intégrer les phénomènes observés en ce qui concerne la nasalité contextuelle en
français. L’un des principaux résultats de la première partie de ce travail, en effet, est qu’il
existe une certaine quantité de nasalité phonétique en français (due à l’abaissement seul du
voile du palais) qui dépasse dans certains cas ce qui est strictement nécessaire si l’on
considère uniquement les contraintes liées à l’inertie du voile. Dans l’hypothèse où les
ajustements articulatoires font partie d’une stratégie de production contrôlée dans le but de
renforcer le percept de nasalité, le contraste phonologique de nasalité en français s’appuie
autant sur les indices acoustiques liés à ces articulations additionnelles que sur le couplage
nasal proprement dit27. La nasalité strictement phonétique peut alors, dans certains cas, être
utilisée par la langue à d’autres fins. Nous avons envisagé au moins deux cas de ce type dans
les chapitres précédents : celui de l’abaissement généralisé du voile du palais lors de la
27
Un indice supplémentaire en faveur du fait que la nasalité phonétique ne constitue pas nécessairement le coeur
du contraste phonologique de nasalité en français est que, dans les transitions entre consonnes orales et voyelles
nasales, le déclenchement de l’abaissement du voile du palais semble lié à aux contraintes relatives à la production
(ou à la perception) de la consonne et non à la voyelle elle-même. C’est exactement le contraire en ce qui concerne
les ajustements de la configuration orale des voyelle nasales, dont l’évolution temporelle est toujours coordonnée
avec le début de la voyelle.
139
production de la voyelle /D/, et celui de la nasalisation progressive, qui est plus importante que
la nasalisation régressive en français comme dans d’autres langues. Ainsi, nous avons proposé
que les locuteurs utilisent leur connaissance phonétique des phénomènes liés respectivement
à la perception des voyelles orales ouvertes et à celles des consonnes nasales, et qu’ils
nasalisent en conséquence tout ou partie de segments dont la spécification phonologique pour
le trait de nasalité est [-N]. Cela n’est possible que si le contraste phonologique de nasalité est
implémenté phonétiquement de façon particulièrement robuste, de sorte que les segments [+N]
ne risquent pas d’être confondus avec des segments [-N] phonétiquement nasalisés.
Parallèlement, les segments [-N] seront d’autant moins nasalisés contextuellement qu’ils
risquent le plus d’être confondus avec un segment [+N]. Ainsi, pour rendre compte du taux
élevé de nasalité des voyelles (semi-)fermées dans certains contextes, nous avons argumenté
en faveur d’une explication fondée sur la connaissance phonétique, plutôt que sur une
contrainte de type systémique, parce qu’en contexte phonologique nasal la voyelle orale la
moins nasalisée n’est pas celle qui correspond phonologiquement à une nasale mais celle qui
lui correspond phonétiquement (Cf. p.90). C’est la voyelle dont la configuration orale est la plus
proche de la nasale qui est la moins nasalisée contextuellement, ce qui permet d’éviter que
l’auditeur ne confonde l’une et l’autre.
En résumé, l’interprétation que nous proposons des phénomènes relatifs à la production
des voyelles orales et nasales en français est la suivante : la réalisation phonétique de la
spécification phonologique [+N] pour les voyelles du français s’appuie autant sur les propriétés
acoustiques liées au couplage nasal (faible intensité, grande compacité de la voyelle), que sur
celles issues des articulations additionnelles (accroissement de la gravité). Nous pensons qu’il
peut y avoir une motivation d’ordre perceptuel à la covariation de ces diverses propriétés
articulatoires et acoustiques dans la réalisation du contraste de nasalité en français. Tester
cette hypothèse sera l’un des objectifs de la deuxième partie de ce travail. Par ailleurs, nous
considérons que dans certaines conditions, la réalisation de la spécification phonologique [-N]
s’accompagne explicitement d’un certain taux de couplage nasal, c’est-à-dire qu’un certain
degré de nasalité phonétique fait partie intégrante du plan du locuteur lorsqu’il réalise ces
segments. Nous pensons que les phénomènes impliqués dans la réalisation phonétique des
sons phonologiquement [-N] et [+N] ne peuvent être situés ni dans un composant phonétique
purement automatique, ni dans la phonologie de la langue stricto sensu, et que le modèle de la
phonétique contrôlée proposé par Kingston et Diehl (1994) est celui qui rend le mieux compte
de l’ensemble des observations faites en ce qui concerne la production des voyelles nasales du
français.
140
Deuxième partie : Perception des voyelles
nasales du français
Introduction et méthodologie générale
1.
Questions de recherche
Cette deuxième partie de la thèse est consacrée à la perception du contraste
phonologique de nasalité pour les voyelles du français. Suite aux résultats obtenus en
production de la parole, nous avons développé notre étude perceptuelle autour de quatre
questions de recherche :
(1) La question de la validité des propriétés acoustiques observées en tant qu’indices
perceptuels de la nasalité vocalique. Nos travaux consacrés aux aspects acoustiques
de la nasalité vocalique ont permis de dégager un ensemble de régularités
caractéristiques de la production des voyelles nasales du français, qui sont autant de
candidats au titre d’indices perceptuels de la nasalité. Pourtant, il est tout à fait possible
que les auditeurs n’accordent qu’une attention très minime à certaines de ces
propriétés, lorsqu’ils doivent décider si une voyelle donnée est orale ou nasale en
français. Le premier objectif de l’étude perceptuelle est donc de déterminer les
propriétés acoustiques qui signalent la nasalité en français, et ce, indépendamment de
la voyelle concernée. Les propriétés acoustiques considérées sont : la durée de la
voyelle, son intensité, sa compacité, et sa gravité (avec ou sans évolution dynamique
en début de segment)28. Sur la base de ces propriétés acoustiques, nous avons
synthétisé divers continuums orale-nasale, qui constituent les ensembles de stimuli
utilisés lors des expériences de perception.
(2) La question de la primauté de certaines propriétés acoustiques en tant qu’indices
perceptuels de la nasalité. L’un des résultats principaux de la première partie concerne
en effet l’importance des articulations complémentaires à l’abaissement du voile du
palais lors de la production des voyelles nasales, notamment en termes de distance
acoustique entre les nasales et les orales correspondantes. L’étude perceptuelle devra
donc déterminer la contribution relative des effets acoustiques liés à ces deux types de
phénomènes articulatoires (abaissement du voile et ajustements complémentaires) en
ce qui concerne la perception de la nasalité pour les voyelles du français. A cette fin,
nous avons synthétisé les différents continuums orale-nasale en faisant varier les
propriétés des voyelles simultanément le long de deux dimensions acoustiques, l’une
correspondant au couplage nasal proprement dit (Intensité ou Compacité), et l’autre
aux effets acoustiques des articulations additionnelles (Gravité). La comparaison des
28
Pour plus de détails concernant la façon dont nous avons mis en oeuvre ces diverses propriétés, Cf. p.149 cidessous.
143
performances des auditeurs en fonction des propriétés des différents stimuli (c’est-àdire de leur valeur le long de chaque dimension) permet de répondre à la question de la
primauté d’une dimension acoustique par rapport à l’autre lors de la détection du
contraste de nasalité pour les voyelles du français.
La question du mode d’interaction des deux dimensions acoustiques au niveau
perceptuel. A supposer que les deux groupes d’indices acoustiques (ceux liés au
couplage et ceux liés aux autres articulations) soient effectivement nécessaires à la
bonne perception de la nasalité vocalique, et indépendamment de leur poids respectif
dans la décision finale, l’étude perceptuelle a plus généralement pour objectif de
déterminer la façon dont ces deux types de propriétés acoustiques interagissent dans la
perception des auditeurs. Les deux types d’indices sont-ils pris en compte
indépendamment (par exemple par combinaison linéaire des valeurs prises par la
voyelle le long de chaque dimension) au cours de la stratégie de décision qui vise à
déterminer si la voyelle perçue est une nasale ou une orale ? Ou bien les deux
dimensions acoustiques sont-elles intégrées perceptuellement à un stade précoce du
traitement auditif du signal reçu ? Apporter une réponse à ces questions permet de
vérifier l’hypothèse que nous avons émise dans la première partie quant aux raisons
pour lesquelles les diverses articulations covarient lors de la production d’une voyelle
nasale du français. Dans le cadre de l’hypothèse de la connaissance phonétique, nous
proposons en effet que les locuteurs contrôlent la covariation des diverses articulations
lorsqu’ils réalisent une voyelle nasale du français, parce que les corrélats acoustiques
des articulations covariantes se rehaussent mutuellement au point de vue auditif. Les
deux dimensions acoustiques relatives à la compacité et à la gravité d’une voyelle
seraient auditivement intégrées, c’est-à-dire que la valeur d’un stimulus le long de l’une
de ces dimensions influencerait automatiquement sa valeur le long de l’autre dimension
dans la perception des auditeurs. Dans cette hypothèse, la covariation du couplage
nasal et des articulations orales additionnelles accroît la distance perceptuelle entre
deux voyelles par rapport à la distance acoustique qui les sépare effectivement. En
somme, les locuteurs francophones tireraient avantage d’une propriété générale du
système auditif humain, à savoir l’intégration auditive de certaines dimensions
acoustiques, afin de renforcer le contraste phonologique de nasalité au sein du système
vocalique du français.
La question de l’influence du contexte phonologique (oral vs. nasal) sur la perception
du contraste phonologique de nasalité pour les voyelles du français. Les trois questions
144
de recherche précédemment envisagées, de validité, de primauté, et d’interaction
perceptuelle des indices acoustiques de la nasalité, nécessitent qu’on leur apporte une
réponse en relation avec le contexte phonologique (oral ou nasal) dans lequel la voyelle
synthétisée est placée. Par exemple, la baisse de gravité est-elle un indice nécessaire
à la perception de la nasalité lorsque la voyelle est située en contexte phonologique
oral ? A-t-elle un poids perceptuel plus important lorsque la voyelle est précédée d’une
consonne nasale ? Par ailleurs, la nature ou le degré d’interaction perceptuelle entre les
deux dimensions acoustiques varient-ils en fonction du contexte ? Le contexte
phonologique
nasal
bloque-t-il
une
éventuelle
intégration
perceptuelle ?
La
comparaison des performances de nos auditeurs en fonction du contexte phonologique
permet notamment de tester notre hypothèse selon laquelle le couplage nasal pendant
la voyelle a une fonction spécifique, donc participe explicitement à la réalisation
phonétique des items de type NV, et que cela est possible parce que la nasalité
phonologique en général s’appuie en français sur d’autres indices perceptuels que ceux
liés au couplage proprement dit (Cf. p.139). Il s’agit de dégager des motivations d’ordre
perceptuel à une éventuelle stratégie générale de contrôle de l’abaissement du voile du
palais lors de la réalisation phonétique de voyelles orales et nasales en français.
2.
Paradigmes expérimentaux
Pour traiter des questions de recherche énoncées ci-dessus, nous avons mené un
ensemble d’expériences perceptuelles sur des auditeurs francophones et anglophones. Les
questions de validité et de primauté perceptuelle des indices acoustiques de la nasalité ont été
essentiellement traitées au moyen de plusieurs expériences d’identification. D’autres
expériences, de discrimination celles-là, avaient pour objet le mode spécifique d’interaction
perceptuelle des dimensions acoustiques.
2.1.
Identification
Deux paradigmes expérimentaux ont été utilisés pour les expériences perceptuelles
d’identification: « ID1 » et « ID2 ». Le premier paradigme expérimental, ID1, est une adaptation
du trading relations paradigm (Repp, 1982, Krakow et al. 1988). Ce paradigme a été
initialement conçu pour diagnostiquer les phénomènes d’interaction perceptuelle entre
différents indices acoustiques, appelés aussi « phénomènes de compensation » (trading
relations) en référence au fait que des sons différant par les valeurs de plusieurs indices
acoustiques peuvent être équivalents d’un point de vue perceptuel (Calliope, 1989). Le principe
général est de faire varier la valeur d’un stimulus le long d’une dimension acoustique principale
145
dont on suppose qu’elle est le corrélat d’une distinction phonétique particulière (p.ex. la
nasalité), et d’assigner aux auditeurs une tâche d’identification des stimuli à partir d’un choix
forcé de réponses, p.ex. : « Avez-vous entendu tel mot (avec une voyelle orale) ou bien tel mot
(avec une voyelle nasale) ? ». On compare les réponses avec celles obtenues au cours de la
même tâche, mais pour des stimuli qui ont une autre valeur le long d’une dimension acoustique
secondaire (p.ex. la fréquence de F2). La Figure 43 illustre la façon dont on analyse
généralement les données perceptuelles issues d’un tel paradigme. On détermine tout d’abord
la frontière entre les deux catégories phonétiques (p.ex. entre la voyelle orale /D/ et la voyelle
nasale /$/), qui est définie a priori comme le stimulus pour lequel on obtient en moyenne 50%
des réponses en faveur de chaque catégorie. Ensuite, si le fait de faire varier les stimuli le long
de la seconde dimension amène la frontière à se déplacer (boundary shift ou « saut de
frontière »), on conclut qu’il y a interaction perceptuelle entre les deux dimensions acoustiques.
Réponses [+X]
(en %)
Dimension secondaire
Valeur 1
Valeur 2
50%
Dimension principale
-X
Saut de frontière
+X
Figure 43. Schématisation de l’analyse des données dans le trading relations paradigm.
Ainsi, le trading relations paradigm est adapté à l’étude des oppositions phonologiques
dont on pense qu’elles se fondent en perception sur des indices provenant de plusieurs
dimensions acoustiques, ce qui est le cas de la nasalité en français. Cependant, comme le
soulignent Kingston et Macmillan (1995), la version la plus répandue de ce paradigme traite les
deux dimensions acoustiques de façon assymétrique, parce que les stimuli prennent
typiquement un plus grand nombre de valeurs le long de la dimension principale que le long de
la dimension secondaire, et surtout parce que la tâche d’identification phonétique correspond
en priorité à la dimension acoustique principale. C’est pourquoi nous avons quant à nous
utilisé, pour chaque condition testée, un espace de stimuli à deux dimensions (Gravité, d’une
146
part, Intensité ou Compacité, d’autre part) où chaque dimension acoustique compte le même
nombre de pas, pour un total de 7*7 ou 5*5 stimuli. La tâche d’identification concernait des
mots contenant des voyelles qui s’opposent phonologiquement au point de vue de la nasalité
(p.ex. « Avez-vous entendu tête ou bien teinte ? »). Dans nos expériences, la tâche
d’identification ne favorisait donc a priori aucune des dimensions, même si l’une d’entre elles
est plus spécifiquement liée aux effets acoustiques du couplage nasal proprement dit.
Par ailleurs, Kingston et Macmillan (1995) rappellent que, même si le trading relations
paradigm est destiné à déterminer s’il y a interaction perceptuelle ou non entre deux
dimensions acoustiques, il ne permet pas pour autant de distinguer l'
origine de l’interaction
éventuelle : se situe-t-elle à un niveau sensoriel, à un stade précoce du traitement auditif du
signal, ou bien fait-elle partie d’un mécanisme de décision proprement phonétique, fondé sur
l’expérience linguistique de l’auditeur29 ? Nous traitons cette question du mode spécifique
d’interaction perceptuelle des dimensions acoustiques au moyen d’autres expériences (de
discrimination), inspirées du paradigme de Garner (voir ci-dessous). Quoi qu’il en soit, le
paradigme ID1 nous a permis de tester au cours de diverses expériences d’identification la
validité perceptuelle des divers indices acoustiques de la nasalité sélectionnés sur la base des
expériences effectuées en production de la parole. Par ailleurs, la comparaison des
performances enregistrées pour des stimuli variant orthogonalement le long des deux
dimensions acoustiques nous a permis d’évaluer la contribution relative de chacune de ces
dimensions en ce qui concerne la perception du contraste phonologique de nasalité pour les
voyelles du français.
Des expériences d’identification d’un second type ont également été menées (ID2), qui
consistaient à demander aux auditeurs de répartir explicitement chaque membre de l’espace
des stimuli dans un espace de décision divisé en quatre classes : (i) celle des voyelles orales,
(ii) celle des voyelles nasales, (iii) celle des voyelles intermédiaires entre l’orale et la nasale, et
(iv) celle des voyelles complètement étrangères aux classes orale et nasale. Nous avons
ensuite demandé aux auditeurs de classer entre elles, du meilleur au moins bon prototype de
sa classe, les voyelles qu’ils venaient de désigner comme orales ou nasales. Ces expériences
ont notamment permis d’affiner l’analyse de la validité perceptuelle des différents indices
acoustiques sélectionnés pour la nasalité, parce qu’elles donnaient aux auditeurs l’occasion de
préciser dans quel(s) cas spécifiques la covariation des propriétés acoustiques était la plus (la
moins) appropriée aux deux prototypes phonétiques visés. La comparaison des voyelles
29
L’interaction effectivement mesurée peut parfois être interprétée comme le produit de l’action simultanée des deux
mécanismes, comme dans le cas des dimensions d’aperture et de nasalité vocalique (Macmillan et al. 1999).
147
synthétiques préférées avec les voyelles produites en parole naturelle nous a permis de
compléter notre caractérisation acoustique des nasales du français.
2.2.
Discrimination
Les expériences de discrimination (« DISC ») ont été effectuées sur la base d’un
protocole expérimental mis au point par John Kingston et Neil Macmillan (Kingston et
Macmillan 1995, Macmillan et al. 1999) à partir du paradigme de Garner (1974). Le principe
général est de construire l’espace perceptuel des auditeurs (vs. espace acoustique des stimuli)
à partir des performances enregistrées au cours de diverses tâches de discrimination entre les
stimuli pris deux à deux. C’est dans l’espace perceptuel obtenu que l’on mesure le degré
d’intégration des deux dimensions acoustiques initiales, indépendamment de tout critère
éventuellement utilisé par les auditeurs lorsqu’ils doivent prendre une décision d’ordre
phonétique.
Dans le cadre du protocole expérimental DISC, nous avons tout d’abord conduit de
multiples expériences de discrimination de type « oui-non » concernant chacune une paire de
stimuli qui différaient d’un pas seulement le long de l’une ou des deux dimensions acoustiques
sélectionnées. A partir des performances des auditeurs dans les tâches de discrimination, nous
avons calculé pour chaque paire de stimuli la valeur de d’, qui constitue une estimation de la
distance perceptuelle entre les deux stimuli d’après la théorie de la détection du signal (Green
et Swets, 1966, Macmillan et Creelman, 1991). Nous avons ensuite introduit les valeurs de d’
obtenues pour toutes les paires dans une procédure statistique de proportionnalisation
multidimensionnelle (« multidimensional scaling », en l’occurence ici : INDSCAL), qui avait pour
fonction de construire un modèle géométrique à deux dimensions de l'
espace perceptuel
correspondant à l’espace acoustique initial des stimuli (Cf. Figure 44). Enfin, nous avons évalué
l’intégration perceptuelle des dimensions acoustiques initiales en mesurant dans l’espace
perceptuel dérivé l’angle T, défini comme l’angle entre les deux droites qui relient les
centroïdes des stimuli ayant une même valeur sur l’une des dimensions acoustiques
initiales30. Cette méthode a été appliquée à plusieurs sous-ensembles (2*2) de chaque espace
de stimuli (5*5).
L’avantage du paradigme expérimental DISC est qu’il permet d’estimer la sensibilité des
auditeurs aux différents stimuli qui leur sont présentés, en dehors des diverses stratégies qu’ils
développent lorsqu’ils doivent prendre une décision d’ordre phonétique. Si les dimensions
acoustiques initiales font l’objet d’un certain degré d’intégration au point de vue auditif
30
Pour plus de détails, Cf. pp.208 et suivantes.
148
(sensoriel), cela signifie que la perception de la valeur d’une voyelle le long d’une dimension
donnée (par exemple, son intensité) est automatiquement influencée par sa valeur le long de
l’autre dimension (par exemple, sa gravité). Ainsi, les expériences perceptuelles de
discrimination nous ont permis de vérifier l’hypothèse selon laquelle la covariation des
dimensions acoustiques propres à la réalisation phonétique de la nasalité vocalique accroît la
distance perceptuelle entre voyelles orales et voyelles nasales en français par rapport à la
distance acoustique qui les sépare effectivement. En fonction des résultats obtenus, nous
pourrons éventuellement élaborer plus avant l’hypothèse d’une réalisation phonétique contrôlée
du contraste phonologique de nasalité en français (Cf. Discussion générale, p.265).
ESPACE DES STIMULI
ESPACE PERCEPTUEL
d’
T
90°
d’
d’
Figure 44. Schématisation de la méthode utilisée pour l’analyse des données des expériences de discrimination. Les
cercles représentent la position des stimuli, à gauche dans l’espace acoustique, à droite dans l’espace perceptuel
des auditeurs reconstruit par INDSCAL à partir des valeurs de d’ obtenues au cours de diverses tâches de
discrimination entre les stimuli pris deux à deux. L’angle θ a été choisi pour mesurer le degré d’intégration
perceptuelle entre les deux dimensions acoustiques initiales.
En résumé, les diverses expériences menées (ID1, ID2 et DISC) nous ont permis de
déterminer si oui ou non, et si oui, dans quelle mesure et pour quelles raisons, les indices
acoustiques liés au couplage nasal d’une part, et aux articulations additionnelles d’autre part,
sont pris en compte par les auditeurs lors de la détection du contraste de nasalité pour les
voyelles du français.
3.
Stimuli
Dans cette section, nous exposons de façon détaillée la méthode utilisée pour fabriquer
les stimuli. Au cours des diverses expériences menées (notamment entre l’expérience pilote et
les expériences perceptuelles proprement dites), certains choix méthodologiques ont été
posés, et les valeurs de plusieurs paramètres modifiées, mais le principe général de
constitution des espaces de stimuli est resté celui présenté ci-dessous.
149
Tous les stimuli sans exception sont des items de type C1VC2, où C1 et C2 sont des
consonnes prononcées en parole naturelle (par un seul et même locuteur dans tous les cas), et
V est une voyelle synthétisée par nos soins. Cette méthode permet de contrôler pleinement les
paramètres acoustiques qui caractérisent les voyelles étudiées tout en construisant des stimuli
de bonne qualité, c’est-à-dire acceptables par les auditeurs par rapport à des mots prononcés
en parole naturelle.
La synthèse des stimuli a été réalisée à l’aide d’une application personnalisée réalisée
en iShell par Alain Soquet, ingénieur au Laboratoire de Phonologie de l’ULB. La Figure
45 montre l’interface proposée à l’utilisateur de ce logiciel. Le module de synthèse de la parole
intégré dans le logiciel est le synthétiseur de Klatt (1980). L’utilisateur spécifie les valeurs pour
les 60 paramètres du synthétiseur à certains moments du signal t1, t2, t3, etc., puis le logiciel
interpole les valeurs des paramètres entre les différents repères temporels spécifiés pour un
stimulus donné.
Ref 3
Ref 2
Ref 1
Figure 45. Interface utilisateur de l’application réalisée en iShell afin de construire les espaces de N*N stimuli utilisés
au cours des différentes expériences perceptuelles.
150
Dans le cas illustré par la Figure 45, l’utilisateur a choisi de travailler à partir de 7
repères temporels, qui sont représentés sur le spectrogramme et sur le signal acoustique par
des lignes verticales rouge placés aux moments correspondants. Les trajectoires des valeurs
spécifiées pour les fréquences des quatre premiers formants sont représentées sur la figure
par des lignes oranges. Par ailleurs, l’application est destinée à faciliter la construction
d’espaces de stimuli dont les paramètres acoustiques varient linéairement le long de deux
dimensions. Pour ce faire, l’utilisateur doit spécifier le nombre N de pas désirés (N est identique
pour les deux dimensions), ainsi que les valeurs des paramètres pour les stimulis de référence
Ref 1, Ref 2 et Ref 3 qui sont situés aux extrémités de l’espace des stimuli. Sur la Figure 45, on
voit que l’utilisateur a choisi un espace de 7*7 stimuli, qui est représenté en bas à gauche de la
fenêtre avec les stimuli de référence symbolisés par des disques rouge. Le logiciel se charge
d’interpoler les valeurs des paramètres pour tous les stimuli situés entre les stimuli de
référence en fonction du nombre de pas désirés, et crée ensuite les N*N signaux acoustiques
correspondants, en insérant à chaque fois la voyelle synthétisée dans le signal acoustique
« porteur » (ici, les consonnes naturelles) préalablement déterminé par l’utilisateur.
Chaque expérience perceptuelle porte sur tout ou partie des stimuli appartenant à un
espace donné. Dans tout espace de N*N stimuli, on fait varier les propriétés de la voyelle
synthétique (insérée dans un item C1VC2) le long de deux dimensions acoustiques, de sorte
que la voyelle évolue de l’orale à la nasale phonologique correspondante. La voyelle
synthétique dont les coordonnées sont (1,1) dans l’espace cartésien ainsi défini est le prototype
de la voyelle orale, alors que la voyelle (N,N) est le prototype de la voyelle nasale.
NASALE
Intensité
Compacité
+
NASALISÉEE
+
NOUVELLE
CONFIGURATION
ORALE
ORALE
Gravité
+
Figure 46. Schématisation des espaces de stimuli à deux dimensions utilisés pour les expériences perceptuelles.
151
La première dimension acoustique est représentée en abscisse dans la Figure 46. Elle
est destinée à représenter les effets acoustiques des articulations additionnelles à
l’abaissement du voile du palais. C’est la dimension de Gravité, qui consiste en un
abaissement croissant du F2 de la voyelle à partir de la fréquence qu’il occupe pour la voyelle
orale. La deuxième dimension, représentée en ordonnée dans la Figure 46, concerne les
indices acoustiques liés à l’abaissement du voile du palais. Au cours de l’expérience pilote, on
a envisagé deux façons de synthétiser les modifications en termes d’énergie qui ont été
observées dans le spectre des voyelles lorsqu’elles sont nasalisées. La deuxième dimension
peut donc être soit une dimension relative à l’intensité générale de la voyelle, ou bien à sa
compacité :
L’Intensité diminue le long de la seconde dimension, c’est-à-dire que la bande
passante des cinq formants de la voyelle augmente, jusqu’à être finalement doublée à
l’extrémité de la dimension pour les stimuli (x,N).
Ou bien c’est la Compacité qui augmente le long de la seconde dimension, c’est-à-dire
que les bandes passantes de F1 et surtout de F3 augmentent fortement (respectivement
de 100 à 250 Hz et de 90 à 500 Hz), alors que la bande passante en F2 diminue (de
110 à 80 Hz) lorsqu’on passe d’une voyelle orale (x,1) à une nasalisée (x,N).
En fonction de la dimension combinée avec celle de Gravité (Intensité ou Compacité),
on obtient donc deux familles d’espaces de stimuli, que nous appelons respectivement « I par
G » et « C par G ». Nous avons en effet synthétisé plusieurs versions de ces deux espaces, qui
diffèrent en fonction de la durée retenue pour les voyelles (brèves ou longues) d’une part, et en
fonction de l’évolution temporelle des différents paramètres au cours des voyelles d’autre part
(« Dyn I » vs. « Dyn II »).
Deux espaces de stimuli peuvent donc se distinguer au niveau de la durée de leurs
stimuli (p.ex. « I par G brèves » vs. « I par G longues »), mais sauf exception toutes les
voyelles au sein d’un espace donné sont de même durée. De cette façon, on peut étudier l’effet
de la durée d’une voyelle sur la détection du contraste de nasalité, par exemple en déterminant
si le taux d’identification de voyelles nasales est plus élevé lorsque la voyelle est plus longue
toutes choses étant égales par ailleurs. Mais on sépare l’étude de cet effet de celle de
l’interaction des deux dimensions acoustiques principales, de façon à ne pas favoriser a priori
une stratégie de combinaison des deux types d’indices. En effet, si la durée de la voyelle orale
(1,1) est de 200 ms, et que la durée de la voyelle nasalisée (1,N) comme de la voyelle la plus
grave (N,1) est de 250 ms, l’interpolation des valeurs de durée aboutit à ce que la durée de la
152
voyelle nasale cible (N,N) est de 300 ms. A supposer qu’une plus grande durée favorise
l’identification de voyelles nasales, on favorise alors a priori une stratégie de combinaison des
deux indices par les auditeurs au détriment de l’utilisation d’une seule dimension. Or, ce que
nous voulons avant tout déterminer, c’est si la combinaison des deux dimensions est
nécessaire à la bonne détection de la nasalité phonologique en français, indépendamment de
tout autre facteur (notamment de durée). C’est pourquoi, sauf exception, les mots entre
lesquels nos auditeurs doivent choisir comportent tous une voyelle déjà relativement longue en
français. C’est le cas des nasales (p.ex. dans les mots teinte [W(:W], tante [W$:W]), qui sont
intrinsèquement longues, mais aussi des voyelles orales dans les mots tête [W(:W] et tâte [WD:W],
que nous avons précisément sélectionnés pour cette raison31.
En ce qui concerne l’évolution temporelle des paramètres au cours des voyelles, nous
avons choisi de comparer les performances obtenues dans deux cas, appelés « Dyn I » et
« Dyn II ». Ce que nous avons voulu avant tout étudier, c’est l’apport éventuel au niveau
perceptuel du « retard » avec lequel les facteurs acoustiques liés à la nasalité semblent
atteindre leur cible au cours de la première moitié de la voyelle dans les items C[occlusive]VC (Cf.
p.123) :
Dans le cas des espaces de stimuli de type Dyn II, l’évolution temporelle des
paramètres de la voyelle est en tout point coordonnée. Ainsi, il n’y a qu’une brève
phase de transition formantique en début de voyelle (entre t1 = 0 ms et t2 = 20 ms). Dès
t2, les formants ont atteint leur valeur cible tant en ce qui concerne leur fréquence que
leur bande passante. Ils la conservent jusqu’en t6, puis entre t6 et t7, il y a une courte
phase de transition vers la consonne suivante. Dans les stimuli de type Dyn II, les
voyelles sont donc plus graves et/ou moins intenses (ou plus compactes) dès t2. Les
repères temporels t3 à t6 servent exclusivement à appliquer un contour approprié à la F0
de la voyelle.
Pour les espaces de stimuli de type Dyn I, l’évolution temporelle des paramètres de la
voyelle diffère selon que ces paramètres sont liés à la nasalité ou non. Ainsi, en t2,
seuls F1 et F3 ont atteint leur fréquence cible. Les paramètres liés à la nasalité, c’est-àdire la fréquence éventuellement plus basse de F2 ainsi que les bandes passantes
éventuellement plus élevées de certains formants, n’atteignent leur cible qu’en t3 (= 40
ms). Dans le cas des stimuli Dyn I, les voyelles n’atteignent donc leur plus haut degré
de nasalité qu’en t3. On peut voir une illustration de ce phénomène sur le
31
A propos du statut phonologique de la quantité vocalique en français de Belgique, Cf. Dominicy (2000).
153
spectrogramme de la Figure 45 (qui concerne la voyelle grave Ref 2 pour un continuum
D/$) : F2 n’atteint sa fréquence cible qu’en t3, soit 20 ms plus tard que les autres
formants de la voyelle. Une conséquence importante est que la valeur intermédiaire
pour la fréquence de F2 (au moment t2) correspond précisément à la fréquence du F2 de
la voyelle orale, soit en l’occurrence 1150 Hz. En conséquence, la méthode utilisée
pour synthétiser les voyelles nasales dans les espaces Dyn I correspond à ce que nous
avons observé en production de la parole, à savoir que l’on passe en début de voyelle
nasale de la configuration orale pour l’orale correspondante à la configuration orale
cible pour la nasale proprement dite. Cela est vrai dans nos stimuli (toutes expériences
confondues) des voyelles /D/ et /o/, mais pas des voyelles /(/ comme le montre la Table
17. Nous tenons compte de ces particularités dans l’analyse des résultats.
Table 17. Fréquences comparées de F2 pour Ref 1 (voyelles orales) et Ref 2 (voyelles avec une nouvelle
configuration orale) en fonction du moment de la voyelle (t1 à t7) dans le cas des espaces de stimuli de type Dyn I de
l’expérience perceptuelle principale. Les valeurs affichées en noir sont celles qui diffèrent par rapport à l’extrémité
orale du continuum.
F2
D/$
o/o
(/(
4.
t1
t2
t3
t4
t5
t6
t7
Orale
Ref 1
1400
1150
1150
1150
1150
1150
1400
Grave
Ref 2
1400
1150
900
900
900
900
1400
Orale
Ref 1
1100
900
900
900
900
900
1100
Grave
Ref 2
1100
900
720
720
720
720
1100
Orale
Ref 1
1600
1700
1700
1700
1700
1700
1700
Grave
Ref 2
1600
1575
1550
1550
1550
1550
1550
Expérience pilote
Préalablement aux expériences perceptuelles proprement dites, nous avons mené au
mois de février 2002 une expérience pilote (avec un paradigme ID1) dont les résultats ont
guidé nos choix méthodologiques pour les expériences suivantes. Les objectifs de l’expérience
pilote étaient les suivants :
(1) Tester les aspects pratiques de la procédure expérimentale (temps accordé pour la
réponse après présentation des stimuli, durée des phases d’entraînement préalables
aux phases de tests, durée totale des sessions expérimentales, etc.).
154
(2) Obtenir de premières indications quant à la validité des indices acoustiques retenus,
de façon à ne pas inclure dans les expériences proprement dites des indices peu
pertinents. Il s’agissait en particulier de déterminer laquelle des deux dimensions
acoustiques candidates (Intensité ou Compacité) était la plus efficace en ce qui
concerne la synthèse de la nasalisation phonétique (résultant du couplage nasal
proprement dit).
(3) Déterminer la « différence juste perceptible » (JND ou « just noticeable difference »)
sur chaque dimension acoustique finalement retenue, afin de spécifier le nombre N de
pas à conserver par la suite dans les différents espaces de N*N stimuli.
(4) Déterminer sur base expérimentale les stimuli-frontières (Cf. p.146) entre les
catégories phonétiques orales et nasales, de façon à centrer sur ceux-ci les sousensembles de stimuli utilisés au cours des expériences de discrimination (DISC).
4.1.
Matériel et méthode
En suivant la méthode exposée ci-dessus, nous avons créé pour l’expérience pilote
divers espaces de 7*7 stimuli de type C1VC2, où la voyelle synthétique V variait soit de l’orale
/D/ à la nasale /$/, soit de l’orale /(/ à la nasale /(/. Les deux consonnes C1, C2 étaient toutes les
deux /W/, de sorte que la question d’identification posée aux auditeurs était la suivante : « Avezvous entendu tâte (tête) ou bien tante (teinte)? »
Nous avons testé au cours de l’expérience pilote le paradigme expérimental ID1 sur
quatre espaces de stimuli par voyelle. Pour /D,$/, il s’agissait de quatre espaces de type C par
G, à savoir : Dyn I brèves, Dyn I longues, Dyn II brèves et Dyn II longues. Pour /(,(/, il s’agissait
de quatre espaces de type Dyn I, à savoir : C par G brèves, C par G longues, I par G brèves et
I par G longues. La Table 18 donne les valeurs cible des fréquences et des bandes passantes
des formants F1 à F5 pour les voyelles situées aux quatre extrémités des espaces de stimuli, et
ce pour les deux timbres vocaliques étudiés. La durée totale des voyelles était de 200 ms pour
les brèves et de 250 ms pour les longues. Pour les stimuli de type Dyn II, toutes les cibles
étaient atteintes à t2 = 20 ms, alors que pour les stimuli de type Dyn I, les paramètres relatifs à
la nasalité atteignaient leur cible à t3 = 40 ms, en passant en t2 par une valeur intermédiaire
entre les valeurs à t1 et t3 (Cf. Table 17 en ce qui concerne F2).
Sept auditeurs belges francophones ont participé à l’expérience, trois pour la voyelle /D/
et quatre pour la voyelle /(/. Trois sessions expérimentales ont été nécessaires pour tester les
quatre conditions sur chaque sujet.
155
Table 18. Valeurs cible (en Hz) des fréquences et des bandes passantes des formants F1 à F5 pour les voyelles
situées aux quatre extrémités des espaces de stimuli utilisés pour l’expérience pilote. Les valeurs affichées en noir
sont celles qui diffèrent par rapport à l’extrémité orale du continuum.
F1
B1
F2
B2
F3
B3
F4
B4
F5
B5
90
2600
90
3250
200
4200
200
900
90
2600
90
3250
200
4200
200
(C par G) Nasalisée Ref 3 750 250 1200
80
2600
500
3250
200
4200
200
80
2600
500
3250
200
4200
200
Orale Ref 1 525 100 1700 110 2450
90
3250
200
4200
200
Grave Ref 2 525 100 1550 110 2450
90
3250
200
4200
200
Orale Ref 1 750 100 1200
D/$
Grave Ref 2 750 100
Nasale 750 250
(/(
900
(C par G) Nasalisée Ref 3 525 250 1700
80
2450
500
3250
200
4200
200
Nasale 525 250 1550
80
2450
500
3250
200
4200
200
Orale Ref 1 525 100 1700 110 2450
90
3250
200
4200
200
Grave Ref 2 525 100 1550 110 2450
90
3250
200
4200
200
(/(
(I par G)
Nasalisée Ref 3 525 200 1700 220 2450 180 3250 400 4200 400
Nasale 525 200 1550 220 2450 180 3250 400 4200 400
Les sessions expérimentales se sont déroulées de façon individuelle. L’auditeur
disposait d’un terminal d’ordinateur et d’un casque audio. Après avoir entendu un stimulus dans
le casque, il avait pour tâche de cliquer avec la souris pour sélectionner l’une des deux
réponses proposées à l’écran. Le logiciel de présentation des stimuli a été réalisé par nos soins
à l’aide du logiciel iShell. La Figure 47 montre l’interface proposée aux quatre auditeurs
participant aux expériences d’identification relatives aux continuums (/(.
Pour chacune des quatre conditions testées, il y avait une courte phase d’entraînement
aux stimuli avant la phase de test proprement dite. Pendant l’entraînement, on a présenté à
trois reprises 12 des 49 stimuli que compte l’espace au total. Il s’agit des stimuli représentés
sur fond gris dans la Figure 46 (p.151), c’est-à-dire ceux qui comportent théoriquement les 6
voyelles les plus orales et les 6 voyelles les plus nasales du continuum synthétisé. Après la
réponse de l’auditeur, un feedback lui était proposé, au moyen d’une flèche désignant la
réponse attendue par l’expérimentateur (Cf. Figure 47). Pendant la phase de test proprement
dite, chacun des 49 stimuli a été présenté 21 fois dans un ordre aléatoire. 20 réponses ont été
conservées pour le calcul des résultats, l’auditeur ayant parfois omis de répondre.
156
Figure 47. Copie de l’écran proposé aux auditeurs de l’expérience pilote lors de la phase d’entraînement à la tâche
d’identification. Après le choix posé par le participant, une flèche désigne la réponse attendue par l’expérimentateur.
4.2.
Résultats
Les résultats de l’expérience pilote sont donnés dans la Figure 48 en ce qui concerne
les continuums D/$, et dans la Figure 49 en ce qui concerne les continuums (/(. Pour chacune
des conditions, on donne le pourcentage d’identification du mot contenant la voyelle nasale
(tante ou teinte), et ce pour chaque stimulus en fonction de la position qu’il occupe dans
l’espace à deux dimensions des stimuli tel que défini ci-dessus (p.151). Les pourcentages ont
été calculés à partir du total des 60 ou 80 réponses obtenues par stimulus. Une représentation
colorée accompagne chaque tableau de valeurs, de manière à faciliter la visualisation des
tendances générales d’évolution du taux d’identification des nasales en fonction des deux
dimensions acoustiques covariantes. Comme l’indique la légende située en bas à gauche des
deux figures, chaque pourcentage correspond à une couleur sur une échelle allant du blanc
(0% de réponses « nasale ») au noir (100% de réponses « nasale ») en passant par divers
dégradés orangés.
157
Dyn I longues
Dyn II longues
Dyn I brèves
Dyn II brèves
D/$
C par G
Figure 48. Résultats de l’expérience pilote pour les quatre versions des continuums D/$ (tous de type C par G) : Dyn I longues, Dyn I brèves, Dyn II longues, Dyn II
brèves. Taux d’identification du mot « tante » en % (et représentation colorée du pourcentage) en fonction de la position de la voyelle synthétique dans l’espace.
158
C par G longues
I par G longues
C par G brèves
I par G brèves
(/(
Dyn I
Figure 49. Résultats de l’expérience pilote pour les quatre versions des continuums (/( (tous de type Dyn I) : C par G longues, C par G brèves, I par G longues, I par
G brèves. Taux d’identification du mot « teinte » en % (et représentation colorée du pourcentage) en fonction de la position de la voyelle synthétique dans l’espace.
159
Tout d’abord, les résultats montrent que pour ces deux voyelles la synthèse des
continuums orale-nasale au moyen des paramètres acoustiques sélectionnés est un succès.
Dans le cas des espaces C par G, on passe d’une valeur moyenne proche des 0%
d’identification nasale pour les voyelles peu compactes et peu graves, à une valeur moyenne
approchant les 100% d’identification nasale lorsque les voyelles sont à la fois très compactes et
très graves. Les résultats sont moins bons lorsque l’on synthétise la nasalisation phonétique au
moyen de la dimension acoustique d’intensité. C’est ce que l’on constate si l’on compare les
valeurs encadrées de rouge dans la Figure 49. Dans les espaces I par G en effet, les voyelles
supposées nasales (situées en haut à droite de l’espace) ne donnent pas une impression
auditive satisfaisante de nasalité : elles sonnent comme des voyelles dénasalisées,
comparables à celles réalisées dans certaines régions de Belgique, à Liège en particulier. C’est
sans doute le choix forcé entre deux réponses seulement qui amène un grand nombre
d’auditeurs à se décider pour la réponse « nasale », alors que la voyelle en question n’est pas
un prototype véritablement satisfaisant de cette catégorie phonétique.
A la suite de ces premières constatations, deux choix méthodologiques ont été posés
en ce qui concerne les expériences perceptuelles menées par la suite :
Tout d’abord, nous avons choisi de nasaliser les voyelles exclusivement au moyen
d’espaces acoustiques de type C par G. Suite aux résultats exposés ci-dessus, nous
considérons en effet que la chute d’intensité générale d’une voyelle (se traduisant par
une baisse d’énergie à toutes les fréquences) constitue essentiellement un bon résumé
des propriétés acoustiques de la nasalité vocalique observées en production de la
parole. Quant à la pertinence du niveau d’énergie acoustique en ce qui concerne la
perception de la nasalité d’une voyelle, il semble que les auditeurs accordent une
attention spécifique à certaines régions du spectre en particulier. Pour parvenir à de
bons prototypes de voyelles nasales, nous avons dû accentuer la perte d’énergie dans
les régions de F1 et de F3, et rendre au contraire F2 plus proéminent. Les indices
perceptuels de la nasalité semblent donc plutôt liés aux niveaux relatifs d’énergie en
fonction de la fréquence au sein d’une même voyelle.
Ensuite, nous avons décidé de mettre en place un second paradigme pour les
expériences perceptuelles d’identification : ID2 (Cf. p.147). Ce paradigme permet de
mieux évaluer dans quelle mesure les paramètres acoustiques sélectionnés pour la
synthèse permettent effectivement de créer de bons prototypes de voyelles nasales,
parce qu’on demande aux auditeurs de rejeter les stimuli peu satisfaisants et de classer
les autres par ordre de préférence en tant que « bon prototype » de leur catégorie.
160
La seconde tendance générale des résultats de l’expérience pilote concerne la
différence de répartition des réponses « nasale » en fonction des deux dimensions
acoustiques. En ce qui concerne les continuums (/(, la décision de désigner le stimulus
entendu par le mot teinte semble dépendre de la valeur de la voyelle le long des deux
dimensions acoustiques, avec une prédominance de la dimension de Compacité. En effet, une
voyelle dont le F2 est au plus bas n’est pas identifiée comme nasale si elle n’a pas au moins un
peu de nasalité phonétique (Compacité), alors qu’une voyelle très compacte est désignée
comme nasale même si son F2 est resté à sa fréquence originelle. Pour les continuums D/$, la
décision s’appuie avant tout sur la dimension de Gravité, l’autre dimension n’intervenant que de
façon plus secondaire. Une particularité des stimuli pourrait avoir accentué cette tendance. En
effet, la voyelle /D/ (1,1) a un F2 assez élevé dans les stimuli de l’expérience pilote (1200 Hz).
L’impression auditive est celle d’une voyelle très antérieure. En conséquence, lorsque l’on
augmente la compacité de cette voyelle, on crée une voyelle effectivement nasalisée, mais
dont le timbre se situe à la limite des réalisations phonétiques possibles pour la nasale /¡/, soit
[]. Pour les expériences perceptuelles proprement dites, nous avons décidé de synthétiser les
continuums D/$ en fixant la valeur maximale de F2 de tous les stimuli (1,x) à 1150 Hz (au lieu de
1200 Hz pour l’expérience pilote).
En ce qui concerne les deux variantes testées pour la coordination temporelle des
propriétés acoustiques de la voyelle d’une part, et pour sa durée d’autre part, leur influence sur
la détection du contraste de nasalité est peu marquée d’après ces résultats préliminaires. On
voit par exemple que la longueur favorise les réponses « $ » pour les stimuli Dyn I, si l’on
compare les réponses encadrées en bleu sur la Figure 48. De même, les stimuli Dyn I sont plus
souvent identifiés comme nasals que les stimuli Dyn II pour cette voyelle (Cf. encadrés rouge
sur la Figure 48). Ces variantes font donc évoluer la frontière entre catégories dans un sens ou
dans un autre, mais ne déterminent pas de changement de nature dans le schéma général des
réponses pour une voyelle donnée. Nous avons maintenu ces deux types de variantes dans un
rôle de dimension secondaire pour les expériences perceptuelles menées ensuite à grande
échelle.
4.3.
Conclusions
L’expérience pilote avait pour fonction principale d’orienter nos choix méthodologiques
pour les expériences perceptuelles proprement dites dans quatre domaines spécifiques (Cf.
p.154).
161
(1) La procédure d’expérimentation a donné presque entière satisfaction. Le nombre
idéal est de trois sessions par semaine (par auditeur).
La durée maximale d’une
session a été fixée à deux heures, avec une pause au moins en cours de séance. Pour
les expériences perceptuelles proprement dites, nous avons par ailleurs inclus dans le
logiciel la possibilité pour les auditeurs de régler individuellement le volume sonore des
stimuli, pour un plus grand confort d’écoute.
(2) L’expérience pilote a permis de déterminer laquelle des deux dimensions
acoustiques candidates (Intensité ou Compacité) était la plus efficace en ce qui
concerne l’implémentation du contraste de nasalité en français. Nos impressions
auditives ont été confirmées expérimentalement : la baisse d’intensité, envisagée
comme une augmentation générale de toutes les bandes passantes des formants F1 à
F5, est moins performante, lorsqu’il s’agit de synthétiser la nasalité phonétique, qu’une
augmentation de la compacité de la voyelle.
(3) Nous avons mené quelques tests informels avec l’aide de deux participants à
l’expérience pilote (un par voyelle) afin de déterminer la différence juste perceptible
entre deux stimuli sur chaque dimension acoustique. Il s’est avéré que le nombre de
pas retenu pour l’expérience pilote (N=7) était trop élevé (en particulier dans le cas de
/(/) pour que les stimuli adjacents soient discriminables par des auditeurs non entraînés
à la phonétique. C’est pourquoi nous avons décidé de ramener le nombre de pas à 5
pour l’expérience perceptuelle proprement dite. Cette méthode a également l’avantage
de diviser par deux le nombre de stimuli à tester par condition : on passe de 49 à 25
stimuli dans un espace donné.
(4) Les expériences de discrimination (DISC) nécessitaient qu’on définisse un sousensemble de stimuli à étudier au sein de chaque espace, afin de ne pas multiplier à
l’infini le nombre de paires à tester. Nous avons donc décidé de tester toutes les paires
de stimuli adjacents dans un sous-ensemble de 3*3 stimuli pour chaque condition
expérimentale. Les résultats obtenus au cours de l’expérience pilote ont été utilisés
pour décider de l’endroit où placer ce sous-ensemble dans le cas des continuums D/$ et
(/(. Il est plus utile en effet de mener les expériences de discrimination sur les stimuli
situés non loin de la frontière entre les deux catégories phonétiques. Nous avons donc
centré le sous-ensemble de 3*3 stimuli différemment selon le timbre de la voyelle
étudiée, en fonction de nos observations préliminaires quant à la répartition des
réponses « nasale » dans chaque espace à 2 dimensions (p.ex. en bas au milieu de
162
l’espace dans le cas de D/$, et en haut à gauche dans le cas de (/(). La situation exacte
de chaque sous-ensemble testé pour les expériences de discrimination est donnée
dans la Figure 69, p.215.
5.
Déroulement des expériences perceptuelles
Les expériences de perception menées dans le cadre de ce travail se sont déroulées en
quatre phases au cours de l’année 2002. Nous donnons ici un aperçu des expériences menées
lors de chaque phase. Leurs spécificités méthodologiques, résumées dans la Table 19, feront
l’objet d’un exposé plus détaillé dans les chapitres suivants.
Tout d’abord, l’expérience pilote dont nous venons d’exposer les résultats a été
effectuée au mois de février 2002 sur sept locuteurs, trois pour les continuums D/$, et
quatre pour les continuums (/(. Pour rappel, il s’agissait exclusivement d’expériences
d’identification de type ID1 réalisées sur des items CVC.
L’expérience principale s’est déroulée pendant 5 semaines en avril et mai 2002. Dix-huit
auditeurs ont participé à ces expériences, six pour chaque continuum testé, à savoir
D/$, (/(, et o/o. Tous les auditeurs ont effectué les expériences relatives aux trois
paradigmes expérimentaux ID1, ID2 et DISC. Les stimuli étaient de type CVC ou bien
NVC, la voyelle synthétisée V appartenant dans tous les cas à un continuum C par G.
Les résultats obtenus pour les continuums o/o lors de l’expérience principale présentant
certaines incohérences par rapport aux autres paires orale/nasale, nous avons choisi
de reproduire l’expérience (en ce qui concerne cette voyelle uniquement) sur la base de
stimuli resynthétisés à partir de choix méthodologiques différents (Cf. p.182). Quatre
auditeurs ont participé à cette nouvelle expérience au mois de septembre 2002. Ils ont
effectué les paradigmes ID1, ID2 et DISC pour un certain nombre de conditions
expérimentales à partir des nouveaux continuums o/o.
163
Table 19. Résumé des spécificités méthodologiques des différentes expériences de perception menées dans le cadre de ce travail.
Date
Auditeurs
Voyelles
Paradigmes
(Nombre d’auditeurs)
Stimuli
Conditions
D (Dyn I) :
Expérience
pilote
Expérience
principale
Nouveaux
stimuli o/o
Auditeurs
américains
02/02
Francophones
D (3)
( (4)
D (6)
04/02
Francophones
( (6)
o (6)
09/02
11/02
Francophones
Anglophones
o (4)
o
7*7
CVC
ID1
ID1
ID2
DISC
5*5
CVC
NVC
ID1 (8)
DISC (10)
5*5
CVC
NVC
Brèves et Longues Dyn I
Brèves et Longues Dyn II
ID1 (C par G) :
CVC Brèves et Longues Dyn I
CVC Brèves et Longues Dyn II
NVC Brèves et Longues Dyn I
NVC Brèves et Longues Dyn II
ID2, DISC (C par G) :
CVC Brèves et Longues Dyn I
CVC Brèves et Longues Dyn II
ID1 (C par G) :
CVC Brèves et Longues Dyn I
NVC Brèves et Longues Dyn I
ID2, DISC (C par G) :
CVC Brèves et Longues Dyn I
ID1, DISC (C par G) :
CVC Brèves et Longues Dyn I
NVC Brèves et Longues Dyn I
5*5
CVC
NVC
ID1
ID2
DISC
164
( (C par G) :
C par G Brèves et Longues
I par G Brèves et Longues
Enfin, nous avons voulu déterminer si les processus mis en lumière au cours des
expériences précédentes étaient spécifiques au français. Avec l’aide de John Kingston
(professeur à University of Massachussets, Amherst), les nouveaux continuums o/o ont donc
été testés sur des auditeurs anglophones au mois de novembre 2002. Huit auditeurs ont
participé à une expérience de type ID1, et dix autres à une expérience de type DISC.
La suite de la deuxième partie de la thèse s’organise de la façon suivante. Le premier
chapitre est consacré aux diverses expériences d’identification ID1 et ID2 menées sur les
auditeurs francophones, y compris celles relatives aux nouveaux continuums o/o. Dans le
deuxième chapitre, nous présentons et discutons les résultats des expériences de
discrimination DISC (phases 2 et 3). Enfin, le troisième chapitre est consacré exclusivement
aux expériences menées sur les auditeurs anglophones (phase 4). Nous discutons de
l’ensemble des questions relatives à la perception des voyelles nasales, en relation avec les
phénomènes étudiés en production, dans la discussion générale qui clôture le travail (p.256).
165
Chapitre
1
Identification
1.
Matériel et méthode
Ce chapitre est consacré aux deux expériences d’identification ID1 et ID2 menées
auprès des auditeurs francophones, dans un premier temps sur les trois continuums D/$, (/(, et
o/o, puis trois mois plus tard sur les nouveaux continuums o/o32.
Comme l’indique la Table 19 (p.164), nous avons testé huit conditions au cours de
l’expérience principale dans le cadre du paradigme ID1, selon que les items étaient de
structure CVC ou NVC, les voyelles brèves ou longues, et l’évolution temporelle des
paramètres de type Dyn I ou Dyn II. En ce qui concerne le paradigme ID2, nous n’avons pas
inclu les items NVC, réduisant ainsi de moitié le nombre de conditions à tester. Nous avons
effectué les expériences ID1 et ID2 sur les nouveaux continuums o/o, qui étaient uniquement
de type Dyn I.
Sur le modèle de la Table 18 (p.156), la Table 20 donne les valeurs cible des
fréquences et des bandes passantes des formants F1 à F5 pour les voyelles situées aux quatre
extrémités des espaces de stimuli : voyelles orales (1,1), voyelles graves (5,1), voyelles
nasalisées (1,5) et voyelles nasales (5,5). Les valeurs affichées en noir (vs. gris) sont celles qui
diffèrent par rapport à l’orale de référence : F2 est plus bas pour les voyelles graves, les bandes
passantes B1, B2 et B3 sont modifiées pour les voyelles nasalisées, et les deux types d’indices
sont combinés pour les voyelles nasales. La table montre que les trois continuums D/$, (/(, o/o
se distinguent exclusivement par les valeurs que prennent F1, B1, F2, B2 et F3, B3, tandis que la
fréquence et la bande passante en F4 et en F5 sont les mêmes pour toutes les voyelles.
Pour les premiers continuums o/o, la valeur de F1 varie tout au long du continuum dans
les stimuli CVC. En effet, il n’existe pas en français de mot de type CVC où les consonnes sont
des occlusives sourdes et la voyelle est une semi-ouverte /o/ intrinsèquement longue : *[No:W]
n’existe pas, et on a soit [NoW] cote, avec une voyelle semi-ouverte brève, soit [NR:W] côte, avec
une voyelle semi-fermée longue. Nous avons donc choisi de faire varier la valeur de F1 au sein
des continuums o/o33, de 470 Hz pour la voyelle orale (semi-fermée) à 570 Hz pour la nasale
(semi-ouverte), de façon à maintenir une durée équivalente pour les voyelles de l’espace, qui
sont toutes relativement longues. Cependant, la méthode d’interpolation des valeurs dans
l’espace des stimuli a comme conséquence que F1 est à 520 Hz pour la voyelle nasalisée
32
La méthodologie utilisée pour les expériences de perception est exposée de façon détaillée dans l’introduction
(p.149 et suivantes).
33
Ci-dessous, nous désignons dans tous les cas ce continuum comme le « continuum o/o », même si pour les items
CVC (mais pas pour les NVC), il s’agit en fait d’un continuum R/o.
167
comme pour la voyelle grave, et n’atteint donc pas la valeur qui convient à la voyelle nasale
(570 Hz). On favorise alors a priori une stratégie de combinaison des deux types d’indices pour
la détection de la nasalité.
Table 20. Valeurs cible (en Hz) des fréquences et des bandes passantes des formants F1 à F5, pour les voyelles
situées aux quatre extrémités des espaces de stimuli utilisés pour l’expérience principale : continuums D/$, (/(, o/o et
nouveaux continuums o/o (« o/o 2 »). Les valeurs affichées en noir sont celles qui diffèrent par rapport à l’extrémité
orale du continuum.
F1
B1
F2
B2
F3
B3
F4
B4
F5
B5
90
2600
90
3250
200
4200
200
900
90
2600
90
3250
200
4200
200
Nasalisée Ref 3 750 250 1150
80
2600
500
3250
200
4200
200
80
2600
500
3250
200
4200
200
Orale Ref 1 550 100 1700 110 2450
90
3250
200
4200
200
Grave Ref 2 550 100 1550 110 2450
90
3250
200
4200
200
Orale Ref 1 750 100 1150
D/$
Grave Ref 2 750 100
Nasale
(/(
900
550
80
2450
500
3250
200
4200
200
250
1550
80
2450
500
3250
200
4200
200
Orale Ref 1 470 100
900
90
2400
90
3250
200
4200
200
Grave Ref 2 520 100
720
90
2400
90
3250
200
4200
200
Nasalisée Ref 3 520 250
900
80
2400
500
3250
200
4200
200
720
80
2400
500
3250
200
200
200
Orale Ref 1 570 100 1000
90
2400
90
3250
200
4200
200
750
90
2400
90
3250
200
4200
200
Nasalisée Ref 3 570 250 1000
80
2400
500
3250
200
4200
200
80
2400
500
3250
200
200
200
Nasale
o/o2
250
Nasalisée Ref 3 550 250 1700
Nasale
o/o
750
570
250
Grave Ref 2 570 100
Nasale
570
250
750
Les particularités des stimuli o/o induites par ce choix méthodologique initial ont abouti à
des résultats peu cohérents par rapport à ceux obtenus avec les autres continuums (Cf. 2.2 c,
p.182). Nous avons donc resynthétisé les continuums o/o (appelés « o/o2 ») en choisissant une
solution alternative. Ainsi, dans les continuums o/o2, F1 est fixé à 570 Hz (et F2 à 1000 Hz) dans
tous les cas, mais les voyelles sont toutes relativement brèves, y compris celles situées à
l’extrémité nasale du continuum. Lors de l’expérience principale, les voyelles dites brèves
avaient donc une durée de 200 ms, et les longues de 250 ms dans les items CVC, et ce quel
168
que soit leur timbre, alors que pour l’expérience sur les continuums o/o2, les brèves duraient
120 ms, et les longues 150 ms. Dans les deux cas, la durée des longues excède d’un quart
celles des brèves, comme le montre la Table 21. La situation est relativement différente pour
les items de type NVC. Dans ces items en effet, la voyelle orale ne peut être que brève en
français, alors que la nasale est intrinsèquement longue. Nous avons donc choisi de
synthétiser les espaces de stimuli de type NVC en faisant varier la durée tout au long du
continuum orale-nasale. Dans ce cas, les étiquettes « Brèves » et « Longues » se rapportent à
la différence de durée entre l’extrémité orale et l’extrémité nasale du continuum : de 120 ms à
180 ms pour les Brèves, et de 120 ms à 240 ms pour les Longues (Cf. Table 21)34.
Table 21. Mots cible lors de la tâche d’identification et durée (en ms) des voyelles étiquetées “Brèves” et “Longues”
aux quatre extrémités des espaces de stimuli de type CVC et NVC pour les continuums D/$,(/(,o/o, et o/o2. Les
valeurs affichées en noir sont celles qui diffèrent par rapport à l’extrémité orale du continuum.
CVC
Mot cible
D/$
(/(
o/o
o/o2
[WD:W]
NVC
Brèves
Longues
200
250
Mot cible
[PDW]
Brèves
Longues
120
120
Orale
(1,1)
Grave
(5,1)
200
250
150
180
Nasalisée
(1,5)
200
250
150
180
Nasale
(5,5)
tante
[W$:W]
200
250
menthe
[P$:W]
180
240
Orale
(1,1)
tête
[W(:W]
200
250
mette
[P(W]
120
120
Grave
(5,1)
200
250
150
180
Nasalisée
(1,5)
200
250
150
180
Nasale
(5,5)
teinte
[W(:W]
200
250
mainte
[P(:W]
180
240
Orale
(1,1)
côte
[NR:W]
200
250
motte
[PoW]
120
120
Grave
Nasalisée
(5,1)
200
250
150
180
(1,5)
200
250
150
180
Nasale
(5,5)
comte
[No:W]
200
250
monte
[Po:W]
180
240
Orale
(1,1)
cote
[NoW]
120
150
motte
[PoW]
120
150
Grave
(5,1)
120
150
120
150
Nasalisée
(1,5)
120
150
120
150
Nasale
(5,5)
120
150
120
150
tâte
comte
[NoW]
mate
monte
[PoW]
A part ces différences relatives à la durée des voyelles, les items NVC sont très proches
de leurs correspondants CVC. Les Table 22 et Table 23 illustrent pour les continuums D/$ la
façon dont nous avons synthétisé les items NVC d’une part, et ce que signifient les étiquettes
34
Nous avons omis cette particularité dans le cas de o/o2, ce qui a mené à une modification du schéma des
réponses des auditeurs (Cf. p.183).
169
« Dyn I » et « Dyn II » pour ces items d’autre part. Les tables donnent en effet l’évolution
temporelle (de t1 à t7) des valeurs des paramètres F1, B1, F2, B2, F3 et B3 dans différentes
conditions : CVC Dyn I, NVC Dyn I (Table 22), CVC Dyn II, NVC Dyn II (Table 23). Les valeurs
affichées en rouge sont celles qui diffèrent dans les items de type NVC par rapport aux CVC.
Les différences se situent au début de la voyelle, dans sa transition avec la consonne
précédente : le début de la voyelle (même orale) est toujours nasalisé pour les stimuli NVC. Il
s’agit là de nasalisation contextuelle (liée à l’abaissement du voile uniquement), c’est pourquoi
nous la synthétisons au moyen des mêmes modifications de bandes passantes que celles
utilisées pour la dimension de Compacité. La différence entre les conditions Dyn I et Dyn II
réside dans l’étendue de cette nasalisation contextuelle. Comme dans le cas des items CVC,
les stimuli de type Dyn I sont ceux qui s’approchent le plus de ce que nous avons observé lors
de la production de voyelles en parole naturelle, où la consonne précédente influence le
comportement de la voyelle par rapport à la nasalité. Dans le cas des CVC Dyn I, même si la
cible est nasale, la voyelle débute par une portion non nasalisée ayant toutes les
caractéristiques de la voyelle phonologique orale correspondante. Pour les NVC Dyn I, même
si la cible est orale, la voyelle est nasalisée au début, et les bandes passantes n’atteignent leur
valeur cible qu’en t4 alors que c’est déjà le cas en t2 pour les stimuli NVC Dyn II. Dans les Table
22 et Table 23, les valeurs cible sont affichées sur fond gris foncé alors que les valeurs aux tn
intermédiaires sont affichées sur fond gris clair. Les valeurs propres aux transitions
formantiques sont elles affichées sur fond blanc.
170
Table 22. Evolution temporelle (de t1 à t7) des valeurs de F1, B1, F2, B2, F3, et B3 dans les continuums D/$ de type Dyn I. Comparaison des items CVC et NVC.
D/$
DynI
Orale
Grave
Nasalisée
Nasale
CVC
t1
t2
t3
t4
t5
t6
t7
NVC
t1
t2
t3
t4
t5
t6
t7
F1
350
750
750
750
750
750
350
F1
350
750
750
750
750
750
350
B1
100
100
100
100
100
100
100
B1
250
250
175
100
100
100
100
F2
1400
1150
1150
1150
1150
1150
1400
F2
1100
1150
1150
1150
1150
1150
1400
B2
90
90
90
90
90
90
90
B2
80
80
85
90
90
90
90
F3
2600
2600
2600
2600
2600
2600
2600
F3
2600
2600
2600
2600
2600
2600
2600
B3
90
90
90
90
90
90
90
B3
500
500
295
90
90
90
90
F1
350
750
750
750
750
750
350
F1
350
750
750
750
750
750
350
B1
100
100
100
100
100
100
100
B1
250
250
175
100
100
100
100
F2
1400
1150
900
900
900
900
1400
F2
1100
1000
900
900
900
900
1400
B2
90
90
90
90
90
90
90
B2
80
80
85
90
90
90
90
F3
2600
2600
2600
2600
2600
2600
2600
2600
2600
2600
2600
2600
2600
2600
B3
90
90
90
90
90
90
90
F3
B3
500
500
295
90
90
90
90
F1
350
750
750
750
750
750
350
F1
350
750
750
750
750
750
350
B1
100
175
250
250
250
250
250
B1
250
250
250
250
250
250
250
F2
1400
1150
1150
1150
1150
1150
1400
F2
1100
1150
1150
1150
1150
1150
1400
B2
90
85
80
80
80
80
80
B2
80
80
80
80
80
80
80
F3
2600
2600
2600
2600
2600
2600
2600
F3
2600
2600
2600
2600
2600
2600
2600
B3
90
295
500
500
500
500
500
B3
500
500
500
500
500
500
500
F1
350
750
750
750
750
750
350
F1
350
750
750
750
750
750
350
B1
100
175
250
250
250
250
250
B1
250
250
250
250
250
250
250
F2
1400
1150
900
900
900
900
1400
F2
1400
1000
900
900
900
900
1400
B2
90
85
80
80
80
80
80
B2
80
80
80
80
80
80
80
F3
2600
2600
2600
2600
2600
2600
2600
F3
2600
2600
2600
2600
2600
2600
2600
B3
90
295
500
500
500
500
500
B3
500
500
500
500
500
500
500
171
Table 23. Evolution temporelle (de t1 à t7) des valeurs de F1, B1, F2, B2, F3, et B3 dans les continuums D/$ de type Dyn II. Comparaison des items CVC et NVC.
D/$
DynII
Orale
Grave
Nasalisée
Nasale
CVC
t1
t2
t3
t4
t5
t6
t7
NVC
t1
t2
t3
t4
t5
t6
t7
F1
350
750
750
750
750
750
350
F1
350
750
750
750
750
750
350
B1
100
100
100
100
100
100
100
B1
250
100
100
100
100
100
100
F2
1400
1150
1150
1150
1150
1150
1400
F2
1100
1150
1150
1150
1150
1150
1400
B2
90
90
90
90
90
90
90
B2
80
90
90
90
90
90
90
F3
2600
2600
2600
2600
2600
2600
2600
F3
2600
2600
2600
2600
2600
2600
2600
B3
90
90
90
90
90
90
90
B3
500
90
90
90
90
90
90
F1
350
750
750
750
750
750
350
F1
350
750
750
750
750
750
350
B1
100
100
100
100
100
100
100
B1
250
100
100
100
100
100
100
F2
1400
900
900
900
900
900
1400
F2
1100
900
900
900
900
900
1400
B2
F3
90
90
90
90
90
90
90
80
90
90
90
90
90
90
2600
2600
2600
2600
2600
2600
2600
B2
F3
2600
2600
2600
2600
2600
2600
2600
B3
90
90
90
90
90
90
90
B3
500
90
90
90
90
90
90
F1
350
750
750
750
750
750
350
F1
350
750
750
750
750
750
350
B1
F2
100
250
250
250
250
250
250
250
250
250
250
250
250
250
1400
1150
1150
1150
1150
1150
1400
B1
F2
1100
1150
1150
1150
1150
1150
1400
B2
90
80
80
80
80
80
80
B2
80
80
80
80
80
80
80
F3
2600
2600
2600
2600
2600
2600
2600
F3
2600
2600
2600
2600
2600
2600
2600
B3
90
500
500
500
500
500
500
B3
500
500
500
500
500
500
500
F1
350
750
750
750
750
750
350
F1
350
750
750
750
750
750
350
B1
100
250
250
250
250
250
250
B1
250
250
250
250
250
250
250
F2
1400
900
900
900
900
900
1400
F2
1400
900
900
900
900
900
1400
B2
90
80
80
80
80
80
80
B2
80
80
80
80
80
80
80
F3
2600
2600
2600
2600
2600
2600
2600
2600
2600
2600
2600
2600
2600
2600
B3
90
500
500
500
500
500
500
F3
B3
500
500
500
500
500
500
500
172
En ce qui concerne le paradigme ID1, la procédure de présentation des stimuli est
comparable à celle qui a été décrite pour l’expérience pilote (Cf. p.156). Pour les expériences
de type ID2, l’interface proposée aux auditeurs est illustrée dans la Figure 50 dans le cas du
continuum cote/comte. Dans la partie supérieure de la figure, on donne la fenêtre du logiciel
caractéristique du début de la procédure. Les carrés gris étiquetés de 1 à 25 situés en haut à
gauche de la fenêtre représentent les 25 stimuli de l’espace (placés dans un ordre aléatoire). Si
l’auditeur clique deux fois sur l’un de ces carrés, il entend le stimulus correspondant. La tâche
de l’auditeur est de déplacer chaque carré (à l’aide de la souris) et de lui assigner une nouvelle
destination en fonction de la façon dont il juge le mot entendu. L’auditeur place le carré dans
l’ensemble jaune s’il entend le mot qui contient la voyelle orale ou bien dans l’ensemble bleu s’il
entend la nasale ; il peut également déposer le carré dans l’intersection entre les deux
ensembles s’il juge la voyelle intermédiaire entre l’orale et la nasale, ou enfin le mettre dans la
« poubelle » (en haut à droite de la fenêtre) si le son ne peut selon lui être accepté dans
aucune des catégories précitées.
L’auditeur peut réécouter les sons autant de fois qu’il le souhaite. Lorsqu’il a assigné
une destination à chaque stimulus, il passe à la deuxième phase, illustrée dans la partie
inférieure de la Figure 50. La tâche demandée consiste alors à classer par ordre de préférence
(du meilleur au moins bon prototype de sa classe) les stimuli que l’auditeur a désigné
précédemment comme membre de cette classe. Ainsi, dans le cas illustré sur la Figure 50,
l’auditeur a préalablement placé les stimuli 2, 3, 4, 16, 21 et 23 dans l’ensemble jaune des
orales (cote) ; il doit donc ensuite ordonner ces stimuli du meilleur au moins bon exemplaire du
mot cote. Lorsque l’auditeur est satisfait de son classement, il passe à la dernière étape de la
procédure, qui consiste à ordonner sur le même principe les stimuli contenant la voyelle nasale
(ici, comte).
2.
Résultats : Paradigme ID1
Les données discutées dans cette section concernent exclusivement le paradigme
expérimental ID1. Les résultats sont présentés sous la forme de fonctions d’identification, dont
le principe a été exposé plus haut (Cf. p.146). En l’occurrence, les fonctions représentent
l’évolution de la proportion de réponses « nasale » (PN, en ordonnée) en fonction de la valeur
des voyelles synthétisées le long des deux dimensions acoustiques caractérisant chaque
espace de stimuli.
173
Figure 50. Illustration de l’interface proposée aux auditeurs au cours du paradigme expérimental ID2. En haut, la
fenêtre correspondant à la tâche de classement de l’ensemble des stimuli. En bas, la fenêtre pour le classement des
voyelles orales par ordre de préférence (voir texte).
174
Nous avons choisi de placer en abscisse la dimension acoustique correspondant à la
nasalisation phonétique (Compacité), et de représenter les données concernant chaque degré
d’abaissement de F2 (Gravité) par une courbe séparée. Dans cette représentation, la
Compacité est donc traitée comme la dimension acoustique principale en ce qui concerne la
détection du contraste phonologique de nasalité en français, alors que les modifications en F2
(Gravité) sont considérées comme plus secondaires a priori, c’est-à-dire qu’elles sont
susceptibles de mener à des sauts de frontière plus ou moins marqués le long de la dimension
principale. Les résultats montrent que dans la plupart des cas les deux dimensions ont autant
d’importance l’une que l’autre.
Les Figure 51 à Figure 57 donnent les fonctions d’identification obtenues pour toutes les
conditions testées au cours de l’expérience principale et de l’expérience sur les continuums
o/o2. Ces figures comparent les données obtenues dans quatre conditions (CVC brèves, CVC
longues, NVC brèves et NVC longues) en ce qui concerne respectivement les continuums (/(
Dyn I (Figure 51), (/( Dyn II (Figure 52), D/$ Dyn I (Figure 53), D/$ Dyn II (Figure 54), o/o Dyn I
(Figure 55), o/o Dyn II (Figure 56) et o/o2 Dyn I (Figure 57). Dans une figure donnée, chacun
des quatre graphiques correspond donc à une condition spécifique, c’est-à-dire à un espace de
25 stimuli en particulier.
Au sein de chaque graphique, un « boxplot » représente l’ensemble des
réponses
données pour un stimulus en particulier. Nous avons tout d’abord calculé pour chaque auditeur
la proportion de réponses « nasale » PN par rapport à l’ensemble de ses réponses à l’audition
de ce stimulus. Le boxplot représente ensuite la répartition en quartiles des valeurs prises par
PN pour tous les auditeurs concernés, soit 6 valeurs par voyelle pour l’expérience principale et
4 valeurs pour o/o2. Les fonctions d’identification ont été obtenues à l’aide du logiciel PRISM
(www.graphpad.com) par la technique du « curve fitting ». Le principe de cette technique est de
faire correspondre aux données une équation qui définit Y (ici, PN) en fonction de X (ici, la
valeur du stimulus sur la dimension de Compacité) et d’un ou plusieurs autres paramètres.
Nous avons utilisé la méthode de régression non linéaire afin de trouver dans chaque cas les
valeurs des paramètres qui génèrent la sigmoïde s’approchant le plus possible des points de
données. Les cinq fonctions d’identification représentent donc en tout les réponses des 6 (ou
des 4) auditeurs lors des 20 présentations de chacun des 25 stimuli d’un espace donné, soit au
total 3000 (ou 2000) réponses par graphique.
175
2.1.
Validité
Les résultats des expériences ID1 attestent de la validité des indices acoustiques
sélectionnés afin de synthétiser les continuums orale-nasale en français. Si l’on considère les
continuums D/$ et (/( de l’expérience principale, et les continuums o/o2, c’est-à-dire les
continuums où les voyelles synthétisées varient uniquement en terme de Gravité et de
Compacité (et parfois de durée) à l’exclusion de toute autre modification, notamment de la
fréquence de F1, le taux moyen d’identification « nasale » est proche de 0% pour les stimuli
(1,1) et avoisine les 100% pour les stimuli (5,5) et (4,5)35. Seuls les NVC o/o2 n’atteignent pas
vraiment ce niveau très élevé de performance. Manifestement, pour nos stimuli semisynthétiques, les auditeurs francophones utilisent avec succès les indices acoustiques que
nous avons mis à leur disposition pour prendre une décision quant à la nasalité de la voyelle.
Bien entendu, il n’est pas prouvé que ces indices soient ceux effectivement pris en compte par
les auditeurs en parole naturelle. Néanmoins, le fait que la synthèse des nasales ait été
réalisée à partir des mêmes indices acoustiques, tous timbres vocaliques confondus, plaide en
faveur du caractère général des propriétés de Compacité et de Gravité en tant que corrélats
acoustiques du contraste de nasalité pour les voyelles du français.
L’autre enseignement de l’expérience ID1 en termes de validité consiste en la nécessité
d’une combinaison des deux dimensions acoustiques pour que les voyelles soient
effectivement identifiées comme nasales. A part dans le cas des CVC (/(, pour les autres
continuums, les stimuli (1,5) (à droite de la courbe noire) et (5,1) (à gauche de la courbe
orange), qui ont une valeur maximale le long d’une des dimensions acoustiques mais minimale
le long de l’autre, n’atteignent pas les 50% de réponses « nasale ».
2.2.
Primauté
Même si les deux dimensions sont nécessaires pour une détection efficace de la
nasalité, le poids de chaque dimension dans la décision finale diffère selon la voyelle
considérée.
35
Dans cette section, nous désignons les stimuli par leurs coordonnées (x,y) dans l’espace de référence (Cf. p.151).
Pour rappel, la première coordonnée correspond à la valeur du stimulus le long de la dimension de Gravité, et la
seconde à sa valeur pour la Compacité. Ainsi, l’extrémité orale du continuum a les coordonnées (1,1) et la voyelle
nasalisée (1,5). Elles sont situées aux deux extrémités de la courbe noire sur les fonctions d’identification cidessous. La voyelle orale la plus grave a les coordonnées (5,1) et la nasale (5,5), et toutes deux sont situées sur la
courbe orange dans les Figure 51 et suivantes.
176
CVC Brèves
1.0
0.5
0.5
Proportion de réponses « nasale » PN
(/( Dyn I
CVC Longues
1.0
Abaissement de F2
(Gravité)
0.0
0.0
0
1.0
1
2
3
4
0
5
1.0
NVC Brèves
0.5
1
2
3
4
5
3
4
5
NVC Longues
0.5
0.0
0
1
2
3
4
5
0.0
0
1
2
Taux de nasalisation phonétique (Compacité)
Figure 51. Fonctions d’identification obtenues par mise en correspondance d’une sigmoïde avec les données (Valeurs de PN) concernant 4 espaces de stimuli (/( Dyn
I : CVC Brèves, CVC Longues, NVC Brèves, NVC Longues. Le niveau de Compacité de la voyelle est représenté en abscisse : des stimuli les moins compacts, en 1,
aux plus compacts, en 5. Chaque courbe représente un degré de Gravité : des stimuli les moins graves, en 1, aux plus graves, en 5. Les flèches et lignes pointillées
sont destinées à faire ressortir certains aspects des données commentés dans le texte.
177
CVC Brèves
1.0
0.5
0.5
Proportion de réponses « nasale » PN
(/( Dyn II
CVC Longues
1.0
Abaissement de F2
(Gravité)
0.0
0.0
0
1.0
1
2
3
4
0
5
1.0
NVC Brèves
0.5
1
2
3
4
5
3
4
5
NVC Longues
0.5
0.0
0
1
2
3
4
5
0.0
0
1
2
Taux de nasalisation phonétique (Compacité)
Figure 52. Fonctions d’identification obtenues par mise en correspondance d’une sigmoïde avec les données (Valeurs de PN) concernant 4 espaces de stimuli ( Dyn
II : CVC Brèves, CVC Longues, NVC Brèves, NVC Longues. Le niveau de Compacité de la voyelle est représenté en abscisse : des stimuli les moins compacts, en 1,
aux plus compacts, en 5. Chaque courbe représente un degré de Gravité : des stimuli les moins graves, en 1, aux plus graves, en 5. Les flèches et lignes pointillées
sont destinées à faire ressortir certains aspects des données commentés dans le texte.
178
a.
Continuums (/(
Dans le cas des items CVC, la dimension acoustique principale est celle de Compacité.
Les lignes horizontales (noires) en pointillés sur les Figure 51 et Figure 52 montrent que l’on
peut atteindre un taux de 75% de réponses « nasale » pour le stimulus (1,5) où la compacité de
la voyelle est à son maximum, alors que sa gravité est restée à son niveau minimal. Pour ces
continuums CVC (/(, une grande partie de l’information utilisée par l’auditeur pour décider si la
voyelle est nasale ou non se situe donc dans la dimension acoustique de Compacité. La
variation des stimuli le long de la dimension complémentaire de Gravité mène elle à de nets
sauts de frontière. Au total, le saut de frontière entre les stimuli les moins graves (courbe noire)
et les stimuli les plus graves (courbe orange) équivaut selon les cas à 1.5 à 2 pas le long de la
dimension acoustique de Compacité, comme l’illustre la flèche bleue sur la Figure 51.
La situation est tout à fait différente pour les items NVC, en particulier dans les cas Dyn
II, où les deux dimensions interviennent à égalité dans la détection du contraste de nasalité.
Par rapport aux items CVC, les performances sont non seulement inférieures pour les stimuli
(1,5) très compacts et peu graves (moins de 50% d’identification nasale), mais elles sont
également supérieures pour les stimuli très graves et peu compacts (ceux situés sur la courbe
orange). La flèche bleue sur la Figure 52 indique que, dans le cas des NVC longues de type
Dyn II, le saut de frontière dû à l’augmentation de la Gravité équivaut à 5 pas le long de la
dimension de Compacité, c’est-à-dire que les deux dimensions sont autant utilisées l’une que
l’autre par les auditeurs pour décider si le mot qu’ils ont entendu contient une voyelle orale ou
bien une nasale. C’est donc lorsque la voyelle est placée en contexte phonologique nasal que
l’abaissement du F2 est particulièrement déterminant pour qu’elle soit identifiée comme une
voyelle nasale.
Les différences observées selon que les items concernés sont de type CVC ou NVC ne
sont pas dues aux variations de durée qui existent dans le second cas au contraire du premier.
Si l’on compare par exemple les performances obtenues pour les stimuli (5,1), (4,2), (3,3), (2,4)
et (1,5) dans les items de type CVC Brèves Dyn II vs. NVC Longues Dyn II (Cf. lignes
pointillées vertes sur la Figure 52), la proportion de réponses « nasale » passe d’un niveau
faible à un niveau élevé dans le premier cas mais reste plus ou moins stable (aux alentours de
0.3) dans le second. Pourtant, tous ces stimuli ont une durée fort proche : 200 ms pour les CVC
Brèves et 180 ms en ce qui concerne les NVC longues.
179
CVC Brèves
1.0
0.5
0.5
Proportion de réponses « nasale » PN
a/$ Dyn I
CVC Longues
1.0
Abaissement de F2
(Gravité)
0.0
0.0
0
1.0
1
2
3
4
0
5
1.0
NVC Brèves
0.5
1
2
3
4
5
3
4
5
NVC Longues
0.5
0.0
0
1
2
3
4
5
0.0
0
1
2
Taux de nasalisation phonétique (Compacité)
Figure 53. Fonctions d’identification obtenues par mise en correspondance d’une sigmoïde avec les données (Valeurs de PN) concernant 4 espaces de stimuli D Dyn
I : CVC Brèves, CVC Longues, NVC Brèves, NVC Longues. Le niveau de Compacité de la voyelle est représenté en abscisse : des stimuli les moins compacts, en 1,
aux plus compacts, en 5. Chaque courbe représente un degré de Gravité : des stimuli les moins graves, en 1, aux plus graves, en 5. Les lignes pointillées sont
destinées à faire ressortir certains aspects des données commentés dans le texte.
180
CVC Brèves
1.0
0.5
0.5
Proportion de réponses « nasale » PN
a/$ Dyn II
CVC Longues
1.0
0.0
0.0
0
1.0
1
2
3
4
5
Abaissement de F2
(Gravité)
0
1.0
NVC Brèves
0.5
1
2
3
4
5
3
4
5
NVC Longues
0.5
0.0
0
1
2
3
4
5
0.0
0
1
2
Taux de nasalisation phonétique (Compacité)
Figure 54. Fonctions d’identification obtenues par mise en correspondance d’une sigmoïde avec les données (Valeurs de PN) concernant 4 espaces de stimuli D Dyn
II : CVC Brèves, CVC Longues, NVC Brèves, NVC Longues. Le niveau de Compacité de la voyelle est représenté en abscisse : des stimuli les moins compacts, en 1,
aux plus compacts, en 5. Chaque courbe représente un degré de Gravité : des stimuli les moins graves, en 1, aux plus graves, en 5. Les lignes pointillées sont
destinées à faire ressortir certains aspects des données commentés dans le texte.
181
b.
Continuums D/$
Les fonctions d’identification obtenues pour les continuums D/$ ressemblent davantage
à celles relatives aux continuums (/( dans le cas des items NVC que des CVC : les deux
dimensions acoustiques pèsent d’un poids relativement équivalent sur la décision de répondre
« nasale ». Les lignes pointillées sur les Figure 55 et Figure 56 permettent de comparer les
réponses obtenues pour des stimuli qui ont une valeur élevée sur une dimension et faible sur
l’autre : les lignes bleues joignent les stimuli (5,1) et (1,5) et les lignes vertes les stimuli (5,2) et
(2,5). Les lignes bleues indiquent que les performances sont comparables voire légérement
supérieures pour les voyelles très compactes. Par contre, dès que la valeur du stimulus a
légèrement évolué le long de l’autre dimension, la tendance s’inverse, et les voyelles les plus
graves sont alors beaucoup plus souvent identifiées comme nasales (lignes vertes). La
tendance à la prédominance de la dimension de Gravité pour les continuums D/$ est donc
moins nette dans l’expérience principale que dans l’expérience pilote, sans doute parce que
nous avons supprimé entretemps les stimuli les plus inappropriés à une réponse « nasale »,
c’est-à-dire ceux pour lesquels le F2 avait une valeur trop élevée (1200 Hz, Cf. Table 18,
p.156).
c.
Continuums o/o et o/o2
En ce qui concerne les premiers continuums o/o, les Figure 55 et Figure 56 montrent
que les résultats de la tâche d’identification sont très différents pour les CVC par rapport aux
NVC. Dans le premier cas, la synthèse du continuum orale-nasale ne paraît pas efficace, en
particulier pour les items CVC Brèves : les proportions de réponses « nasale » n’évoluent
guère que de 20 % en moyenne pour les voyelles les moins compactes à 80% environ pour les
plus compactes, et le renforcement de la Gravité n’induit qu’un faible accroissement des
performances. De plus, pour tous les items CVC, les stimuli les plus graves (F2 = 720 Hz) sont
les moins souvent identifiés comme nasals lorsqu’ils sont également très compacts.
Par contre, les fonctions d’identification obtenues dans le cas des items NVC sont tout à
fait comparables à celles présentées ci-dessus en ce qui concerne les continuums (/( et D/$.
Ces différences de résultats entre les conditions CVC et NVC pour les continuums o/o de
l’expérience principale doivent être avant tout reliées aux différences dans la paramétrisation
des voyelles synthétisées entre les deux cas. Au sein des continuums CVC en effet (côte [NR:W]
– comte [No:W]), les voyelles synthétisées varient au point de vue de la fréquence de F1 (afin de
préserver une durée équivalente pour toutes les voyelles), alors que dans les items NVC (motte
182
[PoW] – monte [Po:W]), F1 est fixé tout au long du continuum mais la durée des voyelles varie de
120 à 180 ms (NVC Brèves) ou de 120 à 240 ms (NVC Longues). Or, la méthode de synthèse
choisie (où les résonateurs sont connectés en cascade, Cf. Klatt, 1980) a pour effet qu’une
montée fréquentielle de F1 renforce l’énergie des formants supérieurs, en particulier de F2 et F3,
ce qui neutralise dans une certaine mesure les effets d’une progression concomitante de la
voyelle le long de la dimension de Compacité..
Nous avons donc resynthétisé les continuums o/o (« o/o2 ») en fixant F1 à 570 Hz dans
tous les cas, et en faisant varier F2 entre 1000 Hz (vs. 900 Hz précédemment), une valeur plus
appropriée à la voyelle orale semi-ouverte, et 750 Hz (vs. 720 Hz précédemment) puisqu’un
abaissement trop important de F2 semblait provoquer une soudaine inversion de tendance
dans les réponses des auditeurs. La Figure 57 donne les fonctions d’identification obtenues
pour les nouveaux continuums o/o2. On constate sur cette figure que la nouvelle
paramétrisation des voyelles synthétisées mène à des résultats tout à fait cohérents avec ceux
obtenus pour les autres voyelles. En ce qui concerne les items CVC en particulier, on obtient
un taux proche de 0% d’identification nasale pour les stimuli (1,1) et de 100% d’identification
nasale pour les stimuli (4,5) et (5,5). Les deux dimensions acoustiques, de Gravité et de
Compacité, contribuent à augmenter la proportion de réponses « nasale » de façon
relativement équivalente, avec une légère prédominance de la dimension de Compacité dans
le cas des CVC Longues.
Les réponses données aux stimuli o/o2 de type NVC présentent certaines particularités.
Globalement, il y a moins de réponses « nasale » pour les voyelles en contexte NVC par
rapport aux CVC correspondantes. La valeur maximale obtenue est une proportion moyenne
de 0.85 à 0.9 de réponses « nasale », comme l’indiquent les lignes horizontales pointillées sur
la Figure 57. Les stimuli les plus compacts, s’ils ne sont pas également plus graves, sont
toujours perçus comme des voyelles orales. Ceci est relativement différent des fonctions
d’identification obtenues pour les premiers continuums o/o (Cf. Figure 55). La seule
modification intervenue entre les premiers et les seconds continuums o/o pour ce qui est des
items NVC réside dans la durée des voyelles. Elle est fixée pour les stimuli o/o2 (à 120 ms pour
les voyelles brèves et à 150 ms pour les longues), alors qu’elle varie de 120 ms à 180 ms
(Brèves) ou à 240 ms (Longues) d’une extrémité à l’autre de tous les continuums de
l’expérience principale. Les nombres affichés sur fond gris dans les Figure 55 et Figure 57
indiquent la durée (en ms) des voyelles situées aux quatre extrémités des continuums NVC :
(1,1) et (1,5) sur la courbe noire, et (5,1) et (5,5) sur la courbe orange. En comparant ces
183
figures, nous constatons que, dans le cas des NVC, l’augmentation de durée à travers le
continuum orale-nasale induit une augmentation concomitante des réponses « nasale ».
Par ailleurs, les taux d’identification nasale particulièrement faibles enregistrés pour les
stimuli très compacts et peu graves impliquent que, dans le cas des stimuli o/o2 de type NVC, la
dimension acoustique prédominante est celle de Gravité. La Compacité n’est pas très efficace
en tant qu’indice acoustique signalant la nasalité pour ces stimuli. Dans la discussion (p.203),
nous envisageons l’hypothèse selon laquelle la dimension acoustique d’Intensité aurait pu
constituer une meilleure façon de synthétiser les effets du couplage nasal dans les continuums
o/o.
2.3.
Dimensions complémentaires
Dans cette section, nous examinons l’effet sur les réponses « nasale » des dimensions
complémentaires le long desquelles nous avons fait varier les stimuli : items de type Dyn I vs.
Dyn II, CVC vs. NVC, et voyelles brèves vs. voyelles longues.
a.
Items CVC vs. NVC
Ce sont ces deux conditions qui mènent aux différences les plus nettes dans les
schémas de réponses des auditeurs. Pour les continuums (/( et o/o, on constate une différence
de nature dans la contribution relative des deux dimensions acoustiques pour la détection de la
nasalité selon que les items sont de type CVC ou bien NVC. La dimension de Gravité a plus de
poids sur la décision d’identifier une voyelle en tant que nasale lorsque cette voyelle est placée
en contexte phonologique nasal. Pour les continuums D/$, c’est déjà le cas en contexte
phonologique oral. Par ailleurs, si l’on compare deux à deux les réponses enregistrées selon
que les items concernés sont de type CVC ou bien NVC, on remarque que le stimulus le plus
compact et le moins grave (le stimulus (1,5) situé le plus à droite de la courbe noire) donne lieu
dans tous les cas (y compris pour D/$) à un plus grand nombre de réponses « nasale » s’il est
placé en contexte phonologique oral. Ce n’est pas la durée qui est à l’origine de ces différences
puisqu’elles subsistent même si l’on considère les réponses données au stimulus (1,5) dans les
NVC Longues (180 ms) par rapport aux CVC Brèves (200 ms).
Ainsi, en contexte NVC, une voyelle très compacte (et peu grave) est moins souvent
identifiée comme nasale qu’en contexte CVC, alors qu’une voyelle très grave (et peu
compacte) est elle plus souvent identifiée comme nasale. Nous proposons dans la discussion
une interprétation de ces résultats en termes de phénomènes de compensation chez les
auditeurs, et d’une adaptation des locuteurs à ces phénomènes, qui se manifeste par une
184
stratégie (contrôlée) de réorganisation des articulations impliquées dans la production des
voyelles nasales.
185
CVC Brèves
1.0
0.5
0.5
Proportion de réponses « nasale » PN
o/o Dyn I
CVC Longues
1.0
0.0
0.0
0
1.0
1
2
3
4
5
180
NVC Brèves
0.5
Abaissement de F2
(Gravité)
0
1.0
1
2
3
4
5
240
NVC Longues
0.5
150
180
120
0.0
0
150
1
2
3
4
5
0.0
180
120
0
1
2
3
4
5
Taux de nasalisation phonétique (Compacité)
Figure 55. Fonctions d’identification obtenues par mise en correspondance d’une sigmoïde avec les données (Valeurs de PN) concernant 4 espaces de stimuli: CVC
Brèves, CVC Longues, NVC Brèves, NVC Longues. Le niveau de Compacité de la voyelle est représenté en abscisse : des stimuli les moins compacts, en 1, aux plus
compacts, en 5. Chaque courbe représente un degré de Gravité : des stimuli les moins graves, en 1, aux plus graves, en 5. Les nombres affichés sur fond gris
donnent les durées pour les stimuli (5,1) et (5,5), situés à gauche et à droite de la courbe orange, et pour les stimuli (1,1) et (1,5), sur la courbe noire.
186
CVC Brèves
1.0
0.5
0.5
Proportion de réponses « nasale » PN
o/o Dyn II
CVC Longues
1.0
0.0
0.0
0
1.0
1
2
3
4
5
Abaissement de F2
(Gravité)
0
1.0
NVC Brèves
0.5
1
2
3
4
5
3
4
5
NVC Longues
0.5
0.0
0
1
2
3
4
5
0.0
0
1
2
Taux de nasalisation phonétique (Compacité)
Figure 56. Fonctions d’identification obtenues par mise en correspondance d’une sigmoïde avec les données (Valeurs de PN) concernant 4 espaces de stimuli o Dyn
II : CVC Brèves, CVC Longues, NVC Brèves, NVC Longues. Le niveau de Compacité de la voyelle est représenté en abscisse : des stimuli les moins compacts, en 1,
aux plus compacts, en 5. Chaque courbe représente un degré de Gravité : des stimuli les moins graves, en 1, aux plus graves, en 5.
187
CVC Brèves
1.0
Proportion de réponses « nasale » PN
0.5
o/o2 Dyn I
CVC Longues
1.0
0.5
Abaissement de F2
(Gravité)
0.0
0.0
0
1
2
3
4
NVC Brèves
1.0
120
120
0.5
0
5
1
2
1.0
NVC Longues
0.5
150
3
4
150
120
120
0.0
0
150
150
0.0
1
2
3
4
5
5
0
1
2
3
4
5
Taux de nasalisation phonétique (Compacité)
Figure 57. Fonctions d’identification obtenues par mise en correspondance d’une sigmoïde avec les données (Valeurs de PN) concernant 4 espaces de stimuli o2 Dyn
I : CVC Brèves, CVC Longues, NVC Brèves, NVC Longues. Le niveau de Compacité de la voyelle est représenté en abscisse : des stimuli les moins compacts, en 1,
aux plus compacts, en 5. Chaque courbe représente un degré de Gravité : des stimuli les moins graves, en 1, aux plus graves, en 5. Les nombres affichés sur fond
gris donnent les durées pour les stimuli (5,1) et (5,5), situés à gauche et à droite de la courbe orange, et pour les stimuli (1,1) et (1,5), sur la courbe noire.
188
b.
« Longues » vs. « Brèves »
Même si une voyelle nasale synthétisée donne une impression auditive plus
« naturelle » quand elle est longue, la durée des voyelles n’est pas à proprement parler un
indice régulièrement utilisé par nos auditeurs pour décider si une voyelle est orale ou nasale.
On observe très peu de différences dans les réponses « nasale » selon que la voyelle est
brève ou longue, toutes choses étant égales par ailleurs, c’est-à-dire pour les items CVC. Les
continuums o/o2 font exception : les voyelles très compactes et peu graves (1,4), (1,5), (2,4) et
(2,5) sont deux fois plus souvent identifiées comme des nasales lorsqu’elles sont plus longues
(Cf. CVC Brèves vs. CVC Longues dans la Figure 57). Par ailleurs, nous avons vu ci-dessus
qu’en plus des dimensions de Gravité et de Compacité, des différences additionnelles de durée
étaient nécessaires à une bonne synthèse de la nasalité dans le cas des continuums NVC o/o.
Nous ne pouvons pas déterminer à partir de nos données si c’est également vrai pour les
autres continuums ((/( et D/$) puisque en ce qui les concerne les voyelles très compactes et
très graves (5,5) sont toujours plus longues que les voyelles peu compactes et peu graves (1,1)
lorsqu’elles sont insérées dans des items NVC (« Brèves » et « Longues »).
c.
« Dyn I » vs. « Dyn II »
On n’observe que très peu de différences dans les réponses des auditeurs selon que
les espaces de stimuli sont de type Dyn I ou Dyn II. Une première hypothèse est que nous
n’avons pas mis en oeuvre la différence entre les stimuli Dyn I et Dyn II sur une fenêtre
temporelle assez large pour qu’elle influence la décision des auditeurs. En particulier, les
stimuli CVC de type Dyn I atteignent déjà leur cible nasale à t3 = 40 ms, ce qui est encore très
tôt pour une voyelle d’une durée de 200 ou 250 ms. Néanmoins, on parvient à un taux
d’identification des nasales proche de 100% avec des stimuli (4,5) ou (5,5) de type Dyn II, ce
qui plaide en faveur d’une seconde hypothèse, plus simple, selon laquelle l’évolution temporelle
spécifique des paramètres acoustiques liés à la nasalisation n’a que peu d’importance pour la
détection du contraste de nasalité en français. Que le voile descende très tôt ou un peu plus
tard, et quel que soit le moment à partir duquel la configuration orale propre à la voyelle nasale
est en place, ceci n’a apparemment que peu d’influence sur la bonne perception de la nasalité
de la voyelle, pourvu que les indices acoustiques liés à ces deux types d’articulations soient bel
et bien présents pendant la majeure partie de la voyelle.
189
2.4.
Paradigme expérimental ID2
Les résultats de l’expérience ID2 sont présentés dans les Figure 58 (continuums (/(),
Figure 59 (continuums D/$), et Figure 60 (continuums o/o2). Dans ces figures, on représente
pour chaque condition testée l’espace à deux dimensions des 5*5 stimuli (Gravité en abscisse
et Compacité en ordonnée). Chaque stimulus est symbolisé par un graphique de type « pie
chart ». Il s’agit d’un gâteau virtuel découpé en X parts, où X équivaut au nombre d’auditeurs
(soit 6 auditeurs pour D/$ et (/(, et 4 auditeurs pour o/o2). Chaque part du gâteau représente
donc la réponse apportée par un auditeur donné (toujours le même) au stimulus concerné lors
de la tâche d’identification ID2 : la couleur jaune pour une réponse « orale », la couleur bleue
pour une réponse « nasale », la couleur verte pour une réponse « intermédiaire » et la couleur
grise pour une réponse « poubelle ».
Le nombre affiché auprès de certains « gâteaux » correspond au score de préférence
atteint par le stimulus au sein de la classe des orales (en jaune) ou bien des nasales (en bleu).
Les scores de préférence ont été calculés de la façon suivante. Nous avons conservé pour
chaque auditeur le classement qu’il attribue aux cinq meilleurs prototypes de la classe
uniquement. Au meilleur, nous avons attribué 5 points, au second, quatre points, etc. Nous
avons ensuite additionné tous les points obtenus par un même stimulus. Le total des points
distribués pour un espace de stimuli atteint 90 lorsqu’il y a six auditeurs et 60 lorsqu’ils ne sont
que quatre. Afin de pouvoir comparer entre eux les résultats relatifs aux différents continuums,
nous avons donc multiplié les points obtenus par 100/90 ou par 100/60 selon les cas, pour
aboutir au score de préférence de chaque stimulus (en %). Le stimulus qui obtient le score de
préférence le plus élevé est donc celui qui a obtenu le meilleur classement en moyenne tous
auditeurs confondus. Le « gâteau » correspondant à ce stimulus est affiché sur fond bleu pour
les nasales et sur fond jaune pour les orales de chaque espace.
Les Figure 58, Figure 59 et Figure 60 confirment les résultats obtenus sur les mêmes
auditeurs avec le paradigme expérimental ID1. Ainsi, pour les continuums (/( (tous CVC), la
dimension acoustique dominante est celle de Compacité (Figure 58). Les « gâteaux »
correspondant aux stimuli ayant une valeur égale ou inférieure à 3 sur l’échelle de Compacité
sont majoritairement de couleur jaune ou grise tandis que pour les voyelles les plus compactes
(de Compacité 4 ou 5) les couleurs prédominantes sont le bleu et le vert. Le stimulus nasal
préféré n’est d’ailleurs pas parmi les plus graves pour ce continuum.
190
Orales
Intermédiaires
Nasales
Poubelle
( /(
CVC Brèves (Dyn I)
CVC Longues (Dyn I)
CVC Brèves (Dyn II)
CVC Longues (Dyn II)
Figure 58. Résultats de l’expérience ID2 pour les continuums (/( dans quatre conditions : CVC Brèves Dyn I, CVC
Longues Dyn I, CVC Brèves Dyn II, CVC Longues Dyn II. Chaque part de gâteau représente la réponse donnée par
un auditeur au stimulus concerné, et le nombre adjacent correspond à son score de préférence (voir texte).
191
La situation est différente pour les continuums D/$, où le stimulus préféré est de Gravité
4 ou 5, et où la répartition des couleurs en général indique que les deux dimensions contribuent
pleinement à la décision de nasalité. La dimension de Gravité est même prédominante puisque
l’on peut isoler la majorité des réponses « orale » (en jaune) des réponses « nasale » (en bleu)
en se référant presque uniquement au critère de Gravité (Voir les lignes de démarcation
tracées sur la Figure 59). Dans le cas des continuums o/o2, la démarcation s’approche plutôt
d’une ligne diagonale (Figure 60), ce qui indique une véritable équivalence des deux
dimensions acoustiques en ce qui concerne leur poids dans la décision de nasalité. Les /o/
préférés des auditeurs n’ont pas le degré maximal de Compacité.
Le voyelle orale préférée des auditeurs correspond dans tous les cas au stimulus (1,1).
La variabilité est plus importante pour les voyelles nasales comme nous venons de le voir, mais
de façon générale ces résultats confirment la validité des paramètres acoustiques sélectionnés
en tant qu’indices perceptuels de la nasalité, puisque beaucoup de stimuli sont reconnus
comme de bons prototypes de voyelles nasales. Les voyelles /(/ sont celles qui semblent le
moins appréciées, car c’est pour elles que les auditeurs sont à la fois le plus divisés et le moins
enclins à attribuer une étiquette de « bonne nasale » (plutôt que de voyelle « intermédiaire » ou
« à rejeter »). Une autre information apportée par le paradigme ID2 en complément au
paradigme ID1 concerne les voyelles rejetées dans les différents continuums. En ce qui
concerne les continuums o/o2, ces voyelles sont réparties un peu partout dans l’espace, alors
que pour les deux autres continuums elles sont concentrées dans une région particulière. Pour
les continuums (/(, les voyelles rejetées sont celles qui sont à la fois très graves et pas assez
compactes (en bas à droite de l’espace). Par contre, pour les continuums D/$, la couleur grise
est très présente lorsque les voyelles sont très compactes mais pas assez graves (en haut à
gauche de l’espace). La raison pour laquelle ces stimuli sont rejetés réside sans doute dans le
fait que ces voyelles s’approchent de la réalisation phonétique d’autres phonèmes du français,
respectivement /¡/ et /¡/ :
Lorsque une voyelle est synthétisée avec des paramètres acoustiques appropriés pour
/(/, à l’exception de F2 qui est plus bas (1550 Hz), les auditeurs francophones tendent à
l’identifier comme une réalisation de /¡/.
Les /D/ les plus compacts qui ont un F2 à 1150 Hz donnent quant à eux une impression
auditive proche de /¡/.
192
Orales
Intermédiaires
Nasales
Poubelle
D /$
CVC Brèves (Dyn I)
CVC Longues (Dyn I)
CVC Brèves (Dyn II)
CVC Longues (Dyn II)
Figure 59. Résultats de l’expérience ID2 pour les continuums D/$ dans quatre conditions : CVC Brèves Dyn I, CVC
Longues Dyn I, CVC Brèves Dyn II, CVC Longues Dyn II. Chaque part de gâteau représente la réponse donnée par
un auditeur au stimulus concerné, et le nombre adjacent correspond à son score de préférence (voir texte).
193
Orales
Intermédiaires
Nasales
Poubelle
o /o 2
CVC Brèves (Dyn I)
CVC Longues (Dyn I)
Figure 60. Résultats de l’expérience ID2 pour les continuums o/o2. dans quatre conditions : CVC Brèves Dyn I, CVC
Longues Dyn I, CVC Brèves Dyn II, CVC Longues Dyn II. Chaque part de gâteau représente la réponse donnée par
un auditeur au stimulus concerné, et le nombre adjacent correspond à son score de préférence (voir texte).
Ces éléments indiquent que pour synthétiser un continuum ¡/¡, une piste à suivre
consiste en une combinaison de deux dimensions acoustiques similaires à celles utilisées pour
les autres timbres vocaliques, c’est-à-dire une combinaison de la Compacité d’une part et de la
Gravité d’autre part, où en l’occurrence le F2 de la voyelle passerait de 1500 Hz à 1200 Hz
environ. Quelques essais informels réalisés en ce sens nous ont confirmé l’efficacité du
procédé.
Les Figure 61 à Figure 66 donnent un spectrogramme et le signal pour quatre items
chacune. Elles permettent de comparer les nasales préférées par nos auditeurs avec des items
CVC prononcés en parole naturelle et qui contiennent les mêmes nasales. Ainsi, les Figure 61,
Figure 63 et Figure 65 montrent les stimuli ayant obtenu le score de préférence le plus élevé
194
(pour la classe des nasales) dans chaque condition testée, respectivement pour les continuums
(/(, D/$ (items t_t) et o/o2 (items k_t). Les autres figures présentent quant à elles des données
issues de l’étude aérodynamique. Il s’agit de la production par nos quatre locuteurs masculins
S3, S4, S7, et S8 des mots du français teinte, /W(W/ (Figure 62), tante, /W$W/ (Figure 64), et con,
/No/ (Figure 66). Ces figures permettent de comparer les propriétés acoustiques des voyelles
nasales dont la synthèse a été jugée bonne par nos auditeurs avec celles de voyelles nasales
prononcées en parole naturelle par plusieurs locuteurs francophones.
La différence majeure entre les stimuli synthétisés et les voyelles naturelles se situe en
début de voyelle : la période est brève pendant laquelle les paramètres acoustiques ont des
valeurs appropriées à la voyelle orale correspondante pour les voyelles synthétisées en
général, et elle est presque inexistante pour les stimuli de type Dyn II. La différence entre les
uns et les autres n’a pas amené de modifications dans le schéma de réponses des auditeurs
(Cf. p.189), mais sans doute aurions-nous pu allonger cette période en début de voyelle pour
les stimuli de type Dyn I. Quoi qu'
il en soit, nous obtenons des voyelles nasales jugées
excellentes par les auditeurs sans recourir à cette forte évolution temporelle des paramètres en
début de voyelle, ce qui signifie sans doute que sa présence n’est pas capitale pour la
perception de la nasalité. C’est essentiellement au cours de cette portion orale que les
formants supérieurs à F1 et F2 ont une énergie acoustique relativement élevée pour les voyelles
naturelles /$/ et /o/. Une autre différence entre voyelles synthétiques et voyelles naturelles
correspondantes réside donc dans le fait qu’il y a très peu d’énergie acoustique au-dessus de
F2 tout au long de nos /$/, /o/. synthétiques. En cela, elles sont fort comparables avec les
spectrogrammes obtenus pour les sujets masculins S7 et S8 pour qui la portion véritablement
nasale de la voyelle peut être décrite à l’aide d’un ou deux formants seulement. De façon
générale, la comparaison entre les voyelles synthétiques et les voyelles naturelles montre
qu’une synthèse efficace s’appuie avant tout sur la sélection des indices acoustiques adéquats,
qui ne correspondent pas toujours avec les éventuelles propriétés « invariantes » des voyelles
naturelles.
195
CVC Brèves (Dyn I)
CVC Longues (Dyn I)
Stim (3,5)
W
(
W
Stim (3,5)
W
(
CVC Brèves (Dyn II)
(
W
W
CVC Longues (Dyn II)
Stim (3,5)
W
( /(
Stim (2,5)
W
(
W
Figure 61. Spectrogramme et signal du stimulus ayant obtenu le score de préférence le plus élevé dans les quatre conditions testées pour le continuum (/(.
196
S3
W
(
W
S4
W
(
W
S7
W
(
W
/W(W/
S8
W
(
W
Figure 62. Spectrogramme et signal pour les items [W(W] prononcés en parole naturelle par les quatre locuteurs masculins de l’étude aérodynamique.
197
CVC Brèves (Dyn I)
CVC Longues (Dyn I)
Stim (4,4)
W
$
W
Stim (4,5)
W
$
CVC Brèves (Dyn II)
$
W
W
CVC Longues (Dyn II)
Stim (4,5)
W
D/ $
Stim (5,5)
W
$
W
Figure 63. Spectrogramme et signal du stimulus ayant obtenu le score de préférence le plus élevé dans les quatre conditions testées pour le continuum D/$.
198
S3
W
$
S4
W
W
$
W
S8
S7
W
$
/W$W/
W
W
$
W
Figure 64. Spectrogramme et signal pour les items [W$W] prononcés en parole naturelle par les quatre locuteurs masculins de l’étude aérodynamique.
199
CVC Brèves (Dyn I)
CVC Longues (Dyn I)
Stim (5,4)
N o
Stim (5,4)
W
N
o
o/ o2
W
Figure 65. Spectrogramme et signal du stimulus ayant obtenu le score de préférence le plus élevé dans les quatre conditions testées pour le continuum o/o2.
200
S3
N
S4
o
N
o
S7
N
/No/
S8
o
N
o
Figure 66. Spectrogramme et signal pour les items [No] prononcés en parole naturelle par les quatre locuteurs masculins de l’étude aérodynamique.
201
3.
Discussion
Les résultats des deux expériences d’identification ID1 et ID2 permettent de traiter les
questions de validité perceptuelle des indices acoustiques sélectionnés pour la synthèse de la
nasalité, ainsi que de primauté de certains indices par rapport aux autres, tant lorsque la
voyelle synthétisée est insérée dans un contexte phonologique oral que nasal.
En ce qui concerne la validité des indices acoustiques retenus, les expériences
menées à grande échelle confirment les premières tendances enregistrées au cours de
l’expérience pilote, à savoir que les deux dimensions acoustiques principales pour la détection
de la nasalité sont la Gravité et la Compacité. La Gravité est d’autant plus importante dans les
items de type NVC, en particulier pour les continuums (/( (Cf. p.179). La durée ne semble pas
être l’un des facteurs qui déterminent véritablement la décision des auditeurs quant à la
nasalité d’une voyelle, même si elle joue apparemment un rôle d’adjuvant pour les continuums
o/o2, surtout dans le cas des items NVC (Cf. p.189). Enfin, telle que nous l’avons implémentée
dans nos stimuli synthétiques (Dyn I vs. Dyn II), l’évolution temporelle en début de voyelle des
paramètres liés à la nasalité n’a qu’un effet tout à fait marginal sur le schéma de réponses des
auditeurs pour un continuum donné.
Ainsi, en combinant les indices acoustiques liés à la durée, à la compacité et à la
gravité d’une voyelle, nous sommes parvenue à synthétiser de façon très efficace des
continuums orale-nasale pour différentes voyelles du français. L’intérêt majeur de la démarche
poursuivie est que les mêmes indices ont été utilisés pour trois timbres vocaliques différents,
avec succès. Nous avons donc mis à jour les propriétés acoustiques qui signalent la nasalité
vocalique en français indépendamment de la voyelle concernée.
En ce qui concerne plus précisément la dimension de Compacité, nous avons avant
tout démontré qu’elle était nécessaire à une bonne synthèse des voyelles nasales du
français. Nous estimons que les voyelles compactes donnent l’impression auditive
escomptée, c’est-à-dire une impression auditive proche de celle causée par la nasalité
phonétique à la suite du couplage des résonateurs buccal et nasal pendant la voyelle.
Les expériences menées sur les auditeurs anglophones doivent permettre de confirmer
expérimentalement notre jugement. En effet, en réponse à la tâche demandée, ces
auditeurs devraient uniquement juger si une voyelle est (phonétiquement) nasalisée ou
non, étant donné qu’il n’existe que des voyelles nasalisées en anglais. Si les résultats
obtenus avec les auditeurs francophones se confirment, c’est-à-dire si les anglophones
identifient constamment les voyelles les plus compactes comme les voyelles les plus
nasalisées, nous pourrons conclure que nous avons trouvé une façon adéquate de
202
caractériser les effets acoustiques de l’abaissement du voile du palais en général,
indépendamment du locuteur, de la voyelle et de la langue concernés. C’est ce que
nous visions en apportant des modifications relativement générales au niveau d’énergie
des formants, plutôt qu’en synthétisant la nasalité au moyen de paires pôle-zéro qui,
par définition, surviennent à des fréquences spécifiques et dépendantes des facteurs
précités.
En ce qui concerne la dimension acoustique d’Intensité, laissée de côté à la suite de
l’expérience pilote, il est possible en théorie qu’elle eût mieux convenu à la synthèse
des continuums o/o. En effet, nos observations des propriétés acoustiques de /o/ en
production de la parole indiquent que pour cette voyelle en particulier la chute de
l’énergie acoustique se fait ressentir à toutes les fréquences (Cf. pp.110 et suivantes).
D’ailleurs, dans les items NVC, le taux d’identification de voyelles nasales /o/ atteint tout
juste 90% si la durée ne varie pas d’une extrémité à l’autre du continuum (Cf. p.183).
Cependant, nous ne pensons pas que l’utilisation de la dimension d’Intensité aurait
changé profondément le spectre des /o/ synthétiques par rapport aux stimuli les plus
compacts. En effet, la méthode que nous avons utilisée pour la synthèse (avec les
résonateurs formantiques connectés en cascade, Cf. Klatt, 1980) a pour conséquence
que lorsque une voyelle est très postérieure (avec un F2 très bas), les formants
supérieurs à F2 sont très peu intenses. C’est ce que l’on remarque si l’on compare les
spectrogrammes des voyelles synthétiques /(/ et /o/ qui ont obtenu les scores de
préférences les plus élevés (Figure 61, p.196 vs. Figure 65, p. 200). Nous concluons
donc que dans le cas de cette voyelle, c’est surtout une variation de durée qui aurait
permis d’augmenter le taux d’identification des nasales. Par ailleurs, la synthèse
formantique « en cascade » est une méthode qui a précisément pour objet de tenir
compte des relations existant entre la fréquence d’un formant et l’amplitude des
formants supérieurs (Klatt, 1980, en référence à Fant, 1960). Il n’est donc peut-être pas
fortuit que l’interaction des indices acoustiques liés à l’augmentation de la Gravité d’une
voyelle postérieure d’une part, et l’augmentation de sa Compacité d’autre part,
aboutisse en synthèse de la parole à une perte d’énergie généralisée au-dessus de 800
Hz. Il est possible que la chute d’intensité constatée lors de la production des voyelles
nasales postérieures du français ne soit également qu’une manifestation différente du
même phénomène lié à l’énergie qui mène dans le cas des antérieures à une
augmentation de la Compacité. Quoi qu’il en soit, la dimension de Compacité est la
203
façon la plus adéquate de synthétiser la nasalité phonétique pour nos trois continuums
D/$, (/(, et o/o..
En ce qui concerne la dimension de Gravité, les expériences d’identification ont
confirmé notre analyse des données articulatoires et acoustiques présentées dans la
première partie de ce travail. Nous avons en effet considéré que l’effet acoustique
majeur des différentes articulations additionnelles à l’abaissement du voile pendant les
voyelles nasales du français (arrondissement des lèvres, recul de la langue dans la
bouche) consistait en une baisse généralisée du F2 de la voyelle par rapport à l’orale
correspondante. Ce n’était pas à proprement parler le cas pour la paire o/o, mais nous
avons supposé qu’un F2 peu intense, même plus élevé en fréquence, n’avait que peu
de poids auditif, et qu’en conséquence les nasales /o/ devaient être perçues comme
des voyelles plus compactes que leurs homologues orales. Les résultats obtenus lors
des expériences d’identification confirment que pour qu’une voyelle soit identifiée
comme une nasale (/o/ y compris), il faut qu’elle soit plus grave, c’est-à-dire que son
énergie soit plus ramassée en basses fréquences, que l’orale correspondante.
La question de la primauté perceptuelle des indices acoustiques sélectionnés pour la
synthèse de la nasalité ne peut être considérée indépendamment du contexte phonologique
dans lequel la voyelle concernée est insérée. En effet, pour les trois continuums, d’importantes
variations dans le schéma de réponses des auditeurs sont constatées en fonction du contexte :
NVC ou CVC. En contexte phonologique nasal, la Compacité seule (non accompagnée d’un
certain taux de Gravité) donne lieu à un plus faible taux d’identification nasale qu’en contexte
CVC. La nasalité phonétique d’une voyelle est donc moins bien perçue en contexte NVC. Par
ailleurs, les effets acoustiques des articulations additionnelles (synthétisés sous la forme de la
dimension de Gravité) sont particulièrement efficaces pour ces items. En effet, une voyelle très
grave est plus vite perçue comme une nasale en contexte NVC (Cf. p.184). D’après nos
données, les voyelles nasales sont donc aussi bien perçues en contexte phonologique nasal
qu’oral (à part le cas des NVC o/o2, voir ci-dessus), et ce parce que les auditeurs prennent alors
plus largement en compte d’autres facteurs que la compacité de la voyelle, tels que sa gravité
ou encore sa durée.
Notre interprétation de ces faits est la suivante. On assiste en français, comme dans
d’autres langues, à un phénomène de compensation perceptuelle des effets acoustiques liés à
l’abaissement du voile pendant une voyelle lorsque celle-ci est placée en contexte
204
phonologique nasal.36 L’auditeur attribue une partie de la nasalité de la voyelle aux consonnes
environnantes. Que ce phénomène relève de processus auditifs automatiques et généraux,
comme le pensent les tenants de la théorie auditive (Kingston et Diehl, 1995), ou qu’il s’agisse
d’un procédé d’ordre décisionnel lié à l’expérience linguistique (Beddor et Krakow, 1999), dont
nous avons proposé qu’il pouvait également s’insérer dans une vision élargie de la
connaissance phonétique (p.13), nous pensons que les locuteurs ont connaissance du
phénomène, et qu’ils ont les moyens d’adapter leur comportement phonétique en
conséquence, dans le cadre d’une phonétique contrôlée. Plus précisément, le locuteur et
l’auditeur semblent coopérer étroitement pour « remédier » à la situation créée par la
compensation perceptuelle, puisqu’un plus grand nombre d’indices acoustiques de la nasalité
sont mis à la disposition de l’auditeur par le locuteur lorsqu’il produit une nasale du français, et
que ces indices sont effectivement largement utilisés en contexte NVC37. Kingston et Diehl
(1994) se concentrent sur les cas où le locuteur fait covarier diverses articulations parce que
leurs propriétés acoustiques rehaussent mutuellement (et automatiquement) leurs effets dans
la perception des auditeurs. La question de savoir s’il y a une motivation de cet ordre à la
covariation des dimensions acoustiques de Gravité et de Compacité en français est traitée
dans le chapitre suivant. Si les deux dimensions sont intégrées dans la perception des
auditeurs, le phénomène est alors automatique, et les auditeurs, passifs, ne peuvent faire
autrement que d’utiliser les deux types d’indices lorsqu’ils jugent de la nasalité d’une voyelle,
puisque la valeur d’un stimulus le long d’une dimension influence automatiquement sa valeur le
long de l’autre dimension.
Quoi qu’il en soit, le contraste de nasalité en français s’appuie largement sur des
indices acoustiques autres que ceux liés à l’abaissement du voile du palais. Ces indices
renforcent le contraste de nasalité dans la mesure où les nasales sont plus différentes des
orales
correspondantes,
tout
en
restant
bien
distinctes
entre
elles.
Ces
indices
complémentaires sont particulièrement nécessaires (et utilisés) lorsque la nasalisation
phonétique de la voyelle peut être attribuée au contexte. Il y a là l’indice d’une stratégie
générale de contrôle par les locuteurs de leurs réalisations phonétiques, c’est-à-dire d’une
adaptation de leur comportement phonétique dans le but d’optimiser la communication. Dans
cette hypothèse, nous avons proposé ci-dessus que la nasalité strictement phonétique pouvait
être utilisée par la langue à d’autres fins (p.139). Nous n’avons pas les moyens de vérifier à
partir de nos données perceptuelles si la nasalité contextuelle d’une voyelle aide à la
36
Pour un exposé de la problèmatique de la compensation nasale, et de son traitement dans la littérature, voir
Introduction, p.13.
37
La division n’est que fonctionnelle entre les rôles d’« auditeur » et de « locuteur ». Ces rôles sont alternativement
joués par un seul et même individu.
205
perception de la consonne nasale précédente. Par contre, nous pouvons examiner les données
au regard de l’hypothèse selon laquelle un certain abaissement du voile du palais fait partie du
plan du locuteur lorsqu’il produit une voyelle orale /D/ parce que l’augmentation de la bande
passante en F1 ferait percevoir cette voyelle comme plus ouverte encore (p.89). Si cette
hypothèse est exacte, on peut s’attendre à ce que la voyelle orale préférée des auditeurs
francophones soit par exemple de degré 2 sur l’échelle de Compacité. Comme le montre la
Figure 59, cette prédiction n’est pas confirmée par les données. Par contre, les continuums D/$
sont ceux pour lesquels la dimension de Gravité contribue massivement à la décision de
nasalité, et ce déjà dans les items CVC. La Compacité seule n’est pas vraiment suffisante pour
nasaliser une voyelle /D/. Les conditions sont donc réunies pour que les indices acoustiques
liés au seul abaissement du voile du palais soient en partie utilisés par la langue à d’autres fins
que celle de signaler le seul contraste phonologique de nasalité. Mais nos données ne
permettent pas de conclure que tel est effectivement le cas en français.
206
Chapitre
2
Discrimination
1.
Matériel et méthode
Ce chapitre est consacré aux expériences de discrimination (DISC) effectuées auprès
des auditeurs francophones, sur les continuums D/$, (/(, et o/o, puis sur les continuums o/o2.
Pour chaque continuum, les auditeurs sont les mêmes que ceux qui ont participé aux
expériences d’identification ID1 et ID2 présentées dans le chapitre précédent. Dans les faits,
toutes les expériences de discrimination ont précédé celles d’identification. On évite ainsi de
proposer aux auditeurs des catégories linguistiques auxquelles relier les stimuli avant qu’ils en
aient terminé avec les tâches de discrimination proprement dites.
Les fondements du paradigme expérimental DISC ont été exposés dans l’introduction à
la seconde partie (Cf. p.148). Le principe général est de mener de multiples tâches de
discrimination de type « oui-non » (Macmillan et Creelman, 1991) sur diverses paires de
stimuli ; puis d’utiliser les valeurs de d’ obtenues dans une procédure de proportionnalisation
multidimensionnelle afin de construire l’espace perceptuel des auditeurs correspondant à
l’espace acoustique des stimuli ; enfin d’évaluer dans l’espace perceptuel dérivé le degré
d’interaction entre les deux dimensions acoustiques initiales.
Pour chaque continuum, nous avons testé les mêmes espaces de stimuli que dans
l’expérience ID2, soit quatre conditions pour les continuums D/$, (/( et o/o (CVC Brèves Dyn I,
CVC Longues Dyn I, CVC Brèves Dyn II, CVC Longues Dyn II) et deux conditions pour les
continuums o/o2 (CVC Brèves Dyn I, CVC Longues Dyn I). Nous n’avons donc pas de données
de discrimination concernant les items NVC pour les auditeurs francophones (au contraire des
anglophones, Cf. Chapitre 3, p.236), et ce en raison du temps nécessaire à la conduite de ces
expériences, soit environ deux sessions expérimentales de deux heures par condition testée.
La procédure utilisée pour la présentation des stimuli est relativement comparable à
celle que nous avons exposée ci-dessus pour le paradigme ID1 (p.157). L’auditeur est assis
face à un écran d’ordinateur, muni d’un casque audio dans lequel il entend les stimuli (un
stimulus à la fois). Au cours de la phase d’entraînement, on lui présente à dix reprises et en
alternance les deux stimuli concernés par la tâche de discrimination à venir. Après chaque
stimulus, un feed-back apparaît à l’écran, sous la forme d’une flèche noire pointant vers la
réponse correcte pour le stimulus en question, soit « 1 » ou « 2 » (Cf. Figure 67). Les étiquettes
« 1 » et « 2 » sont attribuées aléatoirement par l’ordinateur en début de tâche, puis restent
fixées tout au long de la tâche.
208
Lors de la phase de test, l’auditeur doit déterminer après chaque son entendu s’il
s’agissait du stimulus « 1 » ou bien du stimulus « 2 » en cliquant avec la souris sur la zone de
l’écran correspondante. La réponse de l’auditeur est suivie dans tous les cas d’un feed-back
indiquant la réponse correcte. Au total, pendant la phase de test, chaque stimulus est présenté
40 fois, et les 80 présentations ont lieu dans un ordre aléatoire.
Figure 67. Copie de l’écran proposé aux auditeurs de l’expérience principale lors de la phase d’entraînement à la
tâche de discrimination. Après chaque stimulus, une flèche désigne la réponse correcte à l’intention de l’auditeur.
La Figure 68 permet d’illustrer les principales étapes du paradigme expérimental DISC,
depuis la prise des données jusqu’à leur traitement par la technique de proportionnalisation
multidimensionnelle (ou « MDS »). Dans la partie supérieure gauche de la figure, les lignes
(horizontales, verticales et diagonales) gris foncé indiquent les paires de stimuli qui font l’objet
d’une tâche de discrimination par les auditeurs. Le nombre de tâches à effectuer atteint un total
de 20 par condition, puisque nous menons l’expérience sur l’ensemble des paires de stimuli
adjacents dans un sous-ensemble de l’espace principal composé de 3*3 stimuli. Le choix du
sous-ensemble dans chaque condition (ainsi que les critères ayant mené à ce choix) sont
209
précisés ci-dessous (Cf. p.215). Les neuf stimuli ainsi sélectionnés au sein de chaque espace
seront désignés dans la suite de ce chapitre par les nombres 1 à 9, comme illustré sur la
Compacité
figure.
C
D
A
B
B
Gravité
+
C
7
+
G
B
Figure 68. Illustration du paradigme expérimental DISC. En haut à gauche : toutes les paires de stimuli adjacents au
sein d’un sous-ensemble de l’espace principal composé de 3*3 stimuli font l’objet d’une tâche de discrimination. En
haut à droite : les valeurs de d’ obtenues quadrant par quadrant sont utilisées dans une procédure de
proportionnalisation multidimensionnelle (MDS). En bas, la procédure MDS propose une configuration de l’espace
perceptuel du quadrant dans laquelle nous mesurons l’interaction entre les deux dimensions acoustiques initiales au
moyen de l’angle 7.
210
En mesurant les performances des auditeurs lors de la discrimination des 20 paires de
stimuli, nous avons obtenu des valeurs de d’ pour tous les stimuli pris 2 à 2 au sein des quatre
quadrants du sous-ensemble A, B, C, et D. Cependant, nous n’avons pas de données
concernant les paires de stimuli qui sont éloignés de plus d’un pas le long de l’une ou des deux
dimensions acoustiques initiales. Nous n’avons par exemple aucune estimation de la distance
perceptuelle entre les stimuli {1,9} ou {7,2} ou {4,3}, etc. C’est pourquoi lors de la construction
des configurations géométriques (voir ci-dessous), nous avons considéré tour à tour les
données concernant exclusivement les stimuli d’un même quadrant : A (stimuli 1, 2, 4, 5), B
(stimuli 2, 3, 5, 6), C (stimuli 4, 5, 7, 8) et D (stimuli 5, 6, 8, 9). La partie supérieure droite de la
Figure 68 montre les valeurs de d’ qui sont pertinentes pour le quadrant B. Notons que
certaines valeurs de d’ sont utilisées plusieurs fois dans le traitement des données. Par
exemple, d’ {2,5} est pris en compte une première fois dans la construction de l’espace
perceptuel correspondant au quadrant A et une seconde fois pour le quadrant B.
La technique de proportionnalisation multidimensionnelle (MDS) est destinée à
représenter géométriquement la structure d’un ensemble d’objets à partir de données estimant
les distances entre ces objets considérés par paires (Young et Hamer, 1979). Nous avons
utilisé la technique de MDS afin de reconstruire, quadrant par quadrant, l’espace perceptuel
correspondant chez nos auditeurs à l’espace acoustique inital des stimuli. Les données de
dissimilarité (de distance) considérées ici sont les valeurs de d’ obtenues au cours des diverses
tâches de discrimination des stimuli pris deux à deux. Ainsi, plus la valeur de d’ est élevée, plus
la distance perceptuelle entre les deux stimuli concernés est importante, et plus grande sera la
distance qui sépare les deux points représentant ces stimuli dans la configuration géométrique
correspondante.
Le modèle de MDS choisi est le modèle INDSCAL (pour « Individual Differences
Scaling »). Ce modèle consiste en une généralisation du modèle euclidien, qui permet de
mieux rendre compte des différences systématiques existant entre les différentes matrices de
dissimilarité (correspondant chacune aux données relatives à un auditeur en particulier),
(Young and Harris, 1990). Le modèle INDSCAL représente l’information partagée par tous les
individus quant à la structure des stimuli dans un espace X, ici à 2 dimensions. Les
particularités individuelles sont elles représentées dans un espace W, qui donne l’importance
relative accordée par chaque individu aux deux dimensions de l’espace X. Les dimensions de
l’espace X fournies à la sortie de la procédure INDSCAL sont normalisées séparément de
façon à avoir une longueur moyenne similaire (égale au nombre de stimuli). Afin d’obtenir une
représentation de l’espace perceptuel qui soit proportionnelle aux données relatives à tous les
auditeurs, nous avons donc multiplié la longueur normalisée de chaque dimension de l’espace
211
X par le poids moyen accordé par les auditeurs à cette dimension. Les distances séparant les
stimuli dans l’espace ainsi obtenu représentent alors (la meilleure approximation de) la distance
perceptuelle moyenne entre ces deux stimuli, tous auditeurs confondus.
La partie inférieure de la Figure 68 illustre la façon dont nous avons mesuré le degré
d’interaction entre les deux dimensions acoustiques initiales, en nous inspirant directement de
la procédure utilisée par Kingston et Macmillan (1995) et Macmillan et al. (1999).
Tout d’abord, nous avons tracé pour chaque quadrant les deux droites de « contour
perceptuel » : « C » et « G ». Il s’agit des droites reliant les centroïdes des stimuli ne
variant que le long d’une des deux dimensions acoustiques. Ainsi, la droite bleue « C »,
qui relie les centroïdes entre les stimuli {2,3} d’une part, et {5,6} d’autre part, donne le
contour du changement perceptuel moyen survenant lorsque la valeur d’un stimulus le
long de la dimension de Compacité évolue (de – vers +) alors que sa valeur pour la
Gravité reste fixe. Sur le même modèle, la droite verte « G » donne le contour du
changement perceptuel moyen induit par une variation de la Gravité uniquement. Dans
l’exemple donné sur la Figure 68, augmenter la compacité d’une voyelle implique
qu’elle est également perçue comme plus grave, toutes choses étant égales par
ailleurs. De même, un stimulus plus grave aura automatiquement une valeur
perceptuelle plus élevée le long de la dimension de compacité.
Le degré d’interaction entre les dimensions peut être mesuré par l’angle formé par les
contours perceptuels C et G. Si l’angle 7 équivaut à 90°, il n’y a aucune interaction
entre les deux dimensions. Si l’angle 7 est de 0° ou 180°, l’interaction est totale,
négative (0°) ou positive (180°). Comme le notent Macmillan et al. (1999) à propos de
l’angle 7 :
This rather “processed” statistic is a natural one for our geometric representations. It
directly reflects the most important qualitative aspect of the data, the discrepancy
between accuracy in classifying positively and negatively correlated pairs (p.2931).
Ainsi, pour l’exemple donné dans la Figure 68, l’angle 7 (= 108°) indique une légère
interaction positive entre les deux dimensions acoustiques initiales. Celle-ci rend
compte du fait que les stimuli 2 et 6, pour lesquels les dimensions de Gravité et de
Compacité covarient positivement (le stimulus 6 est à la fois plus grave et plus compact
que le stimulus 2), sont séparés par une plus grande distance perceptuelle que les
stimuli 3 et 5 (dits « négativement corrélés »), alors que la distance acoustique est la
même dans les deux cas.
212
2.
Résultats
Dans cette section, nous présentons les résultats obtenus à l’aide de 14 figures, une
par condition testée au cours de l’expérience DISC, soit quatre figures pour les continuums D/$,
quatre pour les continuums (/(, quatre pour les premiers continuums o/o, et deux pour les
continuums o/o2 (voir ci-dessus). La Figure 69 donne un aperçu des différentes conditions
testées en relation avec les figures correspondantes. Le cadre rouge positionné sur chaque
espace permet de visualiser le sous-ensemble des 3*3 stimuli sur lesquels les 20 tâches de
discrimination ont été effectuées. Nous avons utilisé les résultats de l’expérience pilote afin de
positionner adéquatement les sous-ensembles utilisés au cours de l’expérience principale.
L’objectif était de privilégier les stimuli proches de la frontière de catégories, soit d’inclure un
maximum de stimuli pour lesquels le taux d’identification était proche de 50% lors de
l’expérience pilote. Lorsque nous ne disposions pas d’information en provenance de
l’expérience pilote (pour les continuums D/$ Dyn II, et pour tous les continuums o/o), le sousensemble a été positionné au centre de l’espace initial de 5*5 stimuli. On notera que les
positions choisies préalablement pour les continuums D/$ et (/( (CVC Brèves et Longues Dyn I)
reflètent assez bien les divergences observées ensuite dans la répartition des réponses lors
des tâches d’identification menées au cours de l’expérience principale (Cf. Figure 51, p.177 et
Figure 53, p.180).
Dans les 14 figures présentant les résultats de l’expérience DISC, nous affichons pour
chacun des quadrants A, B, C et D la configuration générale obtenue par pondération des
dimensions normalisées données par INDSCAL (voir ci-dessus). Les droites colorées indiquent
les contours du changement perceptuel lié à l’évolution d’un stimulus depuis une valeur plus
basse (« − ») jusqu’à une valeur plus élevée (« + ») le long de la dimension de Compacité
(droite bleue) et de Gravité (droite verte). Les stimuli sont désignés par un chiffre (de 1 à 9) :
l’aide-mémoire situé en haut à droite de la figure permet de visualiser à quel stimulus un chiffre
correspond et de quels stimuli sont constitués les quatre quadrants. A droite de l’espace
perceptuel reconstitué par INDSCAL pour chaque quadrant, on trouve un ensemble de
données quantifiées, soit, de haut en bas : la valeur de 7 (en degrés), les valeurs fournies par
INDSCAL pour les index de correspondance de stress (formule de Kruskal) et de RSQ, qui
permettent d’évaluer dans quelle proportion le modèle géométrique rend compte des données
sur lesquelles il est fondé, et enfin les valeurs moyennes de d’ (tous sujets confondus) lors des
213
diverses tâches de discrimination concernées par le quadrant38. De façon générale, on
constate que les valeurs enregistrées pour les index de correspondance, qui sont relativement
élevées pour RSQ (0.79 en moyenne) et relativement basses en ce qui concerne le stress
(0.22 en moyenne), indiquent que les distances dans les configurations géométriques obtenues
sont en grande partie proportionnelles à la variance enregistrée dans les données.
La Table 24 rassemble les diverses valeurs prises par l’angle 7 en fonction du quadrant,
de la condition et du continuum testés. Nous avons calculé pour un même continuum la
moyenne des valeurs de 7, par quadrant ainsi que par condition. Notons que les valeurs
intervenant dans ces moyennes sont en partie corrélées puisque les paires de stimuli
considérées pour un quadrant donné peuvent également intervenir pour un autre.
Table 24. Valeurs de 7 (en degrés) en fonction du quadrant, de la condition et du continuum testés. Moyennes par
quadrant et par condition pour un continuum donné. En gras : moyenne générale pour tout le continuum.
Quadrant
D/$
A
B
C
D
Moyenne
CVC Brèves Dyn I
93
178
95
147
128.2
CVC Longues Dyn I
139
131
109
172
137.7
CVC Brèves Dyn II
95
137
128
73
108.2
CVC Longues Dyn II
136
126
76
28
91.5
115.7
143
102
105
116.4
CVC Brèves Dyn I
132
163
156
139
147.5
CVC Longues Dyn I
114
96
113
140
115.7
CVC Brèves Dyn II
163
127
166
111
141.7
CVC Longues Dyn II
122
136
154
117
132.2
132.7
130.5
147.2
126.7
134.3
CVC Brèves Dyn I
116
171
51
25
90.7
CVC Longues Dyn I
179
99
155
83
129
CVC Brèves Dyn II
178
76
114
35
100.7
CVC Longues Dyn II
160
99
90
30
94.7
158.2
111.2
102.5
43.2
103.8
CVC Brèves Dyn I
133
125
157
74
122.2
CVC Longues Dyn I
176
108
180
179
160.7
154.5
116.5
168.5
126.5
141.5
Moyenne
(/(
Moyenne
o/o
Moyenne
o/o2
Moyenne
38
Notons que les données utilisées par INDSCAL sont les valeurs de d’ obtenues pour chaque sujet séparément, et
non les moyennes affichées ici.
214
CVC Brèves Dyn I
CVC Longues Dyn I
CVC Brèves Dyn II
CVC Longues Dyn II
Figure 70
Figure 71
Figure 72
Figure 73
CVC Brèves Dyn I
CVC Longues Dyn I
CVC Brèves Dyn II
CVC Longues Dyn II
Figure 74
Figure 75
Figure 76
Figure 77
CVC Brèves Dyn I
CVC Longues Dyn I
CVC Brèves Dyn II
CVC Longues Dyn II
Figure 78
Figure 79
Figure 80
Figure 81
D/$
(/(
o/o
CVC Brèves Dyn I
CVC Longues Dyn I
Figure 82
Figure 83
o/o2
Figure 69. Aperçu des différentes conditions testées pour chaque continuum au cours de la procédure DISC. Pour
chaque espace, le cadre rouge représente le sous-ensemble des 3*3 stimuli sur lesquels l’expérience a été réalisée.
215
D/$ CVC Brèves Dyn I
+
+
+
+
+
C
D
A
B
+
+
+
Figure 70. Résultats de l’expérience DISC. Configurations obtenues par MDS pour les quatre quadrants A, B, C et D dans le cas des continuums D/$ CVC Brèves Dyn
I. Contours perceptuels pour les dimensions de Gravité (droites vertes) et de Compacité (droites bleues). Données chiffrées : valeurs de l’angle 7 situé à l’intersection
des deux contours, valeurs des index de correspondance stress et RSQ, et valeurs moyennes de d’ lors des tâches de discrimination des stimuli par paires.
216
D/$ CVC Longues Dyn I
+
+
+
+
C
D
A
B
+
+
+
+
Figure 71. Résultats de l’expérience DISC. Configurations obtenues par MDS pour les quatre quadrants A, B, C, D dans le cas des continuums D/$ CVC Longues Dyn
I. Contours perceptuels pour les dimensions de Gravité (droites vertes) et de Compacité (droites bleues). Données chiffrées : valeurs de l’angle 7 situé à l’intersection
des deux contours, valeurs des index de correspondance stress et RSQ, et valeurs moyennes de d’ lors des tâches de discrimination des stimuli par paires.
217
D/$ CVC Brèves Dyn II
+
+
+
+
D
A
B
+
+
+
C
+
Figure 72. Résultats de l’expérience DISC. Configurations obtenues par MDS pour les quatre quadrants A, B, C et D dans le cas des continuums D/$ CVC Brèves Dyn
II. Contours perceptuels pour les dimensions de Gravité (droites vertes) et de Compacité (droites bleues). Données chiffrées : valeurs de l’angle 7 situé à l’intersection
des deux contours, valeurs des index de correspondance stress et RSQ, et valeurs moyennes de d’ lors des tâches de discrimination des stimuli par paires.
218
D/$ CVC Longues Dyn II
+
+
+
C
D
A
B
+
+
+
+
+
Figure 73. Résultats de l’expérience DISC. Configurations obtenues par MDS pour les quatre quadrants A, B, C, D dans le cas des continuums D/$ CVC Longues Dyn
II. Contours perceptuels pour les dimensions de Gravité (droites vertes) et de Compacité (droites bleues). Données chiffrées : valeurs de l’angle 7 situé à l’intersection
des deux contours, valeurs des index de correspondance stress et RSQ, et valeurs moyennes de d’ lors des tâches de discrimination des stimuli par paires.
219
(/( CVC Brèves Dyn I
+
+
+
D
A
B
+
+
+
C
+
+
Figure 74. Résultats de l’expérience DISC. Configurations obtenues par MDS pour les quatre quadrants A, B, C et D dans le cas des continuums (/( CVC Brèves Dyn
I. Contours perceptuels pour les dimensions de Gravité (droites vertes) et de Compacité (droites bleues). Données chiffrées : valeurs de l’angle 7 situé à l’intersection
des deux contours, valeurs des index de correspondance stress et RSQ, et valeurs moyennes de d’ lors des tâches de discrimination des stimuli par paires.
220
(/( CVC Longues Dyn I
+
+
+
C
D
A
B
+
+
+
+
+
Figure 75. Résultats de l’expérience DISC. Configurations obtenues par MDS pour les quatre quadrants A, B, C, D dans le cas des continuums (/( CVC Longues Dyn
I. Contours perceptuels pour les dimensions de Gravité (droites vertes) et de Compacité (droites bleues). Données chiffrées : valeurs de l’angle 7 situé à l’intersection
des deux contours, valeurs des index de correspondance stress et RSQ, et valeurs moyennes de d’ lors des tâches de discrimination des stimuli par paires.
221
(/( CVC Brèves Dyn II
+
+
+
C
D
A
B
+
+
+
+
+
Figure 76. Résultats de l’expérience DISC. Configurations obtenues par MDS pour les quatre quadrants A, B, C et D dans le cas des continuums (/( CVC Brèves Dyn
II. Contours perceptuels pour les dimensions de Gravité (droites vertes) et de Compacité (droites bleues). Données chiffrées : valeurs de l’angle 7 situé à l’intersection
des deux contours, valeurs des index de correspondance stress et RSQ, et valeurs moyennes de d’ lors des tâches de discrimination des stimuli par paires.
222
(/( CVC Longues Dyn II
+
+
C
D
A
B
+
+
+
+
+
+
Figure 77. Résultats de l’expérience DISC. Configurations obtenues par MDS pour les quatre quadrants A, B, C, D dans le cas des continuums (/( CVC Longues Dyn
II. Contours perceptuels pour les dimensions de Gravité (droites vertes) et de Compacité (droites bleues). Données chiffrées : valeurs de l’angle 7 situé à l’intersection
des deux contours, valeurs des index de correspondance stress et RSQ, et valeurs moyennes de d’ lors des tâches de discrimination des stimuli par paires.
223
o/o CVC Brèves Dyn I
+
+
+
D
A
B
+
+
+
C
+
+
Figure 78. Résultats de l’expérience DISC. Configurations obtenues par MDS pour les quatre quadrants A, B, C et D dans le cas des continuums o/o CVC Brèves Dyn
I. Contours perceptuels pour les dimensions de Gravité (droites vertes) et de Compacité (droites bleues). Données chiffrées : valeurs de l’angle 7 situé à l’intersection
des deux contours, valeurs des index de correspondance stress et RSQ, et valeurs moyennes de d’ lors des tâches de discrimination des stimuli par paires.
224
o/o CVC Longues Dyn I
+
+
+
+
C
D
A
B
+
+
+
+
Figure 79. Résultats de l’expérience DISC. Configurations obtenues par MDS pour les quatre quadrants A, B, C, D dans le cas des continuums o/o CVC Longues Dyn
I. Contours perceptuels pour les dimensions de Gravité (droites vertes) et de Compacité (droites bleues). Données chiffrées : valeurs de l’angle 7 situé à l’intersection
des deux contours, valeurs des index de correspondance stress et RSQ, et valeurs moyennes de d’ lors des tâches de discrimination des stimuli par paires.
225
o/o CVC Brèves Dyn II
+
+
+
C
D
A
B
+
+
+
+
+
Figure 80. Résultats de l’expérience DISC. Configurations obtenues par MDS pour les quatre quadrants A, B, C et D dans le cas des continuums o/o CVC Brèves Dyn
II. Contours perceptuels pour les dimensions de Gravité (droites vertes) et de Compacité (droites bleues). Données chiffrées : valeurs de l’angle 7 situé à l’intersection
des deux contours, valeurs des index de correspondance stress et RSQ, et valeurs moyennes de d’ lors des tâches de discrimination des stimuli par paires.
226
o/o CVC Longues Dyn II
+
+
+
C
D
A
B
+
+
+
+
+
Figure 81. Résultats de l’expérience DISC. Configurations obtenues par MDS pour les quatre quadrants A, B, C, D dans le cas des continuums o/o CVC Longues Dyn
II. Contours perceptuels pour les dimensions de Gravité (droites vertes) et de Compacité (droites bleues). Données chiffrées : valeurs de l’angle 7 situé à l’intersection
des deux contours, valeurs des index de correspondance stress et RSQ, et valeurs moyennes de d’ lors des tâches de discrimination des stimuli par paires
227
o/o2 CVC Brèves Dyn I
+
+
+
+
C
D
A
B
+
+
+
+
Figure 82. Résultats de l’expérience DISC. Configurations obtenues par MDS pour les quatre quadrants A, B, C, D dans le cas des continuums o/o2 CVC Brèves Dyn
I. Contours perceptuels pour les dimensions de Gravité (droites vertes) et de Compacité (droites bleues). Données chiffrées : valeurs de l’angle 7 situé à l’intersection
des deux contours, valeurs des index de correspondance stress et RSQ, et valeurs moyennes de d’ lors des tâches de discrimination des stimuli par paires.
228
o/o2 CVC Longues Dyn I
+
+
+
+
C
D
A
B
+
+
+
+
Figure 83.Résultats de l’expérience DISC. Configurations obtenues par MDS pour les quatre quadrants A, B, C, D dans le cas des continuums o/o2 CVC Longues Dyn
I. Contours perceptuels pour les dimensions de Gravité (droites vertes) et de Compacité (droites bleues). Données chiffrées : valeurs de l’angle 7 situé à l’intersection
des deux contours, valeurs des index de correspondance stress et RSQ, et valeurs moyennes de d’ lors des tâches de discrimination des stimuli par paires.
229
a.
Continuums D/$
Les Figure 70 à Figure 73 donnent les résultats concernant les continuums D/$,
respectivement pour les items CVC Brèves Dyn I (Figure 70), CVC Longues Dyn I (Figure 71),
CVC Brèves Dyn II (Figure 72), et CVC Longues Dyn II (Figure 73). Les valeurs prises par
l’angle 7 indiquent une tendance à l’interaction positive des deux dimensions : dans 9 cas sur
16, 7 est supérieur à 125° et la moyenne générale est de 116.4° (Table 24, p.214). Pour les
quadrants A et C la valeur prise par 7 est parfois proche de 90°, essentiellement pour les
voyelles brèves, indiquant qu’il n’y a pas d’interaction entre les dimensions de Compacité et de
Gravité dans certains cas. Enfin, une mesure fait exception à la tendance générale ; il s’agit de
celle obtenue dans le quadrant D pour les items CVC Longues Dyn II, soit : 28°.
Si l’on considère les données présentées pour le quadrant B dans la Figure 70, on voit
la configuration prise par les stimuli lorsque la valeur de 7 est proche de 180° : les stimuli ne se
distinguent plus que le long d’une dimension perceptuelle, celle de Gravité + Compacité, dans
laquelle sont positivement intégrées les deux dimensions acoustiques initiales. Le stimulus 2,
qui est le moins grave et le moins compact, soit [-G;-C], est situé à une extrémité de la
dimension, et le stimulus 6 [+G;+C] est situé à l’autre extrémité de la dimension intégrée. Les
stimuli négativement corrélés 3 [+G;-C] et 5 [-G;+C] ont une position intermédiaire (équivalente)
le long de la dimension perceptuelle intégrée. La configuration dérivée par INDSCAL dans ce
cas rend compte du fait que les valeurs de d’ obtenues auprès de nos auditeurs sont nettement
supérieures lorsque la tâche de discrimination inclut les stimuli positivement corrélés {2,6}
(d’=3.92 en moyenne) par rapport aux stimuli négativement corrélés {3,5} (d’=0.42 en
moyenne). Lorsque la valeur de 7 se situe entre 90° et 180°, les deux dimensions interagissent
positivement sans être complètement intégrées.
b.
Continuums (/(
Les Figure 74 à Figure 77 donnent les résultats obtenus dans les quatre conditions
testées pour les continuums (/(. La tendance à l’intégration positive est encore plus marquée
pour ce continuum que pour le précédent. La moyenne générale donnée dans la Table 24 pour
7 est de 134.3°. Toutes les valeurs de 7 sans exception sont supérieures à 90° pour les
différents continuums (/(. Les données affichées par exemple dans la Figure 76 (p.222)
permettent d’illustrer les configurations typiquement obtenues lorsque 7 est largement
supérieur à 90°. Dans les quatre quadrants de la Figure 76, les stimuli positivement corrélés
sont séparés par une distance perceptuelle plus importante que les stimuli négativement
230
corrélés correspondants : {1,5}, {2,6}, {4,8}, {5,9} sont plus facilement discriminés par les
auditeurs que leurs homologues respectifs {2,4}, {3,5}, {5,7}, {6,8}. Plus la valeur de 7 s’éloigne
de 90° et s’approche de 180°, plus les centroïdes des stimuli les plus compacts s’approchent
des centroïdes des stimuli les plus graves, et de même plus les centroïdes des stimuli les
moins compacts s’approchent des centroïdes des stimuli les moins graves : sur la figure, les
extrémités des contours perceptuels C et G étiquetées « + » se rapprochent entre elles, et les
extrémités « − » font de même. En effet, une interaction perceptuelle positive des deux
dimensions acoustiques initiales implique qu’un stimulus qui a une valeur plus élevée le long
d’une dimension sera automatiquement perçu comme ayant une valeur plus élevée le long de
l’autre dimension (alors que dans les faits, cette dernière est restée inchangée). En somme,
dans les cas où l’intégration positive est nettement marquée, le fait d’augmenter soit la
compacité soit la gravité d’une voyelle est équivalent d’un point de vue perceptuel.
c.
Continuums o/o et o/o2
Les configurations obtenues à partir des données relatives aux continuums o/o et o/o2
sont données respectivement dans les Figure 78 à Figure 81, et dans les Figure 82 et Figure
83. Même si la moyenne générale obtenue pour les valeurs de 7 dans les premiers continuums
o/o est la marque d’une légère interaction positive (7 = 103.8°, Cf. Table 24, p.214), les valeurs
obtenues pour certains quadrants sont parfois nettement inférieures à la barre des 90°. On
peut d’ailleurs affirmer que dans les quadrants D les dimensions de Gravité et de Compacité
font preuve d’une interaction négative (7 = 43.2°). Ces résultats doivent être mis en relation
avec les résultats des expériences d’identification menées sur les mêmes auditeurs et les
mêmes stimuli. Les fonctions d’identification concernant les premiers continuums o/o sont
présentées dans les Figure 55, p.186 (CVC Brèves et Longues, Dyn I) et Figure 56, p.187
(CVC Brèves et Longues, Dyn II). Dans les quatre graphiques concernés, on remarque que les
stimuli les plus graves (situés sur la courbe orange) sont parmi les moins bien identifiés comme
stimuli nasals lorsqu’ils sont également très compacts. Examinons par exemple le cas des
stimuli CVC Brèves Dyn I, dont les fonctions d’identification sont données dans le graphique
situé en haut à gauche de la Figure 55 (p.186). Les stimuli de Gravité 3 et 4, situés sur les
courbes rouge et orange foncé donnent lieu à un plus grand nombre de réponses « nasale »
que les stimuli de Gravité 2 (courbe grenat) uniquement lorsque leur Compacité est de niveau 2
ou 3. Par contre, lorsqu’ils sont également très compacts (4 ou 5), ces stimuli sont aussi
souvent, voire moins souvent, identifiés comme nasals que les stimuli de Gravité 2. En somme,
pour obtenir un maximum de réponses « nasale », l’idéal est de considérer uniquement les
231
stimuli [+G;-C] ou bien [-G;+C], c’est-à-dire les stimuli corrélés négativement. Les fonctions
d’identification obtenues pour les premiers continuums o/o présentent donc les mêmes
tendances que les résultats des expériences de discrimination : l’interaction entre les
dimensions de Gravité et de Compacité est négative pour les stimuli de valeur égale ou
supérieure à 3 le long des deux dimensions.
Notre interprétation de ces phénomènes se fonde sur la façon dont les stimuli o/o ont
été synthétisés pour l’expérience principale, c’est-à-dire en faisant évoluer la fréquence de F1
tout au long du continuum orale-nasale, de 470 à 570 Hz. Or, comme nous l’avons dit dans le
chapitre précédent (p.183), la méthode choisie pour la synthèse de nos voyelles (avec les
résonateurs connectés en cascade) implique qu’une montée en fréquence de F1 renforce
l’énergie des formants supérieurs, ce qui neutralise dans une certaine mesure les effets d’une
progression concomitante de la voyelle le long de la dimension de Compacité
Cette explication fait appel à des phénomènes d’ordre sensoriel (non liés au processus
de décision phonétique proprement dit) pour expliquer l’inversion de tendance observée dans
les réponses obtenues lors des tâches d’identification impliquant certains stimuli o/o. Les
expériences de discrimination renforcent ce type d’explication, dans la mesure où elles mettent
essentiellement en évidence des phénomènes d’ordre sensoriel (auditif), et que leurs résultats
démontrent le même type d’interaction négative pour les stimuli o/o de niveau 3 ou 4 sur les
échelles de Gravité et de Compacité (quadrant D). Dans une telle hypothèse, la prédiction est
que l’interaction négative ne sera plus observée pour les nouveaux continuums o/o2, puisque
dans ce cas il n’y a plus aucune variation de F1 au sein du continuum. C’est ce qu’ont montré
les expériences d’identification (Cf. Figure 57, p.188), et c’est également ce que nous
observons dans les Figure 82 et Figure 83 pour les continuums o/o2 de l’expérience DISC. En
moyenne, la valeur de 7 est de 141.5° pour les continuums o/o2 (vs. 103.8° pour les premiers
continuums o/o). Sur la Figure 83, dans trois quadrants sur quatre, l’intégration positive des
dimensions acoustiques de Gravité et de Compacité est complète (7 ≅ 180°).
3.
Discussion
L’objectif de ce chapitre était de traiter la question du mode d’interaction, au niveau
perceptuel, des deux dimensions acoustiques le long desquelles varient les stimuli synthétisés.
Les résultats dans leur ensemble montrent que, pour nos auditeurs francophones, il y a une
tendance nette à l’intégration positive des dimensions acoustiques de Compacité et de Gravité
(pour autant que le F1 de la voyelle reste inchangé). De ce fait, les stimuli qui sont [+G] et [+C]
232
se rapprochent dans la perception des auditeurs, et de même les stimuli [-G] et [-C] occupent
une région assez proche de l’espace perceptuel. Augmenter la gravité d’une voyelle équivaut
perceptuellement à en augmenter la compacité, et inversément. Les stimuli positivement
corrélés [+G;+C] vs. [-G;-C] sont séparés par une distance perceptuelle bien plus importante
que les stimuli négativement corrélés [+G;-C] vs. [-G;+C]. Faire covarier la compacité des
voyelles avec leur gravité permet donc d’augmenter sensiblement la distance perceptuelle
entre elles. Ces résultats indiquent que la covariation des propriétés acoustiques
caractéristique de la production des voyelles nasales du français correspond, du point de vue
de la perception, à une plus grande distinctivité de ces voyelles par rapport aux orales
correspondantes. Ce que les expériences d’identification ont montré, c’est que les auditeurs
francophones prennent en compte l’information en provenance des deux dimensions lorsqu’ils
doivent décider si une voyelle est une orale ou une nasale du français. Ce que les expériences
de discrimination permettent d’ajouter, c’est que les auditeurs francophones « n’ont pas le
choix » lorsqu’ils agissent ainsi : le phénomène ne se situe pas au niveau du processus de
décision (phonétique), mais à un stade plus précoce du traitement auditif du signal, soit à un
niveau d’ordre sensoriel. Les expériences de discrimination montrent que chez les auditeurs
francophones, les propriétés de gravité et de compacité d’une voyelle interagissent au niveau
de la sensibilité auditive des individus, de sorte qu’une voyelle plus grave est automatiquement
perçue comme une voyelle plus compacte.
A la fin de la première partie, nous avons proposé une explication à l’éventuelle
interaction positive des dimensions de Compacité et de Gravité fondée sur la théorie
acoustique de la parole, qui stipule qu’abaisser la fréquence d’un formant diminue l’amplitude
de tous les formants situés au-dessus de lui (Fant, 1956, 1960, Stevens, 1998). En particulier,
nous pensons qu’abaisser le F2 d’une voyelle peut avoir des conséquences comparables, dans
la région de F3, à la perte d’énergie qui survient à la suite du couplage des résonateurs
pharyngo-buccal et nasal. Dans cette hypothèse, la postériorisation des voyelles nasales du
français renforce les effets acoustiques liés à l’abaissement du voile du palais ; l’augmentation
de la gravité et l’augmentation de la compacité d’une voyelle peuvent rehausser mutuellement
leurs effets dans la perception des auditeurs.
Notons que les résultats des expériences perceptuelles relatifs aux continuums o/o
(surtout o/o2) sont particulièrement importants pour départager les différentes hypothèses
existantes quant aux rapports entre nasalisation phonétique et timbre vocalique. Si l’on
considère par exemple les données présentées par Wright (1986), on est tenté de conclure que
la nasalisation diminue la contrastivité des voyelles concernées dans la dimension antérieure-
233
postérieure, c’est-à-dire que le F2 des voyelles antérieures est plus bas, mais que celui des
postérieures est plus élevé, lorsqu’elles sont nasalisées. Inversément, notre hypothèse pose
que, même si dans certains cas le F2 d’une voyelle postérieure nasalisée a une fréquence plus
élevée que celui de l’orale correspondante, d’un point de vue perceptuel la nasalisée est plus
grave que l’orale, parce que la contribution acoustique des fosses nasales est telle que la
majeure partie de l’énergie acoustique est ramassée sous 800 Hz (p.138). Or, les résultats des
expériences d’identification montrent que pour synthétiser de bonnes nasales /o/ en français, il
faut qu’elles soient plus graves que les orales correspondantes, toutes choses étant égales par
ailleurs. De plus, les expériences de discrimination prouvent que pour toutes les paires oralenasale du français, y compris o/o, les auditeurs francophones perçoivent automatiquement une
voyelle plus compacte (plus nasalisée) comme une voyelle plus grave, alors que sa valeur
reste fixée le long de la dimension de Gravité.
Ainsi, les expériences d’identification et de discrimination présentées dans les deux
premiers chapitres de cette seconde partie aboutissent à des résultats particulièrement
convergents, cohérents les uns par rapport aux autres. Ils tendent à accréditer l’hypothèse
selon laquelle les locuteurs francophones tireraient profit d’un processus auditif automatique
d’intégration positive des dimensions acoustiques de Gravité et de Compacité. Pourtant, rien
ne prouve jusqu’ici que ce processus, quoique manifestement d’origine sensorielle chez les
auditeurs francophones, ne soit spécifique aux locuteurs du français uniquement. L’hypothèse
la plus prudente, en effet, est que les résultats des expériences d’identification et de
discrimination sont à ce point cohérents parce qu’ils rendent compte du fait que les auditeurs
francophones ont appris à distinguer les voyelles notamment sur la base d’une combinaison
des indices de gravité et de compacité. Cet apprentissage aurait précisément pour origine le
fait que ces propriétés covarient dans la réalisation du contraste de nasalité en français. Nous
faisons ici référence à un type d’apprentissage survenant très tôt en ontogenèse (vers la fin de
la première année), et qui relève du fait que le système auditif de l’enfant renforce sa sensibilité
aux particularités phoniques auxquelles il est exposé dans le milieu linguistique ambiant (Kuhl
et al. 1992, Werker et Polka, 1993, Vihman, 1996). L’objectif principal du prochain chapitre est
de tester les continuums o/o2 sur des auditeurs anglophones au cours d’expériences de
discrimination (DISC), afin de déterminer si l’intégration positive des dimensions acoustiques
de Gravité et de Compacité est attestée même lorsque le système linguistique des auditeurs
(ici, le système phonologique de l’anglais) n’en fait pas usage. Sur la base de ces résultats,
nous pourrons réexaminer les résultats obtenus pour le français : soit les auditeurs
francophones ont modelé leur système perceptuel en fonction de la covariation en français de
234
l’abaissement du voile du palais avec d’autres articulations orales lors de la réalisation des
voyelles nasales, soit les locuteurs francophones ont adapté leur production des nasales à une
propriété plus générale, voire universelle, du système auditif humain.
235
Chapitre
3
Auditeurs anglophones
1.
Questions de recherche
Dans ce chapitre, nous présentons les données obtenues auprès des auditeurs
anglophones. La discussion des résultats est tout entière orientée vers trois questions
spécifiques de recherche, en relation avec les résultats présentés dans les chapitres
précédents à propos des auditeurs francophones :
(1) Validité. De même que les francophones, les auditeurs anglophones peuvent-ils
efficacement juger de la nasalité d’une voyelle sur la base des indices acoustiques
fournis par la dimension acoustique de Compacité ? Nous comparons les performances
de nos auditeurs anglophones lors de tâches d’identification ID1 avec celles mesurées
par d’autres chercheurs, qui ont synthétisé la nasalité phonétique différemment de
nous, notamment en introduisant une paire pôle-zéro dans la région de F1 (Hawkins et
Stevens, 1985, Huffman, 1990, Macmillan et al. 1999).
(2) Influence du contexte. Les réponses des auditeurs anglophones sont-elles
différentes lorsque la voyelle est placée en contexte phonologique nasal ? Nous
analysons les performances de nos auditeurs en relation avec les phénomènes de
compensation nasale dont l’existence a été établie pour l’anglais (Kawasaki, 1986,
Krakow et Beddor, 1991). La comparaison des résultats obtenus au cours des différents
paradigmes testés pour les items CVC et NVC nous permet d’investiguer la question de
l’origine du phénomène de compensation perceptuelle : sensorielle ou décisonnelle ?
(3) Interaction perceptuelle des dimensions de Compacité et de Gravité. Les auditeurs
anglophones ont effectué des expériences de discrimination (de type DISC) dont
l’objectif était de tester l’hypothèse selon laquelle l’intégration positive des dimensions
acoustiques de Compacité et de Gravité n’est pas un processus perceptuel spécifique
au français, mais relève au contraire d’un phénomène plus répandu, voire universel, car
lié aux propriétés générales du système auditif humain. Bien que l’interprétation des
résultats soit rendue difficile par la faible sensibilité des anglophones aux stimuli ne
différant que d’un pas le long des dimensions acoustiques considérées, nous avons
trouvé les indices d’une interaction positive des dimensions de Compacité et de Gravité
dans la perception, par les anglophones, des voyelles placées en contexte CVC.
237
2.
Matériel et méthode
Les expériences perceptuelles concernant les auditeurs anglophones ont été réalisées
à la fin du mois de novembre 2002 au Laboratoire de Phonétique de l’Université du
Massachussets, Amherst, sous la direction du prof. John Kingston.
Les participants à l’expérience, tous étudiants à l’université de Amherst, étaient au
nombre de dix-huit. Huit auditeurs ont participé aux expériences d’identification (ID1), qui ont
été menées sur quatre continuums o/o2 : CVC Brèves Dyn I, NVC Brèves Dyn I, CVC Longues
Dyn I, NVC Longues Dyn I. Les dix autres participants ont effectué les expériences de
discrimination (DISC) relatives aux mêmes espaces de stimuli : quatre auditeurs ont été testés
sur les quatre conditions, trois auditeurs n’ont effectué l’expérience que sur les deux premières
conditions (voyelles brèves), et trois autres ont fait les deux dernières conditions uniquement
(voyelles longues). En somme, les données présentées dans la section suivante concernent
dans chacune des quatre conditions sept sujets pour les expériences de discrimination, et huit
autres sujets pour les expériences d’identification.
Les stimuli ont été présentés et les données acquises à l’aide du logiciel SuperLab v2.0.
Les protocoles expérimentaux diffèrent peu de ceux décrits dans les chapitres précédents (Cf.
pp.146 et suivantes pour ID1, ainsi que pp.148 et pp.210 et suivantes pour DISC).
En ce qui concerne le paradigme DISC, il n’y a pas eu de phase d’entraînement à
proprement parler. Les auditeurs était simplement avertis en fin de tâche que la paire de stimuli
à discriminer était sur le point de changer. Au cours de la phase de test, un feed-back
(indiquant la réponse correcte) était donné après chaque réponse de l’utilisateur. Les auditeurs
ont eu à se prononcer à 25 reprises pour chaque stimulus, pour un total de 50 réponses par
paire de stimuli testée (vs. 80 réponses pour les francophones).
En ce qui concerne le paradigme ID1, la différence principale se situe également au
niveau de la phase d’entraînement. Les stimuli impliqués n’étaient pas les mêmes que ceux
proposés aux francophones. Il était inapproprié en effet, de présenter aux anglophones les
stimuli situés dans le coin supérieur droit de l’espace en tant que prototypes des voyelles les
plus nasales. A priori, la dimension de Gravité ne devrait pas intervenir dans la décision des
anglophones quant à la nasalité d’une voyelle. Les stimuli inclus dans la phase d’entraînement
aux expériences d’identification étaient donc au nombre de 10, à savoir les cinq items
contenant les voyelles les moins compactes (1,1), (2,1), (3,1), (4,1), (5,1) pour la réponse
« orale », et les items contenant les voyelles les plus compactes (1,5), (2,5), (3,5), (4,5), (5,5)
pour la réponse « nasale ». En effet, en ce qui concerne la tâche d’identification elle-même, les
consignes étaient de déterminer si la voyelle entendue était une « orale » ou bien une
238
« nasale ». Une expérience d’identification ID1 consistait en 15 blocs (de 25 stimuli) pour les
auditeurs anglophones (au lieu de 20 blocs pour les francophones). Les 25 points de données
à partir desquels sont tracées les fonctions d’identification (Cf. ci-dessous) représentent donc
chacun 15 réponses * 8 auditeurs, soit 120 réponses par stimulus.
3.
Résultats : expériences d’identification
Les Figure 84 à Figure 87 présentent les résultats des expériences d’identification
menées auprès des auditeurs anglophones. Chaque figure donne les fonctions d’identification
concernant l’une des quatre conditions testées, soit respectivement CVC Brèves Dyn I (Figure
84), CVC Longues Dyn I (Figure 85), NVC Brèves Dyn I (Figure 86) et NVC Longues Dyn I
(Figure 87). Les fonctions ont été obtenues selon la méthode suivie précédemment (Cf. p.175).
Dans chacune des figures, les mêmes données sont présentées de deux façons différentes. Le
graphique principal représente l’évolution de la proportion de réponses « nasale » en fonction
du degré de Compacité de la voyelle, chaque courbe correspondant à un degré de Gravité en
particulier. Dans le graphique secondaire (situé en haut à droite de la figure), c’est la dimension
de Gravité qui est placée en abscisse, et les différents degrés de Compacité de la voyelle sont
chacun représentés par une courbe particulière.
Les fonctions d’identification démontrent une certaine efficacité de la dimension de
Compacité en ce qui concerne la détection de la nasalité vocalique en contexte CVC. Entre les
stimuli les moins compacts et les stimuli les plus compacts, le taux de réponses « nasale »
augmente de 25 à 30% en moyenne (sur un total de 100%), toutes choses étant égales par
ailleurs (voir p.ex. les lignes pointillées bleues sur la Figure 84). Pour les CVC Brèves, les
auditeurs anglophones utilisent essentiellement la dimension de Compacité afin de décider si
une voyelle est orale ou nasalisée. C’est ce qu’illustre le graphique secondaire, en haut de la
Figure 84, où les « courbes » qui représentent les degrés croissants de Compacité ressemblent
plutôt à des lignes horizontales parallèles ayant un niveau de plus en plus élevé en termes de
PN. Le plafond est atteint avec le degré 4 de Compacité et on assiste même à une inversion de
tendance pour les stimuli de Compacité 5, moins souvent jugés comme « nasals » que les
précédents. Ces performances sont bien entendu inférieures à celles enregistrées pour les
auditeurs francophones, pour qui le contraste de nasalité est phonologique. Cependant, aux
degrés extrêmes de Gravité, le gain en taux de réponses « nasale » entre les stimuli les moins
compacts et les plus compacts n’excède généralement pas 50% chez les francophones (Cf.
Figure 57, p.188). Notons de plus que les stimuli étaient en général peu familiers aux
anglophones, puisqu’ils avaient été élaborés en référence aux mots français « comte » /NoW/ et
239
« cote » /NoW/. Les deux consonnes sourdes par exemple proviennent de la production d’un
locuteur francophone, et sont donc réalisées sans VOT ou presque. Dans la discussion (p.
252), nous montrons que le niveau de performances de nos auditeurs est pourtant comparable
avec celui rapporté dans la littérature en ce qui concerne la détection de la nasalité vocalique
par des anglophones.
Les résultats obtenus auprès des auditeurs anglophones en ce qui concerne les stimuli
CVC Longues Dyn I (Figure 85) sont en partie différents. Pour ces voyelles plus longues, en
effet, les deux dimensions acoustiques fournies aux auditeurs sont utilisées par ceux-ci
lorsqu’ils doivent déterminer si une voyelle est nasalisée ou non. Sur le graphique principal de
la Figure 85, la ligne horizontale grise (en pointillés) souligne la présence d’un net saut de
frontière dans cette condition, de plus de deux degrés sur l’échelle de Compacité. Les stimuli
sont plus vite identifiés comme « nasals » s’ils sont également plus graves. En conséquence la
différence dans le taux de réponses « nasale » atteint presque 50% entre les stimuli (1,1) et
(5,5) dans le cas des stimuli CVC Longues Dyn I (Cf. lignes pointillées bleues en haut de la
Figure 85). La contribution de la dimension acoustique de Gravité à l’identification de la nasalité
vocalique de la part des anglophones peut être soit d’origine décisionnelle, soit d’origine
sensorielle. D’une part, il est possible que les voyelles plus graves soient plus proches d’un
timbre vocalique familier aux anglophones, pour lequel ils possèderaient déjà une échelle
perceptuelle de nasalité liée à leur expérience linguistique. Néanmoins, ceci n’explique pas que
toutes les voyelles plus graves sont ici jugées plus souvent comme nasales, y compris les
moins compactes. Or, aucune covariation des dimensions de Gravité et de Compacité n’a été
rapportée dans la littérature en ce qui concerne l’anglais : on n’a pas constaté que les voyelles
nasalisées avaient un F2 plus bas dans cette langue. Une autre hypothèse est que la Gravité et
la Compacité sont deux dimensions acoustiques qui sont intégrées perceptuellement chez les
auditeurs anglophones, de même que chez les auditeurs francophones, et que la durée de la
voyelle favorise cette intégration. Les expériences de discrimination que nous avons menées
ne permettent qu’en partie de départager ces deux hypothèses (voir ci-dessous).
Les fonctions d’identification obtenues dans le cas des items NVC (Figure 86 et Figure
87) diffèrent nettement de celles concernant les items CVC. Dans leur ensemble, les résultats
montrent que les dimensions acoustiques le long desquelles varient les stimuli ne permettent
pas vraiment aux auditeurs de les distinguer en termes de nasalité. Dans le cas des NVC
Brèves, la Compacité des voyelles est peu efficace pour la détection de la nasalité, et de plus,
cette faible influence semble neutralisée par la progression concomitante d’un stimulus le long
de la dimension de la Gravité. D’un point de vue strictement décisionnel, il y a donc une
interaction perceptuelle négative entre les dimensions de Compacité et de Gravité pour ces
240
stimuli. Dans le cas des NVC Longues, ni la compacité, ni la gravité des voyelles n’ont
véritablement d’effet sur la décision des auditeurs anglophones de les identifier comme
« orales » ou comme « nasales ». En conséquence, la différence dans le schéma de réponses
des auditeurs en fonction du contexte phonologique est particulièrement importante en ce qui
concerne les voyelles longues. Pour les items CVC Longues Dyn I, la combinaison des indices
fournis par les deux dimensions acoustiques fait évoluer la proportion moyenne de réponses
« nasale » d’environ .25 à .70, soit une progression de plus de 40% du taux d’identification
nasale ; pour les items NVC Longues Dyn I, les auditeurs répondent à tous les stimuli au
hasard ou presque, ce qui aboutit à un taux général d’identification « nasale » avoisinant les
50%.
Nous interprétons ces données en termes de compensation perceptuelle, c’est-à-dire
de compensation, de la part des auditeurs, du taux de nasalité perçu pour une voyelle lorsque
celle-ci est insérée dans un contexte phonologique favorisant la nasalité contextuelle, soit en
l’occurrence en contexte NVC. Un phénomène équivalent a été observé pour les auditeurs
francophones (Cf. p.204). En ce qui concerne plus précisément les continuums o/o2,
l’augmentation de la Compacité n’a eu qu’un effet tout à fait marginal sur la proportion de
réponses « nasale » aux présentations des stimuli les moins graves de type NVC (Figure 57,
p.188).
241
o/o2 CVC Brèves Dyn I
1.0
Compacité
PN
0.5
Proportion de réponses « nasale » PN
1.0
0.0
0
1
2
3
4
5
Gravité
Abaissement de F2
(Gravité)
0.5
0.0
0
1
2
3
4
5
Taux de nasalisation phonétique (Compacité)
Figure 84. Fonctions d’identification obtenues par mise en correspondance d’une sigmoïde avec les données (Valeurs de PN) concernant le continuum o/o Dyn I CVC
Brèves (auditeurs anglophones). Sur le graphique principal, le niveau de Compacité de la voyelle est représenté en abscisse (des stimuli les moins compacts, en 1,
aux plus compacts, en 5) et chaque courbe représente un degré de Gravité (des stimuli les moins graves, en 1, aux plus graves, en 5). Le graphique secondaire (en
haut à droite) représente les mêmes données, mais la Gravité est placée en abscisse et les courbes correspondent aux différents degrés de Compacité.
242
o/o2 CVC Longues Dyn I
1.0
Compacité
PN
0.5
Proportion de réponses « nasale » PN
1.0
0.0
0
1
2
3
4
5
Gravité
Abaissement de F2
(Gravité)
0.5
0.0
0
1
2
3
4
5
Taux de nasalisation phonétique (Compacité)
Figure 85. Fonctions d’identification obtenues par mise en correspondance d’une sigmoïde avec les données (Valeurs de PN) concernant le continuum o/o Dyn I CVC
Brèves (auditeurs anglophones). Sur le graphique principal, le niveau de Compacité de la voyelle est représenté en abscisse (des stimuli les moins compacts, en 1,
aux plus compacts, en 5) et chaque courbe représente un degré de Gravité (des stimuli les moins graves, en 1, aux plus graves, en 5). Le graphique secondaire (en
haut à droite) représente les mêmes données, mais la Gravité est placée en abscisse et les courbes correspondent aux différents degrés de Compacité.
243
o/o2 NVC Brèves Dyn I
1.0
Compacité
PN
0.5
Proportion de réponses « nasale » PN
1.0
0.0
0
1
2
3
4
5
Gravité
Abaissement de F2
(Gravité)
0.5
0.0
0
1
2
3
4
5
Taux de nasalisation phonétique (Compacité)
Figure 86. Fonctions d’identification obtenues par mise en correspondance d’une sigmoïde avec les données (Valeurs de PN) concernant le continuum o/o Dyn I CVC
Brèves (auditeurs anglophones). Sur le graphique principal, le niveau de Compacité de la voyelle est représenté en abscisse (des stimuli les moins compacts, en 1,
aux plus compacts, en 5) et chaque courbe représente un degré de Gravité (des stimuli les moins graves, en 1, aux plus graves, en 5). Le graphique secondaire (en
haut à droite) représente les mêmes données, mais la Gravité est placée en abscisse et les courbes correspondent aux différents degrés de Compacité.
244
o/o2 NVC Longues Dyn I
1.0
Compacité
PN
0.5
Proportion de réponses « nasale » PN
1.0
0.0
0
1
2
3
4
5
Gravité
Abaissement de F2
(Gravité)
0.5
0.0
0
1
2
3
4
5
Taux de nasalisation phonétique (Compacité)
Figure 87. Fonctions d’identification obtenues par mise en correspondance d’une sigmoïde avec les données (Valeurs de PN) concernant le continuum o/o Dyn I CVC
Brèves (auditeurs anglophones). Sur le graphique principal, le niveau de Compacité de la voyelle est représenté en abscisse (des stimuli les moins compacts, en 1,
aux plus compacts, en 5) et chaque courbe représente un degré de Gravité (des stimuli les moins graves, en 1, aux plus graves, en 5). Le graphique secondaire (en
haut à droite) représente les mêmes données, mais la Gravité est placée en abscisse et les courbes correspondent aux différents degrés de Compacité.
245
4.
Résultats : expériences de discrimination
Les résultats des expériences de discrimination menées auprès des auditeurs
anglophones sont donnés dans les Figure 88 (CVC Brèves Dyn I), Figure 89 (CVC Longues
Dyn I), Figure 90 (NVC Brèves Dyn I), et Figure 91 (NVC Longues Dyn I), sur le modèle des
Figure 70 à Figure 83 pour les auditeurs francophones (pp.216 et suivantes).
La Figure 88 permet d’illustrer à la fois la prudence à observer lors de l’analyse des
résultats, et le type d’information néanmoins fournie par les expériences de discrimination
effectuées sur les participants anglophones. Les valeurs obtenues pour l’angle 7 sont
caractéristiques d’une faible interaction des deux dimensions, négative dans le cas du quadrant
C, et positive pour les trois autres quadrants. Cependant, ces résultats doivent être considérés
avec prudence au vu des valeurs obtenues pour les indices de correspondance : les valeurs de
RSQ sont basses, et celles de stress sont anormalement élevées. Ceci s’explique en grande
partie par l’examen des valeurs de d’ à partir desquelles la configuration géométrique a été
élaborée par INDSCAL. Ainsi, les moyennes de d’ (affichées à la droite des quadrants
correspondants) sont toutes très faibles, et plusieurs d’entre elles sont même négatives39, ce
qui indique que nos données présentent un net « effet de plancher ». Cet effet de plancher peut
sans doute s’expliquer de deux façons. D’une part, il n’y a pas eu d’entraînement spécifique à
chaque paire avant la phase de test proprement dite. D’autre part, les francophones sont sans
doute particulièrement sensibles aux différences de gravité et de compacité des voyelles parce
que, précisément, elles interviennent dans la réalisation du contraste phonologique de
nasalité ; on ne pouvait s’attendre à ce que les anglophones atteignent un niveau égal de
performances. Or, le principe du paradigme DISC (adapté du paradigme de Garner, 1974) est
de comparer, en termes de proportion de réponses correctes (plutôt que de temps de réponse),
les performances des auditeurs lors de la discrimination de paires de stimuli a priori
impossibles à distinguer parfaitement. Dans le cas des francophones, le nombre de pas sur
chaque dimension, déterminé à la suite de l’expérience pilote, a permis d’assurer que les
stimuli de chaque paire pouvaient être différenciés, même si la tâche des auditeurs était
difficile. Mais dans le cas des anglophones, les stimuli qui ne variaient que d’un pas le long de
la dimension de Compacité ont pour la plupart mené à des valeurs de d’ négatives, c’est-à-dire
que les auditeurs n’entendaient aucune différence entre eux. Ainsi, sur la Figure 88, la
moyenne de d’ pour les paires {1,4}, {2,5}, {3,6}, {4,7}, {5,8} et {6,9} est respectivement de -0.1,
39
Lorsque les données de dissimilarité (valeurs de d’ obtenues pour chaque auditeur) sont négatives, elles sont
considérées par INDSCAL comme manquantes. Un trop grand nombre de données manquantes peut empêcher le
modèle de fonctionner correctement, ou tout simplement d’aboutir à un résultat cohérent avec les données
restantes.
246
-0.34, -0.02, 0.05, -0.04, et 0.03. Les moyennes calculées pour d’ sont en général très faibles,
mais positives, pour les stimuli variant uniquement le long de la dimension de Gravité, et
surtout pour les stimuli positivement corrélés.
En effet, malgré les restrictions qui doivent être émises quant à la validité des
configurations obtenues par INDSCAL à partir de ces données, les valeurs mesurées pour
l’angle 7 restent représentatives de la différence qui existe entre la distance perceptuelle
séparant les stimuli négativement corrélés d’une part, et celle séparant les stimuli positivement
corrélés d’autre part. Lorsque 7 est supérieur à 90° (interaction positive), les stimuli
positivement corrélés sont plus distincts dans la perception des auditeurs que les stimuli
négativement corrélés. Ainsi, dans les quadrants A (7 = 108°), B (7 = 106°), et D (7 = 108°), les
moyennes de d’ calculées pour les stimuli négativement vs. positivement corrélés sont
respectivement de 0.07 vs. 0.16, 0.16 vs. 0.37 et 0.29 vs. 052, alors que dans le quadrant C (7
= 72°), elles sont de 0.52 vs. 0.08.
En ce qui concerne les items CVC, la tendance générale est celle d’une légère
interaction positive, interaction qui est plus marquée dans le cas des voyelles longues. Ces
résultats convergent avec ceux obtenus lors des expériences d’identification (Cf. Figure 85). On
pourrait en dire autant de l’interaction négative en partie constatée dans le cas des NVC
Brèves. En l’occurrence, nous interprétons surtout le manque de cohérence des résultats
relatifs aux items NVC (pour les NVC Longues, en particulier) comme une marque de l’absence
presque totale de sensibilité auditive de la part des anglophones à des différences de cette
ampleur en Gravité et/ou en Compacité lorsque la voyelle est située en contexte phonologique
nasal. C’est également ce que laissaient supposer les fonctions d’identification concernant ces
mêmes stimuli (Cf. Figure 87).
247
o/o2 CVC Brèves Dyn I
+
+
+
D
A
B
+
+
C
+
+
+
Figure 88. Résultats de l’expérience DISC (auditeurs anglophones). Configurations obtenues par MDS pour les quatre quadrants A, B, C, D dans le cas des
continuums o/o2 CVC Brèves Dyn I. Contours perceptuels pour les dimensions de Gravité (droites vertes) et de Compacité (droites bleues). Valeurs de l’angle 7 situé
à l’intersection des deux contours, valeurs des index stress et RSQ, et valeurs moyennes de d’ lors des tâches de discrimination des stimuli par paires.
248
o/o2 CVC Longues Dyn I
+
+
+
C
D
A
B
+
+
+
+
+
Figure 89. Résultats de l’expérience DISC (auditeurs anglophones). Configurations obtenues par MDS pour les quatre quadrants A, B, C, D dans le cas des
continuums o/o2 CVC Longues Dyn I. Contours perceptuels pour les dimensions de Gravité (droites vertes) et de Compacité (droites bleues). Valeurs de l’angle 7 situé
à l’intersection des deux contours, valeurs des index stress et RSQ, et valeurs moyennes de d’ lors des tâches de discrimination des stimuli par paires.
249
o/o2 NVC Brèves Dyn I
+
+
+
A
B
+
+
D
+
C
+
+
Figure 90. Résultats de l’expérience DISC (auditeurs anglophones). Configurations obtenues par MDS pour les quatre quadrants A, B, C, D dans le cas des
continuums o/o2 NVC Brèves Dyn I. Contours perceptuels pour les dimensions de Gravité (droites vertes) et de Compacité (droites bleues). Valeurs de l’angle 7 situé
à l’intersection des deux contours, valeurs des index stress et RSQ, et valeurs moyennes de d’ lors des tâches de discrimination des stimuli par paires.
250
o/o2 NVC Longues Dyn I
+
C
D
A
B
+
+
+
+
+
+
+
Figure 91. Résultats de l’expérience DISC (auditeurs anglophones). Configurations obtenues par MDS pour les quatre quadrants A, B, C, D dans le cas des
continuums o/o2 NVC Longues Dyn I. Contours perceptuels pour les dimensions de Gravité (droites vertes) et de Compacité (droites bleues). Valeurs de l’angle 7 situé
à l’intersection des deux contours, valeurs des index stress et RSQ, et valeurs moyennes de d’ lors des tâches de discrimination des stimuli par paires.
251
5.
Discussion
Nous discutons les résultats présentés ci-dessus en relation avec les trois questions de
recherche exposées au début du chapitre.
5.1.
Validité.
Les fonctions d’identification obtenues pour les items de type CVC démontrent une
certaine efficacité de la dimension acoustique de Compacité pour la détection de la nasalité
phonétique (essentiellement liée aux effets acoustiques de l’abaissement du voile du palais).
L’ampleur de l’augmentation de la proportion de réponses « nasale » correspondant à
l’évolution des stimuli le long de la dimension de Compacité est comparable à celle obtenue
dans plusieurs travaux antérieurs. Dans l’étude menée par Macmillan et al. (1999) par
exemple, la nasalité a été synthétisée en insérant une paire pôle-zéro soit au-dessus, soit endessous du F1 de voyelles postérieures fermées et semi-fermées (F1 variait entre 360 et 500
Hz, F2 était fixé à 1025 Hz). Lorsque les auditeurs anglophones doivent identifier ces voyelles
sur base de leur nasalité, leurs réponses « nasale » augmentent à mesure que le pôle et le
zéro nasals voient leur fréquence diverger (entre 0 et 90 Hz d’écart). Cette augmentation dans
la proportion de réponses « nasale » est de l’ordre de 5 à 40% (en fonction de l’aperture de la
voyelle) lorsque la paire pôle-zéro est placée sous F1. Par contre, lorsque la paire survient audessus de F1, elle n’a aucune influence sur les jugements de nasalité des auditeurs
anglophones non entraînés, c’est-à-dire n’ayant pas participé à une première expérience de
discrimination incluant les mêmes stimuli. En général, les auditeurs anglophones s’appuyent
autant sinon plus sur l’aperture de la voyelle, pour juger de sa nasalité, que sur la paire pôlezéro additionnelle. Les auteurs attribuent ces résultats au fait que la nasalité n’est pas une
propriété contrastive de l’anglais, même si les voyelles y sont régulièrement nasalisées par une
consonne nasale subséquente.
L’avantage de la méthode que nous avons utilisée pour synthétiser la nasalité
phonétique est qu’en augmentant la bande passante de F1 (de 90 à 250 Hz), on évite de devoir
décider où situer une éventuelle paire pôle-zéro par rapport au pôle oral initial, tout en
maintenant un niveau de performances comparable à la méthode plus « ciblée » employée par
Macmillan et al. (1999) entre autres (Cf. aussi Delattre, 1965 ou Hawkins et Stevens, 1985 :
voir ci-dessous). L’augmentation de la bande passante en F1 est par définition une façon de
synthétiser la nasalité qui peut être généralisée à tous les timbres vocaliques. Elle a donné de
bons résultats pour reproduire les effets acoustiques de l’abaissement du voile sur les voyelles
/D,(,o/ chez nos auditeurs francophones. Nous pensons que la répartition de l’énergie sur de
252
larges plages fréquentielles est la clé dans la recherche d’une propriété générale de la nasalité
phonétique, indépendamment de la voyelle, du locuteur et même de la langue concernés.
Néanmoins, si l’on désire aboutir à de meilleures performances (allant jusqu’à 100%
d’identification nasale pour des auditeurs anglophones, par exemple), la méthode la plus
efficace reste celle qui consiste à adapter à chaque timbre vocalique les valeurs des divers
paramètres manipulés en synthèse. C’est la démarche qui a été suivie par Hawkins et Stevens
(1985), qui ont mené une expérience préliminaire à grande échelle afin de déterminer quels
stimuli étaient perçus comme les plus nasals par leurs auditeurs, et ce préalablement aux
expériences proprement dites. A partir de ces premiers jugements, Hawkins et Stevens ont
synthétisé divers continuums orale-nasale, dont l’extrémité nasale était spécifique à chaque
timbre vocalique, tant du point de vue de la fréquence de la paire pôle-zéro, que de l’écart
maximal entre eux, ou encore de la modification fréquentielle intervenant en F1 par rapport à
l’orale correspondante.
Par ailleurs, notre dimension de Compacité inclut l’évolution d’autres paramètres
acoustiques que la bande passante en F1, à savoir l’augmentation de la proéminence en F2, et
l’amortissement presque complet de l’énergie en F3. Pour tenter d’évaluer l’apport éventuel de
ces deux paramètres lors des jugements de nasalité, nous les comparons aux résultats
obtenus par Marie Huffman (1990). Huffman a étudié l’efficacité de la baisse de la proéminence
de F1 en tant qu’indice perceptuel de la nasalité pour les auditeurs anglophones. Pour ce faire,
elle a synthétisé des continuums orale-nasale en augmentant la bande passante en F1
uniquement. Les résultats montrent qu’une voyelle est plus souvent identifiée comme nasalisée
lorsque la bande passante est augmentée en F1. Cependant, l’augmentation de la proportion
de réponses « nasale » varie entre 10 et 25%, ce qui est inférieur à la progression des
performances que nous obtenons en ajoutant à l’augmentation de la bande passante en F1 les
modifications des bandes passantes en F2 et en F3 (de 25 à 30 % en moyenne, et jusqu’à 40%,
Cf. Figure 84 p.242). Sans surprise, la chute de l’énergie dans la région de F1 reste cependant
l’indice acoustique principal lié à la perception de la nasalité phonétique.
5.2.
Influence du contexte
En ce qui concerne les auditeurs anglophones, plusieurs travaux ont établi que la
perception du degré de nasalité d’une voyelle est en partie dépendante du contexte
phonologique, oral ou nasal, dans lequelle elle est insérée (Kawasaki, 1986, Krakow et Beddor,
1991). De plus, Krakow et al. (1988) ont trouvé que pour des continuums /4,(/, les dimensions
d’aperture et de nasalité entrent en interaction perceptuelle uniquement lorsque la nasalité de
la voyelle ne peut pas être imputée par l’auditeur à l’environnement phonologique (items b_d
253
vs. items b_nd). Par contre, les résultats de Macmillan et al. (1999) tendent à prouver
l’existence d’une interaction négative de ces deux dimensions quel que soit le contexte (C_d ou
C_n) pour les voyelles /X,R/. Dans cette étude, la sensibilité des auditeurs aux différences de
nasalité (c’est-à-dire aux écarts fréquentiels entre les membres d’une paire pôle-zéro) est
similaire en contexte oral et nasal.
Pour nos auditeurs anglophones, les fonctions d’identification obtenues sont très
différentes selon que la voyelle à identifier est située en contexte oral ou en contexte nasal.
Dans les items NVC, la proportion de réponses « nasale » varie peu, voire pas du tout en
fonction de la Compacité (ou de la Gravité) de la voyelle. Nous interprétons ces données
comme résultant de l’existence d’un phénomène de compensation perceptuelle : une voyelle
est moins vite perçue comme une nasale lorsqu’elle est placée en contexte phonologique
nasal. Par ailleurs, nos données invitent à considérer que la compensation observée est
d’origine sensorielle et non décisionnelle. Pour les items NVC Longues en particulier, les
auditeurs semblent avoir répondu au hasard ou presque, ce qui aboutit à un taux
d’identification proche de 50% pour tous les stimuli, quelle que soit leur gravité ou leur
compacité. Sur ces mêmes stimuli, l’incohérence des valeurs obtenues pour 7 lors de
l’expérience DISC, ainsi que la fréquence particulièrement élevée de valeurs négatives pour d’,
nous amènent à conclure à une absence presque totale de sensibilité auditive aux différences
d’un pas seulement le long des deux dimensions acoustiques dans le cas des items NVC
Longues. Enfin, l’expérience linguistique des auditeurs anglophones ne peut avoir qu’une
influence limitée sur le phénomène de compensation perceptuelle observé ici, puisque
précisément la nasalisation progressive est peu importante en anglais, en particulier vis-à-vis
de l’importance et de l’étendue temporelle de la nasalisation régressive dans cette langue
(Clumeck, 1976, Ohala, 1971, Solé, 1992).
5.3.
Interaction perceptuelle des deux dimensions
L’un des principaux objectifs des expériences menées sur les auditeurs anglophones
était de déterminer si l’interaction perceptuelle des dimensions de Gravité et de Compacité était
un phénomène uniquement spécifique au français. Nous cherchions à vérifier l’hypothèse selon
laquelle la covariation des propriétés acoustiques qui caractérise la réalisation phonétique du
contraste phonologique de nasalité en français permet d’augmenter automatiquement la
distance perceptuelle entre voyelles orales et voyelles nasales (par rapport à la distance
acoustique qui les sépare effectivement), et ce en vertu d’un mécanisme universel d’intégration
auditive des dimensions acoustiques de Gravité et de Compacité. Les résultats obtenus ne
254
sont en aucun cas en opposition avec cette hypothèse, liée aux notions de connaissance et de
contrôle phonétique (Kingston et Diehl, 1994). Dans le cas des items CVC Longues, la
contribution des deux dimensions, de Gravité et de Compacité, à l’augmentation de la
proportion de réponses « nasale » lors des tâches d’identification doit sans doute être mise en
parallèle avec les valeurs obtenues pour 7 à la suite des expériences de discrimination, qui
indiquent une intégration positive de ces dimensions acoustiques dans deux quadrants sur
quatre. Néanmoins les données obtenues auprès des auditeurs anglophones au cours des
tâches de discrimination manifestent un net effet de plancher, sans doute dû en partie à
l’absence d’entraînement spécifique à chaque paire de stimuli. L’interprétation de ces données
nécessite donc une grande prudence, et en ce qui concerne les items NVC, doit sans doute se
limiter à constater l’impossibilité dans laquelle se sont trouvés les auditeurs anglophones de
différencier deux stimuli ne différant que d’un pas le long des dimensions de Gravité et/ou de
Compacité.
255
Discussion générale
Cette discussion générale s’organise en trois étapes. Tout d’abord, nous revenons sur
les enjeux liés à la problématique de la nasalité vocalique en général. Il s’agit pour nous de
préciser dans quel cadre notre travail s’insère, c’est-à-dire de rappeler les questions de
recherche qui sont liées à la production et à la perception des voyelles nasales, ainsi qu’à la
structuration des oppositions phonologiques au sein des langues pour lesquelles la nasalité est
une propriété contrastive (section 1 ci-dessous). Ensuite, nous exposons point par point les
résultats obtenus au cours des diverses expériences menées dans cette thèse en ce qui
concerne la réalisation phonétique du contraste de nasalité vocalique en français, tant en
production qu’en perception de la parole (section 2, p.260). Enfin, dans la section 3 (p.265),
nous tentons d’intégrer l’ensemble des résultats au sein d’une vision unifiée de la
problématique de la nasalisation des voyelles du français, en comparant les prédictions faites
par les modèles opposés de phonétique automatique et de phonétique contrôlée.
1.
Nasalité vocalique : enjeux scientifiques et problématique générale
Du point de vue articulatoire, la nasalité vocalique se définit simplement : une voyelle
est nasalisée lorsqu’elle est produite (en tout ou en partie) avec le voile du palais abaissé. Du
point de vue acoustique, le phénomène est plus difficile à circonscrire. Les conséquences
acoustiques du couplage des cavités buccales et nasales sont extrêmement complexes, et
varient en fonction du degré de couplage, de la voyelle et du locuteur concernés (Cf. p.93). Les
modifications qui interviennent en hautes fréquences étant généralement décrites comme
hautement variables et peu pertinentes pour la perception des nasalisées, beaucoup de
chercheurs se sont concentrés essentiellement sur la région de F1 en étudiant ces voyelles ;
plusieurs études menées en synthèse de la parole ont en effet montré que l’impression auditive
de nasalité pouvait être recréée en modifiant les caractéristiques spectrales d’une voyelle dans
la région de F1 (Hawkins et Stevens, 1985, Huffman, 1990 : Cf. p.94 et pp.252 et suivantes).
Delattre (1968b) est parvenu au même genre de résultat avec des auditeurs francophones, tout
en précisant que les véritables nasales ne pouvaient être obtenues que par une modification
additionnelle du timbre vocalique. Maeda (1982), et Takeuchi et al. (1975) ont montré que les
manipulations spectrales en basses fréquences uniquement ne permettent pas de nasaliser les
voyelles fermées de façon satisfaisante. Plusieurs questions demeurent donc : Existe-t-il un
corrélat acoustique unique de la nasalité phonétique, indépendamment de la voyelle
concernée ? L’information présente en hautes fréquences est-elle uniquement redondante ou
bien est-elle nécessaire à une bonne détection de la nasalité ? Comment les auditeurs
parviennent-ils à gérer la variabilité due aux interactions entre degré de couplage, timbre
257
vocalique et spécificités anatomiques du locuteur ? Y a-t-il une forme d’intégration de
l’information sur de larges plages fréquentielles ?
Du point de vue perceptuel, les voyelles nasales (et nasalisées) ont été au centre de
deux grandes questions de recherche. La première concerne la perception de la nasalité d’une
voyelle en fonction du contexte. Dans ce cadre, de nombreuses études ont été consacrées aux
phénomènes de compensation perceptuelle, par les auditeurs anglophones, du taux de nasalité
d’une voyelle lorsqu’elle est suivie d’une consonne nasale (Kawasaki, 1986, Krakow et Beddor,
1991, Beddor et Krakow, 1999, Cf. p.13 et p.204 ). Partisans des gestes et tenants des théories
auditives de la perception de la parole s’opposent sur la façon dont il faut rendre compte de ces
phénomènes : S’agit-il de mécanismes auditifs généraux liés à l’absence de contraste spectral
ou fréquentiel entre segments adjacents (Kingston et Diehl, 1995, Lotto et Kluender, 1998) ?
Ou bien les auditeurs analysent-ils directement le signal en termes de sources
articulatoires (Fowler, 1996) ? La seconde question de recherche, liée à l’intérêt des
chercheurs pour la région de F1, concerne l’étude des interactions perceptuelles entre le degré
d’aperture et la nasalité d’une voyelle (Beddor et al., 1986, Krakow et al., 1988, Kingston et
Macmillan, 1995, Macmillan et al. 1999, Cf. p.13 et p.253). Là aussi les auteurs divergent
sur l’origine du mécanisme : sensorielle ou décisionnelle ? Bien qu’elles aient été investiguées
à partir d’expériences perceptuelles menées pour la plupart auprès d’auditeurs anglophones,
ces questions de recherche sont fondamentales pour l’étude de la nasalité vocalique en
français. La perception de la nasalité d’une voyelle en contexte phonologique nasal est un
problème essentiel, puisqu’en français le contraste phonologique entre voyelles orales et
voyelles nasales existe également lorsque la voyelle est précédée d’une consonne nasale, soit
dans les items N_. Dès lors, les questions posées sont les suivantes : le contraste est-il
maintenu au moyen des articulations complémentaires à l’abaissement du voile du palais ? Y
a-t-il interaction perceptuelle entre les effets acoustiques de ces différentes articulations ? En
production, comment se décline la covariation des articulations en fonction du contexte
phonologique ?
Du point de vue des relations entre phonétique et phonologie, la nasalité vocalique
est un cas d’étude, parce qu’elle peut être à la fois utilisée comme une propriété contrastive
dans une langue donnée (« nasalité phonologique »), et être présente à un niveau plus
strictement phonétique, dans la réalisation de voyelles dont la spécification phonologique est
[−N] (« nasalité phonétique ») ; les deux cas de figure sont rencontrés en français. La « nasalité
phonétique » recouvre les cas de nasalité contextuelle ainsi que de nasalité dite intrinsèque.
258
La nasalité contextuelle est depuis longtemps un défi pour les théories de la
coarticulation (Farnetani et Recasens, 1999), étant donné que son ampleur et son
étendue temporelle varient en fonction des langues et de la position de la consonne
nasale responsable de la coarticulation (nasalisation progressive vs. nasalisation
régressive) : Cf. p.87. Mais la variation allophonique dépasse le cadre des théories de
la coarticulation proprement dites, pour interroger nos conceptions des relations entre
phonétique et phonologie. Peut-on rendre compte de la coarticulation si l’on considère
l’implémentation phonétique comme un phénomène purement automatique? Faut-il
représenter les spécificités des langues à cet égard au sein de leur phonologie propre,
ou bien dans un composant phonétique contrôlé ?
La notion de « nasalité intrinsèque » fait référence à un phénomène attesté dans de
nombreuses langues du monde, en vertu duquel le voile est d’autant plus abaissé
durant la production d’une voyelle orale qu’elle est plus ouverte. On relie aujourd’hui ce
fait à des phénomènes acoustiques et auditifs : à couplage égal, la contribution
acoustique des fosses nasales est plus marquée pour les voyelles fermées (House et
Stevens, 1956, Stevens, 1998), et on tolère dès lors beaucoup moins de « nasalisation
passive » pour ces voyelles que pour les ouvertes (Lubker 1968, Ohala, 1975, Cf.
p.89). Notre travail a permis de situer le français par rapport à ces phénomènes.
Enfin, en ce qui concerne la structuration des systèmes phonologiques vis-à-vis du
contraste de nasalité, plusieurs régularités sont observées dans les langues du monde. Les
voyelles nasales sont aussi nombreuses ou moins nombreuses, mais jamais plus nombreuses
que les orales dans un système phonologique donné (Ruhlen, 1975, 1978). Les nasales
« manquantes » sont les voyelles d’aperture moyenne et les voyelles non périphériques
(Beddor, 1993, Vallée, 1994). On relie en général ce phénomène à la plus faible distinctivité
acoustique et perceptuelle des nasales entre elles (Cf. p.11), notamment dans la dimension
d’aperture, où elle fait suite aux modifications spectrales induites par la nasalisation dans la
région de F1 (Wright, 1986, Beddor et al. 1986). Comment intégrer dans ce schéma les autres
caractéristiques spectrales des voyelles nasalisées ? Comment fonctionnent les langues qui,
comme le français, constituent un cas particulier par rapport à ces tendances presque
universelles ?
259
2.
La nasalité vocalique en français : résultats obtenus au cours de ce travail
Le système phonologique du français compte en principe quatre voyelles nasales, dont
trois sont d’aperture moyenne /(,¡,o/, et la quatrième /$/, est une voyelle ouverte. La
structuration des oppositions phonologiques au sein du système vocalique du français est donc
différente de celle observée dans la plupart des langues du monde vis-à-vis de la nasalité (voir
ci-dessus). La question principale est la suivante : comment le contraste entre les diverses
voyelles nasales peut-il être maintenu si, comme le prédit Wright (1986), les antérieures /(,¡/
ont tendance à se postérioriser, la voyelle postérieure /o/ à s’antérioriser, et la voyelle ouverte
/$/ à se fermer? La disparition de la voyelle /¡/, dont l’opposition phonologique avec /(/ est
neutralisée chez un nombre croissant de locuteurs du français septentrional, ne peut pas tout
résoudre. C’est dans ce cadre que s’est inscrite notre étude expérimentale de l’implémentation
phonétique du contraste phonologique de nasalité pour les voyelles du français septentrional,
tant en production qu’en perception de la parole.
2.1.
Production de la parole
Les études aérodynamique et articulatoire (Première partie, Chapitre 1 et Chapitre 2)
ont montré que les voyelles orales étaient régulièrement nasalisées en français, et que leur
degré de nasalisation dépendait de trois facteurs :
(1) La position intrinsèque du voile du palais. Nos images IRM montrent qu’en contexte
CV,
la position du voile du palais varie selon le degré d’aperture de la voyelle orale, du
plus haut pour les voyelles fermées /L,X/, au plus bas pour la voyelle ouverte /D/ (Cf.
p.81), de sorte que le port vélo-pharyngal est légèrement ouvert pour cette voyelle.
Dans tous les contextes, la voyelle /D/ est au moins légèrement nasalisée (Cf. p.89).
(2) Le contexte phonologique. Les tracés de débit d’air nasal et les données d’imagerie
attestent que toutes les voyelles orales peuvent être contextuellement nasalisées en
français. Une assymétrie profonde a été constatée selon la position de la consonne
nasale par rapport à la voyelle : il y a nettement plus de nasalisation progressive que de
nasalisation régressive en français (Cf. pp.44 à 48 et p.78). Les voyelles orales les plus
nasalisées surviennent dans les items nvn (Cf. p.51 et p.79).
(3) La distinction à maintenir entre voyelles orales et voyelles nasales correspondantes.
En contexte NV, les voyelles orales pour lesquelles le voile est le plus abaissé (d’après
les données articulatoires ; Cf. p.82), ainsi que le plus longtemps (d’après les données
260
aérodynamiques, Cf. p.44), sont les voyelles fermées et certaines voyelles semifermées : /L,\,X,H,2/. Il s’agit d’orales qui n’ont pas de contraste phonologique à
maintenir avec une nasale correspondante, et qui n’en sont pas non plus la contrepartie
phonétique, étant donné que la véritable configuration orale des nasales du français a
parfois évolué vers celle d’une voyelle semi-fermée (Cf. /o/ = [R] vs. /(/ = [4]).
Les études articulatoire et acoustique (Première partie, Chapitre 2 et Chapitre 3) nous
ont permis de caractériser la réalisation phonétique des voyelles nasales du français
septentrional en relation avec celles des orales correspondantes.
Comme le prédit la théorie acoustique de la production de la parole (Fant, 1960,
Stevens, 1998), les effets acoustiques de l’abaissement du voile du palais sont très complexes,
en particulier lorsque l’on prend en compte les données concernant plusieurs voyelles dans
divers environnements phonologiques, et prononcées par plusieurs locuteurs. Par rapport aux
voyelles orales, on observe dans le spectre des voyelles nasalisées diverses modifications de
la fréquence des formants (qu’il s’agisse des pôles de la voyelle orale initiale qui sont déplacés,
ou de nouveaux pôles du système couplé) relativement spécifiques à chaque timbre vocalique
(Cf. p.127). Par contre, nous pensons qu’il est possible de proposer une généralisation des
effets acoustiques du couplage nasal si l’on considère la répartition globale de l’énergie en
fonction de la fréquence. Ainsi, de façon générale, les voyelles nasalisées sont nettement
moins intenses que les orales correspondantes. La perte d’énergie est particulièrement
marquée sous 1000 Hz et entre 2000 et 3000 Hz, de sorte que l’on assiste à une réduction de
la proéminence dans la région de F1 et à un effacement presque complet de F3. Puisque la
région située entre 1000 et 2000 Hz est relativement peu concernée par la chute d’énergie,
nous avons décrit l’effet acoustique principal de la « nasalité phonétique » comme un
renforcement de la compacité de la voyelle.
Lors de la production des voyelles nasales du français, un ensemble de modifications
articulatoires additionnelles interviennent en complément à l’abaissement du voile du palais par
rapport aux orales correspondantes : arrondissement des lèvres, changement d’aperture, recul
de la langue dans la bouche. Ces modifications articulatoires sont souvent plus marquées en
contexte NV. Elles augmentent la distance acoustique entre voyelles orales et voyelles nasales
du français (Cf. p.116).
Dans le cas des voyelles nasales antérieures /(,¡/, F2 est plus bas et F1 est plus élevé
que pour /(,¡/. Les mouvements fréquentiels induits par le couplage nasal seul ont
261
donc été renforcés par une modification de la configuration orale de la voyelle nasale,
qui est plus ouverte et plus postérieure que l’orale correspondante.
La voyelle /$/ est plus arrondie et plus postérieure, avec un F2 plus bas que la seule
voyelle ouverte subsistant en français de Belgique : /D/.
La voyelle /o/ est généralement produite avec les lèvres plus arrondies et la langue plus
haut et plus en arrière dans la bouche que /o/. Les conséquences acoustiques de ces
modifications interagissent de façon complexe avec le couplage nasal, de sorte que les
propriétés spectrales de /o/ varient selon le contexte phonologique et les individus. Le
F2 de la voyelle est souvent annihilé sous l’effet d’un zéro nasal. Dans les cas où un
pôle subsiste dans la région de F2, sa fréquence est plus élevée que celui de l’orale
correspondante, mais son amplitude est très basse (Cf. p.110).
Malgré la diversité des articulateurs entrant en jeu dans l’ajustement de la configuration
orale de chaque nasale du français, leurs effets acoustiques sont convergents : dans trois cas
sur quatre /(,¡,$/, le F2 de la nasale est plus bas que celui de l’orale correspondante. Même si
F2 est parfois plus élevé en fréquence pour /o/, il est alors très peu intense. C’est pourquoi nous
avons décrit l’effet acoustique principal des articulations additionnelles liées à « la nasalité
phonologique » en français comme un renforcement de la gravité de la voyelle.
La combinaison des données obtenues dans les études aérodynamique et acoustique
nous a permis d’investiguer l’évolution temporelle des diverses caractéristiques des voyelles
nasales du français. Dans les items CV, l’abaissement du voile du palais peut être déclenché à
différents moments, en fonction de la consonne qui précède : dès le milieu de la consonne si
c’est une liquide, dans la deuxième partie de la consonne si c’est une fricative, et au moment
du relâchement, voire plus tard dans la voyelle nasale, si la consonne est une occlusive (Cf.
p.41). Par contre, les modifications de la configuration orale pour la nasale sont toujours
coordonnées par rapport à la voyelle elle-même : au début de la mise en vibration des cordes
vocales, la configuration orale est celle de l’orale (phonologique) correspondante, mais elle
évolue rapidement, de sorte que dès le début du deuxième tiers de la voyelle nasale, tous les
articulateurs ont atteint leur cible, y compris le voile du palais (Cf. p.123).
Enfin, les voyelles nasales du corpus de l’étude aérodynamique (constitué de mots du
français) avaient chez nos locuteurs une durée intrinsèque plus importante que les orales, pour
un contexte phonologique donné (Cf. p.29).
262
2.2.
Perception de la parole
Les voyelles nasales du français sont donc plus longues, moins intenses, plus
compactes, plus graves et plus dynamiques que les voyelles orales correspondantes. C’est sur
la base de ces diverses propriétés que nous avons synthétisé les stimuli à partir desquels ont
été menées les expériences perceptuelles. En tout, cinq types d’indices acoustiques ont été
pris en compte dans l’élaboration des continuums orale/nasale : diminution de l’intensité de la
voyelle (bandes passantes multipliées par deux) ou augmentation de sa compacité (bande
passante élargie en F1, aplatie en F3, resserrée en F2) ; augmentation de sa gravité (baisse
fréquentielle de F2) ; et, en complément, variation dans la durée totale de la voyelle ainsi que
dans l’évolution dynamique des paramètres liés à la nasalité.
Les expériences d’identification (Deuxième partie, Introduction, Chapitre 1 et Chapitre
3) ont permis de tester la validité des différents groupes de paramètres en tant qu’indices
perceptuels de la nasalité, ainsi que la primauté éventuelle de certains indices par rapport aux
autres.
En ce qui concerne la validité, la combinaison des dimensions acoustiques de
Compacité et de Gravité s’est révélée à la fois nécessaire et suffisante à la détection du
contraste phonologique de nasalité pour les voyelles du français (Cf. p.176). Les taux
d’identification nasale recueillis auprès des auditeurs francophones varient entre 0 et 100% en
fonction de ces deux dimensions, et ce pour toutes les voyelles et dans presque toutes les
conditions. Par contre, telle qu’elle a été implémentée, l’évolution temporelle des paramètres
liés à la nasalité n’a pratiquement eu aucune influence sur les résultats obtenus. Les variations
de durée n’ont également apporté que de faibles modifications au schéma de réponses des
auditeurs, même si dans certains cas (items NVC) une durée plus importante a pu améliorer le
taux de réponses « nasale » (Cf. p.183).
Pour synthétiser la nasalité phonétique, l’expérience pilote menée auprès des auditeurs
francophones a permis de déterminer que la dimension acoustique de Compacité était plus
efficace que celle d’Intensité dans le cas des voyelles antérieures (Cf. p.157). Dans la synthèse
à formants (en cascade), l’implémentation de la Compacité pour les postérieures aboutit de
facto à une diminution générale de l’intensité de ces voyelles (Cf. p.160). La dimension
acoustique de Compacité est également celle à partir de laquelle les auditeurs anglophones ont
jugé de la nasalité des voyelles qui leur ont été présentées dans les items cvc (Cf. p.239).
Malgré le fait que les stimuli aient été construits en référence à des mots du français, et bien
que l’entraînement à la tâche d’identification ait été très court étant donné que le contraste
phonologique de nasalité n’existe pas pour les voyelles de l’anglais, les auditeurs anglophones
263
ont atteint des performances tout à fait honorables, comparables avec celles obtenues par
d’autres chercheurs à l’aide d’indices acoustiques plus ciblés. La Compacité est un bon
candidat sur la piste de la propriété acoustique signalant la nasalité phonétique,
indépendamment de la voyelle, du locuteur, et de la langue concernés.
En ce qui concerne les dimensions de Compacité et de Gravité, et la primauté de l’une
par rapport à l’autre, celle-ci varie en fonction du timbre vocalique et du contexte phonologique.
Dans l’ensemble, la Compacité est prioritaire, en particulier pour les continuums (/( CVC. Par
contre, pour tous les items NVC, l’identification d’une voyelle nasale dépend autant de sa valeur
le long de la dimension de Gravité que de Compacité.
La covariation observée en production de la parole, entre l’abaissement du voile du
palais et les ajustements articulatoires additionnels, a donc pour corollaire en perception
l’utilisation par les auditeurs des deux dimensions acoustiques correspondantes, de Compacité
et de Gravité, lorsqu’ils doivent décider si une voyelle est une orale ou une nasale en français.
Les expériences de discrimination (Deuxième partie, Chapitre 2) avaient pour objectif de
déterminer, dans le cas des auditeurs francophones, si l’interaction perceptuelle était d’origine
décisionnelle ou de l’ordre de la sensibilité auditive. Les résultats obtenus montrent que la
covariation appropriée des deux dimensions accroît la distance perceptuelle entre les voyelles
concernées : les stimuli [+G;+C] sont bien plus facilement discriminés des stimuli [-G;-C] que
ne le sont entre eux les stimuli négativement corrélés (Cf. p.214). L’interaction est donc
d’origine sensorielle chez les francophones, soit parce qu’ils ont modelé leur système
perceptuel en rapport avec leur expérience linguistique, soit parce que l’intégration positive des
dimensions de Compacité et de Gravité est une propriété stable préexistante du système auditif
de l’espèce humaine, peut-être même indépendante de la parole proprement dite. Les
expériences menées auprès des auditeurs anglophones (Deuxième partie, Chapitre 3) avaient
pour objectif de déterminer si l’interaction perceptuelle était observée dans d’autres langues
que le français. Dans certains cas (CVC Longues seulement), le même type d’interaction
positive entre les dimensions de Compacité et de Gravité a été constaté pour les anglophones,
tant au cours des tâches d’identification (Cf. p.240) que de discrimination (Cf. p.247). Même
s’ils doivent être interprétés avec prudence en raison de l’effet de plancher affiché par les
données de discrimination, les résultats penchent en faveur de l’existence d’un certain degré
d’interaction perceptuelle d’origine sensorielle chez les auditeurs anglophones (en contexte
CVC),
alors qu’il n’y a à notre connaissance aucun cas attesté de postériorisation des voyelles
nasalisées en anglais.
Pour la plupart des expériences menées au cours de la deuxième partie de la thèse, les
résultats obtenus sont qualitativement différents selon que les voyelles synthétiques étaient
264
insérées dans des items CVC ou NVC. En ce qui concerne les auditeurs francophones, seules
les expérience d’identification ont été effectuées sur les stimuli NVC. On constate alors que, par
rapport au stimulus préféré des auditeurs pour la voyelle orale, la dimension de Compacité
seule est beaucoup moins efficace à faire évoluer la proportion de réponses « nasale ».
Parallèlement, l’évolution de la voyelle le long de la dimension de Gravité contribue elle
beaucoup plus à la décision de nasalité en contexte nvc (Cf. p.184). Ainsi, le contraste entre
voyelles orales et voyelles nasales est maintenu pour les francophones dans les items nvc,
mais il s’appuie sur d’autres propriétés acoustiques de la voyelle, telles que sa gravité et dans
certains cas sa durée (Cf. p.183). Quant aux auditeurs anglophones, eux aussi utilisent peu la
dimension de Compacité lorsqu’ils doivent décider de la nasalité d’une voyelle en contexte NVC,
ce qui réduit d’autant leurs performances lors de la tâche d’identification. Les expériences de
discrimination ont permis d’ajouter que les anglophones étaient moins sensibles à de faibles
différences en Compacité dans des stimuli NVC que dans des CVC.
3.
Une vision unifiée au sein d’une phonétique contrôlée
Nous considérons que l’ensemble des résultats obtenus au cours de ce travail peuvent
être rassemblés autour de deux thématiques essentielles :
(1) Les relations entre phonétique et phonologie. Notre étude expérimentale de
l’implémentation phonétique du contraste phonologique de nasalité pour les voyelles du
français a mis à jour les deux phénomènes suivants : d’une part, les voyelles orales, dont la
spécification phonologique est [-N], sont régulièrement nasalisées en français, et cette
nasalisation ne peut être décrite comme résultant uniquement de l’action automatique de
contraintes phonétiques (position intrinsèque du voile, coarticulation). D’autre part, les voyelles
nasales, dont la spécification phonologique est [+N], sont réalisées phonétiquement avec le
voile du palais abaissé, mais également avec une configuration orale profondément modifiée
par rapport à celle de leur correspondante phonologique orale.
(2) Les relations entre production et perception de la parole. La plupart des
phénomènes observés au cours des expériences perceptuelles convergent avec les faits mis à
jour dans notre étude de la production des voyelles orales et nasales du français. Une
exception notable est l’évolution temporelle des paramètres liés à la nasalité.
En ce qui concerne les voyelles nasales, la covariation de l’abaissement du voile du
palais et des articulations additionnelles a pour corollaire l’interaction perceptuelle des
dimensions acoustiques de Compacité et de Gravité chez les auditeurs francophones. De plus,
leur utilisation plus intensive des propriétés de durée et de gravité de la voyelle lorsqu’elle est
en contexte NVC fait écho au fait que les ajustements articulatoires sont plus importants en
265
contexte phonologique nasal. En ce qui concerne les voyelles orales, production et perception
sont également intimement liées :
Nous avons observé que la voyelle /D/ est légèrement nasalisée (donc plus compacte)
dans tous les contextes. Parallèlement, c’est pour les continuums D/$ que la dimension
de Gravité est déjà particulièrement utile à l’identification de la nasalité phonologique en
contexte CVC. Néanmoins, la voyelle /D/ préférée des auditeurs reste de degré 1 sur
l’échelle de Compacité.
Nous avons constaté que la nasalisation progressive était importante en français, tant
dans son ampleur que dans son étendue temporelle. Néanmoins, les voyelles orales
les plus nasalisées sont celles que les auditeurs risquent le moins d’interpréter comme
des voyelles nasales parce qu’il n’y a pas de nasales au timbre correspondant en
français. D’autre part, les auditeurs sont précisément moins sensibles (ou moins
attentifs) aux différences de Compacité en contexte NVC ; comme nous l’avons rappelé
ci-dessus, ils utilisent également d’autres indices pour fonder leur jugement à propos de
la nasalité d’une voyelle située en contexte phonologique nasal.
Nous pensons que l’hypothèse du contrôle et de la connaissance phonétique est celle
qui est le mieux à même de rendre compte de l’ensemble des phénomènes observés en
relation avec ces deux thématiques.
3.1.
Relations entre phonétique et phonologie
L’implémentation phonétique du contraste phonologique de nasalité pour les voyelles
du français présente un ensemble de caractéristiques qui, selon nous, démontrent la nécessité
d’un mécanisme intermédiaire qui se distingue à la fois de la phonologie proprement dite et
d’un composant phonétique automatique. Il s’agit en l’occurrence du mécanisme de contrôle
s’appuyant sur la connaissance phonétique dont Kingston et Diehl (1994) défendent
l’existence.
En effet, nous avons montré à maintes reprises au cours de ce travail que la réalisation
phonétique des voyelles orales et nasales du français ne pouvait être le produit de l’action
automatique des contraintes physiques qui pèsent sur l’appareil vocal et auditif humain. Ainsi,
la nasalisation progressive en français est d’une durée bien plus importante que si elle était
uniquement liée à l’inertie du voile du palais. En ce qui concerne les voyelles nasales, les
divers articulateurs intervenant dans l’ajustement de leur configuration orale ne peuvent tous
être liés bio-mécaniquement à la descente du voile du palais proprement dite. Les différences
266
entre la configuration orale des voyelles nasales et celle des orales correspondantes, ou
encore celles qui séparent nasalisation progressive et régressive en français, sont des
différences régulières, nettes, et qualitatives ; c’est-à-dire qu’elles ne résultent pas de la
variation continue le long d’une ou plusieurs dimensions articulatoires ou acoustiques, mais
qu’elles sont le reflet d’un saut qualitatif opéré au cours d’une véritable réorganisation
phonétique. Par ailleurs, ces différences semblent délibérées, c’est-à-dire qu’elles font partie
d’une manière ou d’une autre du « plan » des locuteurs lorsqu’ils produisent les voyelles orales
et nasales du français (sans qu’il soit nécessaire pour autant d’en référer à un niveau
d’attention consciente).
Au cours de ce travail, nous avons envisagé puis rejeté l’hypothèse selon laquelle ces
différences qualitatives pouvaient simplement appartenir à la phonologie du français. Bien sûr,
il est possible de représenter les phénomènes décrits ci-dessus en phonologie, soit comme le
résultat d’autant de règles phonologiques spécifiques au français. Mais outre que l’on
apporterait alors une réponse à ces phénomènes uniquement en termes de description, et non
d’explication, cette démarche n’est véritablement nécessaire que si l’on pense qu’il ne peut pas
y avoir de véritable connaissance (à propos des sons de la parole) en dehors de la phonologie.
La proposition de Kingston et Diehl (1994) est que la connaissance phonétique se situe en
dehors de la phonologie proprement dite. Ainsi, la phonologie regagne un niveau approprié
d’abstraction, où opèrent les processus qui modifient les valeurs prises par les traits distinctifs,
mais pas les mécanismes qui en assurent la réalisation phonétique. Cette division fonctionnelle
entre phonologie et phonétique est particulièrement nécessaire en ce qui concerne la nasalité
en français : il s’agit de distinguer entre la nasalité phonétique d’une part, qui survient à la suite
de la coarticulation dans des voyelles dont la spécification phonologique est [-N], et la nasalité
phonologique d’autre part, qui ne s’appuie qu’en partie seulement sur la nasalité phonétique,
c’est-à-dire sur l’abaissement du voile du palais au cours des voyelles nasales [+N]. Il ne serait
pas davantage approprié de décrire toutes les voyelles nasales du français comme [+arrière].
Les
voyelles
/(,¡/
restent
des
voyelles
antérieures
du
français,
qui
s’opposent
phonologiquement à /o/ sur la base du trait de lieu d’articulation, même si leur réalisation
phonétique implique un certain degré de postériorisation par rapport à la configuration des
orales correspondantes.
Enfin, on pourrait considérer que les modifications articulatoires sont telles qu’elles ont
été phonologisées dans leur ensemble, de sorte que les phonèmes /(,¡,$,o/ ont pour certains
d’entre eux un nouveau contenu phonologique en français, soit /4,(¡),$,R/, avec désormais
deux voyelles ouvertes /4,$/ et une voyelle semi-fermée /R/. Dans cette hypothèse, les
267
phénomènes de postériorisation sont considérés comme de simples corrélats des modifications
d’aperture, ce qui va à l’encontre des résultats obtenus en perception de la parole, puisque
nous avons synthétisé efficacement les trois continuums orale/nasale sans modifier la
fréquence de F1. De plus, cette solution opère une distinction entre certaines nasales, pour
lesquelles les modifications auraient une ampleur suffisante pour causer un changement
phonétique, et les autres où ce ne serait pas (encore) le cas. Ce type d’explication ne tient pas
non plus compte des variations contextuelles observées en production de la parole, où les
modifications articulatoires sont particulièrement marquées lorsque la voyelle nasale est située
en contexte phonologique nasal.
Pour toutes ces raisons, nous pensons que les articulations qui covarient dans la
production des voyelles nasales du français sont phonétiquement contrôlées et non
véritablement phonologisées. C’est d’ailleurs ainsi que nous entendons rendre compte des
variations dialectales observées entre français septentrional et français canadien, où les
voyelles nasales sont réalisées de manière antériorisée par rapport à leur correspondante orale
(Gendron, 1966, Maurais, 1993). Nous pensons que le système des oppositions phonologiques
entre voyelles nasales et orales est fondamentalement le même dans ces deux dialectes, mais
que chaque communauté linguistique a développé ses propres variantes contrôlées, son
propre train d’articulations covariantes, bref, sa propre réorganisation en catégories phonétique
distinctes, de façon à optimiser l’implémentation phonétique de ces voyelles. Il s’agit d’assurer
une robustesse maximale au contraste phonologique de nasalité, à l’intérieur du cadre que
délimitent les contraintes imposées (1) par l’appareil vocal et auditif humain, et (2) par le
système linguistique du français :
(1) Les contraintes acoustiques pesant sur la réalisation même de la nasalité vocalique
impliquent que les voyelles nasales sont plus rapprochées dans l’espace acoustique
et/ou perceptuel que leurs homologues orales, toutes choses étant égales par ailleurs.
(2) En français, le contraste phonologique de nasalité doit être maintenu en contexte
phonologique nasal, car ce contraste permet à lui seul de distinguer entre elles de
nombreuses entrées du lexique de type NV(C).
Il y a donc une double nécessité pesant sur la réalisation phonétique des voyelles
nasales du français : d’une part, il faut qu’elles soient suffisamment différentes entre elles,
d’autre part, elles doivent être suffisamment distinctes de leur correspondante phonologique
orale, en particulier en contexte NVC. Nous considérons que c’est à ces besoins que répond la
combinaison en français de la dimension acoustique de Compacité avec celle de Gravité lors
de la réalisation phonétique des voyelles nasales, la dimension de Gravité étant plus souvent
268
utilisée par les locuteurs, comme par les auditeurs, dans les items NV(C). A ce propos, il est
difficile à partir de nos données de déterminer si les phénomènes de compensation
perceptuelle sont d’origine sensorielle ou décisionnelle en français. Les données obtenues
auprès des auditeurs anglophones tendent à montrer qu’une partie au moins du phénomène de
compensation peut être attribuée à une chute de la sensibilité auditive aux variations de
Compacité d’une voyelle en contexte phonologique nasal. Quoi qu’il en soit, l’implémentation
phonétique contrôlée permet le maintien du contraste phonologique en contexte phonologique
nasal parce qu’elle assure une distance perceptuelle suffisante entre voyelles orales et nasales
dans ce contexte.
Enfin, nous avons montré que le moment où le voile s’abaissait pour la voyelle nasale
en contexte CV dépendait des contraintes pesant sur la production (voire sur la perception) de
la consonne précédente. Cette flexibilité temporelle est sans doute en partie possible parce que
la réalisation phonétique d’une voyelle nasale du français ne consiste pas uniquement en un
abaissement du voile du palais.
3.2.
Relations entre production et perception
Nous pensons que les rapports étroits observés entre production et perception des
nasales en français d’une part, ainsi que les liens manifestes entre les résultats des
expériences
perceptuelles
d’identification
et
de
discrimination
menées
auprès
des
francophones d’autre part, gagnent à être intégrés au sein de la notion de connaissance
phonétique.
En référence à la proposition de Kingston et Diehl (1994), nous avons défini la
connaissance phonétique comme une connaissance linguistique implicite qui, du point de vue
du locuteur, consiste en une connaissance des représentations phonologiques à implémenter
ainsi que de l’ensemble des contraintes imposées par l’utilisation pour la parole des appareils
vocal et auditif humain. Nous avons argumenté en faveur de l’intégration, dans la connaissance
phonétique, de contraintes de type « systémique », c’est-à-dire de contraintes imposées par la
façon dont se structurent les oppositions phonologiques dans la langue concernée. Le principe
fondateur du mécanisme de contrôle réside dans le fait que toutes ces contraintes limitent le
comportement phonétique des locuteurs mais ne permettent pas de le prédire (même une fois
connues les représentations phonologiques à implémenter).
Du point de vue de l’auditeur, la connaissance phonétique repose sur un long
apprentissage des phénomènes de covariation, qui fait en sorte que l’auditeur apprend à
reconnaître l’organisation des propriétés acoustiques qui caractérisent chaque allophone, ainsi
que la correspondance entre les allophones et leur phonème de référence. Kingston et Diehl
269
(1994) développent peu cet aspect de leur proposition, mais il nous semble fondamental
lorsqu’il s’agit de rendre compte des phénomènes observés pour la nasalisation en français. En
effet, nous considérons que l’ensemble des convergences observées entre production et
perception des voyelles nasales (voir ci-dessus) attestent avant tout du fait que le locuteur et
l’auditeur partagent une connaissance fine et subtile de phénomènes d’ordre phonétique (vs.
phonologique), comme le fait que la voyelle orale /D/ est légèrement nasalisée dans tous les
contextes en français (et que la nasale /$/ plus que d’autre est signalée par sa gravité), ou
encore que la voyelle /R/, si elle est nasalisée, risque d’être confondue perceptuellement avec
/o/ alors que tel n’est pas le cas pour un /H/ nasalisé, puisque /(/ = [4]. Après tout, les termes
« auditeur » et « locuteur » renvoient à des rôles successivement joués par un seul et même
individu. Il est donc extrêmement difficile de déterminer si production et perception se
correspondent parce que le locuteur contrôle ses articulations afin de tirer parti de propriétés
générales et stables du système auditif humain (auxquelles l’auditeur n’a pas accès) (1), ou
bien si l’auditeur lui-même a appris à reconnaître les articulations covariantes signalant un
allophone donné (2), voire si son expérience linguistique a modifié sa sensibilité auditive dans
la direction appropriée (3). Dans les deux premiers cas selon nous s’exerce la connaissance
phonétique, que ce soit de la part du locuteur (1), ou de la part de l’auditeur (2). On peut même
dépasser la dichotomie entre les phénomènes perceptuels d’origine sensorielle et ceux
d’origine décisionnelle, pour distinguer entre les propriétés stables et pré-existantes de
l’appareil auditif humain (1), et la façon dont chaque individu a développé ses propres shémas
perceptuels en interaction avec le milieu linguistique ambiant (2, 3).
Dans le présent travail, nous avons envisagé l’hypothèse selon laquelle la covariation
des dimensions de Compacité et de Gravité pour les voyelles nasales du français était un
exemple de connaissance phonétique envisagée du point de vue du locuteur. L’origine de
cette hypothèse tient dans le fait que la configuration orale des voyelles nasales du français est
modifiée, mais que malgré la diversité des articulateurs concernés, et la variabilité observée
pour les différents timbres vocaliques et les différents locuteurs, l’ensemble de ces
modifications peuvent être décrites comme orientées autour d’un « objectif » commun, à savoir
une propriété acoustique, voire perceptuelle, qui consiste en l’accroissement de la Gravité de la
voyelle. Nous avons proposé que les locuteurs contrôlent activement ces diverses articulations
parce que leur connaissance phonétique (des mécanismes auditifs généraux) leur indique que
les corrélats acoustiques de l’abaissement du voile du palais (Compacité) et ceux des
articulations complémentaires (Gravité) se rehaussent mutuellement et s’intègrent en une
270
propriété auditive unifiée (« C + G ») dans la perception des auditeurs (auditory enhancement
theory, Diehl et al., 1990).
En ce qui concerne la raison objective pour laquelle ces deux propriétés acoustiques
pourraient interagir dans la perception des auditeurs, nous avons proposé de considérer la
répartition de l’énergie acoustique entre 2000 et 3000 Hz, soit autour de F3. Plus une voyelle
est compacte, et moins il y a d’énergie dans cette région (par définition) ; par ailleurs, plus une
voyelle est grave (plus son F2 est abaissé) et moins il y a d’énergie acoustique disponible pour
les formants supérieurs, au premier rang desquels F3. En proposant cette explication, nous
nous inscrivons dans le cadre des théories de la perception vocalique qui prennent pour objet
l’enveloppe spectrale de la voyelle considérée dans son ensemble (Bladon et Lindblom, 1981,
Bladon, 1982). Récemment, Ito, Tsuchida et Yano (2001) ont montré que le rapport d’énergie
entre les hautes et les basses fréquences apporte le même type d’information que la fréquence
spécifique de F2 pour la perception (identification) du lieu d’articulation d’une voyelle.
Afin d’étayer l’hypothèse de la covariation contrôlée, nous devions tout d’abord montrer
que les deux dimensions sont effectivement utilisées par les auditeurs lors des tâches
d’identification, c’est-à-dire qu’une voyelle est d’autant plus souvent jugée comme nasale
qu’elle est plus compacte et plus grave. C’est le cas. Nous devions ensuite vérifier que
l’interaction perceptuelle des deux dimensions est également constatée lors des expériences
de discrimination, c’est-à-dire que la covariation de la Gravité et de la Compacité augmente la
distance perceptuelle entre deux voyelles chez les francophones. C’est également le cas.
La convergence entre les résultats des expériences d’identification et de discrimination
auprès des auditeurs francophones atteste donc que l’interaction perceptuelle des dimensions
de Gravité et de Compacité est d’origine sensorielle. Mais s’agit-il d’un mécanisme auditif
général et préexistant ((1) ci-dessus) ou bien d’une intégration auditive apprise, acquise par
l’expérience que constitue le milieu linguistique ambiant ((3) ci-dessus) ? Les expériences
menées sur les auditeurs anglophones avaient pour objectif de tenter de répondre à cette
question. Comme nous l’avons dit à plusieurs reprises, les résultats obtenus ne permettent
malheureusement pas d’apporter une réponse claire à la question posée. Néanmoins, ils
comportent plusieurs éléments qui penchent en faveur de l’existence d’une interaction positive
des dimensions acoustiques de Compacité et de Gravité (en contexte phonologique oral) pour
des auditeurs qui, a priori, n’ont pas eu d’expérience linguistique particulière dans ce sens. La
question n’est cependant pas définitivement résolue, et une extension possible de notre travail
pourrait consister en une vérification de l’existence du mécanisme auditif général d’intégration
positive des deux dimensions auprès d’auditeurs pour qui l’expérience de la covariation est
absolument contrôlée, comme par exemple une population d’oiseaux. Ainsi, Holt, Lotto et
271
Kluender (2001) ont montré que les cailles du Japon étaient capables d’apprendre (puis de
réutiliser en vue d’un jugement) la covariation entre diverses propriétés acoustiques présentes
dans la parole humaine. Par contre, ces oiseaux (dont le système auditif est très proche du
nôtre) n’ont pas montré de sensibilité auditive pré-existante à la covariation, très régulière dans
les langues du monde, entre le VOT d’une consonne et la fréquence fondamentale de la
voyelle adjacente.
Quant aux phénomènes relatifs à l’implémentation du contraste phonologique de
nasalité en contexte phonologique nasal, ils ne peuvent pas selon nous être pleinement
expliqués si l’on ne se réfère pas à la notion de contrôle et de connaissance phonétique :
Soit la compensation perceptuelle observée en contexte NVC est d’origine sensorielle,
qu’il s’agisse d’une propriété auditive acquise par les francophones ou d’une propriété
préexistante, c’est-à-dire commune à tous les êtres humains. On peut alors considérer
que les modifications de la configuration orale observées lors de la production des
voyelles nasales relèvent d’une stratégie contrôlée de la part des locuteurs, d’autant
que ces modifications sont plus régulières et plus marquées en contexte phonologique
nasal. Dans ce cas de figure, le locuteur fait usage de sa connaissance phonétique des
mécanismes généraux liés à la perception des sons coarticulés, et adapte son
comportement phonétique en conséquence, de façon à rencontrer l’exigence de
maintien du contraste phonologique entre voyelles orales et nasales en contexte
phonologique nasal (voir ci-dessus, p.268).
Soit la compensation est d’origine décisionnelle, et en corollaire les auditeurs ont appris
à utiliser d’autres indices que ceux liés à la Compacité lorsqu’ils doivent identifier une
voyelle dans un item NVC. Dans ce cas, c’est l’auditeur qui fait usage de sa
connaissance phonétique à propos de la variation contextuelle d’une part, et des
phénomènes de covariation propres au français d’autre part. C’est pourquoi il fonde son
jugement quant à la nasalité d’une voyelle placée en contexte phonologique nasal
autant sur la dimension de Gravité que sur celle de Compacité. Plusieurs auteurs
interprètent les phénomènes de compensation partielle attestés dans la littérature pour
les auditeurs anglophones comme résultant d’un mécanisme perceptuel d’ordre
décisionnel, lié à l’expérience linguistique des auditeurs (Ohala, 1986, Beddor et
Krakow, 1999). Nous avons déjà précédemment proposé que ce type de phénomène
relève d’une véritable connaissance des phénomènes phonétiques (Cf. p.13).
272
En résumé, nous pensons que l’hypothèse de la connaissance phonétique, si on
l’envisage tant du point de vue du locuteur que de celui de l’auditeur, permet de rendre compte
d’une grande partie des faits établis au cours de notre étude expérimentale de la production et
de la perception des voyelles orales et nasales du français. Dans le cas du locuteur, mais aussi
dans le cas de l’auditeur, cette hypothèse nous amène à modéliser le comportement
phonétique comme une stratégie adaptative d’un individu utilisant pour communiquer un
système symbolique biologiquement fondé. Selon nous, le mécanisme de contrôle qui s’exerce
continuellement sur l’implémentation phonétique des représentations phonologiques, et le
produit qui en résulte, à savoir un ensemble de catégories phonétiques distinctes, peuvent
constituer le fondement d’une théorie du changement phonétique. Les notions de contrôle et de
connaissance phonétique permettent en effet à la fois de rendre compte de l’inhérente
variabilité des réalisations phonétiques (pour différents locuteurs, dans différentes langues et
dans différents contextes) et de leur nécessaire structuration au sein d’une communauté
linguistique donnée.
En conclusion, ce modèle d’implémentation phonétique suppose, par rapport au modèle
automatique, qu’un plus grand nombre d’articulations sont activement contrôlées de la part des
locuteurs (et que certains mécanismes perceptuels le sont tout autant de la part des auditeurs),
mais en contrepartie, il permet de rendre compte d’une part plus importante de la variabilité
attestée dans les réalisations phonétiques. En ce sens, les notions de contrôle et de
connaissance phonétique permettent de mieux penser les relations entre phonétique et
phonologie d’une part, et entre production et perception de la parole d’autre part.
273
Conclusion
En conclusion, notre travail a principalement permis d’effectuer deux avancées en ce
qui concerne l’étude générale des phénomènes de nasalité vocalique :
(1) Nous avons montré qu’il est possible de caractériser les effets acoustiques de la
nasalité vocalique indépendamment des facteurs qui en influencent le détail, à savoir le timbre
vocalique, le degré de couplage, l’anatomie du locuteur, etc. Notre travail débouche sur la
proposition de la Compacité en tant que corrélat acoustique général de la nasalité, la
Compacité résidant en un aplatissement du spectre sous 1000 Hz, et surtout au-delà de 2000
Hz, mais pas dans la plage fréquentielle intermédiaire, entre 1000 et 2000 Hz. L’une des
perspectives de recherche suscitée par ce travail consiste en la validation du lien entre
Compacité et nasalité pour d’autres langues que le français et l’anglais.
(2) Notre étude intégrée des phénomènes de production et de perception nous a permis
d’aboutir à une caractérisation phonétique structurée de l’implémentation phonétique du
contraste phonologique de nasalité pour les voyelles du français. L’efficacité éprouvée de nos
stimuli semi-synthétiques constitue la validation de notre analyse des relations entre les
phénomènes étudiés au niveau aérodynamique, articulatoire, et acoustique pour la nasalité en
français. Nous sommes parvenue à synthétiser des continuums orale/nasale jugés excellents
par les auditeurs en faisant varier uniquement la Compacité et la Gravité des voyelles
concernées.
Parallèlement à la mise à jour de ces propriétés générales de la nasalité, notre analyse
de la variabilité allophonique, phonétique et dialectale des voyelles orales et nasales
correspondantes en français nous a amenée à considérer que le comportement phonétique
(tant du point de vue de l’auditeur que du locuteur) est une stratégie adaptative et contrôlée qui
s’appuie sur une véritable connaissance des contraintes que s’imposent mutuellement
phonétique et phonologie.
275
Bibliographie
Anderson, S.R. 1985. Phonology in the Twentieth Century : Theories of Rules and Theories of
Representations. Chicago, University of Chicago Press.
Baken, R.J. et Orlikoff, R.F. 2000. Clinical measurement of Speech and Voice. San Diego,
Singular.
Beddor, P.S. 1993. The perception of nasal vowels. Phonetics and Phonology, vol.5, Nasals,
Nasalization and the velum, M.K. Huffman et R.A. Krakow (eds), San Diego, Academic
Press, 171-196.
Beddor, P.S., Krakow, R.A. et Goldstein, L.M. 1986. Perceptual constraints and phonological
change: a study of nasal vowel height. Phonology Year Book, 3, 197-218.
Beddor, P.S. et Krakow, R.A. 1999. Perception of coarticulatory nasalization by speakers of
English and Thai : Evidence for partial compensation. Journal of the Acoustical Society of
America, 106,5, 2868-2887.
Bell-Berti, F. 1973. The velopharyngeal mechanism: an electromyographic study. Status Report
on Speech Research (supplement), New York : Haskins Labs.
Bell-Berti, F. 1980. Velopharyngeal function: a spatial-temporal model. Speech and Language:
Advances in Basic Research and Practice, N.J. Lass (ed.), New York, Academic Press,
vol.4, 291-316.
Benguerel, A.P., Hirose, H., Sawashima, M. et Ushijima, T. 1977. Velar coarticulation in
French: a fiberscopic study. Journal of Phonetics 5,2, 149-158.
Bernthal, J.E. et Beuckelman, D.R. 1977. The effect of changes in velopharyngeal orifice area
on vowel intensity. Cleft Palate Journal, 14, 63-77.
Bladon, R.A.W., 1982, Arguments against formants in the auditory representation of speech.
The Representation of Speech in the Peripheral Auditory System, R. Carlson et B.
Grandstrom (eds), Amsterdam, Elsevier, 95-102.
Bladon, R.A.W. et Lindblom, B. 1981. Modeling the judgment of vowel quality differences,
Journal of the Acoustical Society of America, 69, 1414-1422.
Bloomer, H. et Peterson, G. 1955. A spectrographic study of hypernasality. Cleft Palate
Bulletin, 5, 5-6.
Bothorel, A., Simon, P., Wioland, F. et Zerling, J.-P. 1986. Cinéradiographie des voyelles et
consonnes du français. Travaux de l’Institut de Phonétique de Strasbourg, 18.
Brichler-Labaeye, C. 1970. Les voyelles françaises. Mouvements et positions articulatoires à la
lumière de la radiocinématographie, Paris, Klincksieck, (coll. Bibliothèque française et
romane, série A, n°18).
Browman, C.P. et Goldstein, L.M. 1990. Representation and reality : physical systems and
phonological structure. Journal of Phonetics, 18, 411-424.
Browman, C.P. et Goldstein, L.M. 1992. Articulatory Phonology : An overview. Phonetica 49,
155-180.
Calliope, 1989. La parole et son traitement automatique. Paris, Masson.
Chen, M.Y. 1997. Acoustic correlates of English and French nasalized vowels. Journal of the
Acoustical Society of America, 102, 4, 2360-2370.
Chomsky, N. et Halle, M. 1968. The sound pattern of English. New York, Harper and Row.
Clumeck, H. 1976. Patterns of soft palate movements in six languages. Journal of Phonetics, 4
4, 337-351.
277
Cohn, A. C. 1990. Phonetic and phonological rules of nasalization. UCLA Working papers in
Phonetics, 76.
Cohn, A. C. 1993. Nasalization in English : phonology or phonetics? Phonology, 10, 43-81.
Dang, Honda, Suzuki 1996. Morphological and acoustical analysis of the nasal and the
paranasal cavities, Journal of the Acoustical Society of America, 96, 2088-2100.
Delattre, P. 1954. Les attributs acoustiques de la nasalité vocalique et consonantique. Studia
Linguistica VII, 2,103-109.
Delattre, P. 1968a. La Radiographie des voyelles françaises et sa corrélation acoustique. The
French Review, 42, 1, 48-65.
Delattre, P. 1968b. Divergences entre nasalités vocalique et consonantique en français. Word,
24, 64-72.
Demolin, D., Hassid, S., Metens, T. et Soquet, A. 2002. Real-time MRI and articulatory
coordination in speech. Comptes Rendus Biologies, 325, 547-556.
Demolin, D., Metens, T., Delvaux, V. et Soquet, A. (sous presse) Determination of velum
opening for French Nasal Vowels by Magnetic Resonance, Journal of Voice.
Dickson, D.R. 1962. An acoustic study of nasality. Journal of Speech and Hearing Research, 5,
103-111.
Diehl, R.L. 1991. The Role of Phonetics within the Study of Language. Phonetica, 48, 120-134.
Diehl, R.L., Kluender K.R. et Walsh, M.A. 1990. Some auditory bases of speech perception and
production, Advances in Speech, Hearing and Language Processing, W.A. Ainsworth
(ed.), London, JAI Press, vol.1, 243-267.
Diehl, R.L., Molis, M.R., Castleman, W.A. 2001. Adaptive Design of Sound Systems. Some
auditory considerations. The Role of Speech perception in Phonology. New York,
Academic Press.
Dominicy, M. La dynamique du système phonologique du français, Le Français Moderne, 68,
2000, 11pp.
Fant, G. 1956. On the predictability of formant levels and spectrum envelopes from formant
frequencies. For Roman Jakobson, The Hague, Netherlands : Mouton, 109-120.
Fant, G. 1960. Acoustic Theory of Speech Production. Mouton, The Hague.
Farnetani, E. 1986. Lingual and velar coarticulatory movements in the production of /n/ in
italian: some preliminary data. Quaderni del Centro di Studio per le Richerche di Fonetica,
Padova, Consiglio nazionale delle richerche, 7, 211-228.
Farnetani, E. et Recasens, D. 1999. Coarticulation models in recent speech production
theories. Coarticulation : Theory, Data and Techniques, W. Hardcastle et K. Hewlett (eds),
Cambridge, Cambridge University Press.
Fowler, C.A. 1990. Some regularities in speech are not consequences of formal rules :
comments on Keating’s paper. Papers in Laboratory phonology I : Between the grammar
and physics of speech, J. Kingston et M. Beckman (eds), Cambridge, Cambridge
University Press, 476-89.
Fowler, C.A. 1986. An event approach to the study of speech perception from a direct-realist
perspective, Journal of Phonetics, 14, 3-28.
Fowler, C.A., 1996. Listeners do hear sounds, not tongues. Journal of the Acoustical Society of
America, 99, 1730-1741.
278
François, D. 1974. Français parlé ; Analyse des unités phoniques et significatives d’un corpus
recueilli dans la région parisienne, Paris, S.E.L.A.F.
Fritzell, B. 1969. A combined electromyographic and cineradiographic study: activity of the
levator and palatoglossus muscles in relation to velar movements. Acta OtoLaryngologica. Suppl. 250.
Fujimura, O. et Lindqvist, J. 1971. Sweep-tone measurements of vocal-tract characteristics.
Journal of the Acoustical Society of America, 49,2, 541-558.
Garner, W.R. 1974. The processing of information and structure. Potomac, Erlbaum.
Gendron, J.-D. 1966. Tendances phonétiques du français parlé au Canada, Paris, Klincksieck,
Québec, Laval, (coll. Bibliothèque française et romane, série E, n°2).
Green, D.M. et Swets, J.A. 1966, Signal Detection Theory and Psychophysics, New York,
Wiley.
Hawkins, S. et Stevens, K.N. 1985. Acoustic and perceptual correlates of the non nasal-nasal
distinction for vowels. Journal of the Acoustical Society of America, 77, 4, 1560-1575.
Holt, L.L., Lotto, A.J. et Kluender, K.R. 2001. Influence of fundamental frequency on stopconsonant voicing perception : A case of learned covariation or auditory enhancement?
Journal of the Acoustical Society of America, 109, 2, 764-774.
House, A.S. et Stevens, K.N. 1956. Analog studies of the nasalization of vowels. Journal of
Speech and Hearing Disorders. 21,2, 218-232.
Huffman, M. 1991. Time varying properties of contextually nasalized vowels : acoustics and
perception. Proceedings 12th ICPhSc, Aix-en-Provence, vol.3, 130-133.
Ito M., Tsuchida J. et Yano, M. 2001. On the effectiveness of whole spectral shape for vowel
perception, Journal of the Acoustical Society of America, 110, 2, 1141-1149.
Jakobson R., Fant G. et Halle M., Preliminaries to speech analysis : the distinctive features and
their correlates, Cambridge, The MIT Press, 1952.
Jha, S.K.1986. The nasal vowels in Maithili : an acoustic study. Journal of Phonetics, 14, 223230.
Johnson, K. 1997. Acoustic and Auditory Phonetics, Oxford, Blackwell.
Jusczyk, P.W. 1992. Developing phonological categories from the speech signal, Phonological
Developments : Models, research, implications, C.A. Ferguson, L. Menn et C. StoelGammon (eds), Timonium MD, York Press.
Jusczyk, P.W. 1993. From general to language-specific capacities : The WRAPSA model of
how speech perception develops. Journal of Phonetics, 21, 3-28.
Kawasaki, H. 1986. Phonetic explanation for phonological universals: the case of distinctive
vowel nasalization. Experimental phonology. J.J. Ohala et J.J. Jaeger (eds), New York,
Academic Press, 81-103.
Keating, P. 1985. Universal phonetics and the organization of grammars. Phonetic linguistics :
Essays in honor of Peter Ladefoged, V.A. Fromkin (ed.), Orlando, Academic Press, 115132.
Keating, P.A. 1988. The phonology-phonetics interface. Linguistics : The Cambridge survey,
F.J. Newmeyer (ed.), Cambridge University Press, vol.1, 281-302.
Keating, P. 1990. Phonetic representations in a generative grammar. Journal of Phonetics, 18,
321-334.
279
Kent, R.D., Liss, J. et Philips, B.J. 1989. Acoustic analysis of velopharyngeal dysfunction in
speech. Communicative disorders related to cleft lip and palate, K.R. Bzoch (ed.), Boston,
College-Hill Press, 3e edition, 258-270.
Kingston, J. (A paraître). Learning foreign vowels. Language and Speech.
Kingston, J. et Diehl, R. L. 1994. Phonetic Knowledge. Language, 70, 3, 419-453.
Kingston, J. et Diehl, R. 1995. Intermediate properties in the perception of distinctive feature
values. Papers in Laboratory phonology IV : Phonology and Phonetic Evidence, B.
Connel et A. Arvanti (eds), Cambridge, Cambridge University Press, 7-27.
Kingston J. et Macmillan, N.A. 1995. Integrality of nasalization and F1 in vowels in isolation and
before oral and nasal consonants : A detection-theoretic application of the Garner
paradigm. Journal of the Acoustical Society of America, 97, 2, 1261-1285.
Klatt, D.H. 1980. Software for a Cascade/Parallel Formant Syntheziser. Journal of the
Acoustical Society of America, 67, 971-995.
Krakow, R.A., Beddor, P.S., Goldstein, L.M., and Fowler, C. 1988. Coarticulatory influences on
the perceived height of nasal vowels. Journal of the Acoustical Society of America, 83, 3,
1146-1158
Krakow, R.A. et Beddor, P.S. 1991. Coarticulation and the perception of nasality. Proceedings
12th ICPhS, Aix-en-Provence, vol.5, 38-41.
Krakow, R.A. et Huffman, M.K. 1993. Instruments and techniques for investigating nasalization
and velopharyngeal function in the laboratory : an introduction. Phonetics and Phonology,
vol.5, Nasals, Nasalization and the velum, M.K. Huffman et R.A. Krakow (eds), San
Diego, Academic Press, 147-167.
Kuhl, P.K., Williams, K.A., Lacerda, F., Stevens, K.N., Lindblom, B. 1992. Linguistic experience
alters phonetic perception in infants by 6 months of age, Science, 255, 606-608.
Kurowski, K. et Blumstein, S. 1984. Perceptual integration of the murmur and formant
transitions for place of articulation in nasal consonants. Journal of the Acoustical Society
of America, 76,2, 383-390.
Kurowski, K. et Blumstein, S. 1987. Acoustic properties for place of articulation in nasal
consonants. Journal of the Acoustical Society of America, 81, 1917-1927.
Kurowski, K. et Blumstein, S. 1993. Acoustic properties for the perception of nasal consonants.
Phonetics and Phonology, vol.5, Nasals, Nasalization and the velum, M.K. Huffman et
R.A. Krakow (eds), San Diego, Academic Press, 197-222.
Labov, W., Yaeger, M. et Steiner, R., 1972. A quantitative study of sound change in progress.
Philadelphia : The US Regional Survey.
Ladefoged, P. 1982. A Course in Phonetics. New York : Harcourt Brace Jovanovich.
Ladefoged, P. et Maddieson, I. 1996. The Sounds of the World’s Languages. Oxford, Blackwell.
Lefebvre, A. 1985. Les voyelles moyennes. Phonologie d’enfants de la région lilloise. La
phonologie de l’enfant français de six ans. Variétés régionales, A-M. Houdebine (ed.),
Hambourg, Buske, vol.2, 37-65.
Liberman, A.M. et Mattingly, I.G. 1985. The motor theory of speech perception revised.
Cognition, 21, 1-36.
Liljencrants, J. et Lindblom, B. 1972. Numerical simulations of vowel quality systems : the role
of perceptual contrast. Language, 48, 839-862.
280
Lindblom, B. 1983. Economy of speech gestures. The Production of Speech, P. MacNeilage
(ed.), Berlin, Springer, 217-246.
Lindblom, B. 1990. Explaining phonetic variation : A sketch of the H&H theory. Speech
Production and speech modeling, W.J. Hardcastle et A. Marchal (eds), Dodrecht, Kluwer,
403-439.
Lindblom, B. MacNeilage, P.F. et Studdert-Kennedy, M. 1983. Self-organizing processes and
the explanation of phonological universals. Explanations of Linguistic Universals, B.
Butterworth, B. Comrie, et O. Dahl (eds), Mouton, The Hague, 181-203.
Lindblom, B. et Engstrand, O. 1989. In what sense is speech quantal? Journal of Phonetics, 17,
107-121.
Lindqvist, J. et Sundberg, J. 1976. Acoustic properties of the nasal tract. Phonetica 33,3, 161168.
Lonchamp, F. 1979. Analyse acoustique des voyelles nasales françaises, Verbum : revue de
linguistique de l’université de Nancy II, II, 9-54.
Lotto, A.J., Kluender K.R. et Holt, L.L. 1997. Perceptual compensation for coarticulation by
Japanese quail. Journal of the Acoustical Society of America, 102, 1134-1140.
Lotto, A.J. et Kluender, K.R. 1998. General contrast effects in speech perception : Effect of
preceding liquid on stop consonant identification. Perception and Psychophysics, 60, 602619.
Lubker, J.F. 1968. An electromyographic-cinefluorographic investigation of velar function during
normal speech production. Cleft Palate Journal, 5, 1-18.
Macmillan, N.A. et Creelman, C.D., 1991. Detection theory : A user’s guide. New York,
Cambridge University Press.
Macmillan, N.A., Kingston, J., Thorburn, R., Dickey, A.W. et Bartels C. 1999. Integrality of
nasalization and F1. II Basic sensivity and phonetic labeling measure dinstinct sensory
and decision-rule interactions, Journal of the Acoustical Society of America, 106,5, 29132932.
Maeda, S. 1982. A digital simulation method of the vocal-tract system. Speech Communication,
1, 199-229.
Maeda, S. 1993. Acoustics of vowel nasalization and articulatory shifts in French nasal vowels.
Phonetics and Phonology, vol.5, Nasals, Nasalization and the velum, M.K. Huffman et
R.A. Krakow (eds), San Diego, Academic Press, 147-167.
Manuel, S. Y., 1990. The role of contrast in limiting vowel-to-vowel coarticulation in different
languages. Journal of the Acoustical Society of America. 88,3, 1286-1298.
Maturi 1991. The perception of consonantal nasality in Italian: conditioning factors. Proceedings
12th ICPhSc, Aix-en-Provence, vol. 5, 50-53.
Maurais, J. 1993. Etat de la recherche sur la description de la francophonie au Québec. Le
français dans l’espace francophone : description linguistique et sociolinguistique de la
francophonie, Paris, Champion, vol.1, 79-93.
Moll, K. 1962. Velopharyngeal closure in vowels. Journal of Speech and Hearing Research,
5,1, 30-37.
Moll, K. et Shriner, T.H. 1967. Preliminary investigation of a new concept of velar activity during
speech. Cleft Palate Journal, 4,1, 58-69.
Muller, E. et Brown, W.S. 1980. Variations in the supraglottal waveform and their articulatory
interpretation, Speech and Language, 4, 317-389.
281
Nearey, T. M. 1995. A double-weak view of trading relations. Papers in Laboratory phonology
IV : Phonology and Phonetic Evidence, B. Connell et A. Arvanti (eds), Cambridge,
Cambridge University Press, 28-39.
Nève F.-X., 1984. Auquin doute : un parfum brun s’en va... : la disparition du phonème /¡/ en
français contemporain. Le Français Moderne, 52, 4, 98-219.
Ohala, J.J. 1971. Monitoring soft palate movements in speech. Project on Linguistic Analysis,
University of California, Berkeley, 2, 13-27.
Ohala, J.J. 1975. Phonetic explanations for nasal sound patterns. Nasa½lfest. 289-316.
Ohala, J.J. 1981a. Articulatory constraints on the cognitive representation of speech. The
cognitive representation of speech, T. Myers, J. Laver et J. Anderson (eds), Amsterdam,
North-Holland, 111-122.
Ohala, J.J., 1981b. The listener as a source of sound change, Papers from a Parasession on
Language and Behavior, Chicago Linguistics Society, 178-203.
Ohala, J.J. 1983. The origin of sound patterns in vocal tract constraints. The production of
speech, P.F. MacNeilage (ed.), New York, Springer Verlag, 189-216.
Ohala, J.J., 1986. Phonological evidence for top-down processing in speech perception.
Invariance and variability in speech processes, J.S. Perkell et D.H. Klatt (eds), Hillsdale,
Lawrence Erlbaum, 386-397.
Ohala, J.J. 1990. There is no interface between phonology and phonetics : a personal view.
Journal of Phonetics,18, 153-171.
Ohala, J. J. et Busà, M. G. 1995. Nasal loss before voiceless fricatives: a perceptually-based
sound change. Rivista di Linguistica 7, Special issue on The Phonetic basis of Sound
Change, C.A. Fowler (ed.), 125-144.
Ohala, J. J. et Jaeger, J. J. 1986. (eds) Experimental phonology. New York, Academic Press.
Pierrehumbert, J.B. 1980. The phonology and phonetics of English intonation. Thèse de
doctorat non publiée, MIT.
Pierrehumbert, J.B. 1990. Phonological and phonetic representation. Journal of Phonetics, 18,
375-394.
Pierrehumbert, J.B. et Beckman, M. 1988. Japanese tone structure. Cambridge : MIT Press.
Repp, B.H., 1982. Phonetic trading relations and context effects : New experimental evidence
for a speech mode of perception. Psychological Bulletin, 2, 81-110.
Rochet, A.P. et Rochet, B.L. 1991. The effect of vowel height on patterns of assimilation
nasality in French and English. Proceedings 12th ICPhSc, Aix-en-Provence, vol.3, 54-57.
Ruhlen, M. 1975. Patterning of nasal vowels. Nasa½lfest, 333-351.
Ruhlen, M. 1978. Nasal vowels. Universals of Human Language, J.H. Greenberg, C.A.
Ferguson et E.A. Moravcsik (eds), Standford University Press, vol. 2, 203-241.
Solé, M.J. 1992. Phonetic and phonological processes : the case of nasalization. Language and
Speech, 35, 1, 29-43.
Solé, M.J. 1995. Spatio-Temporal patterns of velopharyngeal action in phonetic and
phonological nasalization, Language and Speech, 38, 1, 1-23.
Solé, M.J. et Ohala, J.J. 1991. Differentiating between phonetic and phonological processes :
the case of nasalization. Proceedings 12th ICPhS, Aix-en-Provence, vol.3, 110-113.
Stevens, K. 1998. Acoustic phonetics, Cambridge, MIT Press.
282
Straka, G. 1979. Remarques sur les voyelles nasales, leur origine et leur évolution en français.
Les sons et les mots, Choix d’études de phonétique et de linguistique, Paris, Klincksieck,
501-531.
Sussman, H.M., Mccaffrey, H.A. et Matthews, S.A. 1991. An investigation of locus equations as
a source of relational invariance for stop place categorization. Journal of the Acoustical
Society of America, 90, 1309-1325.
Sussman, H.M. et Shore, J. 1996. Locus equations as phonetic descriptors of consonantal
place of articulation, Perception and Psychophysics, 58, 6, 936-946.
Takeuchi S., Kasuya, H. et Kido, K. 1975. On the acoustic correlate of nasality. Journal of the
Acoustical Society of Japan 31, 298-309.
Teston, B. et Galindo, B. 1990. Physiologia : un logiciel d'
analyse des paramètres
physiologiques de la parole. Travaux de l'
Institut de Phonétique d'
Aix, 13, 197-217.
Trubetzkoy, N.S. 1939. Grundzüge der Phonologie, Travaux du Cercle Linguistique de Prague,
7, [traduction anglaise : C. Baltaxe (1969), Principles of Phonology. Berkeley, University
of California Press].
Ushijima, T. et Hirose, H. 1974. Electromyographic study of the velum during speech. Journal
of Phonetics 2,4, 315-326.
Vallée, N. 1994. Systèmes vocaliques : de la typologie aux prédictions. Thèse de doctorat non
publiée, ICP Grenoble.
Vihman, M.M. 1996. Phonological development. The Origins of Language in the Child,
Cambridge, Blackwell.
Walter, H. 1994. Variétés actuelles des voyelles nasales du français. Diachronie et variation
linguistique R. Van Deyck (ed.), Gent, Communication et cognition, (coll. Studies in
language), 223-236.
Werker, J.F., Gilbert, J.H.V., Humphrey, K. et Tees, R.C. 1981. Developmental aspects of
cross-language speech perception. Child Development, 52, 349-355.
Werker, J.F. et Polka, L. 1993, Developmental changes in speech perception : New challenges
and new directions, Journal of Phonetics, 21, 83-101.
Wright, J.T. 1986. The Behavior of Nasalized Vowels in the Perceptual Vowel Space.
Experimental phonology. J.J. Ohala et J.J. Jaeger (eds), New York, Academic Press, 4567.
Young, F.W. et Hamer, R.M., 1979. Multi-dimensional scaling : history, theory and applications.
Hillsdale, Erlbaum.
Young, F.W. et Harris, D.F. 1990. Multidimensional Scaling : Procedure ALSCAL, SPSS Base
System User’s Guide, 396-472.
Zerling, J.-P. 1984. Phénomènes de nasalité et de nasalisation vocaliques : Etude
cinéradiographique pour deux locuteurs. Travaux de l’Institut de Phonétique de
Strasbourg, 16, 241-266.
283
Table des Matières
INTRODUCTION........................................................................................................ - 3 1.
Choix du sujet .................................................................................................................. 4
2.
Contrôle et relations entre phonétique et phonologie ...................................................... 4
3.
Contrôle et relations entre production et perception de la parole .................................... 8
4.
La nasalité vocalique...................................................................................................... 10
4.1.
Voyelles nasales et relations entre phonétique et phonologie ................................... 10
4.2.
Voyelles nasales et relations entre production et perception de la parole ................. 13
5.
Aperçu de la thèse ......................................................................................................... 15
PREMIERE PARTIE : PRODUCTION DES VOYELLES NASALES DU FRANÇAIS . 17
Etude aérodynamique ...................................................................................................................... 18
1.
Matériel et Méthode ....................................................................................................... 19
1.1.
Sujets .......................................................................................................................... 19
1.2.
Corpus ........................................................................................................................ 19
1.3.
Matériel ....................................................................................................................... 22
1.4.
Logiciel........................................................................................................................ 23
1.5.
Les données ............................................................................................................... 23
2.
Résultats : données quantifiées ..................................................................................... 23
2.1.
Paramètres d’analyses ............................................................................................... 23
2.2.
Tendances générales ................................................................................................. 25
2.3.
Voyelles ...................................................................................................................... 27
a.
Type de voyelle.......................................................................................................... 29
b.
Contexte phonologique.............................................................................................. 30
2.4.
Consonnes.................................................................................................................. 32
2.5.
Voyelles nasales......................................................................................................... 34
2.6.
Consonnes nasales .................................................................................................... 35
2.7.
Résumé des résultats ................................................................................................. 36
3.
Résultats : analyse des tracés aérodynamiques ........................................................... 36
3.1.
Items cv ...................................................................................................................... 36
a.
C[occlusive] V ................................................................................................................... 36
b.
C[fricative] V
c.
C[liquide] V ...................................................................................................................... 41
3.2.
Items NV ...................................................................................................................... 44
3.3.
Items VN ...................................................................................................................... 48
3.4.
Items NVN .................................................................................................................... 51
.................................................................................................................... 38
285
3.5.
4.
Items CVC et CV.CV ...................................................................................................... 54
Discussion ...................................................................................................................... 54
Etude articulatoire ............................................................................................................................ 64
1.
Matériel et méthode ....................................................................................................... 65
1.1.
Sujets .......................................................................................................................... 65
1.2.
Corpus ........................................................................................................................ 65
1.3.
Matériel et technique .................................................................................................. 66
1.4.
Traitement des données ............................................................................................. 69
2.
Résultats ........................................................................................................................ 70
2.1.
Voyelles nasales vs. voyelles orales correspondantes .............................................. 70
a.
/D/ vs. /$/..................................................................................................................... 70
b.
/(/ vs. /(/ ..................................................................................................................... 71
c.
/o/ vs. /o/ ..................................................................................................................... 71
d.
/¡/ vs. /¡/................................................................................................................... 76
2.2.
Les quatre voyelles nasales du français .................................................................... 76
a.
La position du voile. ................................................................................................... 76
b.
Le système des voyelles nasales du français. .......................................................... 76
2.3.
Voyelles orales et nasalité.......................................................................................... 77
a.
Nasalité contextuelle.................................................................................................. 78
b.
Position intrinsèque du voile pour les voyelles orales ............................................... 81
3.
Discussion ...................................................................................................................... 83
3.1.
Résultat 1 : voyelles nasales vs. voyelles orales correspondantes ........................... 84
3.2.
Résultat 2 : position du voile pour les voyelles nasales ............................................. 86
3.3.
Résultat 3 : position du voile pour les voyelles orales................................................ 87
a.
Nasalité contextuelle.................................................................................................. 87
b.
Position intrinsèque du voile du palais ...................................................................... 89
c.
Le cas des voyelles fermées ..................................................................................... 90
Etude acoustique .............................................................................................................................. 92
1.
Introduction .................................................................................................................... 93
2.
Matériel et méthode ....................................................................................................... 96
2.1.
Sujets .......................................................................................................................... 96
2.2.
Corpus ........................................................................................................................ 96
2.3.
Enregistrement et traitement du signal....................................................................... 96
2.4.
Données acoustiques ................................................................................................. 96
3.
Oralité, nasalité phonétique et nasalité phonologique ................................................... 99
3.1.
Bandes d’énergie........................................................................................................ 99
286
3.2.
Orales, nasalisées et nasales correspondantes....................................................... 101
a.
/D/, [D], /$/ ................................................................................................................. 101
b.
/(/, [(], /(/.................................................................................................................. 104
c.
/¡/, [¡], /¡/............................................................................................................... 107
d.
/o/, [o], /o/.................................................................................................................. 110
3.3.
Analyse discriminante............................................................................................... 113
a.
Principe général....................................................................................................... 113
b.
Méthode ................................................................................................................... 113
c.
Redondance de l’information ................................................................................... 114
d.
Nasalité phonétique et nasalité phonologique......................................................... 115
3.4.
Résumé des résultats ............................................................................................... 117
4.
Dynamique des propriétés acoustiques de la nasalité en français.............................. 117
4.1.
Nasalité phonétique vs. nasalité phonologique ........................................................ 117
4.2.
Nasalité contextuelle vs. nasalité phonologique....................................................... 123
5.
Discussion .................................................................................................................... 127
5.1.
Effets acoustiques de l’abaissement du voile du palais ........................................... 127
5.2.
Propriétés acoustiques des voyelles nasales du français ........................................ 130
Discussion : Production des voyelles nasales du français ....................................................... 133
DEUXIEME PARTIE : PERCEPTION DES VOYELLES NASALES DU FRANÇAIS 141
Introduction et méthodologie générale ........................................................................................ 142
1.
Questions de recherche ............................................................................................... 143
2.
Paradigmes expérimentaux ......................................................................................... 145
2.1.
Identification.............................................................................................................. 145
2.2.
Discrimination ........................................................................................................... 148
3.
Stimuli........................................................................................................................... 149
4.
Expérience pilote.......................................................................................................... 154
4.1.
Matériel et méthode .................................................................................................. 155
4.2.
Résultats................................................................................................................... 157
4.3.
Conclusions .............................................................................................................. 161
5.
Déroulement des expériences perceptuelles............................................................... 163
Identification.................................................................................................................................... 166
1.
Matériel et méthode ..................................................................................................... 167
2.
Résultats : Paradigme ID1 ........................................................................................... 173
2.1.
Validité ...................................................................................................................... 176
287
2.2.
Primauté ................................................................................................................... 176
a.
Continuums (/( ........................................................................................................ 179
b.
Continuums D/$ ........................................................................................................ 182
c.
Continuums o/o et o/o2 ............................................................................................. 182
2.3.
Dimensions complémentaires .................................................................................. 184
a.
Items CVC vs. NVC ................................................................................................. 184
b.
« Longues » vs. « Brèves » ..................................................................................... 189
c.
« Dyn I » vs. « Dyn II »............................................................................................. 189
2.4.
Paradigme expérimental ID2 .................................................................................... 190
3.
Discussion .................................................................................................................... 202
Discrimination ................................................................................................................................. 207
1.
Matériel et méthode ..................................................................................................... 208
2.
Résultats ...................................................................................................................... 213
a.
Continuums D/$ ........................................................................................................ 230
b.
Continuums (/( ........................................................................................................ 230
c.
Continuums o/o et o/o2 ............................................................................................. 231
3.
Discussion .................................................................................................................... 232
Auditeurs anglophones.................................................................................................................. 236
1.
Questions de recherche ............................................................................................... 237
2.
Matériel et méthode ..................................................................................................... 238
3.
Résultats : expériences d’identification........................................................................ 239
4.
Résultats : expériences de discrimination.................................................................... 246
5.
Discussion .................................................................................................................... 252
5.1.
Validité. ..................................................................................................................... 252
5.2.
Influence du contexte ............................................................................................... 253
5.3.
Interaction perceptuelle des deux dimensions ......................................................... 254
DISCUSSION GÉNÉRALE ........................................................................................ 256
1.
Nasalité vocalique : enjeux scientifiques et problématique générale .......................... 257
2.
La nasalité vocalique en français : résultats obtenus au cours de ce travail............... 260
2.1.
Production de la parole............................................................................................. 260
2.2.
Perception de la parole............................................................................................. 263
3.
Une vision unifiée au sein d’une phonétique contrôlée ............................................... 265
3.1.
Relations entre phonétique et phonologie ................................................................ 266
3.2.
Relations entre production et perception.................................................................. 269
288
CONCLUSION ........................................................................................................... 274
BIBLIOGRAPHIE....................................................................................................... 276
TABLES DES MATIERES ......................................................................................... 284
289
View publication stats