Academia.eduAcademia.edu

Contrôle et connaissance phonétique: les voyelles nasales du français

2002

Université Libre de Bruxelles Faculté de Philosophie et Lettres Ecole Doctorale Théorie du langage et de l’esprit Laboratoire de Phonologie Contrôle et connaissance phonétique : Les voyelles nasales du français Véronique Delvaux Dissertation présentée en vue de l’obtention du grade de Docteur en Linguistique, préparée sous la direction de Didier Demolin. Année académique 2002-2003 Remerciements Je voudrais témoigner ici ma reconnaissance à tous ceux, et ils sont nombreux, qui m’ont guidée et soutenue tout au long de ces quatre années. Sans vous, cette thèse n’aurait jamais pu voir le jour. Tout d’abord, je pense aux professeurs qui m’ont initiée à la phonétique et à la phonologie. Merci à Georges Lavis, Micheline Stasse et Marie-Guy Boutier, de l’Université de Liège, qui ont su faire naître une vocation. Merci à François-Xavier Nève de Mévergnies, qui a dirigé mon mémoire de licence, déjà consacré aux voyelles nasales du français, et qui a guidé mes premiers pas dans la recherche. J’ai eu la chance de bénéficier d’un encadrement exceptionnel pour mener à bien ce doctorat. Je remercie mon directeur de thèse, Didier Demolin. Comment trouver les mots pour remercier Didier Demolin, Alain Soquet et John Kingston. Ils m’ont tout appris. Je ne trouve pas les mots pour exprimer ma reconnaissance à Merci à tous les membres, passés ou présents, du Laboratoire de Phonologie de l’ULB : Merci à Hubert Ngonga, Moges Yigezu, Gordon Ramsay, Hans Van de Velde, pour les discussions scientifiques et les moments échangés. Merci à Stéphanie, Marjorie XX, Yann, Mariana et Masumi. Merci à Caroline Corneau avec qui j’ai partagé mes premières années de recherche. Je remercie Thierry Metens, qui a supervisé les sessions expérimentales d’imagerie par résonance magnétique, à l’hôpital Erasme. Merci encore à John Kingston pour les expériences perceptuelles effectuées auprès des auditeurs anglophones. Que tous les participants aux expériences, de production et de perception, francophones et anglophones, soient également remerciés. J’espère que ce travail sera à la hauteur des efforts qu’ils ont consenti. Merci aux membres de l’ILVP à côté de qui j’ai travaillé pendant plusieurs années : Paul Jospa, Jean Schoentgen, Fabrizio Bucella, Jean-Marie Ramelot, Danou, Joëlle, Martine. Merci en particulier à Renaud Beeckmans, pour son avis toujours éclairé sur les statistiques. Merci aux membres de l’Ecole Doctorale Théorie du Langage et de l’Esprit, et en particulier aux membres du Service de Linguistique Générale, Emmanuelle Damblon, Fabienne Martin, Sylvie Delvenne. Un tout grand merci à tous ceux, famille et amis, qui m’ont soutenue et aidée tout au long de ces années. C’est grâce à eux que j’ai pu tenir le coup. Merci à Denis, pour tout. Introduction 1. Choix du sujet Le cadre théorique dans lequel s’inscrit ce travail est celui de l’hypothèse du contrôle et de la connaissance phonétique (Kingston et Diehl, 1994). Le choix s’est porté sur cette théorie parce qu’elle permet de penser à la fois les relations entre phonétique et phonologie, et les relations entre production et perception de la parole. Ces deux problématiques sont centrales dans l’étude de la parole et des langues naturelles. Nous avons choisi d’aborder ces questions en étudiant un trait phonologique en particulier, afin de pouvoir le traiter au sein du paradigme de la phonologie expérimentale (Ohala et Jaeger, 1986) : le trait de nasalité pour les voyelles du français. La nasalité est liée à de nombreuses régularités observées dans les systèmes phonologiques des langues, et qui demandent à être expliquées. De plus, les relations entre propriétés articulatoires, acoustiques et auditives sont particulièrement complexes pour la nasalité vocalique, et nécessitent une approche intégrée des phénomènes de production et de perception de la parole. Les sections suivantes sont consacrées à l’hypothèse du contrôle, et à la manière dont cette hypothèse permet d’envisager les relations entre phonétique et phonologie (section 2), ainsi que les relations entre perception et production de la parole (section 3). La section 4 inscrit dans ce cadre les enjeux spécifiques liés à la nasalité vocalique. Enfin, la section 5 clôture cette introduction par un aperçu général de la thèse. 2. Contrôle et relations entre phonétique et phonologie Depuis l’avènement de la phonologie structuraliste, phonétique et phonologie sont souvent considérées comme deux disciplines scientifiques séparées, qui traitent éventuellement d’un même objet, les sons des langues, mais selon un point de vue et avec des méthodes profondément différents. Ainsi, Troubetzkoy (1939) distingue : (...) the study of sound pertaining to the act of speech (phonetics) which is concerned with concrete physical phenomena, and would have to use the methods of the natural sciences, while the study of sound pertaining to the system of language (phonology) would use only the methods of linguistics, or the humanities, or the social sciences (p.6). Même si l’on s’accorde généralement aujourd’hui sur la nécessité d’une coopération entre les deux disciplines, nombreux sont ceux qui continuent de penser que leurs objectifs respectifs sont foncièrement distincts (p.ex. Anderson, 1985). La phonologie est considérée comme l’étude des sons des langues du point de vue de leur structure logique et fonctionnelle, alors que la phonétique étudie la façon dont les sons de la parole sont produits et perçus. Pierrehumbert (1990) distingue nettement entre les représentations phonologiques, considérées comme qualitatives, cognitives et relativement accessibles à 4 l’introspection, et les représentations phonétiques, qui seraient quant à elles quantitatives, non cognitives et relativement inaccessibles à l’introspection. Selon une vue peu éloignée de celle défendue par Chomsky et Halle (1968), le domaine privilégié de la phonologie est donc défini par Pierrehumbert (1990) comme celui des représentations mentales et cognitives, alors que la phonétique, exclue de la grammaire, inclut les propriétés des sons relevant de l’univers physique. En effet, les termes « phonétique » et « phonologie » renvoient également à deux modules distincts de la fonction de langage. Dans l’acte de parole, les post-générativistes considèrent généralement que le composant phonétique a pour fonction d’implémenter les représentations fournies par le composant phonologique. Cette exécution est vue comme une opération flexible mais automatique : une valeur donnée pour un trait phonologique peut être réalisée phonétiquement de différentes façons suite à l’action de plusieurs contraintes physiques (aérodynamiques, articulatoires, acoustiques), mais ces contraintes suffisent à prédire l’entièreté de la variabilité. Kingston et Diehl (1994) proposent un modèle différent d’implémentation phonétique. Une phonétique automatique ne peut pas rendre compte, selon eux, de la totalité de la variabilité observée. En particulier, diverses langues implémentent différemment un même contraste, ou un même ensemble de variantes contextuelles, sans qu’on puisse imputer ces spécificités à l’action de contraintes phonétiques universelles (Keating, 1985, 1990). Plutôt que d’inclure les particularités propres à ces langues dans leurs phonologies respectives, Kingston et Diehl font l’hypothèse de la connaissance phonétique. Pour ces auteurs, les contraintes phonétiques ne permettent pas de prédire comment un trait sera réalisé phonétiquement dans un cas donné. Les contraintes ne font que limiter le comportement phonétique des locuteurs. A l’intérieur du cadre défini par les contraintes opère un mécanisme de contrôle qui s’appuie sur la connaissance phonétique. La connaissance phonétique est une connaissance linguistique implicite, qui est à la fois une connaissance des représentations phonologiques à implémenter et une connaissance fine et étendue de l’ensemble des contraintes phonétiques agissant sur la production et la perception des sons de la parole. Le locuteur contrôle activement ses articulations afin d’optimiser son comportement phonétique en minimisant l’effort articulatoire et en maximalisant la distinctivité auditive, selon des principes comparables à ceux proposés par Lindblom (1983, 1990). Le mécanisme de contrôle est défini comme un mécanisme cognitif actif, quoique survenant en-dessous du niveau de l’attention consciente. L’implémentation phonétique contrôlée donne une impression d’automaticité parce qu’elle a fait l’objet d’un apprentissage intensif. Les stratégies individuelles de contrôle débouchent, dans une communauté de parole donnée, sur une réorganisation des articulations en catégories phonétiques distinctes, les allophones, et non sur une simple variation continue le long de certaines dimensions phonétiques. Ainsi, Kingston et Diehl remplacent un modèle dans 5 lequel la phonétique implémente automatiquement les représentations phonologiques, par un modèle où les réalisations phonétiques sont activement contrôlées par le locuteur sur la base de sa connaissance phonétique. Ce modèle autorise plus de variabilité à l’intérieur du cadre défini par les contraintes phonétiques, mais cette variabilité est limitée par les besoins liés à l’efficacité de la communication, soit par l’interaction des besoins du locuteur et de l’auditeur. Le mécanisme de contrôle proposé par Kingston et Diehl assure en quelque sorte l’interface entre phonétique et phonologie. En effet, de nombreux linguistes ont montré qu’une séparation totale des domaines de la phonétique et de la phonologie était une position peu souhaitable d’un point de vue empirique, voire difficile à tenir d’un point de vue théorique (Browman et Goldstein, 1990 ; Diehl, 1991). A la différence de John Ohala (1990), qui plaide en faveur de leur intégration complète, Kingston et Diehl considèrent la phonétique et la phonologie comme deux modules séparés, quoique nécessitant une interface qui assure leur bon fonctionnement. L’intérêt de cette position est qu’elle débouche sur une proposition concrète quant au mécanisme qui permet de gérer la réalisation phonétique des représentations phonologiques. Rompant avec les dichotomies nettes mises en exergue par Pierrehumbert (1990, voir ci-dessus), l’hypothèse du contrôle introduit en dehors de la phonologie un mécanisme de nature cognitive, qui s’appuie sur une connaissance en phonétique, et dont le produit est d’ordre « qualitatif », c’est-à-dire qu’il est constitué de catégories discrètes. Il s’agit d’une hypothèse forte qui, pour être validée, demande à être testée expérimentalement sous différents aspects. Du point de vue des sciences cognitives, par exemple, il faudrait préciser les modes de fonctionnement caractéristiques de ce mécanisme de contrôle (actif mais non conscient), et déterminer quels types de conduites pourrait être gérées par des processus similaires1, sans parler d’en spécifier les éventuels fondements neurologiques. Du point de vue linguistique, qui est plus précisément le nôtre, l’existence du contrôle est inférée à partir de l’analyse de la variation phonétique dans la réalisation des contrastes. En particulier, le problème de la covariation des articulations et de leurs conséquences acoustiques est central si l’on souhaite confronter les points de vue d’une « phonétique automatique » et d’une « phonétique contrôlée ». Lorsque diverses articulations covarient dans la réalisation phonétique d’une spécification phonologique, on cherche à déterminer si cette covariation est le produit automatique de l’action des différentes contraintes phonétiques (coarticulation entre segments, coexistence de plusieurs traits dans un même segment, dépendance physique entre articulateurs, contraintes aérodynamiques, etc.) ou bien si il y a la trace d’une réorganisation contrôlée des 1 Kingston et Diehl (1994, p.420) proposent par exemple une analogie avec la conduite d’une voiture. 6 articulations en vue de favoriser une meilleure production et/ou une meilleure perception des sons. Dans cette dernière hypothèse, les locuteurs sont à même de modifier leur comportement phonétique afin d’anticiper les effets des contraintes phonétiques sur la production de certains sons2. Ils peuvent également faire covarier diverses articulations parce qu’elles rehaussent mutuellement leurs effets acoustiques, et assurer ainsi la robustesse des impressions auditives (auditory enhancement theory, Diehl et al. 1990). Ce type d’analyse de la variation phonétique a été réalisée par Kingston et Diehl (1994) pour le trait de voisement, et nous nous proposons de faire de même dans ce travail en ce qui concerne le trait de nasalité pour les voyelles du français (voir 4.1 ci-dessous). Une caractéristique importante de la connaissance phonétique est qu’il s’agit à la fois d’une connaissance à propos des représentations phonologiques, et d’une connaissance des contraintes phonétiques. On envisage ici la problématique des relations entre phonétique et phonologie sous l’angle de la réciprocité. De même, Browman et Goldstein (1990) remarquent que les relations entre phonologie et phonétique ne sont pas de même nature que celles qui unissent un concept et ses instanciations dans le monde réel (comme l’a proposé Pierrehumbert, 1990), parce que le concept ne peut influencer le comportement de ses instanciations, alors que la phonologie affecte les réalisations phonétiques. Browman et Goldstein proposent une vision alternative, où la phonologie et la phonétique sont considérées respectivement comme la macro-structure et la microstructure d’un système biologique complexe, dont les relations internes sont de multiples réciprocités ou influences mutuelles. Ainsi, loin d’être non pertinente linguistiquement, la phonétique informe la phonologie au sens propre du terme, c’est-à-dire que les propriétés articulatoires, acoustiques et auditives de l’appareil vocal humain déterminent (ou du moins limitent) les propriétés qualitatives sur lesquelles les systèmes phonologiques fondent leurs opérations de contraste et de combinaison. On peut citer les contraintes liées au fonctionnement de l’appareil vocal énoncées par Ohala (1983), les contraintes perceptuelles mises en avant par Diehl et al. (2001), ou encore la théorie de la dispersion adaptative énoncée par Lindblom et ses collègues pour rendre compte de la structuration des systèmes vocaliques (Lindblom et al., 1983 ; Lindblom et Engstrand, 1989). D’autres études mettent en lumière l’importance des influences du système phonologique sur les réalisations phonétiques. Au-delà des représentations phonologiques à implémenter dans un cas particulier, qui par définition président à la réalisation phonétique, la phonologie en tant que système d’unités contrastives informe la phonétique, en ce sens que les relations paradigmatiques qu’entretiennent les unités du système agissent sur la façon dont elles sont réalisées phonétiquement. Ladefoged (1982) donne 2 Cf. la notion de « feed forward » proposée par Ohala (1981) et reprise par Kingston et Diehl (1994) comme un précurseur à leur notion de contrôle phonétique. 7 plusieurs exemples de langues qui diffèrent dans certains détails de production en fonction de la présence ou de l’absence de certains contrastes dans leur inventaire phonologique. Tant les contraintes imposées par les phénomènes phonétiques sur les systèmes phonologiques, que celles imposées par la phonologie sur les réalisations phonétiques peuvent être considérées comme limitant (encadrant) les spécificités phonétiques et phonologiques d’une communauté linguistique donnée sans permettre pour autant de les prédire au sens mathématique du terme. L’hypothèse du contrôle proposée par Kingston et Diehl nous amène donc à modéliser le comportement phonétique des locuteurs comme une stratégie adaptative visant à rencontrer les besoins des acteurs impliqués dans la communication (locuteur et auditeur), et agissant dans le cadre délimité par les contraintes physiques d’une part, et par les contraintes imposées par le système phonologique de la langue d’autre part. 3. Contrôle et relations entre production et perception de la parole L’hypothèse du contrôle phonétique est une théorie à propos des relations entre production et perception de la parole, dans la mesure où elle pose que le locuteur contrôle ses articulations afin d’assurer entre autres une bonne perception des sons par l’auditeur. Le processus de production de la parole est donc orienté vers la perception autant que vers la production elle-même. Le locuteur est présenté comme prenant une part particulièrement active dans le processus de communication, alors que l’auditeur reste plutôt passif en première analyse. En effet, si la covariation des articulations est une stratégie contrôlée du point de vue du locuteur, du point de vue de l’auditeur l’intégration des diverses propriétés acoustiques en une impression auditive renforcée est considérée par Kingston et Diehl comme un mécanisme automatique qui se situe à un stade précoce de la perception, au niveau du traitement auditif du signal. Le propos de Kingston et Diehl ne s’étend donc pas explicitement jusqu’à des processus perceptuels spécifiques à la parole, tels que ceux proposés par Ohala (1981, 1986) pour rendre compte des changements phonétiques (soustraction du « bruit » présent dans le signal mais non voulu par le locuteur, attribution des effets de coarticulation au phonème qui en est la source, réinterprétation des informations présentes dans le signal etc.). On pourrait pourtant envisager ces processus comme autant d’exemples de l’utilisation de la part de l’auditeur de sa connaissance phonétique, pourvu qu’elle soit définie comme une connaissance détaillée des aspects phonétiques de la parole ainsi que du système phonologique de la langue. La théorie de Kingston et Diehl peut être classée comme une « théorie auditive forte » (Nearey 1995), dans la mesure où elle suppose que la relation entre les traits et les 8 propriétés perceptuelles (ou « percepts ») est robuste et transparente3, tandis que la relation entre les traits et les gestes est plus indirecte et plus complexe. En un mot, les véritables objets de la production de la parole sont les percepts. Cette position peut être considérée comme l’opposé de la théorie motrice de la perception de la parole (Liberman et Mattingly, 1985), pour laquelle les objets de la perception sont les gestes. Que ce soit dans la théorie motrice ou dans la théorie auditive de la perception de la parole, il existe un déséquilibre au profit de l’un des deux agents de la communication. L’autre agent doit « travailler dur » pour adapter ses propres représentations. C’est la façon dont ces deux théories rendent compte de la problématique de l’invariance, qui provient du constat qu’il est toujours difficile, et souvent impossible, de déterminer une signature acoustique invariante pour les unités linguistiques discrètes (que ce soit les traits, les allophones, les phonèmes ou les syllabes). Les partisans de la théorie motrice pensent que les gestes sont invariants4, et que les auditeurs sont capables de traiter la variabilité acoustique afin d’extraire ces invariants du signal. Les partisans de la théorie auditive pensent que l’invariance se situe dans le domaine auditif, et que les locuteurs sont à même de produire des énoncés variables du point de vue acoustique mais équivalents du point de vue auditif. La problèmatique de l’invariance est centrale en phonétique et en phonologie car elle est liée à la catégorisation, habituellement envisagée comme l’opération qui consiste à extraire, voire à soustraire, de la variabilité du monde réel les propriétés invariantes qui signalent les catégories mentales correspondantes. La recherche d’invariants dans le signal lui-même est-elle pour autant la seule façon de parvenir à la catégorisation ? Par ailleurs, on peut se poser la question de savoir si la variabilité doit être nécessairement considérée comme du bruit brouillant le signal et donc masquant la véritable information, ou bien si elle peut être envisagée comme le lieu de l’information elle-même. En effet, le cerveau humain semble gérer la variabilité de façon particulièrement efficace, si l’on compare par exemple avec un ordinateur qui doit accomplir une tâche de reconnaissance de la parole. De plus, les catégories se construisent en ontogenèse en interaction avec la variabilité caractéristique du milieu, plutôt qu’en opposition à celle-ci (Werker et al. 1981, Jusczyk, 1992, 1993). Kingston (A paraître) a d’ailleurs montré qu’une certaine part de variation était nécessaire pour un bon apprentissage des contrastes phonologiques d’une langue étrangère. Une façon de concevoir la variabilité acoustique comme un avantage au lieu d’un handicap pour la perception de la parole est de considérer les éventuels « invariants 3 Les traits phonologiques sont considérés par Kingston et Diehl comme des primitives, et non comme des descripteurs. 4 C’est particulièrement le cas lorsque l’on envisage les gestes dans la perspective de la phonologie articulatoire (Browman et Goldstein, 1992), soit comme des unités physiques spécifiées dans le domaine articulatoire ainsi que comme des unités abstraites supportant le contraste phonologique. 9 relationnels » qui émergent de la variation : même si A est profondément différent de B, A et B pourront être catégorisés de la même façon pourvu que, au niveau de leurs composantes internes, a1 soit à a2 et a3 ce que b1 est à b2 et b3. C’est une information de cette nature qui est capturée par les équations de locus proposées par Sussman et ses collègues en tant que corrélats acoustiques du lieu d’articulation pour les consonnes obstruentes (Sussman et al. 1991, Sussman et Shore, 1996). Certains de ces invariants relationnels pourraient rendre compte du fait que les auditeurs n’ont pas de problème particulier à comprendre des locuteurs qui diffèrent par l’âge, le sexe, le timbre de la voix, etc. La normalisation n’est pas vue ici comme une étape précédant et profondément différente de la reconnaissance des mots, mais comme le fondement même de ce processus en général (Kuhl, 1997). Même s’ils sont les tenants d’une « théorie auditive forte » de la perception de la parole, Kingston et Diehl (1994) font avec l’hypothèse du contrôle une proposition qui considère la variation phonétique comme non prédictible et potentiellement porteuse d’information. Kingston et Diehl soutiennent qu’il y aura toujours une part de variation, dont on ne pourra pas rendre compte par l’action des contraintes phonétiques lors de l’implémentation des représentations phonologiques. A la suite de Lindblom (1990), ils insistent sur la notion de distinctivité (plutôt que d’invariance) des attributs phoniques supportant les contrastes phonologiques. En s’appuyant sur leur connaissance phonétique, les locuteurs adaptent leurs réalisations phonétiques aux besoins propres à la situation dans laquelle ils se trouvent : le mécanisme de contrôle a pour but de rencontrer à la fois les besoins liés à la production et ceux liés à la perception des messages, dans un système de communication biologiquement fondé. 4. La nasalité vocalique Nous envisageons dans cette section les problèmes spécifiques posés par la nasalité vocalique au regard des questions générales débattues dans les sections précédentes, en nous focalisant en particulier sur le cas du français. Pour la clarté de l’exposé, nous séparons les phénomènes liés aux deux problématiques identifiées plus haut, même si dans la pratique elles sont largement interconnectées. 4.1. Voyelles nasales et relations entre phonétique et phonologie Il existe un ensemble d’universaux (de type implicationnel) de la nasalité vocalique, c’est-à-dire de régularités dans les systèmes phonologiques des langues du monde en ce qui concerne les voyelles nasales. Tout d’abord, la nasalité constitue la première dimension phonétique ajoutée au plan F1/F2 pour accroître le nombre de contrastes phonologiques dans les systèmes vocaliques. Dans la base de données UPSID, 22,4% des langues 10 utilisent contrastivement la dimension de nasalité, contre 18,6% pour la dimension de quantité vocalique, et 3,7% pour toutes les autres dimensions phonétiques complémentaires, telles que l’aspiration, la pharyngalisation, etc. (Vallée, 1994). Ensuite, les inventaires phonologiques obéissent à un schéma commun en ce qui concerne les nasales : dans un système phonologique donné, les voyelles nasales sont aussi nombreuses ou moins nombreuses que les orales, mais jamais plus nombreuses (Ruhlen, 1975, 1978). Les nasales « manquantes » sont d’une part les voyelles d’aperture moyenne (Ruhlen, 1973), et d’autre part toutes les voyelles non périphériques (Vallée, 1994). On donne généralement une explication d’ordre phonétique à ces tendances systématiques dans la structuration des systèmes phonologiques. En effet, l’acoustique de la nasalité vocalique implique une interaction complexe entre les résonances et les antirésonances des cavités pharyngo-buccale et pharyngo-nasale, et aboutit à des modifications dans le plan F1/F2 des positions des voyelles lorsqu’elles sont nasalisées (Cf. Première partie, Chapitre 3). La tendance générale est à une distinctivité moindre des voyelles nasalisées entre elles. Wright (1986) observe que l’espace acoustique et perceptuel des voyelles nasalisées est resserré par rapport à celui des orales, en particulier dans la dimension d’aperture (liée à F1) mais aussi dans la dimension d’antériorité/postériorité (liée à F2). Sous l’effet de la nasalité, les voyelles fermées sont plus ouvertes, les ouvertes plus fermées, et les antérieures se centralisent. Cette réduction de la distance perceptuelle entre nasalisées entraîne la réduction du nombre de contrastes phonologiques possibles entre les éléments du système selon la théorie de la dispersion adaptative (Liljencrants et Lindblom, 1972, Lindblom et Engstrand, 1989). D’où la tendance à la disparition des voyelles nasales non extrêmes (voyelles périphériques d’aperture moyenne et voyelles centrales). Les voyelles nasales fournissent donc un cas bien documenté de l’influence des facteurs phonétiques (liés au fonctionnement de l’appareil vocal et auditif humain) sur la structuration des systèmes phonologiques, c’est-à-dire de l’influence des micro-structures sur la macro-structure du système selon la terminologie utilisée par Browman et Goldstein (1990). Le français constitue un cas assez particulier au regard de ces tendances générales, étant donné qu’à la suite de différentes fusions vocaliques (achevées il y a plusieurs siècles), l’inventaire phonologique du français ne compte pas aujourd’hui de voyelles nasales fermées alors qu’il y a au moins deux nasales d’aperture moyenne /(, o/ (Straka, 1979). Par ailleurs, la réalisation phonétique des voyelles nasales du français ne correspond pas à celle que l’on attend si l’on considère les tendances phonétiques décrites plus haut comme des contraintes strictes sur l’implémentation phonétique de ce trait phonologique (Cf. p. 127). Au point de vue de leur réalisation phonétique, en effet, les voyelles nasales sont caractérisées par une large variabilité chez les locuteurs d’une même langue. Ceci est vrai 11 en particulier de la nasalité en français, pour laquelle on peut distinguer au moins trois types de variation, la variation allophonique, la variation phonétique et la variation dialectale. L’analyse de ces trois types de variation doit permettre de confronter les différentes théories de l’implémentation phonétique présentées dans les sections précédentes : La variation allophonique désigne les différences dans la réalisation phonétique des voyelles nasales selon le contexte phonologique dans lequel elles apparaissent. Dans le cadre du présent travail, nous chercherons notamment à déterminer si la variation contextuelle peut être décrite comme une variation continue dans la dimension et la synchronisation temporelle des gestes (comme cela doit toujours être le cas selon Browman et Goldstein, 1992, et Fowler, 1990), ou bien si elle requiert le type de réorganisation en catégories phonétiques distinctes proposé par Kingston et Diehl (1994). La variation phonétique concerne les différences majeures qui existent en français entre les nasales et les orales dites correspondantes. Ces correspondances sont fondées en synchronie sur les alternances morpho-phonologiques du type /S(L]$S(L]DQ/, /Eo-EoQ/, /V(-V(Q/, /=¡-=¡Q/et en diachronie sur les orales qui ont été nasalisées autrefois et sont à l’origine des nasales actuelles5. Or, loin d’être la simple contrepartie nasalisée des voyelles orales, les nasales diffèrent profondément de celles-ci au niveau du timbre et de la quantité vocalique. L’implémentation phonétique de la nasalité en français implique la covariation d’un ensemble de propriétés phonétiques. L’abaissement du voile du palais est accompagné de divers ajustements articulatoires dont les effets acoustiques interagissent de façon complexe avec ceux liés au couplage nasal proprement dit (Cf. Première partie, Chapitre 2 et 3). Le cas du français permet donc de confronter les prédictions des modèles concurrents de phonétique automatique et de phonétique contrôlée. Il s’agira notamment pour nous de déterminer si la covariation de ces diverses articulations peut être analysée comme le résultat de l’action des différentes contraintes phonétiques, telles que les liens biomécaniques entre articulateurs par exemple (Moll, 1962). Dans le cas contraire, nous envisagerons l’hypothèse selon laquelle ces diverses articulations interviennent dans le contraste de nasalité parce qu’elles font partie d’une stratégie des locuteurs orientée vers une meilleure production et/ou une meilleure perception des voyelles nasales. 5 Strictement parlant, / / correspond plus exactement à la voyelle orale / /, qui chez les locuteurs francophones de Belgique a fusionné avec l’antérieure / /.   12 La variation dialectale est importante en ce qui concerne la réalisation phonétique des voyelles nasales du français. On peut distinguer trois grands groupes : le français septentrional (moitié nord de la France et Belgique francophone) sur lequel nous avons concentré notre étude expérimentale, le français méridional (moitié sud de la France) et le français canadien. Les réalisations méridionales (/Y/ = [Y 1])  posent la question de la coordination temporelle des gestes, et du statut des allophones : catégories ou non ? Les voyelles nasales canadiennes divergent des orales par un ensemble de modifications qui s’apparentent à un mouvement général vers la gauche du triangle vocalique (avec des nasales plus antérieures : Gendron, 1966, Maurais, 1993) qui semble à première vue être l’opposé du mouvement de postériorisation observé en français septentrional. On doit considérer ici l’influence éventuelle sur les réalisations phonétiques de facteurs de type systémique (p.ex. des facteurs de type « chain shifts» : Labov, Yaeger et Steiner, 1972), c’est-à-dire de l’ensemble des relations paradigmatiques qu’entretiennent les unités au sein du système vocalique. Selon la terminologie de Browman et Goldstein (1990), nous envisagerons donc l’influence de la macro-structure (phonologique) du système sur les micro-structures qui le constituent. 4.2. Voyelles nasales et relations entre production et perception de la parole La nasalité vocalique est un domaine d’investigation qui a été privilégié par les tenants des théories auditive et motrice de la perception de la parole. Deux questions en partie liées ont fait l’objet de nombreux débats : (1) la perception des voyelles nasales en contexte (et particulièrement en contexte phonologique nasal), et (2) la perception des voyelles lorsque la dimension phonétique d’aperture covarie avec celle de la nasalité. La question (1) s’articule autour d’un phénomène bien établi de compensation, en vertu duquel les auditeurs réduisent perceptuellement les effets acoustiques d’une source coarticulante, c’est-à-dire qu’ils attribuent (tout ou partie de) la nasalité d’une voyelle à l’influence des consonnes (nasales) environnantes (Kawasaki, 1986). Les opinions divergent quant au stade du processus de perception de la parole au cours duquel la compensation intervient, et quant à la nature profonde du phénomène. Les tenants d’une théorie auditive pensent que la compensation s’inscrit dans le cadre de processus auditifs généraux (non spécifiques à la parole, ni même à l’être humain : Lotto et al., 1997, Lotto et Kluender, 1998) impliquant une intégration précoce des attributs spectraux des segments nasalisés adjacents (Kingston et Diehl, 1995). Les partisans des gestes quant à eux, et en particulier ceux qui défendent la théorie de la perception directe de la parole (Fowler, 1986, 1996), considèrent que l’auditeur analyse directement le signal acoustique en termes de 13 sources articulatoires (gestes) et qu’il entend donc une voyelle nasalisée contextuellement comme une voyelle orale. Comme le notent Beddor et Krakow (1999), la prédiction que fait cette théorie d’une compensation totale n’est pas vérifiée expérimentalement. Les résultats attestent plutôt d’une compensation partielle (Krakow et Beddor, 1991, Beddor et Krakow, 1999). L’analyse de Beddor et Krakow est que la voyelle est perçue comme nasalisée, mais qu’une partie de la nasalité est attribuée par les auditeurs à l’influence des consonnes environnantes. Le processus est d’ordre décisionnel (et non de l’ordre de la sensibilité auditive) et lié à l’expérience linguistique des auditeurs. Ce type d’interprétation est assez proche de la position d’Ohala (1986), qui propose que les auditeurs utilisent leur connaissance de la variation contextuelle pour désigner la consonne nasale comme la source de la nasalisation de la voyelle dans les items [NVN]. Si les positions d’Ohala et de Beddor et Krakow se démarquent nettement des vues « auditoristes », elles ne sont pas selon nous en contradiction avec l’hypothèse même de la connaissance phonétique, en particulier lorsqu’on considère celle-ci du point de vue de l’auditeur (Cf. section 3 ci-dessus). Dans cette optique, nous considérons l’auditeur comme étant à même d’utiliser dans ses stratégies de perception la connaissance qu’il a des contraintes phonétiques qui agissent sur les mécanismes de production de la parole, y compris la coarticulation. Notre étude de la production et de la perception des voyelles nasales du français inclut une liste d’items de type /NV/ et /NV/ destinés à investiguer la question de la coarticulation nasale dans le cas du français. La question (2) est celle de la perception de la covariation de la nasalité avec d’autres dimensions phonétiques, en particulier avec la dimension d’aperture. Kingston et Macmillan ont testé expérimentalement l’hypothèse selon laquelle les locuteurs font covarier la hauteur de la langue avec la hauteur du voile du palais lorsqu’ils produisent des voyelles parce que les effets acoustiques de cette covariation se rehaussent mutuellement au point de vue auditif (Kingston et Macmillan, 1995, Macmillan et al. 1999). Les résultats confirment que la distance perceptuelle entre deux voyelles est plus grande lorsque l’on fait covarier de manière appropriée les deux dimensions concernées, et plaident donc en faveur du modèle de phonétique contrôlée. De plus, ces auteurs ont trouvé que l’intégration prenait place dans tous les contextes, y compris lorsque la voyelle précédait une consonne nasale, ce qui s’acommode mal avec la façon dont la théorie de la perception directe de la parole rend compte des phénomènes de compensation liés à la nasalité contextuelle (voir ci-dessus). Ces résultats sont apparemment en contradiction avec ceux obtenus par Krakow et al. (1988), qui ont trouvé que les auditeurs ne percevaient un changement d’aperture dans une voyelle nasalisée que lorsque la nasalité qu’elle portait ne pouvait pas être attribuée au contexte, soit pour les items /CVC/ . L’intégration des effets acoustiques de la nasalité avec 14 la valeur de F1 était beaucoup moins prononcée dans les items /NVN/. En fait, Kingston et Macmillan (1995) ont montré que des différences méthodologiques pouvaient être à l’origine de ces apparentes contradictions entre les deux séries d’expérience6, et que les résultats dans leur ensemble attestaient en tout cas de l’interaction de deux types de mécanismes perceptuels. Le premier, automatique et universel, intervient au niveau de la sensibilité auditive des auditeurs. Il s’agit de l’un des processus auditifs généraux mis en avant par les tenants de la théorie auditive de la perception de la parole. Le second, d’ordre décisionnel, est déterminé par l’expérience linguistique des auditeurs. Il s’appuie sur le type de connaissance des phénomènes de coarticulation proposé par Ohala (1981, 1986), et que nous considérons comme un exemple de connaissance phonétique envisagée du point de vue de l’auditeur (voir ci-dessus). Nous pensons donc que l’hypothèse de la connaissance phonétique permet de rendre compte de l’existence des deux mécanismes différents qui interviennent dans la perception de la covariation des dimensions de nasalité et d’aperture. Dans le cadre de cette hypothèse, notre travail est consacré notamment à la covariation des dimensions particulière au français, soit à la covariation de la nasalité avec la dimension d’antérioritépostériorité. 5. Aperçu de la thèse La thèse a pour objet la réalisation phonétique des voyelles nasales du français. Elle est conçue comme une étude intégrée de la production et de la perception de ces voyelles afin de tester expérimentalement l’hypothèse du contrôle et de la connaissance phonétique. La première partie, relative à la production de la parole (p.17), est constituée d’une étude aérodynamique, d’une étude articulatoire et d’une étude acoustique des voyelles nasales du français septentrional. L’objectif est de dresser la carte des relations entretenues par les propriétés des nasales aux différents stades de leur production, de façon à isoler à la fois les propriétés communes, qui caractérisent la nasalité vocalique en général, et les dimensions le long desquelles s’établit la variation. En rapport avec l’hypothèse du contrôle, une analyse fine est menée de la variation phonétique et allophonique qui caractérise l’implémentation phonétique des voyelles nasales du français (voir plus haut). Nous cherchons ainsi à déterminer le rôle joué par les contraintes phonétiques lors de la réalisation des voyelles nasales, et le statut des variantes contextuelles. Les contraintes prédisent-elles la totalité de la variabilité observée ou permettent-elles uniquement de l’encadrer ? La variation est-elle continue le long de 6 Néanmoins, à partir d’un paradime pourtant comparable à celui utilisé par Krakow et al. (1988), Macmillan et al. (1999) ont ensuite obtenu des résultats fondamentalement différents de leurs prédécesseurs (Cf. p.253). 15 certaines dimensions phonétiques, ou bien mène-t-elle à une réorganisation des variantes en catégories phonétiques distinctes ? La deuxième partie de la thèse (p.141), relative à la perception de la parole, rend compte de plusieurs expériences de discrimination et d’identification des nasales du français, qui ont été effectuées à partir de stimuli semi-synthétiques auprès d’auditeurs francophones et anglophones. Cette partie du travail s’articule sur les résultats obtenus dans la première partie. Les expériences ont tout d’abord pour objectif de tester la validité des propriétés phonétiques identifiées en production de la parole en tant qu’indices perceptuels de la nasalité. Ensuite, dans le cadre de l’hypothèse du contrôle, les expériences menées permettent de tester l’hypothèse selon laquelle il y a une motivation d’ordre perceptuel à la covariation de diverses propriétés acoustiques lors de l’implémentation phonétique du contraste de nasalité pour les voyelles du français. La discussion générale (p.256) fera le point sur la façon dont l’hypothèse de la connaissance et du contrôle phonétique permet de rendre compte des caractéristiques de la réalisation phonétique des voyelles nasales du français, tant en production qu’en perception de la parole. 16 Première partie : Production des voyelles nasales du français Chapitre 1 Etude aérodynamique 1. Matériel et Méthode L’étude aérodynamique a été réalisée au Laboratoire de Phonologie de l’Université Libre de Bruxelles au cours de l’automne 1999. 1.1. Sujets Huit locuteurs belges francophones, quatre hommes et quatres femmes, ont participé à l’étude aérodynamique. Ils étaient âgés de 22 à 45 ans au moment de l’expérience. Leur tâche était de lire des listes de mots contenant les items du corpus. 1.2. Corpus Le corpus est constitué de 156 items où les voyelles orales et les voyelles nasales du français sont placées en contexte phonologique nasal et oral (voir Table 1 à Table 6). Pour des raisons méthodologiques, nous avons choisi de ne pas inclure la nasale /¡/ (ni les orales /¡,2/) dans ce corpus. En effet, la nasale /¡/, qui est en cours de disparition en français septentrional, a une fréquence d’occurence très faible (Nève, 1984, Walter, 1994), ce qui la rend absente de la plupart des contextes phonologiques que nous étudions ici7 : Les items CV (Table 1) combinent toutes les consonnes orales du français (à l’exception des semi-consonnes /M,É,Z/) avec les voyelles nasales /$,(,o/ et les orales correspondantes /D,(,o/. Lorsque le mot recherché n’existait pas en français, on l’a remplacé par un mot de type CV.CV, où la séquence phonologique apparaît également en syllabe ouverte accentuée, c’est-à-dire dans la deuxième syllabe du mot. Par ailleurs, à la suite des phénomènes bien établis de neutralisation phonologique entre voyelles semi-ouvertes et semi-fermées en syllabe ouverte (François, 1974, Lefebvre, 1985), certains des items présentés dans la table comme correspondant à une combinaison CV/(o/ peuvent avoir été prononcés CV[H,R]. Par exemple, /So/ = [SR], mais /N(/ = [N(]. 7 Ce problème méthodologique est la raison principale pour laquelle le corpus des études articulatoire et acoustique diffère du corpus de l’étude aérodynamique (voir p.64). Ce second corpus ne contiendra pas de mots du français, mais uniquement des séquences de sons sans signification, ce qui permet d’inclure la nasale /¡/, qui subsiste encore chez nos locuteurs belges. 19 Table 1. Corpus de mots (1/6) pour l’étude aérodynamique. Items CV. La transcription phonologique est donnée quand elle diffère de l’exacte combinaison des phonèmes en tête de ligne et de colonne. La syllabe soulignée est la syllabe étudiée. /D/ /$/ /(/ /(/ /o/ /o/ S pas paon paix pain pot pont E bas banc baie bain bot bon W ta temps tait teint tôt thon G dada /GD.GD/ dans des daim dos don N cas quand quai coquin /No.N(/ coco /No.No/ con J gars gant gai gain cargo gon I fa faon fait fin faux fon Y va vent vais vin vos vont V sa sang c’est saint sot son ] Zaza /]D.]D/ faisan /I¡.]$/ fusait /I\.](/ fusain /I\.](/ Zozo /]o.]o/ faisons /I¡.]o/ 6 chat chant lâchait /OD.6(/ machin /PD.6(/ chaud manchon /P$.6o/ = déjà /GH.=D/ gens geai geint Jojo /=o.=o/ jonc U rat rend rai rein rot rond O là lent laid lin vélo /YH.Oo/ long Table 2. Corpus de mots pour l’étude aérodynamique (2/6). Items NV. mV mV nV nV D/$ ma ment na manant /PD.Q$/ (/( mais main naît nain o/o mot mon nos non /L/ mis nid /\/ mu nu /X/ /H/ mou nous mémé /PH.PH/ nez maux Lacanau /OD.ND.QR/ /R/ 20 Les items NV (Table 2) combinent les consonnes nasales /P,Q/ avec les trois voyelles nasales et leur correspondante orale, ainsi qu’avec les autres orales /L,\,X,H,R/. Dans le cas des items VN (Table 3), les mêmes combinaisons de phonèmes n’ont pu être réalisées sans recourir à des séquences de plusieurs mots (pour les orales et les nasales correspondantes), et à des items de structure syllabique et/ou accentuelle assez diverses (pour les autres orales). L’analyse des données tient compte de ces particularités. La Table 4 présente les items NVN, où la consonne nasale peut être /P,Q/ et la voyelle orale /D,(,o,L/. Table 3. Corpus de l’étude aérodynamique (3/6). Items VN. Vm Vm Vn Vn D/$ amener /DPQH/ emmener /$PQH/ la nuit /OD.QÉL/ l’ennui /O$.QÉL/ (/( c’est Marcel /V(.PD^.V(O/ saint Marcel /V(.PD^.V(O/ c’est Nicolas /V(.QL.No.OD/ saint Nicolas /V(.QL.No.OD/ o/o homme-à-tout faire /o.PD.WX.I(^/ On m’a tout dit /o.PD.WX.GL/ Honni sois-tu /o.QL.VZD.W\/ On y va /o.QL.YD/ /L/ dîme /GLP/ fine /ILQ/ /\/ hume une /X/ boum /EXP/ scoumoune /VNX.PXQ/ /H/ ému /H.P\/ énorme /H.Qo^P/ /R/ Beaune /ERQ/ heaume Table 4. Corpus pour l’étude aérodynamique (4/6). Items NVN. mVm nVn mVn nVm /$/ hammam /D.PDP/ banane /ED.QDQ/ manne Viêt Nam /YM(W.QDP/ /(/ même naine mène phonème /Io.Q(P/ /o/ môme nonne Simone /VL.PoQ/ bonhomme /Eo.QoP/ /L/ mime Lenine /OH.QLQ/ mine Nîmes 21 Enfin, les Table 5 et Table 6 donnent respectivement les items de type CV.CV et CVC, où Y est l’une des trois voyelles nasales et C est une obstruente sourde. Table 5. Corpus de mots pour l’étude aérodynamique (5/6). Items CVC. tVt pVt pVs /$/ tante pente pense /(/ teinte peinte pince /o/ tonte ponte ponce Table 6. Corpus de mots pour l’étude aérodynamique (6/6). Items CV.CV. tV.te /$/ tenter /(/ ton thé /o/ teinter En tout, le corpus de l’étude aérodynamique est constitué de 316 segments par locuteur (66 voyelles nasales, 66 voyelles orales correspondantes, 24 voyelles orales sans correspondante nasale, 36 consonnes occlusives, 36 consonnes fricatives, 12 liquides et 76 consonnes nasales), soit 2528 segments8. 1.3. Matériel Les données aérodynamiques ont été recueillies à l’aide de la station de travail « Physiologia » (Teston et Galindo, 1990). Celle-ci est munie d’une « pièce-à-main », sur laquelle sont fixés un masque buccal et deux tubes flexibles (terminés par des olives nasales) reliés à des pneumotachographes, qui permettent de mesurer respectivement le débit d’air buccal (DAB), et le débit d’air nasal (DAN). Un microphone (AKG C419) placé à la sortie du masque buccal enregistre simultanément le signal de parole. Au détriment d’une éventuelle mesure de pression intra-orale, nous avons choisi d’utiliser deux tubes nasals, et non un seul, ce qui fournit une mesure plus fiable du débit d’air nasal (la plus importante dans le cadre de cette étude), en particulier pour les sujets féminins. La fréquence d’échantillonnage était de 16 KHz (12 bits) pour le signal de parole, et de 2KHz (12 bits) pour les débits d’air nasal et buccal. Le niveau maximal de débit d’air était fixé à 50 cm3/sec, à l’exception du débit d’air nasal pour les sujets féminins, qui était ramené à un maximum de 20 cm3/sec. 8 Afin de maintenir une symétrie au sein des consonnes analysées, on n’a pas inclu les consonnes des items repris dans les Table 5 et Table 6 dans les données aérodynamiques quantifiées (voir ci-dessous). 22 1.4. Logiciel Les données ont été visualisées puis analysées au moyen d’une application personnalisée réalisée par Alain Soquet, ingénieur au Laboratoire de Phonologie, avec le logiciel auteur multi-médias iShell (www.tribeworks.com). Cette application nous a permis de segmenter l’ensemble du corpus sur la base du signal de parole (Muller et Brown, 1980) puis de calculer les moyennes de débit par segment (voir ci-dessous). Les analyses statistiques ont été effectuées à l’aide du logiciel SPSS. 1.5. Les données Deux types de données sont examinées dans ce chapitre : les « données quantifiées » (section 2) et les tracés de débit d’air nasal et buccal proprement dits (section 3). Les « données quantifiées » font référence aux valeurs de débit moyennées sur la totalité d’un segment donné. Elles permettent d’objectiver les niveaux de débit observés, et donc de comparer différents types de segments (de contextes, etc.), en utilisant notamment l’analyse statistique de variance. Cependant, ces moyennes ne fournissent par définition aucune information sur l’évolution temporelle du débit au cours des segments. C’est pourquoi la section 3 est consacrée à l’analyse comparée des trajectoires de débit d’air nasal et buccal. Ces deux méthodes d’analyse d’un même corpus de données sont complémentaires ; l’objectif final est de parvenir à décrire et à interpréter l’ensemble des aspects aérodynamiques relatifs à la nasalité en français. 2. Résultats : données quantifiées 2.1. Paramètres d’analyses Quatre paramètres d’analyses ont été retenus, désignés respectivement « T », « DANm », « DABm », et « PNAm » : T désigne la durée totale d’un segment (en ms) ; Le DANm désigne le débit d’air nasal moyen par segment (en cm3/sec); Le DABm désigne le débit d’air buccal moyen par segment (en cm3/sec); Le PNAm désigne la proportion moyenne du débit d’air total imputable au débit d’air nasal (en %). Le PNAm est calculé pour chaque segment selon la formule : DANm PNAm = DANm + DABm 23 Pourquoi cette mesure de PNAm ? Les paramètres aérodynamiques directement mesurés (DAN, DAB) doivent être considérés en relation étroite avec les sons étudiés. Ainsi, il convient de préciser quelle type d’information ces paramètres fournissent dans le cadre particulier de la nasalité vocalique. L’objectif principal de cette section est l’étude comparée du taux de nasalité des différents types de segment (voyelles nasales entre elles, voyelles nasales vs. voyelles orales, etc.). La définition la plus neutre du « taux de nasalité » d’un son renvoie à son degré de nasalité au point de vue acoustique, c’est-à-dire essentiellement à l’ampleur du couplage acoustique entre les cavités nasales et la cavité pharyngo-buccale. Quoique directement lié aux mouvements du voile du palais, le couplage nasal ne peut être réduit à ces seuls mouvements. Par exemple, lorsque le voile commence à descendre pour une voyelle nasale, il y a un délai entre cette mise en mouvement et l’ouverture proprement dite du port vélique. L’examen de la fonction vélo-pharyngienne, et en particulier l’étude électro-myographique des muscles responsables des mouvements du voile du palais, ne permet donc qu’une évaluation indirecte du degré de couplage nasal (Krakow et Huffman, 1993). La mesure de débit d’air nasal ne présente pas ce désavantage, puisqu’en dehors du bruit inhérent à la prise de mesure elle-même, celle-ci n’est positive que lorsque le port vélique est ouvert. Le niveau de débit d’air nasal n’est pas pour autant une mesure absolue de l’ouverture vélo-pharyngienne. En effet, indépendamment du niveau d’abaissement du voile du palais pour un segment donné, la valeur de DAN peut varier selon deux autres facteurs : (1) le débit d’air total, et (2) le niveau de constriction dans la cavité buccale : La mesure de PNA permet de neutraliser les effets du facteur (1) : si la variation du DAN n’est due qu’à une variation du débit d’air total (plus important pour une voyelle portant un accent d’intensité, par exemple), la mesure de PNA reste stable, puisque la position du voile du palais n’est pas changée et que la proportion du débit d’air total s’échappant par le nez est donc restée la même. Par contre, les mesures de PNA et de DAN restent tributaires du facteur (2). Pour un même degré d’abaissement du voile, le DAN et le PNA sont plus élevés (et le DAB moins élevé) s’il y a une forte constriction orale, parce que celle-ci induit une résistance importante au passage de l’air par la cavité buccale. L’air s’échappe alors prioritairement par le nez. La prudence est donc de mise lorsque l’on compare les moyennes de PNA obtenues pour des sons d’aperture très différente, telles que les voyelles /L/ et /D/ par exemple. Toutefois, il faut sans doute réduire la portée d’une telle mise en garde, puisque la contribution spectrale des fosses nasales ne dépend pas uniquement de la taille du couplage (de l’abaissement du voile), 24 mais également de la masse acoustique totale des deux voies empruntées par les ondes sonores, la voie orale et la voie nasale (Stevens, 1998, 307-308, Cf. Chapitre 3, p.93). Ainsi, nous avons inclus dans nos données quantifiées les moyennes de PNAm (calculées à partir des valeurs de DANm et de DABm pour chaque segment). En tenant compte des restrictions exposées ci-dessus, la mesure de PNAm constitue la meilleure évaluation à partir des paramètres aérodynamiques du taux de nasalité moyen d’un segment. 2.2. Tendances générales La Table 7 présente un résumé statistique des données obtenues pour les 2430 segments du corpus9. On donne les moyennes (et déviations standard) des valeurs de DANm et de DABm (en cm3/sec), de PNAm (en %) et de T (en ms), en fonction de deux variables indépendantes : le genre du locuteur (masculin ou féminin), et le type de segment (voyelle orale, voyelle nasale, consonne orale, consonne nasale). De plus, la table présente les résultats de l’analyse de variance multivariée (MANOVA) effectuée avec les quatres paramètres aérodynamiques comme variables dépendantes, et les variables de ‘genre du locuteur’ et de ‘type de segment’ comme facteurs fixes : dans chaque cas la statistique F (avec les degrés de liberté au numérateur et au dénominateur correspondants) et le degré de significativité p sont donnés. Tout d’abord, on observe une grande différence entre locuteurs féminins et masculins en ce qui concerne les moyennes de DABm et de DANm : les débits sont significativement moindres pour les sujets féminins (p<.001). Les femmes ont plus de PNAm en moyenne que les hommes, mais cette différence n’est pas significative (p=.112). L’interaction entre les variables de genre et de type de segment n’est pas significative pour le PNAm (p=.243), alors qu’elle l’est pour le DANm (p<.001). La mesure de PNAm remplit ici son rôle : elle neutralise les variations de débit d’air nasal dues aux différences qui existent entre hommes et femmes du point de vue de leur débit d’air en général, en raison sans doute de leurs différences anatomiques (de volume pulmonaire, Cf. Bakken et Orlikov, 2000). 9 En raison de problèmes techniques survenus pendant l’expérience, certaines mesures sont manquantes pour deux sujets, ce qui ramène le nombre exact de segments effectivement analysés de 2528 (Cf. p.22) à 2430. 25 3 Table 7. Données quantitatives (DANm, DABm en cm /sec, PNAm en % et T en ms) concernant l’ensemble du corpus (N=2430). Statistiques descriptives (moyenne, déviation standard SD, nombre de cas N), et paramètres de l’analyse de variance MANOVA (statistique F, degré de significativité p) pour deux variables indépendantes et leur interaction : le genre du locuteur et le type de segment prononcé. Genre du locuteur feminin DANm DABm PNAm T Moyenne SD N F p Moyenne SD N F p Moyenne SD N F p Moyenne SD N F p masculin 30.7 39.7 29.3 40.3 1191 1239 F(1,2422) = 80.91 p < .001 54.1 101.2 55 94.2 1191 1239 F(1,2422) = 268.93 p < .001 49.1 40 164.6 138.7 1191 1239 F(1,2422) = 2.53 p = .112 172.3 183.8 62.4 65.2 1191 1239 F(1,2422) = 24.04 p < .001 Type de segment voyelle voyelle consonne orale nasale orale 19.7 47.3 12.8 27.1 32.9 16.1 694 506 650 F(3,2422) = 559.94 p < .001 103 79.7 102.4 61.8 53 113.5 694 506 650 F(3,2422) = 192.25 p < .001 18.9 40 31.6 29.5 24 243.7 694 506 650 F(3,2422) = 29.5 p < .001 171.8 223.6 169.7 58.8 67.7 49.4 694 506 650 F(3,2422) = 137.25 p < .001 26 consonne nasale 68.7 33.2 580 Genre par Type de segment F(3,2422) =33.9 p < .001 9.6 34.7 580 F(3,2422) =8.01 p < .001 93.3 59.5 580 F(3,2422) =1.39 p = .243 155.6 62.7 580 F(3,2422) =12.9 p < .001 En ce qui concerne la variable de type de segment, elle atteint également le plus haut degré de significativité pour les quatres paramètres aérodynamiques (p<.001). Des tests Post Hoc (indice de Scheffé) ont cependant montré que les différences entre les différents types de segment pris deux à deux n’étaient pas toutes significatives, en particulier pour le PNAm. Pour cette variable, on obtient seulement deux sous-ensembles de variance indépendante, le premier contenant les voyelles orales, les voyelles nasales et les consonnes orales, le second les consonnes nasales. On peut s’étonner en effet du fait que les voyelles orales et les consonnes orales présentent des moyennes relativement élevées de DANm (respectivement 19.7 et 12.8 cm3/sec) et de PNAm (respectivement 18.9 et 31.6 % du débit d’air total). Pour les voyelles orales, les valeurs obtenues sont essentiellement dues aux phénomènes de coarticulation, que le corpus visait à mettre en évidence (Cf. le grand nombre de voyelles orales en contexte phonologique nasal : Table 2, Table 3 et Table 4). Pour les consonnes orales, la coarticulation nasale est nettement moins attestée, comme le montrent les tracés aérodynamiques (Cf. p.36). Mais le faible débit d’air nasal mesuré (parfois simplement du « bruit ») est proportionnellement important puisque le DABm est faible lui aussi, en particulier pour les consonnes occlusives qui ne présentent du débit d’air buccal qu’au moment du relâchement10. Enfin, la forte différence de PNAm observée entre voyelles et consonnes nasales (en moyenne, 40% vs. 93.3% du débit d’air total des segments) peut s’expliquer par l’absence de débit d’air buccal pour les consonnes. Le DABm est en effet quasi nul pour les consonnes nasales en raison de l’occlusion bilabiale ou dentale, et l’air s’échappe uniquement par les fosses nasales. Même si cela reste possible d’après nos données, il n’est donc pas nécessaire de supposer que le voile occupe pendant les consonnes nasales une position radicalement différente (plus basse) de celle qu’il a pendant les voyelles nasales. 2.3. Voyelles La Table 8 présente de façon plus détaillée les données recueillies pour les 1200 voyelles du corpus. Sur le modèle de la Table 7, on donne les moyennes obtenues pour les quatre variables dépendantes DANm, DABm, PNAm et T en fonction de deux variables indépendantes (le contexte phonologique et le type de voyelle), ainsi que les résultats de l’analyse de variance multivariée MANOVA effectuée sur ces paramètres. 10 Pour les consonnes occlusives, la mesure de PNAm a peu de pertinence puisqu’elle renvoie essentiellement à un rapport de « bruit » entre les mesures de débit d’air nasal et buccal, pour des segments au cours desquels l’air ne sort théoriquement ni par la bouche ni par le nez. D’où la grande variabilité des moyennes de PNAm, qui se traduit par une déviation standard exceptionnellement élevée (SD = 371.1, Cf. Table 9, p.33). 27 3 Table 8. Données quantitatives (DANm, DABm en cm /sec, PNA en % et T en ms) concernant les voyelles du corpus (N=1200). Statistiques descriptives (moyenne, déviation standard SD, nombre de cas N), et paramètres de l’analyse de variance MANOVA (statistique F, degré de significativité p) pour deux variables indépendantes et leur interaction : le type de voyelle (voyelles nasales V, voyelles orales correspondantes V (1) et voyelles orales sans correspondante nasale V (2)), et le contexte phonologique. Les données en italiques correspondent à des contextes où un type de voyelle est manquant. Type de voyelle v (1) v (2) 47.3 11.7 41.6 32.9 18 35 506 510 184 F(2,1188) = 111.25 p < .001 79.7 115.7 67.9 53 60 52.6 506 510 184 F(2,1188) = 33.2 p < .001 40 11.4 39.6 24 24.9 31.4 506 510 184 F(2,1188) = 113.34 p < .001 223.6 172.9 168.7 67.7 56.2 65.6 506 510 184 F(2,1188) = 21.61 p < .001 v DANm DABm PNAm T Moyenne SD N F p Moyenne SD N F p Moyenne SD N F p Moyenne SD N F p Contexte C_# _N 24.5 19.1 32.4 27.6 650 166 F (5,1188) = 55.76 p < .001 104.8 98.3 62.6 57.5 650 166 F (5,1188) = 22.97 p < .001 21.9 16.5 30.8 23.5 650 166 F (5,1188) = 62.22 p < .001 204.6 134.3 58.2 63.6 650 166 F (5,1188) = 68.61 p < .001 28 N_# N_N C_C C_.CV 51.3 30.3 169 43.7 25.1 123 50 30 69 41.1 25.5 23 Type de voyelle par Contexte F (4,1188) = 6.15 p < .001 63.9 44.9 169 65.5 38.8 123 87.8 53.2 69 109 60.4 23 F (4,1188) = 2.12 p = .076 46.5 22.7 169 42.2 22.9 123 37.7 19.8 69 29.4 17.5 23 F (4,1188) = 7.24 p < .001 190.2 60.9 169 180.2 68.7 123 279.8 49.8 69 151 32.1 23 F (4,1188)=26.77 p < .001 a. Type de voyelle Nous avons choisi de rassembler les voyelles en trois groupes : les voyelles nasales, les voyelles orales correspondantes /D,(,o/, et les voyelles orales sans correspondante phonologique nasale /L,\,X,H,R/, soit respectivement V, V(1) et V(2) dans la Table 8. En effet, pour l’ensemble des paramètres étudiés, la variation est importante entre voyelles nasales et voyelles orales, mais également entre les différentes voyelles orales. Ainsi, les voyelles orales /D,(,o/ ont en moyenne un faible PNAm (11.4%) alors que les autres orales du corpus ont un PNAm beaucoup plus élevé (39.6%). Il ne diffère d’ailleurs pas statistiquement du PNAm des voyelles nasales (40%) d’après les tests Post Hoc réalisés sur la variable de type de voyelle (p=.978, indice de Scheffé). En fait, les deux groupes de voyelles orales V(1) et V(2) divergent tant du point de vue du DANm (11.7 vs. 41.6 cm3/sec) que du point de vue du DABm (115.7 vs. 67.9 cm3/sec). Il y a donc une sorte de compromis entre les valeurs de débit d’air buccal et nasal : les orales ayant une correspondante phonologique nasale présentent peu de DANm et beaucoup de DABm, alors que les autres orales ont en moyenne beaucoup de DANm et peu de DABm. Ces résultats sont à mettre en relation avec le degré d’aperture des voyelles concernées : /D,(,o/ sont des voyelles ouvertes ou semi-ouvertes, alors que /L,\,X,H,R/ sont des voyelles fermées ou semi-fermées. Il est donc possible que la variation observée soit due aux différences de configuration orale entre ces voyelles, et non à des différences dans le degré d’abaissement du voile du palais. Cependant, les variations de PNAm restent un indice du fait que le rapport d’impédance acoustique sera plus favorable aux cavités nasales dans le cas de V(2) que de V(1). On s’attend donc à ce que les effets acoustiques de la nasalité soient plus importants pour les voyelles /L,\,X,H,R/ que pour les voyelles /D,(,o/ : à abaissement du voile comparable (ce qui est l’hypothèse la plus conservatrice au regard des chiffres), l’effet acoustique est plus important pour les voyelles fermées que pour les voyelles ouvertes (House et Stevens, 1956, Ohala 1975). L’observation d’un abaissement du voile du palais au moins aussi important pour les voyelles orales fermées que pour les autres orales constitue une particularité du français qui demande à être expliquée (Cf. Discussion). Enfin, en ce qui concerne la variable de ‘type de voyelle’, il faut noter la nette différence de durée, tous contextes confondus, entre voyelles nasales d’une part et voyelles orales d’autre part. Dans le cas de T, en effet, les tests Post Hoc indiquent que la différence entre les moyennes obtenues pour V(1) et V(2) n’est pas significative (p=.664). Le contraste de nasalité vocalique s’appuie dans de nombreuses langues du monde sur une distinction concomitante de quantité (Beddor, 1993). 29 b. Contexte phonologique La variance des paramètres aérodynamiques en fonction du contexte phonologique est hautement significative, comme l’indique la Table 8 (p <.001). En particulier, les moyennes de DANm et de PNAm sont nettement supérieures lorsqu’une consonne nasale précède la voyelle (respectivement 51.3 cm3/sec et 46.5% en contexte N_#), par rapport aux cas où une consonne nasale suit la voyelle (19.1 cm3/sec et 16.5% en contexte _N), et ce, quel que soit le type de voyelle concerné. Il y a nettement plus de nasalisation progressive que de nasalisation régressive en français. Les données relatives aux contextes N_N, C_C et C_.CV sont en italiques dans la Table 8 parce qu’elles doivent être analysées en relation avec le corpus et ses particularités. Seules des voyelles orales V(1) et V(2) apparaissent en contexte N_N, ce qui explique sans doute que la moyenne de PNAm, quoique élevée (42.2%), n’atteigne pas celle obtenue en contexte N_# (46.5%) pour des voyelles orales et nasales. Quant aux environnements phonologiques purement oraux C_C et C_.CV, ils ne concernent dans notre corpus que des voyelles nasales, c’est pourquoi les moyennes de PNAm y sont élevées (37.7 et 29.4%). Afin de clarifier l’analyse, on propose donc dans la Figure 1 une représentation des valeurs de PNAm pour chaque contexte phonologique selon le type de voyelle. Chaque « boxplot » donne l’étendue et la répartition des valeurs prises par la mesure de PNAm : le corps coloré représente les 2e et 3e quartiles, les lignes verticales représentent les 1er et 4e quartiles, et la ligne horizontale indique la médiane. 30 PNAm (en%) Contexte phonologique Figure 1. Boxplots représentant la répartition des valeurs de PNAm (en %) pour les trois types de voyelle en fonction du contexte phonologique. 31 La Figure 1 permet d’analyser la nature des interactions entre les deux variables indépendantes de ‘contexte’ et de ‘type de voyelle’. Pour chaque contexte étudié, tout d’abord, les moyennes de PNAm varient en fonction du type de voyelle, les voyelles /D,(,o/ étant les moins nasalisées, suivies des autres orales /L,\,X,H,R/, et enfin des voyelles nasales, qui sont toujours les plus nasalisées dans un contexte donné. Pour chaque type de voyelle, par ailleurs, d’importantes variations contextuelles sont attestées du point de vue du PNAm : un contexte phonologique nasal favorise généralement la nasalisation (même les voyelles nasales ont un taux plus élevé de PNAm en contexte N_#), et il y a nettement plus de nasalisation progressive que de nasalisation régressive. La combinaison de ces deux types de phénomène amène à une réduction de la distance (en terme de taux de PNAm) entre voyelles orales et voyelles nasales en contexte phonologique nasal. Deux types de valeur méritent une explication supplémentaire en rapport avec la nature des items sélectionnés dans le corpus. D’une part, dans le cas du contexte _N, les voyelles orales /D,(,o/ et les nasales ne tombent pas sous l’accent, ce qui peut sans doute expliquer en partie le faible niveau de PNAm pour ces voyelles (voir par exemple le niveau de PNAm des voyelles nasales, qui est inférieur en contexte _N par rapport à C_). Cette question sera abordée lors de l’analyse des tracés aérodynamiques (Cf. p.48). D’autre part, la moyenne particulièrement élevée obtenue pour les voyelles de type V(2) en contexte N_N est probablement surestimée, en raison du fait que les données concernent la seule voyelle /i/, qui a le plus faible DABm et le plus haut DANm, toutes voyelles orales confondues. 2.4. Consonnes Sur le modèle des tables précédentes, la Table 9 présente les données recueillies pour les 1230 consonnes du corpus. Les moyennes obtenues pour les quatre variables aérodynamiques sont données en fonction du type de consonne (occlusive, fricative, liquide11, ou consonne nasale) de même que les résultats de l’analyse de variance (ANOVA) effectuée à partir de ces paramètres pour ce sous-ensemble du corpus. 11 Latérales /O/et trilles /^/. 32 3 Table 9. Données quantitatives (DANm, DABm en cm /sec, PNA en % et T en ms) concernant les consonnes du corpus (N=1230). Statistiques descriptives (moyenne, déviation standard SD, nombre de cas N), et paramètres de l’analyse de variance ANOVA (statistique F, degré de significativité p) pour la variable indépendante de type de consonne (occlusive, fricative, liquide ou nasale). Occlusives Fricatives Liquides Nasales DANm DABm PNAm T Moyenne SD N F p Moyenne SD N F p Moyenne SD N F p Moyenne SD N F p 8.5 17 10.8 18.9 278 279 F(3, 1226) = 497.48 p < .001 31 168.5 42.5 127.5 278 279 F(3, 1226) = 303.45 p < .001 57.3 12.5 371.1 14.6 278 279 F(3, 1226) = 11.48 p < .001 156.9 183.9 44.7 50.8 278 279 F(3, 1226) = 17.86 p < .001 13.1 17.1 93 68.7 33.2 580 117.8 86.5 93 9.6 34.7 580 12.2 15.1 93 93.3 59.5 580 165.1 47.5 93 155.6 62.7 580 Les consonnes occlusives ont très peu de DANm en moyenne (8.5 cm3/sec), et relativement peu de DABm (31 cm3/sec). En fait, le DAB est nul pendant la majeure partie des occlusives, puis atteint très rapidement une valeur élevée au moment du relâchement. La situation est différente pour les fricatives et les liquides, qui ont un DABm très élevé (respectivement 168.5 et 117.8 cm3/sec en moyenne), puisque l’air s’échappe par la bouche tout au long de la consonne. Dans ces conditions, le niveau de DANm mesuré pour les fricatives et les liquides (17 et 13.1 cm3/sec en moyenne) n’est pas négligeable. L’analyse des tracés aérodynamiques permet de vérifier que la coarticulation nasale est plus importante pour ces consonnes que dans le cas des occlusives (Cf. p.41). Sans surprise, les consonnes nasales ont un DANm élevé et un DABm très bas (qui s’apparente à du bruit de mesure). 33 2.5. Voyelles nasales La Table 10 présente les données relatives aux seules voyelles nasales (N=506). Les résultats de l’ANOVA montrent que la variance en fonction de la variable de segment est hautement significative pour les paramètres aérodynamiques, mais pas pour la durée (p=. 011). Comme précédemment pour les voyelles orales d’aperture différente, on observe un compromis entre les valeurs de DANm et de DABm. La voyelle la plus ouverte, /$/, est celle qui a la moyenne la plus faible de DANm et la moyenne la plus élevée de DABm. Nous ne prédisons pourtant pas à partir de ces données que le voile aura une position radicalement différente pour cette voyelle que dans le cas de /(/, dont le DANm est en moyenne plus élevé (45.1 vs. 26.4 cm3/sec pour /$/) mais le DABm plus bas (79.4 vs. 102.7 cm3/sec pour /$/), sans doute parce qu’il s’agit d’une voyelle semi-ouverte. Les données articulatoires permettent d’affiner cette analyse (Cf. p.86). 3 3 Table 10. Données quantitatives (DANm en cm /sec, DABm en cm /sec, PNA en % et T en ms) concernant les voyelles nasales du corpus (N=506). Statistiques descriptives (moyenne, déviation standard SD, nombre de cas N), et paramètres de l’analyse de variance ANOVA (statistique F, degré de significativité p) pour la variable indépendante de segment (/$/, /(/, /o/). /$/ DANm DABm PNAm T Moyenne SD N F p Moyenne SD N F p Moyenne SD N F p Moyenne SD N F p /(/ 26.4 45.1 18.1 26.4 169 168 F (2, 503) = 107.34 p < .001 102.7 79.4 48.6 54.1 169 168 F (2, 503) = 35.39 p < .001 21.3 40.9 13.5 23.2 169 168 F (2, 503) = 158.72 p < .001 233 226.4 65.6 65.3 169 168 F (2, 503) = 4.6 p = .011 34 /o/ 70.3 35.5 169 57.2 46 169 57.8 18.7 169 211.4 70.6 169 Dans le cas de /o/, la position arrière de la langue, qui s’approche du palais dans la région du voile, offre encore plus de résistance au passage de l’air par la bouche, ce qui se traduit par un DABm particulièrement faible pour une voyelle (57.2 cm3/sec), et par un DANm très élevé (70.3 cm3/sec). Même si le voile n’est sans doute pas plus bas pour /o/ que pour les autres nasales, nous prédisons que le couplage nasal aura des effets acoustiques particulièrement importants dans le cas de cette voyelle. Les données acoustiques confirment cette prédiction (Cf. p.110). 2.6. Consonnes nasales La Table 11 présente les données relatives aux consonnes nasales uniquement (N=580). Les résultats de l’ANOVA montrent que la variance en fonction de la variable de segment n’est pas significative pour les paramètres aérodynamiques (p=.196 pour DANm, p=.060 pour DABm, et p=.305 pour PNAm), alors qu’elle est significative pour la durée (p<.05). Du point de vue aérodynamique donc, les consonnes nasales /m/ et /n/ ont un comportement tout à fait comparable d’après nos données. 3 Table 11. Données quantitatives (DANm, DABm en cm /sec, PNA en % et T en ms) concernant les consonnes nasales du corpus (N=580). Statistiques descriptives (moyenne, déviation standard SD, nombre de cas N), et paramètres de l’analyse de variance ANOVA (statistique F, degrés de significativité p) pour la variable indépendante de segment (/m/, /n/). DANm DABm PNAm T Moyenne SD N F p Moyenne SD N F p Moyenne SD N F p Moyenne SD N F p /m/ /n/ 70.5 32.1 291 F (1,578) = 1.68 p = .196 16.9 33.5 291 F (1,578) = 3.54 p = .060 100.1 81.2 291 F (1,578) = 1.05 p = .305 161.4 61.8 291 F (1,578) = 5.03 p = .025 66.9 34.2 289 35 22.4 35.7 289 86.5 34.1 289 149.8 63.2 289 2.7. Résumé des résultats En résumé, l’examen des données quantifiées mène à la conclusion qu’une grande partie de la variation des niveaux moyens des paramètres aérodynamiques peut être attribuée aux conditions de production des sons étudiés : position (ouverte ou fermée) du voile, configuration orale (depuis la fermeture des occlusives jusqu’à l’aperture maximale des voyelles ouvertes) et coarticulation (des phonèmes nasals vers les phonèmes non nasals). En première analyse, la différence entre nasalisation progressive et nasalisation régressive ne peut être expliquée de la même façon. Ce phénomène, de même que les différences de DANm observées entre occlusives d’une part et fricatives et liquides d’autre part, nécessite une analyse plus détaillée des trajectoires de débit lors des transitions entre un son oral et un son nasal. 3. Résultats : analyse des tracés aérodynamiques L’objectif de cette section est d’analyser l’évolution temporelle, au cours des segments, des trajectoires de débit d’air nasal et de débit d’air buccal, en affinant l’analyse de la variation proposée dans la section précédente à partir des données quantifiées. Pour illustrer les problèmes étudiés, on propose ici un ensemble de figures, qui donnent les tracés de débit d’air nasal et de débit d’air buccal, ainsi qu’un spectrogramme à bandes larges (fenêtre de Hamming de 5ms, FFT de 512 points), en comparant à chaque reprise deux items du corpus. Des labels numérotés (1), (2), (3), etc. ont été placés manuellement sur les tracés, afin de souligner certains événements et de clarifier le commentaire présent dans le texte. 3.1. Items cv a. C[occlusive] V La Figure 2 concerne les items /SD/ et /S$/, prononcés par le sujet féminin S1. En ce qui concerne /SD/, le tracé de DAN reste plat, signe que le port vélo-pharyngien reste fermé tout au long de l’item. 36 S D S $ Figure 2. Spectrogramme, signal, et tracés de débit d’air nasal (en bleu) et de débit d’air buccal (en vert). Items /SD/ (en haut) et /S$/ (en bas) pour le sujet féminin S1. 37 La courbe de DAB connaît plusieurs inflexions : au moment du burst, soit dès le relâchement de l’occlusion (1), le DAB monte fortement, puis lors de l’entrée en vibration des cordes vocales (2), il redescend rapidement. Le DAB atteint alors un niveau relativement stable, puis remonte progressivement à partir de (3) jusqu’à la fin de la voyelle. La chaîne des événements est assez comparable pour l’item /S$/ en ce qui concerne le DAB, à l’exception de la montée finale, qui n’a pas lieu généralement pour la voyelle nasale. Quant au DAN, il entame sa montée en (4), soit ici environ 25 ms après le début de la voyelle nasale. Les tracés obtenus pour les autres voyelles, orales et nasales, dans les items C[occlusive]V, suivent généralement le schéma établi plus haut. Pour les nasales, le DAN se met à monter entre 10 et 70 ms après l’entrée en vibration des cordes vocales, puis il atteint dès la deuxième moitié de la voyelle un niveau comparable, voire supérieur, au DAB. Le cas de /o/ est un peu particulier, comme le montre la Figure 3, où sont présentés les items /So/ et /So/ pour le sujet masculin S3. En effet, après être rapidement monté (1) et redescendu (2), le tracé de DAB revient en (3) à un niveau très bas, proche de zéro, pour toute la deuxième moitié de la « voyelle ». Pour la voyelle /o/, en effet, la langue se relève dans la région où s’abaisse le voile du palais, ce qui peut mener à un blocage presque total du passage de l’air par la cavité buccale. b. C[fricative] V La Figure 4 concerne les items /V(/ et /V(/ pour le sujet masculin S4. Elle est représentative des cas où les voyelles orales et nasales sont précédées par une consonne fricative. Au contraire des occlusives, il y a du DAB pendant toute la durée de la fricative, puisque l’occlusion du conduit buccal n’est pas complète durant ce type de consonne. Ensuite, le tracé de DAB est fort comparable aux cas précédents : lors du relâchement de la constriction, le DAB monte rapidement, puis redescend dès la mise en vibration des cordes vocales (1). Il atteint une position stable (2), puis se remet à monter à la fin de la voyelle (3), lorsque l’impédance est moins forte à la glotte. 38 S S o o Figure 3. Spectrogramme, signal, et tracés de débit d’air nasal (en bleu) et de débit d’air buccal (en vert). Items /So/ (en haut) et /So/ (en bas) pour le sujet masculin S3. 39 V ( V ( Figure 4. Spectrogramme, signal, et tracés de débit d’air nasal (en bleu) et de débit d’air buccal (en vert). Items /V(/ (en haut) et /V(/ (en bas) pour le sujet masculin S4. 40 La grande différence avec le cas des occlusives se situe au niveau du DAN pour les voyelles nasales : celui-ci se met à monter à la fin de la consonne fricative (4), avant que les cordes vocales ne se mettent à vibrer (1). Ainsi, le DAN entame sa montée au début de la voyelle ou quelque temps après dans le cas des items C[occlusive] V, tandis qu’il se met à monter au début de la voyelle ou quelque temps avant dans le cas des items C[fricative] V. La montée anticipative est plus marquée pour certains sujets et pour certaines fricatives, en particulier les sonores, comme le montre la Figure 5, qui compare un même item /I\](/, prononcé par deux sujets (masculins) différents, S7 et S8. Dans les deux cas, les labels (1) et (3) marquent respectivement le début et la fin de la consonne /]/ ; le label (2) marque le début de la montée du DAN, soit de l’abaissement du voile du palais, qui dans un cas prend place dès le milieu de la consonne, et dans l’autre au début de la voyelle seulement. L’analyse des tracés aérodynamiques permet donc de compléter l’information fournie par les données quantifiées, qui indiquaient un taux plus élevé de DANm en moyenne pour les consonnes fricatives, en particulier au regard de leur important DABm (Cf. p.33). c. C[liquide] V La Figure 6 montre que les transitions entre consonnes liquides et voyelles nasales sont plutôt proches de celles observées entre fricatives et voyelles nasales. En effet, tant pour /^(/ que pour /O(/, le DAN commence à monter durant la consonne (2), avant le début de la voyelle nasale proprement dite (3). Les consonnes liquides sont nasalisées plus tôt encore que les fricatives lorsqu’elles précèdent une voyelle nasale. En résumé, les données montrent que le mouvement d’abaissement du voile pour une voyelle nasale se produit au début de celle-ci lorsque la consonne précédente est une occlusive, et pendant la consonne lorsqu’il s’agit d’une fricative ou surtout d’une liquide. Nous reviendrons sur l’explication à donner à ces phénomènes dans la discussion (Cf. pp.54 et suivantes). 41 I I \ \ ] ] ( ( Figure 5. Spectrogramme, signal, et tracés de débit d’air nasal (en bleu) et de débit d’air buccal (en vert). Item /I\](/ pour les sujets masculins S7 (en haut) et S8 (en bas). 42 ^ O ( ( Figure 6. Spectrogramme, signal, et tracés de débit d’air nasal (en bleu) et de débit d’air buccal (en vert). Items /^(/ (en haut) et /O(/ (en bas) pour le sujet féminin S5. 43 3.2. Items NV La Figure 7 présente les tracés aérodynamiques pour les items /PD/ et /P$/ (S1). Dans les deux cas, le début de la voyelle (1) marque le début d’une chute du DAN et d’une montée du DAB. Les deux phénomènes sont sans doute liés à l’ouverture de la bouche lors du relâchement de la consonne nasale, sans qu’il soit nécessaire de supposer une remontée du voile du palais à l’entame de la voyelle. A partir de (2) en tout cas, le tracé de DAN remonte pour la voyelle nasale, alors qu’il continue à descendre pour la voyelle orale, ce qui indique un comportement différent du voile du palais, d’autant que le DAB monte dans les deux cas. Ces tracés expliquent que les moyennes de DANm que nous obtenons sont élevées pour toutes les voyelles en contexte N_#, mais qu’elles sont supérieures lorsque la voyelle est une voyelle nasale (voir Figure 1, p.31). La Figure 7 est représentative des données concernant les voyelles /D,$/ et /(,(/. Pour /o,o/, la situation est légèrement différente, parce qu’il s’agit là de voyelles postérieures. La Figure 8 concerne les items /Po/ et /Po/ prononcés par le même locuteur que précédemment, S1. On remarque que le DAN n’atteint jamais le niveau zéro dans le cas de /Po/, et que le DAB est relativement faible. Ceci est sans doute dû au fait que, pour une voyelle postérieure, la langue se rapproche du palais dans la région précise où le voile s’abaisse. Le phénomène est encore amplifié pour /Po/, puisque le niveau de DAB reste nettement inférieur au DAN pendant toute la voyelle. Enfin, la Figure 9 montre que, pour rendre compte des moyennes très élevées de DANm obtenues pour les voyelles orales sans correspondante nasale (voir Table 8, p.28), il faut tenir compte de l’influence de deux facteurs. Tout d’abord, la coarticulation (la nasalisation progressive) est très importante pour ces voyelles : le voile ne remonte que tard dans la voyelle pour /i/ (2), et il ne remonte sans doute pas du tout pour /y/. Ensuite, il y a peu de passage pour l’air dans la cavité orale, d’où un DAB faible (et un DANm d’autant plus élevé). 44 P D P $ Figure 7. Spectrogramme, signal, et tracés de débit d’air nasal (en bleu) et de débit d’air buccal (en vert). Items /PD/ (en haut) et /P$/ (en bas) pour le sujet féminin S1. 45 P o P o Figure 8. Spectrogramme, signal, et tracés de débit d’air nasal (en bleu) et de débit d’air buccal (en vert). Items /Po/ (en haut) et /Po/ (en bas) pour le sujet féminin S1. 46 P L P \ Figure 9. Spectrogramme, signal, et tracés de débit d’air nasal (en bleu) et de débit d’air buccal (en vert). Items /PL/ (en haut) et /P\/ (en bas) pour le sujet féminin S1. 47 Dans leur ensemble, les données aérodynamiques montrent que la nasalisation progressive est très importante en français, et qu’en conséquence les voyelles phonologiquement orales sont fortement nasalisées, en particulier les voyelles fermées, qui sont sans doute prononcées dans leur totalité avec un voile abaissé. Les voyelles nasales restent plus nasalisées que leur correspondante orale dans ce contexte, surtout en fin de voyelle, mais une question se pose néanmoins : est-ce suffisant pour assurer le contraste phonologique ? 3.3. Items VN La quantification des données aérodynamiques montre que la nasalisation régressive est très inférieure à la nasalisation progressive en français (voir Table 2, p.20 et Figure 1, p.31). Les tracés de débit de la Figure 10 (sujet féminin S6) permettent de visualiser le phénomène. Ainsi, pour l’item /ODQÉL/, il n’y a aucun DAN pendant la voyelle /D/ (entre (1) et (2)), tandis qu’après la consonne nasale, à partir de (3), le DAN redescend lentement : la semi-voyelle /É/ ([É ]) et le début de la voyelle /L/ sont nasalisés. De  plus, lorsque c’est une voyelle phonologiquement nasale qui précède une consonne nasale (dans le cas de /O$QÉL/), le voile du palais s’abaisse avec retard au cours de la voyelle. Nous avons voulu savoir si ces observations étaient liées au fait que les voyelles /D,$/ sont en position inaccentuée dans les items présentés dans la Figure 10. Nous disposions en effet de données additionnelles (non inclues dans la quantification de la section précédente) pour les huit sujets de l’expérience, dont le détail est fourni dans la Table 12. Table 12. Données additionnelles pour les tracés aérodynamiques : items VN. Vm Vn /$/ ame Anne /(/ aime haine /o/ homme tonne 48 O D O ÉZ L Q $ Q ÉZ L Figure 10. Spectrogramme, signal, et tracés de débit d’air nasal (en bleu) et de débit d’air buccal (en vert). Items /ODQÉL/ (en haut) et /O$QÉL/ (en bas) pour le sujet féminin S6. 49 D P o P Figure 11. Spectrogramme, signal, et tracés de débit d’air nasal (en bleu) et de débit d’air buccal (en vert). Items /DQ/ (en haut) et /oP/ (en bas) pour le sujet féminin S6. 50 Ces items monosyllabiques VN combinent les consonnes nasales /P,Q/ avec les voyelles orales /D,(,o/, qui sont dès lors en position accentuée. La Figure 11 donne les tracés aérodynamiques pour deux de ces items, prononcés par S6 : /DQ/ et /oP/. Dans les deux cas, il n’y a pas de débit d’air nasal ou presque pendant la voyelle : le DAN entame sa montée en (2), à l’extrême fin de la voyelle orale ou au début de la consonne nasale. En résumé, les tracés aérodynamiques pour les items VN confirment qu’il y a très peu de nasalisation régressive en français. Les voyelles nasales elles-mêmes ne sont pas complètement nasalisées dans ce contexte. 3.4. Items NVN La Figure 12 (sujet S4) est représentative des courbes de débit mesurées au cours des items NVN pour les voyelles orales ayant une correspondante nasale (/Q(Q/) et pour les autres (/PLQ/). Les tracés de DAN et de DAB suivent des inflexions similaires dans les deux cas. A l’ouverture de la bouche pour la voyelle (1), le DAB augmente et le DAN diminue, puis les débits atteignent une phase de relative stabilité entre (2) et (3). A la fin de la voyelle, la langue s’approche du palais pour former l’occlusion alvéolaire, et le DAB diminue rapidement tandis que le DAN remonte. La synchronisation parfaite entre les deux courbes permet de supposer que le voile bouge peu pendant la séquence (il est abaissé), et que ce sont les modifications intervenant dans la cavité buccale qui sont principalement responsables de la diminution de DAN pendant la voyelle orale. La diminution est d’ailleurs moindre dans le cas de /PLQ/, tandis que le DAB n’atteint qu’un niveau assez faible parce qu’il s’agit d’une voyelle fermée (et nasalisée). Ce que montrent les données dans leur ensemble, c’est que les voyelles orales du point de vue phonologique sont entièrement nasalisées du point de vue de leur réalisation phonétique en contexte N_N. 51 Q ( P L Q Q () Figure 12. Spectrogramme, signal, et tracés de débit d’air nasal (en bleu) et de débit d’air buccal (en vert). Items /Q(Q/ (en haut) et /PLQ/ (en bas) pour le sujet masculin S4. 52 W W $ $ W W H Figure 13. Spectrogramme, signal, et tracés de débit d’air nasal (en bleu) et de débit d’air buccal (en vert). Items /W$W/ (en haut) et /W$WH/ (en bas) pour le sujet féminin S2. 53 3.5. Items CVC et CV.CV La Figure 13 présente les données concernant les items /W$W/ et /W$.WH/ prononcés par le sujet féminin S2. Les courbes de débit ont un comportement comparable, bien que la voyelle nasale soit en syllabe fermée accentuée dans le premier cas, et en syllabe ouverte inaccentuée dans le deuxième. En (1), le débit d’air buccal, qui était à son maximum pour le burst, redescend rapidement au moment où les cordes vocales se mettent à vibrer pour la voyelle nasale. C’est seulement 30 à 50 ms plus tard que le DAN entame sa montée (2), indiquant un abaissement relativement tardif du voile du palais après une consonne occlusive (Cf. p.36). A la fin de la voyelle nasale (4), l’occlusion buccale se forme, induisant une chute du DAB et une montée concomitante du DAN (alors que le voile n’a pas encore bougé). Ensuite seulement, c’est-à-dire pendant la consonne occlusive (5), le voile du palais commence à remonter. Le niveau zéro est atteint au moment où l’occlusion est relâchée pour le second /W/ (6). Les données aérodynamiques montrent donc que les mouvements du voile du palais et de la langue sont asynchrones dans les items de type C[occlusive] V C[occlusive]. Le voile du palais s’abaisse avec retard par rapport au début de la voyelle et remonte avec retard par rapport au début de la seconde consonne occlusive. La conséquence est qu’une occlusive précédant une voyelle nasale n’est pas nasalisée, alors qu’elle est prénasalisée après une voyelle nasale. 4. Discussion La Figure 14 propose un résumé des tracés de DAN observés en fonction des différents types d’items examinés ci-dessus. Il s’agit bien sûr de trajectoires idéalisées, qui visent à capturer l’essentiel de l’information en vue de la généralisation que nous proposons dans la présente discussion. 54 C[occlusive]V C[fricative/liquide]V VC[occlusive] NV NV(1) NV(2) VN NVN Figure 14. Résumé des tracés aérodynamiques de DAN. Tracés idéalisés pour les différents types d’items étudiés : C[occlusive]V ; C[fricative/liquide]V ; VC[occlusive] ; NV ; NV(1) /D,(,o/ ; NV(2) /L,X,\,H,R/ ; VN ; NVN. Les lignes rouges, vertes et bleues font référence aux prédictions du modèle adopté par Cohn (1990, voir texte). 55 Les paramètres aérodynamiques de la nasalité en français n’ont pas fait l’objet d’une étude systématique dans la littérature, à l’exception notable de l’étude réalisée par Abigail Cohn en 1990 sur deux locuteurs masculins (de Paris et d’Aix-en Provence). Considéré dans son ensemble, le corpus de Cohn (1990) est relativement comparable à celui de notre étude aérodynamique. Quelques différences existent cependant : notre corpus ne compte pas de semi-voyelles, alors qu’elles sont systématiquement étudiées dans Cohn (1990). Nous n’avons pas non plus considéré les séquences VV, VV ou NN, qui franchissent souvent la frontière de mot. Par contre, nous avons inclus dans nos itemss les consonnes fricatives et les voyelles orales /L,\,X,H,R/. Malgré ces différences, la majeure partie des résultats présentés ici convergent avec ceux obtenus par Cohn (1990). Ainsi, à l’exception du cas des items NVN, l’ensemble des trajectoires idéalisées de la Figure 14 sont en accord avec celles rapportées par Cohn. En ce qui concerne les items NVN, nos données indiquent sans équivoque que les voyelles orales du français sont extrêmement nasalisées en contexte phonologique nasal, alors qu’après différents calculs Cohn conclut que dans ce contexte, la nasalisation des voyelles /D,(,o/ est importante mais pas maximale (pp.121-122). Obtenus sur un ensemble plus large de voyelles, nos résultats permettent de contester l’hypothèse selon laquelle il existe un plafond de nasalité pour les voyelles phonologiquement orales lorsqu’elles sont en contexte nasal (Cohn, 1990, pp. 122 et 124). Ainsi, les résultats obtenus indépendamment et à dix ans d’intervalle par Cohn (1990) et par notre étude aérodynamique permettent d’établir l’existence d’un ensemble de faits en ce qui concerne l’évolution temporelle des paramètres aérodynamiques pour les séquences oralenasale en français. Si les faits sont établis, leur interprétation varie néanmoins selon le point de vue théorique adopté. Nous allons à présent envisager ces diverses interprétations en rapport avec la vision du phénomène d’implémentation phonétique des représentations phonologiques qui les sous-tend. Le modèle d’implémentation phonétique adopté par Cohn (1990, 1993) est le « targetinterpolation model » (Pierrehumbert, 1980, Pierrehumbert et Beckman 1988). Ce modèle pose qu’au sortir de la phonologie les spécifications pour les traits sont traduites en cibles phonétiques possédant une durée propre, et que ces cibles phonétiques sont ensuite interpolées suivant un certain nombre de règles. Ainsi, Cohn rend compte de l’ensemble de la variation observée pour le DAN en français en faisant appel à quatre types de phénomènes : (1) Les spécifications phonologiques pour le trait de nasalité. En quittant la phonologie, les voyelles nasales et les consonnes nasales sont [+N], les voyelles orales et les occlusives orales sont [-N], et les autres consonnes restent non spécifiées pour le trait de nasalité : les 56 fricatives, les liquides et les semi-voyelles sont [2N]. Ceci implique qu’en l’absence de règles phonologiques ou phonétiques spécifiques, les voyelles nasales ont un DAN élevé pendant toute leur durée, de même que les consonnes nasales, alors que le DAN est nul pour les voyelles orales et les consonnes orales, si ce n’est au cours d’éventuelles transitions avec des sons nasals. Les cibles prédites par les spécifications phonologiques sont schématisées par des lignes horizontales rouges dans la Figure 14. De plus, les segments [2N] (les liquides et les semi-voyelles, dans le corpus de Cohn) sont transparents vis-à-vis de l’interpolation entre cibles [+N] et [-N], et sont donc relativement nasalisés dans ce cas (Cf. l’oblique rouge pour les items C[fricatives/liquides] V dans la Figure 14). (2) Les priorités dans les transitions. Même si les cibles ont une durée propre, il reste une place en début et en fin de segment pour les transitions avec d’autres segments. Lorsque deux segments divergent au point de vue de leur cible phonétique (par exemple [+N] vs. [-N]), la transition d’une cible à l’autre se fait soit à la fin d’un segment, soit au début de l’autre, selon les règles établies de priorités dans les transitions. Ces règles phonétiques étant spécifiques aux différentes langues, elles appartiennent à la grammaire de ces langues selon Cohn (1993, p.45). Deux règles sont proposées pour le français. La première règle stipule que le segment nasal a toujours priorité sur le segment non nasal, et donc que la transition se fait pendant le son oral. La seconde règle fait état d’une exception à la première quand une occlusive orale précède une voyelle nasale, auquel cas la transition prend place pendant la nasale. Ces deux règles permettent de rendre compte d’une grand partie des transitions observées entre segments oraux et nasals, tant dans nos données que dans celles de Cohn (1990). La Figure 14 schématise les transitions prédites par ces deux règles au moyen de barres obliques vertes. (3) Les règles phonologiques spécifiques. Les phénomènes dont on ne peut manifestement pas rendre compte en invoquant les facteurs (1) et (2) ci-dessus sont considérés comme faisant l’objet de règles phonologiques spécifiques à la langue concernée. Pour le français, Cohn propose trois règles de ce type : la « nasal deletion rule », la « syllable onset default rule » et la « onset assimilation rule ». Nous nous intéresserons essentiellement à la première de ces règles, étant donné que les deux autres sont énoncées pour rendre compte de particularités propres aux semi-voyelles, et aux liquides en contexte _.NV (qui n’apparaissent pas dans notre corpus). La « nasal deletion rule » stipule qu’après un segment [+N], un segment [-N] voit sa spécification pour le trait de nasalité effacée. Il devient [2N], ce qui lui vaut d’être traversé par la nasalisation en provenance de voisin(s) nasalisé(s). Cette règle permet de rendre compte de la différence nette qui existe entre nasalisation progressive et 57 nasalisation régressive en français. Ses prédictions quant aux trajectoires de DAN sont indiquées par des lignes bleues sur la Figure 14. (4) Les contraintes phonétiques. Il s’agit des conditions imposées par le composant phonétique sur la réalisation de certains sons, comme par exemple la nécessité pour une occlusive d’être entièrement orale à son relâchement. Ces contraintes ne sont pas nécessairement universelles pour Cohn (1990, p.125) et ne peuvent en aucun cas prendre le pas sur les contraintes d’ordre phonologique. L’auteur a recours aux contraintes phonétiques pour expliquer une nasalité inférieure au niveau attendu dans les occlusives sonores et dans les voyelles lorsqu’elles sont entre deux segments nasals (ce qui n’apparaît pas dans nos données, comme nous l’avons rappelé ci-dessus). Comme on le voit, ce modèle permet de rendre compte de phénomènes variés à partir d’un certain nombre de principes simples. La conception des relations entre phonétique et phonologie qui sous-tend la proposition n’est pas celle d’une phonétique traduisant automatiquement les spécifications phonologiques. On ne recourt aux contraintes phonétiques proprement dites (4) qu’en dernier lieu pour expliquer la variété des réalisations phonétiques, tout en précisant que ces contraintes, même si elles sont imposées par le système perceptuel et l’appareil vocal humain, n’induisent pas une réponse unique dans les langues du monde. Auparavant, l’auteur fait appel aux règles de priorité dans les transitions (2), qui sont considérées comme des règles phonétiques, appartenant pourtant à la grammaire de la langue. La phonétique n’est donc pas une opération d’ordre automatique qui survient en dehors du champ linguistique proprement dit. Cependant, ces règles phonétiques spécifiques à la langue ne s’étendent pas, dans le modèle proposé par Cohn, au-delà des bordures du segment : elles sont confinées aux transitions (gradientes, par définition). Lorsqu’il s’agit de rendre compte de la différence nette (qualitative) de nasalisation qui existe entre les voyelles orales phonologiques selon qu’elles suivent ou qu’elles précèdent une consonne nasale, Cohn (1990) a recours à une règle phonologique spécifique au français (3), la « nasal deletion rule ». Ainsi, à la suite de Keating (1988) et de Pierrehumbert (1990), le modèle proposé par Cohn pour rendre compte de l’implémentation phonétique de la nasalité en français s’inscrit dans une vision que nous avons qualifiée dans l’introduction (pp.4 et suivantes) de vision « postgénérativiste » de la répartition des tâches entre phonétique et phonologie, et ce, dans la mesure où Cohn attribue à la phonologie d’une langue les différences qualitatives (vs. gradientes) qui caractérisent les variantes contextuelles d’un même phonème. Différents auteurs se sont intéressés à la place à attribuer (au sein de la phonologie ou de la phonétique ?) à la nasalisation non contrastive dans d’autres langues que le français. Ainsi, Solé et Ohala (1991), et Solé (1992, 1995), ont étudié la coarticulation nasale en 58 espagnol et en anglais américain, afin de déterminer si celle-ci était due à des phénomènes phonétiques universels et automatiques, ou bien à des facteurs phonologiques spécifiques à ces langues. Ils ont comparé l’amplitude de la coarticulation régressive nasale dans les deux langues, et ce à différents débits de parole, du plus lent au plus rapide. Les résultats montrent que la nasalisation varie avec le débit de parole pour les anglophones, alors qu’elle a une durée fixe pour les hispanophones. Les auteurs concluent que la nasalisation est purement mécanique en espagnol, alors qu’elle est phonologique en anglais américain, c’est-à-dire qu’elle fait partie du plan des locuteurs lorsqu’ils prononcent des séquences de type VN. Solé (1992) propose une explication d’ordre perceptuel à ce changement phonétique. Ainsi, pour Solé et Ohala, le changement phonétique est phonologisé dans la mesure où la nasalisation fait partie du programme du locuteur lors de la production de ces voyelles, c’est-à-dire que la cible est délibérément nasalisée. C’est précisément ce type de phénomène que Kingston et Diehl (1994) proposent d’inclure dans le champ de la connaissance phonétique. En effet, dans le cas de l’anglais américain, la nasalisation n’est manifestement pas le produit de contraintes d’ordre purement mécanique, mais elle fait partie des propriétés nécessaires à la réalisation appropriée du son dans la communauté linguistique concernée. L’hypothèse du contrôle n’inclut pourtant pas dans la phonologie la nasalisation contextuelle de ce type parce qu’aucun contraste phonologique ne s’appuie sur la propriété phonique de nasalité dans ces langues. L’interprétation proposée par Cohn (1993) dans le cas de l’anglais américain est que la nasalisation relève de la phonétique, car elle résulte de l’interpolation entre un segment [-N] et un segment [+N] à travers la voyelle orale, qui est non spécifiée pour le trait de nasalité, soit [2N]. Ce type d’interprétation n’est pas valable pour le français puisque un contraste phonologique existe entre voyelles nasales [+N] et voyelles orales [-N]. C’est pourquoi Cohn (1990, 1993) énonce la « nasal deletion rule » dont nous avons parlé plus haut. Nous considérons, quant à nous, que la position défendue par Kingston et Diehl, qui consiste à situer ces phénomènes au sein de la connaissance phonétique (soit en dehors du cadre de la phonologie ou de la phonétique proprement dites), est d’un intérêt capital dans le cas du français. En français, en effet, il est plus qu’ailleurs nécessaire de distinguer entre la nasalisation d’ordre phonologique, qui est l’une des oppositions structurant le système vocalique, et la nasalisation d’ordre phonétique, qui dans de nombreux cas s’étend bien audelà de la durée nécessaire au voile du palais pour reprendre position. Un modèle d’implémentation phonétique différent de celui choisi par Cohn (1990) consiste donc à considérer les faits aérodynamiques examinés plus haut comme résultant de l’action du mécanisme de contrôle phonétique, qui s’exerce à l’intérieur des limites fixées par (i) le système phonologique du français en général, (ii) les spécifications phonologiques des 59 segments pour le trait de nasalité en particulier, et (iii) l’ensemble des contraintes imposées par l’utilisation de l’appareil vocal et du système auditif humain12. Comme le modèle de Cohn (1990), l’hypothèse du contrôle prédit que les consonnes et les voyelles phonologiquement nasales sont phonétiquement nasalisées pour l’ensemble de leur durée ou presque. Peut-être laisse-t-elle plus de marge pour rendre compte du fait qu’avant une consonne nasale, une voyelle nasale n’est nasalisée que relativement tardivement (Cf. p.51). Encore faudrait-il spécifier quel avantage (en production ou en perception) un tel retard est susceptible d’apporter à la réalisation phonétique de la nasale (ou de la consonne voisine), ce dont nous sommes incapable à ce stade de la recherche. Par ailleurs, on peut considérer que la priorité des segments nasals sur les segments non nasals dans les transitions (invoquée par Cohn en (2) ci-dessus) est une tendance phonétique universelle, vu la généralité dans les langues du monde des phénomènes de coarticulation nasale (Ladefoged et Maddieson, 1996)13. Une grande partie de la variation observée en français dans l’étendue de la coarticulation nasale peut sans doute s’expliquer par l’intervention de contraintes concurrentes relatives aux conditions de production des sons concernés. C’est-à-dire que la tendance est à la coarticulation des sons nasals vers les sons non nasals [-N] et [2N], sauf si des contraintes liées à leur production (ou à leur perception) empêchent ces sons d’être (plus) nasalisés. Ainsi, Cohn (1990) rend compte de l’absence de nasalisation des consonnes occlusives sourdes [-N] en contexte _V par une règle de priorité inversée de transitions qui s’applique uniquement à ce cas. Puis elle fait appel aux contraintes phonétiques lorsqu’il s’agit d’expliquer pourquoi les consonnes occlusives sonores [2N] ne sont pas nasalisées jusqu’à la fin en contexte N_N. Nous pensons qu’un phénomène unique est à l’oeuvre dans les deux cas : pour les occlusives, tant sourdes que sonores, les contraintes aérodynamiques imposent que l’occlusion soit totale juste avant la fin de la consonne, afin que la pression monte suffisamment et qu’un bruit d’explosion soit audible au moment du relâchement. On peut donc nasaliser le début, mais pas la fin d’une occlusive. Ceci explique l’assymétrie observée pour les consonnes occlusives vis-à-vis de la nasalisation contextuelle, selon qu’elles précèdent ou qu’elles suivent une voyelle nasale (Cf. p.54). Des contraintes spécifiques du même type s’appliquent dans le cas des fricatives et des liquides. En effet, le modèle proposé par Cohn (1990) prédit erronément que pour toutes ces consonnes [2N], le DAN entamera sa montée avant une voyelle nasale dès le début de la 12 Voir l’introduction (pages 4 et suivantes) pour un exposé critique de la proposition de Kingston et Diehl (1994). Le phénomène de diffusion du trait oral (« oral spreading ») attesté dans certaines langues est considéré dans cette hypothèse comme relevant du domaine de la phonologie, c’est-à-dire qu’il manipule les valeurs prises par les traits phonologiques. 13 60 consonne. En fait, nos données montrent que ce n’est le cas que pour les liquides. Dans le cas des fricatives, le DAN monte à la fin de la fricative seulement, dans la transition avec la voyelle (Cf. pp.38 à 41). En effet, les contraintes aérodynamiques sur la production des fricatives sont particulièrement sévères, puisque le flux de l’air à travers la cavité pharyngo-buccale doit devenir turbulent. Si le voile du palais est abaissé tout au long de cette consonne, l’air s’échappe par les fosses nasales, et la montée de pression en amont de la constriction n’est pas suffisante pour que se crée la turbulence (Ohala, 1975). En français, le voile entame sa descente à la fin de la fricative, ce qui précipite la chute de pression et l’extinction de la turbulence. On peut se demander pourquoi la montée de DAN n’est pas simplement synchronisée avec la vibration des cordes vocales. Nous tentons une explication dans le cadre de l’hypothèse du contrôle. La proposition (à vérifier) est que les locuteurs s’assureraient de cette manière que les voyelles nasales sont, dès le début, fortement nasalisées, et éviteraient ainsi que les auditeurs n’attribuent les pôles et zéros additionnels présents dans le spectre de la voyelle aux résonances sous-glottiques induites par la fricative voisine. Ohala et Busa# (1995) ont proposé en effet que, réinterprétées erronément par les auditeurs, ces résonances sousglottiques sont à l’origine de plusieurs cas de nasalisation « spontanée », qui surviennent prioritairement lorsque une voyelle avoisine une consonne pour laquelle la glotte est très ouverte, telle que /K/ ou l’une des fricatives sourdes /I,7,V,6,;,[/. L’hypothèse est donc que les locuteurs font usage de leur connaissance phonétique dans les limites imposées par les contraintes aérodynamiques sur la production des fricatives. Un autre phénomène présent dans nos données ne trouve pas d’explication satisfaisante dans le cadre du modèle d’interpolation des cibles appliqué au français par Cohn (1990). Il s’agit du débit d’air nasal particulièrement important mesuré pour les voyelles /L,\,X,H,R/ par rapport aux voyelles /D,(,o/, alors que toutes ces voyelles sont [-N]. Comme nous l’avons vu plus haut, l’explication réside en partie dans les différences de configuration orale qui existe entre ces voyelles. Dans le cas des items NV pourtant, les données indiquent que le voile du palais ne remonte que très tard dans la voyelle, voire pas du tout s’il s’agit de /L,\,X,H,R/, alors que le voile remonte au plus tard dès le milieu de la voyelle pour /D,(,o/ (Cf. p.44). Par contre, quelle que soit la voyelle concernée, le voile reste abaissé tout au long des séquences NVN. Ici pourrait intervenir selon nous une contrainte de type systémique, c’est-àdire une contrainte liée à la structuration particulière des oppositions phonologiques au sein du système vocalique du français. Ce type de contrainte rend compte du fait que la réalisation phonétique d’un phonème donné (vis-à-vis notamment de la coarticulation) dépend des contrastes phonologiques qu’il entretient avec les autres phonèmes de la langue (Manuel, 61 1990). Dans le cas qui nous occupe, une contrainte systémique stipule qu’une voyelle phonologiquement orale sera d’autant moins nasalisée contextuellement qu’elle risque d’être interprétée par les auditeurs comme une voyelle phonologiquement nasale. Cette contrainte prédit qu’il y aura toujours plus de coarticulation nasale pour les orales /L,\,X,H,R/, qui n’ont pas de correspondante phonologique nasale, que pour les voyelles /D,(,o/, qui doivent maintenir un contraste avec /$,(,o/. On suppose également que /D,(,o/ pourront être fortement nasalisées dans les syllabes fermées de type NVN car il est impossible qu’une voyelle nasale apparaisse dans ce contexte en français. Il faut noter cependant que les suites NV.NV sont tout à fait permises en français, et qu’elles peuvent alors entrer en compétition avec des items NVN resyllabifiés en NV.NV à la suite de la loi d’enchaînement. Par exemple, [P(P]+[L.VL] devient dans la chaîne parlée [P(.PL.VL] « même ici » et entre en contraste avec des items du type : [P(.PL]] « main mise ». Ce dernier exemple permet de souligner l’une des grandes questions posées par l’étude aérodynamique de la nasalité en français : vu le fort taux de nasalité phonétique présent en français, et malgré l’influence apparente de contraintes comme celle que l’on vient de citer, les différences de taux de nasalité sont-elles suffisantes pour supporter à elles seules un contraste phonologique aussi fécond que le contraste de nasalité pour les voyelles du français ? Le contraste de nasalité s’appuie-t-il en français sur d’autres phénomènes que sur l’abaissement du voile du palais et ses conséquences acoustiques caractéristiques ? Les études articulatoire et acoustique menées dans le Chapitre 2 (p.64) et le Chapitre 3 (p.92) devront apporter une réponse à cette question. Dans l’affirmative, il sera possible de proposer que l’étendue de la nasalité phonétique observée dans certains contextes en français en opposition à d’autres peut faire l’objet d’une stratégie contrôlée de la part des locuteurs. En effet, nous avons affirmé plus haut que les variantes contextuelles pour les voyelles orales précédant ou suivant une consonne nasale relèvent de la connaissance phonétique plutôt que de la phonétique automatique ou de la phonologie. Dans cette hypothèse, une réorganisation des articulations a conduit en français à l’existence de deux catégories phonétiques distinctes pour les voyelles orales du point de vue phonologique : les voyelles fortement nasalisées (après une consonne nasale, ou entre deux nasales) et les voyelles faiblement nasalisées (avant une consonne nasale). Quelles pourraient être les motivations d’une telle réorganisation ? Une « condition négative » pesant sur la nasalisation des voyelles orales précédant une consonne nasale pourrait être liée au fait qu’historiquement les voyelles nasales se sont développées à la suite précisément de phénomènes de nasalisation régressive (Straka, 1979). La langue bloquerait désormais ce type de nasalisation contextuelle en priorité. Une « condition positive » favorisant 62 la nasalisation des orales qui suivent une consonne nasale est moins facile à déterminer14, même s’il ne faut pas négliger les avantages apportés à la production de séquences de sons lorsque la langue autorise une grande liberté de coarticulation entre ces sons. Le facteur clé réside ici dans la possibilité, pour le contraste phonologique de nasalité, d’être porté par d’autres propriétés phonétiques que celles automatiquement engendrées par l’abaissement du voile du palais. C’est sur cette possibilité que nous fondons notre étude comparée des paramètres articulatoires et acoustiques des voyelles orales et nasales du français auxquels sont consacrés les deux chapitres suivants. 14 Nous développons néanmoins une hypothèse quant à une condition de cette nature dans la discussion du chapitre suivant (pp.87 et suivantes). 63 Chapitre 2 Etude articulatoire 1. Matériel et méthode L’étude articulatoire a été réalisée à l’Unité de Résonance Magnétique de l’hôpital Erasme, à Bruxelles, au cours de l’hiver 2000. 1.1. Sujets Parmi les huit sujets qui ont pris part à l’étude aérodynamique, quatre ont participé à l’étude articulatoire. Il s’agit des deux locuteurs féminins S1 et S2 et des deux locuteurs masculins S3 et S4. Ces quatre locuteurs ont également participé à l’étude acoustique présentée dans le chapitre 3 (pp. 92 et suivantes). 1.2. Corpus De même que les participants, le corpus est commun aux études articulatoire et acoustique, afin de permettre une analyse comparée des résultats. Le corpus diffère par contre de celui de l’étude aérodynamique, comme le montre la Table 13 : Table 13. Corpus des études articulatoire et acoustique. Les barres obliques et les crochets sont utilisés pour distinguer entre les séquences VVV où V est un phonème nasal et celles où V est une voyelle nasalisée (Cf. texte).  NV CV CV VN /VVV/ [VVV] CV VC[occlusive] CV VC[fricative] NVN NV D/ $ PDSD SDDP /D$D/ >DDD@ S$$S V$$V PDPP$ (/ ( P(S( S((P /(((/ >(((@ S((S V((V P(PP( o/ o PoSo SooP /ooo/ >ooo@ SooS VooV PoPPo S¡¡ V¡¡V P¡PP¡   ¡/ ¡ P¡S¡ S¡¡P /¡¡¡/ >¡¡¡@ PLSL SLLP    H PHSH SHHP    2 P2S2 S22P      X PXSX SXXP      R PRSR SRRP      L   Le corpus est constitué de 38 séquences de logatomes contenant les voyelles nasales /$,(,o,¡/, les orales correspondantes /D,(,o,¡/ et les autres orales /L,H,2,X,R/ placées en différents contextes phonologiques, oral ou nasal. La différence majeure avec les items de l’étude aérodynamique réside dans le fait que les séquences orale-nasale sont ici constituées 65 de non mots. Elles ont d’ailleurs été proposées en alphabet phonétique international aux locuteurs, qui étaient tous les quatre formés à la phonétique. L’utilisation de non mots permet d’inclure la voyelle nasale /¡/ dans tous les environnements souhaités : même si /¡/ a une faible distribution lexicale, les séquences phonologiques visées sont tout à fait permises en français. On résout également les problèmes rencontrés dans l’étude aérodynamique, où l’utilisation de mots existant en français a parfois mené à des divergences dans le type de syllabe portant les voyelles étudiées, ou bien dans la position de ces voyelles par rapport à l’accent et à la frontière de mot. Par ailleurs, nous avons inclus dans le corpus des séquences contenant des sons qui ne sont pas des phonèmes du français. C’est le cas des séquences [VVV] (Cf. Table 13, 4e colonne). L’objectif de ces séquences est d’obtenir des voyelles nasalisées au sens strict du terme, c’est-à-dire des voyelles qui diffèrent de leur correspondante orale uniquement par la position du voile (plus abaissée). Pour ce faire, nous avons demandé aux quatre locuteurs de produire les séquences [VVV] sans effectuer de pause et en maintenant les articulateurs dans la même position du début à la fin de la séquence, à l’exception du voile du palais. Après quelques minutes d’entraînement, les locuteurs sont parvenus à accomplir la tâche demandée avec succès, comme le montrent les images obtenues (Cf. p.104). 1.3. Matériel et technique L’Imagerie par Résonance Magnétique (IRM) est une technique d’imagerie fondée sur les propriétés des atomes d’hydrogène lorsqu’ils sont soumis à un champ magnétique. Elle a l’avantage d’être non invasive et non ionisante, donc sans danger pour le corps humain. La machine utilisée pour les expériences articulatoires est un système à 1.5 Tesla équipé de gradients rapides (CompactPlus, PowerTrack 6000 de Philipps). Les sessions expérimentales ont été effectuées sous la direction de Thierry Metens, qui supervise l’IRM effectuée à des fins médicales et scientifiques à l’hôpital Erasme de Bruxelles. Nous avons utilisé la technique dite « d' IRM temps réel » mise au point par Thierry Metens, Alain Soquet et Didier Demolin (Demolin et al. 2002). Comme son nom l’indique, cette technique permet d’obtenir en temps réel des images du conduit vocal et donc d’étudier ses mouvements au cours du temps. La résolution spatiale est moindre que dans le cas de l’IRM dite « statique », mais on peut étudier en IRM dynamique des voyelles placées en contexte, et non plus uniquement des voyelles isolées, soutenues pendant plusieurs secondes. Chaque session expérimentale commence par l’acquisition d’images statiques (en coupe transversale) des structures occipitales du locuteur. Puis on détermine sur ces images 66 anatomiques la position exacte d’une coupe médio-sagittale de 6 mm d' épaisseur à acquérir en IRM temps réel. Ensuite, au cours de l’expérience proprement dite, la coupe médio-sagittale est acquise de façon continue pendant 15 secondes à raison de 5 images par seconde. Pour chaque acquisition de 15 secondes, le locuteur est amené par stimulation visuelle à répéter l' une des séquences de sons du corpus. Le signal de parole est enregistré de façon synchronisée grâce à un microphone optique placé à quelques centimètres de la bouche du locuteur (Branderudt, communication personnelle). En raison du bruit émis par la machine, le signal obtenu n' est pas exploitable pour une analyse acoustique fine. On peut cependant associer chaque image avec la portion de signal (200 ms) au cours de laquelle elle a été prise, et donc associer les articulations observées avec le phonème prononcé. En effet, les durées vocaliques moyennes obtenues lors de l’étude aérodynamique sont de 223.6 ms pour les voyelles nasales, 172.9 ms pour les orales correspondantes, et 168.7 ms pour les autres orales (Table 8, p.28). Malgré le temps pris pour l’acquisition d’une image, à savoir les 100 premières millisecondes de la période totale de 200ms qui la sépare de l’acquisition suivante, il est donc possible d’isoler les phénomènes articulatoires caractéristiques de la production d’une voyelle donnée au sein d’une seule image IRM. Sur les sept ou huit répétitions effectuées par le sujet lors d’une acquisition de 15 secondes, on en a donc retenu trois sur la base du signal acoustique, de sorte que l’image acquise coincide dans chaque cas avec la production de la voyelle, à l’exclusion de la (des) consonne(s) environnante(s). 67 3 1 2 Figure 15. Interface utilisateur de l’application logicielle destinée à visualiser et à traiter les données IRM. 68 1.4. Traitement des données A l’aide du logiciel auteur multi-média iShell (www.tribeworks.com), nous avons personnellement programmé une application logicielle destinée à répondre aux besoins spécifiques de l’étude articulatoire. La Figure 15 donne une copie de l’écran proposé à l’utilisateur du logiciel. D’une part, notre application permet de visualiser les images obtenues en relation avec le signal acoustique et de naviguer rapidement d’une image à l’autre suivant les répétitions, les séquences et les locuteurs. D’autre part, l’application a été conçue de façon à opérer un prétraitement des données IRM en vue de leur analyse. Ainsi, le profil des différents articulateurs a été redessiné manuellement sur chaque image IRM apparaissant à l’écran, puis stocké indépendamment de cette image, ce qui permet d’afficher le profil en superposition avec d’autres profils articulatoires, en l’absence des images elles-mêmes. Deux questions méthodologiques se posent lorsque l’on utilise une telle méthode : (1) une question de précision et (2) une question de référence. (1) La question de la précision. Redessiner le profil des articulateurs à main levée introduit une certaine marge d’erreur dans les données qui seront finalement examinées. Néanmoins, cette marge d’erreur doit être évaluée par rapport à la précision des images elles-même. En effet, les images d’IRM dynamique ont une résolution spatiale relativement pauvre, quoique satisfaisante dans la mesure où elle permet de déterminer la limite air-tissus. En ce qui concerne cette limite, la précision des images est de l’ordre de 1 pixel, soit en l’occurence de 3 mm. En tout état de cause, l’erreur introduite par un utilisateur entraîné lorsqu’il retrace le profil des articulateurs ne dépasse pas ce seuil de 1 pixel. L’examen des figures proposées dans la section 2 (pp.70 et suivantes) permet d’affirmer que la variabilité intra-classes (éventuellement imputable à l’utilisateur du logiciel) est nettement inférieure à la variabilité inter-classes. (2) La question de la référence. Au cours d’une session expérimentale (d’une durée habituelle de deux heures), il arrive que le locuteur désire changer de position entre deux acquisitions. Dans ce cas, on procède au repositionnement de la coupe médiosagittale à acquérir en fonction de la nouvelle position du sujet dans l’espace défini par le champ magnétique. Si l’on veut superposer les profils obtenus pour des images prises sur un même sujet au cours d’acquisitions différentes, il convient donc de repositionner ces différents profils les uns par rapport aux autres. Nous avons utilisé à cette fin un système de trois points de référence, que nous avons placés sur des structures anatomiques fixes et visibles sur toutes les images IRM relatives à un même 69 sujet. La position spécifique des trois points est illustrée pour S4 dans la Figure 15. Le point 1 est situé entre l’os sphénoïde et la première vertèbre. Le point 2 est situé sur un axe parallèle à la paroi pharyngale passant par le point 1, là où il rencontre le disque placé entre les vertèbres cervicales 3 et 4. Le point 3 est situé à l’intersection de l’extrémité du cartilage nasal et d’un axe parallèle à l’os du palais dur passant par le point 1. Une fois la place des trois points arrêtée pour un sujet donné, le système d’axes de référence propre à ce sujet était définitivement déterminé. Pour les images suivantes, les trois points restaient fixes les uns par rapport aux autres, et seul le système d’axes dans son entier était autorisé à bouger si nécessaire (soit par translation, soit par rotation). Les figures qui illustrent l’étude articulatoire (voir section 2, pp. 70 et suivantes) consistent donc en diverses superpositions des profils des articulateurs après réalignement de ces profils (si nécessaire) en fonction du système d’axes de référence propre au sujet concerné. Les figures proposées concernent toujours un même sujet, et comparent la production de différentes voyelles : orales vs. nasales correspondantes, orales en divers contextes, etc. (trois répétitions par voyelle). 2. Résultats 2.1. Voyelles nasales vs. voyelles orales correspondantes Le corpus (Table 13, p.65) a été construit de façon à permettre la comparaison entre les propriétés articulatoires des voyelles nasales du français et celles des orales correspondantes. Nous présentons dans cette section un ensemble de comparaisons entre les orales et les nasales phonologiques, telles qu’elles ont été prononcées dans les séquences /VVV/ d’une part, et NVN NV d’autre part. Dans les séquences /VVV/, on suppose que la nasalité contextuelle est minimale pour les orales, parce que chaque orale est soutenue plusieurs secondes avant ou après la voyelle nasale. Dans les séquences NVN NV, la nasalité contextuelle est supposée maximale pour la voyelle orale, et la voyelle nasale avec laquelle elle est comparée est également placée en contexte phonologique nasal. a. /D/ vs. /$/ La Figure 16 donne les profils articulatoires comparés pour les voyelles /D/ et /$/, prononcées dans des séquences /VVV/ et /NVN NV/ par un locuteur féminin (S2) et par un locuteur masculin (S4). Ces voyelles diffèrent dans la position du voile pendant leur production : le voile est plus abaissé pour la nasale. Ce n’est pas toujours le cas dans les 70 séquences NVN NV, comme l’illustre la Figure 16 pour S4. De façon générale, le voile a déjà une position relativement basse pour la voyelle ouverte /D/ en français (Cf. Figure 21 p.79). La nasale diverge de l’orale antérieure sous bien d’autres aspects : /$/ est une voyelle plus ouverte, plus postérieure et plus arrondie que /D/. Ces différences articulatoires sont plus prononcées en contexte N_(N) que lors des voyelles soutenues, en séquence /VVV/. Une différence majeure entre sujets masculins et féminins réside dans la taille de la constriction pharyngale, tant pour les orales que pour les nasales : la place laissée au passage de l’air est nettement plus réduite chez les femmes, si l’on en juge par cette vue médio-sagittale. b. /(/ vs. /(/ La Figure 17 permet d’illustrer les profils articulatoires obtenus pour les voyelles /(/ quand on les compare aux voyelles /(/. Les données concernent ici le sujet féminin (S1) et le sujet masculin (S3). La différence articulatoire est très nette entre ces deux voyelles. De façon consistante, pour tous les sujets et dans tous les contextes, /(/ est une voyelle plus postérieure et plus ouverte que /(/. Pour les sujets féminins, la racine de la langue peut être très proche du pharynx. Enfin, le voile est plus abaissé pour les nasales, mais la différence est souvent réduite dans les séquences NVN NV, comme par exemple pour S1 dans la Figure 17. c. /o/ vs. /o/ On donne dans la Figure 18 les profils articulatoires comparés des voyelles /o/ et /o/, obtenus pour les sujets S1 et S3. Comme précédemment, la différence de position du voile entre voyelles orales et voyelles nasales est plus prononcée dans les séquences /VVV/. L’observation la plus régulière en ce qui concerne les autres paramètres articulatoires est que la nasale /o/ est plus arrondie que l’orale correspondante /o/. Chez les hommes, la position de la langue diffère peu entre /o/ et /o/ dans les séquences /VVV/. Dans les autres contextes, et chez les femmes en général, /o/ est une voyelle plus arrière que /o/, et parfois plus fermée. La racine de la langue est alors très proche de la paroi pharyngale chez les sujets féminins, si l’on en juge par nos vues médio-sagittale. Enfin, dans tous les cas, la partie médiane du voile se dépose sur la langue (dans le creux sagittal lors de la production de /o/. 71 S2 S4 VVV /D/ /$/ NVN NV Figure 16. Profils articulatoires comparés pour /D/ (en gris) vs. /$/ (en noir) dans les items VVV (en haut) et NVN NV (en bas). Trois répétitions par voyelle pour le sujet féminin S2 (à gauche) et pour le sujet masculin S4 (à droite). 72 S1 S3 VVV /(/ /(/ NVN NV Figure 17. Profils articulatoires comparés pour /(/ (en gris) vs. /(/ (en noir) dans les items VVV (en haut) et NVN NV (en bas). Trois répétitions par voyelle pour le sujet féminin S1 (à gauche) et pour le sujet masculin S3 (à droite). 73 S1 S3 VVV /o/ /o/ NVN NV Figure 18. Profils articulatoires comparés pour /o/ (en gris) vs. /o/ (en noir) dans les items VVV (en haut) et NVN NV (en bas). Trois répétitions par voyelle pour le sujet féminin S1 (à gauche) et pour le sujet masculin S3 (à droite). 74 S2 S4 VVV /¡/ /¡/ NVN NV Figure 19. Profils articulatoires comparés pour /¡/ (en gris) vs /¡/ (en noir) dans les items VVV (en haut) et NVN NV (en bas). Trois répétitions par voyelle pour le sujet féminin S2 (à gauche) et pour le sujet masculin S4 (à droite). 75 d. /¡/ vs. /¡/ La Figure 19 est représentative des données obtenues pour les voyelles /¡/ et /¡/ dans les séquences /VVV/ et NVN NV. Au delà de la différence éventuelle dans le degré d’abaissement du voile, qui est parfois inexistante dans les séquences NVN NV, les nasales sont en général plus ouvertes et/ou plus rétractées que les orales correspondantes, en particulier chez les sujets féminins. Les tendances sont donc comparables à celles observées pour la paire /(,(/, mais les différences sont ici moins marquées. 2.2. Les quatre voyelles nasales du français La Figure 20 compare les profils articulatoires des voyelles nasales deux à deux, soit respectivement les antérieures /(,¡/ et les postérieures /$,o/. On donne ici les images obtenues pour S2 dans les séquences /VVV/. a. La position du voile. La position du voile varie selon la voyelle nasale considérée, mais aussi parfois en fonction du locuteur et du contexte. Très fréquemment pourtant, on constate qu’il existe une relation entre la position du voile du palais et celle de la langue dans la région vélaire. Ainsi, le voile est généralement le plus bas pour /$/, voyelle très ouverte, et le plus haut pour /o/, voyelle postérieure mi-ouverte, voire mi-fermée. Les images médio-sagittales de la Figure 20 confirment le fait que, dans le cas de /o/, la partie médiane du voile se dépose sur le dos de la langue : il ne pourrait donc pas descendre plus bas. C’est également ce qu’ont trouvé Demolin et al. (sous presse) à partir de coupes obliques prises en IRM statique sur des voyelles soutenues15. Enfin, le voile a une position intermédiaire pour /(/ et /¡/, deux voyelles antérieures mi-ouvertes, par lesquelles l’uvula n’entre que rarement en contact avec la langue. Contrairement à ce que laissait supposer l’étude aérodynamique, le voile n’a donc pas une seule position d’abaissement, commune à toutes les voyelles nasales. Plus la voyelle nasale est ouverte, plus le voile est abaissé. b. Le système des voyelles nasales du français. On observe peu de différences au niveau de la configuration de la langue entre les deux nasales antérieures (voir Figure 20). Ces deux voyelles sont relativement centralisées, /¡/ 15 Les données obtenues par ces auteurs pour les nasales /(,¡/, et dans une moindre mesure pour /$/ sont par contre assez variables et relativement proches les unes des autres, ce qui n’est pas exactement le cas ici. 76 étant légèrement plus ouverte et plus postérieure. Même si les locuteurs belges maintiennent encore en majorité quatre voyelles nasales dans leur système phonologique, /(/ et /¡/ sont de plus en plus proches au point de vue phonétique. Elles se distinguent essentiellement par la position des lèvres. La Figure 20 montre les différences bien plus marquées qui existent entre les nasales postérieures : /o/ est nettement plus fermée, plus postérieure et plus arrondie que /$/. S2 VVV /(/ /¡/ /$/ /o/ Figure 20. Profils articulatoires comparés dans les séquences VVV pour les voyelles nasales antérieures à gauche, /(/ (en gris) vs. /¡/ (en noir), et pour les postérieures à droite, /$/ (en gris) vs. /o/ (en noir). Trois répétitions par voyelle pour le sujet féminin S2. 2.3. Voyelles orales et nasalité La technique d’IRM « temps réel » (Demolin et al. 2002) doit permettre à terme d’étudier les mouvements des articulateurs dans la dynamique de la parole. Un taux d’acquisition de 5 images par seconde est cependant trop bas pour capturer les mouvements du voile survenant au cours d’un même segment16. Par contre, la section précédente a montré que la méthode utilisée permet de mettre en évidence les différences de position du voile qui existent entre deux segments. Cette section est donc consacrée aux variations observées dans la position du 16 La même équipe de chercheurs a raffiné la technique, et on atteint aujourd’hui un taux d’acquisition de 10 images par seconde avec une résolution spatiale satisfaisante (Metens, communication personnelle). 77 voile lorsque les voyelles orales sont placées en divers contextes phonologiques. Nasalité contextuelle a. Nasalité contextuelle Les Figure 21 et Figure 22 comparent les profils articulatoires obtenus pour les différentes voyelles orales en fonction du contexte phonologique dans lequel elles sont placées : C_, _N, N_ et N_N. La Figure 21 donne les voyelles orales qui ont une correspondante phonologique nasale /(,¡,D,o/, et la Figure 22 concerne les voyelles orales qui n’en ont pas : /L,H,2,X,R/. Les profils proviennent tous d’un même locuteur (S4). Pour une meilleure visibilité dans la région du voile, le tracé correspondant à la paroi pharyngale n’est pas affiché. Outre la configuration de la langue, qui connaît parfois des variations dans certains contextes (par exemple, Figure 21 : /o,¡/ et Figure 22 : /2,R/), on observe que la position du voile du palais varie systématiquement selon l’environnement phonologique dans lequel la voyelle est placée. La Figure 21 montre que dans le cas des orales /(,¡,D,o/, le voile a la position la plus haute dans les items CV (en gris), la position la plus basse pour les items NVN (en vert), et une position intermédiaire pour les items VN (en orange) et NV (en noir), ce qui confirme les résultats de l’étude aérodynamique relatifs à la nasalité contextuelle des voyelles orales (Cf. Chapitre 1, p.30). Pour ces quatre voyelles, la différence n’est pas toujours nette entre les items VN et NV, sans doute en raison de la faible résolution temporelle de l’IRM temps réel (5 images par seconde). En ce qui concerne /L,H,2,X,R/, en revanche, nos images montrent que la position du voile est plus basse en contexte NV que dans les items VN ou CV. Cette nasalisation plus importante, par rapport à /D,(,o/, des voyelles sans correspondante nasale en contexte NV pouvait être prédite à partir des résultats de l’étude aérodynamique (Cf. Chapitre 1, 3.2, p.44). 78 S4 /(/ /D/ CV VN NV NVN /¡/ /o/ Figure 21. Profils articulatoires comparés selon le contexte pour les voyelles orales ayant une nasale correspondante /D,(,¡,o/ : items CV (en gris), VN (en orange), NV (en noir) et NVN (en vert). Trois répétitions par contexte pour le sujet masculin S4. 79 S4 CV /L/ VN /X/ NV /H/ /2/ /R/ Figure 22. Profils articulatoires comparés selon le contexte pour les voyelles orales sans correspondante phonologique nasale /L,H,2,X,R/ : items cv (en gris), vn (en orange), nv (en noir) et nvn (en vert). Trois répétitions par contexte pour le sujet masculin S4. 80 b. Position intrinsèque du voile pour les voyelles orales La section précédente a montré que l’abaissement du voile du palais dépendait du contexte phonologique, quelle que soit la voyelle orale concernée. Nous comparons ici la position occupée par le voile du palais pour les diverses voyelles orales, lorsqu’elles sont prononcées dans un contexte donné. Ainsi, la Figure 23 donne les profils articulatoires comparés selon l’aperture de la voyelle orale pour les antérieures /L,H,(,D/ d’une part, et pour les postérieures /X,R,o/, ainsi que /D/, d’autre part. Les profils présentés concernent les images IRM obtenues dans trois contextes différents : CV et VN (sujet S2) et NV (sujet S4). Pour une meilleure visibilité dans la région du voile, le tracé correspondant à la paroi pharyngale n’est pas affiché. 81 CV VN NV L H ( D X R o D Figure 23. Profils articulatoires comparés selon l’aperture de la voyelle orale : voyelles antérieures /L,H,(,D/ (en haut) et postérieures /X,R,o,(D)/ (en bas). Les données concernent S2 (items CV, à gauche, et VN, au milieu) ainsi que S4 (items NV, à droite). 82 Dans les items de type CV, la position du voile varie légèrement mais de façon régulière selon la voyelle orale concernée. On remarque en effet que le voile occupe sa position la plus haute lors de la prononciation des voyelles fermées (/L/ et /X/, toutes deux en noir dans la Figure 23). L’abaissement le plus prononcé concerne la voyelle ouverte /D/, alors que pour les voyelles d’aperture moyenne le voile occupe une position intermédiaire. La tendance générale est donc que la position du voile varie en fonction du degré d’aperture de la voyelle orale dans les items CV, le français suivant en ceci un schéma très souvent observé dans les langues du monde (Cf. discussion, p.89). Dans les items VN, les différences entre voyelles orales sont resserrées parce que le voile est relativement abaissé pour les voyelles fermées dans ce contexte. Mais c’est en contexte NV que le voile est véritablement bas pour les voyelles /L,X/17. Comme le montrent les profils obtenus pour S4 (à droite de la Figure 23), ce sont les voyelles /L,X,D/ qui sont les plus nasalisées dans les items NV. Ici, la position du voile est visiblement fonction d’autres facteurs que l’aperture des voyelles. Suite aux résultats obtenus lors de l’étude aérodynamique, nous proposons dans la discussion que l’un de ces facteurs est l’existence (ou non) d’un correspondant phonologique nasal à la voyelle (Cf. p.90). 3. Discussion En résumé, les trois principaux résultats de l’étude articulatoire sont les suivants: Résultat 1 : Les voyelles nasales diffèrent des orales correspondantes par l’abaissement du voile du palais, ainsi que par un ensemble d’articulations complémentaires qui modifient en profondeur la configuration orale de ces voyelles, en particulier en contexte phonologique nasal. Résultat 2 : L’abaissement du voile du palais n’est pas le même pour les quatre voyelles nasales du français. Résultat 3 : La position du voile du palais pour une voyelle orale varie également, et ce en fonction de différents facteurs, parmi lesquels le contexte phonologique et la position intrinsèque du voile au degré d’aperture concerné. Nous allons également examiner l’influence éventuelle de l’existence d’un correspondant phonologique nasal à la voyelle. 17 Ceci correspond à une partie de l’information capturée dans les Figure 21 et Figure 22, ainsi qu’aux données aérodynamiques (voir Chapitre 1, p.29 et p.47). 83 3.1. Résultat 1 : voyelles nasales vs. voyelles orales correspondantes Plusieurs travaux ont été consacrés aux propriétés articulatoires des voyelles orales et nasales du français dans la dynamique de la parole, en particulier les études cinéradiographiques effectuées par Brichler-Labaeye (1970), Zerling (1984), et Bothorel et al. (1986). De même que ces travaux antérieurs, nos images montrent que les voyelles nasales du français se distinguent des orales par d’autres caractéristiques articulatoires que le seul abaissement du voile du palais. D’après nos données, /(/ est une voyelle plus ouverte et plus centralisée que /(/, soit [4]. C’est aussi ce que montre l’étude de Brichler-Labaeye (1970), mais pas celle de Zerling (1984), où l’on trouve que /(/ est une voyelle plus postérieure mais de même aperture que /(/. D’après nos images, /$/ est plus arrondie et plus arrière que /D/, soit [$], et même [c], ce qui confirme les observations faites par Brichler-Labaeye et Zerling dans les études précitées18. Par contre, de même que Bothorel et al. (1986), ces auteurs ne décrivent pas /$/ comme une voyelle plus ouverte que son homologue orale, mais comme une voyelle éventuellement plus fermée, plus proche de l’aperture de [o], ce qui n’est pas le cas pour nos quatre sujets. Quoi qu’il en soit, /$/ reste une voyelle nettement distincte de /o/ du point de vue articulatoire, puisque toutes les études (y compris la nôtre) s’accordent à décrire /o/ comme une voyelle plus arrondie et plus postérieure que /o/, et parfois plus fermée, soit [R]. Enfin, /¡/ est de l’avis général une voyelle un peu plus ouverte et plus arrière que /¡/, soit [¡„], voire [‘]. Ainsi, les voyelles nasales diffèrent des orales correspondantes le long des trois autres dimensions articulatoires qui supportent le contraste phonologique dans le système vocalique du français, à savoir le degré d’aperture, la position de la langue dans la dimension antérieurepostérieure, et l’arrondissement des lèvres. Dans la Figure 24, nous envisageons ces modifications dans leur ensemble, afin de voir si elles répondent à un schéma commun. Dans cette figure, on représente par des flèches (en pointillé) les modifications articulatoires des nasales (en rouge) par rapport aux orales correspondantes (en noir) dans l’espace vocalique du français. On voit que l’ensemble des ajustements articulatoires peut se laisser décrire comme un mouvement général vers l’arrière du triangle vocalique, ce que schématise la flèche pleine. En plus de la postériorisation commune à toutes les voyelles nasales, d’autres 18 Le fait qu’il ne subsiste plus aujourd’hui en Belgique francophone qu’une seule voyelle ouverte /D/ (antérieure), alors que la nasale /$/ a longtemps correspondu avec /$/ biaise en l’accentuant la distance entre la nasale et l’orale dite correspondante (mais l’alternance morphologique entre /$/ et /DQ/ reste un fait établi). En fait, d’après nos données /$/ est plutôt réalisée comme [c], c’est-à-dire qu’elle est également plus postérieure que [$]. C’est aussi ce qu’a trouvé Zerling (1984). 84 modifications articulatoires (d’aperture, de labialisation) sont propres à chaque voyelle. Le recul de la langue dans la cavité pharyngale, est un phénomène qui a été précédemment relevé pour le français, même si son ampleur était moindre (Cf. Zerling, 1984). Ainsi réduite, la cavité pharyngale serait de dimension comparable pour les quatre nasales selon Delattre (1968a). Ce n’est pas le cas sur nos images, pour lesquelles une grande différence subsiste entre nasales antérieures et postérieures de ce point de vue (Cf. p.76). Par ailleurs, si nos données indiquent que les nasales antérieures /(,¡/ se distinguent essentiellement entre elles par la position des lèvres, ce n’est pas le cas des nasales postérieures /$,o/ qui conservent une configuration orale très différente pour nos locuteurs, au contraire des voyelles étudiées par Zerling (1984). i y H X RR 2 ( o ¡ 4 ¡„ D ($) c Figure 24. Schématisation des déplacements articulatoires dans l’espace vocalique des voyelles nasales de nos quatre locuteurs (en rouge) par rapport aux orales correspondantes (en noir). Les déplacements locaux sont indiqués par des flèches en pointillé, le mouvement général par une flèche pleine. Une fois ces phénomènes établis du point de vue articulatoire, il convient d’en évaluer les conséquences au point de vue acoustique. Le chapitre 3 aura notamment pour objectif de décrire les propriétés acoustiques des voyelles nasales du français en relation avec les propriétés articulatoires décrites ci-dessus. A la suite des ajustements articulatoires observés, on prédit en effet un ensemble de modifications dans le spectre acoustique des voyelles nasales par rapport à celui des orales, tant au niveau de F1 que de F2 et F3. On cherchera en particulier à déterminer dans quelle mesure les effets acoustiques des articulations additionnelles interagissent avec les propriétés acoustiques liées à la nasalité proprement dite, 85 c’est-à-dire au couplage avec les cavités nasales uniquement. La complexité observée du point de vue articulatoire (chaque nasale divergeant de l’orale correspondante d’une façon qui lui est propre) se traduit-elle par une plus grande complexité encore au point de vue acoustique ? Ou bien y a-t-il un dénominateur acoustique commun à toutes ces modifications articulatoires ? La réponse donnée à cette question est essentielle lorsque l’on étudie les voyelles nasales du français d’un point de vue perceptuel. Puisque les voyelles orales peuvent être fortement nasalisées en contexte nasal (y compris les orales qui contrastent phonologiquement avec une nasale), on peut émettre l’hypothèse que ce sont les articulations additionnelles qui assurent jusqu’à un certain point que la distinction est maintenue entre orales et nasales correspondantes. Dans le chapitre 3, nous utilisons l’analyse discriminante afin d’évaluer dans quelle mesure les modifications articulatoires envisagées du point de vue de leurs effets acoustiques augmentent la distance entre voyelles nasales et voyelles orales en français. 3.2. Résultat 2 : position du voile pour les voyelles nasales Contrairement à ce que nous avions proposé à la lumière des moyennes obtenues pour les paramètres aérodynamiques (Cf. Chapitre 2, p.34), le voile du palais n’occupe pas la même position pour les quatre voyelles nasales du français (Cf. ci-dessus, p.76). Il y a moins de DAN en moyenne au cours de la voyelle /$/, qui est pourtant la nasale pour laquelle le voile atteint sa position la plus basse. A l’inverse, la nasale /o/ est celle qui est prononcée avec le voile le moins abaissé, mais qui atteint le niveau de DAN moyen le plus élevé. Les nasales /(,¡/ occupent une position intermédiaire sur ces deux échelles. Ainsi, plus la nasale est ouverte, plus le voile est abaissé, mais cet abaissement plus important ne contrebalance qu’en partie l’effet de l’aperture orale, et il y a proportionnellement moins d’air qui sort par le nez que par la bouche pour une voyelle nasale ouverte ou semi-ouverte par rapport à une postérieure semifermée. Dans le cas de /o/, en effet, la partie médiane du voile se dépose sur le dos de la langue, offrant ainsi une résistance plus forte au passage de l’air par la cavité orale, au profit du passage par les fosses nasales à travers le port vélo-pharyngien ouvert. Le DAN est donc plus élevé en moyenne pour /o/ que pour les autres nasales du français, même si la position absolue du voile est plus haute pour cette voyelle. Puisque la contribution relative des fosses nasales au spectre d’une voyelle nasale dépend non seulement de la taille du couplage, mais également de la masse acoustique totale des deux résonateurs couplés (Fant, 1960, Stevens, 1998), nous prédisons à partir des données articulatoires et aérodynamiques que l’influence des anti-résonances nasales sera plus importante pour la voyelle /o/ que pour les voyelles /(,¡,$/ en français. Cette prédiction sera confirmée par les données acoustiques (Cf. p.110). 86 3.3. Résultat 3 : position du voile pour les voyelles orales La position du voile lors de la production d’une voyelle orale n’est ni unique pour toutes les voyelles, ni fixée pour une voyelle donnée. Elle varie en fonction de plusieurs facteurs qui interagissent de façon complexe. a. Nasalité contextuelle Malgré la résolution temporelle relativement faible de la technique d’imagerie utilisée (1 image pour 200 ms), les données confirment les résultats obtenus au cours de l’étude aérodynamique en ce qui concerne la nasalité contextuelle des voyelles orales du français. En résumé, les voyelles orales sont légèrement nasalisées en contexte _N, plus fortement nasalisées en contexte N_, en particulier s’il s’agit d’une voyelle fermée /L,X/, et toutes sont complètement nasalisées en contexte N_N. Ces observations sont en contradiction avec la tendance à une importante nasalisation anticipative observée pour certaines langues autres que le français, telles que le portugais brésilien (Clumeck, 1976) et l’anglais américain (Ohala, 1971, Solé, 1992). Par contre, nos observations confirment ce que plusieurs auteurs ont rapporté dans la littérature en ce qui concerne le français. Que ce soit l’étude fibroscopique du voile du palais effectuée par Benguerel et ses collègues (1977), ou bien les études cinéradiographiques de Brichler-Labaeye (1970) et de Botherel et al. (1986), ou encore l’étude nasométrique effectuée par Rochet et Rochet (1991), toutes montrent qu’en français une voyelle orale qui suit une consonne nasale est plus fortement nasalisée qu’une voyelle orale qui précède une consonne nasale. C’est également l’un des résultats principaux de l’étude aérodynamique du français effectuée par Abigail Cohn (1990, Cf. p.54), qui note qu’aucun de ces chercheurs ne propose de véritable explication à cette asymmétrie entre nasalisation progressive et régressive en français. Dans le cadre de l’hypothèse de la connaissance phonétique présentée dans l’Introduction (pp.5 et suivantes), nous envisageons la possibilité selon laquelle la nasalisation contextuelle progressive fait partie d’une stratégie articulatoire délibérée qui vise à assurer une meilleure perception de la consonne nasale dans les items de type NV : Tout d’abord, il est loin d’être prouvé que la tendance à une plus forte nasalisation régressive soit la tendance majoritaire dans les langues du monde. Le grand nombre d’études consacrées à l’anglais américain ne doit pas masquer le fait que de nombreuses autres langues se comportent différemment par rapport à la nasalisation contextuelle. Ainsi, Clumeck (1976) a comparé à l’aide du nasographe la nasalisation intrinsèque et contextuelle des voyelles orales dans six langues : l’anglais américain, le 87 suédois, le chinois Amoy, l’Hindi, le portugais brésilien et le français. A part l’anglais et le portugais parlés sur le continent américain, les quatre autres langues (dont le français) présentent un faible taux de nasalisation anticipative. En ce qui concerne les études qui ont spécifiquement comparé les taux de nasalisation progressive et régressive dans une langue donnée, on peut citer celle de Farnetani (1986) pour l’italien, celle de Ushijima et Hirose (1974) pour le japonais, et celle de Schouten et Pols (1979) pour le néerlandais, qui toutes concluent qu’une voyelle est plus nasalisée après une consonne nasale qu’avant celle-ci. Ensuite, plusieurs travaux ont montré que la partie du signal qui est la plus porteuse d’informations pour la perception des consonnes nasales se situe autour du relâchement de ces consonnes, en incluant la fin du murmure ainsi que le début des transitions formantiques avec la voyelle suivante. D’après Kurowski et Blumstein (1984), l’information acoustique en provenance de ces deux sources fait l’objet d’une intégration perceptuelle chez les auditeurs. Au moment du relâchement, les indices acoustiques concernant les traits de lieu et de manière d’articulation interagissent de façon complexe en ce qui concerne la perception des consonnes nasales, et l’on peut également observer un effet de contexte lié à l’aperture de la voyelle suivante (Kurowski et Blumstein, 1987, 1993). A propos de la voyelle précisément, Maturi (1991) a montré que dans le cas de l’italien, la nasalisation de la voyelle qui suit une consonne nasale aide à la perception de cette nasale. Or, en français comme en italien, les études effectuées en production de la parole montrent que la nasalisation progressive est plus étendue que la nasalisation régressive. Notre proposition est donc qu’en français une voyelle phonologiquement orale est particulièrement nasalisée après une consonne nasale afin de faciliter la perception de cette nasale. Nasaliser la transition entre la consonne et la voyelle pourrait assurer une bonne intégration perceptuelle des indices acoustiques qui entrent en jeu dans la perception du lieu et de la manière d’articulation de la consonne nasale. Ce type d’explication a pour mérite d’inscrire plus largement le phénomène dans l’ensemble des tendances observées en ce qui concerne la dynamique du voile en français. En effet, nous avons régulièrement observé dans le chapitre précédent que le voile s’abaissait à divers moments pour une voyelle nasale, et ce en fonction de la consonne qui la précédait. Nous verrons dans le prochain chapitre (Cf. pp.117 et suivantes) que les autres indices acoustiques signalant le trait phonologique de nasalité, à 88 savoir ceux liés aux articulations additionnelles, évoluent dans le temps en référence à la mise en vibration des cordes vocales pour la voyelle elle-même. b. Position intrinsèque du voile du palais A la différence des données aérodynamiques, l’imagerie permet d’étudier d’éventuelles différences dans la position du voile du palais entre voyelles orales, même lorsque le port vélopharyngal n’est pas ouvert. Ainsi, les images IRM montrent qu’en contexte C_, la position du voile du palais varie selon le degré d’aperture de la voyelle orale, du plus haut pour les voyelles fermées /L,X/, au plus bas pour la voyelle ouverte /D/, de sorte que le port vélo-pharyngal est légèrement ouvert pour cette voyelle (Cf. Figure 23, p.82). Cette covariation entre la position du voile du palais et celle de la langue a été très largement observée dans les langues du monde (Moll, 1962, Fritzell, 1969, Ohala, 1971, Clumeck, 1976). C’est également ce que nous avons observé pour nos voyelles nasales (voir Résultat 2 ci-dessus). Les explications données à cette covariation ont d’abord été d’ordre mécanique. Ainsi, selon Moll (1962), et Moll et Shriner (1967), la position du voile pour les voyelles ouvertes serait due à la relaxation du palatoglossus, qui entraînerait passivement le voile vers le bas lors de l’abaissement de la langue. On a montré depuis (Lubker, 1968, Bell-Berti 1973, 1980) que les variations dans la position du voile du palais pour les voyelles orales résultent de variations dans l’activité des muscles responsables de l’élévation du voile, soit, au premier chef, le levator palatini. La covariation entre hauteur du voile et hauteur de la langue est généralement mise aujourd’hui en relation avec des phénomènes d’ordre acoustique et perceptuel. House et Stevens (1956) ont montré qu’un même degré de couplage produit des effets acoustiques plus importants sur une voyelle fermée que sur une voyelle ouverte, ce que prédit la théorie acoustique lors du couplage entre deux résonateurs (Fant, 1960, Stevens, 1998). Par conséquent, un plus grand degré de « nasalisation passive » est toléré pour les voyelles ouvertes dans les langues du monde (Lubker 1968, Ohala, 1975). D’après Ohala (1975), ceci amène le voile à une grande variabilité de position pour les voyelles ouvertes, qui à terme peut déboucher sur une véritable phonologisation. Un certain degré de nasalisation est alors requis pour ces voyelles, et fait partie intégrante du contraste d’aperture. Nos données permettent en effet de s’interroger sur le taux nécessaire de nasalité pour la voyelle orale /D/ en français, puisque le voile semble (au moins légèrement) abaissé dans tous les contextes (voir Figure 21). Diehl, Kluender et Walsh (1990) ont proposé qu’une nasalisation modérée fait percevoir une voyelle ouverte en contexte phonologique oral comme plus ouverte encore. Dans le cas d’une nasalisation modérée, en effet, l’effet acoustique principal serait celui d’une augmentation de la bande passante en F1, propriété acoustique 89 caractéristique des voyelles ouvertes. Par contre, pour une nasalité plus importante, le premier pôle nasal, qui apparait à une fréquence inférieure à F1, est à la fois plus proéminent et plus séparé du zéro correspondant19, ce qui abaisse le centre de gravité de la voyelle en basse fréquence (sous 1000 Hz), et aboutit à une voyelle perçue comme moins ouverte, même si la langue n’a pas changé de position dans la cavité buccale. L’hypothèse de Diehl et ses collègues s’inscrit dans la perspective de la connaissance et du contrôle phonétique. Lorsqu’il s’agit d’implémenter phonétiquement le contraste d’aperture, certaines langues du monde utiliseraient, plus que d’autres, l’intégration auditive des effets acoustiques liés à la nasalité modérée d’une part, et à la hauteur de la langue d’autre part. A la lumière des données obtenues en production de la parole, le français pourrait être l’une de ces langues. Les expériences perceptuelles menées dans la deuxième partie de la thèse (Cf. p.206) permettent notamment d’investiguer cette question. c. Le cas des voyelles fermées Les deux facteurs considérés précédemment ne permettent pas à eux seuls de rendre compte de la position du voile du palais pour les voyelles orales du français. En effet, si les voyelles fermées sont prononcées avec un voile très relevé en contexte phonologique oral, elles sont par ailleurs (avec /D/) les plus nasalisées sous l’effet de la coarticulation (progressive) en contexte nasal. Le même type de résultat a été obtenu pour le français à partir de données nasométriques par Rochet et Rochet (1991). Ici, le français diffère de nombreuses autres langues, où la covariation entre hauteur du voile et hauteur de la langue s’étend à tous les contextes, y compris les contextes nasals (Clumeck, 197620). De même que précédemment (p.61), on pourrait proposer qu’intervienne ici une contrainte de type systémique, soit en l’occurrence l’existence ou non d’un correspondant phonologique nasal à la voyelle orale susceptible d’être contextuellement nasalisée. Les voyelles fermées seraient donc les plus nasalisées par coarticulation nasale parce qu’en aucun cas l’auditeur ne pourrait être amené à interpréter les voyelles ainsi nasalisées comme des voyelles phonologiques nasales. Enoncés de cette façon, les phénomènes dont rend compte la contrainte systémique pourraient aussi bien se placer au sein de la connaissance phonétique telle que proposée par Kingston et Diehl (1994). La différence est que, dans ce dernier cas, ce ne sont pas les correspondantes phonologiques mais les correspondantes phonétiques orales des voyelles nasales que le locuteur nasalise moins en contexte nasal. Etant donné nos observations concernant la configuration orale effective des voyelles nasales en français, nous 19 20 Pour plus de détails sur les caractéristiques acoustiques de la nasalité, voir Chapitre 3. La covariation a lieu dans les tous contextes dans les six langues envisagées par Clumeck, y compris le français. 90 prédisons alors que le voile sera moins abaissé pour /R/ que pour /H/, toutes choses étant égales par ailleurs. En effet, même si aucune de ces voyelles n’est la correspondante phonologique orale d’une voyelle nasale du français, /R/ est phonétiquement la correspondante orale de /o/ (dont la réalisation est [R]), alors que /H/ nasalisé ne correspond pas à /(/ (dont la réalisation est [4]). La nasalisation contextuelle de /R/ devrait donc être défavorisée par rapport à celle de /H/. C’est précisément le cas dans nos données, comme le montre la Figure 23. Sur cette figure, les profils proposés pour S4 illustrent le fait qu’en contexte N_ le voile est plus abaissé pour /H/ que pour /(/, alors que l’inverse se produit pour les voyelles postérieures, à savoir que le voile est plus abaissé pour /o/ que pour /R/. Dans les deux cas, la voyelle d’aperture moyenne la plus proche phonétiquement de la voyelle nasale (/(,R/) est la moins nasalisée en contexte N_. En conclusion, la réalisation phonétique des voyelles orales en ce qui concerne la position du voile du palais dépend de facteurs liés à la production de la parole (notamment la coarticulation nasale), ainsi que de facteurs liés à la perception (du degré d’aperture comme de la nasalité de la voyelle). A ce stade du travail, nous pouvons uniquement émettre des hypothèses quant au modèle d’implémentation phonétique (automatique ou contrôlée) qui rend le mieux compte de l’ensemble de ces phénomènes. 91 Chapitre 3 Etude acoustique 1. Introduction L’acoustique de la nasalité en général, et l’acoustique des voyelles nasales en particulier est un phénomène très complexe, qui a fait l’objet de nombreux travaux dans la littérature (Fant, 1960, Fujimura et Lindquist, 1971, Lindquist et Sundberg, 1976, Maeda, 1993, Chen, 1997, Stevens, 1998, entre autres). Lorsque le port vélo-pharyngal s’ouvre au cours de la parole, un couplage acoustique s’établit entre les cavités nasales et le conduit pharyngobuccal, et les sons ainsi produits sont dits « nasalisés ». La théorie acoustique de la nasalité pose que la fonction de transfert du système couplé T(s) est la somme des fonctions de transfert aux deux extrémités du système, à la bouche U(m)/U(s), et aux narines U(n)/U(s). Ces deux fonctions de transfert ont les mêmes pôles mais des zéros différents, qui tous varient en fréquence en fonction de la taille du couplage. Les pôles du système complexe sont les pôles communs à U(m)/U(s) et U(n)/U(s). Les zéros de la fonction de transfert du système complexe ont une fréquence qui varie entre celle des zéros de U(m)/U(s) et celle des zéros de U(n)/U(s) en fonction du rapport des masses acoustiques des deux passages empruntés par l’onde acoustique : par la cavité buccale ou par les fosses nasales (Stevens, 1998). D’un point de vue pratique, on compare souvent le spectre acoustique d’une voyelle nasalisée avec celui de l’orale correspondante. Le spectre de la voyelle nasalisée est plus complexe parce qu’il contient un plus grand nombre d’éléments dans une plage de fréquences donnée : en plus des formants « oraux », qui sont déplacés dans le domaine fréquentiel par rapport à la voyelle orale, un certain nombre de paires pôle-zéro sont introduites à certaines fréquences, en particulier dans la région de F1. Plus le degré de couplage est important pour une voyelle donnée, plus les zéros divergent des pôles au sein de chaque paire et affectent les caractéristiques spectrales de la voyelle (Maeda, 1993). La détection spectrale des pôles et des zéros est donc rendue difficile par le fait que, pour une voyelle et un individu donnés, leur fréquence particulière varie en fonction du degré de couplage, donc de l’abaisssement du voile du palais, qui lui-même n’est pas constant tout au long de la voyelle. De plus, l’influence effective des résonances et anti-résonances « nasales », qui sont souvent considérées en première analyse comme superposées aux formants « oraux », dépend de la fréquence spécifique de ces formants « oraux » dans chaque cas. En effet, une paire pôle-zéro qui survient dans le voisinage du formant correspondant au F1 de la voyelle orale peut selon les cas simplement élargir la bande passante de ce formant, ou bien l’affaiblir beaucoup plus, selon qu’elle survient à la même fréquence, ou à une fréquence légèrement inférieure à la sienne. 93 Par ailleurs, les caractéristiques spectrales liées au conduit nasal sont loin d’être constantes d’un individu à l’autre, parce que l’anatomie des fosses nasales varie largement selon les sujets (Dang, Honda et Suzuki, 1994). L’asymmétrie observée pour certains individus entre la partie gauche et la partie droite des cavités nasales (de part et d’autre du septum) est susceptible d’introduire des paires pôle-zéro supplémentaires dans le spectre des voyelles nasalisées. Enfin, l’effet des sinus en tant que cavités additionnelles est difficile à déterminer. Ils varient également dans leur forme et leur volume pour chaque locuteur, et leur influence effective dépend du poids des résonances nasales dans la sortie acoustique finale, donc du rapport des masses acoustiques des résonateurs nasal et buccal (Lindquist et Sundberg, 1976, Stevens 1998). Etant donné cette complexité, et malgré le grand nombre d’études acoustiques concernant la nasalité, peu ont donné la priorité à l’analyse de sons nasals prononcés en parole naturelle. Ainsi, de nombreux chercheurs se sont plutôt intéressés à la modélisation acoustique de la nasalité. House et Stevens (1956) ont utilisé un équivalent électrique des conduits oral et nasal afin d’investiguer les effets du couplage nasal sur différentes configurations orales. Fujimura et Lindqvist (1971) ont confirmé en grande partie ces premiers résultats en mesurant les caractéristiques de transmission acoustique d’un conduit vocal lorsqu’il était excité par un éventail de sons purs. Plus récemment, des expériences de simulation basées sur des modèles articulatoires ont permis d’étudier la nasalité vocalique (Maeda, 1982, 1993). En ce qui concerne la détermination des propriétés acoustiques de la nasalité, ces études aboutissent à des caractéristiques qui sont difficilement exploitables lorsque l’on étudie des voyelles nasalisées naturelles : soit les caractéristiques proposées sont extrêmement fines, localisées, et dépendantes des paramètres du modèle choisi, soit elles sont extrêmement générales lorsqu’il faut rendre compte des phénomènes relatifs à plusieurs degrés de couplage, plusieurs voyelles et plusieurs locuteurs. En fait, il est communément admis que l’effet acoustique le plus régulier du couplage nasal survient dans la région de F1. Lorsque l’on modifie le spectre d’une voyelle orale dans la région de F1, soit en y introduisant une paire pôle-zéro, soit en augmentant directement la bande passante de F1, la voyelle est généralement perçue comme nasalisée (Delattre, 1954, 1968, Hawkins et Stevens, 1985, Kingston et Macmillan, 1995). Néanmoins, ces modifications ne suffisent pas pour nasaliser les voyelles fermées (Takeuchi et al., 1975, Maeda, 1993). Ainsi, une question demeure : cette différence dans la région du premier formant est-elle le seul indice utilisé par l’auditeur pour détecter une voyelle nasalisée, ou bien y a-t-il des indices secondaires, en particulier pour les voyelles fermées ? La théorie acoustique prédit en effet que les différences entre voyelles orales et voyelles nasalisées s’étendent sur l’ensemble du 94 domaine fréquentiel. Outre le succès obtenu en synthèse de la parole, c’est la nécessité de restreindre le champ d’investigation qui a mené beaucoup de chercheurs à se concentrer uniquement sur la région de F1 lorsqu’ils étudiaient les voyelles nasalisées. Relié à cette question des indices acoustiques de la nasalité, on trouve le problème de la réalisation phonétique effective du contraste phonologique de nasalité. Nous avons établi dans le chapitre précédent que les voyelles nasales, en plus d’être prononcées avec le voile du palais abaissé, sont articulées avec une configuration orale nettement différente de leur correspondante phonologique nasale. On peut dès lors s’interroger sur ce qui signale en priorité la nasalisation phonologique en français : est-ce la nasalité proprement dite ou bien les effets acoustiques des articulations complémentaires, telles que la labialisation ou la postériorisation de la voyelle ? En ce qui concerne la catégorisation, les quatre voyelles nasales appartiennent-elles à une classe spécifique ou sont-elles considérées par les auditeurs comme des unités particulières du groupe principal (des orales) ? Les objectifs poursuivis dans ce chapitre sont les suivants : Déterminer les caractéristiques acoustiques de la nasalité sans préjuger a priori de la zone fréquentielle où elles peuvent se manifester. Idéalement, la caractérisation acoustique doit être suffisamment générale pour être applicable à un grand nombre de voyelles, de degrés de couplage et de locuteurs, mais elle doit également être suffisamment concrète pour permettre de déterminer si une voyelle donnée est nasalisée ou non. Cette partie de l’analyse s’appuie essentiellement sur l’examen des « voyelles nasalisées » (vs. voyelles nasales phonologiques en français) incluses dans le corpus (Cf. Chapitre 2, p.65) En relation avec les propriétés articulatoires énoncées dans le Chapitre 2, déterminer les propriétés acoustiques des voyelles nasales du français par rapport aux orales correspondantes, tant d’un point de vue général qu’au sein de chaque paire oralenasale. Etudier les interactions entre les effets acoustiques de la nasalité proprement dite et ceux liés aux ajustements articulatoires complémentaires. Déterminer leur contribution respective dans la distance acoustique entre les nasales et les orales du français. Etudier l’évolution temporelle de ces diverses propriétés acoustiques en relation avec les tendances observées dans les chapitres précédents en ce qui concerne la dynamique de la nasalité en français. 95 2. Matériel et méthode L’expérience acoustique s’est déroulée au printemps 2001, au Laboratoire de Phonologie de l’Université Libre de Bruxelles. 2.1. Sujets Les quatre sujets ayant participé à l’étude articulatoire ont également participé à l’étude acoustique. Il s’agit des deux sujets féminins S1 et S2 et des deux sujets masculins S3 et S4. 2.2. Corpus Le corpus est le même que le corpus de l’étude articulatoire (Cf. Table 13, p.65). L’objectif est de permettre la comparaison entre les données acoustiques et articulatoires : même si ces données ont été prises à deux moments différents, elles concernent les mêmes locuteurs et le même corpus de voyelles. 2.3. Enregistrement et traitement du signal Les quatre locuteurs ont répété trois fois les 38 séquences orale-nasale du corpus dans la chambre sourde du Laboratoire de Phonologie de l’ULB. Les enregistrements ont été effectués au moyen d’un microphone (Neumann, U87A i P48), placé pour chaque locuteur à une distance constante de la bouche. Le signal de parole a été enregistré sur DAT (Panasonic, SV-3700) à une fréquence d’échantillonnage de 44100 Hz et avec une résolution de 16 bits. Une fois digitalisés, les signaux de parole ont été filtrés avec un filtre anti-repliement d’une fréquence de coupure de 10525 Hz, puis sous-échantillonnés à 22050 Hz. 2.4. Données acoustiques Les données acoustiques ont été traitées à l’aide de deux applications personnalisées que nous avons développées dans le logiciel iShell. Les Figure 25 et Figure 26 permettent de visualiser les interfaces de ces deux applications. La première application permet à l’utilisateur de naviguer entre les enregistrements, et d’explorer les données acoustiques en examinant les représentations paramétriques du signal proposées (spectrogrammes, LPC, FFT, etc). Nous avons utilisé ces représentations du signal de parole pour segmenter le corpus (Muller et Brown, 1980). Deux types de représentations paramétriques ont été calculées après pré-emphase à partir d’une fenêtre de Hamming de 30 ms centrée sur le milieu de chaque voyelle : le spectre lissé par l’analyse cepstrale, et les "bandes d' énergie". 96 Figure 25. Visualisation de l’interface utilisateur de la première application développée en iShell pour traiter les données acoustiques : segmentation du corpus. 97 Figure 26. Visualisation de l’interface utilisateur de la seconde application développée en iShell pour traiter les données acoustiques : superposition des spectres lissés par l’analyse cepstrale. Les « bandes d’énergie » désignent le logarithme de l' énergie calculé à la sortie de 24 filtres triangulaires linéairement répartis dans le domaine fréquentiel (de 0 à 10500 Hz) sur une échelle Mel. L’objectif est de représenter l’information relative à la répartition fréquentielle de l’énergie d’une façon globale et proportionnellement plus détaillée en basses fréquences. Cette représentation vise avant tout à mettre en évidence les effets du couplage acoustique nasal proprement dit. L’analyse cepstrale est prioritairement destinée à étudier les propriétés acoustiques des voyelles nasales du français par rapport aux orales correspondantes, en particulier celles qui sont dues aux ajustements articulatoires observés dans le chapitre précédent. L’avantage de l’analyse cepstrale est qu’elle minimise la contribution de la source dans le spectre obtenu. L’origine et l’étendue de la fenêtre étaient fixées respectivement à 2 et 1.5 ms pour un spectre calculé sur la base de 1024 points. La 98 deuxième application logicielle que nous avons développée en iShell (Cf. Figure 26) nous a permis d’afficher en superposition les cepstres obtenus en milieu de voyelle, sur le modèle de ce qui a été réalisé pour les profils articulatoires dans le Chapitre 2. Nous avons privilégié cette méthode de visualisation des données acoustiques parce qu’elle permet d’estimer la variabilité inter-classes par rapport à la variabilité intra-classes sans devoir effectuer de mesure complémentaire (de formants, d’anti-résonances,...) par rapport à la représentation paramétrique du signal elle-même. On évite ainsi d’opérer des choix délicats quant aux objets à mesurer avant d’effectuer la mesure proprement dite. Ces représentations calculées au centre des voyelles du corpus permettent de dégager un ensemble de propriétés acoustiques, tant pour la nasalité proprement dite que pour chaque voyelle nasale du français dans toute sa spécificité. En plus de ces mesures, on propose dans les sections suivantes (et en particulier dans la section 4, p.117) divers spectrogrammes qui permettent d’étudier l’évolution au cours du temps des propriétés acoustiques dégagées. Ces spectrogrammes ont tous été calculés à partir d’une fenêtre de Hamming de 5 ms et d’une FFT de 512 points. Enfin, la section 3.3 (p.113) est consacrée à la question des contributions respectives des effets de la nasalité phonétique et de ceux des articulations complémentaires dans la distance acoustique qui sépare voyelles orales et voyelles nasales en français. Différentes analyses discriminantes ont été effectuées à partir des valeurs obtenues pour les 24 coefficients des bandes d’énergie par voyelle, et les performances enregistrées (en %) constituent un dernier ensemble de données analysé ci-dessous. 3. Oralité, nasalité phonétique et nasalité phonologique 3.1. Bandes d’énergie Les quatre graphiques de la Figure 27 donnent les valeurs moyennes des bandes d’énergie en fonction de la fréquence, tous sujets confondus. Chaque graphique représente les données recueillies pour un timbre vocalique en contexte VVV. L’objectif d’une telle analyse est de laisser apparaître uniquement les tendances les plus générales de la répartition d’énergie en fonction de la fréquence (en Mels), et ce sur l’ensemble du spectre. On évite de diriger l’analyse en déterminant a priori dans quelle région rechercher les résonances et antirésonances du système couplé. 99 Energie (dB) /(/ /D/ /¡/ /o/ Fréquence (Mels) Figure 27. Moyennes des valeurs obtenues pour les bandes d’énergie (en dB) en fonction de la fréquence (en Mels). Données comparées pour les orales (en gris), les nasales (en noir) et les oralisées (en orange). Moyennes calculées sur l’ensemble des locuteurs en fonction du timbre vocalique. 100 On constate que les nasales et les nasalisées diffèrent de leur contrepartie orale dans l’ensemble du domaine fréquentiel, comme le prédit la théorie acoustique du couplage nasal (Cf. p.93). Les tracés des quatre nasalisées (en orange) suivent les mêmes inflexions que ceux des orales (en gris), mais leur niveau général d’énergie est notablement inférieur. Les nasales (en noir) diffèrent plus fortement des orales, en particulier dans le cas de /(/ et /¡/, qui ont plus d’énergie que /(/ et /¡/ autour de leur F2. 3.2. Orales, nasalisées et nasales correspondantes Dans cette section, nous comparons de façon systématique les propriétés des voyelles orales, des voyelles nasalisées et des voyelles nasales correspondant à un même timbre vocalique. a. /D/, [D], /$/ Les Figure 28 et Figure 29 illustrent les données recueillies pour les voyelles orales /D/, les nasalisées [D] et les nasales /$/, prononcées dans les séquences /VVV/ et [VVV]21. On donne dans la Figure 28 deux spectrogrammes représentant chacun une répétition de ces séquences par le sujet masculin S3. La Figure 29 affiche en superposition les spectres lissés par l’analyse cepstrale obtenus pour les 18 voyelles produites par ce sujet lors des trois répétitions de ces séquences : 12 voyelles orales (en gris), 3 voyelles nasales (en noir), et 3 voyelles nasalisées (en orange). Le même code de couleur est appliqué aux profils articulatoires présentés en haut de la figure. Ceux-ci concernent les mêmes séquences de sons prononcées dans la machine IRM par le même sujet, S3, quelques semaines auparavant. A des fins de lisibilité du graphique, seules trois répétitions sont affichées pour les voyelles orales et la partie du tracé relative à la paroi pharyngale est omise. 21 Comme dans la Table 13 (p.65), les barres obliques et les crochets sont utilisés tout au long de ce chapitre pour distinguer entre les séquences contenant le phonème voyelle nasale et celles où V est une simple voyelle nasalisée. 101 [D D D] /D $ D/ Figure 28. Spectrogrammes et formes d’onde : voyelles orales /D/, voyelle nasalisée [D] et voyelle nasale /$/ prononcées par S3 au cours d’items [VVV] (en haut) et /VVV/ (en bas). 102 D Figure 29. Comparaison des voyelles orales /D/ (en gris) avec les nasalisées [D] (en orange) et les nasales /$/ (en noir). Profils articulatoires et spectres lissés par l’analyse cepstrale obtenus pour S3 dans les items VVV. 103 Les profils articulatoires montrent que le locuteur masculin S3 est parvenu à produire les voyelles nasalisées [D] selon les consignes énoncées : la configuration orale de ces voyelles est tout à fait comparable à celle des orales /D/, à l’exception du voile du palais, qui est abaissé de la même façon que pour les nasales /$/. Nos données IRM contiennent un très faible nombre de cas où le sujet n’a pas réussi à prononcer les voyelles nasalisées de la façon demandée. Nous considérons donc que les résultats acoustiques obtenus sur ces voyelles sont fiables, c’est-à-dire qu’ils permettent d’estimer l’effet acoustique de la descente du voile pour une configuration orale donnée, en l’absence des modifications articulatoires complémentaires habituellement observées pour la voyelle nasale correspondante. En ce qui concerne [D], le spectrogramme de la Figure 28 et les cepstres de la Figure 29 montrent que l’effet acoustique de la nasalisation se traduit principalement en terme d’énergie. Le niveau général d’énergie est inférieur pour la nasalisée (de même que pour la nasale d’ailleurs), avec un F2 et surtout un F1 affaiblis, et un F3 complètement effacé. Ce qui différencie les nasales /$/ des nasalisées [D], c’est le F2 qui est moins élevé pour les nasales, conséquence de l’arrondissement des lèvres et de la postériorisation de ces voyelles par rapport à leur correspondante phonologique orale /D/. Pour l’un des sujets féminins, F1 et F2 fusionnent régulièrement en un seul large pôle, centré vers 900 Hz. De façon générale, /#/ est une voyelle plus compacte et plus grave que /D/22. b. /(/, [(], /(/ Sur le modèle des Figure 28 et Figure 29, les Figure 30 et Figure 31 présentent les données obtenues pour les voyelles orales /(/, les nasalisées [(] et les nasales /(/, dans les séquences /vvv/ et [vvv]. On donne deux spectrogrammes à titre d’illustration, ainsi que les profils articulatoires et les spectres lissés par l’analyse cepstrale pour les voyelles prononcées dans ces séquences par le sujet féminin S1. 22 Dans ce travail, nous utilisons les termes de « compacité » et de « gravité » pour caractériser les propriétés spectrales générales des voyelles selon la définition qu’en donnent Jakobson, Fant et Halle (1952). 104 [( ( /( (] ( (/ Figure 30. Spectrogrammes et formes d’onde: voyelles orales /(/, voyelle nasalisée [(] et voyelle nasale /(/ prononcées par S1 au cours d’items [VVV] (en haut) et /VVV/ (en bas). 105 ( Figure 31. Comparaison des voyelles orales /(/ (en gris) avec les nasalisées [(] (en orange) et les nasales /(/ (en noir). Profils articulatoires et spectres lissés par l’analyse cepstrale obtenus pour S1 dans les items VVV. 106 Le couplage acoustique nasal seul a pour conséquence de diminuer l’énergie de la voyelle, en particulier sous 1000 Hz, dans la région de F1, et entre 2500 et 3000 Hz, entre F2 et F3. Pour tous les sujets, on remarque que le F2 de la voyelle nasalisée est légèrement plus bas (de 100 Hz environ) et le F3 plus haut par rapport à la voyelle orale correspondante. Pour les nasales /(/, les formants ont bougé dans le domaine fréquentiel par rapport aux orales /(/ : F1 est plus élevé, et sa bande passante est élargie, F2 est nettement plus bas et plus proéminent, F3 est plus élevé. Les tendances acoustiques observées pour les voyelles nasalisées sont donc renforcées pour les nasales par le biais de modifications articulatoires telles que l’abaissement et le recul de la langue dans la bouche. Parce que le F2 des nasales est d’intensité très élevée et de fréquence plus basse que celui des orales, l’énergie de la voyelle est concentrée sous 2000 Hz, et la baisse d’énergie entre 2500 et 3000 Hz observée dans le cas des nasalisées [(] est une tendance nettement accentuée dans le spectre des nasales /(/, soit [4]. Comme dans le cas de la paire /D,$/, les nasales /(/ sont du point de vue acoustique des voyelles plus graves et plus compactes que leur correspondantes orales /(/. c. /¡/, [¡], /¡/ Les Figure 32 et Figure 33 donnent les spectrogrammes, les profils articulatoires et les spectres lissés par l’analyse cepstrale relatifs aux voyelles orales /¡/, aux nasalisées [¡], et aux nasales /¡/, prononcées en séquence VVV par le sujet féminin S1. De même que les nasalisées [(], les voyelles [¡] se différencient de leurs orales correspondantes par un niveau général d’énergie inférieur et par des modifications fréquentielles de certains formants. L’introduction d’anti-résonances par le couplage vers les fosses nasales implique une perte d’énergie à toutes les fréquences, et aboutit en particulier à une absence presque totale d’énergie entre 2000 et 3000 Hz, dans la région correspondant au F3 de la voyelle orale. Les modifications fréquentielles concernent F1 et F2, qui sont respectivement plus haut et plus bas pour les nasalisées. 107 [¡ /¡ ¡ ¡ ¡] ¡/ Figure 32. Spectrogrammes et formes d’onde: voyelles orales /¡/, voyelle nasalisée [¡] et voyelle nasale /¡/ prononcées par S1 au cours d’items [VVV] (en haut) et /VVV/ (en bas). 108 ¡ Figure 33. Comparaison des voyelles orales /¡/ (en gris) avec les nasalisées [¡] (en orange) et les nasales /¡/ (en noir). Profils articulatoires et spectres lissés par l’analyse cepstrale obtenus pour S1 dans les items VVV. 109 Les modifications dans la configuration orale des nasales /¡/ aboutissent ici aussi à un renforcement des tendances enregistrées pour les nasalisées : F1 est plus élevé pour tous les sujets lorsqu’ils prononcent une nasale /¡/, et F2 est plus bas, essentiellement pour les sujets féminins. De façon générale, /¡/ est une voyelle plus compacte, et souvent plus grave que /¡/. d. /o/, [o], /o/ Les Figure 34 et Figure 35 illustrent le cas des voyelles /o/, [o] et /o/ pour S3. On donne un spectrogramme pour une répétition de la séquence /VVV/, un autre pour la séquence [VVV], ainsi que les profils articulatoires et les spectres lissés par l’analyse spectrale affichés en superposition. Une grande variabilité est observée dans la réalisation acoustique des voyelles /o/, [o] et /o/ en fonction des locuteurs : Chez les locuteurs masculins, l’allure des spectres et des spectrogrammes est assez similaire pour les nasalisées et les nasales. En revanche, elles divergent assez radicalement des orales, car un zéro est introduit dans la zone de F2. L’effet de ce zéro est différent selon le sujet : pour S4, F2 est complètement annihilé, pour S3, F2 est affaibli et déplacé vers de plus hautes fréquences (Cf. Figure 35). Chez les locuteurs féminins, l’effet de l’abaissement du voile seul (voyelles nasalisées) est d’annuler F2, comme pour S4. Un seul pôle subsiste, plus large, « à la place » de F1-F2. Dans le spectre des nasales par contre, on peut constater la présence d’un pic à la fréquence du F2 des orales. Ceci peut éventuellement s’expliquer par la position radicalement différente des articulateurs observée dans le cas des nasales /o/ pour les locuteurs féminins (Cf. p.71). En effet, l’arrondissement des lèvres et la montée de la langue dans la région du voile ont pour conséquence d’abaisser fréquentiellement la résonance correspondant au F2 de la voyelle orale, mais également d’élever la fréquence de l’anti-résonance dans cette région, parce que la masse acoustique du chemin par la cavité buccale augmente, de sorte que la contribution du zéro caractéristique des fosses nasales dans la sortie acoustique finale est plus importante. En conséquence, l’anti-résonance survient à une fréquence légèrement supérieure, plutôt que légèrement inférieure à F2, et un pôle est préservé dans cette région. 110 [o /o o o o] o/ Figure 34. Spectrogrammes et formes d’onde: voyelles orales /o/, voyelle nasalisée [o] et voyelle nasale /o/ prononcées par S3 au cours d’items [VVV] (en haut) et /VVV/ (en bas). 111 o Figure 35. Comparaison des voyelles orales /o/ (en gris) avec les nasalisées [o] (en orange) et les nasales /o/ (en noir). Profils articulatoires et spectres lissés par l’analyse cepstrale obtenus pour S3 dans les items VVV. 112 Quoi qu’il en soit, l’effet acoustique général de la nasalité est très marqué pour les voyelles [o] et /o/, qui n’ont qu’une énergie très faible au-delà de 1000 Hz. Les positions relatives du voile du palais et de l’arrière de la langue nous avaient en effet amenée dans le Chapitre 2 à prédire que la contribution spectrale du résonateur nasal serait particulièrement importante pour cette voyelle (Cf. p.86). Cette nouvelle distribution de l’énergie implique que les nasales peuvent être considérées ici aussi comme des voyelles plus graves et plus compactes que leur correspondantes orales. En effet, F2 est très affaibli pour la voyelle /o/, de sorte que même si sa fréquence est légèrement supérieure au F2 des orales, /o/ sera sans doute perçue comme une voyelle plus postérieure que /o/. 3.3. Analyse discriminante a. Principe général L’analyse discriminante est une méthode statistique qui classe un ensemble de cas dans une ou plusieurs classes en utilisant une combinaison linéaire des valeurs obtenues pour ces cas le long de diverses variables indépendantes. Nous avons utilisé l’analyse discriminante pour grouper les voyelles de notre corpus en différentes classes (orales vs. nasales, orales vs. nasalisées, etc.) à partir des données fournies par les bandes d’énergie mesurées pour chaque voyelle. Nous comparons ici les performances obtenues par l’analyse discriminante en fonction de divers critères tels que le nombre de coefficients utilisés, le type de classification demandé, etc. L’objectif est d’effectuer une analyse comparée de la distance acoustique entre les voyelles orales, les voyelles nasalisées et les voyelles nasales. b. Méthode L’analyse discriminante a été effectuée sur un sous-ensemble du corpus, soit sur les voyelles présentes dans les quatre premières lignes de la Table 13 (p.65). Ces voyelles ont été répétées trois fois par chacun des quatre sujets, ce qui donne un total de 288 voyelles nasales /$,(,¡,o/, 432 voyelles orales correspondantes /D,(,¡,o/, et 48 voyelles nasalisées [D,(,¡,o]. Les résultats présentés ici ont été obtenus à l’aide du logiciel SPSS, au cours de la procédure statistique de classification par analyse discriminante linéaire, avec pour variables indépendantes les 24 coefficients des bandes d’énergie mesurés au milieu de chaque voyelle (Cf. ci-dessus, p.98). 113 La tâche de l’analyse discriminante était de classer les voyelles soit en tant qu’orales vs. nasales (720 cas), soit en tant qu’orales vs. nasalisées (480 cas), soit en tant que nasales vs. nasalisées (336 cas). En ce qui concerne les variables indépendantes utilisées dans la fonction de discrimination, on a suivi une procédure par étapes successives basée sur une minimisation de la statistique appellée lambda de Wilks. Cette procédure consiste à ne conserver que les variables indépendantes suffisamment discriminantes. Ces variables sont incluses une par une dans la fonction de discrimination (et éventuellement retirées une par une) en fonction de leur valeur pour la statistique F, qui est réévaluée à chaque étape du processus. Les probabilités d’appartenance à l’une des classes sont supposées égales : chaque voyelle à classer a une probabilité équivalente d’être une voyelle orale, une voyelle nasale ou une voyelle nasalisée. La procédure de classification s’est déroulée selon la méthode du canif, par laquelle on teste successivement chaque cas à partir d’une fonction de discrimination entraînée sur l’ensemble des autres cas. c. Redondance de l’information La Table 14 donne les résultats de l’analyse discriminante pour deux tâches de classification, la première consistant à différencier les voyelles nasales des orales correspondantes, la deuxième les voyelles orales des voyelles nasalisées. Les performances sont exprimées en pourcentage de cas correctement classés par l’analyse discriminante. La Table 14 permet de comparer les performances enregistrées en fonction du nombre de bandes d’énergie incluses dans l’analyse, et, lorsqu’il n’y en a que huit, selon les fréquences couvertes par ces bandes d’énergie. Les performances sont élevées lorsque l’on utilise les vingt-quatre bandes d’énergie pour classer les voyelles en deux groupes. On dépasse les 90% de classification correcte dans les deux tâches de discrimination (orales vs. nasales et orales vs. nasalisées), alors qu’au sein d’une même classe on trouve des voyelles de différents timbres vocaliques prononcées par plusieurs locuteurs. Les performances chutent lorsque huit coefficients successifs seulement sont utilisés. C’est la région des hautes fréquences qui donne les moins bons résultats (respectivement 74.3% et 72.5%). Par contre, l’analyse discriminante atteint le même niveau de performance lorsqu’elle utilise les coefficients 1 à 8 ou les coefficients 9 à 16 (autour de 80% de classification correcte). Les basses fréquences (de 0 à 1050 Mels, soit environ de 0 à 1100 114 Hz) ont donc un pouvoir discriminant comparable à celui des fréquences moyennes (de 1050 à 2100 Mels, soit environ de 1100 à 3800 Hz). L’information présente dans ces deux plages fréquentielles n’est pas uniquement redondante, mais en partie complémentaire, puisque les performances sont encore meilleures lorsque l’on utilise vingt-quatre coefficients au lieu de huit. Table 14. Performances de l’analyse discriminante (en %) pour deux tâches de classification des voyelles du corpus : voyelles orales vs. voyelles nasales (720 cas), et voyelles orales vs. voyelles nasalisées (480 cas). Comparaison des performances en fonction du nombre et de la nature des coefficients (bandes d’énergie). Tâche de discrimination Bandes d’énergie 1 – 8 (0 - 1100 Hz) Orales vs. Nasales Orales vs. Nasalisées 81.0 % 80.2 % 9 – 16 (1100 - 3800 Hz) 77.2 % 80.8 % 17 – 24 (3800 - 10500 Hz) 74.3 % 72.5 % 93.6 % 90.4 % 1 – 24 (0 - 10500 Hz) Ainsi, les résultats obtenus par l’analyse discriminante permettent de confirmer ce que nous avions déduit de l’observation des données fournies par les bandes d’énergie (Cf. Figure 27, p.100) : les voyelles nasales et les voyelles nasalisées diffèrent acoustiquement des voyelles orales correspondantes sur un vaste domaine fréquentiel. L’information semble répartie en fonction de la fréquence d’une façon que l’échelle Mel peut capturer adéquatement. Nous avons donc montré l’étendue de l’information qui est à disposition de l’auditeur. Il reste à déterminer celle qu’il utilise effectivement lors de la détection du contraste de nasalité en français : se concentre-t-il uniquement sur la région de F1 ou a-t-il besoin des informations complémentaires qui sont présentes à d’autres fréquences ? C’est l’une des questions abordées dans la deuxième partie de ce travail, consacrée à la perception des voyelles nasales du français. d. Nasalité phonétique et nasalité phonologique Nous avons utilisé l’analyse discriminante afin d’étudier la contribution spécifique de la nasalité phonétique parmi les diverses propriétés acoustiques qui participent à la distance acoustique entre voyelles orales et voyelles nasales du français. Pour ce faire, nous avons comparé les performances de l’analyse discriminante sur divers sous-ensembles des voyelles du corpus. Trois sous-ensembles ont été considérés : celui des voyelles orales et nasales (720 cas), celui des orales et des nasalisées (480 cas), et celui des nasales et des nasalisées (336 cas). Sur chacun de ces trois sous-ensembles, on a effectué trois types d’analyse discriminante. La première tâche consistait à classer chacune des huit voyelles dans une classe séparée ; par exemple, pour le premier sous-ensemble, /$/ vs. /(/ vs. /¡/ vs. /o/ vs. /D/ 115 vs. /(/ vs. /¡/ vs. /o/. La seconde tâche était de classer les voyelles en quatre groupes, selon leur timbre vocalique ; par exemple : /D,$/ vs. /(,(/ vs. /¡,¡/ vs. /o,o/. La troisième tâche demandée consistait à classer les voyelles en deux groupes, en fonction de la nasalité, par exemple : /D,(,¡,o/ vs. /$,(,¡,o/. Les performances sont données dans la Table 15. Table 15. Performances comparées de l’analyse discriminante (en %) sur trois sous-ensembles du corpus : voyelles orales et nasales (720 cas), voyelles orales et nasalisées (480 cas), voyelles nasales et nasalisées (336 cas). Comparaison en fonction du sous-ensemble et du critère de classification : par voyelle (en 8 classes), par timbre vocalique (en 4 classes) ou par nasalité (en 2 classes). Critère de classification Voyelle (8 classes) Timbre vocalique (4 classes) Nasalité (2 classes) Orales + Nasales (N = 720) 92.8 % 84.7 % 93.6 % Orales + Nasalisées (N = 480) 88.3 % 93.3 % 90.4 % Nasales + Nasalisées (N = 336) 83.0 % 89.9 % 83.3 % Sous-ensemble de voyelles Les pourcentages de classification correcte donnés dans la troisième colonne de la Table 15 montrent que, sur base des bandes d’énergie, il est plus facile de discriminer entre les orales et les nasales (93.6%), ou entre les orales et les nasalisées (90.4%), qu’entre les nasales et les nasalisées (83.3%). Ainsi, les voyelles sont bien discriminées acoustiquement le long de la dimension de nasalité, ce qui est cohérent avec l’existence en français du contraste phonologique de nasalité. Les performances présentées dans la première ligne de la table indiquent qu’il est relativement difficile de grouper les voyelles nasales et les orales dites correspondantes sur la base du timbre vocalique (84.7%). Les performances sont en tout cas meilleures lorsqu’il s’agit de classer les huit voyelles dans huit classes différentes (92.8%). Chaque voyelle nasale et sa correspondante phonologique orale ne sont donc pas séparées uniquement le long de la dimension de nasalité, elles diffèrent aussi en termes de qualité vocalique. Il faut comparer ces résultats avec ceux obtenus pour le sous-ensemble des voyelles orales et nasalisées (deuxième ligne de la Table 15). Pour ces voyelles, en effet, l’analyse discriminante atteint de bonnes performances dans la classification selon le timbre vocalique (93.3%). Il est plus difficile de classer ces huit voyelles en huit classes différentes (88.3%). Le timbre des voyelles nasalisées correspond donc plutôt bien à celui des voyelles orales. C’est ce à quoi on pouvait s’attendre étant donné la position fort proche des articulateurs dans les deux cas (Cf. cidessus, p.104). Ainsi, même si les voyelles nasales du français ont en commun d’être nasalisées, elles diffèrent de leur correspondante phonologique orale à un point tel qu’elles peuvent se laisser 116 décrire acoustiquement comme des unités indépendantes, relevant du système vocalique principal. 3.4. Résumé des résultats L’examen des propriétés acoustiques comparées des voyelles orales, des voyelles nasalisées et des voyelles nasales aboutit aux conclusions suivantes : L’information acoustique pertinente en ce qui concerne la nasalité est présente tout au long du domaine fréquentiel sous 4000 ou 5000 Hz. Un bon candidat en ce qui concerne l’indice acoustique de la nasalisation phonétique est le niveau général d’énergie de la voyelle. Une propriété aussi générale permettrait de résoudre le problème de la variabilité liée à la complexité de l’acoustique du couplage nasal. Cependant, ceci nécessite une validation au point de vue perceptuel. Les performances de l’analyse discriminante et les données acoustiques montrent que (1) les voyelles orales et les voyelles nasalisées sont relativement comparables acoustiquement parlant, à l’exception du niveau général d’énergie ; (2) les voyelles nasales diffèrent des orales sous plusieurs autres aspects. Les voyelles nasales ne sont donc pas uniquement la contrepartie nasalisée des voyelles orales. Elles se comportent plutôt comme des unités additionnelles du système vocalique, avec une propriété acoustique commune : la nasalité. 4. Dynamique des propriétés acoustiques de la nasalité en français 4.1. Nasalité phonétique vs. nasalité phonologique Les Figure 36 et Figure 37 donnent un spectrogramme et le signal pour deux items chacune, soit respectivement /So, So/ et /SD, S$/ prononcés par le sujet masculin S3. Ces figures permettent d’illustrer pour les voyelles postérieures les tendances observées pour toutes les voyelles nasales du corpus, en ce qui concerne la dynamique de leurs propriétés acoustiques. 117 S o S o Figure 36. Spectrogramme et signal pour les items /So/ (en haut) et /So/ (en bas) prononcés par le sujet S3. 118 S S D $ Figure 37. Spectrogramme et signal pour les items /SD/ (en haut) et /S$/ (en bas) prononcés par le sujet S3. 119 On remarque que les formants restent particulièrement stables au cours des voyelles orales, à part le F3 de /SD/, qui monte en fréquence et perd de l’énergie pendant la voyelle. Dans le cas des items /So/ et /S$/, par contre, les formants des voyelles évoluent au cours du temps, tant au point de vue de leur fréquence que de leur énergie. Ce caractère dynamique des formants est particulièrement marqué dans la première portion de la voyelle nasale. Dans le cas de /$/, F3 monte puis s’affaiblit au point de disparaître, F2 diminue et F1 monte jusqu’à former une large résonance centrée vers 900 Hz. Dans le cas de /o/, ce sont F4 et F3 qui se rejoignent, tandis que F2 diminue puis semble s’effacer, ou se confondre avec F1. Nous avons vu dans le Chapitre 2 que le voile du palais ne s’abaisse que tardivement, au cours de la voyelle, lorsque la consonne précédente est une occlusive sourde. Les mouvements acoustiques observés ci-dessus ne sont pourtant pas ceux qui caractérisent le passage d’une voyelle orale à une voyelle nasalisée consécutivement au couplage des résonateurs pharyngo-buccal et nasal. Ils correspondent plutôt à une transition entre une configuration orale et une autre, c’est-à-dire entre la configuration articulatoire pour la voyelle orale, et celle pour la voyelle phonologique nasale. C’est ce que soulignent les traits horizontaux rouge sur les Figure 36 et Figure 37. Sur chaque figure, les traits sont disposés aux mêmes fréquences pour la voyelle orale et pour la voyelle nasale. Ils soulignent le fait que les formants occupent au début de la voyelle nasale la position qu’ils ont tout au long de la voyelle orale correspondante. Les articulateurs se déplacent ensuite rapidement, et les formants de la voyelle nasale évoluent en conséquence, pour finalement atteindre une position stable, qui correspond à la configuration articulatoire et acoustique que nous avons décrite pour chaque voyelle nasale ci-dessus sur la base d’informations recueillies au centre de la voyelle. Les spectrogrammes et formes d’onde donnés dans les Figure 38 et Figure 39 confirment que les mouvements formantiques observés ci-dessus sont essentiellement dûs aux ajustements articulatoires d’une configuration orale à une autre, et non à l’abaissement du voile du palais. Ces figures concernent une répétition par le locuteur S3 des items /Vo, Po/ (Figure 38) et /V$, P$/ (Figure 39). Les formants des voyelles nasales connaissent une évolution temporelle tout à fait comparable à celle décrite ci-dessus : ils passent rapidement de la position qu’ils occupent pour les voyelles orales /D,o/ à une nouvelle position qui correspond à la voyelle cible : /$,o/. 120 V o P o Figure 38. Spectrogramme et signal pour les items /Vo/ (en haut)et /Po/ (en bas) prononcés par le sujet S3. 121 V $ P $ Figure 39. Spectrogramme et signal pour les items /V$/ (en haut) et /P$/ (en bas) prononcés par le sujet S3. 122 Nous avons montré précédemment (Cf. Chapitre 1, 3.1 et 3.2, pp. 36 et suivantes) que dans les items CV le voile du palais s’abaisse pour la voyelle nasale V selon un timing très différent en fonction de la nature de la consonne C : Lorsque C est une occlusive, le voile s’abaisse après le relâchement de l’occlusion, au cours de la voyelle. Si C est une fricative, le voile s’abaisse à la fin de la consonne, avant la mise en vibration des cordes vocales pour la voyelle. Quand C est une consonne nasale, le voile reste abaissé tout au long de la séquence consonne nasale – voyelle nasale. Alors que le voile du palais s’abaisse à des moments différents dans ces items, la dynamique des formants reste elle remarquablement similaire : elle reflète le passage de la configuration orale de la voyelle orale correspondante à celle de la voyelle nasale proprement dite23. Ce passage s’effectue au cours du premier tiers de la voyelle, puis les formants restent stables jusqu’au relâchement de la voyelle nasale. Notre interprétation de ces phénomènes est que, dans les transitions entre consonnes et voyelles, la dynamique du voile est un phénomène essentiellement lié aux contraintes (aérodynamiques et éventuellement perceptuelles) qui pèsent sur la consonne (Cf. p.60) . En ce qui concerne la voyelle nasale, la condition minimale semble être que le voile du palais soit abaissé lorsque la configuration orale pour la voyelle nasale proprement dite est atteinte, soit au plus tard au début du deuxième tiers de la voyelle. Dans les expériences perceptuelles rapportées dans la deuxième partie de ce travail, nous tenterons de savoir si l’évolution dynamique des formants au début de la voyelle nasale est un indice acoustique important pour la détection du contraste phonologique de nasalité en français. 4.2. Nasalité contextuelle vs. nasalité phonologique Les Figure 40 et Figure 41 sont destinées à illustrer les effets acoustiques comparés de la nasalité contextuelle progressive et régressive d’une part, et de la nasalité contextuelle maximale par rapport à la nasalité phonologique d’autre part. 23 Le fait que ceci soit vrai en particulier de la paire /D,$/ montre que ces deux voyelles fonctionnent bel et bien ensemble du point de vue de la nasalité phonologique en français, /$/ ayant disparu chez la plupart des locuteurs belges francophones (Cf. note 18, p.84). 123 P ( ( P Figure 40. Spectrogramme et signal pour les items /P(/ (en haut) et /(P/ (en bas) prononcés par le sujet S1. 124 La Figure 40 donne un spectrogramme et le signal pour les items /P(/ et /(P/ prononcés par le sujet féminin S1. Certaines traces de nasalisation contextuelle des voyelles orales en contexte phonologique nasal peuvent être relevées sur cette figure. Elles sont mises en évidence grâce aux traits rouges. Ainsi, le premier formant de la voyelle /(/ est affaibli, voire divisé en deux parties, et ce pour toute la première moitié de la voyelle, lorsqu’elle est précédée par une consonne nasale. Le F2 voit également sa fréquence monter jusqu’en milieu de voyelle. Ces phénomènes font partie de ceux rapportés précédemment lorsque la voyelle /(/ est nasalisée pour ce sujet (Cf. Figure 30). Par contre, lorsque la consonne nasale suit la voyelle, on ne distingue presque aucun effet de nasalisation contextuelle sur la voyelle, conformément à ce qu’ont montré les tracés aérodynamiques du premier chapitre (Cf. p.48). Dans la Figure 41, on s’attend à ce que l’effet acoustique de la nasalité contextuelle soit maximal pour la voyelle dans l’item /P(P/. F1 est en effet très affaibli, et F2 suit une trajectoire en forme d’arc, sa fréquence étant moins élevée en début et en fin de voyelle, à proximité des consonnes nasales. Néanmoins, ces variations spectrales de la voyelle orale sous l’effet de la nasalisation restent marginales par rapport à la nasalisation phonologique proprement dite, dont l’effet est illustré en bas de la Figure 41 pour l’item /P(/. Dans ce cas, en effet, la voyelle est extrêmement nasalisée, avec un F1 très affaibli et un niveau général d’énergie plutôt bas. Mais la fréquence de F2 est également très différente pour la voyelle nasale : il est aux alentours de 1700 Hz dans ce cas précis, soit 400 Hz plus bas que dans le cas d’un /(/ nasalisé pour le même sujet. Même si la nasalisation contextuelle est très importante dans certains contextes, et que le voile est abaissé pendant la majeure partie d’une voyelle orale, les voyelles orales nasalisées restent très différentes des voyelles nasales du français au point de vue acoustique. Les ajustements articulatoires propres aux voyelles nasales modifient en profondeur leur configuration orale, et partant, leurs propriétés spectrales, en particulier dans la région de F2. 125 P ( P P ( Figure 41. Spectrogramme et signal pour les items /P(P/ (en haut) et /P(/ (en bas) prononcés par le sujet S1. 126 5. Discussion 5.1. Effets acoustiques de l’abaissement du voile du palais La Table 16 présente un résumé des résultats de l’étude acoustique en ce qui concerne les propriétés des voyelles étudiées. Nous comparons les modifications acoustiques qui interviennent pour les voyelles nasalisées et pour les voyelles nasales par rapport à leur(s) correspondante(s) orale(s). Table 16. Résumé des résultats de l’étude acoustique. Propriétés acoustiques comparées des voyelles nasalisées et des voyelles nasales par rapport à leur correspondante orale Voyelles orales Voyelles nasalisées Voyelles nasales D Peu de changement fréquentiel ; F2 plus bas? F2 est plus bas ' F1 est plus haut F2 est plus bas F1 est plus haut F2 est plus bas  F1 est plus haut F2 est plus bas F1 est plus haut F2 est plus bas (femmes) n F2 est très affaibli (annulé) F2 est plus haut et est affaibli Toutes Perte d’énergie à toutes les fréquences. En particulier sous 1000Hz (bande passante en F1 élargie) et entre 2000 et 3000Hz (F3 disparait) Perte d’énergie. En particulier au-dessus de F2 ( région de F3). La Table 16 rappelle que les voyelles nasalisées divergent des voyelles orales dans deux directions. La première concerne chaque voyelle localement : lorsqu’une voyelle orale est nasalisée, ses résonances subissent certaines modifications fréquentielles, même si les articulateurs autres que le voile du palais n’ont pas changé de position. La seconde direction est commune à toutes les nasalisées : le niveau général d’énergie est inférieur pour ces voyelles par rapport aux voyelles orales correspondantes. Ces deux types de modifications correspondent à ce que prédit la théorie acoustique (Fant, 1960, Stevens, 1998). D’une part, les résonances du système couplé sont modifiées par rapport à celles du résonateur pharyngo-buccal seul. Pour un individu donné, le résultat dépend de la configuration orale propre à la voyelle, ainsi que du degré de couplage, ce qui explique que les modifications fréquentielles observées pour les formants varient selon les voyelles étudiées. Les nombreuses différences anatomiques, en particulier dans la configuration des fosses nasales, ainsi que d’éventuelles variations dans le degré de couplage peuvent rendre compte de la variation inter-individuelle observée, par exemple en ce qui 127 concerne le F2 de la voyelle [o] (Cf. p.71). D’autre part, l’affaissement du niveau général d’énergie est consécutif à l’introduction de zéros spectraux par le couplage nasal, et à un amortissement général de l’énergie acoustique dû à l’augmentation du volume d’air en vibration, et de la surface des parois du système résonateur (Johnson, 1997, Stevens, 1998). Plusieurs auteurs ont relevé précédemment que, toutes choses étant égales par ailleurs, le niveau d’énergie général d’une voyelle nasalisée est inférieur à celui d’une voyelle orale : de House et Stevens (1956), jusqu’à Kent, Liss et Philips (1989), en passant par Dickson (1962), et surtout Bernthal et Beuckelman (1977), qui ont montré qu’une augmentation de l’aire du port vélo-pharyngal avait pour principal effet d’abaisser l’intensité générale d’une voyelle. On peut néanmoins se poser la question de savoir si ce type de généralisation ne nous mène pas à une caractérisation acoustique trop peu précise de la nasalité, et qui n’aurait dès lors que peu de valeur fonctionnelle. A l’opposé de cette généralisation se situe la démarche poursuivie par Chen (1997), qui relève le défi de la quantification précise en termes d’énergie du degré de nasalité spécifique d’une voyelle. Ainsi, Chen propose une mesure spectrale de la nasalité qui se fonde sur l’examen d’un corpus de voyelles contextuellement nasalisées de l’anglais, et de voyelles nasales du français. Cette mesure est double, soit « A1-P0 » et « A1-P1 ». Elle s’appuie sur une modélisation acoustique de la nasalité vocalique, qui prédit en l’occurence que le F1 pour les voyelles nasales est de faible intensité (A1, en dB) et que des pics nasals (d’amplitudes P0 et P1, en dB) surviennent autour de 250 et 950 Hz. Les amplitudes P0 et P1 sont mesurées à des fréquences qui sont choisies parce qu’elles correspondent à des pics (d’une seule harmonique) sur le spectre FFT d’une nasalisée dans une région donnée. Par contre, la recherche d’un pic éventuel dans le spectre de la voyelle orale correspondante est contrainte par la fréquence spécifique du pic préalablement trouvé pour la voyelle nasalisée. La méthode favorise donc a priori l’apparition de large différences A1-P0 et A1-P1 pour les voyelles nasalisées exclusivement. De plus, à la différence de l’auditeur, qui ne sait pas qu’une voyelle est nasalisée avant de l’entendre, l’expérimentateur est conscient du fait qu’il est en présence de voyelles nasales, et se concentre dès lors sur deux régions extrêmement spécifiques du spectre acoustique. S’intéressant à l’énergie dans une région fréquentielle beaucoup plus large, Maeda (1982) a proposé que l’indice acoustique de la nasalité, indépendamment de la voyelle considérée, consiste en un aplatissement du spectre et en une répartition plus diffuse de l’énergie en « basses fréquences ». Maeda (1993) a cependant précisé que la formule mathématique qu’il propose pour mesurer le caractère diffus d’un spectre nécessite de la part de l’expérimentateur la spécification d’une plage fréquentielle adéquate dans chaque cas, de 128 façon par exemple à exclure du calcul le F2 des voyelles antérieures. C’est à ce prix que les résultats obtenus reflètent le degré de nasalité effectivement perçu pour chaque voyelle. Dans une seconde tentative visant à caractériser acoustiquement la nasalité, Maeda (1993) a proposé de considérer la distance entre deux pics N1 et N2 en basses fréquences (en dessous de 10 Barks, soit 1300 Hz) comme la mesure du degré de nasalité au niveau perceptuel. Malheureusement, l’identification de N1 et N2 nécessite elle aussi une intervention de l’expérimentateur parce que le choix doit souvent s’effectuer parmi trois pics dans la région fréquentielle concernée (pour /$/ par exemple). Pour /X/, l’identification de N1 et N2 ne pose pas de problème, mais la mesure qui en résulte ne reflète que pauvrement l’évolution du degré perceptuel de nasalité en fonction du couplage nasal. Par rapport aux propositions faites par Chen (1997), et Maeda (1993), nous plaidons quant à nous en faveur d’une mesure acoustique de la nasalité qui soit indépendante de toute manipulation par l’expérimentateur, et qui émerge du spectre des voyelles nasalisées envisagé dans son ensemble. Notre étude de la répartition comparée de l’énergie entre voyelles orales et voyelles nasalisées nous amène à deux considérations : Si l’on considère l’énergie moyennée pour tous les locuteurs et tous les environnements phonologiques (Cf. Figure 27, p.100), la différence entre voyelles orales et voyelles nasalisées s’opère sur l’ensemble du domaine fréquentiel sans distinction. Si l’on étudie chaque paire orale-nasalisée pour un individu donné (Cf. 3.2 ci-dessus), deux régions du spectre semblent particulièrement affectées par la baisse du niveau de l’énergie : les fréquences situées sous 1000 Hz, et celles comprises entre 2000 et 3000 Hz. En conséquence, F1 et F3 sont particulièrement affectés par le couplage nasal, soit que leur bande passante soit élargie (surtout dans le cas de F1), soit qu’ils disparaissent presque complètement sous l’effet des anti-résonances (dans le cas de F3). La présence d’anti-résonances dans la région spécifique de F3 a été précédemment observée par Bloomer et Peterson (1955), Jha (1986) et Kent, Liss et Philips (1989). Comme nous l’avons dit ci-dessus (p.117), le niveau général d’énergie pourrait donc être un bon candidat en ce qui concerne l’indice acoustique de la nasalisation, mais ceci nécessite une validation au niveau perceptuel. En effet, l’oreille humaine est-elle sensible au niveau d’énergie d’une voyelle ? Ou bien l’auditeur est-il attentif aux effets de la perte d’énergie dans certaines plages fréquentielles en particulier, telles que celles isolées ci-dessus ? Les expériences perceptuelles menées dans la deuxième partie de ce travail ont notamment pour 129 objectif de tester l’efficacité des propriétés acoustiques relatives au niveau d’énergie d’une voyelle, en tant qu’indices perceptuels de la nasalité. 5.2. Propriétés acoustiques des voyelles nasales du français L’analyse des cepstres et des spectrogrammes des voyelles nasales montre qu’elles diffèrent des orales en ce qui concerne le niveau général d’énergie, mais également sous bien d’autres aspects. Les performances de l’analyse discriminante indiquent qu’une voyelle nasale est plus aisément classée comme une unité à part entière du système vocalique que comme le second membre d’une classe à laquelle appartient aussi la voyelle orale correspondante. Les voyelles nasales du français ne sont donc pas uniquement la contrepartie nasalisée des voyelles orales. En plus des effets acoustiques de l’abaissement du voile du palais, on remarque dans le spectre de toute voyelle nasale un certain nombre de propriétés acoustiques qui sont liées aux articulations additionnelles ayant modifié sa configuration orale : La voyelle /#/ est plus arrondie et plus arrière que /D/, ce qui se traduit acoustiquement par un F2 plus bas, soit [b]. La nasale /(/, dont la réalisation phonétique est proche de [4], une voyelle antérieure ouverte, a donc un F1 plus élevé et un F2 plus bas que l’orale /(/. De même, /¡/ est un peu plus ouverte et plus postérieure que /¡/ : F1 est plus élevé, F2 plus bas, soit [¡„]. Enfin /o/ est plus arrondie que /o/, et chez les locuteurs féminins, plus postérieure et plus fermée, soit [R]. F2 n’est pourtant pas plus bas pour ces voyelles, à moins que le pic à cette fréquence soit une résonance nasale. Quoi qu’il en soit, cette résonance est très peu intense, et la nasale est sans doute perçue comme une voyelle très postérieure. En ce qui concerne les voyelles nasales antérieures /(,¡/, l’évolution fréquentielle de F1 et F2 renforce la tendance amorcée dans le spectre des nasalisées, comme le montre le résumé de la Table 16. Nous proposons de rendre compte de ce phénomène dans le cadre de la théorie des changements phonétiques proposée par John Ohala (1981). Dans cette optique, nous considérons que le couplage nasal a induit de légères modifications dans les fréquences des deux premiers formants des voyelles antérieures /(,¡/ ([(,¡]). A un moment donné, ces modifications n’ont plus été interprétées par les auditeurs comme conditionnées par la nasalité, 130 mais comme résultant d’une action délibérée (d’ouverture et de postériorisation des voyelles) de la part des locuteurs. Ces auditeurs devenus locuteurs à leur tour se sont mis à prononcer les voyelles antérieures nasales en modifiant la position des articulateurs dans la cavité orale de sorte que F1 et F2 évoluent dans la direction adéquate, soit [4,¡„]. Ce type d’interprétation ne peut convenir pour les voyelles postérieures, en particulier pour /o/. De plus, le couplage acoustique nasal n’induit pas vraiment d’abaissement de F2 lorsque /D/ est nasalisée ([D]), alors que diverses articulations additionnelles conduisent à un abaissement net du F2 de la nasale /$/. En fait, l’abaissement du deuxième formant par rapport à la fréquence qu’il occupe pour les orales est la propriété acoustique la plus largement partagée par les voyelles nasales du français, à côté de la perte générale d’énergie. Lonchamp (1979) avait déjà constaté que le F2 des nasales est régulièrement plus bas que celui des orales correspondantes. Il attribuait cette différence à une position plus reculée de la langue uniquement. L’arrondissement des lèvres que nous observons dans le cas de /#/, et surtout de /n/, a des conséquences similaires. Ainsi, le mouvement articulatoire de postériorisation des voyelles nasales du français est accompagné de diverses autres modifications telles que la labialisation, qui ont pour conséquence majeure un abaissement du F2 de la voyelle par rapport à l’orale correspondante. La seule voyelle pour laquelle F2 n’est pas toujours abaissé est /o/, mais dans ce cas l’intensité très faible de cette résonance conduit sans doute à la perception d’une voyelle très grave. En effet, on peut caractériser acoustiquement les voyelles nasales du français comme étant plus graves et plus compactes que leurs correspondantes phonologiques orales. La gravité est principalement liée à l’abaissement de F2, et la compacité relève de la chute d’énergie observée sous 1000 Hz et entre 2000 et 3000 Hz, soit dans les régions de F1 et F3, mais pas dans celle de F2. Dans le cas des antérieures, la montée fréquentielle de F1 renforce la compacité de la voyelle. D’autre part, l’abaissement de F2 pour toutes les voyelles nasales a pour effet d’accentuer encore la perte d’énergie dans la région de F3 puisque l’amplitude des formants d’ordre supérieur est en partie déterminée par celle des formants d’ordre inférieur (Fant, 1960, Stevens, 1998). On constate donc que les effets acoustiques de l’abaissement du voile du palais et des articulations complémentaires interagissent de façon complexe pour aboutir aux propriétés spectrales des voyelles nasales du français. Nous tenterons dans la deuxième partie de ce travail de déterminer leur contribution respective à la détection du contraste de nasalité : la perte d’énergie est-elle une condition suffisante ou seulement nécessaire à la perception d’une voyelle nasalisée ? Quel est le poids perceptuel de l’abaissement fréquentiel de F2 ? Nous 131 pensons que ce facteur est essentiel étant donné que c’est la différence de gravité qui permet de distinguer une orale contextuellement nasalisée d’une voyelle phonologique nasale (Cf. pp.123 à 126). Par ailleurs, ce ne sont pas les effets acoustiques de l’abaissement du voile, mais bien les mouvements formantiques associés aux ajustements articulatoires complémentaires, qui sont coordonnés dans le temps avec la mise en vibration des cordes vocales pour la voyelle nasale (Cf. p.117). Les expériences de la deuxième partie permettent de déterminer dans quelle mesure ce caractère dynamique de la propriété acoustique de gravité est essentiel à la perception de la nasalité. 132 Discussion : Production des voyelles nasales du français Les résultats de notre étude consacrée à la production des voyelles nasales du français montrent (1) que ces voyelles sont plus longues que les orales correspondantes (Cf. p.29), (2) qu’elles sont prononcées avec un voile du palais abaissé, la position d’abaissement étant atteinte à différents moments selon le contexte phonologique et au plus tard au début du deuxième tiers de la voyelle, (3) que la configuration orale évolue rapidement au début des nasales, en passant de la configuration propre à l’orale correspondante à une nouvelle configuration qui est spécifique à chaque nasale, avec cependant une prépondérance des mouvements de postériorisation et d’arrondissement des lèvres. En conséquence, dès le deuxième tiers de la voyelle, les nasales du français ont un niveau général d’énergie toujours inférieur à celui des orales, avec en particulier une baisse d’énergie sous 1000 Hz et entre 2000 et 3000 Hz, qui affecte plus précisément les régions de F1 et F3. Leur F2 est par contre relativement proéminent et plus bas en fréquence que celui des orales correspondantes. En résumé, les voyelles nasales du français sont plus longues, moins intenses, plus compactes et plus graves que les orales correspondantes. La réalisation phonétique du contraste phonologique de nasalité en français ne s’appuie donc pas uniquement sur la présence ou l’absence du couplage nasal proprement dit. Un ensemble d’articulations complémentaires covarient régulièrement avec l’abaissement du voile du palais au cours de la production d’une voyelle nasale. Comme nous l’avons précisé dans l’introduction générale de ce travail (p.12), les phénomènes de covariation phonétique permettent de confronter les points de vue d’une phonétique automatique et d’une phonétique contrôlée. Comment rendre compte, en effet, de la covariation observée entre les diverses propriétés articulatoires (et leurs effets acoustiques) pour les nasales du français ? Faut-il situer le phénomène dans le domaine de la phonétique automatique, dans celui de la phonologie, ou bien au sein de la connaissance phonétique proposée par Kingston et Diehl (1994) ? Nous allons successivement envisager ces trois hypothèses. Tout d’abord, il semble peu probable que les phénomènes observés de covariation procèdent uniquement de l’exécution automatique par le composant phonétique des spécifications phonologiques pour le trait de nasalité en français. D’une part, on peut difficilement soutenir que les diverses articulations complémentaires résultent de l’action de contraintes physiques (aérodynamiques, articulatoires ou bio-mécaniques) liées à l’abaissement du voile du palais. En effet, les modifications articulatoires concernent bien trop d’articulateurs pour supposer un lien bio-mécanique entre ceux-ci et le voile du palais. En ce qui concerne les contraintes aérodynamiques liées à l’abaissement du voile, elles sont importantes pour la production des consonnes en général, en raison de la chute de pression intra-orale résultant de l’ouverture du port vélo-pharyngien (Ohala, 1975), mais sont à peu près 134 nulles pour les voyelles, qui par définition sont produites avec la bouche ouverte et une pression intra-orale équivalente à la pression atmosphérique. Les contraintes articulatoires sont également minimes, et concernent uniquement d’éventuelles modifications de la fonction d’aire de la voyelle dans la région précise où le voile s’abaisse. Ce n’est manifestement pas cela qui entraîne la postériorisation, les changements d’aperture et l’arrondissement des lèvres régulièrement observés pour les voyelles nasales du français. D’autre part, l’action automatique de contraintes physiques résulte typiquement en une variation continue dans la dimension et dans la coordination temporelle des gestes (Fowler, 1990, Browman et Goldstein, 1992). Or, les observations que nous avons rapportées dans cette première partie vont toutes dans le même sens : les diverses modifications articulatoires et leurs corrélats acoustiques aboutissent à une véritable réorganisation de la production de chaque voyelle nasale par rapport à l’orale correspondante. Il y a un saut qualitatif entre l’une et l’autre, qui implique par exemple que l’analyse discriminante classe plus facilement les voyelles /D,$,(,(,o,o,¡,¡/ en huit classes différentes qu’en quatre classes regroupant l’orale et la nasale correspondante. L’ampleur des modifications articulatoires et acoustiques, ainsi que leur constance pour tous les locuteurs et à travers les différents contextes phonologiques, nous amènent à envisager la possibilité que ces modifications appartiennent plus simplement à la phonologie du français. Comme nous l’avons dit précédemment (Cf. p.130), on peut rendre compte des ajustements articulatoires concernant les voyelles /(,¡/ dans le cadre de la théorie des changements phonétiques proposée par John Ohala (1981). Les modifications fréquentielles des formants induites automatiquement par le couplage nasal seul peuvent avoir été réinterprétées par les auditeurs comme étant délibérées de la part du locuteur (même si ici la source des modifications n’a pas disparu). Ils les auraient ensuite reproduites en utilisant divers ajustements de la configuration articulatoire de la voyelle tels que l’arrondissement des lèvres ou la postériorisation. Dans cette optique, la langue aurait phonologisé certaines particularités phonétiques des voyelles nasalisées résultant des effets acoustiques du couplage des résonateurs pharyngo-buccal et nasal. Ce type d’explication convient essentiellement pour les voyelles nasales antérieures, à propos desquelles il faut néanmoins noter que leur nouvelle configuration articulatoire et acoustique consiste en un dépassement, plutôt qu’en une simple phonologisation de tendances phonétiques préexistantes : de [(„], on passe à [4]. De plus, la situation est moins claire pour /$/, qui a un F2 nettement plus bas que /D/, alors que ce n’est pas toujours le cas pour les nasalisées [D]. Quant aux ajustements articulatoires qui surviennent dans la production des nasales /o/ (chez les sujets féminins essentiellement), ils semblent plutôt aboutir à la préservation d’un pôle dans la région de F2, là où le couplage nasal seul 135 l’avait anéanti24. Quoi qu’il en soit, on observe en français septentrional un mouvement général de postériorisation qui s’appuie en partie sur les effets acoustiques du couplage nasal proprement dit et aboutit à un renforcement de la gravité des voyelles nasales. Le renforcement de la gravité de ces voyelles, consécutif à la convergence de divers ajustements articulatoires, est suffisamment net et régulier pour être considéré comme faisant partie du programme des locuteurs lorsqu’ils réalisent phonétiquement une voyelle nasale du français. Une explication possible de la postériorisation généralisée est liée à la tendance bien connue des voyelles nasales à se distinguer moins facilement entre elles que les orales correspondantes. En effet, Wright (1986) a montré que l’espace acoustique des voyelles nasales était resserré par rapport à celui des orales correspondantes, tant dans la dimension d’aperture, que dans celle d’antériorité-postériorité (Cf. Figure 42). En conséquence, la nasalisation a pour effet de réduire la distinctivité entre voyelles nasales, et donc leur nombre dans les inventaires phonologiques des langues du monde25. Figure 42. Schématisation des tendances générales observées en ce qui concerne l’évolution acoustique (symbolisée par des flèches noires) des voyelles nasalisées (disques) par rapport aux orales correspondantes (cercles) d’après Wright (1986). Comparaison avec le mouvement général observé en français septentrional (flèche rouge) et en français canadien (flèche bleue). Une fois nasalisées, les voyelles antérieures ont donc un F2 plus bas, et les postérieures un F2 plus haut, que les orales correspondantes d’après Wright. Si le français avait renforcé chez les nasales les mouvements opérés dans le triangle vocalique par toutes ses voyelles nasalisées, en poursuivant jusqu’au bout la proposition faite ci-dessus, elles auraient donc risqué de se rapprocher au point de ne plus être séparées par une distance acoustique suffisante pour que le contraste soit maintenu entre elles. Le renforcement généralisé de la gravité, symbolisé par une flèche rouge sur la Figure 42, permet donc d’accroître la distance acoustique et perceptuelle entre les voyelles nasales et les orales 24 25 Voir cependant ci-dessous p.138 pour une interprétation différente des phénomènes concernant /o/. Pour plus de détails, voir Introduction, p.11. 136 correspondantes, tout en maintenant par ailleurs une distance suffisante entre les nasales elles-mêmes. Ainsi, on pourrait arguer en faveur de l’existence d’une contrainte de type systémique, en l’occurrence d’une contrainte qui limite la réalisation phonétique d’une voyelle nasale en fonction des oppositions qu’elle entretient avec les autres voyelles dans le système phonologique de la langue concernée. Ce type d’évolution phonétique « en chaîne » (Cf. Labov, Yaeger et Steiner, 1972) des éléments du système phonologique permettrait également de rendre compte du fait qu’en français canadien on observe un mouvement inverse (représenté par une flèche bleue sur la Figure 42), soit un mouvement des nasales vers l’avant du triangle vocalique par rapport à leur correspondante orale (Gendron, 1966, Maurais, 1993). Dans le cas du français canadien comme dans celui du français septentrional, on considère alors que le dialecte s’appuie sur une tendance phonétique liée à la nasalité (à savoir la tendance des voyelles nasalisées antérieures à se postérioriser, ou bien celle des voyelles nasalisées postérieures à s’antérioriser) pour modifier la configuration orale de toutes les voyelles nasales dans la même direction, de façon à maintenir un contraste suffisant entre les différentes voyelles nasales du système. Dans cette hypothèse, on a donc ici un exemple d’interaction entre des contraintes d’ordre phonétique agissant sur le système phonologique, et des contraintes provenant du système phonologique agissant à son tour sur les réalisations phonétiques, c’est-à-dire un exemple de réciprocités entre la micro-structure et la macrostructure du système phonologique de la langue (Browman et Goldstein, 1990). Quoi qu’il en soit, le renforcement du caractère grave ou, au contraire, du caractère aigu des voyelles nasales du français par rapport aux orales correspondantes est un phénomène qui fait manifestement partie du plan du locuteur, lorsqu’il prononce ces voyelles. Est-ce à dire qu’il existe une règle phonologique dans les deux dialectes, qui modifierait (dans un sens ou dans un autre) la valeur d’une voyelle pour le trait d’antériorité lorsque la spécification de cette voyelle pour le trait de nasalité est [+N]? Nous ne le pensons pas. Nous considérons plutôt la proposition de Kingston et Diehl (1994), qui consiste à réserver à la représentation des propriétés contrastives des sons la manipulation des traits distinctifs, et à situer les phénomènes de covariation articulatoire impliqués dans la réalisation phonétique d’une même spécification phonologique au sein d’un composant phonétique contrôlé. L’hypothèse ici est que la covariation des propriétés articulatoires et acoustiques telles que la nasalité, la postériorisation et l’arrondissement d’une voyelle ne survient pas de façon accidentelle, en réponse automatique à l’action de contraintes physiques, mais qu’il s’agit d’une stratégie articulatoire contrôlée de la part du locuteur. Les locuteurs font covarier diverses articulations, parce qu’ils ont une connaissance fine de la façon dont les effets acoustiques de 137 ces articulations interagissent, avec pour objectif ultime de renforcer chez les auditeurs l’impression auditive de nasalité (« auditory enhancement theory », Diehl et al., 1990). La réorganisation des articulations n’a pas pour origine une réinterprétation erronée du signal acoustique comme dans le cas de la théorie des changements phonétiques proposée par Ohala (1981). Pour Ohala, en effet, l’auditeur perçoit les messages en relation avec son expérience linguistique, par exemple des phénomènes de coarticulation, et adapte son comportement de locuteur en fonction de son interprétation des signaux acoustiques. L’approche de Kingston et Diehl (1994) est plus téléologique, dans la mesure où le locuteur est considéré comme à même de contrôler ses articulations dans le but d’optimiser la communication. C’est également une hypothèse plus « cognitive », parce qu’elle pose que le contrôle des articulations se fonde sur une véritable connaissance des mécanismes phonétiques, tant au niveau de la production que de la perception de la parole. L’hypothèse est donc que l’accroissement de la gravité renforce pour toutes les voyelles, y compris les postérieures, la perception de la nasalité. Ceci peut sembler à première vue en contradiction avec les tendances observées par Wright en ce qui concerne l’évolution des voyelles nasales dans l’espace acoustique F1-F2 (voir ci-dessus). La Figure 42 donne à penser qu’une antériorisation des postérieures, de même qu’une postériorisation des antérieures, pourrait éventuellement renforcer les impressions auditives liées à la nasalité, puisque ces modifications correspondraient aux mouvements formantiques amorcés par le couplage nasal. En ce qui concerne le français, pourtant, nous avons constaté que, même si au point de vue acoustique, la deuxième résonance de /o/ a une fréquence plus élevée que celle de /o/, cette résonance est tellement peu intense que la voyelle nasale sera en fait perçue comme une voyelle très postérieure, puisque l’essentiel de l’énergie en basses fréquences sera ramassé sous 800 Hz. Cette résonance est très peu intense parce que lorsque des modifications articulatoires interviennent dans le cas de la nasale (de recul, et de soulèvement de la langue dans la région vélaire), elles favorisent un accroissement de la contribution des fosses nasales dans le spectre du système couplé (voir p.110). Nous considérons donc que l’objectif des locuteurs est bien celui d’un renforcement de la gravité de toutes les voyelles nasales du français /(,¡,$/, et /o/26. En quoi l’accroissement de la gravité d’une voyelle pourrait-il renforcer l’impression auditive de nasalité ? Nous avons vu que l’effet acoustique principal du couplage nasal consistait en une perte d’énergie dans la région de F1 et dans celle de F3, soit sous 1000 Hz et 26 Cette hypothèse sera confirmée par les expériences de perception (Cf. p.176), au cours desquelles nous avons synthétisé avec succès la voyelle nasale /o/ avec un F2 plus bas que celui de /o/. 138 entre 2000 et 3000 Hz, alors que la plage fréquentielle située entre 1000 et 2000 Hz est relativement peu affectée. Les ajustements articulatoires qui viennent modifier la configuration orale des voyelles nasales aboutissent, dans le cas des antérieures, à un F2 plus bas et plus proéminent. L’énergie est d’autant plus réduite au-delà de F2, dans la région de F3. Dans le cas des voyelles nasalisées comme dans celui des voyelles nasales, l’énergie est donc ramassée entre 1000 et 2000 Hz, et l’on peut considérer que la gravité de la voyelle renforce sa compacité. En ce qui concerne les postérieures, l’accroissement de la gravité renforce le percept de nasalité parce qu’il réduit encore la plage en basses fréquences où ne se manifeste pas la chute généralisée de l’énergie ; la gravité rehausserait donc l’effet acoustique de la perte d’intensité. Pour résumer, notre hypothèse de l’interaction des contraintes systémiques et phonétiques suppose que seule la postériorisation des antérieures constitue un renforcement des tendances acoustiques amorcées par le couplage nasal proprement dit, mais que le français septentrional postériorise toutes ses voyelles nasales de façon à maintenir la distinction entre elles. L’hypothèse du contrôle phonétique à des fins de renforcement auditif pose que l’ensemble des ajustements articulatoires survenant pour les voyelles nasales contribuent à une meilleure perception de la nasalité, et que les locuteurs ont précisément adapté leur comportement phonétique à cette fin. Le modèle d’implémentation phonétique contrôlée a un avantage supplémentaire, c’est qu’il permet d’intégrer les phénomènes observés en ce qui concerne la nasalité contextuelle en français. L’un des principaux résultats de la première partie de ce travail, en effet, est qu’il existe une certaine quantité de nasalité phonétique en français (due à l’abaissement seul du voile du palais) qui dépasse dans certains cas ce qui est strictement nécessaire si l’on considère uniquement les contraintes liées à l’inertie du voile. Dans l’hypothèse où les ajustements articulatoires font partie d’une stratégie de production contrôlée dans le but de renforcer le percept de nasalité, le contraste phonologique de nasalité en français s’appuie autant sur les indices acoustiques liés à ces articulations additionnelles que sur le couplage nasal proprement dit27. La nasalité strictement phonétique peut alors, dans certains cas, être utilisée par la langue à d’autres fins. Nous avons envisagé au moins deux cas de ce type dans les chapitres précédents : celui de l’abaissement généralisé du voile du palais lors de la 27 Un indice supplémentaire en faveur du fait que la nasalité phonétique ne constitue pas nécessairement le coeur du contraste phonologique de nasalité en français est que, dans les transitions entre consonnes orales et voyelles nasales, le déclenchement de l’abaissement du voile du palais semble lié à aux contraintes relatives à la production (ou à la perception) de la consonne et non à la voyelle elle-même. C’est exactement le contraire en ce qui concerne les ajustements de la configuration orale des voyelle nasales, dont l’évolution temporelle est toujours coordonnée avec le début de la voyelle. 139 production de la voyelle /D/, et celui de la nasalisation progressive, qui est plus importante que la nasalisation régressive en français comme dans d’autres langues. Ainsi, nous avons proposé que les locuteurs utilisent leur connaissance phonétique des phénomènes liés respectivement à la perception des voyelles orales ouvertes et à celles des consonnes nasales, et qu’ils nasalisent en conséquence tout ou partie de segments dont la spécification phonologique pour le trait de nasalité est [-N]. Cela n’est possible que si le contraste phonologique de nasalité est implémenté phonétiquement de façon particulièrement robuste, de sorte que les segments [+N] ne risquent pas d’être confondus avec des segments [-N] phonétiquement nasalisés. Parallèlement, les segments [-N] seront d’autant moins nasalisés contextuellement qu’ils risquent le plus d’être confondus avec un segment [+N]. Ainsi, pour rendre compte du taux élevé de nasalité des voyelles (semi-)fermées dans certains contextes, nous avons argumenté en faveur d’une explication fondée sur la connaissance phonétique, plutôt que sur une contrainte de type systémique, parce qu’en contexte phonologique nasal la voyelle orale la moins nasalisée n’est pas celle qui correspond phonologiquement à une nasale mais celle qui lui correspond phonétiquement (Cf. p.90). C’est la voyelle dont la configuration orale est la plus proche de la nasale qui est la moins nasalisée contextuellement, ce qui permet d’éviter que l’auditeur ne confonde l’une et l’autre. En résumé, l’interprétation que nous proposons des phénomènes relatifs à la production des voyelles orales et nasales en français est la suivante : la réalisation phonétique de la spécification phonologique [+N] pour les voyelles du français s’appuie autant sur les propriétés acoustiques liées au couplage nasal (faible intensité, grande compacité de la voyelle), que sur celles issues des articulations additionnelles (accroissement de la gravité). Nous pensons qu’il peut y avoir une motivation d’ordre perceptuel à la covariation de ces diverses propriétés articulatoires et acoustiques dans la réalisation du contraste de nasalité en français. Tester cette hypothèse sera l’un des objectifs de la deuxième partie de ce travail. Par ailleurs, nous considérons que dans certaines conditions, la réalisation de la spécification phonologique [-N] s’accompagne explicitement d’un certain taux de couplage nasal, c’est-à-dire qu’un certain degré de nasalité phonétique fait partie intégrante du plan du locuteur lorsqu’il réalise ces segments. Nous pensons que les phénomènes impliqués dans la réalisation phonétique des sons phonologiquement [-N] et [+N] ne peuvent être situés ni dans un composant phonétique purement automatique, ni dans la phonologie de la langue stricto sensu, et que le modèle de la phonétique contrôlée proposé par Kingston et Diehl (1994) est celui qui rend le mieux compte de l’ensemble des observations faites en ce qui concerne la production des voyelles nasales du français. 140 Deuxième partie : Perception des voyelles nasales du français Introduction et méthodologie générale 1. Questions de recherche Cette deuxième partie de la thèse est consacrée à la perception du contraste phonologique de nasalité pour les voyelles du français. Suite aux résultats obtenus en production de la parole, nous avons développé notre étude perceptuelle autour de quatre questions de recherche : (1) La question de la validité des propriétés acoustiques observées en tant qu’indices perceptuels de la nasalité vocalique. Nos travaux consacrés aux aspects acoustiques de la nasalité vocalique ont permis de dégager un ensemble de régularités caractéristiques de la production des voyelles nasales du français, qui sont autant de candidats au titre d’indices perceptuels de la nasalité. Pourtant, il est tout à fait possible que les auditeurs n’accordent qu’une attention très minime à certaines de ces propriétés, lorsqu’ils doivent décider si une voyelle donnée est orale ou nasale en français. Le premier objectif de l’étude perceptuelle est donc de déterminer les propriétés acoustiques qui signalent la nasalité en français, et ce, indépendamment de la voyelle concernée. Les propriétés acoustiques considérées sont : la durée de la voyelle, son intensité, sa compacité, et sa gravité (avec ou sans évolution dynamique en début de segment)28. Sur la base de ces propriétés acoustiques, nous avons synthétisé divers continuums orale-nasale, qui constituent les ensembles de stimuli utilisés lors des expériences de perception. (2) La question de la primauté de certaines propriétés acoustiques en tant qu’indices perceptuels de la nasalité. L’un des résultats principaux de la première partie concerne en effet l’importance des articulations complémentaires à l’abaissement du voile du palais lors de la production des voyelles nasales, notamment en termes de distance acoustique entre les nasales et les orales correspondantes. L’étude perceptuelle devra donc déterminer la contribution relative des effets acoustiques liés à ces deux types de phénomènes articulatoires (abaissement du voile et ajustements complémentaires) en ce qui concerne la perception de la nasalité pour les voyelles du français. A cette fin, nous avons synthétisé les différents continuums orale-nasale en faisant varier les propriétés des voyelles simultanément le long de deux dimensions acoustiques, l’une correspondant au couplage nasal proprement dit (Intensité ou Compacité), et l’autre aux effets acoustiques des articulations additionnelles (Gravité). La comparaison des 28 Pour plus de détails concernant la façon dont nous avons mis en oeuvre ces diverses propriétés, Cf. p.149 cidessous. 143 performances des auditeurs en fonction des propriétés des différents stimuli (c’est-àdire de leur valeur le long de chaque dimension) permet de répondre à la question de la primauté d’une dimension acoustique par rapport à l’autre lors de la détection du contraste de nasalité pour les voyelles du français. La question du mode d’interaction des deux dimensions acoustiques au niveau perceptuel. A supposer que les deux groupes d’indices acoustiques (ceux liés au couplage et ceux liés aux autres articulations) soient effectivement nécessaires à la bonne perception de la nasalité vocalique, et indépendamment de leur poids respectif dans la décision finale, l’étude perceptuelle a plus généralement pour objectif de déterminer la façon dont ces deux types de propriétés acoustiques interagissent dans la perception des auditeurs. Les deux types d’indices sont-ils pris en compte indépendamment (par exemple par combinaison linéaire des valeurs prises par la voyelle le long de chaque dimension) au cours de la stratégie de décision qui vise à déterminer si la voyelle perçue est une nasale ou une orale ? Ou bien les deux dimensions acoustiques sont-elles intégrées perceptuellement à un stade précoce du traitement auditif du signal reçu ? Apporter une réponse à ces questions permet de vérifier l’hypothèse que nous avons émise dans la première partie quant aux raisons pour lesquelles les diverses articulations covarient lors de la production d’une voyelle nasale du français. Dans le cadre de l’hypothèse de la connaissance phonétique, nous proposons en effet que les locuteurs contrôlent la covariation des diverses articulations lorsqu’ils réalisent une voyelle nasale du français, parce que les corrélats acoustiques des articulations covariantes se rehaussent mutuellement au point de vue auditif. Les deux dimensions acoustiques relatives à la compacité et à la gravité d’une voyelle seraient auditivement intégrées, c’est-à-dire que la valeur d’un stimulus le long de l’une de ces dimensions influencerait automatiquement sa valeur le long de l’autre dimension dans la perception des auditeurs. Dans cette hypothèse, la covariation du couplage nasal et des articulations orales additionnelles accroît la distance perceptuelle entre deux voyelles par rapport à la distance acoustique qui les sépare effectivement. En somme, les locuteurs francophones tireraient avantage d’une propriété générale du système auditif humain, à savoir l’intégration auditive de certaines dimensions acoustiques, afin de renforcer le contraste phonologique de nasalité au sein du système vocalique du français. La question de l’influence du contexte phonologique (oral vs. nasal) sur la perception du contraste phonologique de nasalité pour les voyelles du français. Les trois questions 144 de recherche précédemment envisagées, de validité, de primauté, et d’interaction perceptuelle des indices acoustiques de la nasalité, nécessitent qu’on leur apporte une réponse en relation avec le contexte phonologique (oral ou nasal) dans lequel la voyelle synthétisée est placée. Par exemple, la baisse de gravité est-elle un indice nécessaire à la perception de la nasalité lorsque la voyelle est située en contexte phonologique oral ? A-t-elle un poids perceptuel plus important lorsque la voyelle est précédée d’une consonne nasale ? Par ailleurs, la nature ou le degré d’interaction perceptuelle entre les deux dimensions acoustiques varient-ils en fonction du contexte ? Le contexte phonologique nasal bloque-t-il une éventuelle intégration perceptuelle ? La comparaison des performances de nos auditeurs en fonction du contexte phonologique permet notamment de tester notre hypothèse selon laquelle le couplage nasal pendant la voyelle a une fonction spécifique, donc participe explicitement à la réalisation phonétique des items de type NV, et que cela est possible parce que la nasalité phonologique en général s’appuie en français sur d’autres indices perceptuels que ceux liés au couplage proprement dit (Cf. p.139). Il s’agit de dégager des motivations d’ordre perceptuel à une éventuelle stratégie générale de contrôle de l’abaissement du voile du palais lors de la réalisation phonétique de voyelles orales et nasales en français. 2. Paradigmes expérimentaux Pour traiter des questions de recherche énoncées ci-dessus, nous avons mené un ensemble d’expériences perceptuelles sur des auditeurs francophones et anglophones. Les questions de validité et de primauté perceptuelle des indices acoustiques de la nasalité ont été essentiellement traitées au moyen de plusieurs expériences d’identification. D’autres expériences, de discrimination celles-là, avaient pour objet le mode spécifique d’interaction perceptuelle des dimensions acoustiques. 2.1. Identification Deux paradigmes expérimentaux ont été utilisés pour les expériences perceptuelles d’identification: « ID1 » et « ID2 ». Le premier paradigme expérimental, ID1, est une adaptation du trading relations paradigm (Repp, 1982, Krakow et al. 1988). Ce paradigme a été initialement conçu pour diagnostiquer les phénomènes d’interaction perceptuelle entre différents indices acoustiques, appelés aussi « phénomènes de compensation » (trading relations) en référence au fait que des sons différant par les valeurs de plusieurs indices acoustiques peuvent être équivalents d’un point de vue perceptuel (Calliope, 1989). Le principe général est de faire varier la valeur d’un stimulus le long d’une dimension acoustique principale 145 dont on suppose qu’elle est le corrélat d’une distinction phonétique particulière (p.ex. la nasalité), et d’assigner aux auditeurs une tâche d’identification des stimuli à partir d’un choix forcé de réponses, p.ex. : « Avez-vous entendu tel mot (avec une voyelle orale) ou bien tel mot (avec une voyelle nasale) ? ». On compare les réponses avec celles obtenues au cours de la même tâche, mais pour des stimuli qui ont une autre valeur le long d’une dimension acoustique secondaire (p.ex. la fréquence de F2). La Figure 43 illustre la façon dont on analyse généralement les données perceptuelles issues d’un tel paradigme. On détermine tout d’abord la frontière entre les deux catégories phonétiques (p.ex. entre la voyelle orale /D/ et la voyelle nasale /$/), qui est définie a priori comme le stimulus pour lequel on obtient en moyenne 50% des réponses en faveur de chaque catégorie. Ensuite, si le fait de faire varier les stimuli le long de la seconde dimension amène la frontière à se déplacer (boundary shift ou « saut de frontière »), on conclut qu’il y a interaction perceptuelle entre les deux dimensions acoustiques. Réponses [+X] (en %) Dimension secondaire Valeur 1 Valeur 2 50% Dimension principale -X Saut de frontière +X Figure 43. Schématisation de l’analyse des données dans le trading relations paradigm. Ainsi, le trading relations paradigm est adapté à l’étude des oppositions phonologiques dont on pense qu’elles se fondent en perception sur des indices provenant de plusieurs dimensions acoustiques, ce qui est le cas de la nasalité en français. Cependant, comme le soulignent Kingston et Macmillan (1995), la version la plus répandue de ce paradigme traite les deux dimensions acoustiques de façon assymétrique, parce que les stimuli prennent typiquement un plus grand nombre de valeurs le long de la dimension principale que le long de la dimension secondaire, et surtout parce que la tâche d’identification phonétique correspond en priorité à la dimension acoustique principale. C’est pourquoi nous avons quant à nous utilisé, pour chaque condition testée, un espace de stimuli à deux dimensions (Gravité, d’une 146 part, Intensité ou Compacité, d’autre part) où chaque dimension acoustique compte le même nombre de pas, pour un total de 7*7 ou 5*5 stimuli. La tâche d’identification concernait des mots contenant des voyelles qui s’opposent phonologiquement au point de vue de la nasalité (p.ex. « Avez-vous entendu tête ou bien teinte ? »). Dans nos expériences, la tâche d’identification ne favorisait donc a priori aucune des dimensions, même si l’une d’entre elles est plus spécifiquement liée aux effets acoustiques du couplage nasal proprement dit. Par ailleurs, Kingston et Macmillan (1995) rappellent que, même si le trading relations paradigm est destiné à déterminer s’il y a interaction perceptuelle ou non entre deux dimensions acoustiques, il ne permet pas pour autant de distinguer l' origine de l’interaction éventuelle : se situe-t-elle à un niveau sensoriel, à un stade précoce du traitement auditif du signal, ou bien fait-elle partie d’un mécanisme de décision proprement phonétique, fondé sur l’expérience linguistique de l’auditeur29 ? Nous traitons cette question du mode spécifique d’interaction perceptuelle des dimensions acoustiques au moyen d’autres expériences (de discrimination), inspirées du paradigme de Garner (voir ci-dessous). Quoi qu’il en soit, le paradigme ID1 nous a permis de tester au cours de diverses expériences d’identification la validité perceptuelle des divers indices acoustiques de la nasalité sélectionnés sur la base des expériences effectuées en production de la parole. Par ailleurs, la comparaison des performances enregistrées pour des stimuli variant orthogonalement le long des deux dimensions acoustiques nous a permis d’évaluer la contribution relative de chacune de ces dimensions en ce qui concerne la perception du contraste phonologique de nasalité pour les voyelles du français. Des expériences d’identification d’un second type ont également été menées (ID2), qui consistaient à demander aux auditeurs de répartir explicitement chaque membre de l’espace des stimuli dans un espace de décision divisé en quatre classes : (i) celle des voyelles orales, (ii) celle des voyelles nasales, (iii) celle des voyelles intermédiaires entre l’orale et la nasale, et (iv) celle des voyelles complètement étrangères aux classes orale et nasale. Nous avons ensuite demandé aux auditeurs de classer entre elles, du meilleur au moins bon prototype de sa classe, les voyelles qu’ils venaient de désigner comme orales ou nasales. Ces expériences ont notamment permis d’affiner l’analyse de la validité perceptuelle des différents indices acoustiques sélectionnés pour la nasalité, parce qu’elles donnaient aux auditeurs l’occasion de préciser dans quel(s) cas spécifiques la covariation des propriétés acoustiques était la plus (la moins) appropriée aux deux prototypes phonétiques visés. La comparaison des voyelles 29 L’interaction effectivement mesurée peut parfois être interprétée comme le produit de l’action simultanée des deux mécanismes, comme dans le cas des dimensions d’aperture et de nasalité vocalique (Macmillan et al. 1999). 147 synthétiques préférées avec les voyelles produites en parole naturelle nous a permis de compléter notre caractérisation acoustique des nasales du français. 2.2. Discrimination Les expériences de discrimination (« DISC ») ont été effectuées sur la base d’un protocole expérimental mis au point par John Kingston et Neil Macmillan (Kingston et Macmillan 1995, Macmillan et al. 1999) à partir du paradigme de Garner (1974). Le principe général est de construire l’espace perceptuel des auditeurs (vs. espace acoustique des stimuli) à partir des performances enregistrées au cours de diverses tâches de discrimination entre les stimuli pris deux à deux. C’est dans l’espace perceptuel obtenu que l’on mesure le degré d’intégration des deux dimensions acoustiques initiales, indépendamment de tout critère éventuellement utilisé par les auditeurs lorsqu’ils doivent prendre une décision d’ordre phonétique. Dans le cadre du protocole expérimental DISC, nous avons tout d’abord conduit de multiples expériences de discrimination de type « oui-non » concernant chacune une paire de stimuli qui différaient d’un pas seulement le long de l’une ou des deux dimensions acoustiques sélectionnées. A partir des performances des auditeurs dans les tâches de discrimination, nous avons calculé pour chaque paire de stimuli la valeur de d’, qui constitue une estimation de la distance perceptuelle entre les deux stimuli d’après la théorie de la détection du signal (Green et Swets, 1966, Macmillan et Creelman, 1991). Nous avons ensuite introduit les valeurs de d’ obtenues pour toutes les paires dans une procédure statistique de proportionnalisation multidimensionnelle (« multidimensional scaling », en l’occurence ici : INDSCAL), qui avait pour fonction de construire un modèle géométrique à deux dimensions de l' espace perceptuel correspondant à l’espace acoustique initial des stimuli (Cf. Figure 44). Enfin, nous avons évalué l’intégration perceptuelle des dimensions acoustiques initiales en mesurant dans l’espace perceptuel dérivé l’angle T, défini comme l’angle entre les deux droites qui relient les centroïdes des stimuli ayant une même valeur sur l’une des dimensions acoustiques initiales30. Cette méthode a été appliquée à plusieurs sous-ensembles (2*2) de chaque espace de stimuli (5*5). L’avantage du paradigme expérimental DISC est qu’il permet d’estimer la sensibilité des auditeurs aux différents stimuli qui leur sont présentés, en dehors des diverses stratégies qu’ils développent lorsqu’ils doivent prendre une décision d’ordre phonétique. Si les dimensions acoustiques initiales font l’objet d’un certain degré d’intégration au point de vue auditif 30 Pour plus de détails, Cf. pp.208 et suivantes. 148 (sensoriel), cela signifie que la perception de la valeur d’une voyelle le long d’une dimension donnée (par exemple, son intensité) est automatiquement influencée par sa valeur le long de l’autre dimension (par exemple, sa gravité). Ainsi, les expériences perceptuelles de discrimination nous ont permis de vérifier l’hypothèse selon laquelle la covariation des dimensions acoustiques propres à la réalisation phonétique de la nasalité vocalique accroît la distance perceptuelle entre voyelles orales et voyelles nasales en français par rapport à la distance acoustique qui les sépare effectivement. En fonction des résultats obtenus, nous pourrons éventuellement élaborer plus avant l’hypothèse d’une réalisation phonétique contrôlée du contraste phonologique de nasalité en français (Cf. Discussion générale, p.265). ESPACE DES STIMULI ESPACE PERCEPTUEL d’ T 90° d’ d’ Figure 44. Schématisation de la méthode utilisée pour l’analyse des données des expériences de discrimination. Les cercles représentent la position des stimuli, à gauche dans l’espace acoustique, à droite dans l’espace perceptuel des auditeurs reconstruit par INDSCAL à partir des valeurs de d’ obtenues au cours de diverses tâches de discrimination entre les stimuli pris deux à deux. L’angle θ a été choisi pour mesurer le degré d’intégration perceptuelle entre les deux dimensions acoustiques initiales. En résumé, les diverses expériences menées (ID1, ID2 et DISC) nous ont permis de déterminer si oui ou non, et si oui, dans quelle mesure et pour quelles raisons, les indices acoustiques liés au couplage nasal d’une part, et aux articulations additionnelles d’autre part, sont pris en compte par les auditeurs lors de la détection du contraste de nasalité pour les voyelles du français. 3. Stimuli Dans cette section, nous exposons de façon détaillée la méthode utilisée pour fabriquer les stimuli. Au cours des diverses expériences menées (notamment entre l’expérience pilote et les expériences perceptuelles proprement dites), certains choix méthodologiques ont été posés, et les valeurs de plusieurs paramètres modifiées, mais le principe général de constitution des espaces de stimuli est resté celui présenté ci-dessous. 149 Tous les stimuli sans exception sont des items de type C1VC2, où C1 et C2 sont des consonnes prononcées en parole naturelle (par un seul et même locuteur dans tous les cas), et V est une voyelle synthétisée par nos soins. Cette méthode permet de contrôler pleinement les paramètres acoustiques qui caractérisent les voyelles étudiées tout en construisant des stimuli de bonne qualité, c’est-à-dire acceptables par les auditeurs par rapport à des mots prononcés en parole naturelle. La synthèse des stimuli a été réalisée à l’aide d’une application personnalisée réalisée en iShell par Alain Soquet, ingénieur au Laboratoire de Phonologie de l’ULB. La Figure 45 montre l’interface proposée à l’utilisateur de ce logiciel. Le module de synthèse de la parole intégré dans le logiciel est le synthétiseur de Klatt (1980). L’utilisateur spécifie les valeurs pour les 60 paramètres du synthétiseur à certains moments du signal t1, t2, t3, etc., puis le logiciel interpole les valeurs des paramètres entre les différents repères temporels spécifiés pour un stimulus donné. Ref 3 Ref 2 Ref 1 Figure 45. Interface utilisateur de l’application réalisée en iShell afin de construire les espaces de N*N stimuli utilisés au cours des différentes expériences perceptuelles. 150 Dans le cas illustré par la Figure 45, l’utilisateur a choisi de travailler à partir de 7 repères temporels, qui sont représentés sur le spectrogramme et sur le signal acoustique par des lignes verticales rouge placés aux moments correspondants. Les trajectoires des valeurs spécifiées pour les fréquences des quatre premiers formants sont représentées sur la figure par des lignes oranges. Par ailleurs, l’application est destinée à faciliter la construction d’espaces de stimuli dont les paramètres acoustiques varient linéairement le long de deux dimensions. Pour ce faire, l’utilisateur doit spécifier le nombre N de pas désirés (N est identique pour les deux dimensions), ainsi que les valeurs des paramètres pour les stimulis de référence Ref 1, Ref 2 et Ref 3 qui sont situés aux extrémités de l’espace des stimuli. Sur la Figure 45, on voit que l’utilisateur a choisi un espace de 7*7 stimuli, qui est représenté en bas à gauche de la fenêtre avec les stimuli de référence symbolisés par des disques rouge. Le logiciel se charge d’interpoler les valeurs des paramètres pour tous les stimuli situés entre les stimuli de référence en fonction du nombre de pas désirés, et crée ensuite les N*N signaux acoustiques correspondants, en insérant à chaque fois la voyelle synthétisée dans le signal acoustique « porteur » (ici, les consonnes naturelles) préalablement déterminé par l’utilisateur. Chaque expérience perceptuelle porte sur tout ou partie des stimuli appartenant à un espace donné. Dans tout espace de N*N stimuli, on fait varier les propriétés de la voyelle synthétique (insérée dans un item C1VC2) le long de deux dimensions acoustiques, de sorte que la voyelle évolue de l’orale à la nasale phonologique correspondante. La voyelle synthétique dont les coordonnées sont (1,1) dans l’espace cartésien ainsi défini est le prototype de la voyelle orale, alors que la voyelle (N,N) est le prototype de la voyelle nasale. NASALE Intensité Compacité  + NASALISÉEE +  NOUVELLE CONFIGURATION ORALE ORALE  Gravité + Figure 46. Schématisation des espaces de stimuli à deux dimensions utilisés pour les expériences perceptuelles. 151 La première dimension acoustique est représentée en abscisse dans la Figure 46. Elle est destinée à représenter les effets acoustiques des articulations additionnelles à l’abaissement du voile du palais. C’est la dimension de Gravité, qui consiste en un abaissement croissant du F2 de la voyelle à partir de la fréquence qu’il occupe pour la voyelle orale. La deuxième dimension, représentée en ordonnée dans la Figure 46, concerne les indices acoustiques liés à l’abaissement du voile du palais. Au cours de l’expérience pilote, on a envisagé deux façons de synthétiser les modifications en termes d’énergie qui ont été observées dans le spectre des voyelles lorsqu’elles sont nasalisées. La deuxième dimension peut donc être soit une dimension relative à l’intensité générale de la voyelle, ou bien à sa compacité : L’Intensité diminue le long de la seconde dimension, c’est-à-dire que la bande passante des cinq formants de la voyelle augmente, jusqu’à être finalement doublée à l’extrémité de la dimension pour les stimuli (x,N). Ou bien c’est la Compacité qui augmente le long de la seconde dimension, c’est-à-dire que les bandes passantes de F1 et surtout de F3 augmentent fortement (respectivement de 100 à 250 Hz et de 90 à 500 Hz), alors que la bande passante en F2 diminue (de 110 à 80 Hz) lorsqu’on passe d’une voyelle orale (x,1) à une nasalisée (x,N). En fonction de la dimension combinée avec celle de Gravité (Intensité ou Compacité), on obtient donc deux familles d’espaces de stimuli, que nous appelons respectivement « I par G » et « C par G ». Nous avons en effet synthétisé plusieurs versions de ces deux espaces, qui diffèrent en fonction de la durée retenue pour les voyelles (brèves ou longues) d’une part, et en fonction de l’évolution temporelle des différents paramètres au cours des voyelles d’autre part (« Dyn I » vs. « Dyn II »). Deux espaces de stimuli peuvent donc se distinguer au niveau de la durée de leurs stimuli (p.ex. « I par G brèves » vs. « I par G longues »), mais sauf exception toutes les voyelles au sein d’un espace donné sont de même durée. De cette façon, on peut étudier l’effet de la durée d’une voyelle sur la détection du contraste de nasalité, par exemple en déterminant si le taux d’identification de voyelles nasales est plus élevé lorsque la voyelle est plus longue toutes choses étant égales par ailleurs. Mais on sépare l’étude de cet effet de celle de l’interaction des deux dimensions acoustiques principales, de façon à ne pas favoriser a priori une stratégie de combinaison des deux types d’indices. En effet, si la durée de la voyelle orale (1,1) est de 200 ms, et que la durée de la voyelle nasalisée (1,N) comme de la voyelle la plus grave (N,1) est de 250 ms, l’interpolation des valeurs de durée aboutit à ce que la durée de la 152 voyelle nasale cible (N,N) est de 300 ms. A supposer qu’une plus grande durée favorise l’identification de voyelles nasales, on favorise alors a priori une stratégie de combinaison des deux indices par les auditeurs au détriment de l’utilisation d’une seule dimension. Or, ce que nous voulons avant tout déterminer, c’est si la combinaison des deux dimensions est nécessaire à la bonne détection de la nasalité phonologique en français, indépendamment de tout autre facteur (notamment de durée). C’est pourquoi, sauf exception, les mots entre lesquels nos auditeurs doivent choisir comportent tous une voyelle déjà relativement longue en français. C’est le cas des nasales (p.ex. dans les mots teinte [W(:W], tante [W$:W]), qui sont intrinsèquement longues, mais aussi des voyelles orales dans les mots tête [W(:W] et tâte [WD:W], que nous avons précisément sélectionnés pour cette raison31. En ce qui concerne l’évolution temporelle des paramètres au cours des voyelles, nous avons choisi de comparer les performances obtenues dans deux cas, appelés « Dyn I » et « Dyn II ». Ce que nous avons voulu avant tout étudier, c’est l’apport éventuel au niveau perceptuel du « retard » avec lequel les facteurs acoustiques liés à la nasalité semblent atteindre leur cible au cours de la première moitié de la voyelle dans les items C[occlusive]VC (Cf. p.123) : Dans le cas des espaces de stimuli de type Dyn II, l’évolution temporelle des paramètres de la voyelle est en tout point coordonnée. Ainsi, il n’y a qu’une brève phase de transition formantique en début de voyelle (entre t1 = 0 ms et t2 = 20 ms). Dès t2, les formants ont atteint leur valeur cible tant en ce qui concerne leur fréquence que leur bande passante. Ils la conservent jusqu’en t6, puis entre t6 et t7, il y a une courte phase de transition vers la consonne suivante. Dans les stimuli de type Dyn II, les voyelles sont donc plus graves et/ou moins intenses (ou plus compactes) dès t2. Les repères temporels t3 à t6 servent exclusivement à appliquer un contour approprié à la F0 de la voyelle. Pour les espaces de stimuli de type Dyn I, l’évolution temporelle des paramètres de la voyelle diffère selon que ces paramètres sont liés à la nasalité ou non. Ainsi, en t2, seuls F1 et F3 ont atteint leur fréquence cible. Les paramètres liés à la nasalité, c’est-àdire la fréquence éventuellement plus basse de F2 ainsi que les bandes passantes éventuellement plus élevées de certains formants, n’atteignent leur cible qu’en t3 (= 40 ms). Dans le cas des stimuli Dyn I, les voyelles n’atteignent donc leur plus haut degré de nasalité qu’en t3. On peut voir une illustration de ce phénomène sur le 31 A propos du statut phonologique de la quantité vocalique en français de Belgique, Cf. Dominicy (2000). 153 spectrogramme de la Figure 45 (qui concerne la voyelle grave Ref 2 pour un continuum D/$) : F2 n’atteint sa fréquence cible qu’en t3, soit 20 ms plus tard que les autres formants de la voyelle. Une conséquence importante est que la valeur intermédiaire pour la fréquence de F2 (au moment t2) correspond précisément à la fréquence du F2 de la voyelle orale, soit en l’occurrence 1150 Hz. En conséquence, la méthode utilisée pour synthétiser les voyelles nasales dans les espaces Dyn I correspond à ce que nous avons observé en production de la parole, à savoir que l’on passe en début de voyelle nasale de la configuration orale pour l’orale correspondante à la configuration orale cible pour la nasale proprement dite. Cela est vrai dans nos stimuli (toutes expériences confondues) des voyelles /D/ et /o/, mais pas des voyelles /(/ comme le montre la Table 17. Nous tenons compte de ces particularités dans l’analyse des résultats. Table 17. Fréquences comparées de F2 pour Ref 1 (voyelles orales) et Ref 2 (voyelles avec une nouvelle configuration orale) en fonction du moment de la voyelle (t1 à t7) dans le cas des espaces de stimuli de type Dyn I de l’expérience perceptuelle principale. Les valeurs affichées en noir sont celles qui diffèrent par rapport à l’extrémité orale du continuum. F2 D/$ o/o (/( 4. t1 t2 t3 t4 t5 t6 t7 Orale Ref 1 1400 1150 1150 1150 1150 1150 1400 Grave Ref 2 1400 1150 900 900 900 900 1400 Orale Ref 1 1100 900 900 900 900 900 1100 Grave Ref 2 1100 900 720 720 720 720 1100 Orale Ref 1 1600 1700 1700 1700 1700 1700 1700 Grave Ref 2 1600 1575 1550 1550 1550 1550 1550 Expérience pilote Préalablement aux expériences perceptuelles proprement dites, nous avons mené au mois de février 2002 une expérience pilote (avec un paradigme ID1) dont les résultats ont guidé nos choix méthodologiques pour les expériences suivantes. Les objectifs de l’expérience pilote étaient les suivants : (1) Tester les aspects pratiques de la procédure expérimentale (temps accordé pour la réponse après présentation des stimuli, durée des phases d’entraînement préalables aux phases de tests, durée totale des sessions expérimentales, etc.). 154 (2) Obtenir de premières indications quant à la validité des indices acoustiques retenus, de façon à ne pas inclure dans les expériences proprement dites des indices peu pertinents. Il s’agissait en particulier de déterminer laquelle des deux dimensions acoustiques candidates (Intensité ou Compacité) était la plus efficace en ce qui concerne la synthèse de la nasalisation phonétique (résultant du couplage nasal proprement dit). (3) Déterminer la « différence juste perceptible » (JND ou « just noticeable difference ») sur chaque dimension acoustique finalement retenue, afin de spécifier le nombre N de pas à conserver par la suite dans les différents espaces de N*N stimuli. (4) Déterminer sur base expérimentale les stimuli-frontières (Cf. p.146) entre les catégories phonétiques orales et nasales, de façon à centrer sur ceux-ci les sousensembles de stimuli utilisés au cours des expériences de discrimination (DISC). 4.1. Matériel et méthode En suivant la méthode exposée ci-dessus, nous avons créé pour l’expérience pilote divers espaces de 7*7 stimuli de type C1VC2, où la voyelle synthétique V variait soit de l’orale /D/ à la nasale /$/, soit de l’orale /(/ à la nasale /(/. Les deux consonnes C1, C2 étaient toutes les deux /W/, de sorte que la question d’identification posée aux auditeurs était la suivante : « Avezvous entendu tâte (tête) ou bien tante (teinte)? » Nous avons testé au cours de l’expérience pilote le paradigme expérimental ID1 sur quatre espaces de stimuli par voyelle. Pour /D,$/, il s’agissait de quatre espaces de type C par G, à savoir : Dyn I brèves, Dyn I longues, Dyn II brèves et Dyn II longues. Pour /(,(/, il s’agissait de quatre espaces de type Dyn I, à savoir : C par G brèves, C par G longues, I par G brèves et I par G longues. La Table 18 donne les valeurs cible des fréquences et des bandes passantes des formants F1 à F5 pour les voyelles situées aux quatre extrémités des espaces de stimuli, et ce pour les deux timbres vocaliques étudiés. La durée totale des voyelles était de 200 ms pour les brèves et de 250 ms pour les longues. Pour les stimuli de type Dyn II, toutes les cibles étaient atteintes à t2 = 20 ms, alors que pour les stimuli de type Dyn I, les paramètres relatifs à la nasalité atteignaient leur cible à t3 = 40 ms, en passant en t2 par une valeur intermédiaire entre les valeurs à t1 et t3 (Cf. Table 17 en ce qui concerne F2). Sept auditeurs belges francophones ont participé à l’expérience, trois pour la voyelle /D/ et quatre pour la voyelle /(/. Trois sessions expérimentales ont été nécessaires pour tester les quatre conditions sur chaque sujet. 155 Table 18. Valeurs cible (en Hz) des fréquences et des bandes passantes des formants F1 à F5 pour les voyelles situées aux quatre extrémités des espaces de stimuli utilisés pour l’expérience pilote. Les valeurs affichées en noir sont celles qui diffèrent par rapport à l’extrémité orale du continuum. F1 B1 F2 B2 F3 B3 F4 B4 F5 B5 90 2600 90 3250 200 4200 200 900 90 2600 90 3250 200 4200 200 (C par G) Nasalisée Ref 3 750 250 1200 80 2600 500 3250 200 4200 200 80 2600 500 3250 200 4200 200 Orale Ref 1 525 100 1700 110 2450 90 3250 200 4200 200 Grave Ref 2 525 100 1550 110 2450 90 3250 200 4200 200 Orale Ref 1 750 100 1200 D/$ Grave Ref 2 750 100 Nasale 750 250 (/( 900 (C par G) Nasalisée Ref 3 525 250 1700 80 2450 500 3250 200 4200 200 Nasale 525 250 1550 80 2450 500 3250 200 4200 200 Orale Ref 1 525 100 1700 110 2450 90 3250 200 4200 200 Grave Ref 2 525 100 1550 110 2450 90 3250 200 4200 200 (/( (I par G) Nasalisée Ref 3 525 200 1700 220 2450 180 3250 400 4200 400 Nasale 525 200 1550 220 2450 180 3250 400 4200 400 Les sessions expérimentales se sont déroulées de façon individuelle. L’auditeur disposait d’un terminal d’ordinateur et d’un casque audio. Après avoir entendu un stimulus dans le casque, il avait pour tâche de cliquer avec la souris pour sélectionner l’une des deux réponses proposées à l’écran. Le logiciel de présentation des stimuli a été réalisé par nos soins à l’aide du logiciel iShell. La Figure 47 montre l’interface proposée aux quatre auditeurs participant aux expériences d’identification relatives aux continuums (/(. Pour chacune des quatre conditions testées, il y avait une courte phase d’entraînement aux stimuli avant la phase de test proprement dite. Pendant l’entraînement, on a présenté à trois reprises 12 des 49 stimuli que compte l’espace au total. Il s’agit des stimuli représentés sur fond gris dans la Figure 46 (p.151), c’est-à-dire ceux qui comportent théoriquement les 6 voyelles les plus orales et les 6 voyelles les plus nasales du continuum synthétisé. Après la réponse de l’auditeur, un feedback lui était proposé, au moyen d’une flèche désignant la réponse attendue par l’expérimentateur (Cf. Figure 47). Pendant la phase de test proprement dite, chacun des 49 stimuli a été présenté 21 fois dans un ordre aléatoire. 20 réponses ont été conservées pour le calcul des résultats, l’auditeur ayant parfois omis de répondre. 156 Figure 47. Copie de l’écran proposé aux auditeurs de l’expérience pilote lors de la phase d’entraînement à la tâche d’identification. Après le choix posé par le participant, une flèche désigne la réponse attendue par l’expérimentateur. 4.2. Résultats Les résultats de l’expérience pilote sont donnés dans la Figure 48 en ce qui concerne les continuums D/$, et dans la Figure 49 en ce qui concerne les continuums (/(. Pour chacune des conditions, on donne le pourcentage d’identification du mot contenant la voyelle nasale (tante ou teinte), et ce pour chaque stimulus en fonction de la position qu’il occupe dans l’espace à deux dimensions des stimuli tel que défini ci-dessus (p.151). Les pourcentages ont été calculés à partir du total des 60 ou 80 réponses obtenues par stimulus. Une représentation colorée accompagne chaque tableau de valeurs, de manière à faciliter la visualisation des tendances générales d’évolution du taux d’identification des nasales en fonction des deux dimensions acoustiques covariantes. Comme l’indique la légende située en bas à gauche des deux figures, chaque pourcentage correspond à une couleur sur une échelle allant du blanc (0% de réponses « nasale ») au noir (100% de réponses « nasale ») en passant par divers dégradés orangés. 157 Dyn I longues Dyn II longues Dyn I brèves Dyn II brèves D/$ C par G Figure 48. Résultats de l’expérience pilote pour les quatre versions des continuums D/$ (tous de type C par G) : Dyn I longues, Dyn I brèves, Dyn II longues, Dyn II brèves. Taux d’identification du mot « tante » en % (et représentation colorée du pourcentage) en fonction de la position de la voyelle synthétique dans l’espace. 158 C par G longues I par G longues C par G brèves I par G brèves (/( Dyn I Figure 49. Résultats de l’expérience pilote pour les quatre versions des continuums (/( (tous de type Dyn I) : C par G longues, C par G brèves, I par G longues, I par G brèves. Taux d’identification du mot « teinte » en % (et représentation colorée du pourcentage) en fonction de la position de la voyelle synthétique dans l’espace. 159 Tout d’abord, les résultats montrent que pour ces deux voyelles la synthèse des continuums orale-nasale au moyen des paramètres acoustiques sélectionnés est un succès. Dans le cas des espaces C par G, on passe d’une valeur moyenne proche des 0% d’identification nasale pour les voyelles peu compactes et peu graves, à une valeur moyenne approchant les 100% d’identification nasale lorsque les voyelles sont à la fois très compactes et très graves. Les résultats sont moins bons lorsque l’on synthétise la nasalisation phonétique au moyen de la dimension acoustique d’intensité. C’est ce que l’on constate si l’on compare les valeurs encadrées de rouge dans la Figure 49. Dans les espaces I par G en effet, les voyelles supposées nasales (situées en haut à droite de l’espace) ne donnent pas une impression auditive satisfaisante de nasalité : elles sonnent comme des voyelles dénasalisées, comparables à celles réalisées dans certaines régions de Belgique, à Liège en particulier. C’est sans doute le choix forcé entre deux réponses seulement qui amène un grand nombre d’auditeurs à se décider pour la réponse « nasale », alors que la voyelle en question n’est pas un prototype véritablement satisfaisant de cette catégorie phonétique. A la suite de ces premières constatations, deux choix méthodologiques ont été posés en ce qui concerne les expériences perceptuelles menées par la suite : Tout d’abord, nous avons choisi de nasaliser les voyelles exclusivement au moyen d’espaces acoustiques de type C par G. Suite aux résultats exposés ci-dessus, nous considérons en effet que la chute d’intensité générale d’une voyelle (se traduisant par une baisse d’énergie à toutes les fréquences) constitue essentiellement un bon résumé des propriétés acoustiques de la nasalité vocalique observées en production de la parole. Quant à la pertinence du niveau d’énergie acoustique en ce qui concerne la perception de la nasalité d’une voyelle, il semble que les auditeurs accordent une attention spécifique à certaines régions du spectre en particulier. Pour parvenir à de bons prototypes de voyelles nasales, nous avons dû accentuer la perte d’énergie dans les régions de F1 et de F3, et rendre au contraire F2 plus proéminent. Les indices perceptuels de la nasalité semblent donc plutôt liés aux niveaux relatifs d’énergie en fonction de la fréquence au sein d’une même voyelle. Ensuite, nous avons décidé de mettre en place un second paradigme pour les expériences perceptuelles d’identification : ID2 (Cf. p.147). Ce paradigme permet de mieux évaluer dans quelle mesure les paramètres acoustiques sélectionnés pour la synthèse permettent effectivement de créer de bons prototypes de voyelles nasales, parce qu’on demande aux auditeurs de rejeter les stimuli peu satisfaisants et de classer les autres par ordre de préférence en tant que « bon prototype » de leur catégorie. 160 La seconde tendance générale des résultats de l’expérience pilote concerne la différence de répartition des réponses « nasale » en fonction des deux dimensions acoustiques. En ce qui concerne les continuums (/(, la décision de désigner le stimulus entendu par le mot teinte semble dépendre de la valeur de la voyelle le long des deux dimensions acoustiques, avec une prédominance de la dimension de Compacité. En effet, une voyelle dont le F2 est au plus bas n’est pas identifiée comme nasale si elle n’a pas au moins un peu de nasalité phonétique (Compacité), alors qu’une voyelle très compacte est désignée comme nasale même si son F2 est resté à sa fréquence originelle. Pour les continuums D/$, la décision s’appuie avant tout sur la dimension de Gravité, l’autre dimension n’intervenant que de façon plus secondaire. Une particularité des stimuli pourrait avoir accentué cette tendance. En effet, la voyelle /D/ (1,1) a un F2 assez élevé dans les stimuli de l’expérience pilote (1200 Hz). L’impression auditive est celle d’une voyelle très antérieure. En conséquence, lorsque l’on augmente la compacité de cette voyelle, on crée une voyelle effectivement nasalisée, mais dont le timbre se situe à la limite des réalisations phonétiques possibles pour la nasale /¡/, soit [‘„]. Pour les expériences perceptuelles proprement dites, nous avons décidé de synthétiser les continuums D/$ en fixant la valeur maximale de F2 de tous les stimuli (1,x) à 1150 Hz (au lieu de 1200 Hz pour l’expérience pilote). En ce qui concerne les deux variantes testées pour la coordination temporelle des propriétés acoustiques de la voyelle d’une part, et pour sa durée d’autre part, leur influence sur la détection du contraste de nasalité est peu marquée d’après ces résultats préliminaires. On voit par exemple que la longueur favorise les réponses « $ » pour les stimuli Dyn I, si l’on compare les réponses encadrées en bleu sur la Figure 48. De même, les stimuli Dyn I sont plus souvent identifiés comme nasals que les stimuli Dyn II pour cette voyelle (Cf. encadrés rouge sur la Figure 48). Ces variantes font donc évoluer la frontière entre catégories dans un sens ou dans un autre, mais ne déterminent pas de changement de nature dans le schéma général des réponses pour une voyelle donnée. Nous avons maintenu ces deux types de variantes dans un rôle de dimension secondaire pour les expériences perceptuelles menées ensuite à grande échelle. 4.3. Conclusions L’expérience pilote avait pour fonction principale d’orienter nos choix méthodologiques pour les expériences perceptuelles proprement dites dans quatre domaines spécifiques (Cf. p.154). 161 (1) La procédure d’expérimentation a donné presque entière satisfaction. Le nombre idéal est de trois sessions par semaine (par auditeur). La durée maximale d’une session a été fixée à deux heures, avec une pause au moins en cours de séance. Pour les expériences perceptuelles proprement dites, nous avons par ailleurs inclus dans le logiciel la possibilité pour les auditeurs de régler individuellement le volume sonore des stimuli, pour un plus grand confort d’écoute. (2) L’expérience pilote a permis de déterminer laquelle des deux dimensions acoustiques candidates (Intensité ou Compacité) était la plus efficace en ce qui concerne l’implémentation du contraste de nasalité en français. Nos impressions auditives ont été confirmées expérimentalement : la baisse d’intensité, envisagée comme une augmentation générale de toutes les bandes passantes des formants F1 à F5, est moins performante, lorsqu’il s’agit de synthétiser la nasalité phonétique, qu’une augmentation de la compacité de la voyelle. (3) Nous avons mené quelques tests informels avec l’aide de deux participants à l’expérience pilote (un par voyelle) afin de déterminer la différence juste perceptible entre deux stimuli sur chaque dimension acoustique. Il s’est avéré que le nombre de pas retenu pour l’expérience pilote (N=7) était trop élevé (en particulier dans le cas de /(/) pour que les stimuli adjacents soient discriminables par des auditeurs non entraînés à la phonétique. C’est pourquoi nous avons décidé de ramener le nombre de pas à 5 pour l’expérience perceptuelle proprement dite. Cette méthode a également l’avantage de diviser par deux le nombre de stimuli à tester par condition : on passe de 49 à 25 stimuli dans un espace donné. (4) Les expériences de discrimination (DISC) nécessitaient qu’on définisse un sousensemble de stimuli à étudier au sein de chaque espace, afin de ne pas multiplier à l’infini le nombre de paires à tester. Nous avons donc décidé de tester toutes les paires de stimuli adjacents dans un sous-ensemble de 3*3 stimuli pour chaque condition expérimentale. Les résultats obtenus au cours de l’expérience pilote ont été utilisés pour décider de l’endroit où placer ce sous-ensemble dans le cas des continuums D/$ et (/(. Il est plus utile en effet de mener les expériences de discrimination sur les stimuli situés non loin de la frontière entre les deux catégories phonétiques. Nous avons donc centré le sous-ensemble de 3*3 stimuli différemment selon le timbre de la voyelle étudiée, en fonction de nos observations préliminaires quant à la répartition des réponses « nasale » dans chaque espace à 2 dimensions (p.ex. en bas au milieu de 162 l’espace dans le cas de D/$, et en haut à gauche dans le cas de (/(). La situation exacte de chaque sous-ensemble testé pour les expériences de discrimination est donnée dans la Figure 69, p.215. 5. Déroulement des expériences perceptuelles Les expériences de perception menées dans le cadre de ce travail se sont déroulées en quatre phases au cours de l’année 2002. Nous donnons ici un aperçu des expériences menées lors de chaque phase. Leurs spécificités méthodologiques, résumées dans la Table 19, feront l’objet d’un exposé plus détaillé dans les chapitres suivants. Tout d’abord, l’expérience pilote dont nous venons d’exposer les résultats a été effectuée au mois de février 2002 sur sept locuteurs, trois pour les continuums D/$, et quatre pour les continuums (/(. Pour rappel, il s’agissait exclusivement d’expériences d’identification de type ID1 réalisées sur des items CVC. L’expérience principale s’est déroulée pendant 5 semaines en avril et mai 2002. Dix-huit auditeurs ont participé à ces expériences, six pour chaque continuum testé, à savoir D/$, (/(, et o/o. Tous les auditeurs ont effectué les expériences relatives aux trois paradigmes expérimentaux ID1, ID2 et DISC. Les stimuli étaient de type CVC ou bien NVC, la voyelle synthétisée V appartenant dans tous les cas à un continuum C par G. Les résultats obtenus pour les continuums o/o lors de l’expérience principale présentant certaines incohérences par rapport aux autres paires orale/nasale, nous avons choisi de reproduire l’expérience (en ce qui concerne cette voyelle uniquement) sur la base de stimuli resynthétisés à partir de choix méthodologiques différents (Cf. p.182). Quatre auditeurs ont participé à cette nouvelle expérience au mois de septembre 2002. Ils ont effectué les paradigmes ID1, ID2 et DISC pour un certain nombre de conditions expérimentales à partir des nouveaux continuums o/o. 163 Table 19. Résumé des spécificités méthodologiques des différentes expériences de perception menées dans le cadre de ce travail. Date Auditeurs Voyelles Paradigmes (Nombre d’auditeurs) Stimuli Conditions D (Dyn I) : Expérience pilote Expérience principale Nouveaux stimuli o/o Auditeurs américains 02/02 Francophones D (3) ( (4) D (6) 04/02 Francophones ( (6) o (6) 09/02 11/02 Francophones Anglophones o (4) o 7*7 CVC ID1 ID1 ID2 DISC 5*5 CVC NVC ID1 (8) DISC (10) 5*5 CVC NVC Brèves et Longues Dyn I Brèves et Longues Dyn II ID1 (C par G) : CVC Brèves et Longues Dyn I CVC Brèves et Longues Dyn II NVC Brèves et Longues Dyn I NVC Brèves et Longues Dyn II ID2, DISC (C par G) : CVC Brèves et Longues Dyn I CVC Brèves et Longues Dyn II ID1 (C par G) : CVC Brèves et Longues Dyn I NVC Brèves et Longues Dyn I ID2, DISC (C par G) : CVC Brèves et Longues Dyn I ID1, DISC (C par G) : CVC Brèves et Longues Dyn I NVC Brèves et Longues Dyn I 5*5 CVC NVC ID1 ID2 DISC 164 ( (C par G) : C par G Brèves et Longues I par G Brèves et Longues Enfin, nous avons voulu déterminer si les processus mis en lumière au cours des expériences précédentes étaient spécifiques au français. Avec l’aide de John Kingston (professeur à University of Massachussets, Amherst), les nouveaux continuums o/o ont donc été testés sur des auditeurs anglophones au mois de novembre 2002. Huit auditeurs ont participé à une expérience de type ID1, et dix autres à une expérience de type DISC. La suite de la deuxième partie de la thèse s’organise de la façon suivante. Le premier chapitre est consacré aux diverses expériences d’identification ID1 et ID2 menées sur les auditeurs francophones, y compris celles relatives aux nouveaux continuums o/o. Dans le deuxième chapitre, nous présentons et discutons les résultats des expériences de discrimination DISC (phases 2 et 3). Enfin, le troisième chapitre est consacré exclusivement aux expériences menées sur les auditeurs anglophones (phase 4). Nous discutons de l’ensemble des questions relatives à la perception des voyelles nasales, en relation avec les phénomènes étudiés en production, dans la discussion générale qui clôture le travail (p.256). 165 Chapitre 1 Identification 1. Matériel et méthode Ce chapitre est consacré aux deux expériences d’identification ID1 et ID2 menées auprès des auditeurs francophones, dans un premier temps sur les trois continuums D/$, (/(, et o/o, puis trois mois plus tard sur les nouveaux continuums o/o32. Comme l’indique la Table 19 (p.164), nous avons testé huit conditions au cours de l’expérience principale dans le cadre du paradigme ID1, selon que les items étaient de structure CVC ou NVC, les voyelles brèves ou longues, et l’évolution temporelle des paramètres de type Dyn I ou Dyn II. En ce qui concerne le paradigme ID2, nous n’avons pas inclu les items NVC, réduisant ainsi de moitié le nombre de conditions à tester. Nous avons effectué les expériences ID1 et ID2 sur les nouveaux continuums o/o, qui étaient uniquement de type Dyn I. Sur le modèle de la Table 18 (p.156), la Table 20 donne les valeurs cible des fréquences et des bandes passantes des formants F1 à F5 pour les voyelles situées aux quatre extrémités des espaces de stimuli : voyelles orales (1,1), voyelles graves (5,1), voyelles nasalisées (1,5) et voyelles nasales (5,5). Les valeurs affichées en noir (vs. gris) sont celles qui diffèrent par rapport à l’orale de référence : F2 est plus bas pour les voyelles graves, les bandes passantes B1, B2 et B3 sont modifiées pour les voyelles nasalisées, et les deux types d’indices sont combinés pour les voyelles nasales. La table montre que les trois continuums D/$, (/(, o/o se distinguent exclusivement par les valeurs que prennent F1, B1, F2, B2 et F3, B3, tandis que la fréquence et la bande passante en F4 et en F5 sont les mêmes pour toutes les voyelles. Pour les premiers continuums o/o, la valeur de F1 varie tout au long du continuum dans les stimuli CVC. En effet, il n’existe pas en français de mot de type CVC où les consonnes sont des occlusives sourdes et la voyelle est une semi-ouverte /o/ intrinsèquement longue : *[No:W] n’existe pas, et on a soit [NoW] cote, avec une voyelle semi-ouverte brève, soit [NR:W] côte, avec une voyelle semi-fermée longue. Nous avons donc choisi de faire varier la valeur de F1 au sein des continuums o/o33, de 470 Hz pour la voyelle orale (semi-fermée) à 570 Hz pour la nasale (semi-ouverte), de façon à maintenir une durée équivalente pour les voyelles de l’espace, qui sont toutes relativement longues. Cependant, la méthode d’interpolation des valeurs dans l’espace des stimuli a comme conséquence que F1 est à 520 Hz pour la voyelle nasalisée 32 La méthodologie utilisée pour les expériences de perception est exposée de façon détaillée dans l’introduction (p.149 et suivantes). 33 Ci-dessous, nous désignons dans tous les cas ce continuum comme le « continuum o/o », même si pour les items CVC (mais pas pour les NVC), il s’agit en fait d’un continuum R/o. 167 comme pour la voyelle grave, et n’atteint donc pas la valeur qui convient à la voyelle nasale (570 Hz). On favorise alors a priori une stratégie de combinaison des deux types d’indices pour la détection de la nasalité. Table 20. Valeurs cible (en Hz) des fréquences et des bandes passantes des formants F1 à F5, pour les voyelles situées aux quatre extrémités des espaces de stimuli utilisés pour l’expérience principale : continuums D/$, (/(, o/o et nouveaux continuums o/o (« o/o 2 »). Les valeurs affichées en noir sont celles qui diffèrent par rapport à l’extrémité orale du continuum. F1 B1 F2 B2 F3 B3 F4 B4 F5 B5 90 2600 90 3250 200 4200 200 900 90 2600 90 3250 200 4200 200 Nasalisée Ref 3 750 250 1150 80 2600 500 3250 200 4200 200 80 2600 500 3250 200 4200 200 Orale Ref 1 550 100 1700 110 2450 90 3250 200 4200 200 Grave Ref 2 550 100 1550 110 2450 90 3250 200 4200 200 Orale Ref 1 750 100 1150 D/$ Grave Ref 2 750 100 Nasale (/( 900 550 80 2450 500 3250 200 4200 200 250 1550 80 2450 500 3250 200 4200 200 Orale Ref 1 470 100 900 90 2400 90 3250 200 4200 200 Grave Ref 2 520 100 720 90 2400 90 3250 200 4200 200 Nasalisée Ref 3 520 250 900 80 2400 500 3250 200 4200 200 720 80 2400 500 3250 200 200 200 Orale Ref 1 570 100 1000 90 2400 90 3250 200 4200 200 750 90 2400 90 3250 200 4200 200 Nasalisée Ref 3 570 250 1000 80 2400 500 3250 200 4200 200 80 2400 500 3250 200 200 200 Nasale o/o2 250 Nasalisée Ref 3 550 250 1700 Nasale o/o 750 570 250 Grave Ref 2 570 100 Nasale 570 250 750 Les particularités des stimuli o/o induites par ce choix méthodologique initial ont abouti à des résultats peu cohérents par rapport à ceux obtenus avec les autres continuums (Cf. 2.2 c, p.182). Nous avons donc resynthétisé les continuums o/o (appelés « o/o2 ») en choisissant une solution alternative. Ainsi, dans les continuums o/o2, F1 est fixé à 570 Hz (et F2 à 1000 Hz) dans tous les cas, mais les voyelles sont toutes relativement brèves, y compris celles situées à l’extrémité nasale du continuum. Lors de l’expérience principale, les voyelles dites brèves avaient donc une durée de 200 ms, et les longues de 250 ms dans les items CVC, et ce quel 168 que soit leur timbre, alors que pour l’expérience sur les continuums o/o2, les brèves duraient 120 ms, et les longues 150 ms. Dans les deux cas, la durée des longues excède d’un quart celles des brèves, comme le montre la Table 21. La situation est relativement différente pour les items de type NVC. Dans ces items en effet, la voyelle orale ne peut être que brève en français, alors que la nasale est intrinsèquement longue. Nous avons donc choisi de synthétiser les espaces de stimuli de type NVC en faisant varier la durée tout au long du continuum orale-nasale. Dans ce cas, les étiquettes « Brèves » et « Longues » se rapportent à la différence de durée entre l’extrémité orale et l’extrémité nasale du continuum : de 120 ms à 180 ms pour les Brèves, et de 120 ms à 240 ms pour les Longues (Cf. Table 21)34. Table 21. Mots cible lors de la tâche d’identification et durée (en ms) des voyelles étiquetées “Brèves” et “Longues” aux quatre extrémités des espaces de stimuli de type CVC et NVC pour les continuums D/$,(/(,o/o, et o/o2. Les valeurs affichées en noir sont celles qui diffèrent par rapport à l’extrémité orale du continuum. CVC Mot cible D/$ (/( o/o o/o2 [WD:W] NVC Brèves Longues 200 250 Mot cible [PDW] Brèves Longues 120 120 Orale (1,1) Grave (5,1) 200 250 150 180 Nasalisée (1,5) 200 250 150 180 Nasale (5,5) tante [W$:W] 200 250 menthe [P$:W] 180 240 Orale (1,1) tête [W(:W] 200 250 mette [P(W] 120 120 Grave (5,1) 200 250 150 180 Nasalisée (1,5) 200 250 150 180 Nasale (5,5) teinte [W(:W] 200 250 mainte [P(:W] 180 240 Orale (1,1) côte [NR:W] 200 250 motte [PoW] 120 120 Grave Nasalisée (5,1) 200 250 150 180 (1,5) 200 250 150 180 Nasale (5,5) comte [No:W] 200 250 monte [Po:W] 180 240 Orale (1,1) cote [NoW] 120 150 motte [PoW] 120 150 Grave (5,1) 120 150 120 150 Nasalisée (1,5) 120 150 120 150 Nasale (5,5) 120 150 120 150 tâte comte [NoW] mate monte [PoW] A part ces différences relatives à la durée des voyelles, les items NVC sont très proches de leurs correspondants CVC. Les Table 22 et Table 23 illustrent pour les continuums D/$ la façon dont nous avons synthétisé les items NVC d’une part, et ce que signifient les étiquettes 34 Nous avons omis cette particularité dans le cas de o/o2, ce qui a mené à une modification du schéma des réponses des auditeurs (Cf. p.183). 169 « Dyn I » et « Dyn II » pour ces items d’autre part. Les tables donnent en effet l’évolution temporelle (de t1 à t7) des valeurs des paramètres F1, B1, F2, B2, F3 et B3 dans différentes conditions : CVC Dyn I, NVC Dyn I (Table 22), CVC Dyn II, NVC Dyn II (Table 23). Les valeurs affichées en rouge sont celles qui diffèrent dans les items de type NVC par rapport aux CVC. Les différences se situent au début de la voyelle, dans sa transition avec la consonne précédente : le début de la voyelle (même orale) est toujours nasalisé pour les stimuli NVC. Il s’agit là de nasalisation contextuelle (liée à l’abaissement du voile uniquement), c’est pourquoi nous la synthétisons au moyen des mêmes modifications de bandes passantes que celles utilisées pour la dimension de Compacité. La différence entre les conditions Dyn I et Dyn II réside dans l’étendue de cette nasalisation contextuelle. Comme dans le cas des items CVC, les stimuli de type Dyn I sont ceux qui s’approchent le plus de ce que nous avons observé lors de la production de voyelles en parole naturelle, où la consonne précédente influence le comportement de la voyelle par rapport à la nasalité. Dans le cas des CVC Dyn I, même si la cible est nasale, la voyelle débute par une portion non nasalisée ayant toutes les caractéristiques de la voyelle phonologique orale correspondante. Pour les NVC Dyn I, même si la cible est orale, la voyelle est nasalisée au début, et les bandes passantes n’atteignent leur valeur cible qu’en t4 alors que c’est déjà le cas en t2 pour les stimuli NVC Dyn II. Dans les Table 22 et Table 23, les valeurs cible sont affichées sur fond gris foncé alors que les valeurs aux tn intermédiaires sont affichées sur fond gris clair. Les valeurs propres aux transitions formantiques sont elles affichées sur fond blanc. 170 Table 22. Evolution temporelle (de t1 à t7) des valeurs de F1, B1, F2, B2, F3, et B3 dans les continuums D/$ de type Dyn I. Comparaison des items CVC et NVC. D/$ DynI Orale Grave Nasalisée Nasale CVC t1 t2 t3 t4 t5 t6 t7 NVC t1 t2 t3 t4 t5 t6 t7 F1 350 750 750 750 750 750 350 F1 350 750 750 750 750 750 350 B1 100 100 100 100 100 100 100 B1 250 250 175 100 100 100 100 F2 1400 1150 1150 1150 1150 1150 1400 F2 1100 1150 1150 1150 1150 1150 1400 B2 90 90 90 90 90 90 90 B2 80 80 85 90 90 90 90 F3 2600 2600 2600 2600 2600 2600 2600 F3 2600 2600 2600 2600 2600 2600 2600 B3 90 90 90 90 90 90 90 B3 500 500 295 90 90 90 90 F1 350 750 750 750 750 750 350 F1 350 750 750 750 750 750 350 B1 100 100 100 100 100 100 100 B1 250 250 175 100 100 100 100 F2 1400 1150 900 900 900 900 1400 F2 1100 1000 900 900 900 900 1400 B2 90 90 90 90 90 90 90 B2 80 80 85 90 90 90 90 F3 2600 2600 2600 2600 2600 2600 2600 2600 2600 2600 2600 2600 2600 2600 B3 90 90 90 90 90 90 90 F3 B3 500 500 295 90 90 90 90 F1 350 750 750 750 750 750 350 F1 350 750 750 750 750 750 350 B1 100 175 250 250 250 250 250 B1 250 250 250 250 250 250 250 F2 1400 1150 1150 1150 1150 1150 1400 F2 1100 1150 1150 1150 1150 1150 1400 B2 90 85 80 80 80 80 80 B2 80 80 80 80 80 80 80 F3 2600 2600 2600 2600 2600 2600 2600 F3 2600 2600 2600 2600 2600 2600 2600 B3 90 295 500 500 500 500 500 B3 500 500 500 500 500 500 500 F1 350 750 750 750 750 750 350 F1 350 750 750 750 750 750 350 B1 100 175 250 250 250 250 250 B1 250 250 250 250 250 250 250 F2 1400 1150 900 900 900 900 1400 F2 1400 1000 900 900 900 900 1400 B2 90 85 80 80 80 80 80 B2 80 80 80 80 80 80 80 F3 2600 2600 2600 2600 2600 2600 2600 F3 2600 2600 2600 2600 2600 2600 2600 B3 90 295 500 500 500 500 500 B3 500 500 500 500 500 500 500 171 Table 23. Evolution temporelle (de t1 à t7) des valeurs de F1, B1, F2, B2, F3, et B3 dans les continuums D/$ de type Dyn II. Comparaison des items CVC et NVC. D/$ DynII Orale Grave Nasalisée Nasale CVC t1 t2 t3 t4 t5 t6 t7 NVC t1 t2 t3 t4 t5 t6 t7 F1 350 750 750 750 750 750 350 F1 350 750 750 750 750 750 350 B1 100 100 100 100 100 100 100 B1 250 100 100 100 100 100 100 F2 1400 1150 1150 1150 1150 1150 1400 F2 1100 1150 1150 1150 1150 1150 1400 B2 90 90 90 90 90 90 90 B2 80 90 90 90 90 90 90 F3 2600 2600 2600 2600 2600 2600 2600 F3 2600 2600 2600 2600 2600 2600 2600 B3 90 90 90 90 90 90 90 B3 500 90 90 90 90 90 90 F1 350 750 750 750 750 750 350 F1 350 750 750 750 750 750 350 B1 100 100 100 100 100 100 100 B1 250 100 100 100 100 100 100 F2 1400 900 900 900 900 900 1400 F2 1100 900 900 900 900 900 1400 B2 F3 90 90 90 90 90 90 90 80 90 90 90 90 90 90 2600 2600 2600 2600 2600 2600 2600 B2 F3 2600 2600 2600 2600 2600 2600 2600 B3 90 90 90 90 90 90 90 B3 500 90 90 90 90 90 90 F1 350 750 750 750 750 750 350 F1 350 750 750 750 750 750 350 B1 F2 100 250 250 250 250 250 250 250 250 250 250 250 250 250 1400 1150 1150 1150 1150 1150 1400 B1 F2 1100 1150 1150 1150 1150 1150 1400 B2 90 80 80 80 80 80 80 B2 80 80 80 80 80 80 80 F3 2600 2600 2600 2600 2600 2600 2600 F3 2600 2600 2600 2600 2600 2600 2600 B3 90 500 500 500 500 500 500 B3 500 500 500 500 500 500 500 F1 350 750 750 750 750 750 350 F1 350 750 750 750 750 750 350 B1 100 250 250 250 250 250 250 B1 250 250 250 250 250 250 250 F2 1400 900 900 900 900 900 1400 F2 1400 900 900 900 900 900 1400 B2 90 80 80 80 80 80 80 B2 80 80 80 80 80 80 80 F3 2600 2600 2600 2600 2600 2600 2600 2600 2600 2600 2600 2600 2600 2600 B3 90 500 500 500 500 500 500 F3 B3 500 500 500 500 500 500 500 172 En ce qui concerne le paradigme ID1, la procédure de présentation des stimuli est comparable à celle qui a été décrite pour l’expérience pilote (Cf. p.156). Pour les expériences de type ID2, l’interface proposée aux auditeurs est illustrée dans la Figure 50 dans le cas du continuum cote/comte. Dans la partie supérieure de la figure, on donne la fenêtre du logiciel caractéristique du début de la procédure. Les carrés gris étiquetés de 1 à 25 situés en haut à gauche de la fenêtre représentent les 25 stimuli de l’espace (placés dans un ordre aléatoire). Si l’auditeur clique deux fois sur l’un de ces carrés, il entend le stimulus correspondant. La tâche de l’auditeur est de déplacer chaque carré (à l’aide de la souris) et de lui assigner une nouvelle destination en fonction de la façon dont il juge le mot entendu. L’auditeur place le carré dans l’ensemble jaune s’il entend le mot qui contient la voyelle orale ou bien dans l’ensemble bleu s’il entend la nasale ; il peut également déposer le carré dans l’intersection entre les deux ensembles s’il juge la voyelle intermédiaire entre l’orale et la nasale, ou enfin le mettre dans la « poubelle » (en haut à droite de la fenêtre) si le son ne peut selon lui être accepté dans aucune des catégories précitées. L’auditeur peut réécouter les sons autant de fois qu’il le souhaite. Lorsqu’il a assigné une destination à chaque stimulus, il passe à la deuxième phase, illustrée dans la partie inférieure de la Figure 50. La tâche demandée consiste alors à classer par ordre de préférence (du meilleur au moins bon prototype de sa classe) les stimuli que l’auditeur a désigné précédemment comme membre de cette classe. Ainsi, dans le cas illustré sur la Figure 50, l’auditeur a préalablement placé les stimuli 2, 3, 4, 16, 21 et 23 dans l’ensemble jaune des orales (cote) ; il doit donc ensuite ordonner ces stimuli du meilleur au moins bon exemplaire du mot cote. Lorsque l’auditeur est satisfait de son classement, il passe à la dernière étape de la procédure, qui consiste à ordonner sur le même principe les stimuli contenant la voyelle nasale (ici, comte). 2. Résultats : Paradigme ID1 Les données discutées dans cette section concernent exclusivement le paradigme expérimental ID1. Les résultats sont présentés sous la forme de fonctions d’identification, dont le principe a été exposé plus haut (Cf. p.146). En l’occurrence, les fonctions représentent l’évolution de la proportion de réponses « nasale » (PN, en ordonnée) en fonction de la valeur des voyelles synthétisées le long des deux dimensions acoustiques caractérisant chaque espace de stimuli. 173 Figure 50. Illustration de l’interface proposée aux auditeurs au cours du paradigme expérimental ID2. En haut, la fenêtre correspondant à la tâche de classement de l’ensemble des stimuli. En bas, la fenêtre pour le classement des voyelles orales par ordre de préférence (voir texte). 174 Nous avons choisi de placer en abscisse la dimension acoustique correspondant à la nasalisation phonétique (Compacité), et de représenter les données concernant chaque degré d’abaissement de F2 (Gravité) par une courbe séparée. Dans cette représentation, la Compacité est donc traitée comme la dimension acoustique principale en ce qui concerne la détection du contraste phonologique de nasalité en français, alors que les modifications en F2 (Gravité) sont considérées comme plus secondaires a priori, c’est-à-dire qu’elles sont susceptibles de mener à des sauts de frontière plus ou moins marqués le long de la dimension principale. Les résultats montrent que dans la plupart des cas les deux dimensions ont autant d’importance l’une que l’autre. Les Figure 51 à Figure 57 donnent les fonctions d’identification obtenues pour toutes les conditions testées au cours de l’expérience principale et de l’expérience sur les continuums o/o2. Ces figures comparent les données obtenues dans quatre conditions (CVC brèves, CVC longues, NVC brèves et NVC longues) en ce qui concerne respectivement les continuums (/( Dyn I (Figure 51), (/( Dyn II (Figure 52), D/$ Dyn I (Figure 53), D/$ Dyn II (Figure 54), o/o Dyn I (Figure 55), o/o Dyn II (Figure 56) et o/o2 Dyn I (Figure 57). Dans une figure donnée, chacun des quatre graphiques correspond donc à une condition spécifique, c’est-à-dire à un espace de 25 stimuli en particulier. Au sein de chaque graphique, un « boxplot » représente l’ensemble des réponses données pour un stimulus en particulier. Nous avons tout d’abord calculé pour chaque auditeur la proportion de réponses « nasale » PN par rapport à l’ensemble de ses réponses à l’audition de ce stimulus. Le boxplot représente ensuite la répartition en quartiles des valeurs prises par PN pour tous les auditeurs concernés, soit 6 valeurs par voyelle pour l’expérience principale et 4 valeurs pour o/o2. Les fonctions d’identification ont été obtenues à l’aide du logiciel PRISM (www.graphpad.com) par la technique du « curve fitting ». Le principe de cette technique est de faire correspondre aux données une équation qui définit Y (ici, PN) en fonction de X (ici, la valeur du stimulus sur la dimension de Compacité) et d’un ou plusieurs autres paramètres. Nous avons utilisé la méthode de régression non linéaire afin de trouver dans chaque cas les valeurs des paramètres qui génèrent la sigmoïde s’approchant le plus possible des points de données. Les cinq fonctions d’identification représentent donc en tout les réponses des 6 (ou des 4) auditeurs lors des 20 présentations de chacun des 25 stimuli d’un espace donné, soit au total 3000 (ou 2000) réponses par graphique. 175 2.1. Validité Les résultats des expériences ID1 attestent de la validité des indices acoustiques sélectionnés afin de synthétiser les continuums orale-nasale en français. Si l’on considère les continuums D/$ et (/( de l’expérience principale, et les continuums o/o2, c’est-à-dire les continuums où les voyelles synthétisées varient uniquement en terme de Gravité et de Compacité (et parfois de durée) à l’exclusion de toute autre modification, notamment de la fréquence de F1, le taux moyen d’identification « nasale » est proche de 0% pour les stimuli (1,1) et avoisine les 100% pour les stimuli (5,5) et (4,5)35. Seuls les NVC o/o2 n’atteignent pas vraiment ce niveau très élevé de performance. Manifestement, pour nos stimuli semisynthétiques, les auditeurs francophones utilisent avec succès les indices acoustiques que nous avons mis à leur disposition pour prendre une décision quant à la nasalité de la voyelle. Bien entendu, il n’est pas prouvé que ces indices soient ceux effectivement pris en compte par les auditeurs en parole naturelle. Néanmoins, le fait que la synthèse des nasales ait été réalisée à partir des mêmes indices acoustiques, tous timbres vocaliques confondus, plaide en faveur du caractère général des propriétés de Compacité et de Gravité en tant que corrélats acoustiques du contraste de nasalité pour les voyelles du français. L’autre enseignement de l’expérience ID1 en termes de validité consiste en la nécessité d’une combinaison des deux dimensions acoustiques pour que les voyelles soient effectivement identifiées comme nasales. A part dans le cas des CVC (/(, pour les autres continuums, les stimuli (1,5) (à droite de la courbe noire) et (5,1) (à gauche de la courbe orange), qui ont une valeur maximale le long d’une des dimensions acoustiques mais minimale le long de l’autre, n’atteignent pas les 50% de réponses « nasale ». 2.2. Primauté Même si les deux dimensions sont nécessaires pour une détection efficace de la nasalité, le poids de chaque dimension dans la décision finale diffère selon la voyelle considérée. 35 Dans cette section, nous désignons les stimuli par leurs coordonnées (x,y) dans l’espace de référence (Cf. p.151). Pour rappel, la première coordonnée correspond à la valeur du stimulus le long de la dimension de Gravité, et la seconde à sa valeur pour la Compacité. Ainsi, l’extrémité orale du continuum a les coordonnées (1,1) et la voyelle nasalisée (1,5). Elles sont situées aux deux extrémités de la courbe noire sur les fonctions d’identification cidessous. La voyelle orale la plus grave a les coordonnées (5,1) et la nasale (5,5), et toutes deux sont situées sur la courbe orange dans les Figure 51 et suivantes. 176 CVC Brèves 1.0 0.5 0.5 Proportion de réponses « nasale » PN (/( Dyn I CVC Longues 1.0 Abaissement de F2 (Gravité) 0.0 0.0 0 1.0 1 2 3 4 0 5 1.0 NVC Brèves 0.5 1 2 3 4 5 3 4 5 NVC Longues 0.5 0.0 0 1 2 3 4 5 0.0 0 1 2 Taux de nasalisation phonétique (Compacité) Figure 51. Fonctions d’identification obtenues par mise en correspondance d’une sigmoïde avec les données (Valeurs de PN) concernant 4 espaces de stimuli (/( Dyn I : CVC Brèves, CVC Longues, NVC Brèves, NVC Longues. Le niveau de Compacité de la voyelle est représenté en abscisse : des stimuli les moins compacts, en 1, aux plus compacts, en 5. Chaque courbe représente un degré de Gravité : des stimuli les moins graves, en 1, aux plus graves, en 5. Les flèches et lignes pointillées sont destinées à faire ressortir certains aspects des données commentés dans le texte. 177 CVC Brèves 1.0 0.5 0.5 Proportion de réponses « nasale » PN (/( Dyn II CVC Longues 1.0 Abaissement de F2 (Gravité) 0.0 0.0 0 1.0 1 2 3 4 0 5 1.0 NVC Brèves 0.5 1 2 3 4 5 3 4 5 NVC Longues 0.5 0.0 0 1 2 3 4 5 0.0 0 1 2 Taux de nasalisation phonétique (Compacité) Figure 52. Fonctions d’identification obtenues par mise en correspondance d’une sigmoïde avec les données (Valeurs de PN) concernant 4 espaces de stimuli ( Dyn II : CVC Brèves, CVC Longues, NVC Brèves, NVC Longues. Le niveau de Compacité de la voyelle est représenté en abscisse : des stimuli les moins compacts, en 1, aux plus compacts, en 5. Chaque courbe représente un degré de Gravité : des stimuli les moins graves, en 1, aux plus graves, en 5. Les flèches et lignes pointillées sont destinées à faire ressortir certains aspects des données commentés dans le texte. 178 a. Continuums (/( Dans le cas des items CVC, la dimension acoustique principale est celle de Compacité. Les lignes horizontales (noires) en pointillés sur les Figure 51 et Figure 52 montrent que l’on peut atteindre un taux de 75% de réponses « nasale » pour le stimulus (1,5) où la compacité de la voyelle est à son maximum, alors que sa gravité est restée à son niveau minimal. Pour ces continuums CVC (/(, une grande partie de l’information utilisée par l’auditeur pour décider si la voyelle est nasale ou non se situe donc dans la dimension acoustique de Compacité. La variation des stimuli le long de la dimension complémentaire de Gravité mène elle à de nets sauts de frontière. Au total, le saut de frontière entre les stimuli les moins graves (courbe noire) et les stimuli les plus graves (courbe orange) équivaut selon les cas à 1.5 à 2 pas le long de la dimension acoustique de Compacité, comme l’illustre la flèche bleue sur la Figure 51. La situation est tout à fait différente pour les items NVC, en particulier dans les cas Dyn II, où les deux dimensions interviennent à égalité dans la détection du contraste de nasalité. Par rapport aux items CVC, les performances sont non seulement inférieures pour les stimuli (1,5) très compacts et peu graves (moins de 50% d’identification nasale), mais elles sont également supérieures pour les stimuli très graves et peu compacts (ceux situés sur la courbe orange). La flèche bleue sur la Figure 52 indique que, dans le cas des NVC longues de type Dyn II, le saut de frontière dû à l’augmentation de la Gravité équivaut à 5 pas le long de la dimension de Compacité, c’est-à-dire que les deux dimensions sont autant utilisées l’une que l’autre par les auditeurs pour décider si le mot qu’ils ont entendu contient une voyelle orale ou bien une nasale. C’est donc lorsque la voyelle est placée en contexte phonologique nasal que l’abaissement du F2 est particulièrement déterminant pour qu’elle soit identifiée comme une voyelle nasale. Les différences observées selon que les items concernés sont de type CVC ou NVC ne sont pas dues aux variations de durée qui existent dans le second cas au contraire du premier. Si l’on compare par exemple les performances obtenues pour les stimuli (5,1), (4,2), (3,3), (2,4) et (1,5) dans les items de type CVC Brèves Dyn II vs. NVC Longues Dyn II (Cf. lignes pointillées vertes sur la Figure 52), la proportion de réponses « nasale » passe d’un niveau faible à un niveau élevé dans le premier cas mais reste plus ou moins stable (aux alentours de 0.3) dans le second. Pourtant, tous ces stimuli ont une durée fort proche : 200 ms pour les CVC Brèves et 180 ms en ce qui concerne les NVC longues. 179 CVC Brèves 1.0 0.5 0.5 Proportion de réponses « nasale » PN a/$ Dyn I CVC Longues 1.0 Abaissement de F2 (Gravité) 0.0 0.0 0 1.0 1 2 3 4 0 5 1.0 NVC Brèves 0.5 1 2 3 4 5 3 4 5 NVC Longues 0.5 0.0 0 1 2 3 4 5 0.0 0 1 2 Taux de nasalisation phonétique (Compacité) Figure 53. Fonctions d’identification obtenues par mise en correspondance d’une sigmoïde avec les données (Valeurs de PN) concernant 4 espaces de stimuli D Dyn I : CVC Brèves, CVC Longues, NVC Brèves, NVC Longues. Le niveau de Compacité de la voyelle est représenté en abscisse : des stimuli les moins compacts, en 1, aux plus compacts, en 5. Chaque courbe représente un degré de Gravité : des stimuli les moins graves, en 1, aux plus graves, en 5. Les lignes pointillées sont destinées à faire ressortir certains aspects des données commentés dans le texte. 180 CVC Brèves 1.0 0.5 0.5 Proportion de réponses « nasale » PN a/$ Dyn II CVC Longues 1.0 0.0 0.0 0 1.0 1 2 3 4 5 Abaissement de F2 (Gravité) 0 1.0 NVC Brèves 0.5 1 2 3 4 5 3 4 5 NVC Longues 0.5 0.0 0 1 2 3 4 5 0.0 0 1 2 Taux de nasalisation phonétique (Compacité) Figure 54. Fonctions d’identification obtenues par mise en correspondance d’une sigmoïde avec les données (Valeurs de PN) concernant 4 espaces de stimuli D Dyn II : CVC Brèves, CVC Longues, NVC Brèves, NVC Longues. Le niveau de Compacité de la voyelle est représenté en abscisse : des stimuli les moins compacts, en 1, aux plus compacts, en 5. Chaque courbe représente un degré de Gravité : des stimuli les moins graves, en 1, aux plus graves, en 5. Les lignes pointillées sont destinées à faire ressortir certains aspects des données commentés dans le texte. 181 b. Continuums D/$ Les fonctions d’identification obtenues pour les continuums D/$ ressemblent davantage à celles relatives aux continuums (/( dans le cas des items NVC que des CVC : les deux dimensions acoustiques pèsent d’un poids relativement équivalent sur la décision de répondre « nasale ». Les lignes pointillées sur les Figure 55 et Figure 56 permettent de comparer les réponses obtenues pour des stimuli qui ont une valeur élevée sur une dimension et faible sur l’autre : les lignes bleues joignent les stimuli (5,1) et (1,5) et les lignes vertes les stimuli (5,2) et (2,5). Les lignes bleues indiquent que les performances sont comparables voire légérement supérieures pour les voyelles très compactes. Par contre, dès que la valeur du stimulus a légèrement évolué le long de l’autre dimension, la tendance s’inverse, et les voyelles les plus graves sont alors beaucoup plus souvent identifiées comme nasales (lignes vertes). La tendance à la prédominance de la dimension de Gravité pour les continuums D/$ est donc moins nette dans l’expérience principale que dans l’expérience pilote, sans doute parce que nous avons supprimé entretemps les stimuli les plus inappropriés à une réponse « nasale », c’est-à-dire ceux pour lesquels le F2 avait une valeur trop élevée (1200 Hz, Cf. Table 18, p.156). c. Continuums o/o et o/o2 En ce qui concerne les premiers continuums o/o, les Figure 55 et Figure 56 montrent que les résultats de la tâche d’identification sont très différents pour les CVC par rapport aux NVC. Dans le premier cas, la synthèse du continuum orale-nasale ne paraît pas efficace, en particulier pour les items CVC Brèves : les proportions de réponses « nasale » n’évoluent guère que de 20 % en moyenne pour les voyelles les moins compactes à 80% environ pour les plus compactes, et le renforcement de la Gravité n’induit qu’un faible accroissement des performances. De plus, pour tous les items CVC, les stimuli les plus graves (F2 = 720 Hz) sont les moins souvent identifiés comme nasals lorsqu’ils sont également très compacts. Par contre, les fonctions d’identification obtenues dans le cas des items NVC sont tout à fait comparables à celles présentées ci-dessus en ce qui concerne les continuums (/( et D/$. Ces différences de résultats entre les conditions CVC et NVC pour les continuums o/o de l’expérience principale doivent être avant tout reliées aux différences dans la paramétrisation des voyelles synthétisées entre les deux cas. Au sein des continuums CVC en effet (côte [NR:W] – comte [No:W]), les voyelles synthétisées varient au point de vue de la fréquence de F1 (afin de préserver une durée équivalente pour toutes les voyelles), alors que dans les items NVC (motte 182 [PoW] – monte [Po:W]), F1 est fixé tout au long du continuum mais la durée des voyelles varie de 120 à 180 ms (NVC Brèves) ou de 120 à 240 ms (NVC Longues). Or, la méthode de synthèse choisie (où les résonateurs sont connectés en cascade, Cf. Klatt, 1980) a pour effet qu’une montée fréquentielle de F1 renforce l’énergie des formants supérieurs, en particulier de F2 et F3, ce qui neutralise dans une certaine mesure les effets d’une progression concomitante de la voyelle le long de la dimension de Compacité.. Nous avons donc resynthétisé les continuums o/o (« o/o2 ») en fixant F1 à 570 Hz dans tous les cas, et en faisant varier F2 entre 1000 Hz (vs. 900 Hz précédemment), une valeur plus appropriée à la voyelle orale semi-ouverte, et 750 Hz (vs. 720 Hz précédemment) puisqu’un abaissement trop important de F2 semblait provoquer une soudaine inversion de tendance dans les réponses des auditeurs. La Figure 57 donne les fonctions d’identification obtenues pour les nouveaux continuums o/o2. On constate sur cette figure que la nouvelle paramétrisation des voyelles synthétisées mène à des résultats tout à fait cohérents avec ceux obtenus pour les autres voyelles. En ce qui concerne les items CVC en particulier, on obtient un taux proche de 0% d’identification nasale pour les stimuli (1,1) et de 100% d’identification nasale pour les stimuli (4,5) et (5,5). Les deux dimensions acoustiques, de Gravité et de Compacité, contribuent à augmenter la proportion de réponses « nasale » de façon relativement équivalente, avec une légère prédominance de la dimension de Compacité dans le cas des CVC Longues. Les réponses données aux stimuli o/o2 de type NVC présentent certaines particularités. Globalement, il y a moins de réponses « nasale » pour les voyelles en contexte NVC par rapport aux CVC correspondantes. La valeur maximale obtenue est une proportion moyenne de 0.85 à 0.9 de réponses « nasale », comme l’indiquent les lignes horizontales pointillées sur la Figure 57. Les stimuli les plus compacts, s’ils ne sont pas également plus graves, sont toujours perçus comme des voyelles orales. Ceci est relativement différent des fonctions d’identification obtenues pour les premiers continuums o/o (Cf. Figure 55). La seule modification intervenue entre les premiers et les seconds continuums o/o pour ce qui est des items NVC réside dans la durée des voyelles. Elle est fixée pour les stimuli o/o2 (à 120 ms pour les voyelles brèves et à 150 ms pour les longues), alors qu’elle varie de 120 ms à 180 ms (Brèves) ou à 240 ms (Longues) d’une extrémité à l’autre de tous les continuums de l’expérience principale. Les nombres affichés sur fond gris dans les Figure 55 et Figure 57 indiquent la durée (en ms) des voyelles situées aux quatre extrémités des continuums NVC : (1,1) et (1,5) sur la courbe noire, et (5,1) et (5,5) sur la courbe orange. En comparant ces 183 figures, nous constatons que, dans le cas des NVC, l’augmentation de durée à travers le continuum orale-nasale induit une augmentation concomitante des réponses « nasale ». Par ailleurs, les taux d’identification nasale particulièrement faibles enregistrés pour les stimuli très compacts et peu graves impliquent que, dans le cas des stimuli o/o2 de type NVC, la dimension acoustique prédominante est celle de Gravité. La Compacité n’est pas très efficace en tant qu’indice acoustique signalant la nasalité pour ces stimuli. Dans la discussion (p.203), nous envisageons l’hypothèse selon laquelle la dimension acoustique d’Intensité aurait pu constituer une meilleure façon de synthétiser les effets du couplage nasal dans les continuums o/o. 2.3. Dimensions complémentaires Dans cette section, nous examinons l’effet sur les réponses « nasale » des dimensions complémentaires le long desquelles nous avons fait varier les stimuli : items de type Dyn I vs. Dyn II, CVC vs. NVC, et voyelles brèves vs. voyelles longues. a. Items CVC vs. NVC Ce sont ces deux conditions qui mènent aux différences les plus nettes dans les schémas de réponses des auditeurs. Pour les continuums (/( et o/o, on constate une différence de nature dans la contribution relative des deux dimensions acoustiques pour la détection de la nasalité selon que les items sont de type CVC ou bien NVC. La dimension de Gravité a plus de poids sur la décision d’identifier une voyelle en tant que nasale lorsque cette voyelle est placée en contexte phonologique nasal. Pour les continuums D/$, c’est déjà le cas en contexte phonologique oral. Par ailleurs, si l’on compare deux à deux les réponses enregistrées selon que les items concernés sont de type CVC ou bien NVC, on remarque que le stimulus le plus compact et le moins grave (le stimulus (1,5) situé le plus à droite de la courbe noire) donne lieu dans tous les cas (y compris pour D/$) à un plus grand nombre de réponses « nasale » s’il est placé en contexte phonologique oral. Ce n’est pas la durée qui est à l’origine de ces différences puisqu’elles subsistent même si l’on considère les réponses données au stimulus (1,5) dans les NVC Longues (180 ms) par rapport aux CVC Brèves (200 ms). Ainsi, en contexte NVC, une voyelle très compacte (et peu grave) est moins souvent identifiée comme nasale qu’en contexte CVC, alors qu’une voyelle très grave (et peu compacte) est elle plus souvent identifiée comme nasale. Nous proposons dans la discussion une interprétation de ces résultats en termes de phénomènes de compensation chez les auditeurs, et d’une adaptation des locuteurs à ces phénomènes, qui se manifeste par une 184 stratégie (contrôlée) de réorganisation des articulations impliquées dans la production des voyelles nasales. 185 CVC Brèves 1.0 0.5 0.5 Proportion de réponses « nasale » PN o/o Dyn I CVC Longues 1.0 0.0 0.0 0 1.0 1 2 3 4 5 180 NVC Brèves 0.5 Abaissement de F2 (Gravité) 0 1.0 1 2 3 4 5 240 NVC Longues 0.5 150 180 120 0.0 0 150 1 2 3 4 5 0.0 180 120 0 1 2 3 4 5 Taux de nasalisation phonétique (Compacité) Figure 55. Fonctions d’identification obtenues par mise en correspondance d’une sigmoïde avec les données (Valeurs de PN) concernant 4 espaces de stimuli: CVC Brèves, CVC Longues, NVC Brèves, NVC Longues. Le niveau de Compacité de la voyelle est représenté en abscisse : des stimuli les moins compacts, en 1, aux plus compacts, en 5. Chaque courbe représente un degré de Gravité : des stimuli les moins graves, en 1, aux plus graves, en 5. Les nombres affichés sur fond gris donnent les durées pour les stimuli (5,1) et (5,5), situés à gauche et à droite de la courbe orange, et pour les stimuli (1,1) et (1,5), sur la courbe noire. 186 CVC Brèves 1.0 0.5 0.5 Proportion de réponses « nasale » PN o/o Dyn II CVC Longues 1.0 0.0 0.0 0 1.0 1 2 3 4 5 Abaissement de F2 (Gravité) 0 1.0 NVC Brèves 0.5 1 2 3 4 5 3 4 5 NVC Longues 0.5 0.0 0 1 2 3 4 5 0.0 0 1 2 Taux de nasalisation phonétique (Compacité) Figure 56. Fonctions d’identification obtenues par mise en correspondance d’une sigmoïde avec les données (Valeurs de PN) concernant 4 espaces de stimuli o Dyn II : CVC Brèves, CVC Longues, NVC Brèves, NVC Longues. Le niveau de Compacité de la voyelle est représenté en abscisse : des stimuli les moins compacts, en 1, aux plus compacts, en 5. Chaque courbe représente un degré de Gravité : des stimuli les moins graves, en 1, aux plus graves, en 5. 187 CVC Brèves 1.0 Proportion de réponses « nasale » PN 0.5 o/o2 Dyn I CVC Longues 1.0 0.5 Abaissement de F2 (Gravité) 0.0 0.0 0 1 2 3 4 NVC Brèves 1.0 120 120 0.5 0 5 1 2 1.0 NVC Longues 0.5 150 3 4 150 120 120 0.0 0 150 150 0.0 1 2 3 4 5 5 0 1 2 3 4 5 Taux de nasalisation phonétique (Compacité) Figure 57. Fonctions d’identification obtenues par mise en correspondance d’une sigmoïde avec les données (Valeurs de PN) concernant 4 espaces de stimuli o2 Dyn I : CVC Brèves, CVC Longues, NVC Brèves, NVC Longues. Le niveau de Compacité de la voyelle est représenté en abscisse : des stimuli les moins compacts, en 1, aux plus compacts, en 5. Chaque courbe représente un degré de Gravité : des stimuli les moins graves, en 1, aux plus graves, en 5. Les nombres affichés sur fond gris donnent les durées pour les stimuli (5,1) et (5,5), situés à gauche et à droite de la courbe orange, et pour les stimuli (1,1) et (1,5), sur la courbe noire. 188 b. « Longues » vs. « Brèves » Même si une voyelle nasale synthétisée donne une impression auditive plus « naturelle » quand elle est longue, la durée des voyelles n’est pas à proprement parler un indice régulièrement utilisé par nos auditeurs pour décider si une voyelle est orale ou nasale. On observe très peu de différences dans les réponses « nasale » selon que la voyelle est brève ou longue, toutes choses étant égales par ailleurs, c’est-à-dire pour les items CVC. Les continuums o/o2 font exception : les voyelles très compactes et peu graves (1,4), (1,5), (2,4) et (2,5) sont deux fois plus souvent identifiées comme des nasales lorsqu’elles sont plus longues (Cf. CVC Brèves vs. CVC Longues dans la Figure 57). Par ailleurs, nous avons vu ci-dessus qu’en plus des dimensions de Gravité et de Compacité, des différences additionnelles de durée étaient nécessaires à une bonne synthèse de la nasalité dans le cas des continuums NVC o/o. Nous ne pouvons pas déterminer à partir de nos données si c’est également vrai pour les autres continuums ((/( et D/$) puisque en ce qui les concerne les voyelles très compactes et très graves (5,5) sont toujours plus longues que les voyelles peu compactes et peu graves (1,1) lorsqu’elles sont insérées dans des items NVC (« Brèves » et « Longues »). c. « Dyn I » vs. « Dyn II » On n’observe que très peu de différences dans les réponses des auditeurs selon que les espaces de stimuli sont de type Dyn I ou Dyn II. Une première hypothèse est que nous n’avons pas mis en oeuvre la différence entre les stimuli Dyn I et Dyn II sur une fenêtre temporelle assez large pour qu’elle influence la décision des auditeurs. En particulier, les stimuli CVC de type Dyn I atteignent déjà leur cible nasale à t3 = 40 ms, ce qui est encore très tôt pour une voyelle d’une durée de 200 ou 250 ms. Néanmoins, on parvient à un taux d’identification des nasales proche de 100% avec des stimuli (4,5) ou (5,5) de type Dyn II, ce qui plaide en faveur d’une seconde hypothèse, plus simple, selon laquelle l’évolution temporelle spécifique des paramètres acoustiques liés à la nasalisation n’a que peu d’importance pour la détection du contraste de nasalité en français. Que le voile descende très tôt ou un peu plus tard, et quel que soit le moment à partir duquel la configuration orale propre à la voyelle nasale est en place, ceci n’a apparemment que peu d’influence sur la bonne perception de la nasalité de la voyelle, pourvu que les indices acoustiques liés à ces deux types d’articulations soient bel et bien présents pendant la majeure partie de la voyelle. 189 2.4. Paradigme expérimental ID2 Les résultats de l’expérience ID2 sont présentés dans les Figure 58 (continuums (/(), Figure 59 (continuums D/$), et Figure 60 (continuums o/o2). Dans ces figures, on représente pour chaque condition testée l’espace à deux dimensions des 5*5 stimuli (Gravité en abscisse et Compacité en ordonnée). Chaque stimulus est symbolisé par un graphique de type « pie chart ». Il s’agit d’un gâteau virtuel découpé en X parts, où X équivaut au nombre d’auditeurs (soit 6 auditeurs pour D/$ et (/(, et 4 auditeurs pour o/o2). Chaque part du gâteau représente donc la réponse apportée par un auditeur donné (toujours le même) au stimulus concerné lors de la tâche d’identification ID2 : la couleur jaune pour une réponse « orale », la couleur bleue pour une réponse « nasale », la couleur verte pour une réponse « intermédiaire » et la couleur grise pour une réponse « poubelle ». Le nombre affiché auprès de certains « gâteaux » correspond au score de préférence atteint par le stimulus au sein de la classe des orales (en jaune) ou bien des nasales (en bleu). Les scores de préférence ont été calculés de la façon suivante. Nous avons conservé pour chaque auditeur le classement qu’il attribue aux cinq meilleurs prototypes de la classe uniquement. Au meilleur, nous avons attribué 5 points, au second, quatre points, etc. Nous avons ensuite additionné tous les points obtenus par un même stimulus. Le total des points distribués pour un espace de stimuli atteint 90 lorsqu’il y a six auditeurs et 60 lorsqu’ils ne sont que quatre. Afin de pouvoir comparer entre eux les résultats relatifs aux différents continuums, nous avons donc multiplié les points obtenus par 100/90 ou par 100/60 selon les cas, pour aboutir au score de préférence de chaque stimulus (en %). Le stimulus qui obtient le score de préférence le plus élevé est donc celui qui a obtenu le meilleur classement en moyenne tous auditeurs confondus. Le « gâteau » correspondant à ce stimulus est affiché sur fond bleu pour les nasales et sur fond jaune pour les orales de chaque espace. Les Figure 58, Figure 59 et Figure 60 confirment les résultats obtenus sur les mêmes auditeurs avec le paradigme expérimental ID1. Ainsi, pour les continuums (/( (tous CVC), la dimension acoustique dominante est celle de Compacité (Figure 58). Les « gâteaux » correspondant aux stimuli ayant une valeur égale ou inférieure à 3 sur l’échelle de Compacité sont majoritairement de couleur jaune ou grise tandis que pour les voyelles les plus compactes (de Compacité 4 ou 5) les couleurs prédominantes sont le bleu et le vert. Le stimulus nasal préféré n’est d’ailleurs pas parmi les plus graves pour ce continuum. 190 Orales Intermédiaires Nasales Poubelle ( /( CVC Brèves (Dyn I) CVC Longues (Dyn I) CVC Brèves (Dyn II) CVC Longues (Dyn II) Figure 58. Résultats de l’expérience ID2 pour les continuums (/( dans quatre conditions : CVC Brèves Dyn I, CVC Longues Dyn I, CVC Brèves Dyn II, CVC Longues Dyn II. Chaque part de gâteau représente la réponse donnée par un auditeur au stimulus concerné, et le nombre adjacent correspond à son score de préférence (voir texte). 191 La situation est différente pour les continuums D/$, où le stimulus préféré est de Gravité 4 ou 5, et où la répartition des couleurs en général indique que les deux dimensions contribuent pleinement à la décision de nasalité. La dimension de Gravité est même prédominante puisque l’on peut isoler la majorité des réponses « orale » (en jaune) des réponses « nasale » (en bleu) en se référant presque uniquement au critère de Gravité (Voir les lignes de démarcation tracées sur la Figure 59). Dans le cas des continuums o/o2, la démarcation s’approche plutôt d’une ligne diagonale (Figure 60), ce qui indique une véritable équivalence des deux dimensions acoustiques en ce qui concerne leur poids dans la décision de nasalité. Les /o/ préférés des auditeurs n’ont pas le degré maximal de Compacité. Le voyelle orale préférée des auditeurs correspond dans tous les cas au stimulus (1,1). La variabilité est plus importante pour les voyelles nasales comme nous venons de le voir, mais de façon générale ces résultats confirment la validité des paramètres acoustiques sélectionnés en tant qu’indices perceptuels de la nasalité, puisque beaucoup de stimuli sont reconnus comme de bons prototypes de voyelles nasales. Les voyelles /(/ sont celles qui semblent le moins appréciées, car c’est pour elles que les auditeurs sont à la fois le plus divisés et le moins enclins à attribuer une étiquette de « bonne nasale » (plutôt que de voyelle « intermédiaire » ou « à rejeter »). Une autre information apportée par le paradigme ID2 en complément au paradigme ID1 concerne les voyelles rejetées dans les différents continuums. En ce qui concerne les continuums o/o2, ces voyelles sont réparties un peu partout dans l’espace, alors que pour les deux autres continuums elles sont concentrées dans une région particulière. Pour les continuums (/(, les voyelles rejetées sont celles qui sont à la fois très graves et pas assez compactes (en bas à droite de l’espace). Par contre, pour les continuums D/$, la couleur grise est très présente lorsque les voyelles sont très compactes mais pas assez graves (en haut à gauche de l’espace). La raison pour laquelle ces stimuli sont rejetés réside sans doute dans le fait que ces voyelles s’approchent de la réalisation phonétique d’autres phonèmes du français, respectivement /¡/ et /¡/ : Lorsque une voyelle est synthétisée avec des paramètres acoustiques appropriés pour /(/, à l’exception de F2 qui est plus bas (1550 Hz), les auditeurs francophones tendent à l’identifier comme une réalisation de /¡/. Les /D/ les plus compacts qui ont un F2 à 1150 Hz donnent quant à eux une impression auditive proche de /¡/. 192 Orales Intermédiaires Nasales Poubelle D /$ CVC Brèves (Dyn I) CVC Longues (Dyn I) CVC Brèves (Dyn II) CVC Longues (Dyn II) Figure 59. Résultats de l’expérience ID2 pour les continuums D/$ dans quatre conditions : CVC Brèves Dyn I, CVC Longues Dyn I, CVC Brèves Dyn II, CVC Longues Dyn II. Chaque part de gâteau représente la réponse donnée par un auditeur au stimulus concerné, et le nombre adjacent correspond à son score de préférence (voir texte). 193 Orales Intermédiaires Nasales Poubelle o /o 2 CVC Brèves (Dyn I) CVC Longues (Dyn I) Figure 60. Résultats de l’expérience ID2 pour les continuums o/o2. dans quatre conditions : CVC Brèves Dyn I, CVC Longues Dyn I, CVC Brèves Dyn II, CVC Longues Dyn II. Chaque part de gâteau représente la réponse donnée par un auditeur au stimulus concerné, et le nombre adjacent correspond à son score de préférence (voir texte). Ces éléments indiquent que pour synthétiser un continuum ¡/¡, une piste à suivre consiste en une combinaison de deux dimensions acoustiques similaires à celles utilisées pour les autres timbres vocaliques, c’est-à-dire une combinaison de la Compacité d’une part et de la Gravité d’autre part, où en l’occurrence le F2 de la voyelle passerait de 1500 Hz à 1200 Hz environ. Quelques essais informels réalisés en ce sens nous ont confirmé l’efficacité du procédé. Les Figure 61 à Figure 66 donnent un spectrogramme et le signal pour quatre items chacune. Elles permettent de comparer les nasales préférées par nos auditeurs avec des items CVC prononcés en parole naturelle et qui contiennent les mêmes nasales. Ainsi, les Figure 61, Figure 63 et Figure 65 montrent les stimuli ayant obtenu le score de préférence le plus élevé 194 (pour la classe des nasales) dans chaque condition testée, respectivement pour les continuums (/(, D/$ (items t_t) et o/o2 (items k_t). Les autres figures présentent quant à elles des données issues de l’étude aérodynamique. Il s’agit de la production par nos quatre locuteurs masculins S3, S4, S7, et S8 des mots du français teinte, /W(W/ (Figure 62), tante, /W$W/ (Figure 64), et con, /No/ (Figure 66). Ces figures permettent de comparer les propriétés acoustiques des voyelles nasales dont la synthèse a été jugée bonne par nos auditeurs avec celles de voyelles nasales prononcées en parole naturelle par plusieurs locuteurs francophones. La différence majeure entre les stimuli synthétisés et les voyelles naturelles se situe en début de voyelle : la période est brève pendant laquelle les paramètres acoustiques ont des valeurs appropriées à la voyelle orale correspondante pour les voyelles synthétisées en général, et elle est presque inexistante pour les stimuli de type Dyn II. La différence entre les uns et les autres n’a pas amené de modifications dans le schéma de réponses des auditeurs (Cf. p.189), mais sans doute aurions-nous pu allonger cette période en début de voyelle pour les stimuli de type Dyn I. Quoi qu' il en soit, nous obtenons des voyelles nasales jugées excellentes par les auditeurs sans recourir à cette forte évolution temporelle des paramètres en début de voyelle, ce qui signifie sans doute que sa présence n’est pas capitale pour la perception de la nasalité. C’est essentiellement au cours de cette portion orale que les formants supérieurs à F1 et F2 ont une énergie acoustique relativement élevée pour les voyelles naturelles /$/ et /o/. Une autre différence entre voyelles synthétiques et voyelles naturelles correspondantes réside donc dans le fait qu’il y a très peu d’énergie acoustique au-dessus de F2 tout au long de nos /$/, /o/. synthétiques. En cela, elles sont fort comparables avec les spectrogrammes obtenus pour les sujets masculins S7 et S8 pour qui la portion véritablement nasale de la voyelle peut être décrite à l’aide d’un ou deux formants seulement. De façon générale, la comparaison entre les voyelles synthétiques et les voyelles naturelles montre qu’une synthèse efficace s’appuie avant tout sur la sélection des indices acoustiques adéquats, qui ne correspondent pas toujours avec les éventuelles propriétés « invariantes » des voyelles naturelles. 195 CVC Brèves (Dyn I) CVC Longues (Dyn I) Stim (3,5) W ( W Stim (3,5) W ( CVC Brèves (Dyn II) ( W W CVC Longues (Dyn II) Stim (3,5) W ( /( Stim (2,5) W ( W Figure 61. Spectrogramme et signal du stimulus ayant obtenu le score de préférence le plus élevé dans les quatre conditions testées pour le continuum (/(. 196 S3 W ( W S4 W ( W S7 W ( W /W(W/ S8 W ( W Figure 62. Spectrogramme et signal pour les items [W(W] prononcés en parole naturelle par les quatre locuteurs masculins de l’étude aérodynamique. 197 CVC Brèves (Dyn I) CVC Longues (Dyn I) Stim (4,4) W $ W Stim (4,5) W $ CVC Brèves (Dyn II) $ W W CVC Longues (Dyn II) Stim (4,5) W D/ $ Stim (5,5) W $ W Figure 63. Spectrogramme et signal du stimulus ayant obtenu le score de préférence le plus élevé dans les quatre conditions testées pour le continuum D/$. 198 S3 W $ S4 W W $ W S8 S7 W $ /W$W/ W W $ W Figure 64. Spectrogramme et signal pour les items [W$W] prononcés en parole naturelle par les quatre locuteurs masculins de l’étude aérodynamique. 199 CVC Brèves (Dyn I) CVC Longues (Dyn I) Stim (5,4) N o Stim (5,4) W N o o/ o2 W Figure 65. Spectrogramme et signal du stimulus ayant obtenu le score de préférence le plus élevé dans les quatre conditions testées pour le continuum o/o2. 200 S3 N S4 o N o S7 N /No/ S8 o N o Figure 66. Spectrogramme et signal pour les items [No] prononcés en parole naturelle par les quatre locuteurs masculins de l’étude aérodynamique. 201 3. Discussion Les résultats des deux expériences d’identification ID1 et ID2 permettent de traiter les questions de validité perceptuelle des indices acoustiques sélectionnés pour la synthèse de la nasalité, ainsi que de primauté de certains indices par rapport aux autres, tant lorsque la voyelle synthétisée est insérée dans un contexte phonologique oral que nasal. En ce qui concerne la validité des indices acoustiques retenus, les expériences menées à grande échelle confirment les premières tendances enregistrées au cours de l’expérience pilote, à savoir que les deux dimensions acoustiques principales pour la détection de la nasalité sont la Gravité et la Compacité. La Gravité est d’autant plus importante dans les items de type NVC, en particulier pour les continuums (/( (Cf. p.179). La durée ne semble pas être l’un des facteurs qui déterminent véritablement la décision des auditeurs quant à la nasalité d’une voyelle, même si elle joue apparemment un rôle d’adjuvant pour les continuums o/o2, surtout dans le cas des items NVC (Cf. p.189). Enfin, telle que nous l’avons implémentée dans nos stimuli synthétiques (Dyn I vs. Dyn II), l’évolution temporelle en début de voyelle des paramètres liés à la nasalité n’a qu’un effet tout à fait marginal sur le schéma de réponses des auditeurs pour un continuum donné. Ainsi, en combinant les indices acoustiques liés à la durée, à la compacité et à la gravité d’une voyelle, nous sommes parvenue à synthétiser de façon très efficace des continuums orale-nasale pour différentes voyelles du français. L’intérêt majeur de la démarche poursuivie est que les mêmes indices ont été utilisés pour trois timbres vocaliques différents, avec succès. Nous avons donc mis à jour les propriétés acoustiques qui signalent la nasalité vocalique en français indépendamment de la voyelle concernée. En ce qui concerne plus précisément la dimension de Compacité, nous avons avant tout démontré qu’elle était nécessaire à une bonne synthèse des voyelles nasales du français. Nous estimons que les voyelles compactes donnent l’impression auditive escomptée, c’est-à-dire une impression auditive proche de celle causée par la nasalité phonétique à la suite du couplage des résonateurs buccal et nasal pendant la voyelle. Les expériences menées sur les auditeurs anglophones doivent permettre de confirmer expérimentalement notre jugement. En effet, en réponse à la tâche demandée, ces auditeurs devraient uniquement juger si une voyelle est (phonétiquement) nasalisée ou non, étant donné qu’il n’existe que des voyelles nasalisées en anglais. Si les résultats obtenus avec les auditeurs francophones se confirment, c’est-à-dire si les anglophones identifient constamment les voyelles les plus compactes comme les voyelles les plus nasalisées, nous pourrons conclure que nous avons trouvé une façon adéquate de 202 caractériser les effets acoustiques de l’abaissement du voile du palais en général, indépendamment du locuteur, de la voyelle et de la langue concernés. C’est ce que nous visions en apportant des modifications relativement générales au niveau d’énergie des formants, plutôt qu’en synthétisant la nasalité au moyen de paires pôle-zéro qui, par définition, surviennent à des fréquences spécifiques et dépendantes des facteurs précités. En ce qui concerne la dimension acoustique d’Intensité, laissée de côté à la suite de l’expérience pilote, il est possible en théorie qu’elle eût mieux convenu à la synthèse des continuums o/o. En effet, nos observations des propriétés acoustiques de /o/ en production de la parole indiquent que pour cette voyelle en particulier la chute de l’énergie acoustique se fait ressentir à toutes les fréquences (Cf. pp.110 et suivantes). D’ailleurs, dans les items NVC, le taux d’identification de voyelles nasales /o/ atteint tout juste 90% si la durée ne varie pas d’une extrémité à l’autre du continuum (Cf. p.183). Cependant, nous ne pensons pas que l’utilisation de la dimension d’Intensité aurait changé profondément le spectre des /o/ synthétiques par rapport aux stimuli les plus compacts. En effet, la méthode que nous avons utilisée pour la synthèse (avec les résonateurs formantiques connectés en cascade, Cf. Klatt, 1980) a pour conséquence que lorsque une voyelle est très postérieure (avec un F2 très bas), les formants supérieurs à F2 sont très peu intenses. C’est ce que l’on remarque si l’on compare les spectrogrammes des voyelles synthétiques /(/ et /o/ qui ont obtenu les scores de préférences les plus élevés (Figure 61, p.196 vs. Figure 65, p. 200). Nous concluons donc que dans le cas de cette voyelle, c’est surtout une variation de durée qui aurait permis d’augmenter le taux d’identification des nasales. Par ailleurs, la synthèse formantique « en cascade » est une méthode qui a précisément pour objet de tenir compte des relations existant entre la fréquence d’un formant et l’amplitude des formants supérieurs (Klatt, 1980, en référence à Fant, 1960). Il n’est donc peut-être pas fortuit que l’interaction des indices acoustiques liés à l’augmentation de la Gravité d’une voyelle postérieure d’une part, et l’augmentation de sa Compacité d’autre part, aboutisse en synthèse de la parole à une perte d’énergie généralisée au-dessus de 800 Hz. Il est possible que la chute d’intensité constatée lors de la production des voyelles nasales postérieures du français ne soit également qu’une manifestation différente du même phénomène lié à l’énergie qui mène dans le cas des antérieures à une augmentation de la Compacité. Quoi qu’il en soit, la dimension de Compacité est la 203 façon la plus adéquate de synthétiser la nasalité phonétique pour nos trois continuums D/$, (/(, et o/o.. En ce qui concerne la dimension de Gravité, les expériences d’identification ont confirmé notre analyse des données articulatoires et acoustiques présentées dans la première partie de ce travail. Nous avons en effet considéré que l’effet acoustique majeur des différentes articulations additionnelles à l’abaissement du voile pendant les voyelles nasales du français (arrondissement des lèvres, recul de la langue dans la bouche) consistait en une baisse généralisée du F2 de la voyelle par rapport à l’orale correspondante. Ce n’était pas à proprement parler le cas pour la paire o/o, mais nous avons supposé qu’un F2 peu intense, même plus élevé en fréquence, n’avait que peu de poids auditif, et qu’en conséquence les nasales /o/ devaient être perçues comme des voyelles plus compactes que leurs homologues orales. Les résultats obtenus lors des expériences d’identification confirment que pour qu’une voyelle soit identifiée comme une nasale (/o/ y compris), il faut qu’elle soit plus grave, c’est-à-dire que son énergie soit plus ramassée en basses fréquences, que l’orale correspondante. La question de la primauté perceptuelle des indices acoustiques sélectionnés pour la synthèse de la nasalité ne peut être considérée indépendamment du contexte phonologique dans lequel la voyelle concernée est insérée. En effet, pour les trois continuums, d’importantes variations dans le schéma de réponses des auditeurs sont constatées en fonction du contexte : NVC ou CVC. En contexte phonologique nasal, la Compacité seule (non accompagnée d’un certain taux de Gravité) donne lieu à un plus faible taux d’identification nasale qu’en contexte CVC. La nasalité phonétique d’une voyelle est donc moins bien perçue en contexte NVC. Par ailleurs, les effets acoustiques des articulations additionnelles (synthétisés sous la forme de la dimension de Gravité) sont particulièrement efficaces pour ces items. En effet, une voyelle très grave est plus vite perçue comme une nasale en contexte NVC (Cf. p.184). D’après nos données, les voyelles nasales sont donc aussi bien perçues en contexte phonologique nasal qu’oral (à part le cas des NVC o/o2, voir ci-dessus), et ce parce que les auditeurs prennent alors plus largement en compte d’autres facteurs que la compacité de la voyelle, tels que sa gravité ou encore sa durée. Notre interprétation de ces faits est la suivante. On assiste en français, comme dans d’autres langues, à un phénomène de compensation perceptuelle des effets acoustiques liés à l’abaissement du voile pendant une voyelle lorsque celle-ci est placée en contexte 204 phonologique nasal.36 L’auditeur attribue une partie de la nasalité de la voyelle aux consonnes environnantes. Que ce phénomène relève de processus auditifs automatiques et généraux, comme le pensent les tenants de la théorie auditive (Kingston et Diehl, 1995), ou qu’il s’agisse d’un procédé d’ordre décisionnel lié à l’expérience linguistique (Beddor et Krakow, 1999), dont nous avons proposé qu’il pouvait également s’insérer dans une vision élargie de la connaissance phonétique (p.13), nous pensons que les locuteurs ont connaissance du phénomène, et qu’ils ont les moyens d’adapter leur comportement phonétique en conséquence, dans le cadre d’une phonétique contrôlée. Plus précisément, le locuteur et l’auditeur semblent coopérer étroitement pour « remédier » à la situation créée par la compensation perceptuelle, puisqu’un plus grand nombre d’indices acoustiques de la nasalité sont mis à la disposition de l’auditeur par le locuteur lorsqu’il produit une nasale du français, et que ces indices sont effectivement largement utilisés en contexte NVC37. Kingston et Diehl (1994) se concentrent sur les cas où le locuteur fait covarier diverses articulations parce que leurs propriétés acoustiques rehaussent mutuellement (et automatiquement) leurs effets dans la perception des auditeurs. La question de savoir s’il y a une motivation de cet ordre à la covariation des dimensions acoustiques de Gravité et de Compacité en français est traitée dans le chapitre suivant. Si les deux dimensions sont intégrées dans la perception des auditeurs, le phénomène est alors automatique, et les auditeurs, passifs, ne peuvent faire autrement que d’utiliser les deux types d’indices lorsqu’ils jugent de la nasalité d’une voyelle, puisque la valeur d’un stimulus le long d’une dimension influence automatiquement sa valeur le long de l’autre dimension. Quoi qu’il en soit, le contraste de nasalité en français s’appuie largement sur des indices acoustiques autres que ceux liés à l’abaissement du voile du palais. Ces indices renforcent le contraste de nasalité dans la mesure où les nasales sont plus différentes des orales correspondantes, tout en restant bien distinctes entre elles. Ces indices complémentaires sont particulièrement nécessaires (et utilisés) lorsque la nasalisation phonétique de la voyelle peut être attribuée au contexte. Il y a là l’indice d’une stratégie générale de contrôle par les locuteurs de leurs réalisations phonétiques, c’est-à-dire d’une adaptation de leur comportement phonétique dans le but d’optimiser la communication. Dans cette hypothèse, nous avons proposé ci-dessus que la nasalité strictement phonétique pouvait être utilisée par la langue à d’autres fins (p.139). Nous n’avons pas les moyens de vérifier à partir de nos données perceptuelles si la nasalité contextuelle d’une voyelle aide à la 36 Pour un exposé de la problèmatique de la compensation nasale, et de son traitement dans la littérature, voir Introduction, p.13. 37 La division n’est que fonctionnelle entre les rôles d’« auditeur » et de « locuteur ». Ces rôles sont alternativement joués par un seul et même individu. 205 perception de la consonne nasale précédente. Par contre, nous pouvons examiner les données au regard de l’hypothèse selon laquelle un certain abaissement du voile du palais fait partie du plan du locuteur lorsqu’il produit une voyelle orale /D/ parce que l’augmentation de la bande passante en F1 ferait percevoir cette voyelle comme plus ouverte encore (p.89). Si cette hypothèse est exacte, on peut s’attendre à ce que la voyelle orale préférée des auditeurs francophones soit par exemple de degré 2 sur l’échelle de Compacité. Comme le montre la Figure 59, cette prédiction n’est pas confirmée par les données. Par contre, les continuums D/$ sont ceux pour lesquels la dimension de Gravité contribue massivement à la décision de nasalité, et ce déjà dans les items CVC. La Compacité seule n’est pas vraiment suffisante pour nasaliser une voyelle /D/. Les conditions sont donc réunies pour que les indices acoustiques liés au seul abaissement du voile du palais soient en partie utilisés par la langue à d’autres fins que celle de signaler le seul contraste phonologique de nasalité. Mais nos données ne permettent pas de conclure que tel est effectivement le cas en français. 206 Chapitre 2 Discrimination 1. Matériel et méthode Ce chapitre est consacré aux expériences de discrimination (DISC) effectuées auprès des auditeurs francophones, sur les continuums D/$, (/(, et o/o, puis sur les continuums o/o2. Pour chaque continuum, les auditeurs sont les mêmes que ceux qui ont participé aux expériences d’identification ID1 et ID2 présentées dans le chapitre précédent. Dans les faits, toutes les expériences de discrimination ont précédé celles d’identification. On évite ainsi de proposer aux auditeurs des catégories linguistiques auxquelles relier les stimuli avant qu’ils en aient terminé avec les tâches de discrimination proprement dites. Les fondements du paradigme expérimental DISC ont été exposés dans l’introduction à la seconde partie (Cf. p.148). Le principe général est de mener de multiples tâches de discrimination de type « oui-non » (Macmillan et Creelman, 1991) sur diverses paires de stimuli ; puis d’utiliser les valeurs de d’ obtenues dans une procédure de proportionnalisation multidimensionnelle afin de construire l’espace perceptuel des auditeurs correspondant à l’espace acoustique des stimuli ; enfin d’évaluer dans l’espace perceptuel dérivé le degré d’interaction entre les deux dimensions acoustiques initiales. Pour chaque continuum, nous avons testé les mêmes espaces de stimuli que dans l’expérience ID2, soit quatre conditions pour les continuums D/$, (/( et o/o (CVC Brèves Dyn I, CVC Longues Dyn I, CVC Brèves Dyn II, CVC Longues Dyn II) et deux conditions pour les continuums o/o2 (CVC Brèves Dyn I, CVC Longues Dyn I). Nous n’avons donc pas de données de discrimination concernant les items NVC pour les auditeurs francophones (au contraire des anglophones, Cf. Chapitre 3, p.236), et ce en raison du temps nécessaire à la conduite de ces expériences, soit environ deux sessions expérimentales de deux heures par condition testée. La procédure utilisée pour la présentation des stimuli est relativement comparable à celle que nous avons exposée ci-dessus pour le paradigme ID1 (p.157). L’auditeur est assis face à un écran d’ordinateur, muni d’un casque audio dans lequel il entend les stimuli (un stimulus à la fois). Au cours de la phase d’entraînement, on lui présente à dix reprises et en alternance les deux stimuli concernés par la tâche de discrimination à venir. Après chaque stimulus, un feed-back apparaît à l’écran, sous la forme d’une flèche noire pointant vers la réponse correcte pour le stimulus en question, soit « 1 » ou « 2 » (Cf. Figure 67). Les étiquettes « 1 » et « 2 » sont attribuées aléatoirement par l’ordinateur en début de tâche, puis restent fixées tout au long de la tâche. 208 Lors de la phase de test, l’auditeur doit déterminer après chaque son entendu s’il s’agissait du stimulus « 1 » ou bien du stimulus « 2 » en cliquant avec la souris sur la zone de l’écran correspondante. La réponse de l’auditeur est suivie dans tous les cas d’un feed-back indiquant la réponse correcte. Au total, pendant la phase de test, chaque stimulus est présenté 40 fois, et les 80 présentations ont lieu dans un ordre aléatoire. Figure 67. Copie de l’écran proposé aux auditeurs de l’expérience principale lors de la phase d’entraînement à la tâche de discrimination. Après chaque stimulus, une flèche désigne la réponse correcte à l’intention de l’auditeur. La Figure 68 permet d’illustrer les principales étapes du paradigme expérimental DISC, depuis la prise des données jusqu’à leur traitement par la technique de proportionnalisation multidimensionnelle (ou « MDS »). Dans la partie supérieure gauche de la figure, les lignes (horizontales, verticales et diagonales) gris foncé indiquent les paires de stimuli qui font l’objet d’une tâche de discrimination par les auditeurs. Le nombre de tâches à effectuer atteint un total de 20 par condition, puisque nous menons l’expérience sur l’ensemble des paires de stimuli adjacents dans un sous-ensemble de l’espace principal composé de 3*3 stimuli. Le choix du sous-ensemble dans chaque condition (ainsi que les critères ayant mené à ce choix) sont 209 précisés ci-dessous (Cf. p.215). Les neuf stimuli ainsi sélectionnés au sein de chaque espace seront désignés dans la suite de ce chapitre par les nombres 1 à 9, comme illustré sur la Compacité figure. C D A B B Gravité + C 7  + G  B Figure 68. Illustration du paradigme expérimental DISC. En haut à gauche : toutes les paires de stimuli adjacents au sein d’un sous-ensemble de l’espace principal composé de 3*3 stimuli font l’objet d’une tâche de discrimination. En haut à droite : les valeurs de d’ obtenues quadrant par quadrant sont utilisées dans une procédure de proportionnalisation multidimensionnelle (MDS). En bas, la procédure MDS propose une configuration de l’espace perceptuel du quadrant dans laquelle nous mesurons l’interaction entre les deux dimensions acoustiques initiales au moyen de l’angle 7. 210 En mesurant les performances des auditeurs lors de la discrimination des 20 paires de stimuli, nous avons obtenu des valeurs de d’ pour tous les stimuli pris 2 à 2 au sein des quatre quadrants du sous-ensemble A, B, C, et D. Cependant, nous n’avons pas de données concernant les paires de stimuli qui sont éloignés de plus d’un pas le long de l’une ou des deux dimensions acoustiques initiales. Nous n’avons par exemple aucune estimation de la distance perceptuelle entre les stimuli {1,9} ou {7,2} ou {4,3}, etc. C’est pourquoi lors de la construction des configurations géométriques (voir ci-dessous), nous avons considéré tour à tour les données concernant exclusivement les stimuli d’un même quadrant : A (stimuli 1, 2, 4, 5), B (stimuli 2, 3, 5, 6), C (stimuli 4, 5, 7, 8) et D (stimuli 5, 6, 8, 9). La partie supérieure droite de la Figure 68 montre les valeurs de d’ qui sont pertinentes pour le quadrant B. Notons que certaines valeurs de d’ sont utilisées plusieurs fois dans le traitement des données. Par exemple, d’ {2,5} est pris en compte une première fois dans la construction de l’espace perceptuel correspondant au quadrant A et une seconde fois pour le quadrant B. La technique de proportionnalisation multidimensionnelle (MDS) est destinée à représenter géométriquement la structure d’un ensemble d’objets à partir de données estimant les distances entre ces objets considérés par paires (Young et Hamer, 1979). Nous avons utilisé la technique de MDS afin de reconstruire, quadrant par quadrant, l’espace perceptuel correspondant chez nos auditeurs à l’espace acoustique inital des stimuli. Les données de dissimilarité (de distance) considérées ici sont les valeurs de d’ obtenues au cours des diverses tâches de discrimination des stimuli pris deux à deux. Ainsi, plus la valeur de d’ est élevée, plus la distance perceptuelle entre les deux stimuli concernés est importante, et plus grande sera la distance qui sépare les deux points représentant ces stimuli dans la configuration géométrique correspondante. Le modèle de MDS choisi est le modèle INDSCAL (pour « Individual Differences Scaling »). Ce modèle consiste en une généralisation du modèle euclidien, qui permet de mieux rendre compte des différences systématiques existant entre les différentes matrices de dissimilarité (correspondant chacune aux données relatives à un auditeur en particulier), (Young and Harris, 1990). Le modèle INDSCAL représente l’information partagée par tous les individus quant à la structure des stimuli dans un espace X, ici à 2 dimensions. Les particularités individuelles sont elles représentées dans un espace W, qui donne l’importance relative accordée par chaque individu aux deux dimensions de l’espace X. Les dimensions de l’espace X fournies à la sortie de la procédure INDSCAL sont normalisées séparément de façon à avoir une longueur moyenne similaire (égale au nombre de stimuli). Afin d’obtenir une représentation de l’espace perceptuel qui soit proportionnelle aux données relatives à tous les auditeurs, nous avons donc multiplié la longueur normalisée de chaque dimension de l’espace 211 X par le poids moyen accordé par les auditeurs à cette dimension. Les distances séparant les stimuli dans l’espace ainsi obtenu représentent alors (la meilleure approximation de) la distance perceptuelle moyenne entre ces deux stimuli, tous auditeurs confondus. La partie inférieure de la Figure 68 illustre la façon dont nous avons mesuré le degré d’interaction entre les deux dimensions acoustiques initiales, en nous inspirant directement de la procédure utilisée par Kingston et Macmillan (1995) et Macmillan et al. (1999). Tout d’abord, nous avons tracé pour chaque quadrant les deux droites de « contour perceptuel » : « C » et « G ». Il s’agit des droites reliant les centroïdes des stimuli ne variant que le long d’une des deux dimensions acoustiques. Ainsi, la droite bleue « C », qui relie les centroïdes entre les stimuli {2,3} d’une part, et {5,6} d’autre part, donne le contour du changement perceptuel moyen survenant lorsque la valeur d’un stimulus le long de la dimension de Compacité évolue (de – vers +) alors que sa valeur pour la Gravité reste fixe. Sur le même modèle, la droite verte « G » donne le contour du changement perceptuel moyen induit par une variation de la Gravité uniquement. Dans l’exemple donné sur la Figure 68, augmenter la compacité d’une voyelle implique qu’elle est également perçue comme plus grave, toutes choses étant égales par ailleurs. De même, un stimulus plus grave aura automatiquement une valeur perceptuelle plus élevée le long de la dimension de compacité. Le degré d’interaction entre les dimensions peut être mesuré par l’angle formé par les contours perceptuels C et G. Si l’angle 7 équivaut à 90°, il n’y a aucune interaction entre les deux dimensions. Si l’angle 7 est de 0° ou 180°, l’interaction est totale, négative (0°) ou positive (180°). Comme le notent Macmillan et al. (1999) à propos de l’angle 7 : This rather “processed” statistic is a natural one for our geometric representations. It directly reflects the most important qualitative aspect of the data, the discrepancy between accuracy in classifying positively and negatively correlated pairs (p.2931). Ainsi, pour l’exemple donné dans la Figure 68, l’angle 7 (= 108°) indique une légère interaction positive entre les deux dimensions acoustiques initiales. Celle-ci rend compte du fait que les stimuli 2 et 6, pour lesquels les dimensions de Gravité et de Compacité covarient positivement (le stimulus 6 est à la fois plus grave et plus compact que le stimulus 2), sont séparés par une plus grande distance perceptuelle que les stimuli 3 et 5 (dits « négativement corrélés »), alors que la distance acoustique est la même dans les deux cas. 212 2. Résultats Dans cette section, nous présentons les résultats obtenus à l’aide de 14 figures, une par condition testée au cours de l’expérience DISC, soit quatre figures pour les continuums D/$, quatre pour les continuums (/(, quatre pour les premiers continuums o/o, et deux pour les continuums o/o2 (voir ci-dessus). La Figure 69 donne un aperçu des différentes conditions testées en relation avec les figures correspondantes. Le cadre rouge positionné sur chaque espace permet de visualiser le sous-ensemble des 3*3 stimuli sur lesquels les 20 tâches de discrimination ont été effectuées. Nous avons utilisé les résultats de l’expérience pilote afin de positionner adéquatement les sous-ensembles utilisés au cours de l’expérience principale. L’objectif était de privilégier les stimuli proches de la frontière de catégories, soit d’inclure un maximum de stimuli pour lesquels le taux d’identification était proche de 50% lors de l’expérience pilote. Lorsque nous ne disposions pas d’information en provenance de l’expérience pilote (pour les continuums D/$ Dyn II, et pour tous les continuums o/o), le sousensemble a été positionné au centre de l’espace initial de 5*5 stimuli. On notera que les positions choisies préalablement pour les continuums D/$ et (/( (CVC Brèves et Longues Dyn I) reflètent assez bien les divergences observées ensuite dans la répartition des réponses lors des tâches d’identification menées au cours de l’expérience principale (Cf. Figure 51, p.177 et Figure 53, p.180). Dans les 14 figures présentant les résultats de l’expérience DISC, nous affichons pour chacun des quadrants A, B, C et D la configuration générale obtenue par pondération des dimensions normalisées données par INDSCAL (voir ci-dessus). Les droites colorées indiquent les contours du changement perceptuel lié à l’évolution d’un stimulus depuis une valeur plus basse (« − ») jusqu’à une valeur plus élevée (« + ») le long de la dimension de Compacité (droite bleue) et de Gravité (droite verte). Les stimuli sont désignés par un chiffre (de 1 à 9) : l’aide-mémoire situé en haut à droite de la figure permet de visualiser à quel stimulus un chiffre correspond et de quels stimuli sont constitués les quatre quadrants. A droite de l’espace perceptuel reconstitué par INDSCAL pour chaque quadrant, on trouve un ensemble de données quantifiées, soit, de haut en bas : la valeur de 7 (en degrés), les valeurs fournies par INDSCAL pour les index de correspondance de stress (formule de Kruskal) et de RSQ, qui permettent d’évaluer dans quelle proportion le modèle géométrique rend compte des données sur lesquelles il est fondé, et enfin les valeurs moyennes de d’ (tous sujets confondus) lors des 213 diverses tâches de discrimination concernées par le quadrant38. De façon générale, on constate que les valeurs enregistrées pour les index de correspondance, qui sont relativement élevées pour RSQ (0.79 en moyenne) et relativement basses en ce qui concerne le stress (0.22 en moyenne), indiquent que les distances dans les configurations géométriques obtenues sont en grande partie proportionnelles à la variance enregistrée dans les données. La Table 24 rassemble les diverses valeurs prises par l’angle 7 en fonction du quadrant, de la condition et du continuum testés. Nous avons calculé pour un même continuum la moyenne des valeurs de 7, par quadrant ainsi que par condition. Notons que les valeurs intervenant dans ces moyennes sont en partie corrélées puisque les paires de stimuli considérées pour un quadrant donné peuvent également intervenir pour un autre. Table 24. Valeurs de 7 (en degrés) en fonction du quadrant, de la condition et du continuum testés. Moyennes par quadrant et par condition pour un continuum donné. En gras : moyenne générale pour tout le continuum. Quadrant D/$ A B C D Moyenne CVC Brèves Dyn I 93 178 95 147 128.2 CVC Longues Dyn I 139 131 109 172 137.7 CVC Brèves Dyn II 95 137 128 73 108.2 CVC Longues Dyn II 136 126 76 28 91.5 115.7 143 102 105 116.4 CVC Brèves Dyn I 132 163 156 139 147.5 CVC Longues Dyn I 114 96 113 140 115.7 CVC Brèves Dyn II 163 127 166 111 141.7 CVC Longues Dyn II 122 136 154 117 132.2 132.7 130.5 147.2 126.7 134.3 CVC Brèves Dyn I 116 171 51 25 90.7 CVC Longues Dyn I 179 99 155 83 129 CVC Brèves Dyn II 178 76 114 35 100.7 CVC Longues Dyn II 160 99 90 30 94.7 158.2 111.2 102.5 43.2 103.8 CVC Brèves Dyn I 133 125 157 74 122.2 CVC Longues Dyn I 176 108 180 179 160.7 154.5 116.5 168.5 126.5 141.5 Moyenne (/( Moyenne o/o Moyenne o/o2 Moyenne 38 Notons que les données utilisées par INDSCAL sont les valeurs de d’ obtenues pour chaque sujet séparément, et non les moyennes affichées ici. 214 CVC Brèves Dyn I CVC Longues Dyn I CVC Brèves Dyn II CVC Longues Dyn II Figure 70 Figure 71 Figure 72 Figure 73 CVC Brèves Dyn I CVC Longues Dyn I CVC Brèves Dyn II CVC Longues Dyn II Figure 74 Figure 75 Figure 76 Figure 77 CVC Brèves Dyn I CVC Longues Dyn I CVC Brèves Dyn II CVC Longues Dyn II Figure 78 Figure 79 Figure 80 Figure 81 D/$ (/( o/o CVC Brèves Dyn I CVC Longues Dyn I Figure 82 Figure 83 o/o2 Figure 69. Aperçu des différentes conditions testées pour chaque continuum au cours de la procédure DISC. Pour chaque espace, le cadre rouge représente le sous-ensemble des 3*3 stimuli sur lesquels l’expérience a été réalisée. 215 D/$ CVC Brèves Dyn I + +  + +  +   C D A B  + +  +   Figure 70. Résultats de l’expérience DISC. Configurations obtenues par MDS pour les quatre quadrants A, B, C et D dans le cas des continuums D/$ CVC Brèves Dyn I. Contours perceptuels pour les dimensions de Gravité (droites vertes) et de Compacité (droites bleues). Données chiffrées : valeurs de l’angle 7 situé à l’intersection des deux contours, valeurs des index de correspondance stress et RSQ, et valeurs moyennes de d’ lors des tâches de discrimination des stimuli par paires. 216 D/$ CVC Longues Dyn I +    + + + C D A B  + +    +  + Figure 71. Résultats de l’expérience DISC. Configurations obtenues par MDS pour les quatre quadrants A, B, C, D dans le cas des continuums D/$ CVC Longues Dyn I. Contours perceptuels pour les dimensions de Gravité (droites vertes) et de Compacité (droites bleues). Données chiffrées : valeurs de l’angle 7 situé à l’intersection des deux contours, valeurs des index de correspondance stress et RSQ, et valeurs moyennes de d’ lors des tâches de discrimination des stimuli par paires. 217 D/$ CVC Brèves Dyn II   +  + +  + D A B + + +   C +   Figure 72. Résultats de l’expérience DISC. Configurations obtenues par MDS pour les quatre quadrants A, B, C et D dans le cas des continuums D/$ CVC Brèves Dyn II. Contours perceptuels pour les dimensions de Gravité (droites vertes) et de Compacité (droites bleues). Données chiffrées : valeurs de l’angle 7 situé à l’intersection des deux contours, valeurs des index de correspondance stress et RSQ, et valeurs moyennes de d’ lors des tâches de discrimination des stimuli par paires. 218 D/$ CVC Longues Dyn II + +  +   C D A B +  + +  +    + Figure 73. Résultats de l’expérience DISC. Configurations obtenues par MDS pour les quatre quadrants A, B, C, D dans le cas des continuums D/$ CVC Longues Dyn II. Contours perceptuels pour les dimensions de Gravité (droites vertes) et de Compacité (droites bleues). Données chiffrées : valeurs de l’angle 7 situé à l’intersection des deux contours, valeurs des index de correspondance stress et RSQ, et valeurs moyennes de d’ lors des tâches de discrimination des stimuli par paires. 219 (/( CVC Brèves Dyn I +   +    + D A B + +  + C   + + Figure 74. Résultats de l’expérience DISC. Configurations obtenues par MDS pour les quatre quadrants A, B, C et D dans le cas des continuums (/( CVC Brèves Dyn I. Contours perceptuels pour les dimensions de Gravité (droites vertes) et de Compacité (droites bleues). Données chiffrées : valeurs de l’angle 7 situé à l’intersection des deux contours, valeurs des index de correspondance stress et RSQ, et valeurs moyennes de d’ lors des tâches de discrimination des stimuli par paires. 220 (/( CVC Longues Dyn I +   + +  C D A B +  +  + +  +   Figure 75. Résultats de l’expérience DISC. Configurations obtenues par MDS pour les quatre quadrants A, B, C, D dans le cas des continuums (/( CVC Longues Dyn I. Contours perceptuels pour les dimensions de Gravité (droites vertes) et de Compacité (droites bleues). Données chiffrées : valeurs de l’angle 7 situé à l’intersection des deux contours, valeurs des index de correspondance stress et RSQ, et valeurs moyennes de d’ lors des tâches de discrimination des stimuli par paires. 221 (/( CVC Brèves Dyn II + +   +  C D A B +    + +   + + Figure 76. Résultats de l’expérience DISC. Configurations obtenues par MDS pour les quatre quadrants A, B, C et D dans le cas des continuums (/( CVC Brèves Dyn II. Contours perceptuels pour les dimensions de Gravité (droites vertes) et de Compacité (droites bleues). Données chiffrées : valeurs de l’angle 7 situé à l’intersection des deux contours, valeurs des index de correspondance stress et RSQ, et valeurs moyennes de d’ lors des tâches de discrimination des stimuli par paires. 222 (/( CVC Longues Dyn II  + +  C D A B  + +  + +   +   + Figure 77. Résultats de l’expérience DISC. Configurations obtenues par MDS pour les quatre quadrants A, B, C, D dans le cas des continuums (/( CVC Longues Dyn II. Contours perceptuels pour les dimensions de Gravité (droites vertes) et de Compacité (droites bleues). Données chiffrées : valeurs de l’angle 7 situé à l’intersection des deux contours, valeurs des index de correspondance stress et RSQ, et valeurs moyennes de d’ lors des tâches de discrimination des stimuli par paires. 223 o/o CVC Brèves Dyn I + +   + D A B +  + +  C   +   + Figure 78. Résultats de l’expérience DISC. Configurations obtenues par MDS pour les quatre quadrants A, B, C et D dans le cas des continuums o/o CVC Brèves Dyn I. Contours perceptuels pour les dimensions de Gravité (droites vertes) et de Compacité (droites bleues). Données chiffrées : valeurs de l’angle 7 situé à l’intersection des deux contours, valeurs des index de correspondance stress et RSQ, et valeurs moyennes de d’ lors des tâches de discrimination des stimuli par paires. 224 o/o CVC Longues Dyn I + + +    + C D A B  + + +    +  Figure 79. Résultats de l’expérience DISC. Configurations obtenues par MDS pour les quatre quadrants A, B, C, D dans le cas des continuums o/o CVC Longues Dyn I. Contours perceptuels pour les dimensions de Gravité (droites vertes) et de Compacité (droites bleues). Données chiffrées : valeurs de l’angle 7 situé à l’intersection des deux contours, valeurs des index de correspondance stress et RSQ, et valeurs moyennes de d’ lors des tâches de discrimination des stimuli par paires. 225 o/o CVC Brèves Dyn II +     + + C D A B +  + +   +  + Figure 80. Résultats de l’expérience DISC. Configurations obtenues par MDS pour les quatre quadrants A, B, C et D dans le cas des continuums o/o CVC Brèves Dyn II. Contours perceptuels pour les dimensions de Gravité (droites vertes) et de Compacité (droites bleues). Données chiffrées : valeurs de l’angle 7 situé à l’intersection des deux contours, valeurs des index de correspondance stress et RSQ, et valeurs moyennes de d’ lors des tâches de discrimination des stimuli par paires. 226 o/o CVC Longues Dyn II +   + +  C D A B +  + +    + +  Figure 81. Résultats de l’expérience DISC. Configurations obtenues par MDS pour les quatre quadrants A, B, C, D dans le cas des continuums o/o CVC Longues Dyn II. Contours perceptuels pour les dimensions de Gravité (droites vertes) et de Compacité (droites bleues). Données chiffrées : valeurs de l’angle 7 situé à l’intersection des deux contours, valeurs des index de correspondance stress et RSQ, et valeurs moyennes de d’ lors des tâches de discrimination des stimuli par paires 227 o/o2 CVC Brèves Dyn I + + +    + C D A B  +   + + +   Figure 82. Résultats de l’expérience DISC. Configurations obtenues par MDS pour les quatre quadrants A, B, C, D dans le cas des continuums o/o2 CVC Brèves Dyn I. Contours perceptuels pour les dimensions de Gravité (droites vertes) et de Compacité (droites bleues). Données chiffrées : valeurs de l’angle 7 situé à l’intersection des deux contours, valeurs des index de correspondance stress et RSQ, et valeurs moyennes de d’ lors des tâches de discrimination des stimuli par paires. 228 o/o2 CVC Longues Dyn I + + +  +  C D A B   +  + +  +   Figure 83.Résultats de l’expérience DISC. Configurations obtenues par MDS pour les quatre quadrants A, B, C, D dans le cas des continuums o/o2 CVC Longues Dyn I. Contours perceptuels pour les dimensions de Gravité (droites vertes) et de Compacité (droites bleues). Données chiffrées : valeurs de l’angle 7 situé à l’intersection des deux contours, valeurs des index de correspondance stress et RSQ, et valeurs moyennes de d’ lors des tâches de discrimination des stimuli par paires. 229 a. Continuums D/$ Les Figure 70 à Figure 73 donnent les résultats concernant les continuums D/$, respectivement pour les items CVC Brèves Dyn I (Figure 70), CVC Longues Dyn I (Figure 71), CVC Brèves Dyn II (Figure 72), et CVC Longues Dyn II (Figure 73). Les valeurs prises par l’angle 7 indiquent une tendance à l’interaction positive des deux dimensions : dans 9 cas sur 16, 7 est supérieur à 125° et la moyenne générale est de 116.4° (Table 24, p.214). Pour les quadrants A et C la valeur prise par 7 est parfois proche de 90°, essentiellement pour les voyelles brèves, indiquant qu’il n’y a pas d’interaction entre les dimensions de Compacité et de Gravité dans certains cas. Enfin, une mesure fait exception à la tendance générale ; il s’agit de celle obtenue dans le quadrant D pour les items CVC Longues Dyn II, soit : 28°. Si l’on considère les données présentées pour le quadrant B dans la Figure 70, on voit la configuration prise par les stimuli lorsque la valeur de 7 est proche de 180° : les stimuli ne se distinguent plus que le long d’une dimension perceptuelle, celle de Gravité + Compacité, dans laquelle sont positivement intégrées les deux dimensions acoustiques initiales. Le stimulus 2, qui est le moins grave et le moins compact, soit [-G;-C], est situé à une extrémité de la dimension, et le stimulus 6 [+G;+C] est situé à l’autre extrémité de la dimension intégrée. Les stimuli négativement corrélés 3 [+G;-C] et 5 [-G;+C] ont une position intermédiaire (équivalente) le long de la dimension perceptuelle intégrée. La configuration dérivée par INDSCAL dans ce cas rend compte du fait que les valeurs de d’ obtenues auprès de nos auditeurs sont nettement supérieures lorsque la tâche de discrimination inclut les stimuli positivement corrélés {2,6} (d’=3.92 en moyenne) par rapport aux stimuli négativement corrélés {3,5} (d’=0.42 en moyenne). Lorsque la valeur de 7 se situe entre 90° et 180°, les deux dimensions interagissent positivement sans être complètement intégrées. b. Continuums (/( Les Figure 74 à Figure 77 donnent les résultats obtenus dans les quatre conditions testées pour les continuums (/(. La tendance à l’intégration positive est encore plus marquée pour ce continuum que pour le précédent. La moyenne générale donnée dans la Table 24 pour 7 est de 134.3°. Toutes les valeurs de 7 sans exception sont supérieures à 90° pour les différents continuums (/(. Les données affichées par exemple dans la Figure 76 (p.222) permettent d’illustrer les configurations typiquement obtenues lorsque 7 est largement supérieur à 90°. Dans les quatre quadrants de la Figure 76, les stimuli positivement corrélés sont séparés par une distance perceptuelle plus importante que les stimuli négativement 230 corrélés correspondants : {1,5}, {2,6}, {4,8}, {5,9} sont plus facilement discriminés par les auditeurs que leurs homologues respectifs {2,4}, {3,5}, {5,7}, {6,8}. Plus la valeur de 7 s’éloigne de 90° et s’approche de 180°, plus les centroïdes des stimuli les plus compacts s’approchent des centroïdes des stimuli les plus graves, et de même plus les centroïdes des stimuli les moins compacts s’approchent des centroïdes des stimuli les moins graves : sur la figure, les extrémités des contours perceptuels C et G étiquetées « + » se rapprochent entre elles, et les extrémités « − » font de même. En effet, une interaction perceptuelle positive des deux dimensions acoustiques initiales implique qu’un stimulus qui a une valeur plus élevée le long d’une dimension sera automatiquement perçu comme ayant une valeur plus élevée le long de l’autre dimension (alors que dans les faits, cette dernière est restée inchangée). En somme, dans les cas où l’intégration positive est nettement marquée, le fait d’augmenter soit la compacité soit la gravité d’une voyelle est équivalent d’un point de vue perceptuel. c. Continuums o/o et o/o2 Les configurations obtenues à partir des données relatives aux continuums o/o et o/o2 sont données respectivement dans les Figure 78 à Figure 81, et dans les Figure 82 et Figure 83. Même si la moyenne générale obtenue pour les valeurs de 7 dans les premiers continuums o/o est la marque d’une légère interaction positive (7 = 103.8°, Cf. Table 24, p.214), les valeurs obtenues pour certains quadrants sont parfois nettement inférieures à la barre des 90°. On peut d’ailleurs affirmer que dans les quadrants D les dimensions de Gravité et de Compacité font preuve d’une interaction négative (7 = 43.2°). Ces résultats doivent être mis en relation avec les résultats des expériences d’identification menées sur les mêmes auditeurs et les mêmes stimuli. Les fonctions d’identification concernant les premiers continuums o/o sont présentées dans les Figure 55, p.186 (CVC Brèves et Longues, Dyn I) et Figure 56, p.187 (CVC Brèves et Longues, Dyn II). Dans les quatre graphiques concernés, on remarque que les stimuli les plus graves (situés sur la courbe orange) sont parmi les moins bien identifiés comme stimuli nasals lorsqu’ils sont également très compacts. Examinons par exemple le cas des stimuli CVC Brèves Dyn I, dont les fonctions d’identification sont données dans le graphique situé en haut à gauche de la Figure 55 (p.186). Les stimuli de Gravité 3 et 4, situés sur les courbes rouge et orange foncé donnent lieu à un plus grand nombre de réponses « nasale » que les stimuli de Gravité 2 (courbe grenat) uniquement lorsque leur Compacité est de niveau 2 ou 3. Par contre, lorsqu’ils sont également très compacts (4 ou 5), ces stimuli sont aussi souvent, voire moins souvent, identifiés comme nasals que les stimuli de Gravité 2. En somme, pour obtenir un maximum de réponses « nasale », l’idéal est de considérer uniquement les 231 stimuli [+G;-C] ou bien [-G;+C], c’est-à-dire les stimuli corrélés négativement. Les fonctions d’identification obtenues pour les premiers continuums o/o présentent donc les mêmes tendances que les résultats des expériences de discrimination : l’interaction entre les dimensions de Gravité et de Compacité est négative pour les stimuli de valeur égale ou supérieure à 3 le long des deux dimensions. Notre interprétation de ces phénomènes se fonde sur la façon dont les stimuli o/o ont été synthétisés pour l’expérience principale, c’est-à-dire en faisant évoluer la fréquence de F1 tout au long du continuum orale-nasale, de 470 à 570 Hz. Or, comme nous l’avons dit dans le chapitre précédent (p.183), la méthode choisie pour la synthèse de nos voyelles (avec les résonateurs connectés en cascade) implique qu’une montée en fréquence de F1 renforce l’énergie des formants supérieurs, ce qui neutralise dans une certaine mesure les effets d’une progression concomitante de la voyelle le long de la dimension de Compacité Cette explication fait appel à des phénomènes d’ordre sensoriel (non liés au processus de décision phonétique proprement dit) pour expliquer l’inversion de tendance observée dans les réponses obtenues lors des tâches d’identification impliquant certains stimuli o/o. Les expériences de discrimination renforcent ce type d’explication, dans la mesure où elles mettent essentiellement en évidence des phénomènes d’ordre sensoriel (auditif), et que leurs résultats démontrent le même type d’interaction négative pour les stimuli o/o de niveau 3 ou 4 sur les échelles de Gravité et de Compacité (quadrant D). Dans une telle hypothèse, la prédiction est que l’interaction négative ne sera plus observée pour les nouveaux continuums o/o2, puisque dans ce cas il n’y a plus aucune variation de F1 au sein du continuum. C’est ce qu’ont montré les expériences d’identification (Cf. Figure 57, p.188), et c’est également ce que nous observons dans les Figure 82 et Figure 83 pour les continuums o/o2 de l’expérience DISC. En moyenne, la valeur de 7 est de 141.5° pour les continuums o/o2 (vs. 103.8° pour les premiers continuums o/o). Sur la Figure 83, dans trois quadrants sur quatre, l’intégration positive des dimensions acoustiques de Gravité et de Compacité est complète (7 ≅ 180°). 3. Discussion L’objectif de ce chapitre était de traiter la question du mode d’interaction, au niveau perceptuel, des deux dimensions acoustiques le long desquelles varient les stimuli synthétisés. Les résultats dans leur ensemble montrent que, pour nos auditeurs francophones, il y a une tendance nette à l’intégration positive des dimensions acoustiques de Compacité et de Gravité (pour autant que le F1 de la voyelle reste inchangé). De ce fait, les stimuli qui sont [+G] et [+C] 232 se rapprochent dans la perception des auditeurs, et de même les stimuli [-G] et [-C] occupent une région assez proche de l’espace perceptuel. Augmenter la gravité d’une voyelle équivaut perceptuellement à en augmenter la compacité, et inversément. Les stimuli positivement corrélés [+G;+C] vs. [-G;-C] sont séparés par une distance perceptuelle bien plus importante que les stimuli négativement corrélés [+G;-C] vs. [-G;+C]. Faire covarier la compacité des voyelles avec leur gravité permet donc d’augmenter sensiblement la distance perceptuelle entre elles. Ces résultats indiquent que la covariation des propriétés acoustiques caractéristique de la production des voyelles nasales du français correspond, du point de vue de la perception, à une plus grande distinctivité de ces voyelles par rapport aux orales correspondantes. Ce que les expériences d’identification ont montré, c’est que les auditeurs francophones prennent en compte l’information en provenance des deux dimensions lorsqu’ils doivent décider si une voyelle est une orale ou une nasale du français. Ce que les expériences de discrimination permettent d’ajouter, c’est que les auditeurs francophones « n’ont pas le choix » lorsqu’ils agissent ainsi : le phénomène ne se situe pas au niveau du processus de décision (phonétique), mais à un stade plus précoce du traitement auditif du signal, soit à un niveau d’ordre sensoriel. Les expériences de discrimination montrent que chez les auditeurs francophones, les propriétés de gravité et de compacité d’une voyelle interagissent au niveau de la sensibilité auditive des individus, de sorte qu’une voyelle plus grave est automatiquement perçue comme une voyelle plus compacte. A la fin de la première partie, nous avons proposé une explication à l’éventuelle interaction positive des dimensions de Compacité et de Gravité fondée sur la théorie acoustique de la parole, qui stipule qu’abaisser la fréquence d’un formant diminue l’amplitude de tous les formants situés au-dessus de lui (Fant, 1956, 1960, Stevens, 1998). En particulier, nous pensons qu’abaisser le F2 d’une voyelle peut avoir des conséquences comparables, dans la région de F3, à la perte d’énergie qui survient à la suite du couplage des résonateurs pharyngo-buccal et nasal. Dans cette hypothèse, la postériorisation des voyelles nasales du français renforce les effets acoustiques liés à l’abaissement du voile du palais ; l’augmentation de la gravité et l’augmentation de la compacité d’une voyelle peuvent rehausser mutuellement leurs effets dans la perception des auditeurs. Notons que les résultats des expériences perceptuelles relatifs aux continuums o/o (surtout o/o2) sont particulièrement importants pour départager les différentes hypothèses existantes quant aux rapports entre nasalisation phonétique et timbre vocalique. Si l’on considère par exemple les données présentées par Wright (1986), on est tenté de conclure que la nasalisation diminue la contrastivité des voyelles concernées dans la dimension antérieure- 233 postérieure, c’est-à-dire que le F2 des voyelles antérieures est plus bas, mais que celui des postérieures est plus élevé, lorsqu’elles sont nasalisées. Inversément, notre hypothèse pose que, même si dans certains cas le F2 d’une voyelle postérieure nasalisée a une fréquence plus élevée que celui de l’orale correspondante, d’un point de vue perceptuel la nasalisée est plus grave que l’orale, parce que la contribution acoustique des fosses nasales est telle que la majeure partie de l’énergie acoustique est ramassée sous 800 Hz (p.138). Or, les résultats des expériences d’identification montrent que pour synthétiser de bonnes nasales /o/ en français, il faut qu’elles soient plus graves que les orales correspondantes, toutes choses étant égales par ailleurs. De plus, les expériences de discrimination prouvent que pour toutes les paires oralenasale du français, y compris o/o, les auditeurs francophones perçoivent automatiquement une voyelle plus compacte (plus nasalisée) comme une voyelle plus grave, alors que sa valeur reste fixée le long de la dimension de Gravité. Ainsi, les expériences d’identification et de discrimination présentées dans les deux premiers chapitres de cette seconde partie aboutissent à des résultats particulièrement convergents, cohérents les uns par rapport aux autres. Ils tendent à accréditer l’hypothèse selon laquelle les locuteurs francophones tireraient profit d’un processus auditif automatique d’intégration positive des dimensions acoustiques de Gravité et de Compacité. Pourtant, rien ne prouve jusqu’ici que ce processus, quoique manifestement d’origine sensorielle chez les auditeurs francophones, ne soit spécifique aux locuteurs du français uniquement. L’hypothèse la plus prudente, en effet, est que les résultats des expériences d’identification et de discrimination sont à ce point cohérents parce qu’ils rendent compte du fait que les auditeurs francophones ont appris à distinguer les voyelles notamment sur la base d’une combinaison des indices de gravité et de compacité. Cet apprentissage aurait précisément pour origine le fait que ces propriétés covarient dans la réalisation du contraste de nasalité en français. Nous faisons ici référence à un type d’apprentissage survenant très tôt en ontogenèse (vers la fin de la première année), et qui relève du fait que le système auditif de l’enfant renforce sa sensibilité aux particularités phoniques auxquelles il est exposé dans le milieu linguistique ambiant (Kuhl et al. 1992, Werker et Polka, 1993, Vihman, 1996). L’objectif principal du prochain chapitre est de tester les continuums o/o2 sur des auditeurs anglophones au cours d’expériences de discrimination (DISC), afin de déterminer si l’intégration positive des dimensions acoustiques de Gravité et de Compacité est attestée même lorsque le système linguistique des auditeurs (ici, le système phonologique de l’anglais) n’en fait pas usage. Sur la base de ces résultats, nous pourrons réexaminer les résultats obtenus pour le français : soit les auditeurs francophones ont modelé leur système perceptuel en fonction de la covariation en français de 234 l’abaissement du voile du palais avec d’autres articulations orales lors de la réalisation des voyelles nasales, soit les locuteurs francophones ont adapté leur production des nasales à une propriété plus générale, voire universelle, du système auditif humain. 235 Chapitre 3 Auditeurs anglophones 1. Questions de recherche Dans ce chapitre, nous présentons les données obtenues auprès des auditeurs anglophones. La discussion des résultats est tout entière orientée vers trois questions spécifiques de recherche, en relation avec les résultats présentés dans les chapitres précédents à propos des auditeurs francophones : (1) Validité. De même que les francophones, les auditeurs anglophones peuvent-ils efficacement juger de la nasalité d’une voyelle sur la base des indices acoustiques fournis par la dimension acoustique de Compacité ? Nous comparons les performances de nos auditeurs anglophones lors de tâches d’identification ID1 avec celles mesurées par d’autres chercheurs, qui ont synthétisé la nasalité phonétique différemment de nous, notamment en introduisant une paire pôle-zéro dans la région de F1 (Hawkins et Stevens, 1985, Huffman, 1990, Macmillan et al. 1999). (2) Influence du contexte. Les réponses des auditeurs anglophones sont-elles différentes lorsque la voyelle est placée en contexte phonologique nasal ? Nous analysons les performances de nos auditeurs en relation avec les phénomènes de compensation nasale dont l’existence a été établie pour l’anglais (Kawasaki, 1986, Krakow et Beddor, 1991). La comparaison des résultats obtenus au cours des différents paradigmes testés pour les items CVC et NVC nous permet d’investiguer la question de l’origine du phénomène de compensation perceptuelle : sensorielle ou décisonnelle ? (3) Interaction perceptuelle des dimensions de Compacité et de Gravité. Les auditeurs anglophones ont effectué des expériences de discrimination (de type DISC) dont l’objectif était de tester l’hypothèse selon laquelle l’intégration positive des dimensions acoustiques de Compacité et de Gravité n’est pas un processus perceptuel spécifique au français, mais relève au contraire d’un phénomène plus répandu, voire universel, car lié aux propriétés générales du système auditif humain. Bien que l’interprétation des résultats soit rendue difficile par la faible sensibilité des anglophones aux stimuli ne différant que d’un pas le long des dimensions acoustiques considérées, nous avons trouvé les indices d’une interaction positive des dimensions de Compacité et de Gravité dans la perception, par les anglophones, des voyelles placées en contexte CVC. 237 2. Matériel et méthode Les expériences perceptuelles concernant les auditeurs anglophones ont été réalisées à la fin du mois de novembre 2002 au Laboratoire de Phonétique de l’Université du Massachussets, Amherst, sous la direction du prof. John Kingston. Les participants à l’expérience, tous étudiants à l’université de Amherst, étaient au nombre de dix-huit. Huit auditeurs ont participé aux expériences d’identification (ID1), qui ont été menées sur quatre continuums o/o2 : CVC Brèves Dyn I, NVC Brèves Dyn I, CVC Longues Dyn I, NVC Longues Dyn I. Les dix autres participants ont effectué les expériences de discrimination (DISC) relatives aux mêmes espaces de stimuli : quatre auditeurs ont été testés sur les quatre conditions, trois auditeurs n’ont effectué l’expérience que sur les deux premières conditions (voyelles brèves), et trois autres ont fait les deux dernières conditions uniquement (voyelles longues). En somme, les données présentées dans la section suivante concernent dans chacune des quatre conditions sept sujets pour les expériences de discrimination, et huit autres sujets pour les expériences d’identification. Les stimuli ont été présentés et les données acquises à l’aide du logiciel SuperLab v2.0. Les protocoles expérimentaux diffèrent peu de ceux décrits dans les chapitres précédents (Cf. pp.146 et suivantes pour ID1, ainsi que pp.148 et pp.210 et suivantes pour DISC). En ce qui concerne le paradigme DISC, il n’y a pas eu de phase d’entraînement à proprement parler. Les auditeurs était simplement avertis en fin de tâche que la paire de stimuli à discriminer était sur le point de changer. Au cours de la phase de test, un feed-back (indiquant la réponse correcte) était donné après chaque réponse de l’utilisateur. Les auditeurs ont eu à se prononcer à 25 reprises pour chaque stimulus, pour un total de 50 réponses par paire de stimuli testée (vs. 80 réponses pour les francophones). En ce qui concerne le paradigme ID1, la différence principale se situe également au niveau de la phase d’entraînement. Les stimuli impliqués n’étaient pas les mêmes que ceux proposés aux francophones. Il était inapproprié en effet, de présenter aux anglophones les stimuli situés dans le coin supérieur droit de l’espace en tant que prototypes des voyelles les plus nasales. A priori, la dimension de Gravité ne devrait pas intervenir dans la décision des anglophones quant à la nasalité d’une voyelle. Les stimuli inclus dans la phase d’entraînement aux expériences d’identification étaient donc au nombre de 10, à savoir les cinq items contenant les voyelles les moins compactes (1,1), (2,1), (3,1), (4,1), (5,1) pour la réponse « orale », et les items contenant les voyelles les plus compactes (1,5), (2,5), (3,5), (4,5), (5,5) pour la réponse « nasale ». En effet, en ce qui concerne la tâche d’identification elle-même, les consignes étaient de déterminer si la voyelle entendue était une « orale » ou bien une 238 « nasale ». Une expérience d’identification ID1 consistait en 15 blocs (de 25 stimuli) pour les auditeurs anglophones (au lieu de 20 blocs pour les francophones). Les 25 points de données à partir desquels sont tracées les fonctions d’identification (Cf. ci-dessous) représentent donc chacun 15 réponses * 8 auditeurs, soit 120 réponses par stimulus. 3. Résultats : expériences d’identification Les Figure 84 à Figure 87 présentent les résultats des expériences d’identification menées auprès des auditeurs anglophones. Chaque figure donne les fonctions d’identification concernant l’une des quatre conditions testées, soit respectivement CVC Brèves Dyn I (Figure 84), CVC Longues Dyn I (Figure 85), NVC Brèves Dyn I (Figure 86) et NVC Longues Dyn I (Figure 87). Les fonctions ont été obtenues selon la méthode suivie précédemment (Cf. p.175). Dans chacune des figures, les mêmes données sont présentées de deux façons différentes. Le graphique principal représente l’évolution de la proportion de réponses « nasale » en fonction du degré de Compacité de la voyelle, chaque courbe correspondant à un degré de Gravité en particulier. Dans le graphique secondaire (situé en haut à droite de la figure), c’est la dimension de Gravité qui est placée en abscisse, et les différents degrés de Compacité de la voyelle sont chacun représentés par une courbe particulière. Les fonctions d’identification démontrent une certaine efficacité de la dimension de Compacité en ce qui concerne la détection de la nasalité vocalique en contexte CVC. Entre les stimuli les moins compacts et les stimuli les plus compacts, le taux de réponses « nasale » augmente de 25 à 30% en moyenne (sur un total de 100%), toutes choses étant égales par ailleurs (voir p.ex. les lignes pointillées bleues sur la Figure 84). Pour les CVC Brèves, les auditeurs anglophones utilisent essentiellement la dimension de Compacité afin de décider si une voyelle est orale ou nasalisée. C’est ce qu’illustre le graphique secondaire, en haut de la Figure 84, où les « courbes » qui représentent les degrés croissants de Compacité ressemblent plutôt à des lignes horizontales parallèles ayant un niveau de plus en plus élevé en termes de PN. Le plafond est atteint avec le degré 4 de Compacité et on assiste même à une inversion de tendance pour les stimuli de Compacité 5, moins souvent jugés comme « nasals » que les précédents. Ces performances sont bien entendu inférieures à celles enregistrées pour les auditeurs francophones, pour qui le contraste de nasalité est phonologique. Cependant, aux degrés extrêmes de Gravité, le gain en taux de réponses « nasale » entre les stimuli les moins compacts et les plus compacts n’excède généralement pas 50% chez les francophones (Cf. Figure 57, p.188). Notons de plus que les stimuli étaient en général peu familiers aux anglophones, puisqu’ils avaient été élaborés en référence aux mots français « comte » /NoW/ et 239 « cote » /NoW/. Les deux consonnes sourdes par exemple proviennent de la production d’un locuteur francophone, et sont donc réalisées sans VOT ou presque. Dans la discussion (p. 252), nous montrons que le niveau de performances de nos auditeurs est pourtant comparable avec celui rapporté dans la littérature en ce qui concerne la détection de la nasalité vocalique par des anglophones. Les résultats obtenus auprès des auditeurs anglophones en ce qui concerne les stimuli CVC Longues Dyn I (Figure 85) sont en partie différents. Pour ces voyelles plus longues, en effet, les deux dimensions acoustiques fournies aux auditeurs sont utilisées par ceux-ci lorsqu’ils doivent déterminer si une voyelle est nasalisée ou non. Sur le graphique principal de la Figure 85, la ligne horizontale grise (en pointillés) souligne la présence d’un net saut de frontière dans cette condition, de plus de deux degrés sur l’échelle de Compacité. Les stimuli sont plus vite identifiés comme « nasals » s’ils sont également plus graves. En conséquence la différence dans le taux de réponses « nasale » atteint presque 50% entre les stimuli (1,1) et (5,5) dans le cas des stimuli CVC Longues Dyn I (Cf. lignes pointillées bleues en haut de la Figure 85). La contribution de la dimension acoustique de Gravité à l’identification de la nasalité vocalique de la part des anglophones peut être soit d’origine décisionnelle, soit d’origine sensorielle. D’une part, il est possible que les voyelles plus graves soient plus proches d’un timbre vocalique familier aux anglophones, pour lequel ils possèderaient déjà une échelle perceptuelle de nasalité liée à leur expérience linguistique. Néanmoins, ceci n’explique pas que toutes les voyelles plus graves sont ici jugées plus souvent comme nasales, y compris les moins compactes. Or, aucune covariation des dimensions de Gravité et de Compacité n’a été rapportée dans la littérature en ce qui concerne l’anglais : on n’a pas constaté que les voyelles nasalisées avaient un F2 plus bas dans cette langue. Une autre hypothèse est que la Gravité et la Compacité sont deux dimensions acoustiques qui sont intégrées perceptuellement chez les auditeurs anglophones, de même que chez les auditeurs francophones, et que la durée de la voyelle favorise cette intégration. Les expériences de discrimination que nous avons menées ne permettent qu’en partie de départager ces deux hypothèses (voir ci-dessous). Les fonctions d’identification obtenues dans le cas des items NVC (Figure 86 et Figure 87) diffèrent nettement de celles concernant les items CVC. Dans leur ensemble, les résultats montrent que les dimensions acoustiques le long desquelles varient les stimuli ne permettent pas vraiment aux auditeurs de les distinguer en termes de nasalité. Dans le cas des NVC Brèves, la Compacité des voyelles est peu efficace pour la détection de la nasalité, et de plus, cette faible influence semble neutralisée par la progression concomitante d’un stimulus le long de la dimension de la Gravité. D’un point de vue strictement décisionnel, il y a donc une interaction perceptuelle négative entre les dimensions de Compacité et de Gravité pour ces 240 stimuli. Dans le cas des NVC Longues, ni la compacité, ni la gravité des voyelles n’ont véritablement d’effet sur la décision des auditeurs anglophones de les identifier comme « orales » ou comme « nasales ». En conséquence, la différence dans le schéma de réponses des auditeurs en fonction du contexte phonologique est particulièrement importante en ce qui concerne les voyelles longues. Pour les items CVC Longues Dyn I, la combinaison des indices fournis par les deux dimensions acoustiques fait évoluer la proportion moyenne de réponses « nasale » d’environ .25 à .70, soit une progression de plus de 40% du taux d’identification nasale ; pour les items NVC Longues Dyn I, les auditeurs répondent à tous les stimuli au hasard ou presque, ce qui aboutit à un taux général d’identification « nasale » avoisinant les 50%. Nous interprétons ces données en termes de compensation perceptuelle, c’est-à-dire de compensation, de la part des auditeurs, du taux de nasalité perçu pour une voyelle lorsque celle-ci est insérée dans un contexte phonologique favorisant la nasalité contextuelle, soit en l’occurrence en contexte NVC. Un phénomène équivalent a été observé pour les auditeurs francophones (Cf. p.204). En ce qui concerne plus précisément les continuums o/o2, l’augmentation de la Compacité n’a eu qu’un effet tout à fait marginal sur la proportion de réponses « nasale » aux présentations des stimuli les moins graves de type NVC (Figure 57, p.188). 241 o/o2 CVC Brèves Dyn I 1.0 Compacité PN 0.5 Proportion de réponses « nasale » PN 1.0 0.0 0 1 2 3 4 5 Gravité Abaissement de F2 (Gravité) 0.5 0.0 0 1 2 3 4 5 Taux de nasalisation phonétique (Compacité) Figure 84. Fonctions d’identification obtenues par mise en correspondance d’une sigmoïde avec les données (Valeurs de PN) concernant le continuum o/o Dyn I CVC Brèves (auditeurs anglophones). Sur le graphique principal, le niveau de Compacité de la voyelle est représenté en abscisse (des stimuli les moins compacts, en 1, aux plus compacts, en 5) et chaque courbe représente un degré de Gravité (des stimuli les moins graves, en 1, aux plus graves, en 5). Le graphique secondaire (en haut à droite) représente les mêmes données, mais la Gravité est placée en abscisse et les courbes correspondent aux différents degrés de Compacité. 242 o/o2 CVC Longues Dyn I 1.0 Compacité PN 0.5 Proportion de réponses « nasale » PN 1.0 0.0 0 1 2 3 4 5 Gravité Abaissement de F2 (Gravité) 0.5 0.0 0 1 2 3 4 5 Taux de nasalisation phonétique (Compacité) Figure 85. Fonctions d’identification obtenues par mise en correspondance d’une sigmoïde avec les données (Valeurs de PN) concernant le continuum o/o Dyn I CVC Brèves (auditeurs anglophones). Sur le graphique principal, le niveau de Compacité de la voyelle est représenté en abscisse (des stimuli les moins compacts, en 1, aux plus compacts, en 5) et chaque courbe représente un degré de Gravité (des stimuli les moins graves, en 1, aux plus graves, en 5). Le graphique secondaire (en haut à droite) représente les mêmes données, mais la Gravité est placée en abscisse et les courbes correspondent aux différents degrés de Compacité. 243 o/o2 NVC Brèves Dyn I 1.0 Compacité PN 0.5 Proportion de réponses « nasale » PN 1.0 0.0 0 1 2 3 4 5 Gravité Abaissement de F2 (Gravité) 0.5 0.0 0 1 2 3 4 5 Taux de nasalisation phonétique (Compacité) Figure 86. Fonctions d’identification obtenues par mise en correspondance d’une sigmoïde avec les données (Valeurs de PN) concernant le continuum o/o Dyn I CVC Brèves (auditeurs anglophones). Sur le graphique principal, le niveau de Compacité de la voyelle est représenté en abscisse (des stimuli les moins compacts, en 1, aux plus compacts, en 5) et chaque courbe représente un degré de Gravité (des stimuli les moins graves, en 1, aux plus graves, en 5). Le graphique secondaire (en haut à droite) représente les mêmes données, mais la Gravité est placée en abscisse et les courbes correspondent aux différents degrés de Compacité. 244 o/o2 NVC Longues Dyn I 1.0 Compacité PN 0.5 Proportion de réponses « nasale » PN 1.0 0.0 0 1 2 3 4 5 Gravité Abaissement de F2 (Gravité) 0.5 0.0 0 1 2 3 4 5 Taux de nasalisation phonétique (Compacité) Figure 87. Fonctions d’identification obtenues par mise en correspondance d’une sigmoïde avec les données (Valeurs de PN) concernant le continuum o/o Dyn I CVC Brèves (auditeurs anglophones). Sur le graphique principal, le niveau de Compacité de la voyelle est représenté en abscisse (des stimuli les moins compacts, en 1, aux plus compacts, en 5) et chaque courbe représente un degré de Gravité (des stimuli les moins graves, en 1, aux plus graves, en 5). Le graphique secondaire (en haut à droite) représente les mêmes données, mais la Gravité est placée en abscisse et les courbes correspondent aux différents degrés de Compacité. 245 4. Résultats : expériences de discrimination Les résultats des expériences de discrimination menées auprès des auditeurs anglophones sont donnés dans les Figure 88 (CVC Brèves Dyn I), Figure 89 (CVC Longues Dyn I), Figure 90 (NVC Brèves Dyn I), et Figure 91 (NVC Longues Dyn I), sur le modèle des Figure 70 à Figure 83 pour les auditeurs francophones (pp.216 et suivantes). La Figure 88 permet d’illustrer à la fois la prudence à observer lors de l’analyse des résultats, et le type d’information néanmoins fournie par les expériences de discrimination effectuées sur les participants anglophones. Les valeurs obtenues pour l’angle 7 sont caractéristiques d’une faible interaction des deux dimensions, négative dans le cas du quadrant C, et positive pour les trois autres quadrants. Cependant, ces résultats doivent être considérés avec prudence au vu des valeurs obtenues pour les indices de correspondance : les valeurs de RSQ sont basses, et celles de stress sont anormalement élevées. Ceci s’explique en grande partie par l’examen des valeurs de d’ à partir desquelles la configuration géométrique a été élaborée par INDSCAL. Ainsi, les moyennes de d’ (affichées à la droite des quadrants correspondants) sont toutes très faibles, et plusieurs d’entre elles sont même négatives39, ce qui indique que nos données présentent un net « effet de plancher ». Cet effet de plancher peut sans doute s’expliquer de deux façons. D’une part, il n’y a pas eu d’entraînement spécifique à chaque paire avant la phase de test proprement dite. D’autre part, les francophones sont sans doute particulièrement sensibles aux différences de gravité et de compacité des voyelles parce que, précisément, elles interviennent dans la réalisation du contraste phonologique de nasalité ; on ne pouvait s’attendre à ce que les anglophones atteignent un niveau égal de performances. Or, le principe du paradigme DISC (adapté du paradigme de Garner, 1974) est de comparer, en termes de proportion de réponses correctes (plutôt que de temps de réponse), les performances des auditeurs lors de la discrimination de paires de stimuli a priori impossibles à distinguer parfaitement. Dans le cas des francophones, le nombre de pas sur chaque dimension, déterminé à la suite de l’expérience pilote, a permis d’assurer que les stimuli de chaque paire pouvaient être différenciés, même si la tâche des auditeurs était difficile. Mais dans le cas des anglophones, les stimuli qui ne variaient que d’un pas le long de la dimension de Compacité ont pour la plupart mené à des valeurs de d’ négatives, c’est-à-dire que les auditeurs n’entendaient aucune différence entre eux. Ainsi, sur la Figure 88, la moyenne de d’ pour les paires {1,4}, {2,5}, {3,6}, {4,7}, {5,8} et {6,9} est respectivement de -0.1, 39 Lorsque les données de dissimilarité (valeurs de d’ obtenues pour chaque auditeur) sont négatives, elles sont considérées par INDSCAL comme manquantes. Un trop grand nombre de données manquantes peut empêcher le modèle de fonctionner correctement, ou tout simplement d’aboutir à un résultat cohérent avec les données restantes. 246 -0.34, -0.02, 0.05, -0.04, et 0.03. Les moyennes calculées pour d’ sont en général très faibles, mais positives, pour les stimuli variant uniquement le long de la dimension de Gravité, et surtout pour les stimuli positivement corrélés. En effet, malgré les restrictions qui doivent être émises quant à la validité des configurations obtenues par INDSCAL à partir de ces données, les valeurs mesurées pour l’angle 7 restent représentatives de la différence qui existe entre la distance perceptuelle séparant les stimuli négativement corrélés d’une part, et celle séparant les stimuli positivement corrélés d’autre part. Lorsque 7 est supérieur à 90° (interaction positive), les stimuli positivement corrélés sont plus distincts dans la perception des auditeurs que les stimuli négativement corrélés. Ainsi, dans les quadrants A (7 = 108°), B (7 = 106°), et D (7 = 108°), les moyennes de d’ calculées pour les stimuli négativement vs. positivement corrélés sont respectivement de 0.07 vs. 0.16, 0.16 vs. 0.37 et 0.29 vs. 052, alors que dans le quadrant C (7 = 72°), elles sont de 0.52 vs. 0.08. En ce qui concerne les items CVC, la tendance générale est celle d’une légère interaction positive, interaction qui est plus marquée dans le cas des voyelles longues. Ces résultats convergent avec ceux obtenus lors des expériences d’identification (Cf. Figure 85). On pourrait en dire autant de l’interaction négative en partie constatée dans le cas des NVC Brèves. En l’occurrence, nous interprétons surtout le manque de cohérence des résultats relatifs aux items NVC (pour les NVC Longues, en particulier) comme une marque de l’absence presque totale de sensibilité auditive de la part des anglophones à des différences de cette ampleur en Gravité et/ou en Compacité lorsque la voyelle est située en contexte phonologique nasal. C’est également ce que laissaient supposer les fonctions d’identification concernant ces mêmes stimuli (Cf. Figure 87). 247 o/o2 CVC Brèves Dyn I  +   + +  D A B + +  C +   +  + Figure 88. Résultats de l’expérience DISC (auditeurs anglophones). Configurations obtenues par MDS pour les quatre quadrants A, B, C, D dans le cas des continuums o/o2 CVC Brèves Dyn I. Contours perceptuels pour les dimensions de Gravité (droites vertes) et de Compacité (droites bleues). Valeurs de l’angle 7 situé à l’intersection des deux contours, valeurs des index stress et RSQ, et valeurs moyennes de d’ lors des tâches de discrimination des stimuli par paires. 248 o/o2 CVC Longues Dyn I  + + + C D A B   + +    +  +  + Figure 89. Résultats de l’expérience DISC (auditeurs anglophones). Configurations obtenues par MDS pour les quatre quadrants A, B, C, D dans le cas des continuums o/o2 CVC Longues Dyn I. Contours perceptuels pour les dimensions de Gravité (droites vertes) et de Compacité (droites bleues). Valeurs de l’angle 7 situé à l’intersection des deux contours, valeurs des index stress et RSQ, et valeurs moyennes de d’ lors des tâches de discrimination des stimuli par paires. 249 o/o2 NVC Brèves Dyn I   + + +  A B +   +  D   + C + + Figure 90. Résultats de l’expérience DISC (auditeurs anglophones). Configurations obtenues par MDS pour les quatre quadrants A, B, C, D dans le cas des continuums o/o2 NVC Brèves Dyn I. Contours perceptuels pour les dimensions de Gravité (droites vertes) et de Compacité (droites bleues). Valeurs de l’angle 7 situé à l’intersection des deux contours, valeurs des index stress et RSQ, et valeurs moyennes de d’ lors des tâches de discrimination des stimuli par paires. 250 o/o2 NVC Longues Dyn I   +  C D A B +  + +   +  +  + + Figure 91. Résultats de l’expérience DISC (auditeurs anglophones). Configurations obtenues par MDS pour les quatre quadrants A, B, C, D dans le cas des continuums o/o2 NVC Longues Dyn I. Contours perceptuels pour les dimensions de Gravité (droites vertes) et de Compacité (droites bleues). Valeurs de l’angle 7 situé à l’intersection des deux contours, valeurs des index stress et RSQ, et valeurs moyennes de d’ lors des tâches de discrimination des stimuli par paires. 251 5. Discussion Nous discutons les résultats présentés ci-dessus en relation avec les trois questions de recherche exposées au début du chapitre. 5.1. Validité. Les fonctions d’identification obtenues pour les items de type CVC démontrent une certaine efficacité de la dimension acoustique de Compacité pour la détection de la nasalité phonétique (essentiellement liée aux effets acoustiques de l’abaissement du voile du palais). L’ampleur de l’augmentation de la proportion de réponses « nasale » correspondant à l’évolution des stimuli le long de la dimension de Compacité est comparable à celle obtenue dans plusieurs travaux antérieurs. Dans l’étude menée par Macmillan et al. (1999) par exemple, la nasalité a été synthétisée en insérant une paire pôle-zéro soit au-dessus, soit endessous du F1 de voyelles postérieures fermées et semi-fermées (F1 variait entre 360 et 500 Hz, F2 était fixé à 1025 Hz). Lorsque les auditeurs anglophones doivent identifier ces voyelles sur base de leur nasalité, leurs réponses « nasale » augmentent à mesure que le pôle et le zéro nasals voient leur fréquence diverger (entre 0 et 90 Hz d’écart). Cette augmentation dans la proportion de réponses « nasale » est de l’ordre de 5 à 40% (en fonction de l’aperture de la voyelle) lorsque la paire pôle-zéro est placée sous F1. Par contre, lorsque la paire survient audessus de F1, elle n’a aucune influence sur les jugements de nasalité des auditeurs anglophones non entraînés, c’est-à-dire n’ayant pas participé à une première expérience de discrimination incluant les mêmes stimuli. En général, les auditeurs anglophones s’appuyent autant sinon plus sur l’aperture de la voyelle, pour juger de sa nasalité, que sur la paire pôlezéro additionnelle. Les auteurs attribuent ces résultats au fait que la nasalité n’est pas une propriété contrastive de l’anglais, même si les voyelles y sont régulièrement nasalisées par une consonne nasale subséquente. L’avantage de la méthode que nous avons utilisée pour synthétiser la nasalité phonétique est qu’en augmentant la bande passante de F1 (de 90 à 250 Hz), on évite de devoir décider où situer une éventuelle paire pôle-zéro par rapport au pôle oral initial, tout en maintenant un niveau de performances comparable à la méthode plus « ciblée » employée par Macmillan et al. (1999) entre autres (Cf. aussi Delattre, 1965 ou Hawkins et Stevens, 1985 : voir ci-dessous). L’augmentation de la bande passante en F1 est par définition une façon de synthétiser la nasalité qui peut être généralisée à tous les timbres vocaliques. Elle a donné de bons résultats pour reproduire les effets acoustiques de l’abaissement du voile sur les voyelles /D,(,o/ chez nos auditeurs francophones. Nous pensons que la répartition de l’énergie sur de 252 larges plages fréquentielles est la clé dans la recherche d’une propriété générale de la nasalité phonétique, indépendamment de la voyelle, du locuteur et même de la langue concernés. Néanmoins, si l’on désire aboutir à de meilleures performances (allant jusqu’à 100% d’identification nasale pour des auditeurs anglophones, par exemple), la méthode la plus efficace reste celle qui consiste à adapter à chaque timbre vocalique les valeurs des divers paramètres manipulés en synthèse. C’est la démarche qui a été suivie par Hawkins et Stevens (1985), qui ont mené une expérience préliminaire à grande échelle afin de déterminer quels stimuli étaient perçus comme les plus nasals par leurs auditeurs, et ce préalablement aux expériences proprement dites. A partir de ces premiers jugements, Hawkins et Stevens ont synthétisé divers continuums orale-nasale, dont l’extrémité nasale était spécifique à chaque timbre vocalique, tant du point de vue de la fréquence de la paire pôle-zéro, que de l’écart maximal entre eux, ou encore de la modification fréquentielle intervenant en F1 par rapport à l’orale correspondante. Par ailleurs, notre dimension de Compacité inclut l’évolution d’autres paramètres acoustiques que la bande passante en F1, à savoir l’augmentation de la proéminence en F2, et l’amortissement presque complet de l’énergie en F3. Pour tenter d’évaluer l’apport éventuel de ces deux paramètres lors des jugements de nasalité, nous les comparons aux résultats obtenus par Marie Huffman (1990). Huffman a étudié l’efficacité de la baisse de la proéminence de F1 en tant qu’indice perceptuel de la nasalité pour les auditeurs anglophones. Pour ce faire, elle a synthétisé des continuums orale-nasale en augmentant la bande passante en F1 uniquement. Les résultats montrent qu’une voyelle est plus souvent identifiée comme nasalisée lorsque la bande passante est augmentée en F1. Cependant, l’augmentation de la proportion de réponses « nasale » varie entre 10 et 25%, ce qui est inférieur à la progression des performances que nous obtenons en ajoutant à l’augmentation de la bande passante en F1 les modifications des bandes passantes en F2 et en F3 (de 25 à 30 % en moyenne, et jusqu’à 40%, Cf. Figure 84 p.242). Sans surprise, la chute de l’énergie dans la région de F1 reste cependant l’indice acoustique principal lié à la perception de la nasalité phonétique. 5.2. Influence du contexte En ce qui concerne les auditeurs anglophones, plusieurs travaux ont établi que la perception du degré de nasalité d’une voyelle est en partie dépendante du contexte phonologique, oral ou nasal, dans lequelle elle est insérée (Kawasaki, 1986, Krakow et Beddor, 1991). De plus, Krakow et al. (1988) ont trouvé que pour des continuums /4,(/, les dimensions d’aperture et de nasalité entrent en interaction perceptuelle uniquement lorsque la nasalité de la voyelle ne peut pas être imputée par l’auditeur à l’environnement phonologique (items b_d 253 vs. items b_nd). Par contre, les résultats de Macmillan et al. (1999) tendent à prouver l’existence d’une interaction négative de ces deux dimensions quel que soit le contexte (C_d ou C_n) pour les voyelles /X,R/. Dans cette étude, la sensibilité des auditeurs aux différences de nasalité (c’est-à-dire aux écarts fréquentiels entre les membres d’une paire pôle-zéro) est similaire en contexte oral et nasal. Pour nos auditeurs anglophones, les fonctions d’identification obtenues sont très différentes selon que la voyelle à identifier est située en contexte oral ou en contexte nasal. Dans les items NVC, la proportion de réponses « nasale » varie peu, voire pas du tout en fonction de la Compacité (ou de la Gravité) de la voyelle. Nous interprétons ces données comme résultant de l’existence d’un phénomène de compensation perceptuelle : une voyelle est moins vite perçue comme une nasale lorsqu’elle est placée en contexte phonologique nasal. Par ailleurs, nos données invitent à considérer que la compensation observée est d’origine sensorielle et non décisionnelle. Pour les items NVC Longues en particulier, les auditeurs semblent avoir répondu au hasard ou presque, ce qui aboutit à un taux d’identification proche de 50% pour tous les stimuli, quelle que soit leur gravité ou leur compacité. Sur ces mêmes stimuli, l’incohérence des valeurs obtenues pour 7 lors de l’expérience DISC, ainsi que la fréquence particulièrement élevée de valeurs négatives pour d’, nous amènent à conclure à une absence presque totale de sensibilité auditive aux différences d’un pas seulement le long des deux dimensions acoustiques dans le cas des items NVC Longues. Enfin, l’expérience linguistique des auditeurs anglophones ne peut avoir qu’une influence limitée sur le phénomène de compensation perceptuelle observé ici, puisque précisément la nasalisation progressive est peu importante en anglais, en particulier vis-à-vis de l’importance et de l’étendue temporelle de la nasalisation régressive dans cette langue (Clumeck, 1976, Ohala, 1971, Solé, 1992). 5.3. Interaction perceptuelle des deux dimensions L’un des principaux objectifs des expériences menées sur les auditeurs anglophones était de déterminer si l’interaction perceptuelle des dimensions de Gravité et de Compacité était un phénomène uniquement spécifique au français. Nous cherchions à vérifier l’hypothèse selon laquelle la covariation des propriétés acoustiques qui caractérise la réalisation phonétique du contraste phonologique de nasalité en français permet d’augmenter automatiquement la distance perceptuelle entre voyelles orales et voyelles nasales (par rapport à la distance acoustique qui les sépare effectivement), et ce en vertu d’un mécanisme universel d’intégration auditive des dimensions acoustiques de Gravité et de Compacité. Les résultats obtenus ne 254 sont en aucun cas en opposition avec cette hypothèse, liée aux notions de connaissance et de contrôle phonétique (Kingston et Diehl, 1994). Dans le cas des items CVC Longues, la contribution des deux dimensions, de Gravité et de Compacité, à l’augmentation de la proportion de réponses « nasale » lors des tâches d’identification doit sans doute être mise en parallèle avec les valeurs obtenues pour 7 à la suite des expériences de discrimination, qui indiquent une intégration positive de ces dimensions acoustiques dans deux quadrants sur quatre. Néanmoins les données obtenues auprès des auditeurs anglophones au cours des tâches de discrimination manifestent un net effet de plancher, sans doute dû en partie à l’absence d’entraînement spécifique à chaque paire de stimuli. L’interprétation de ces données nécessite donc une grande prudence, et en ce qui concerne les items NVC, doit sans doute se limiter à constater l’impossibilité dans laquelle se sont trouvés les auditeurs anglophones de différencier deux stimuli ne différant que d’un pas le long des dimensions de Gravité et/ou de Compacité. 255 Discussion générale Cette discussion générale s’organise en trois étapes. Tout d’abord, nous revenons sur les enjeux liés à la problématique de la nasalité vocalique en général. Il s’agit pour nous de préciser dans quel cadre notre travail s’insère, c’est-à-dire de rappeler les questions de recherche qui sont liées à la production et à la perception des voyelles nasales, ainsi qu’à la structuration des oppositions phonologiques au sein des langues pour lesquelles la nasalité est une propriété contrastive (section 1 ci-dessous). Ensuite, nous exposons point par point les résultats obtenus au cours des diverses expériences menées dans cette thèse en ce qui concerne la réalisation phonétique du contraste de nasalité vocalique en français, tant en production qu’en perception de la parole (section 2, p.260). Enfin, dans la section 3 (p.265), nous tentons d’intégrer l’ensemble des résultats au sein d’une vision unifiée de la problématique de la nasalisation des voyelles du français, en comparant les prédictions faites par les modèles opposés de phonétique automatique et de phonétique contrôlée. 1. Nasalité vocalique : enjeux scientifiques et problématique générale Du point de vue articulatoire, la nasalité vocalique se définit simplement : une voyelle est nasalisée lorsqu’elle est produite (en tout ou en partie) avec le voile du palais abaissé. Du point de vue acoustique, le phénomène est plus difficile à circonscrire. Les conséquences acoustiques du couplage des cavités buccales et nasales sont extrêmement complexes, et varient en fonction du degré de couplage, de la voyelle et du locuteur concernés (Cf. p.93). Les modifications qui interviennent en hautes fréquences étant généralement décrites comme hautement variables et peu pertinentes pour la perception des nasalisées, beaucoup de chercheurs se sont concentrés essentiellement sur la région de F1 en étudiant ces voyelles ; plusieurs études menées en synthèse de la parole ont en effet montré que l’impression auditive de nasalité pouvait être recréée en modifiant les caractéristiques spectrales d’une voyelle dans la région de F1 (Hawkins et Stevens, 1985, Huffman, 1990 : Cf. p.94 et pp.252 et suivantes). Delattre (1968b) est parvenu au même genre de résultat avec des auditeurs francophones, tout en précisant que les véritables nasales ne pouvaient être obtenues que par une modification additionnelle du timbre vocalique. Maeda (1982), et Takeuchi et al. (1975) ont montré que les manipulations spectrales en basses fréquences uniquement ne permettent pas de nasaliser les voyelles fermées de façon satisfaisante. Plusieurs questions demeurent donc : Existe-t-il un corrélat acoustique unique de la nasalité phonétique, indépendamment de la voyelle concernée ? L’information présente en hautes fréquences est-elle uniquement redondante ou bien est-elle nécessaire à une bonne détection de la nasalité ? Comment les auditeurs parviennent-ils à gérer la variabilité due aux interactions entre degré de couplage, timbre 257 vocalique et spécificités anatomiques du locuteur ? Y a-t-il une forme d’intégration de l’information sur de larges plages fréquentielles ? Du point de vue perceptuel, les voyelles nasales (et nasalisées) ont été au centre de deux grandes questions de recherche. La première concerne la perception de la nasalité d’une voyelle en fonction du contexte. Dans ce cadre, de nombreuses études ont été consacrées aux phénomènes de compensation perceptuelle, par les auditeurs anglophones, du taux de nasalité d’une voyelle lorsqu’elle est suivie d’une consonne nasale (Kawasaki, 1986, Krakow et Beddor, 1991, Beddor et Krakow, 1999, Cf. p.13 et p.204 ). Partisans des gestes et tenants des théories auditives de la perception de la parole s’opposent sur la façon dont il faut rendre compte de ces phénomènes : S’agit-il de mécanismes auditifs généraux liés à l’absence de contraste spectral ou fréquentiel entre segments adjacents (Kingston et Diehl, 1995, Lotto et Kluender, 1998) ? Ou bien les auditeurs analysent-ils directement le signal en termes de sources articulatoires (Fowler, 1996) ? La seconde question de recherche, liée à l’intérêt des chercheurs pour la région de F1, concerne l’étude des interactions perceptuelles entre le degré d’aperture et la nasalité d’une voyelle (Beddor et al., 1986, Krakow et al., 1988, Kingston et Macmillan, 1995, Macmillan et al. 1999, Cf. p.13 et p.253). Là aussi les auteurs divergent sur l’origine du mécanisme : sensorielle ou décisionnelle ? Bien qu’elles aient été investiguées à partir d’expériences perceptuelles menées pour la plupart auprès d’auditeurs anglophones, ces questions de recherche sont fondamentales pour l’étude de la nasalité vocalique en français. La perception de la nasalité d’une voyelle en contexte phonologique nasal est un problème essentiel, puisqu’en français le contraste phonologique entre voyelles orales et voyelles nasales existe également lorsque la voyelle est précédée d’une consonne nasale, soit dans les items N_. Dès lors, les questions posées sont les suivantes : le contraste est-il maintenu au moyen des articulations complémentaires à l’abaissement du voile du palais ? Y a-t-il interaction perceptuelle entre les effets acoustiques de ces différentes articulations ? En production, comment se décline la covariation des articulations en fonction du contexte phonologique ? Du point de vue des relations entre phonétique et phonologie, la nasalité vocalique est un cas d’étude, parce qu’elle peut être à la fois utilisée comme une propriété contrastive dans une langue donnée (« nasalité phonologique »), et être présente à un niveau plus strictement phonétique, dans la réalisation de voyelles dont la spécification phonologique est [−N] (« nasalité phonétique ») ; les deux cas de figure sont rencontrés en français. La « nasalité phonétique » recouvre les cas de nasalité contextuelle ainsi que de nasalité dite intrinsèque. 258 La nasalité contextuelle est depuis longtemps un défi pour les théories de la coarticulation (Farnetani et Recasens, 1999), étant donné que son ampleur et son étendue temporelle varient en fonction des langues et de la position de la consonne nasale responsable de la coarticulation (nasalisation progressive vs. nasalisation régressive) : Cf. p.87. Mais la variation allophonique dépasse le cadre des théories de la coarticulation proprement dites, pour interroger nos conceptions des relations entre phonétique et phonologie. Peut-on rendre compte de la coarticulation si l’on considère l’implémentation phonétique comme un phénomène purement automatique? Faut-il représenter les spécificités des langues à cet égard au sein de leur phonologie propre, ou bien dans un composant phonétique contrôlé ? La notion de « nasalité intrinsèque » fait référence à un phénomène attesté dans de nombreuses langues du monde, en vertu duquel le voile est d’autant plus abaissé durant la production d’une voyelle orale qu’elle est plus ouverte. On relie aujourd’hui ce fait à des phénomènes acoustiques et auditifs : à couplage égal, la contribution acoustique des fosses nasales est plus marquée pour les voyelles fermées (House et Stevens, 1956, Stevens, 1998), et on tolère dès lors beaucoup moins de « nasalisation passive » pour ces voyelles que pour les ouvertes (Lubker 1968, Ohala, 1975, Cf. p.89). Notre travail a permis de situer le français par rapport à ces phénomènes. Enfin, en ce qui concerne la structuration des systèmes phonologiques vis-à-vis du contraste de nasalité, plusieurs régularités sont observées dans les langues du monde. Les voyelles nasales sont aussi nombreuses ou moins nombreuses, mais jamais plus nombreuses que les orales dans un système phonologique donné (Ruhlen, 1975, 1978). Les nasales « manquantes » sont les voyelles d’aperture moyenne et les voyelles non périphériques (Beddor, 1993, Vallée, 1994). On relie en général ce phénomène à la plus faible distinctivité acoustique et perceptuelle des nasales entre elles (Cf. p.11), notamment dans la dimension d’aperture, où elle fait suite aux modifications spectrales induites par la nasalisation dans la région de F1 (Wright, 1986, Beddor et al. 1986). Comment intégrer dans ce schéma les autres caractéristiques spectrales des voyelles nasalisées ? Comment fonctionnent les langues qui, comme le français, constituent un cas particulier par rapport à ces tendances presque universelles ? 259 2. La nasalité vocalique en français : résultats obtenus au cours de ce travail Le système phonologique du français compte en principe quatre voyelles nasales, dont trois sont d’aperture moyenne /(,¡,o/, et la quatrième /$/, est une voyelle ouverte. La structuration des oppositions phonologiques au sein du système vocalique du français est donc différente de celle observée dans la plupart des langues du monde vis-à-vis de la nasalité (voir ci-dessus). La question principale est la suivante : comment le contraste entre les diverses voyelles nasales peut-il être maintenu si, comme le prédit Wright (1986), les antérieures /(,¡/ ont tendance à se postérioriser, la voyelle postérieure /o/ à s’antérioriser, et la voyelle ouverte /$/ à se fermer? La disparition de la voyelle /¡/, dont l’opposition phonologique avec /(/ est neutralisée chez un nombre croissant de locuteurs du français septentrional, ne peut pas tout résoudre. C’est dans ce cadre que s’est inscrite notre étude expérimentale de l’implémentation phonétique du contraste phonologique de nasalité pour les voyelles du français septentrional, tant en production qu’en perception de la parole. 2.1. Production de la parole Les études aérodynamique et articulatoire (Première partie, Chapitre 1 et Chapitre 2) ont montré que les voyelles orales étaient régulièrement nasalisées en français, et que leur degré de nasalisation dépendait de trois facteurs : (1) La position intrinsèque du voile du palais. Nos images IRM montrent qu’en contexte CV, la position du voile du palais varie selon le degré d’aperture de la voyelle orale, du plus haut pour les voyelles fermées /L,X/, au plus bas pour la voyelle ouverte /D/ (Cf. p.81), de sorte que le port vélo-pharyngal est légèrement ouvert pour cette voyelle. Dans tous les contextes, la voyelle /D/ est au moins légèrement nasalisée (Cf. p.89). (2) Le contexte phonologique. Les tracés de débit d’air nasal et les données d’imagerie attestent que toutes les voyelles orales peuvent être contextuellement nasalisées en français. Une assymétrie profonde a été constatée selon la position de la consonne nasale par rapport à la voyelle : il y a nettement plus de nasalisation progressive que de nasalisation régressive en français (Cf. pp.44 à 48 et p.78). Les voyelles orales les plus nasalisées surviennent dans les items nvn (Cf. p.51 et p.79). (3) La distinction à maintenir entre voyelles orales et voyelles nasales correspondantes. En contexte NV, les voyelles orales pour lesquelles le voile est le plus abaissé (d’après les données articulatoires ; Cf. p.82), ainsi que le plus longtemps (d’après les données 260 aérodynamiques, Cf. p.44), sont les voyelles fermées et certaines voyelles semifermées : /L,\,X,H,2/. Il s’agit d’orales qui n’ont pas de contraste phonologique à maintenir avec une nasale correspondante, et qui n’en sont pas non plus la contrepartie phonétique, étant donné que la véritable configuration orale des nasales du français a parfois évolué vers celle d’une voyelle semi-fermée (Cf. /o/ = [R] vs. /(/ = [4]). Les études articulatoire et acoustique (Première partie, Chapitre 2 et Chapitre 3) nous ont permis de caractériser la réalisation phonétique des voyelles nasales du français septentrional en relation avec celles des orales correspondantes. Comme le prédit la théorie acoustique de la production de la parole (Fant, 1960, Stevens, 1998), les effets acoustiques de l’abaissement du voile du palais sont très complexes, en particulier lorsque l’on prend en compte les données concernant plusieurs voyelles dans divers environnements phonologiques, et prononcées par plusieurs locuteurs. Par rapport aux voyelles orales, on observe dans le spectre des voyelles nasalisées diverses modifications de la fréquence des formants (qu’il s’agisse des pôles de la voyelle orale initiale qui sont déplacés, ou de nouveaux pôles du système couplé) relativement spécifiques à chaque timbre vocalique (Cf. p.127). Par contre, nous pensons qu’il est possible de proposer une généralisation des effets acoustiques du couplage nasal si l’on considère la répartition globale de l’énergie en fonction de la fréquence. Ainsi, de façon générale, les voyelles nasalisées sont nettement moins intenses que les orales correspondantes. La perte d’énergie est particulièrement marquée sous 1000 Hz et entre 2000 et 3000 Hz, de sorte que l’on assiste à une réduction de la proéminence dans la région de F1 et à un effacement presque complet de F3. Puisque la région située entre 1000 et 2000 Hz est relativement peu concernée par la chute d’énergie, nous avons décrit l’effet acoustique principal de la « nasalité phonétique » comme un renforcement de la compacité de la voyelle. Lors de la production des voyelles nasales du français, un ensemble de modifications articulatoires additionnelles interviennent en complément à l’abaissement du voile du palais par rapport aux orales correspondantes : arrondissement des lèvres, changement d’aperture, recul de la langue dans la bouche. Ces modifications articulatoires sont souvent plus marquées en contexte NV. Elles augmentent la distance acoustique entre voyelles orales et voyelles nasales du français (Cf. p.116). Dans le cas des voyelles nasales antérieures /(,¡/, F2 est plus bas et F1 est plus élevé que pour /(,¡/. Les mouvements fréquentiels induits par le couplage nasal seul ont 261 donc été renforcés par une modification de la configuration orale de la voyelle nasale, qui est plus ouverte et plus postérieure que l’orale correspondante. La voyelle /$/ est plus arrondie et plus postérieure, avec un F2 plus bas que la seule voyelle ouverte subsistant en français de Belgique : /D/. La voyelle /o/ est généralement produite avec les lèvres plus arrondies et la langue plus haut et plus en arrière dans la bouche que /o/. Les conséquences acoustiques de ces modifications interagissent de façon complexe avec le couplage nasal, de sorte que les propriétés spectrales de /o/ varient selon le contexte phonologique et les individus. Le F2 de la voyelle est souvent annihilé sous l’effet d’un zéro nasal. Dans les cas où un pôle subsiste dans la région de F2, sa fréquence est plus élevée que celui de l’orale correspondante, mais son amplitude est très basse (Cf. p.110). Malgré la diversité des articulateurs entrant en jeu dans l’ajustement de la configuration orale de chaque nasale du français, leurs effets acoustiques sont convergents : dans trois cas sur quatre /(,¡,$/, le F2 de la nasale est plus bas que celui de l’orale correspondante. Même si F2 est parfois plus élevé en fréquence pour /o/, il est alors très peu intense. C’est pourquoi nous avons décrit l’effet acoustique principal des articulations additionnelles liées à « la nasalité phonologique » en français comme un renforcement de la gravité de la voyelle. La combinaison des données obtenues dans les études aérodynamique et acoustique nous a permis d’investiguer l’évolution temporelle des diverses caractéristiques des voyelles nasales du français. Dans les items CV, l’abaissement du voile du palais peut être déclenché à différents moments, en fonction de la consonne qui précède : dès le milieu de la consonne si c’est une liquide, dans la deuxième partie de la consonne si c’est une fricative, et au moment du relâchement, voire plus tard dans la voyelle nasale, si la consonne est une occlusive (Cf. p.41). Par contre, les modifications de la configuration orale pour la nasale sont toujours coordonnées par rapport à la voyelle elle-même : au début de la mise en vibration des cordes vocales, la configuration orale est celle de l’orale (phonologique) correspondante, mais elle évolue rapidement, de sorte que dès le début du deuxième tiers de la voyelle nasale, tous les articulateurs ont atteint leur cible, y compris le voile du palais (Cf. p.123). Enfin, les voyelles nasales du corpus de l’étude aérodynamique (constitué de mots du français) avaient chez nos locuteurs une durée intrinsèque plus importante que les orales, pour un contexte phonologique donné (Cf. p.29). 262 2.2. Perception de la parole Les voyelles nasales du français sont donc plus longues, moins intenses, plus compactes, plus graves et plus dynamiques que les voyelles orales correspondantes. C’est sur la base de ces diverses propriétés que nous avons synthétisé les stimuli à partir desquels ont été menées les expériences perceptuelles. En tout, cinq types d’indices acoustiques ont été pris en compte dans l’élaboration des continuums orale/nasale : diminution de l’intensité de la voyelle (bandes passantes multipliées par deux) ou augmentation de sa compacité (bande passante élargie en F1, aplatie en F3, resserrée en F2) ; augmentation de sa gravité (baisse fréquentielle de F2) ; et, en complément, variation dans la durée totale de la voyelle ainsi que dans l’évolution dynamique des paramètres liés à la nasalité. Les expériences d’identification (Deuxième partie, Introduction, Chapitre 1 et Chapitre 3) ont permis de tester la validité des différents groupes de paramètres en tant qu’indices perceptuels de la nasalité, ainsi que la primauté éventuelle de certains indices par rapport aux autres. En ce qui concerne la validité, la combinaison des dimensions acoustiques de Compacité et de Gravité s’est révélée à la fois nécessaire et suffisante à la détection du contraste phonologique de nasalité pour les voyelles du français (Cf. p.176). Les taux d’identification nasale recueillis auprès des auditeurs francophones varient entre 0 et 100% en fonction de ces deux dimensions, et ce pour toutes les voyelles et dans presque toutes les conditions. Par contre, telle qu’elle a été implémentée, l’évolution temporelle des paramètres liés à la nasalité n’a pratiquement eu aucune influence sur les résultats obtenus. Les variations de durée n’ont également apporté que de faibles modifications au schéma de réponses des auditeurs, même si dans certains cas (items NVC) une durée plus importante a pu améliorer le taux de réponses « nasale » (Cf. p.183). Pour synthétiser la nasalité phonétique, l’expérience pilote menée auprès des auditeurs francophones a permis de déterminer que la dimension acoustique de Compacité était plus efficace que celle d’Intensité dans le cas des voyelles antérieures (Cf. p.157). Dans la synthèse à formants (en cascade), l’implémentation de la Compacité pour les postérieures aboutit de facto à une diminution générale de l’intensité de ces voyelles (Cf. p.160). La dimension acoustique de Compacité est également celle à partir de laquelle les auditeurs anglophones ont jugé de la nasalité des voyelles qui leur ont été présentées dans les items cvc (Cf. p.239). Malgré le fait que les stimuli aient été construits en référence à des mots du français, et bien que l’entraînement à la tâche d’identification ait été très court étant donné que le contraste phonologique de nasalité n’existe pas pour les voyelles de l’anglais, les auditeurs anglophones 263 ont atteint des performances tout à fait honorables, comparables avec celles obtenues par d’autres chercheurs à l’aide d’indices acoustiques plus ciblés. La Compacité est un bon candidat sur la piste de la propriété acoustique signalant la nasalité phonétique, indépendamment de la voyelle, du locuteur, et de la langue concernés. En ce qui concerne les dimensions de Compacité et de Gravité, et la primauté de l’une par rapport à l’autre, celle-ci varie en fonction du timbre vocalique et du contexte phonologique. Dans l’ensemble, la Compacité est prioritaire, en particulier pour les continuums (/( CVC. Par contre, pour tous les items NVC, l’identification d’une voyelle nasale dépend autant de sa valeur le long de la dimension de Gravité que de Compacité. La covariation observée en production de la parole, entre l’abaissement du voile du palais et les ajustements articulatoires additionnels, a donc pour corollaire en perception l’utilisation par les auditeurs des deux dimensions acoustiques correspondantes, de Compacité et de Gravité, lorsqu’ils doivent décider si une voyelle est une orale ou une nasale en français. Les expériences de discrimination (Deuxième partie, Chapitre 2) avaient pour objectif de déterminer, dans le cas des auditeurs francophones, si l’interaction perceptuelle était d’origine décisionnelle ou de l’ordre de la sensibilité auditive. Les résultats obtenus montrent que la covariation appropriée des deux dimensions accroît la distance perceptuelle entre les voyelles concernées : les stimuli [+G;+C] sont bien plus facilement discriminés des stimuli [-G;-C] que ne le sont entre eux les stimuli négativement corrélés (Cf. p.214). L’interaction est donc d’origine sensorielle chez les francophones, soit parce qu’ils ont modelé leur système perceptuel en rapport avec leur expérience linguistique, soit parce que l’intégration positive des dimensions de Compacité et de Gravité est une propriété stable préexistante du système auditif de l’espèce humaine, peut-être même indépendante de la parole proprement dite. Les expériences menées auprès des auditeurs anglophones (Deuxième partie, Chapitre 3) avaient pour objectif de déterminer si l’interaction perceptuelle était observée dans d’autres langues que le français. Dans certains cas (CVC Longues seulement), le même type d’interaction positive entre les dimensions de Compacité et de Gravité a été constaté pour les anglophones, tant au cours des tâches d’identification (Cf. p.240) que de discrimination (Cf. p.247). Même s’ils doivent être interprétés avec prudence en raison de l’effet de plancher affiché par les données de discrimination, les résultats penchent en faveur de l’existence d’un certain degré d’interaction perceptuelle d’origine sensorielle chez les auditeurs anglophones (en contexte CVC), alors qu’il n’y a à notre connaissance aucun cas attesté de postériorisation des voyelles nasalisées en anglais. Pour la plupart des expériences menées au cours de la deuxième partie de la thèse, les résultats obtenus sont qualitativement différents selon que les voyelles synthétiques étaient 264 insérées dans des items CVC ou NVC. En ce qui concerne les auditeurs francophones, seules les expérience d’identification ont été effectuées sur les stimuli NVC. On constate alors que, par rapport au stimulus préféré des auditeurs pour la voyelle orale, la dimension de Compacité seule est beaucoup moins efficace à faire évoluer la proportion de réponses « nasale ». Parallèlement, l’évolution de la voyelle le long de la dimension de Gravité contribue elle beaucoup plus à la décision de nasalité en contexte nvc (Cf. p.184). Ainsi, le contraste entre voyelles orales et voyelles nasales est maintenu pour les francophones dans les items nvc, mais il s’appuie sur d’autres propriétés acoustiques de la voyelle, telles que sa gravité et dans certains cas sa durée (Cf. p.183). Quant aux auditeurs anglophones, eux aussi utilisent peu la dimension de Compacité lorsqu’ils doivent décider de la nasalité d’une voyelle en contexte NVC, ce qui réduit d’autant leurs performances lors de la tâche d’identification. Les expériences de discrimination ont permis d’ajouter que les anglophones étaient moins sensibles à de faibles différences en Compacité dans des stimuli NVC que dans des CVC. 3. Une vision unifiée au sein d’une phonétique contrôlée Nous considérons que l’ensemble des résultats obtenus au cours de ce travail peuvent être rassemblés autour de deux thématiques essentielles : (1) Les relations entre phonétique et phonologie. Notre étude expérimentale de l’implémentation phonétique du contraste phonologique de nasalité pour les voyelles du français a mis à jour les deux phénomènes suivants : d’une part, les voyelles orales, dont la spécification phonologique est [-N], sont régulièrement nasalisées en français, et cette nasalisation ne peut être décrite comme résultant uniquement de l’action automatique de contraintes phonétiques (position intrinsèque du voile, coarticulation). D’autre part, les voyelles nasales, dont la spécification phonologique est [+N], sont réalisées phonétiquement avec le voile du palais abaissé, mais également avec une configuration orale profondément modifiée par rapport à celle de leur correspondante phonologique orale. (2) Les relations entre production et perception de la parole. La plupart des phénomènes observés au cours des expériences perceptuelles convergent avec les faits mis à jour dans notre étude de la production des voyelles orales et nasales du français. Une exception notable est l’évolution temporelle des paramètres liés à la nasalité. En ce qui concerne les voyelles nasales, la covariation de l’abaissement du voile du palais et des articulations additionnelles a pour corollaire l’interaction perceptuelle des dimensions acoustiques de Compacité et de Gravité chez les auditeurs francophones. De plus, leur utilisation plus intensive des propriétés de durée et de gravité de la voyelle lorsqu’elle est en contexte NVC fait écho au fait que les ajustements articulatoires sont plus importants en 265 contexte phonologique nasal. En ce qui concerne les voyelles orales, production et perception sont également intimement liées : Nous avons observé que la voyelle /D/ est légèrement nasalisée (donc plus compacte) dans tous les contextes. Parallèlement, c’est pour les continuums D/$ que la dimension de Gravité est déjà particulièrement utile à l’identification de la nasalité phonologique en contexte CVC. Néanmoins, la voyelle /D/ préférée des auditeurs reste de degré 1 sur l’échelle de Compacité. Nous avons constaté que la nasalisation progressive était importante en français, tant dans son ampleur que dans son étendue temporelle. Néanmoins, les voyelles orales les plus nasalisées sont celles que les auditeurs risquent le moins d’interpréter comme des voyelles nasales parce qu’il n’y a pas de nasales au timbre correspondant en français. D’autre part, les auditeurs sont précisément moins sensibles (ou moins attentifs) aux différences de Compacité en contexte NVC ; comme nous l’avons rappelé ci-dessus, ils utilisent également d’autres indices pour fonder leur jugement à propos de la nasalité d’une voyelle située en contexte phonologique nasal. Nous pensons que l’hypothèse du contrôle et de la connaissance phonétique est celle qui est le mieux à même de rendre compte de l’ensemble des phénomènes observés en relation avec ces deux thématiques. 3.1. Relations entre phonétique et phonologie L’implémentation phonétique du contraste phonologique de nasalité pour les voyelles du français présente un ensemble de caractéristiques qui, selon nous, démontrent la nécessité d’un mécanisme intermédiaire qui se distingue à la fois de la phonologie proprement dite et d’un composant phonétique automatique. Il s’agit en l’occurrence du mécanisme de contrôle s’appuyant sur la connaissance phonétique dont Kingston et Diehl (1994) défendent l’existence. En effet, nous avons montré à maintes reprises au cours de ce travail que la réalisation phonétique des voyelles orales et nasales du français ne pouvait être le produit de l’action automatique des contraintes physiques qui pèsent sur l’appareil vocal et auditif humain. Ainsi, la nasalisation progressive en français est d’une durée bien plus importante que si elle était uniquement liée à l’inertie du voile du palais. En ce qui concerne les voyelles nasales, les divers articulateurs intervenant dans l’ajustement de leur configuration orale ne peuvent tous être liés bio-mécaniquement à la descente du voile du palais proprement dite. Les différences 266 entre la configuration orale des voyelles nasales et celle des orales correspondantes, ou encore celles qui séparent nasalisation progressive et régressive en français, sont des différences régulières, nettes, et qualitatives ; c’est-à-dire qu’elles ne résultent pas de la variation continue le long d’une ou plusieurs dimensions articulatoires ou acoustiques, mais qu’elles sont le reflet d’un saut qualitatif opéré au cours d’une véritable réorganisation phonétique. Par ailleurs, ces différences semblent délibérées, c’est-à-dire qu’elles font partie d’une manière ou d’une autre du « plan » des locuteurs lorsqu’ils produisent les voyelles orales et nasales du français (sans qu’il soit nécessaire pour autant d’en référer à un niveau d’attention consciente). Au cours de ce travail, nous avons envisagé puis rejeté l’hypothèse selon laquelle ces différences qualitatives pouvaient simplement appartenir à la phonologie du français. Bien sûr, il est possible de représenter les phénomènes décrits ci-dessus en phonologie, soit comme le résultat d’autant de règles phonologiques spécifiques au français. Mais outre que l’on apporterait alors une réponse à ces phénomènes uniquement en termes de description, et non d’explication, cette démarche n’est véritablement nécessaire que si l’on pense qu’il ne peut pas y avoir de véritable connaissance (à propos des sons de la parole) en dehors de la phonologie. La proposition de Kingston et Diehl (1994) est que la connaissance phonétique se situe en dehors de la phonologie proprement dite. Ainsi, la phonologie regagne un niveau approprié d’abstraction, où opèrent les processus qui modifient les valeurs prises par les traits distinctifs, mais pas les mécanismes qui en assurent la réalisation phonétique. Cette division fonctionnelle entre phonologie et phonétique est particulièrement nécessaire en ce qui concerne la nasalité en français : il s’agit de distinguer entre la nasalité phonétique d’une part, qui survient à la suite de la coarticulation dans des voyelles dont la spécification phonologique est [-N], et la nasalité phonologique d’autre part, qui ne s’appuie qu’en partie seulement sur la nasalité phonétique, c’est-à-dire sur l’abaissement du voile du palais au cours des voyelles nasales [+N]. Il ne serait pas davantage approprié de décrire toutes les voyelles nasales du français comme [+arrière]. Les voyelles /(,¡/ restent des voyelles antérieures du français, qui s’opposent phonologiquement à /o/ sur la base du trait de lieu d’articulation, même si leur réalisation phonétique implique un certain degré de postériorisation par rapport à la configuration des orales correspondantes. Enfin, on pourrait considérer que les modifications articulatoires sont telles qu’elles ont été phonologisées dans leur ensemble, de sorte que les phonèmes /(,¡,$,o/ ont pour certains d’entre eux un nouveau contenu phonologique en français, soit /4,(¡),$,R/, avec désormais deux voyelles ouvertes /4,$/ et une voyelle semi-fermée /R/. Dans cette hypothèse, les 267 phénomènes de postériorisation sont considérés comme de simples corrélats des modifications d’aperture, ce qui va à l’encontre des résultats obtenus en perception de la parole, puisque nous avons synthétisé efficacement les trois continuums orale/nasale sans modifier la fréquence de F1. De plus, cette solution opère une distinction entre certaines nasales, pour lesquelles les modifications auraient une ampleur suffisante pour causer un changement phonétique, et les autres où ce ne serait pas (encore) le cas. Ce type d’explication ne tient pas non plus compte des variations contextuelles observées en production de la parole, où les modifications articulatoires sont particulièrement marquées lorsque la voyelle nasale est située en contexte phonologique nasal. Pour toutes ces raisons, nous pensons que les articulations qui covarient dans la production des voyelles nasales du français sont phonétiquement contrôlées et non véritablement phonologisées. C’est d’ailleurs ainsi que nous entendons rendre compte des variations dialectales observées entre français septentrional et français canadien, où les voyelles nasales sont réalisées de manière antériorisée par rapport à leur correspondante orale (Gendron, 1966, Maurais, 1993). Nous pensons que le système des oppositions phonologiques entre voyelles nasales et orales est fondamentalement le même dans ces deux dialectes, mais que chaque communauté linguistique a développé ses propres variantes contrôlées, son propre train d’articulations covariantes, bref, sa propre réorganisation en catégories phonétique distinctes, de façon à optimiser l’implémentation phonétique de ces voyelles. Il s’agit d’assurer une robustesse maximale au contraste phonologique de nasalité, à l’intérieur du cadre que délimitent les contraintes imposées (1) par l’appareil vocal et auditif humain, et (2) par le système linguistique du français : (1) Les contraintes acoustiques pesant sur la réalisation même de la nasalité vocalique impliquent que les voyelles nasales sont plus rapprochées dans l’espace acoustique et/ou perceptuel que leurs homologues orales, toutes choses étant égales par ailleurs. (2) En français, le contraste phonologique de nasalité doit être maintenu en contexte phonologique nasal, car ce contraste permet à lui seul de distinguer entre elles de nombreuses entrées du lexique de type NV(C). Il y a donc une double nécessité pesant sur la réalisation phonétique des voyelles nasales du français : d’une part, il faut qu’elles soient suffisamment différentes entre elles, d’autre part, elles doivent être suffisamment distinctes de leur correspondante phonologique orale, en particulier en contexte NVC. Nous considérons que c’est à ces besoins que répond la combinaison en français de la dimension acoustique de Compacité avec celle de Gravité lors de la réalisation phonétique des voyelles nasales, la dimension de Gravité étant plus souvent 268 utilisée par les locuteurs, comme par les auditeurs, dans les items NV(C). A ce propos, il est difficile à partir de nos données de déterminer si les phénomènes de compensation perceptuelle sont d’origine sensorielle ou décisionnelle en français. Les données obtenues auprès des auditeurs anglophones tendent à montrer qu’une partie au moins du phénomène de compensation peut être attribuée à une chute de la sensibilité auditive aux variations de Compacité d’une voyelle en contexte phonologique nasal. Quoi qu’il en soit, l’implémentation phonétique contrôlée permet le maintien du contraste phonologique en contexte phonologique nasal parce qu’elle assure une distance perceptuelle suffisante entre voyelles orales et nasales dans ce contexte. Enfin, nous avons montré que le moment où le voile s’abaissait pour la voyelle nasale en contexte CV dépendait des contraintes pesant sur la production (voire sur la perception) de la consonne précédente. Cette flexibilité temporelle est sans doute en partie possible parce que la réalisation phonétique d’une voyelle nasale du français ne consiste pas uniquement en un abaissement du voile du palais. 3.2. Relations entre production et perception Nous pensons que les rapports étroits observés entre production et perception des nasales en français d’une part, ainsi que les liens manifestes entre les résultats des expériences perceptuelles d’identification et de discrimination menées auprès des francophones d’autre part, gagnent à être intégrés au sein de la notion de connaissance phonétique. En référence à la proposition de Kingston et Diehl (1994), nous avons défini la connaissance phonétique comme une connaissance linguistique implicite qui, du point de vue du locuteur, consiste en une connaissance des représentations phonologiques à implémenter ainsi que de l’ensemble des contraintes imposées par l’utilisation pour la parole des appareils vocal et auditif humain. Nous avons argumenté en faveur de l’intégration, dans la connaissance phonétique, de contraintes de type « systémique », c’est-à-dire de contraintes imposées par la façon dont se structurent les oppositions phonologiques dans la langue concernée. Le principe fondateur du mécanisme de contrôle réside dans le fait que toutes ces contraintes limitent le comportement phonétique des locuteurs mais ne permettent pas de le prédire (même une fois connues les représentations phonologiques à implémenter). Du point de vue de l’auditeur, la connaissance phonétique repose sur un long apprentissage des phénomènes de covariation, qui fait en sorte que l’auditeur apprend à reconnaître l’organisation des propriétés acoustiques qui caractérisent chaque allophone, ainsi que la correspondance entre les allophones et leur phonème de référence. Kingston et Diehl 269 (1994) développent peu cet aspect de leur proposition, mais il nous semble fondamental lorsqu’il s’agit de rendre compte des phénomènes observés pour la nasalisation en français. En effet, nous considérons que l’ensemble des convergences observées entre production et perception des voyelles nasales (voir ci-dessus) attestent avant tout du fait que le locuteur et l’auditeur partagent une connaissance fine et subtile de phénomènes d’ordre phonétique (vs. phonologique), comme le fait que la voyelle orale /D/ est légèrement nasalisée dans tous les contextes en français (et que la nasale /$/ plus que d’autre est signalée par sa gravité), ou encore que la voyelle /R/, si elle est nasalisée, risque d’être confondue perceptuellement avec /o/ alors que tel n’est pas le cas pour un /H/ nasalisé, puisque /(/ = [4]. Après tout, les termes « auditeur » et « locuteur » renvoient à des rôles successivement joués par un seul et même individu. Il est donc extrêmement difficile de déterminer si production et perception se correspondent parce que le locuteur contrôle ses articulations afin de tirer parti de propriétés générales et stables du système auditif humain (auxquelles l’auditeur n’a pas accès) (1), ou bien si l’auditeur lui-même a appris à reconnaître les articulations covariantes signalant un allophone donné (2), voire si son expérience linguistique a modifié sa sensibilité auditive dans la direction appropriée (3). Dans les deux premiers cas selon nous s’exerce la connaissance phonétique, que ce soit de la part du locuteur (1), ou de la part de l’auditeur (2). On peut même dépasser la dichotomie entre les phénomènes perceptuels d’origine sensorielle et ceux d’origine décisionnelle, pour distinguer entre les propriétés stables et pré-existantes de l’appareil auditif humain (1), et la façon dont chaque individu a développé ses propres shémas perceptuels en interaction avec le milieu linguistique ambiant (2, 3). Dans le présent travail, nous avons envisagé l’hypothèse selon laquelle la covariation des dimensions de Compacité et de Gravité pour les voyelles nasales du français était un exemple de connaissance phonétique envisagée du point de vue du locuteur. L’origine de cette hypothèse tient dans le fait que la configuration orale des voyelles nasales du français est modifiée, mais que malgré la diversité des articulateurs concernés, et la variabilité observée pour les différents timbres vocaliques et les différents locuteurs, l’ensemble de ces modifications peuvent être décrites comme orientées autour d’un « objectif » commun, à savoir une propriété acoustique, voire perceptuelle, qui consiste en l’accroissement de la Gravité de la voyelle. Nous avons proposé que les locuteurs contrôlent activement ces diverses articulations parce que leur connaissance phonétique (des mécanismes auditifs généraux) leur indique que les corrélats acoustiques de l’abaissement du voile du palais (Compacité) et ceux des articulations complémentaires (Gravité) se rehaussent mutuellement et s’intègrent en une 270 propriété auditive unifiée (« C + G ») dans la perception des auditeurs (auditory enhancement theory, Diehl et al., 1990). En ce qui concerne la raison objective pour laquelle ces deux propriétés acoustiques pourraient interagir dans la perception des auditeurs, nous avons proposé de considérer la répartition de l’énergie acoustique entre 2000 et 3000 Hz, soit autour de F3. Plus une voyelle est compacte, et moins il y a d’énergie dans cette région (par définition) ; par ailleurs, plus une voyelle est grave (plus son F2 est abaissé) et moins il y a d’énergie acoustique disponible pour les formants supérieurs, au premier rang desquels F3. En proposant cette explication, nous nous inscrivons dans le cadre des théories de la perception vocalique qui prennent pour objet l’enveloppe spectrale de la voyelle considérée dans son ensemble (Bladon et Lindblom, 1981, Bladon, 1982). Récemment, Ito, Tsuchida et Yano (2001) ont montré que le rapport d’énergie entre les hautes et les basses fréquences apporte le même type d’information que la fréquence spécifique de F2 pour la perception (identification) du lieu d’articulation d’une voyelle. Afin d’étayer l’hypothèse de la covariation contrôlée, nous devions tout d’abord montrer que les deux dimensions sont effectivement utilisées par les auditeurs lors des tâches d’identification, c’est-à-dire qu’une voyelle est d’autant plus souvent jugée comme nasale qu’elle est plus compacte et plus grave. C’est le cas. Nous devions ensuite vérifier que l’interaction perceptuelle des deux dimensions est également constatée lors des expériences de discrimination, c’est-à-dire que la covariation de la Gravité et de la Compacité augmente la distance perceptuelle entre deux voyelles chez les francophones. C’est également le cas. La convergence entre les résultats des expériences d’identification et de discrimination auprès des auditeurs francophones atteste donc que l’interaction perceptuelle des dimensions de Gravité et de Compacité est d’origine sensorielle. Mais s’agit-il d’un mécanisme auditif général et préexistant ((1) ci-dessus) ou bien d’une intégration auditive apprise, acquise par l’expérience que constitue le milieu linguistique ambiant ((3) ci-dessus) ? Les expériences menées sur les auditeurs anglophones avaient pour objectif de tenter de répondre à cette question. Comme nous l’avons dit à plusieurs reprises, les résultats obtenus ne permettent malheureusement pas d’apporter une réponse claire à la question posée. Néanmoins, ils comportent plusieurs éléments qui penchent en faveur de l’existence d’une interaction positive des dimensions acoustiques de Compacité et de Gravité (en contexte phonologique oral) pour des auditeurs qui, a priori, n’ont pas eu d’expérience linguistique particulière dans ce sens. La question n’est cependant pas définitivement résolue, et une extension possible de notre travail pourrait consister en une vérification de l’existence du mécanisme auditif général d’intégration positive des deux dimensions auprès d’auditeurs pour qui l’expérience de la covariation est absolument contrôlée, comme par exemple une population d’oiseaux. Ainsi, Holt, Lotto et 271 Kluender (2001) ont montré que les cailles du Japon étaient capables d’apprendre (puis de réutiliser en vue d’un jugement) la covariation entre diverses propriétés acoustiques présentes dans la parole humaine. Par contre, ces oiseaux (dont le système auditif est très proche du nôtre) n’ont pas montré de sensibilité auditive pré-existante à la covariation, très régulière dans les langues du monde, entre le VOT d’une consonne et la fréquence fondamentale de la voyelle adjacente. Quant aux phénomènes relatifs à l’implémentation du contraste phonologique de nasalité en contexte phonologique nasal, ils ne peuvent pas selon nous être pleinement expliqués si l’on ne se réfère pas à la notion de contrôle et de connaissance phonétique : Soit la compensation perceptuelle observée en contexte NVC est d’origine sensorielle, qu’il s’agisse d’une propriété auditive acquise par les francophones ou d’une propriété préexistante, c’est-à-dire commune à tous les êtres humains. On peut alors considérer que les modifications de la configuration orale observées lors de la production des voyelles nasales relèvent d’une stratégie contrôlée de la part des locuteurs, d’autant que ces modifications sont plus régulières et plus marquées en contexte phonologique nasal. Dans ce cas de figure, le locuteur fait usage de sa connaissance phonétique des mécanismes généraux liés à la perception des sons coarticulés, et adapte son comportement phonétique en conséquence, de façon à rencontrer l’exigence de maintien du contraste phonologique entre voyelles orales et nasales en contexte phonologique nasal (voir ci-dessus, p.268). Soit la compensation est d’origine décisionnelle, et en corollaire les auditeurs ont appris à utiliser d’autres indices que ceux liés à la Compacité lorsqu’ils doivent identifier une voyelle dans un item NVC. Dans ce cas, c’est l’auditeur qui fait usage de sa connaissance phonétique à propos de la variation contextuelle d’une part, et des phénomènes de covariation propres au français d’autre part. C’est pourquoi il fonde son jugement quant à la nasalité d’une voyelle placée en contexte phonologique nasal autant sur la dimension de Gravité que sur celle de Compacité. Plusieurs auteurs interprètent les phénomènes de compensation partielle attestés dans la littérature pour les auditeurs anglophones comme résultant d’un mécanisme perceptuel d’ordre décisionnel, lié à l’expérience linguistique des auditeurs (Ohala, 1986, Beddor et Krakow, 1999). Nous avons déjà précédemment proposé que ce type de phénomène relève d’une véritable connaissance des phénomènes phonétiques (Cf. p.13). 272 En résumé, nous pensons que l’hypothèse de la connaissance phonétique, si on l’envisage tant du point de vue du locuteur que de celui de l’auditeur, permet de rendre compte d’une grande partie des faits établis au cours de notre étude expérimentale de la production et de la perception des voyelles orales et nasales du français. Dans le cas du locuteur, mais aussi dans le cas de l’auditeur, cette hypothèse nous amène à modéliser le comportement phonétique comme une stratégie adaptative d’un individu utilisant pour communiquer un système symbolique biologiquement fondé. Selon nous, le mécanisme de contrôle qui s’exerce continuellement sur l’implémentation phonétique des représentations phonologiques, et le produit qui en résulte, à savoir un ensemble de catégories phonétiques distinctes, peuvent constituer le fondement d’une théorie du changement phonétique. Les notions de contrôle et de connaissance phonétique permettent en effet à la fois de rendre compte de l’inhérente variabilité des réalisations phonétiques (pour différents locuteurs, dans différentes langues et dans différents contextes) et de leur nécessaire structuration au sein d’une communauté linguistique donnée. En conclusion, ce modèle d’implémentation phonétique suppose, par rapport au modèle automatique, qu’un plus grand nombre d’articulations sont activement contrôlées de la part des locuteurs (et que certains mécanismes perceptuels le sont tout autant de la part des auditeurs), mais en contrepartie, il permet de rendre compte d’une part plus importante de la variabilité attestée dans les réalisations phonétiques. En ce sens, les notions de contrôle et de connaissance phonétique permettent de mieux penser les relations entre phonétique et phonologie d’une part, et entre production et perception de la parole d’autre part. 273 Conclusion En conclusion, notre travail a principalement permis d’effectuer deux avancées en ce qui concerne l’étude générale des phénomènes de nasalité vocalique : (1) Nous avons montré qu’il est possible de caractériser les effets acoustiques de la nasalité vocalique indépendamment des facteurs qui en influencent le détail, à savoir le timbre vocalique, le degré de couplage, l’anatomie du locuteur, etc. Notre travail débouche sur la proposition de la Compacité en tant que corrélat acoustique général de la nasalité, la Compacité résidant en un aplatissement du spectre sous 1000 Hz, et surtout au-delà de 2000 Hz, mais pas dans la plage fréquentielle intermédiaire, entre 1000 et 2000 Hz. L’une des perspectives de recherche suscitée par ce travail consiste en la validation du lien entre Compacité et nasalité pour d’autres langues que le français et l’anglais. (2) Notre étude intégrée des phénomènes de production et de perception nous a permis d’aboutir à une caractérisation phonétique structurée de l’implémentation phonétique du contraste phonologique de nasalité pour les voyelles du français. L’efficacité éprouvée de nos stimuli semi-synthétiques constitue la validation de notre analyse des relations entre les phénomènes étudiés au niveau aérodynamique, articulatoire, et acoustique pour la nasalité en français. Nous sommes parvenue à synthétiser des continuums orale/nasale jugés excellents par les auditeurs en faisant varier uniquement la Compacité et la Gravité des voyelles concernées. Parallèlement à la mise à jour de ces propriétés générales de la nasalité, notre analyse de la variabilité allophonique, phonétique et dialectale des voyelles orales et nasales correspondantes en français nous a amenée à considérer que le comportement phonétique (tant du point de vue de l’auditeur que du locuteur) est une stratégie adaptative et contrôlée qui s’appuie sur une véritable connaissance des contraintes que s’imposent mutuellement phonétique et phonologie. 275 Bibliographie Anderson, S.R. 1985. Phonology in the Twentieth Century : Theories of Rules and Theories of Representations. Chicago, University of Chicago Press. Baken, R.J. et Orlikoff, R.F. 2000. Clinical measurement of Speech and Voice. San Diego, Singular. Beddor, P.S. 1993. The perception of nasal vowels. Phonetics and Phonology, vol.5, Nasals, Nasalization and the velum, M.K. Huffman et R.A. Krakow (eds), San Diego, Academic Press, 171-196. Beddor, P.S., Krakow, R.A. et Goldstein, L.M. 1986. Perceptual constraints and phonological change: a study of nasal vowel height. Phonology Year Book, 3, 197-218. Beddor, P.S. et Krakow, R.A. 1999. Perception of coarticulatory nasalization by speakers of English and Thai : Evidence for partial compensation. Journal of the Acoustical Society of America, 106,5, 2868-2887. Bell-Berti, F. 1973. The velopharyngeal mechanism: an electromyographic study. Status Report on Speech Research (supplement), New York : Haskins Labs. Bell-Berti, F. 1980. Velopharyngeal function: a spatial-temporal model. Speech and Language: Advances in Basic Research and Practice, N.J. Lass (ed.), New York, Academic Press, vol.4, 291-316. Benguerel, A.P., Hirose, H., Sawashima, M. et Ushijima, T. 1977. Velar coarticulation in French: a fiberscopic study. Journal of Phonetics 5,2, 149-158. Bernthal, J.E. et Beuckelman, D.R. 1977. The effect of changes in velopharyngeal orifice area on vowel intensity. Cleft Palate Journal, 14, 63-77. Bladon, R.A.W., 1982, Arguments against formants in the auditory representation of speech. The Representation of Speech in the Peripheral Auditory System, R. Carlson et B. Grandstrom (eds), Amsterdam, Elsevier, 95-102. Bladon, R.A.W. et Lindblom, B. 1981. Modeling the judgment of vowel quality differences, Journal of the Acoustical Society of America, 69, 1414-1422. Bloomer, H. et Peterson, G. 1955. A spectrographic study of hypernasality. Cleft Palate Bulletin, 5, 5-6. Bothorel, A., Simon, P., Wioland, F. et Zerling, J.-P. 1986. Cinéradiographie des voyelles et consonnes du français. Travaux de l’Institut de Phonétique de Strasbourg, 18. Brichler-Labaeye, C. 1970. Les voyelles françaises. Mouvements et positions articulatoires à la lumière de la radiocinématographie, Paris, Klincksieck, (coll. Bibliothèque française et romane, série A, n°18). Browman, C.P. et Goldstein, L.M. 1990. Representation and reality : physical systems and phonological structure. Journal of Phonetics, 18, 411-424. Browman, C.P. et Goldstein, L.M. 1992. Articulatory Phonology : An overview. Phonetica 49, 155-180. Calliope, 1989. La parole et son traitement automatique. Paris, Masson. Chen, M.Y. 1997. Acoustic correlates of English and French nasalized vowels. Journal of the Acoustical Society of America, 102, 4, 2360-2370. Chomsky, N. et Halle, M. 1968. The sound pattern of English. New York, Harper and Row. Clumeck, H. 1976. Patterns of soft palate movements in six languages. Journal of Phonetics, 4 4, 337-351. 277 Cohn, A. C. 1990. Phonetic and phonological rules of nasalization. UCLA Working papers in Phonetics, 76. Cohn, A. C. 1993. Nasalization in English : phonology or phonetics? Phonology, 10, 43-81. Dang, Honda, Suzuki 1996. Morphological and acoustical analysis of the nasal and the paranasal cavities, Journal of the Acoustical Society of America, 96, 2088-2100. Delattre, P. 1954. Les attributs acoustiques de la nasalité vocalique et consonantique. Studia Linguistica VII, 2,103-109. Delattre, P. 1968a. La Radiographie des voyelles françaises et sa corrélation acoustique. The French Review, 42, 1, 48-65. Delattre, P. 1968b. Divergences entre nasalités vocalique et consonantique en français. Word, 24, 64-72. Demolin, D., Hassid, S., Metens, T. et Soquet, A. 2002. Real-time MRI and articulatory coordination in speech. Comptes Rendus Biologies, 325, 547-556. Demolin, D., Metens, T., Delvaux, V. et Soquet, A. (sous presse) Determination of velum opening for French Nasal Vowels by Magnetic Resonance, Journal of Voice. Dickson, D.R. 1962. An acoustic study of nasality. Journal of Speech and Hearing Research, 5, 103-111. Diehl, R.L. 1991. The Role of Phonetics within the Study of Language. Phonetica, 48, 120-134. Diehl, R.L., Kluender K.R. et Walsh, M.A. 1990. Some auditory bases of speech perception and production, Advances in Speech, Hearing and Language Processing, W.A. Ainsworth (ed.), London, JAI Press, vol.1, 243-267. Diehl, R.L., Molis, M.R., Castleman, W.A. 2001. Adaptive Design of Sound Systems. Some auditory considerations. The Role of Speech perception in Phonology. New York, Academic Press. Dominicy, M. La dynamique du système phonologique du français, Le Français Moderne, 68, 2000, 11pp. Fant, G. 1956. On the predictability of formant levels and spectrum envelopes from formant frequencies. For Roman Jakobson, The Hague, Netherlands : Mouton, 109-120. Fant, G. 1960. Acoustic Theory of Speech Production. Mouton, The Hague. Farnetani, E. 1986. Lingual and velar coarticulatory movements in the production of /n/ in italian: some preliminary data. Quaderni del Centro di Studio per le Richerche di Fonetica, Padova, Consiglio nazionale delle richerche, 7, 211-228. Farnetani, E. et Recasens, D. 1999. Coarticulation models in recent speech production theories. Coarticulation : Theory, Data and Techniques, W. Hardcastle et K. Hewlett (eds), Cambridge, Cambridge University Press. Fowler, C.A. 1990. Some regularities in speech are not consequences of formal rules : comments on Keating’s paper. Papers in Laboratory phonology I : Between the grammar and physics of speech, J. Kingston et M. Beckman (eds), Cambridge, Cambridge University Press, 476-89. Fowler, C.A. 1986. An event approach to the study of speech perception from a direct-realist perspective, Journal of Phonetics, 14, 3-28. Fowler, C.A., 1996. Listeners do hear sounds, not tongues. Journal of the Acoustical Society of America, 99, 1730-1741. 278 François, D. 1974. Français parlé ; Analyse des unités phoniques et significatives d’un corpus recueilli dans la région parisienne, Paris, S.E.L.A.F. Fritzell, B. 1969. A combined electromyographic and cineradiographic study: activity of the levator and palatoglossus muscles in relation to velar movements. Acta OtoLaryngologica. Suppl. 250. Fujimura, O. et Lindqvist, J. 1971. Sweep-tone measurements of vocal-tract characteristics. Journal of the Acoustical Society of America, 49,2, 541-558. Garner, W.R. 1974. The processing of information and structure. Potomac, Erlbaum. Gendron, J.-D. 1966. Tendances phonétiques du français parlé au Canada, Paris, Klincksieck, Québec, Laval, (coll. Bibliothèque française et romane, série E, n°2). Green, D.M. et Swets, J.A. 1966, Signal Detection Theory and Psychophysics, New York, Wiley. Hawkins, S. et Stevens, K.N. 1985. Acoustic and perceptual correlates of the non nasal-nasal distinction for vowels. Journal of the Acoustical Society of America, 77, 4, 1560-1575. Holt, L.L., Lotto, A.J. et Kluender, K.R. 2001. Influence of fundamental frequency on stopconsonant voicing perception : A case of learned covariation or auditory enhancement? Journal of the Acoustical Society of America, 109, 2, 764-774. House, A.S. et Stevens, K.N. 1956. Analog studies of the nasalization of vowels. Journal of Speech and Hearing Disorders. 21,2, 218-232. Huffman, M. 1991. Time varying properties of contextually nasalized vowels : acoustics and perception. Proceedings 12th ICPhSc, Aix-en-Provence, vol.3, 130-133. Ito M., Tsuchida J. et Yano, M. 2001. On the effectiveness of whole spectral shape for vowel perception, Journal of the Acoustical Society of America, 110, 2, 1141-1149. Jakobson R., Fant G. et Halle M., Preliminaries to speech analysis : the distinctive features and their correlates, Cambridge, The MIT Press, 1952. Jha, S.K.1986. The nasal vowels in Maithili : an acoustic study. Journal of Phonetics, 14, 223230. Johnson, K. 1997. Acoustic and Auditory Phonetics, Oxford, Blackwell. Jusczyk, P.W. 1992. Developing phonological categories from the speech signal, Phonological Developments : Models, research, implications, C.A. Ferguson, L. Menn et C. StoelGammon (eds), Timonium MD, York Press. Jusczyk, P.W. 1993. From general to language-specific capacities : The WRAPSA model of how speech perception develops. Journal of Phonetics, 21, 3-28. Kawasaki, H. 1986. Phonetic explanation for phonological universals: the case of distinctive vowel nasalization. Experimental phonology. J.J. Ohala et J.J. Jaeger (eds), New York, Academic Press, 81-103. Keating, P. 1985. Universal phonetics and the organization of grammars. Phonetic linguistics : Essays in honor of Peter Ladefoged, V.A. Fromkin (ed.), Orlando, Academic Press, 115132. Keating, P.A. 1988. The phonology-phonetics interface. Linguistics : The Cambridge survey, F.J. Newmeyer (ed.), Cambridge University Press, vol.1, 281-302. Keating, P. 1990. Phonetic representations in a generative grammar. Journal of Phonetics, 18, 321-334. 279 Kent, R.D., Liss, J. et Philips, B.J. 1989. Acoustic analysis of velopharyngeal dysfunction in speech. Communicative disorders related to cleft lip and palate, K.R. Bzoch (ed.), Boston, College-Hill Press, 3e edition, 258-270. Kingston, J. (A paraître). Learning foreign vowels. Language and Speech. Kingston, J. et Diehl, R. L. 1994. Phonetic Knowledge. Language, 70, 3, 419-453. Kingston, J. et Diehl, R. 1995. Intermediate properties in the perception of distinctive feature values. Papers in Laboratory phonology IV : Phonology and Phonetic Evidence, B. Connel et A. Arvanti (eds), Cambridge, Cambridge University Press, 7-27. Kingston J. et Macmillan, N.A. 1995. Integrality of nasalization and F1 in vowels in isolation and before oral and nasal consonants : A detection-theoretic application of the Garner paradigm. Journal of the Acoustical Society of America, 97, 2, 1261-1285. Klatt, D.H. 1980. Software for a Cascade/Parallel Formant Syntheziser. Journal of the Acoustical Society of America, 67, 971-995. Krakow, R.A., Beddor, P.S., Goldstein, L.M., and Fowler, C. 1988. Coarticulatory influences on the perceived height of nasal vowels. Journal of the Acoustical Society of America, 83, 3, 1146-1158 Krakow, R.A. et Beddor, P.S. 1991. Coarticulation and the perception of nasality. Proceedings 12th ICPhS, Aix-en-Provence, vol.5, 38-41. Krakow, R.A. et Huffman, M.K. 1993. Instruments and techniques for investigating nasalization and velopharyngeal function in the laboratory : an introduction. Phonetics and Phonology, vol.5, Nasals, Nasalization and the velum, M.K. Huffman et R.A. Krakow (eds), San Diego, Academic Press, 147-167. Kuhl, P.K., Williams, K.A., Lacerda, F., Stevens, K.N., Lindblom, B. 1992. Linguistic experience alters phonetic perception in infants by 6 months of age, Science, 255, 606-608. Kurowski, K. et Blumstein, S. 1984. Perceptual integration of the murmur and formant transitions for place of articulation in nasal consonants. Journal of the Acoustical Society of America, 76,2, 383-390. Kurowski, K. et Blumstein, S. 1987. Acoustic properties for place of articulation in nasal consonants. Journal of the Acoustical Society of America, 81, 1917-1927. Kurowski, K. et Blumstein, S. 1993. Acoustic properties for the perception of nasal consonants. Phonetics and Phonology, vol.5, Nasals, Nasalization and the velum, M.K. Huffman et R.A. Krakow (eds), San Diego, Academic Press, 197-222. Labov, W., Yaeger, M. et Steiner, R., 1972. A quantitative study of sound change in progress. Philadelphia : The US Regional Survey. Ladefoged, P. 1982. A Course in Phonetics. New York : Harcourt Brace Jovanovich. Ladefoged, P. et Maddieson, I. 1996. The Sounds of the World’s Languages. Oxford, Blackwell. Lefebvre, A. 1985. Les voyelles moyennes. Phonologie d’enfants de la région lilloise. La phonologie de l’enfant français de six ans. Variétés régionales, A-M. Houdebine (ed.), Hambourg, Buske, vol.2, 37-65. Liberman, A.M. et Mattingly, I.G. 1985. The motor theory of speech perception revised. Cognition, 21, 1-36. Liljencrants, J. et Lindblom, B. 1972. Numerical simulations of vowel quality systems : the role of perceptual contrast. Language, 48, 839-862. 280 Lindblom, B. 1983. Economy of speech gestures. The Production of Speech, P. MacNeilage (ed.), Berlin, Springer, 217-246. Lindblom, B. 1990. Explaining phonetic variation : A sketch of the H&H theory. Speech Production and speech modeling, W.J. Hardcastle et A. Marchal (eds), Dodrecht, Kluwer, 403-439. Lindblom, B. MacNeilage, P.F. et Studdert-Kennedy, M. 1983. Self-organizing processes and the explanation of phonological universals. Explanations of Linguistic Universals, B. Butterworth, B. Comrie, et O. Dahl (eds), Mouton, The Hague, 181-203. Lindblom, B. et Engstrand, O. 1989. In what sense is speech quantal? Journal of Phonetics, 17, 107-121. Lindqvist, J. et Sundberg, J. 1976. Acoustic properties of the nasal tract. Phonetica 33,3, 161168. Lonchamp, F. 1979. Analyse acoustique des voyelles nasales françaises, Verbum : revue de linguistique de l’université de Nancy II, II, 9-54. Lotto, A.J., Kluender K.R. et Holt, L.L. 1997. Perceptual compensation for coarticulation by Japanese quail. Journal of the Acoustical Society of America, 102, 1134-1140. Lotto, A.J. et Kluender, K.R. 1998. General contrast effects in speech perception : Effect of preceding liquid on stop consonant identification. Perception and Psychophysics, 60, 602619. Lubker, J.F. 1968. An electromyographic-cinefluorographic investigation of velar function during normal speech production. Cleft Palate Journal, 5, 1-18. Macmillan, N.A. et Creelman, C.D., 1991. Detection theory : A user’s guide. New York, Cambridge University Press. Macmillan, N.A., Kingston, J., Thorburn, R., Dickey, A.W. et Bartels C. 1999. Integrality of nasalization and F1. II Basic sensivity and phonetic labeling measure dinstinct sensory and decision-rule interactions, Journal of the Acoustical Society of America, 106,5, 29132932. Maeda, S. 1982. A digital simulation method of the vocal-tract system. Speech Communication, 1, 199-229. Maeda, S. 1993. Acoustics of vowel nasalization and articulatory shifts in French nasal vowels. Phonetics and Phonology, vol.5, Nasals, Nasalization and the velum, M.K. Huffman et R.A. Krakow (eds), San Diego, Academic Press, 147-167. Manuel, S. Y., 1990. The role of contrast in limiting vowel-to-vowel coarticulation in different languages. Journal of the Acoustical Society of America. 88,3, 1286-1298. Maturi 1991. The perception of consonantal nasality in Italian: conditioning factors. Proceedings 12th ICPhSc, Aix-en-Provence, vol. 5, 50-53. Maurais, J. 1993. Etat de la recherche sur la description de la francophonie au Québec. Le français dans l’espace francophone : description linguistique et sociolinguistique de la francophonie, Paris, Champion, vol.1, 79-93. Moll, K. 1962. Velopharyngeal closure in vowels. Journal of Speech and Hearing Research, 5,1, 30-37. Moll, K. et Shriner, T.H. 1967. Preliminary investigation of a new concept of velar activity during speech. Cleft Palate Journal, 4,1, 58-69. Muller, E. et Brown, W.S. 1980. Variations in the supraglottal waveform and their articulatory interpretation, Speech and Language, 4, 317-389. 281 Nearey, T. M. 1995. A double-weak view of trading relations. Papers in Laboratory phonology IV : Phonology and Phonetic Evidence, B. Connell et A. Arvanti (eds), Cambridge, Cambridge University Press, 28-39. Nève F.-X., 1984. Auquin doute : un parfum brun s’en va... : la disparition du phonème /¡/ en français contemporain. Le Français Moderne, 52, 4, 98-219. Ohala, J.J. 1971. Monitoring soft palate movements in speech. Project on Linguistic Analysis, University of California, Berkeley, 2, 13-27. Ohala, J.J. 1975. Phonetic explanations for nasal sound patterns. Nasa½lfest. 289-316. Ohala, J.J. 1981a. Articulatory constraints on the cognitive representation of speech. The cognitive representation of speech, T. Myers, J. Laver et J. Anderson (eds), Amsterdam, North-Holland, 111-122. Ohala, J.J., 1981b. The listener as a source of sound change, Papers from a Parasession on Language and Behavior, Chicago Linguistics Society, 178-203. Ohala, J.J. 1983. The origin of sound patterns in vocal tract constraints. The production of speech, P.F. MacNeilage (ed.), New York, Springer Verlag, 189-216. Ohala, J.J., 1986. Phonological evidence for top-down processing in speech perception. Invariance and variability in speech processes, J.S. Perkell et D.H. Klatt (eds), Hillsdale, Lawrence Erlbaum, 386-397. Ohala, J.J. 1990. There is no interface between phonology and phonetics : a personal view. Journal of Phonetics,18, 153-171. Ohala, J. J. et Busà, M. G. 1995. Nasal loss before voiceless fricatives: a perceptually-based sound change. Rivista di Linguistica 7, Special issue on The Phonetic basis of Sound Change, C.A. Fowler (ed.), 125-144. Ohala, J. J. et Jaeger, J. J. 1986. (eds) Experimental phonology. New York, Academic Press. Pierrehumbert, J.B. 1980. The phonology and phonetics of English intonation. Thèse de doctorat non publiée, MIT. Pierrehumbert, J.B. 1990. Phonological and phonetic representation. Journal of Phonetics, 18, 375-394. Pierrehumbert, J.B. et Beckman, M. 1988. Japanese tone structure. Cambridge : MIT Press. Repp, B.H., 1982. Phonetic trading relations and context effects : New experimental evidence for a speech mode of perception. Psychological Bulletin, 2, 81-110. Rochet, A.P. et Rochet, B.L. 1991. The effect of vowel height on patterns of assimilation nasality in French and English. Proceedings 12th ICPhSc, Aix-en-Provence, vol.3, 54-57. Ruhlen, M. 1975. Patterning of nasal vowels. Nasa½lfest, 333-351. Ruhlen, M. 1978. Nasal vowels. Universals of Human Language, J.H. Greenberg, C.A. Ferguson et E.A. Moravcsik (eds), Standford University Press, vol. 2, 203-241. Solé, M.J. 1992. Phonetic and phonological processes : the case of nasalization. Language and Speech, 35, 1, 29-43. Solé, M.J. 1995. Spatio-Temporal patterns of velopharyngeal action in phonetic and phonological nasalization, Language and Speech, 38, 1, 1-23. Solé, M.J. et Ohala, J.J. 1991. Differentiating between phonetic and phonological processes : the case of nasalization. Proceedings 12th ICPhS, Aix-en-Provence, vol.3, 110-113. Stevens, K. 1998. Acoustic phonetics, Cambridge, MIT Press. 282 Straka, G. 1979. Remarques sur les voyelles nasales, leur origine et leur évolution en français. Les sons et les mots, Choix d’études de phonétique et de linguistique, Paris, Klincksieck, 501-531. Sussman, H.M., Mccaffrey, H.A. et Matthews, S.A. 1991. An investigation of locus equations as a source of relational invariance for stop place categorization. Journal of the Acoustical Society of America, 90, 1309-1325. Sussman, H.M. et Shore, J. 1996. Locus equations as phonetic descriptors of consonantal place of articulation, Perception and Psychophysics, 58, 6, 936-946. Takeuchi S., Kasuya, H. et Kido, K. 1975. On the acoustic correlate of nasality. Journal of the Acoustical Society of Japan 31, 298-309. Teston, B. et Galindo, B. 1990. Physiologia : un logiciel d' analyse des paramètres physiologiques de la parole. Travaux de l' Institut de Phonétique d' Aix, 13, 197-217. Trubetzkoy, N.S. 1939. Grundzüge der Phonologie, Travaux du Cercle Linguistique de Prague, 7, [traduction anglaise : C. Baltaxe (1969), Principles of Phonology. Berkeley, University of California Press]. Ushijima, T. et Hirose, H. 1974. Electromyographic study of the velum during speech. Journal of Phonetics 2,4, 315-326. Vallée, N. 1994. Systèmes vocaliques : de la typologie aux prédictions. Thèse de doctorat non publiée, ICP Grenoble. Vihman, M.M. 1996. Phonological development. The Origins of Language in the Child, Cambridge, Blackwell. Walter, H. 1994. Variétés actuelles des voyelles nasales du français. Diachronie et variation linguistique R. Van Deyck (ed.), Gent, Communication et cognition, (coll. Studies in language), 223-236. Werker, J.F., Gilbert, J.H.V., Humphrey, K. et Tees, R.C. 1981. Developmental aspects of cross-language speech perception. Child Development, 52, 349-355. Werker, J.F. et Polka, L. 1993, Developmental changes in speech perception : New challenges and new directions, Journal of Phonetics, 21, 83-101. Wright, J.T. 1986. The Behavior of Nasalized Vowels in the Perceptual Vowel Space. Experimental phonology. J.J. Ohala et J.J. Jaeger (eds), New York, Academic Press, 4567. Young, F.W. et Hamer, R.M., 1979. Multi-dimensional scaling : history, theory and applications. Hillsdale, Erlbaum. Young, F.W. et Harris, D.F. 1990. Multidimensional Scaling : Procedure ALSCAL, SPSS Base System User’s Guide, 396-472. Zerling, J.-P. 1984. Phénomènes de nasalité et de nasalisation vocaliques : Etude cinéradiographique pour deux locuteurs. Travaux de l’Institut de Phonétique de Strasbourg, 16, 241-266. 283 Table des Matières INTRODUCTION........................................................................................................ - 3 1. Choix du sujet .................................................................................................................. 4 2. Contrôle et relations entre phonétique et phonologie ...................................................... 4 3. Contrôle et relations entre production et perception de la parole .................................... 8 4. La nasalité vocalique...................................................................................................... 10 4.1. Voyelles nasales et relations entre phonétique et phonologie ................................... 10 4.2. Voyelles nasales et relations entre production et perception de la parole ................. 13 5. Aperçu de la thèse ......................................................................................................... 15 PREMIERE PARTIE : PRODUCTION DES VOYELLES NASALES DU FRANÇAIS . 17 Etude aérodynamique ...................................................................................................................... 18 1. Matériel et Méthode ....................................................................................................... 19 1.1. Sujets .......................................................................................................................... 19 1.2. Corpus ........................................................................................................................ 19 1.3. Matériel ....................................................................................................................... 22 1.4. Logiciel........................................................................................................................ 23 1.5. Les données ............................................................................................................... 23 2. Résultats : données quantifiées ..................................................................................... 23 2.1. Paramètres d’analyses ............................................................................................... 23 2.2. Tendances générales ................................................................................................. 25 2.3. Voyelles ...................................................................................................................... 27 a. Type de voyelle.......................................................................................................... 29 b. Contexte phonologique.............................................................................................. 30 2.4. Consonnes.................................................................................................................. 32 2.5. Voyelles nasales......................................................................................................... 34 2.6. Consonnes nasales .................................................................................................... 35 2.7. Résumé des résultats ................................................................................................. 36 3. Résultats : analyse des tracés aérodynamiques ........................................................... 36 3.1. Items cv ...................................................................................................................... 36 a. C[occlusive] V ................................................................................................................... 36 b. C[fricative] V c. C[liquide] V ...................................................................................................................... 41 3.2. Items NV ...................................................................................................................... 44 3.3. Items VN ...................................................................................................................... 48 3.4. Items NVN .................................................................................................................... 51 .................................................................................................................... 38 285 3.5. 4. Items CVC et CV.CV ...................................................................................................... 54 Discussion ...................................................................................................................... 54 Etude articulatoire ............................................................................................................................ 64 1. Matériel et méthode ....................................................................................................... 65 1.1. Sujets .......................................................................................................................... 65 1.2. Corpus ........................................................................................................................ 65 1.3. Matériel et technique .................................................................................................. 66 1.4. Traitement des données ............................................................................................. 69 2. Résultats ........................................................................................................................ 70 2.1. Voyelles nasales vs. voyelles orales correspondantes .............................................. 70 a. /D/ vs. /$/..................................................................................................................... 70 b. /(/ vs. /(/ ..................................................................................................................... 71 c. /o/ vs. /o/ ..................................................................................................................... 71 d. /¡/ vs. /¡/................................................................................................................... 76 2.2. Les quatre voyelles nasales du français .................................................................... 76 a. La position du voile. ................................................................................................... 76 b. Le système des voyelles nasales du français. .......................................................... 76 2.3. Voyelles orales et nasalité.......................................................................................... 77 a. Nasalité contextuelle.................................................................................................. 78 b. Position intrinsèque du voile pour les voyelles orales ............................................... 81 3. Discussion ...................................................................................................................... 83 3.1. Résultat 1 : voyelles nasales vs. voyelles orales correspondantes ........................... 84 3.2. Résultat 2 : position du voile pour les voyelles nasales ............................................. 86 3.3. Résultat 3 : position du voile pour les voyelles orales................................................ 87 a. Nasalité contextuelle.................................................................................................. 87 b. Position intrinsèque du voile du palais ...................................................................... 89 c. Le cas des voyelles fermées ..................................................................................... 90 Etude acoustique .............................................................................................................................. 92 1. Introduction .................................................................................................................... 93 2. Matériel et méthode ....................................................................................................... 96 2.1. Sujets .......................................................................................................................... 96 2.2. Corpus ........................................................................................................................ 96 2.3. Enregistrement et traitement du signal....................................................................... 96 2.4. Données acoustiques ................................................................................................. 96 3. Oralité, nasalité phonétique et nasalité phonologique ................................................... 99 3.1. Bandes d’énergie........................................................................................................ 99 286 3.2. Orales, nasalisées et nasales correspondantes....................................................... 101 a. /D/, [D], /$/ ................................................................................................................. 101 b. /(/, [(], /(/.................................................................................................................. 104 c. /¡/, [¡], /¡/............................................................................................................... 107 d. /o/, [o], /o/.................................................................................................................. 110 3.3. Analyse discriminante............................................................................................... 113 a. Principe général....................................................................................................... 113 b. Méthode ................................................................................................................... 113 c. Redondance de l’information ................................................................................... 114 d. Nasalité phonétique et nasalité phonologique......................................................... 115 3.4. Résumé des résultats ............................................................................................... 117 4. Dynamique des propriétés acoustiques de la nasalité en français.............................. 117 4.1. Nasalité phonétique vs. nasalité phonologique ........................................................ 117 4.2. Nasalité contextuelle vs. nasalité phonologique....................................................... 123 5. Discussion .................................................................................................................... 127 5.1. Effets acoustiques de l’abaissement du voile du palais ........................................... 127 5.2. Propriétés acoustiques des voyelles nasales du français ........................................ 130 Discussion : Production des voyelles nasales du français ....................................................... 133 DEUXIEME PARTIE : PERCEPTION DES VOYELLES NASALES DU FRANÇAIS 141 Introduction et méthodologie générale ........................................................................................ 142 1. Questions de recherche ............................................................................................... 143 2. Paradigmes expérimentaux ......................................................................................... 145 2.1. Identification.............................................................................................................. 145 2.2. Discrimination ........................................................................................................... 148 3. Stimuli........................................................................................................................... 149 4. Expérience pilote.......................................................................................................... 154 4.1. Matériel et méthode .................................................................................................. 155 4.2. Résultats................................................................................................................... 157 4.3. Conclusions .............................................................................................................. 161 5. Déroulement des expériences perceptuelles............................................................... 163 Identification.................................................................................................................................... 166 1. Matériel et méthode ..................................................................................................... 167 2. Résultats : Paradigme ID1 ........................................................................................... 173 2.1. Validité ...................................................................................................................... 176 287 2.2. Primauté ................................................................................................................... 176 a. Continuums (/( ........................................................................................................ 179 b. Continuums D/$ ........................................................................................................ 182 c. Continuums o/o et o/o2 ............................................................................................. 182 2.3. Dimensions complémentaires .................................................................................. 184 a. Items CVC vs. NVC ................................................................................................. 184 b. « Longues » vs. « Brèves » ..................................................................................... 189 c. « Dyn I » vs. « Dyn II »............................................................................................. 189 2.4. Paradigme expérimental ID2 .................................................................................... 190 3. Discussion .................................................................................................................... 202 Discrimination ................................................................................................................................. 207 1. Matériel et méthode ..................................................................................................... 208 2. Résultats ...................................................................................................................... 213 a. Continuums D/$ ........................................................................................................ 230 b. Continuums (/( ........................................................................................................ 230 c. Continuums o/o et o/o2 ............................................................................................. 231 3. Discussion .................................................................................................................... 232 Auditeurs anglophones.................................................................................................................. 236 1. Questions de recherche ............................................................................................... 237 2. Matériel et méthode ..................................................................................................... 238 3. Résultats : expériences d’identification........................................................................ 239 4. Résultats : expériences de discrimination.................................................................... 246 5. Discussion .................................................................................................................... 252 5.1. Validité. ..................................................................................................................... 252 5.2. Influence du contexte ............................................................................................... 253 5.3. Interaction perceptuelle des deux dimensions ......................................................... 254 DISCUSSION GÉNÉRALE ........................................................................................ 256 1. Nasalité vocalique : enjeux scientifiques et problématique générale .......................... 257 2. La nasalité vocalique en français : résultats obtenus au cours de ce travail............... 260 2.1. Production de la parole............................................................................................. 260 2.2. Perception de la parole............................................................................................. 263 3. Une vision unifiée au sein d’une phonétique contrôlée ............................................... 265 3.1. Relations entre phonétique et phonologie ................................................................ 266 3.2. Relations entre production et perception.................................................................. 269 288 CONCLUSION ........................................................................................................... 274 BIBLIOGRAPHIE....................................................................................................... 276 TABLES DES MATIERES ......................................................................................... 284 289 View publication stats