Évolution de la voix humaine : le rôle de la sélection
sexuelle
La soufflerie
L’air est la matière première de la voix. Il fournit l’énergie nécessaire à la production d’un son. A cette fin, l’appareil respiratoire (étage sous-glottique) agit comme une soufflerie. Celle-ci est constituée de trois parties : le diaphragme, les poumons et la trachée. Le diaphragme est le muscle inspirateur principal situé en dessous des poumons, séparant le thorax de l’abdomen. Il est le principal moteur d’entrée et sortie de l’air, dont la mécanique s’apparente à celui d’un piston ; son rôle physiologique est donc fondamental : sa contraction permet de créer une dépression dans la cavité thoracique afin de permettre l’entrée d’air via la trachée dans les voies respiratoires (bronches et poumons) ; son relâchement, à l’inverse, fait diminuer la capacité volumique des poumons en expirant l’air, qui reprend le chemin inverse pour aborder le larynx.
La source
Le larynx (étage glottique) est le générateur des sons de la parole. Il est composé des plis vocaux, de l’épiglotte et des cartilages qui leur servent de support et les protègent (Figure 3). Figure 3. Anatomie du larynx. 16 L’armature du larynx est constituée de trois cartilages : le cartilage cricoïde, dernier anneau de la trachée, les cartilages aryténoïdes, sur lesquels s’insèrent les plis vocaux, et le cartilage thyroïde, dont la partie antérieure correspond à la pomme d’Adam (présente seulement chez les hommes). Chaque pli vocal est constitué d’une superposition de deux muscles et d’un ligament vocal. Chaque ligament va s’insérer sur la partie antérieure du cartilage thyroïde à l’apophyse des cartilages aryténoïde, longés par des muscles sur lesquels on peut agir ; le tout est recouvert d’une muqueuse qui constitue la partie vibrante produisant le son. La glotte correspond à l’espace entre les deux plis vocaux. Enfin, l’épiglotte, qui surmonte les plis vocaux et la glotte, agit comme un clapet lors de la déglutition pour empêcher un passage des aliments dans la trachée vers les poumons. Lors de la production d’un son, l’accolement et la tension des plis vocaux va constituer une résistance à l’air expulsé des poumons, entraînant une élévation de la pression en amont de la glotte (i.e. pression sous-glottique) : l’air, en essayant de sortir de la glotte, fera alors vibrer les plis vocaux. Cette vibration correspond à un éloignement et rapprochement périodique (i.e. cyclique) des muscles superposés des plis vocaux, comme une sorte de battement par analogie aux hanches d’un hautbois. Lorsqu’elles sont en vibration, il y a production d’un son qui est dit voisé ou sonore. Par exemple, les /a/ de « paranoïa », le /v/ de « vodka » ou encore le /b/ de « bistrot ». Par contraste, on dit qu’un son est non-voisé ou sourd lorsqu’il n’y a pas vibration des plis vocaux. Par exemple, le /s/ de « sanglot », ou encore le /ʃ/ de « chanvre ». Du point de vue physio-anatomique, c’est le nombre de vibrations (ou d’oscillations) des plis vocaux par seconde qui détermine la hauteur vocale. Plus précisément, l’onde sonore produite au niveau de la glotte correspond à un signal périodique complexe, qui par l’application de la transformée de Fourier, peut-être décomposé en une somme de composantes simples, les harmoniques, dont les fréquences sont des multiples entiers de la fréquence fondamentale (correspondant elle-même au premier harmonique, ou H1). Cette fréquence 17 fondamentale (notée F0, et exprimée en Hz) correspond perceptivement à la hauteur vocale (ou hauteur tonale) dont la valeur fréquentielle (basse ou élevée), correspond au plan perceptif à un son « grave » ou « aigu ». De manière générale, la vitesse de vibration des plis vocaux dépend de leur longueur, de leur épaisseur, de leur tension et de la pression sous-glottique exercée. La fréquence fondamentale est inversement proportionnelle à la longueur des plis vocaux et proportionnelle à la racine carrée du rapport entre la tension subie par les plis vocaux et leur densité (Titze, Riede, & Mau, 2016). Elle peut être obtenue à partir de l’équation suivante : 𝐹0 = 1 2𝐿 √ 𝜎 𝜌 Où F0 est la fréquence fondamentale (Hz), L la longueur des plis vocaux (cm), 𝜎 la tension des plis vocaux (force par unité de surface) et 𝜌 la densité du tissu (1.02 g/cm3). Dans ce contexte, un son relativement aigu sera produit par des plis vocaux plus courts, moins denses et plus tendus, ce qui produit une vitesse de vibration plus rapide (haut F0). A l’inverse, un son relativement grave sera produit par des plis vocaux plus longs, plus denses et moins tendus, aboutissant à une vitesse de vibration plus lente (bas F0). Enfin, et de manière importante, les hommes présentent des plis vocaux plus longs et plus épais que ceux des femmes à l’âge adulte, de l’ordre de 17 à 25 mm chez les premiers et de 12 à 17 mm chez les seconds (Titze, 1994). Ces différences sexuelles entrainent, du moins chez des locuteurs français, une différence de fréquence fondamentale variant entre 100 et 150 Hz chez les hommes, et entre 140 et 240 Hz chez les femmes (Vaissière, 2015)1 . Les hommes possèdent ainsi des hauteurs vocales plutôt grave par rapport aux femmes. 1 Pour les valeurs moyennes des différents paramètres acoustiques que nous présentons au cours de ce chapitre, nous avons donné, lorsque cela est possible, les valeurs observées chez des locuteurs français. Parfois, certaines valeurs ne sont pas bien connues ou mêmes indisponibles chez ceux-ci. Dans ce contexte, nous indiquons dans quelle langue/culture elles ont été mesurées.
Le filtre
L’onde glottique produite au niveau du larynx va ensuite être « filtrée » par différents éléments appelé résonateurs et situés à l’étage supra-glottique. L’ensemble constitue le conduit vocal et est formé des cavités pharyngale, buccale et nasale (Figure 4). L’articulation des différents sons de la parole se réalisent via les changements de forme et de volume de ces différentes cavités. Trois résonateurs constituent le « filtre » et participent à la modulation de l’onde glottique : • La cavité pharyngale, situé juste au-dessus du larynx et correspondant au pharynx ou « carrefour aéro-digestif ». Ce dernier est un conduit musculaire capable de modifier son diamètre sous l’effet de muscles constricteurs. Son volume est également capable de varier verticalement sous la dépendance des mouvements du larynx. Cette cavité débouche ensuite sur la cavité buccale et peut communiquer avec la cavité nasale. • La cavité buccale (ou orale), correspondant à la bouche et séparée de la cavité nasale par une cloison appelée le palais. Dans cette cavité se trouvent les articulateurs principaux de la parole que sont la langue, les lèvres et les dents. C’est la partie la plus Figure 4. Anatomie de l’étage supra-glottique. Les résonateurs comprennent le pharynx (dont l’hypo-pharynx, l’oro-pharynx et le rhino-pharynx), la cavité buccale (contenant les articulateurs) et les fosses nasales. 19 importante du conduit vocal car sa forme et sa taille peuvent varier selon les positions relatives du palais par rapport à la langue, de la langue elle-même et des lèvres, et qui sont en grande partie responsable de la production des différents sons de la parole (i.e. voyelles et consonnes). • La cavité nasale, correspondant aux deux fosses nasales séparées par une cloison verticale médiane et qui sont recouvertes de muqueuses. Cette cavité peut être couplée aux deux précédentes cavités via l’abaissement du voile du palais (ou velum) lors de la phonation. Au niveau acoustique, l’onde sonore produite au niveau de la glotte va être « mise en forme » par les résonateurs, qui vont amplifier (ou atténuer) certaines fréquences, c’est-à-dire en renforcer ou en affaiblir certaines selon la configuration et le volume des résonateurs : on dit de ces derniers qu’ils « ajustent » le timbre du son via le phénomène de résonance. Plus précisément, on entend par résonance la modification de la qualité de l’onde glottique qui résulte de l’enrichissement et de l’appauvrissement de certains de ses harmoniques. Lors de la production des voyelles et de certaines consonnes voisées, ces fréquences renforcées sont appelées formants ou fréquences de résonance. Les formants correspondent ainsi à une concentration d’énergie dans une bande de fréquence particulière selon la configuration et la position des organes articulateurs. Ils sont notés F1, F2, F3, F4… etc. (Figure 5). Les formants correspondent ainsi au corrélat acoustique du timbre, et constitue ce que l’on appelle la « couleur » d’un son (Vaissière, 2015). Théoriquement, il existe un nombre infini de formants, mais seuls les trois premiers sont nécessaires pour caractériser le timbre d’un son vocalique. Ceux supérieures au F3 correspondent à des caractéristiques individuelles. D’une façon générale, nous savons que plus la cavité est grande, plus grave est le son résultant. 20 Figure 5. Spectrogramme de la voyelle /a/ comme dans « doctorat ». La fréquence est représentée verticalement et le temps horizontalement. A chaque fréquence est associée une énergie (ou intensité), représentée par les bandes noires. Les formants peuvent être calculés à partir de l’équation suivante (Reby & McComb, 2003) : 𝐹𝑖 = (2𝑖 − 1)𝑐 4𝐿𝐶𝑉 , Où Fi correspond au formant i, c la vitesse du son dans l’air (approximé à 350 mètres par seconde pour le conduit vocal d’un mammifère), et LCV est la longueur du conduit vocal (Titze, 1994). Comme la distance entre les formants est la même lorsque le conduit vocal est ouvert ou fermé au niveau de la glotte, l’espacement des formants, c’est-à-dire la distance entre chaque formant adjacent, est aussi utilisé comme mesure générale du timbre. L’espace entre deux formants consécutifs dans le spectre des fréquences est donc une constante et est donné par : 𝐹 = 𝐹𝑖+1 − 𝐹𝑖 = 𝑐 2𝐿𝐶𝑉 En remplaçant 𝑐 2𝐿𝑇𝑉 par F dans la première équation, nous obtenons : 𝐹𝑖 = (2𝑖 − 1) 2 𝐹 F1 F2 F3 F4 5000 Hz 0 Hz 21 Nous pouvons ainsi obtenir une estimation de la longueur du conduit vocal à partir de l’équation suivante : 𝐿𝐶𝑉 = 𝑐 2𝐹 Nous remarquons ainsi que F (c’est-à-dire l’espacement entre les formants) et la longueur du conduit vocal sont inversement corrélés : plus le conduit est allongé et grand, plus les formants sont proches les uns des autres. Par ailleurs, il est à noter que plusieurs mesures de l’espacement des formants autre que 𝐹 ont été proposés. Nous en présenterons deux ici, les plus communément utilisés en bioacoustique animale (humains compris) et que nous avons étudiés au cours de cette thèse. La première est la « dispersion des formants » (i.e. Df), et a été proposée par Fitch (1997). Elle est définie comme la somme des distances adjacentes entre deux formants consécutifs, divisée par le nombre de formants mesurés. Elle est obtenue à partir de l’équation suivante : 𝐷𝑓 = 𝑖=1 𝑁−1𝐹𝑖+1 − 𝐹𝑖 𝑁 − 1 , Où Df est la dispersion des formants (Hz), Fi la fréquence du formant i (Hz) et N le nombre de formants mesurés. La deuxième mesure est la « position des formants » (i.e. Pf), et a été proposée par Puts, Apicella & Cardenas (2012). Elle est définie comme la somme des moyennes des formants standardisés pour les N formants mesurés, où la standardisation est réalisée à partir des moyennes non pondérées et des écarts-types combinés des deux sexes. Elle est obtenue à partir de l’équation suivante : 𝑃𝑓 = 𝑖=1 𝑁 𝐹𝑖 ′ 𝑁 , Où 𝐹𝑖 ′ est le ième formant standardisé et N le nombre de formant mesuré. 22 Cette dernière mesure a été proposée en réponse aux supposées inconsistances dans les associations entre Df (la dispersion des formants) et les caractéristiques physiques, physiologiques et comportementales d’un individu, que nous présenterons dans les chapitres ultérieurs. Par exemple, si nous mesurons 4 formants, Puts et al. (2012) argumentent que Df ne correspond finalement qu’à une mesure de la distance entre le 1er et le 4ème formant (F1 et F4), et ne contient en somme aucune information sur les 2ème et 3ème formants (F2 et F4). De plus, la variance associée au F4 est beaucoup plus élevée que celle du F1 et, comme les formants ne sont pas standardisés, la mesure sera particulièrement biaisée par la mesure du F4. Dans ce contexte, Df porte de l’information sur l’espacement, mais non pas sur la position même des formants. Généralement, si les timbres présentent une distribution des formants situés dans les basses fréquences, ils sont plutôt rapprochés et nous parlons de timbre « graves » (ou « compact »). A l’inverse, si des timbres présentent une distribution des formants situés dans les hautes fréquences, ils sont plutôt éloignés les uns des autres et nous parlons de timbres « aigus » (ou « diffus »). Enfin, et de manière importante, les hommes possèdent un conduit vocal plus long que les femmes à l’âge adulte : la distance moyenne entre la glotte et les lèvres est de 17 à 18 cm chez les hommes, tandis qu’elle est de l’ordre de 14.5 cm chez les femmes (Fitch & Giedd, 1999). Les hommes présentent ainsi des timbres dont les formants sont situés dans les basses fréquences et plutôt rapprochés les uns des autres, à l’inverse des femmes qui présentent des timbres aux formants situés dans les hautes fréquences et plutôt éloignées les uns des autres. Pour les locuteurs du français, les hommes exhibent en moyenne des timbres présentant des F1, F2, et F3 respectivement dans les 390 Hz, 1500 Hz et 2600 Hz, avec des dispersions d’environ 1105 Hz. Par contraste, les femmes exhibent en moyenne des timbres présentant des F1, F2, et F3 respectivement dans les 400 Hz, 1900 Hz et 3100 Hz, avec des dispersions d’environ 1350 23 Hz (Pépiot, 2013). Les hommes exhibent ainsi en moyenne des timbres plutôt graves par rapport aux femmes. iv. Production des voyelles Tous les sons de la parole humaine et leurs lieux d’articulation dans la cavité orale sont représentés dans la Figure 6, qui nous servira de canevas pour illustrer leurs productions. Figure 6. Points d’articulation des sons du français dans la cavité orale. Les voyelles sont représentées en rouge et les consonnes en bleu. 24 Dans le cas des voyelles, chacune est produite selon une configuration particulière des articulateurs de la cavité orale et présentera ainsi une structure formantique qui lui est propre. La connaissance des deux (voire des trois) premiers formants permet d’identifier toutes les voyelles. Selon les mécanismes articulatoires que nous avons décrits, les voyelles peuvent être représentées classiquement sur un axe en deux ou éventuellement trois dimensions (Figure 7). Chaque axe correspond à une position particulière d’un des articulateurs de la cavité orale : • Le premier formant (F1) correspond à l’aperture de la bouche et chaque voyelle est définie selon le degré d’ouverture de la cavité orale. Nous parlons ainsi de voyelle fermée lorsque ce degré est minimal (i.e. bouche presque fermée), comme la voyelle /u/ de « saoul » ou la voyelle /i/ de « whisky ». A l’inverse, lorsque le degré est maximal (i.e. bouche ouverte), nous parlons de voyelle ouverte, comme le /ɑ/ de « pâte » ou le /a/ de « patte » (du moins chez les locuteurs faisant la distinction entre « pâte » et « patte », comme les locuteurs lyonnais). Entre ces deux degrés, nous pouvons définir les voyelles semi-fermées, telle que /o/ de « cocaïne » ou le /e/ de « tequila », et les voyelles semi-ouvertes telle que /ɔ/ de « porto » ou le /ɛ/ de « bière ». Il convient de noter que plus le degré d’ouverture est grand, plus la fréquence du F1 est élevée. • Le deuxième formant (F2) correspond au point d’articulation, et plus précisément à la position de la langue dans la cavité orale. Lorsque la langue est située à l’avant de la cavité, la voyelle est dite antérieure, telle que le /i/ de « philosophie » ou le /y/ de « ubuesque ». Lorsque la langue est située à l’arrière de la cavité orale, la voyelle est dite postérieure, comme c’est le cas pour la voyelle /u/ de « fou ». Une position centrale de la langue (i.e. ni à l’avant ni à l’arrière) conduit à la production d’une voyelle dite centrale, comme le /a/ de « absinthe » ou le /ə/ de « dangereux ». Entre la position antérieure et centrale, nous pouvons observer les voyelles mi-fermées comme le /e/ de 25 « saké » ou les voyelles mi-ouvertes comme le /ɛ/ de « infernal ». Plus la langue est en position avancée dans la cavité, plus la fréquence du F2 est élevée. • Le troisième formant (F3) correspond à la configuration des lèvres et notamment à l’arrondissement de celles-ci lors de la production d’un son. Lorsque les lèvres sont protruses, nous parlons de voyelle arrondie ; quand elles ne le sont pas la voyelle est dite non-arrondie. Quant à l’inverse de l’arrondissement, les lèvres sont étirées au maximum, nous parlons de voyelle étirée (e.g. /i/ ou /e/). Ainsi les voyelles /y/ de « bureaucratie » ; /u/ de « fou » ; /o/ de « sottise » ; /ɔ/ de « rhum » ; /ø/ de « vœu » et /œ/ de « jeunesse » sont dites arrondies. La valeur du F3 contribue à enrichir le spectre des sons concernés dans les graves dans la mesure où elle est liée à un allongement du conduit phonatoire. Figure 7. Représentation des voyelles sur deux axes selon la manière dont elles sont produites, ici l’aperture (ou degré d’ouverture) de la cavité orale, et le mouvement (ou position) de la langue dans celle-ci. Une troisième dimension peut être représentée par la protrusion des lèves. Pour chaque paire de voyelles, la voyelle à gauche est non-arrondie et à droite se situe sa version arrondie. Les voyelles du français sont en bleu. 26 La classification des voyelles orales est donc établie sur chacune des dimensions suivante : l’aperture (i.e. voyelle fermée ou ouverte), le lieu d’articulation (i.e. voyelle antérieure ou postérieure) et l’arrondissement (i.e. voyelle arrondie ou non-arrondie et/ou étirée). Ainsi, la voyelle /u/ est définie comme une voyelle postérieure, fermée et arrondie, la voyelle /a/ comme une voyelle centrale, ouverte et non-arrondie et la voyelle /i/ comme une voyelle antérieure, fermée et étirée. Notons qu’il existe également dans la langue française des voyelles nasales. Leur production correspond à un passage de l’air simultané par la cavité orale et le nez. La production de ce type de sons entraine une résonance particulière dans les fosses nasales et le couplage des deux cavités de résonance (orale et nasale) se fait grâce à l’abaissement du voile du palais. Il existe en français quatre voyelles nasalisées, ayant chacune un pendant oralisé : le /ɛ̃ / de « important » par rapport au /ɛ/ de « thèse », le /œ̃/ de « inopportun » par rapport au /œ/ de « jeune » 1 , le /ɔ̃ / de « bon » par rapport au /ɔ/ de « sortie » et le /ɑ̃ / de « antécédent » par rapport au /ɑ/ de « pâtauger ». La différence entre chaque paire réside essentiellement dans la position relevée contre abaissée du voile du palais. Enfin, nous pouvons aussi définir une classification des voyelles plus ou moins graves et aigües selon la fréquence et la distance entre les deux ou trois premiers formants. Si l’on s’en tient à une classification des sons vocaliques en termes d’acuité, les voyelles du français s’échelonne selon la distribution suivante, de la plus grave à la plus aiguë : /u/ > /o/ > /ɔ/ > /ɑ/ > /a/ > /œ/ > /ø/ > /y/ > /ɛ/ > /e/ > /i/ Concernant les voyelles nasales, les descriptions de Delvaux & Metens (2002) ont montré un rapprochement des deux premiers formants ainsi que l’existence d’anti-formants témoignant d’une résonance supplémentaire au niveau des fosses nasales. 1 Souvent en français « parisien », le /œ̃/ est remplacé par /ɛ̃ /. 27 Notons enfin que toutes les voyelles présentent ce que l’on appelle une fréquence fondamentale intrinsèque (IF0, ou hauteur intrinsèque), qui correspond au F0 propre à la production d’une voyelle particulière, indépendamment des facteurs liés à la variabilité des locuteurs. v. Production des consonnes Si les voyelles sont produites avec la vibration des plis vocaux et un échappement libre de l’air dans le conduit supra-laryngée, les consonnes présentent un profil articulatoire et spectral beaucoup plus variables (Meynadier, 2013). D’une façon générale, les consonnes sont définies comme des bruits, dont la production est caractérisée selon deux dimensions : 1) le mode d’articulation, qui dépend de la façon dont l’air s’écoule du conduit vocal à la sortie des cavités supra-laryngées, celui-ci pouvant s’échapper de façon continu ou pouvant être expulsé brutalement après que le conduit soit totalement obstrué, et 2) le lieu d’articulation, qui définit l’endroit où a lieu l’obstruction et/ou le rétrécissement du conduit vocal. Comme pour les voyelles, le lieu d’articulation correspond généralement à la position de la langue dans la cavité orale et à la manière dont elle va se placer dans celle-ci pour obstruer le passage de l’air. De manière générale, les consonnes produites avec un écoulement continu de l’air sont produites dans de plus hautes fréquences que celles produites après un relâchement soudain de ce dernier. Ceci est dû à leur mode de production : l’écoulement de l’air provoque du bruit dans les hautes fréquences, par opposition à celles produites avec un bruit impulsionnel après accumulation de l’air en amont de la constriction, augmentant la pression aérodynamique à l’intérieur du conduit vocal. De même, toute consonne voisée est produite dans de plus basses fréquences, et donc perçues comme plus grave que sa version non voisée. Ceci s’explique par le fait que la vibration des plis vocaux diminuent la pression supra-glottique, une part de l’énergie étant dévolue à la vibration des plis vocaux. 28 Pour les modes articulatoires, nous distinguons en français les types suivants : • Les occlusives, produites en deux temps avec 1) fermeture complète de la cavité orale en un point et 2) séparation des articulateurs avec un soudain relâchement de l’air. En français, nous distinguons le /p/ de « post-doc », le /b/ de « bière » (forme voisée de /p/), le /t/ de « thèse », le /d/ de « doctorat » (forme voisée de /t/), le /k/ de « cannabis » et le /ɡ/ de « galère » (forme voisée de /k/). • Les constrictives, produites par constriction ou rétrécissement du conduit vocal, conduisant à une turbulence du flux d’air à la sortie de ce dernier. En français, nous distinguons le /f/ de « fumer », le /v/ de « vodka » (forme voisée de /f/), le /s/ de « stupéfiant », le /z/ de « zut » (forme voisée de /s/), le /ʃ/ de « malchance », le /ʒ/ de « jeunesse » (forme voisée de /ʃ/), et le /ʁ/ de « rhum » (forme voisé de /χ/, absente du système phonologique français). • Les occlusives nasales, produites de la même façon que les occlusives orales auquel se surimpose un abaissement du palais, avec un écoulement de l’air simultané par les cavités orales et nasales. En français, les consonnes nasales sont toutes voisées et nous distinguons le /m/ de « marijuana », le /n/ de « sniffer », le /ɲ/ de « gnôle » et le /ŋ/ de « zapping ». • Les latérales, produites par un écoulement de l’air qui s’échappe par les côtés de la langue. Il en existe une seule en français, noté /l/ comme dans « laideur ». • Les semi-consonnes ou semi-voyelles, correspondant à des sons qui sont phonétiquement similaires aux voyelles mais qui fonctionnent en tant que frontière au noyau de la syllabe (qui elle est nécessairement une voyelle). En d’autres termes, ce sont des voyelles non-syllabique, c’est-à-dire que leur point d’articulation varie au cours de l’articulation avec la voyelle syllabique qui suit. Nous distinguons le /j/ de « fioriture », le /ɥ/ de « fuire » et le /w/ de « moi ». 29 Pour les lieux d’articulations, nous distinguons en français les type suivants : • Les bilabiales : les deux lèvres sont en contacts telles que [p b m]. • Les labiodentales : la lèvre inférieure s’appuie contre les incisives supérieures telles que [f v]. • Les alvéolaires : la pointe de la langue s’appuie contre les alvéoles dentaires telles que [l t d n s z]. • Les post-alvéolaires : resserrement entre l’avant de la langue et les alvéoles, dont la pointe de la langue peut se trouver derrière les incisives inférieures telle que /ʃ/, ou derrière les alvéoles telle que /ʒ/. • Les vélaires : le dos de la langue est en contact avec le palais telle que [k ɡ ŋ]. • Les uvulaires : la racine de la langue est rapprochée de la luette, ce qui peut provoquer une constriction /ʁ/. • Les palatales : le milieu ou le dos de la langue s’appuie contre le palais rigide telles que [ɲ j].
La qualité vocale
Nous avons jusqu’ici décrit les paramètres acoustiques considérés comme les plus pertinents pour la description de la parole humaine. Toutefois, la voix d’un individu peut être caractérisée au-delà de sa hauteur et de son timbre. Comme nous le verrons au cours de cette thèse, d’autres composantes acoustiques d’une voix, notamment le bruit et la prosodie, sont peu étudiés alors même qu’ils peuvent jouer un rôle relativement important pour l’attractivité vocale. Dans ce contexte, il convient de définir la notion complexe de qualité vocale pour nous permettre d’introduire d’autres éléments constitutifs de la parole humaine. Bien qu’il existe de multiple définitions et qu’aucun consensus n’existe à ce jour pour définir la qualité vocale, nous nous appuierons sur la définition donnée par Trask (2012). Selon l’auteur, la qualité vocale correspond à la coloration auditive caractéristique de la voix d’un 30 individu, laquelle est dérivée d’un ensemble de caractéristiques vocales propre à chaque locuteur. Elle englobe ainsi la hauteur, le timbre, mais également l’intensité, l’articulation, le bruit et des éléments prosodiques tels que l’intonation et le débit. a. Le bruit L’étude des dysphonies a permis de mettre en évidence d’autres critères utiles pour la caractérisation de la voix au-delà de son caractère grave ou aiguë. Nous pensons particulièrement aux voix « soufflées » et/ou « rauques » dont la spécificité réside dans la quantification du bruit dans le signal sonore. Parmi eux, le jitter et le shimmer sont deux paramètres acoustiques mesurant la « perturbation » de la fréquence fondamentale. Si un signal sonore est produit par vibration des plis vocaux et par l’oscillation cyclique de celles-ci, le jitter correspond aux perturbations dans la régularité des vibrations des plis vocaux d’un cycle à l’autre, tandis que le shimmer correspond à l’amplitude de cette variation (Figure 8, Teixeira, Oliveira, & Lopes, 2013). Le jitter est principalement lié à un mauvais contrôl des plis vocaux tandis que le shimmer dépend de la réduction de la résistance glottale lors de la phonation. Les patients avec des voix présentant des pathologies vocales (e.g. lésions des plis vocaux) en présentent des valeurs élevées.
I. Contexte |