Les formes géométriques : perception auditive des mouvements graphiques

Synthèse sons de frottement

La synthèse sonore est un outil particulièrement approprié pour étudier la perception du geste évoqué par un son de frottement et nous avons présenté dans le chapitre 1 un modèle permettant de générer des sons de frottement à partir d’un profil de vitesse spécifique, ce modèle va être rappelé rapidement ici. En effet, la possibilité de manipuler la dynamique du timbre à partir d’un profil de vitesse donné permet d’envisager la construction de protocoles expérimentaux originaux. Gaver (1993a) et Van Den Doel et al. (2001) ont ainsi proposé un modèle de synthèse physiquement informéde sons de frottement permettant de générer un son de frottement de synthèse uniquement à partird’un profil de vitesse. Ce modèle simule le son d’une source sonore résultant d’une suite d’impacts d’un plectre sur les aspérités d’une surface. La rugosité de la surface est modélisée par un bruit blanc représentant les hauteurs des aspérités de la surface. Le son de synthèse peut ainsi être généré en filtrant passe-bas le bruit et en contrôlant la fréquence de coupure du filtre par la vitesse du plectre, et donc ici par la vitesse du geste.
En plus du profil de vitesse, d’autres paramètres du modèle de synthèse tels que la pression ou encore l’angle du stylo pourraient être considérés dans un modèle plus sophistiqué. Par exemple, la pression du stylo pourrait être reliée à l’intensité du son. Cependant, le but de cette étude estd’évaluer l’influence du profil de vitesse sur la perception du geste sous jacent à un son. Dans la suite de l’étude, la pression sera donc supposée constante durant toute la durée du mouvement. Ainsi, seulle profil de vitesse du geste sera transmis par les variations de timbre du son de frottement.

Expérience 1 – Reconnaissance auditive des mouvements biologiques

Afin d’évaluer notre capacité à reconnaître des gestes spécifiques à travers le son, nous nous sommes basés sur un protocole de Viviani et Stucchi (1992) concernant la perception visuelle des mouvements biologiques. Dans cette expérience, les sujets devaient ajuster la vitesse d’un point lumineux afin de percevoir le mouvement le plus uniforme, i.e. la vitesse la plus constante possible. Le mouvement du point respectait la loi en puissance suivante : vtpsq “ KC´β (2.1) où vt est la vitesse tangentielle du mouvement, C la courbure et K le gain de vitesse relié à la vitesse moyenne du mouvement (Viviani et Terzuolo, 1982; Lacquaniti et al., 1983; Viviani et McCollum, 1983; Viviani et Flash, 1995). La tâche était implicite et les sujets n’étaient pas conscients qu’ils ajustaient l’exposant β de la loi en puissance. Les résultats ont alors mis en évidence que la vitesse perçue comme la plus uniforme correspondait à un ajustement de l’exposant de la loi à une valeur proche d’un tiers en moyenne, valeur correspondant à celle obtenue pour un mouvement graphique réel.
A l’inverse, quand l’exposant était nul, ce qui correspond une vitesse constante quelle que soit la courbure de la trajectoire, le mouvement du point était perçu comme accélérant dans les parties lesplus courbées de la trajectoire. Des simulations numériques ont également mis en évidence que l’exposant 1/3 minimise le jerk, grandeur caractérisant l’aspect saccadé du mouvement (Richardson et Flash, 2002; Viviani et Flash, 1995).
Dans cette étude, une expérience similaire à celle de Viviani et Stucchi (1992) a été mise en place du point de vue sonore. Le point lumineux utilisé pour étudier la perception visuelle du mouvement était ici remplacé par un son de frottement de synthèse évoquant une vitesse par ses variations intrinsèques de timbre. Les sujets devaient ajuster implicitement l’exposant de la loi en puissance. Il est important de noter que du point de vue visuel, Viviani et ses collègues étudiaient la relation entre la courbure d’une forme géométrique et la cinématique du point lumineux, tandis que les sons monophoniques utilisés ici n’évoquent que la cinématique du geste déterminée par le profil de vitessetangentielle. Si nos hypothèses sont correctes, les sons de frottement doivent évoquer, par le biais de leurs variations de timbre, la vitesse du mouvement de la source physique, c’est-à-dire l’accélération du stylo dans les parties les plus plates de la trajectoire et inversement sa décélération dans les parties les plus courbées.

Expérience 2 – Discrimination auditive de formes géométriques distinctes

Une forme visuelle peut être décrite à la fois par sa géométrie et, en terme moteur, par le mouvement requis pour la dessiner. Deux études séminales de Freyd (1983a,b) ont mis enévidence quela perception d’une forme visuelle était intimement reliée à sa représentation motrice. En particulier, elle a mis en évidence qu’une personne qui lit une lettre utilise ses connaissances motrices afin d’endécoder son contenu visuel statique. Elle a même montré qu’une relation fonctionnelle très forteexistait entre les caractéristiques visuelles statiques d’une forme géométrique et le mouvementgraphique nécessaire pour la réaliser. Par ailleurs, différentes études ont mis en évidence que voir une formegraphique activait les mêmes processus cérébraux que ceux requis pour la dessiner si les sujetssavaient déjà la dessiner (James et Gauthier, 2006; Longcamp et al., 2003, 2006). De plus,Longcamp et al. (2008) ont mis en évidence que les mouvements spécifiques qui doivent être réalisés pour dessiner un caractère nouveau sont mémorisés afin d’être utilisés dans le processus de reconnaissance visuel de ce même caractère. Ces résultats sont à mettre en regard avec une étude de Viviani et Stucchi (1989) qui a montré qu’une forme décrite par un point lumineux en mouvement pouvait être aisément reconnue grâce à la cinématique du point lumineux si celle-ci respectait celle des mouvementsbiologiques. A l’inverse, cette même étude a mis en évidence que la perception dynamique de lagéométrie d’une telle forme était distordue quand la cinématique du point lumineux ne respectait pasla loi en puissance 1/3, i.e. les mouvements biologiques. Par exemple, il a montré que si un cercleétaitparcouru par un point lumineux qui accélérait dans ses parties opposées, il était perçu plus aplati que s’il était parcouru à vitesse constante, respectant ainsi la loi en puissance 1/3.
A l’inverse de la vision, aucun son n’est naturellement associé à une forme géométrique car une forme géométrique est un objet abstrait associé à aucune source sonore physique. L’expérience précédente a mis en évidence notre capacité à reconnaître la dynamique des mouvements biologiques, i.e. la loi en puissance 1/3, par le biais des sons de frottement produits lorsqu’une personne dessine.
Dans la mesure où cette relation relie les caractéristiques dynamiques du geste, i.e. sa vitesse, aux caractéristiques géométriques, i.e. sa courbure, on peut faire l’hypothèse que la trajectoire parcourue par le geste est elle aussi intégrée implicitement en écoutant le son de frottement.
Dans cette seconde expérience, notre but est d’évaluer dans quelle mesure nous sommes capables de reconnaître une forme géométrique par le biais des sons de frottement. Nous avons ainsidemandéà des sujets d’associer les sons de frottement produits à la forme statique qu’ils pensaient être celle dessinée. Les sujets devaient discriminer quatre formes géométriques sur la base des quatre sonsdefrottement générés lors de leur production. Le but d’une telle tâche de discrimination était de limiterle nombre d’associations possibles entre les sons et les formes. Au-delà d’évaluer notre capacité à reconnaître une forme par le biais du son, notre second but était aussi de déterminer quelle était l’information contenue dans les sons qui permettait d’effectuer une telle tâche. Nous avons donc utilisé deux types de sons, à savoir les sons produits par une personne qui dessinait les quatre formes simples et les sons re-synthétisés à partir des profils de vitesse enregistrés sur une tablette graphique.
En effet, en plus de la cinématique, un son de friction enregistré contient des indices acoustiques subtiles qui peuvent varier selon d’autres paramètres que la vitesse du geste. L’angle du stylo, la pression à laquelle le stylo appuie sur la feuille, et les irrégularités de la surface peuvent en effetfournir d’autres indices acoustiques permettant la discrimination de formes géométriques par lebiais du son. De plus, ces indices peuvent être reliés aux pleins et aux déliés effectués quand une personne produit une lettre et donc directement reliés à la représentation gestuelle. Afin de testerl’hypothèse que le profil de vitesse seul est suffisant pour reconnaître une forme géométrique par le biais du son, les résultats issus des deux corpus sonores ont été analysés et comparés. En s’appuyant sur les résultats de l’expérience précédente, on souhaitait donc également vérifier l’hypothèse que la cinématique du geste, par le biais de la loi en puissance 1/3, favorisait une telle association entre son et forme.

Méthode

Participants

20 participants volontaires d’âge moyen de 30.65 ans (SD = 13.11) ont pris part à cette expérience (9 femmes). 12 sujets étaient naïfs aux objectifs de la recherche avant de participer à l’expérience. 8 sujets avaient également participé à l’Expérience 1. Stimuli Formes statiques. Des tests préliminaires informels ont mis en évidence que les formesgéométriques qui possèdent des points de rebroussement étaient facilement reconnaissables, en effet, ces particularités géométriques causent une discontinuité dans le son, i.e. un silence. Basé sur ces observations préliminaires, un corpus de quatre formes a été réalisé, deux avec des points derebroussement (des arches, un trait), et deux sans (un cercle, une ellipse). Les formes sans point derebroussement,i.e. cercle et ellipse, diffèrent uniquement par leur excentricité, tandis que les arches et les traits, diffèrent par la position des points de rebroussement sur la forme. La figure 2.2(a) présente les quatre formes.

Tâche

Les participants étaient assis devant un écran d’ordinateur dans une cabine audiométrique. Les sons étaient présentés par le biais d’un casque d’écoute Sennheiser HD-650. L’interface graphique du test a été programmée avec le logiciel Max/MSP. L’expérience comprenait huit essais, quatre pourles sons de synthèse et quatre pour les sons enregistrés. Les essais étaient présentés dans un ordre aléatoire à travers les participants. A chaque essai, quatre icônes représentant les sons étaientaffichées à gauche de l’écran de l’ordinateur. Les sujets avaient pour consigne d’associer chaque son à la forme qui correspondait au mieux, c’est-à-dire la forme évoquée par le son produit par le scripteur.
Les formes étaient toujours disposées de la même façon alors que les sons, tous représentés par le même icône, étaient présentés dans une position aléatoire à travers les essais (voir figure 2.3). Lessujets pouvaient glisser-déposer les sons à côté des formes. Ils savaient que tous les sons avaientétéenregistrés pendant qu’un scripteur dessinait les formes de façon fluide, sans lever le stylo. Aucune limitation de temps n’a été imposée et les sujets pouvaient écouter les sons autant de fois qu’ils le souhaitaient. A chaque essai, quatre associations son/forme étaient collectées.

Analyse des données

Les associations entre un son et une forme étaient jugées à 1 quand le son était associé la bonne forme et à 0 sinon. Ainsi, pour chaque sujet et pour chaque type de son (synthétisé et enregistré), les valeurs étaient moyennées à travers les essais afin d’établir une matrice d’association contenant les scores de la tâche d’association. Dans la suite, on appellera taux de réussite le pourcentage d’association son/forme correcte, ce qui correspond aux valeurs de la diagonale de la matrice d’association.
Afin d’analyser les erreurs des sujets, les taux d’associations entre un son donné et les quatreformes, puis entre une forme et les quatre sons, ont été comparés. A cette fin, des t-tests pour deuxéchantillons appareillés ont été réalisés entre les taux de réussite et les six autres taux d’association.
En plus de ces comparaisons par paire, un test de conformité à un standard a été réalisé avec unseuil correspondant à un taux d’association de 25%, taux correspondant à la chance statistique.
Afin d’évaluer si la tâche a été réalisée de la même façon pour les sons enregistrés que pourlessons synthétisés, et ainsi dans le but de voir si le profil de vitesse est une information perceptivesuffisante pour la discrimination de forme, une comparaison globale entre les matrices d’association pour les deux types de sons a également été réalisée. Pour cela, un test de corrélation de Pearson sur les distances cophénétiques entre les formes de chaque matrice a été réalisé (une analyse détailléedescomparaisons entre les matrices d’association est présentée en section 2.6). En pratique, le test aété réalisé de la façon suivante : pour chaque type de son, une matrice de dissociation D˚ a étécalculéedans un premier temps, définie par D˚ “ 1 ´ S ˚ , où S ˚ est la version symétrisée de la matrice d’association S. Une matrice D˚ de distance deux à deux a ainsi été calculée depuis D en utilisant une métrique euclidienne. Une analyse en cluster hiérarchique de D (complete linkage) a ensuite été réalisée. Les distances cophénétiques ont finalement été calculées depuis le dendrogramme résultant de cette analyse et ont été assemblées en un vecteur. Il est ici nécessaire d’introduire la notion de distance cophénétique.
Le problème de la comparaison entre deux dendrogrammes est ancien et a été abordé dans le domaine de la phylogénétique. Un des objectifs de ce domaine de la biologie est de comprendre l’évolution des espèces selon des critères à la fois génétiques, et donc objectifs, et selon des critèresmorphologiques, qui relèvent plus d’une observation empirique. Ces deux types d’observations permettent d’établir des distances entre les différentes espèces et ainsi d’observer ces données sous la forme de dendrogrammes. Un dendrogramme est une représentation des distances entre différents objets, et la composition de ses différents clusters est faite selon une métrique spécifique. Un dendrogramme peut donc ainsi être caractérisé par les distances entre ses différents clusters,appellée ladistance cophénétique (Sokal et Rohlf, 1962). Afin de clarifier cette notion, la figure 2.4 présente undendrogramme et les distances cophénétiques associées. Les distances cophénétiques sontstockées dans un tableau pour chaque dendrogramme. On peut donc comparer deux dendrogrammes encalculant les corrélations de Spearman et de Pearson. La corrélation de Pearson permet d’effectuer unecomparaison quantitative de la corrélation linéaire entre les deux formes. La corrélation de Spearman permet elle d’effectuer une comparaison qualitative des deux vecteurs de distances quitient compte du rang des distances cophénétiques, i.e. leur position relative sur l’axe des abscisses. Ainsi, pour comparer les deux matrices obtenues pour les sons de synthèse et les sons enregistrés, les deux vecteurs ont été soumis à un test de corrélation de Pearson.
Enfin, afin de comparer plus précisément les taux de réussite entre les sons enregistrés et synthétisés, un test bilatéral de Wilcoxon à rangs signés a été réalisé sur les taux de réussite pourchaqueforme avec le type de son comme facteur.

Résultats

La table 2.2 présente les matrices d’associations moyennées à travers les sujets pour chaque type de son. Pour tous les sons, les taux de réussite (i.e. la diagonale de la matrice) sont significativement supérieurs à la chance (p ă .001 pour chaque forme, dcercle “ 13.19, dellipse “2.01, darches “ 1.91, dtrait “ 9.42 pour les sons enregistrés, dcercle “ 13.19, dellipse “ 2.81, darches “ 2.23, dtrait “ 4.9 pour les sons enregistrés) et en particulier tous supérieurs à 80% avec des taux de réussite les plus élevés pourle trait et le cercle (proche de 100%). De plus les taux de réussite diffèrent significativement des troisautres taux d’association (p ă .001 pour toutes les comparaisons). Ces premiers résultats révèlentque les sons de frottement ont été associés correctement aux formes géométriques associées.L’analyse des distances cophénétiques met en évidence que les matrices d’association pour les sons enregistrés et synthétisés sont fortement corrélés, rp4q “ .89, p ă .05. De plus, les tests deWilconxon mettent en évidence que les taux de réussite ne diffèrent pas significativement entre les sons de synthèse et les sons enregistrés (Cercle : z “ 0, p “ 1 ; Ellipse : z “ ´1.265, p “ .21 ; Arches : z “ ´.632, p “ .52 ; Trait : z “ ´1.13, p “ .25). Cela révèle que les sons de frottement de synthèse et les sons enregistrés ont des taux d’associations comparables.

Discussion

Les résultats de cette expérience montrent que les sujets ont été capables d’associer un son de frottement (choisis parmi quatre) à la forme qui correspondait. Les taux de réussite sont élevés pour chaque forme. De plus les taux d’association obtenus pour les sons de synthèse et les sonsenregistrésne diffèrent pas significativement bien que les sons de synthèse ne contiennent que l’informationcinématique du mouvement du scripteur. Les deux types de sons ne diffèrent en fait que par le faitque d’autres variables, telles que la pression, les irrégularités de la surface, ou encore l’angle dustylo, ont pu apporter d’autres indices acoustiques dans les sons enregistrés. Cependant, en dépitde ces indices acoustiques supplémentaires, les taux de réussite pour les sons enregistrés ne se révèlent pas être plus grands que pour les sons de synthèse. Ce résultat est à mettre en regard avec une étude de Schomaker et Plamondon (1990) qui a montré qu’aucune relation générale, telle que laloi en puissance 1/3 pour la vitesse, n’existe entre ces paramètres gestuels (pression et angle) et la géométrie de chaque forme. De plus, comme les sujets qui ont passé le test n’avaient pas dessiné les formes eux-mêmes, ils n’ont pas pu établir de relation entre des potentiels indices acoustiques liésà ces paramètres gestuels et la géométrie, ce qui aurait pu éventuellement permettre d’augmenter encore plus le taux de reconnaissance pour les sons enregistrés.
Ce résultat soutient le fait que le profil de vitesse constitue l’information principale utilisée pour la reconnaissance de formes géométriques par le biais du son. En particulier, les événements singuliers tels que les silences, correspondant à des vitesses nulles, ont pu être la cause des forts taux de reconnaissance. Du point de vue cognitiviste, on peut donc faire l’hypothèse que notre capacité àassocier des sons à une forme géométrique se base sur un modèle interne du geste évoqué par la perception visuelle de la forme et la perception auditive des variations de timbre évoquant le profilde vitesse du geste.
Enfin, dans cette expérience, les forts taux de réussites ont été obtenus pour un corpus de formes relativement distinctes compte tenu de la présence ou non de point de rebroussement et par conséquent du geste produit pour dessiner ces formes. Dans l’expérience suivante, notre but était d’évaluer si les associations entre sons de frottement et formes géométriques étaient encore possible pour des formes plus proches du point de vue géométrique, et aussi du point de vue gestuel, c’est-à-dire sans la présence de points de rebroussement créant des indices acoustiques (i.e. des silences)trèssaillants.