Problématique au sein du Traitement Automatique de la Langue Naturelle
Place de la syntaxe dans le TALN1
À partir de la prédominance constatée de la syntaxe dans les applica tions du TALN, alors que tout le monde reconnaît le sens comme objectif, il faut bien se poser la question de sa nature et de son rôle dans l’approche du sens. De plus, la syntaxe telle qu’elle est définie pour les systèmes de traitement de la langue (systèmes informatisés donc formels) est-elle bien celle dont on parle dans des considérations plus centralement linguistiques? Nous tenterons donc de dégager les tenants et les aboutissants de la profusion d’applications centralement syntaxiques dans le TALN, et comparer ceux-ci avec nos objectifs et prises de position.
Prédominance de la syntaxe dans le TALN
Revenons quelques temps sur les tentatives initiales en traduction au tomatique, telles qu’elles fleurirent après la dernière guerre, motivées par la volonté américaine de traduire automatiquement les messages russes. Les productions en ce sens, avant d’être déclarées inutilisables par la comité AL PAC3 en 1965, s’appuyaient essentiellement sur l’utilisation de correspon 1. TALN est un AQL2 pour Traitement Automatique du Langage Naturel.
Acronyme de Quatre Lettres. 3. Automatic Language Processing Advisory Committee, dont l’initiative a vu le jour en 1952. 15 dances mot-à-mot. Les traditions sous-jacentes à l’époque provenaient plus de la cryptographie (dont le succès dans son traitement informatique était validé) que de la linguistique véritable.
À partir de là, deux programmes majeurs furent envisagés au vu des échecs : affiner l’analyse syntaxique ou apporter des connaissances générales au système. On peut citer par exemple Weaver, reconnaissant que le «déco dage du russe vers l’anglais» [66] est plus complexe qu’une simple correspon dance, et Bar-Hillel [3],
qui reconnaît le besoin de connaissances sur le monde, et non plus sur la langue (lexique et grammaire) pour parvenir à une traduc tion acceptable. S’affirment donc deux programmes : le premier vise l’affi nement syntaxique (comme affinement/complexification de la structure); le second concerne le mode de coordination du thème de la connaissance avec l’objet linguistique.
Pour l’instant, nous étudierons la première possibilité : développement des méthodes d’analyse morphologique (dictionnaire de formes simples et règles de composition des mots, cela dès les premières tentatives de tra duction, pour diminuer la place en mémoire des dictionnaires), et surtout syntaxique, afin de déterminer la structure de la phrase, et atteindre ainsi une meilleure compréhension, donc traduction.
Dans le cas de la traduction, cela suppose toujours une correspondance, non plus au niveau du mot, mais au moins au niveau du syntagme et de la proposition. Ceci se traduit également par le développement de formalismes syn taxiques originaux, à partir des simples grammaires syntagmatiques, en cher chant à atteindre un taux de couverture maximal des phrases correctes ana lysées.
À ce propos nous ne pouvons bien entendu pas nous affranchir de citer les travaux de Chomsky [11, 12], et leur abondante tradition critique qui a nourri presque toute la recherche en TALN, qui s’inscrivent pleine ment dans cette vision du sens (structure profonde) accessible par la forme (structure de surface). Nous ne nous lancerons pas dans une critique maintes fois proposée, mais reconnaîtrons simplement que la théorie de la grammaire transformationnelle constitue l’approfondissement le plus notable de cette vision générale. Ces formalismes ne furent pas utilisés exclusivement à des fins de tra ducteurs automatiques.
Une grande majorité d’outils de TALN utilisent un analyseur morpho-syntaxique ou parser. Que ces outils servent à l’interro gation de bases de données en langage naturel, à la production de résumé ou l’indexation de documents, en bref des outils qui visent à une certaine forme de compréhension de la langue, ils passent presque toujours par une phase purement syntaxique. C. Fuchs [19] reconnaît à la syntaxe un statut de nécessité pour la généralité de l’outil, dans le sens de la variété des énon 16 cés que celui-ci traite.