Approche linguistique du problème de la compréhension

Approche linguistique

Ce chapitre s’intéresse aux principaux fondements de l’approche linguistique du problème de la compréhension. L’application du principe de compositionnalité est exposé en 1.2. La partie 1.3 présente les grammaires formelles de Chomsky. Les évolutions et les premières applications de ces grammaires sont détaillées dans la section 1.4. Enﬁn, la partie 1.5 présente les grammaires stochastiques et quelques systèmes les utilisant. Les systèmes développés selon l’approche linguistique se basent sur l’application du principe de compositionnalité de Frege à partir d’une analyse syntaxico-sémantique de la proposition. Après de brefs rappels théoriques, quelques-uns de ces systèmes sont présentés dans ce chapitre. Les premiers d’entre eux ont été réalisés sous la contrainte technique d’une puissance de calcul restreinte et sont pionniers dans le domaine de l’interaction homme-machine.Le principe de compositionnalité de Frege est explicité en 1.2. Les grammaires formelles de Chomsky, créées dans ce contexte réﬂexif et appliquées à la construction des arbres syntaxiques, sont présentées en 1.3. La partie 1.4 expose des évolutions de ces gram- maires orientées vers la prise en compte de connaissances sémantiques. L’introductionde paramètres stochastiques dans les approches à base de grammaires est exposée dans la section 1.5.

Principe de compositionnalité

Dans la plupart des systèmes issus de l’approche linguistique, tous les sens possibles de chaque mot sont considérés. Ces informations sont ensuite composées sous la contrainte d’obtenir un sens cohérent pour chaque proposition. Une approche de ce type, décrite dans (Allen, 1988), consiste à analyser une phrase écrite pour obtenir l’arbre syntaxique qui lui est associé. Un ensemble de règles fait ensuite correspondre les blocs de l’arbre à des fragments de représentations sémantiques déﬁnis au sein d’une ontologie structurée. Cette approche, issue des travaux de Frege, est justiﬁée par l’hypothèse que chaque constituant syntaxique important d’une phrase correspond à un constituant conceptuel, la réciproque étant fausse. La ﬁgure 1.1 présente l’exemple de l’arbre sémantique asso- cié à la proposition “Je cherche un hôtel Soﬁtel pour le soir du 25 octobre ”Selon les domaines d’application, des représentations sémantiques peuvent être associées à des nœuds non terminaux de l’arbre syntaxique et l’interprétation de la phrase peut être réalisée en utilisant les étiquettes sémantiques de ces associations.

Grammaires formelles

Ces modélisations sont issues des grammaires formelles de Chomsky. Ces gram- maires s’inspirent du langage formel et tentent d’intégrer les caractéristiques du langage humain à l’aide de règles d’association des mots. Composées d’un nombre ﬁni de règles de production (règles de réécriture), elles permettent de générer et d’analyser un langage donné. Toute règle comporte un symbole non terminal entre deux mots que l’on retrouve après la dérivation. Le non terminal est transformé de façon non nulle. Les mots qui encadrent le non terminal représentent son contexte qui va inﬂuer sur sa dérivation. Les grammaires de type 1 sont décidables. Pour déterminer si une phrase de longueur n appartient au langage, il sufﬁt de réaliser toutes les dérivations comportant n symboles ou moins, ce qui nécessite un temps ﬁni. Cependant, la génération est de complexité exponentielle en n (le temps d’analyse est proportionnel à l’exponentielle du nombre de mots à analyser).Bien que limitées par leur incapacité à traiter les dépendances longues distances, l’usage des grammaires hors-contexte est souvent privilégié en TALN, essentiellement en rai- son du bon compromis entre leur capacité descriptive et leur complexité (polynomiale en O(nlocales (traitement des nombres). Dans le cadre du dialogue et pour des applications à des domaines restreints, elles sont souvent choisies en raison de leur complexité linéaire.

Évolutions

Dans les GRTA, des tests conditionnels peuvent être associés à certains arcs et un ensemble de structures de construction peuvent être effectuées si l’arc est emprunté (composition d’arbres, génération d’interprétations sémantiques). En effet, le réseau de transitions augmenté fournit une description structurelle partielle de la phrase à chaque état. Ces descriptions sont stockées dans des registres mis à jour au ﬁl de l’analyse. Le contenu des registres est composé des valeurs des caractéristiques linguistiques et peut aussi être utilisé pour construire les arbres d’analyse. Une approche de ce type est décrite dans (Woods et al., 1976) et est proposée dans le projet ARPA de 1971, détaillé dans (Klatt, 1977). Il inclut des approches essentiellement basées sur l’Intelligence Artiﬁcielle (IA) pour combiner analyse syntaxique et représentation sémantique en logique formelle. Les systèmes de ce projet génèrent des hypothèses de séquences de mots grâce Composées d’états reliés par des arcs (graphes orientés), ces grammaires ont l’expressivité des grammaires hors-contexte à laquelle s’ajoute la capacité de déplacer des fragments de structure, de les recopier, de les supprimer : Ces actions sont généralement dépendantes du contexte dans lequel les fragments apparaissent. La chaîne d’entrée est analysée de gauche Aà droite durant la décomposition, mot par mot. Le mot entrant et l’état courant détermine l’arc emprunté par le processus. Des GRT sont utilisées pour la compréhension de la parole spontanée par (Young et al., 1989).

Conscient de l’incapacité des grammaires hors-contexte à modéliser toutes les subtilités du langage naturel (Chomsky, 1964), Woods propose l’utilisation des grammaires à base de réseaux de transitions augmentés (GRTA) dans les procédures de décomposition syntaxique (Woods, 1970). Dans la perspective de mieux modéliser richesse et complexité du langage naturel, ces grammaires contiennent des connaissances sémantiques sensibles au contexte et leurs stratégies de décomposition syntaxique incluent des processus d’inférence logique.