Approche linguistique

Approche linguistique

Ce chapitre s’intéresse aux principaux fondements de l’approche linguistique du problème de la compréhension. L’application du principe de compositionnalité est exposé en 1.2. La partie 1.3 présente les grammaires formelles de Chomsky. Les évolutions et les premières ap- plications de ces grammaires sont détaillées dans la section 1.4. Enﬁn, la partie 1.5 présente les grammaires stochastiques et quelques systèmes les utilisant. Les systèmes développés selon l’approche linguistique se basent sur l’application du principe de compositionnalité de Frege à partir d’une analyse syntaxico-sémantique de la proposition. Après de brefs rappels théoriques, quelques-uns de ces systèmes sont présentés dans ce chapitre. Les premiers d’entre eux ont été réalisés sous la contrainte technique d’une puissance de calcul restreinte et sont pionniers dans le domaine de l’interaction homme-machine. Le principe de compositionnalité de Frege est explicité en 1.2. Les grammaires formelles de Chomsky, créées dans ce contexte réﬂexif et appliquées à la construction des arbres syntaxiques, sont présentées en 1.3. La partie 1.4 expose des évolutions de ces gram- maires orientées vers la prise en compte de connaissances sémantiques. L’introductionde paramètres stochastiques dans les approches à base de grammaires est exposée dansla section 1.5.Dans la plupart des systèmes issus de l’approche linguistique, tous les sens pos- sibles de chaque mot sont considérés. Ces informations sont ensuite composées sous la contrainte d’obtenir un sens cohérent pour chaque proposition. Une approche de ce type, décrite dans (Allen, 1988), consiste à analyser une phrase écrite pour obtenir l’ar- bre syntaxique qui lui est associé. Un ensemble de règles fait ensuite correspondre les blocs de l’arbre à des fragments de représentations sémantiques déﬁnis au sein d’une ontologie structurée. Cette approche, issue des travaux de Frege, est justiﬁée par l’hypothèse que chaque constituant syntaxique important d’une phrase correspond à un constituant conceptuel, la réciproque étant fausse. La ﬁgure 1.1 présente l’exemple de l’arbre sémantique asso- cié à la proposition “Je cherche un hôtel Soﬁtel pour le soir du 25 octobre”

Selon les domaines d’application, des représentations sémantiques peuvent être as- sociées à des nœuds non terminaux de l’arbre syntaxique et l’interprétation de la phrase peut être réalisée en utilisant les étiquettes sémantiques de ces associations. Ces modélisations sont issues des grammaires formelles de Chomsky. Ces gram- maires s’inspirent du langage formel et tentent d’intégrer les caractéristiques du lan- gage humain à l’aide de règles d’association des mots. Composées d’un nombre ﬁni de règles de production (règles de réécriture), elles permettent de générer et d’analyser un langage donné. Toute règle comporte un symbole non terminal entre deux mots que l’on retrouve après la dérivation. Le non terminal est transformé de façon non nulle. Les mots qui enca- drent le non terminal représentent son contexte qui va inﬂuer sur sa dérivation. Les grammaires de type 1 sont décidables. Pour déterminer si une phrase de longueur n appartient au langage, il sufﬁt de réaliser toutes les dérivations comportant n symboles ou moins, ce qui nécessite un temps ﬁni. Cependant, la génération est de complexité exponentielle en n (le temps d’analyse est proportionnel à l’exponentielle du nombre de mots à analyser).

Conscient de l’incapacité des grammaires hors-contexte à modéliser toutes les sub- tilités du langage naturel (Chomsky, 1964), Woods propose l’utilisation des grammaires à base de réseaux de transitions augmentés (GRTA) dans les procédures de décompo- sition syntaxique (Woods, 1970). Dans la perspective de mieux modéliser richesse et complexité du langage naturel, ces grammaires contiennent des connaissances séman- tiques sensibles au contexte et leurs stratégies de décomposition syntaxique incluent des processus d’inférence logique. Ces grammaires sont une extension des grammaires à base de réseaux de transitions (GRT). Les GRT sont faiblement équivalentes aux grammaires hors-contexte dont elles ne diffèrent en équivalence forte que par leur aptitude à caractériser les arborescences redondantes du type S[S et S et … et S]. Elles intègrent, via des réseaux de transitions, les caractéristiques que les grammaires de transitions ajoutent aux grammaires hors- contexte.Dans les GRTA, des tests conditionnels peuvent être associés à certains arcs et un ensemble de structures de construction peuvent être effectuées si l’arc est emprunté (composition d’arbres, génération d’interprétations sémantiques). En effet, le réseau de transitions augmenté fournit une description structurelle partielle de la phrase à chaque état. Ces descriptions sont stockées dans des registres mis à jour au ﬁl de l’analyse. Le contenu des registres est composé des valeurs des caractéristiques linguistiques et peut aussi être utilisé pour construire les arbres d’analyse. Une approche de ce type est décrite dans (Woods et al., 1976) et est proposée dans le projet ARPA de 1971, détaillé dans (Klatt, 1977). Il inclut des approches essentiellement basées sur l’Intelligence Arti- ﬁcielle (IA) pour combiner analyse syntaxique et représentation sémantique en logique formelle. Les systèmes de ce projet génèrent des hypothèses de séquences de mots grâce