Traitement automatique des tables

Traitement automatique des tables

Les tables du lexique-grammaire

Nous rappelons qu’une table du lexique-grammaire représente, sous la forme d’une matrice, la description formelle des prédicats étudiés : le nombre et la nature de leurs arguments, les prépositions appropriées, les constructions associées, etc. Chaque ligne de la table correspond à une entrée lexicale (dans notre cas, un verbe) et chaque colonne à une propriété de cette entrée. Chaque table est saisie à l’aide d’un tableur, comme celui de Microsoft Excel. Une cellule du tableur (i.e. à l’intersection d’une ligne et d’une colonne) contient soit du texte, par exemple : « τοποθετώ » (placer), soit un signe « + » ou « – ». Le signe « + » indique que le prédicat courant accepte la propriété correspondante, alors que le signe « – » indique que le prédicat courant ne vérifie pas la propriété correspondante. La figure 10 représente un extrait de la table 38GLD. Figure 10. Extrait de la table 38GLD 6.2 Les graphes paramétrés Le contenu d’une table est exploité en utilisant des graphes paramétrés (cf. Fig. 11). Ces graphes sont des automates à états finis récursifs (on parle de réseaux récursifs de transitions – RTN), i.e. des graphes dont les transitions peuvent être étiquetées par des éléments lexicaux, par des références à des ensembles d’éléments lexicaux (qui figurent dans un dictionnaire électronique morphologique) ou encore par des références à d’autres automates finis (ou sous-graphes). Le formalisme des automates à états finis permet aux utilisateurs de lire, de modifier et de raffiner leurs grammaires de façon simple. De plus, les grammaires construites sont directement applicables sur corpus, ce qui permet de tester leur qualité au fur et à mesure de leur construction. Les graphes paramétrés rendent compte des constructions linguistiques formalisées dans les tables du lexique-grammaire. Ainsi, chaque construction, qui figure en colonne, est 255 représentée par un chemin au sein du graphe. De plus, un ensemble de paramètres ou variables, introduits par le symbole « @ », est inséré dans le graphe. Le symbole « @ » renvoie à une colonne de la table. Par exemple, @A renvoie à la première colonne de la table, @B renvoie à la deuxième colonne, etc. La valeur de cette variable dépend directement de l’entrée lexicale concernée. Ainsi, si la cellule contient le signe « + », le chemin est retenu. Si la cellule contient le signe « – », le chemin est supprimé du graphe. Dans le cas où la cellule contient du texte, la variable est remplacée par ce contenu. Figure 11. Extrait d’un graphe paramétré simplifié 6.3 Conversion des tables en grammaires Notre application consiste à convertir automatiquement les tables du lexique-grammaire en des graphes paramétrés. Le résultat final sera la création d’un graphe spécialisé pour chaque ligne des tables. L’ensemble des graphes générés constituera une grammaire de reconnaissance des constructions décrites en colonnes dans les tables. Pour la conversion des tables du lexique-grammaire en des grammaires locales, il nous faut donc : – des données linguistiques représentées en tables ; – des graphes paramétrés qui formalisent les propriétés décrites dans ces tables ; – un outil informatique qui met en relation les propriétés dans les tables et les chemins des graphes correspondants, et qui produit des transducteurs2 . Pour ceci, nous nous sommes servi des fonctionnalités d’Unitex.

La super-table et les super-graphes

Paumier (2003) remarque que l’approche consistant en la construction de grammaires particulières pour chaque table du lexique-grammaire présente des inconvénients. Plus précisément : i. Nous rencontrons des problèmes de maintenance des grammaires, vu que les propriétés communes à diverses tables doivent être transposées pour chaque table. Or, une 2 Un transducteur (ou transducteur à états finis) est un graphe qui associe à des séquences reconnues des informations produites (cf. M. Silberztein 1993). 3 Cf. Paumier 2003. 256 même propriété n’est pas forcément codée dans la même colonne (A, B, C,…) pour toutes les tables. Par conséquent, toute modification doit être répercutée dans toutes les grammaires des tables concernées, ce qui entraîne des risques d’erreurs et une charge de travail importante. ii. Certaines propriétés ne sont pas codées dans toutes les tables, puisque leur codage peut y être constamment « + » ou constamment « – ». Il faut, alors, transposer les propriétés concernées manuellement dans le graphe de chaque table. Pour résoudre ce problème majeur de maintenance, Paumier (2003) propose d’« ajouter un niveau d’abstraction » au modèle existant : les graphes paramétrés génériques. Ainsi, au lieu de traiter pour chaque table du lexique-grammaire un graphe paramétré représentant les propriétés de cette table-ci, nous construisons, d’une part, un graphe générique représentant toutes les propriétés possibles et, d’autre part, une table générale (ou supertable) qui comprend en colonnes toutes les propriétés potentielles. L’idée est donc de générer automatiquement les graphes des tables à partir d’une seule description générique. Chaque graphe de table ainsi généré est, ensuite, utilisé pour générer les graphes propres à chaque entrée de la table (génération automatique des graphes des entrées). Par conséquent, selon ce modèle, nous avons trois niveaux de graphes : – les graphes paramétrés génériques (ou super-graphes) qui décrivent les structures de façon générique, – les graphes paramétrés des tables qui décrivent les structures propres à chaque table, – les graphes des entrées qui constituent des graphes lexicalisés générés pour chaque entrée dans les tables, et deux sortes de tables : – une super-table, qui comprend en lignes tous les noms des tables du lexiquegrammaire et en colonnes toutes les propriétés figurant dans ces tables, – les tables du lexique-grammaire. La figure 12, ci-dessous, représente un extrait de la super-table grecque. A son état actuel, elle ne comprend que les propriétés figurant dans les cinq tables des constructions transitives locatives standard. Elle sera, bien évidemment, enrichie dans l’avenir avec d’autres tables du lexique-grammaire et avec leurs propriétés spécifiques.

Formation et coursTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *