Applications du dictionnaire électronique des séquences nominales figées et de leurs formes fléchies
Dans la section 1, à partir de codes flexionnels comme N11 ou N33 du dictionnaire électronique et de la fonctionnalité de flexion du menu DELA d’INTEX (« Inflection »), nous engendrons toutes les formes fléchies des séquences nominales figées. Nous fusionnons deux bases de données : les séquences nominales figées et les séquences de postpositions nominales. Dans la section 2, nous justifions la validité de notre méthode en appliquant notre dictionnaire des formes fléchies des noms figés à espacement facultatif (NFF) à des textes coréens. Dans la section 3, nous examinons l’application de notre dictionnaire électronique dans plusieurs domaines du traitement automatique des langues naturelles comme la recherche d’informations, l’extraction de mots-clés, l’analyse syntaxique et la traduction automatique.
Construction automatique du dictionnaire des formes fléchies des séquence snominales figées avec INTEX
Avant d’aborder l’étape de la génération automatique des formes fléchies des séquences nominales figées du coréen, nous présentons brièvement la méthode de production des formes fléchies des mots simples en français : il s’agit de la méthode mise au point au LADL par B. Courtois (1990) et M. Silberztein (1993). DELAS est une liste de tous les mots simples sous leurs formes lemmatisées : par exemple, l’infinitif pour les verbes, le masculin singulier pour les adjectifs, etc. Chacun des mots simples est accompagné d’un code flexionnel qui permet d’engendrer automatiquement toutes les formes fléchies à partir de sa forme lemmatisée. Par exemple, pour l’entrée du DELAS français (M. Silberztein, 1996 et A. Chrobot, 2001) : Figure 1. Transducteur de flexion A72 Puisque le masculin singulier est équivalent au lemme, le suffixe vide est ajouté au lemme. Mais pour produire le pluriel au masculin, il faut ajouter le suffixe « x ». Pour produire le féminin singulier, il faut effacer les deux dernières lettres du lemme et ajouter la terminaison « lle ».
Les quatre formes fléchies sont associées au même lemme nouveau après une virgule. Les propriétés linguistiques suivent le point. Les deux points « : » introduisent les traits morphologiques des formes fléchies obtenues. INTEX contient deux autres opérateurs « R » (Right) et « C » (Copy) pour décrire plus facilement le changement systématique d’une voyelle dans un ensemble de mots de base qui ne partagent pas la même désinence : « R » permet de sauter une lettre vers la droite dans le lemme, et « C »
séquences nominales figées du coréen dans INTEX. Dans le chapitre 3, nous avons examiné le codage de chaque entrée selon les contraintes combinatoires avec les postpositions nominales. Dans le chapitre 4, nous avons étudié la construction du dictionnaire des séquences de postpositions nominales sous forme de graphes. Pour construire un dictionnaire électronique exploitable, il existe une étape indispensable : la fusion de deux bases de données. En effet, des formes fléchies des séquences nominales figées apparaissent dans les textes coréens. A partir de codes flexionnels comme N11 ou N33 d’un dictionnaire électronique et de la fonctionnalité de flexion du menu DELA d’INTEX (« Inflection »), nous engendrons toutes les formes fléchies des séquences nominales figées.
Compression du DELAF et du DELACF de NFF en FST déterministes
Une fois construit sous la forme d’un DELAF d’INTEX, le dictionnaire de toutes les formes fléchies des NFF, il est placé dans le dossier DELACF de la langue coréenne avec l’extension « .dic ». Or, nous obtenons deux types de formes fléchies de NFF en coréen : les formes sans aucun espace et celles avec au moins un espace. Nous pouvons tout mettre dans le dossier DELACF, mais nous avons mis les formes fléchies des NFF sans espace dans le dossier DELAF et celles des NFF avec espace dans le dossier DELACF pour faciliter l’exposition (cf. nous allons comparer le nombre de NFF reconnus par DELAF et celui par DELACF (figure 15, p. 162). lexicographique (ou un cas particulier d’automate déterministe acyclique7), où l’état initial est la racine de l’arbre et les états terminaux sont des feuilles. La figure 7 présente un arbre lexicographique construit pour un dictionnaire contenant six mots anglais : ant, ants, apse, apses, pat et pats. Le langage (ii) L’arbre lexicographique est minimisé 10 selon la méthode basée sur la propriété d’équivalence (E) d’états dans un automate. Deux états p et q sont équivalents ((p, q) ∈ E), si et seulement si leurs langages droits sont égaux, le langage droit d’un état étant l’ensemble de tous les suffixes reconnus à partir de cet état jusqu’à l’un des états finals. Par exemple, dans la figure 7 les ensembles d’états qui ont les mêmes langages droits sont {5, 9, 13}, {4, 8, 12}, et {3, 11}. Si tous les états équivalents sont fusionnés, nous obtenons l’automate minimal comme la figure 8.
Dans un DELAF compressé sous INTEX, aucun symbole de sortie n’est attaché aux transitions. La production de l’étiquette grammaticale ne se fait qu’après avoir atteint l’état final. La minimisation est effectuée par l’algorithme ci-dessus. La seule différence est que les états terminaux sont distingués par les différentes productions qui leur sont attribuées. L’état final est associé au numéro qui représente l’indexe de l’information lexicale correspondante dans un tableau. Pour réduire le nombre des informations lexicales, les lemmes sont remplacés par les commandes utilisés lors du processus de la flexion dans INTEX. Si un lemme est égal à son entrée, il est effacé. Voici par exemple trois entrées du DELAF.