Applications du dictionnaire électronique des séquences nominales figées et de leurs formes fléchies
Dans la section 1, à partir de codes flexionnels comme N11 ou N33 du dictionnaire électronique et de la fonctionnalité de flexion du menu DELA d’INTEX (« Inflection »), nous engendrons toutes les formes fléchies des séquences nominales figées. Nous fusionnons deux bases de données : les séquences nominales figées et les séquences de postpositions nominales. Dans la section 2, nous justifions la validité de notre méthode en appliquant notre dictionnaire des formes fléchies des noms figés à espacement facultatif (NFF) à des textes coréens. Dans la section 3, nous examinons l’application de notre dictionnaire électronique dans plusieurs domaines du traitement automatique des langues naturelles comme la recherche d’informations, l’extraction de mots-clés, l’analyse syntaxique et la traduction automatique. 1. Construction automatique du dictionnaire des formes fléchies des séquences Avant d’aborder l’étape de la génération automatique des formes fléchies des séquences nominales figées du coréen, nous présentons brièvement la méthode de production des formes fléchies des mots simples en français : il s’agit de la méthode mise au point au LADL par B. Courtois (1990) et M. Silberztein (1993). DELAS est une liste de tous les mots simples sous leurs formes lemmatisées : par exemple, l’infinitif pour les verbes, le masculin singulier pour les adjectifs, etc. Chacun des mots simples est accompagné d’un code flexionnel qui permet d’engendrer automatiquement toutes les formes fléchies à partir de sa forme lemmatisée. Par exemple, pour l’entrée du DELAS français (M. Silberztein, 1996 et A. Chrobot, 2001) : Introduisons les opérateurs de pile dans INTEX. L’effacement du dernier caractère est représenté par l’opérateur « L » (Left) et on peut abréger une séquence d’opérateur d’effacement en indiquant simplement le nombre d’effacements : « 2 » est équivalent à « LL ». Si on efface les deux dernières lettres du lemme et qu’on ajoute « lles », on produit la forme du pluriel au féminin. Le transducteur de flexion A72 dans le dossier « Inflection » génère les quatre entées suivantes du DELAF :
Les quatre formes fléchies sont associées au même lemme nouveau après une virgule. Les propriétés linguistiques suivent le point. Les deux points « : » introduisent les traits morphologiques des formes fléchies obtenues. INTEX contient deux autres opérateurs « R » (Right) et « C » (Copy) pour décrire plus facilement le changement systématique d’une voyelle dans un ensemble de mots de base qui ne partagent pas la même désinence : « R » permet de sauter une lettre vers la droite dans le lemme, et « C » er mène Ici, « L » correspond à l’opérateur de pile « empiler » (PUSH), « R » à l’opérateur de pile « dépiler » (POP) et « C » à l’opérateur de pile « dépiler et imprimer ».La flexion d’un dictionnaire DELAS est immédiate : chaque opérateur prend un temps constant ; la construction de chaque forme prend un temps proportionnel à longueur du suffixe du transducteur ; la flexion de chaque entrée prend un temps proportionnel au nombre de séquences nominales figées du coréen dans INTEX. Dans le chapitre 3, nous avons examiné le codage de chaque entrée selon les contraintes combinatoires avec les postpositions nominales. Dans le chapitre 4, nous avons étudié la construction du dictionnaire des séquences de postpositions nominales sous forme de graphes. Pour construire un dictionnaire électronique exploitable, il existe une étape indispensable : la fusion de deux bases de données. En effet, des formes fléchies des séquences nominales figées apparaissent dans les textes coréens. A partir de codes flexionnels comme N11 ou N33 d’un dictionnaire électronique et de la fonctionnalité de flexion du menu DELA d’INTEX (« Inflection »), nous engendrons toutes les formes fléchies des séquences nominales figées. Par exemple :
Dictionnaire du type DELAS pour la flexion
Cette fonctionnalité permet la flexion automatique en appelant des transducteurs de postpositions nominales. Le nom du transducteur est exactement le code associé à chaque entrée. Lorsqu’il s’agit de la flexion des séquences nominales du coréen, le module de flexion est suffisant pour engendrer tous les types de séquences nominales figées : les postpositions nominales ou les séquences de postpositions nominales se combinent toujours avec la dernière syllabe des séquences nominales figées, sans qu’aucun changement de forme n’intervienne au niveau de cette dernière syllabe. Avec les graphes des postpositions nominales, nous engendrons toutes les formes fléchies des séquences nominales figées. La figure 3 montre un échantillon très réduit des listes produites avec INTEX. La génération des formes fléchies des séquences nominales figées avec INTEX respecte en particulier l’usage coréen en ce qui concerne : postposition nominale <-neun> : -eun après la consonne l et -neun après voyelle. Quant aux variantes libres, qui apparaissent dans un contexte phonologique identique (par exemple, -neun et -n se trouvent après une voyelle et sont des formes d’une même postposition auxiliaire <-neun>), nous leur faisons correspondre la même forme canonique, _egePostp_neunAux pour les séquences de postpositions nominales -ege- neun et -ege-n ((2c) et (2d)). Nous observons aussi une contraction graphique : la forme egen est une forme graphiquement modifiée à partir de -ege et de la forme non syllabique -n. La syllabe graphique constituée d’une consonne n devient la consonne finale de la syllabe précédente ge (cf. figure 12 dans le chapitre 4).