Flexion automatique des mots composés
Introduction
Nous avons mentionné (section 2.4) que pour l’analyse automatique des mots composés il faut disposer d’un dictionnaire du type DELACF car ce sont les formes fléchies et non pas les formes canoniques des composés qui apparaissent dans des textes. Nous souhaitons que, une fois le DELAC constitué, le DELACF puisse ‘tre généré automatiquement. Nous avons effectué dans les sections 3.2 à 3.5 l’étude des régularités et des irrégularités de flexion des noms composés. Maintenant nous présentons une méthode originale de description de cette flexion qui permet la génération automatique des formes fléchies des mots composés. 4.2 Contenu d’une entrée du DELAC Après ce que nous avons dit dans la section 2.2.3 (définition 3) et 3.3 (définition 4), nous voyons que pour fléchir un mot composé il faut fléchir sa t’te, comme dans cousin au deuxième degré, cousine au deuxième degré, cousins au deuxième degré, cousines au deuxième degré. Il est donc nécessaire, pour chaque composé, d’indiquer sa t’te ainsi que de fournir pour chacun des constituants caractéristiques 3 sortes d’information : 1) Le code flexionnel provenant du DELAS. Il n’est pas toujours évident de le marquer correctement. Premièrement, les mots simples sont ambigus, par exemple le nom anglais brother a deux formes du pluriel brothers et brethren correspondant à deux codes flexionnels différents : N1 et N1;1. Il faut donc savoir que le pluriel du nom composé brother-in-law se construit avec ce premier code (voir Silberztein 1993a, pp. 91-94). Deuxièmement, certains composés contiennent des composants qui n’ont pas de statut de mots simples variables indépendants et qui donc soit n’existent pas du tout dans le DELAS (voir exemples [190]), soit ne sont codés que comme des mots invariables (exemples [191]). Ceci est par exemple le cas de comedia dell’arte et jazz-band en polonais, ou de stand-by, et up-to-dateness en anglais. Afin de garder la cohérence entre le DELAS et le DELAC, nous devons introduire dans le DELAS les entrées ´ artificielles ª : pour le polonais comedia.N2 et band.N116, pour l’anglais by.N1 et dateness.N3 qui nous permettront de fléchir les composés en question (voir aussi la discussion des cas particuliers chez Silberztein 1993a, pp. 77-79) 2) Le lemme. Le code flexionnel décrit comment obtenir les formes fléchies à partir de la forme lemmatisée, tandis que beaucoup de mots composés contiennent dans leur forme lemmatisée des formes simples qui elles ne sont pas des lemmes, comme ceci à déjà été remarqué dans la section 2.4 (point 3, premier commentaire). Ainsi, dans carte blanche, l’adjectif caractéristique blanche est une forme non lemmatisée à partir de laquelle nous devons produire une autre forme fléchie blanches pour obtenir le pluriel cartes blanches. Pour cet exemple on pourrait envisager une procédure de déduction de la forme lemmatisée blanc à partir de blanche et de son code N8, mais ceci n’est pas toujours possible sans Flexion automatique des mots composés 64 information complémentaire. Par exemple, pour mettre au pluriel féminin le mot mémoire vive, il faut d’abord retrouver le masculin singulier vif auquel on appliquera ensuite l’opération 1ves:fp de son transducteur de flexion pour obtenir vives. Or, la terminaison -f de vif est perdue lors de la production de vive et ne peut pas ‘tre reconstituée à partir du code flexionnel. C’est pourquoi chaque composant variable d’un mot composé doit ‘tre accompagné de sa forme lemmatisée. 3) Les traits flexionnels. Il sont nécessaires pour indiquer ceux du mot composé entier (voir définition 3, section 2.2.3). En particulier, une forme peut ‘tre ambiguÎ, i.e. avoir des jeux de traits flexionnels différents pour le m’me lemme. Par exemple, dans le nom polonais dom dziecka (orphelinat), le premier nom (caractéristique) peut ‘tre aussi bien au nominatif qu’à l’accusatif. Ces trois informations sont exactement celles que l’on associe à chaque mot simple fléchi dans le DELAF. En conséquence, les entrées du DELAC sont comme dans l’exemple [46] repris de la section 2.4 : [243] abbaye(abbaye,N21:fs) cistercienne(cistercien,A41:fs).N+NA:fs/+N Mais ceci ne suffit pas pour les cas irréguliers que nous présentons dans les sections 3.2 -3.5. Par exemple, blanc d’oeuf, qui admet deux variantes au pluriel (blancs d’oeuf, blancs d’oeufs), ne se fléchit pas comme pomme de terre, alors que ces deux noms composés appartiennent à la m’me classe typologique NdeN. Si nous décrivons ce premier en tant que [244] blanc(blanc.N1:ms) d’oeuf.N+NdeN:ms/+N l’algorithme de flexion ne peut pas fléchir oeuf pour obtenir blancs d’oeufs. D’autre part, si nous écrivons [245] blanc(blanc.N1:ms) d’oeuf(oeuf.N1:ms).N+NdeN:ms/+N nous perdons l’information que seul le premier nom blanc est caractéristique (donc que blancs d’oeuf est bien au pluriel), et en plus nous ne savons pas que la forme *blanc d’oeufs n’est pas correcte. Silberztein (1993a, pp. 100-103) décrit des algorithmes employés pour obtenir le DELACF franÁais à partir du DELAC par des utilitaires du type AWK ou SED. Ces algorithmes-là, fonctionnels pour la plupart des mots composés franÁais, ne permettent pas la flexion automatique des exceptions, et ils ne sont pas réutilisables pour d’autres langues. Ci-dessous, nous présentons une méthode universelle de flexion automatique des mots composés.
Fichiers de flexion
Pour chaque langue traitée, nous utilisons un fichier contenant ses types de flexion (genre, nombre, etc.) avec, pour chaque type, l’énumération de ses formes. Ce fichier pour le franÁais comprendra les informations suivantes : N : s,p R : m,f P : 1,2,3 T : W,P,I,J,F,G,K,S,T,C,Y 65 Les caractères initiaux en majuscules suivis du deux-points représentent ici les types de flexion : le nombre (N), le genre (R), la personne (P), le temps et le mode (T). Les caractères après les deux-points ont les m’mes significations que dans le tableau Tab.4 : singulier (s), pluriel (p), masculin (m), féminin (f), première (1), deuxième (2), troisième (3) personne, infinitif (W), etc. De m’me, les fichiers de flexion pour le polonais et pour l’anglais contiennent respectivement 6 et 4 types des flexion codés : nombre (N), genre (R), cas (A), personne (O), temps et mode (E ou T), gradation (Y). N : s,p N : s,p R : o,z,r,f,n O : 1,2,3 A : M,D,C,B,I,L,W T : W,P,I,G,K O : 1,2,3 Y : ∅,C,S E : F, H, P, S, U, J, K, Q, T, Z, G Y : ∅,c,u Le choix des codes pour les types des flexions et pour les traits flexionnels peut ‘tre différent de celui présenté ci-dessus à condition que − chaque code contienne un seul caractère, − les codes pour les types de flexion ainsi que pour les traits flexionnels soient non ambigus, − les codes employés dans les dictionnaires soient cohérents avec ceux du fichier de flexion. 4.4 Fichiers-dictionnaires Le dictionnaire DELAC est divisé en sous-fichiers selon la faÁon dont les mots composés se fléchissent. Chacun de ces sous-fichiers contient : • une ent’te avec − la description des constituants caractéristiques, − la description de la flexion irrégulière, le cas échéant, • une liste des mots composés dont la flexion correspond à la description de l’ent’te du fichier. Les cas les plus simples sont ceux de la flexion régulière telle qu’elle est définie dans la section 3.3 (définition 4). Ils concernent la majorité des composés dans les trois langues présentées. 4.4.1 FranÁais En franÁais la majorité des noms composés du type Nom Adj et Adj Nom sont regroupés dans un seul fichier dont voici un petit extrait : 66 [246] #+/+ abbaye(abbaye.N21:fs) cistercienne(cistercien.A41:fs),N+NA:fs/+N cousin(cousin.N32:ms) germain(germain.A32:ms),N+NA:ms/+N+G jeune(jeune.A31:fs) fille(fille.N21:fs),N+AN:fs/+N merle(merle.N1:ms) blanc(blanc.A47:ms),N+NA:ms/+N petit(petit.A32:ms) ami(ami.N32:ms),N+AN:ms/+N+G Pays-bas,N+NA:mp … La première ligne signifie que chacun des mots composés qui suivent contient deux formes simples caractéristiques. Aucune information flexionnelle complémentaire n’est nécessaire, car l’on a affaire à une flexion régulière : pour obtenir le pluriel ou le féminin du composé (dans le cas o˘ la flexion en nombre ou en genre est admise par les marques +N +G), il faut mettre ses deux constituants respectivement au pluriel ou au féminin. Les codes flexionnels ne sont pas utiles pour les mots sans flexion comme Pays-bas. Ce dernier substantif est à flexion irrégulière selon la définition 5 (section 3.3), car il n’admet pas le singulier qui est pourtant possible pour cette séquence en tant qu’un groupe nominal libre (un pays bas). Néanmoins, placer ce composé dans le m’me fichier-dictionnaire que les NomAdj réguliers n’introduira pas d’erreur de flexion car celle-ci n’est pas admise dans l’entrée elle-m’me (manque de marque +N). Un autre fichier à flexion régulière contiendra la plupart des noms du type Nom Prep Nom : [247] #+/-/- avocat(avocat.N32:ms) de le diable,N+NdeN:ms/+N+G33 boÓte(boÓte.N21:fs) à musique,N+NaN:fs/+N champs d’honneur,N+NA:ms frère(frère.N1:ms) de lait,N+NdeN:ms/+N preuve(preuve.N21:fs) par absurde,N+NPrepN:fs/+N … Ici l’ent’te (également limitée à une seule ligne) décrit le fait que les mots composés sont de longueur 3, et que seul le premier composant est caractéristique. Une autre classe importante du franÁais, celle des PrepNom et certains NomNom sera décrite par l’ent’te indiquant que seul le deuxième composant est caractéristique : [248] #-/+ auto-stoppeur(stoppeur.N35:ms),N+NN:ms/+N+G avant-garde(garde.N21:fs),N+PrepN:fs/+N avant-gardiste(gardiste.X31:ms),N+PrepN:ms/+N+G avant-go˚t(go˚t.N1:ms),N+PrepN:ms/+N baby-sitter(sitter.X31:ms),N+NN:ms/+N+G contre-révolution(révolution.N21:fs),N+NPrepN:fs/+N sous-maÓtre(maÓtre.N39:ms),N+PrepN:ms/+N+G.