Les modèles informatiques

Les modèles informatiques

Pour certaines tâches du traitement automatique des langues (TAL), une connaissance plus étendue que le seul sens canonique d’un mot est capitale. A titre d’exemple, voici le texte d’un journal1 :

The final was Hewitt’s first and Sampras’ 17th, but the less experienced 20-year-old Australian was much more energetic. After consecutive wins against former champions Pat Rafter, Andre Agassi and Marat Safin, Sampras appeared to have nothing left for his second match in barely 24 hours. Les mots ambigus the final et match, devraient être traduits en français par la finale et match respectivement, mais les systèmes les plus connus dans le domaine de la traduction automatique proposent comme traduction les mots le final ou allumette.

Voici les deux traductions obtenues par les deux systèmes (les accentuations sont absentes dans leurs résultats originaux) : *Le final était Hewitt’le s premier et Sampras’ 17e, mais l’a éprouvé moins 20-ans Australien était beaucoup plus énergique. Après consécutif gagne contre Rafter ancien de Caresse de champion, Andre Agassi et Marat Safin, Sampras a apparu d’avoir rien ne part pour sa deuxième allumette dans à peine 24 heures.2 *La finale était Hewitt premier et Sampras 17ème, mais moins l’Australien 20-year-old expérimenté était beaucoup plus énergique. Après que les victoires consécutives contre d’anciens champions tapotent le comble, l’Andre Agassi et le Marat Safin, Sampras a semblé à gauche n’avoir rien pour sa deuxième allumette en à peine 24 heures.

Référence lexicale

Les questions posées ci-dessus à propos de la relation entre stagger et drunk ou entre rédiger et article peuvent être résolues facilement s’il existe des références lexicales convenables à consulter. En revanche, l’absence de telles références posera un problème sévère, non seulement à la machine mais aussi aux apprenants d’une langue étrangère. En effet, pour les non-francophones ou pour les machines, trouver le verbe typique qui s’emploie pour décrire « la démarche d’un ivrogne », par exemple, n’est pas un problème tout à fait simple.

Les références disponibles comme les dictionnaires usuels ne sont pas très adaptées à cet objectif : un dictionnaire traditionnel est conçu pour trouver les définitions d’un mot à partir de l’entrée et non pour trouver un mot en partant des définitions. Les dictionnaires utilisables par une machine4 permettent de rechercher les entrées à partir des définitions. Les dictionnaires utilisables par la machine apparaissent dans les années 60 (Olney 1968, Ide et Véronis 1998) et deviennent les sources de connaissance pour le TAL dans les années 80 (Amsler 1980, Michiels, Mullenders et Noël 1980).

 

Dès lors, les études utilisant ces dictionnaires ont pour but d’en extraire automatiquement les connaissances lexicales et sémantiques. Certains auteurs ont construit un ensemble de connaissances associées aux mots, en utilisant les mots inclus dans les définitions (Wilks, Fass, Guo, McDonald, Plate et Slator 1988, Inkpen et Hirst 2003). Cependant, malgré ce type d’améliorations qui restent limitées, l’ambition initiale n’a pas atteint son objectif. Cet échec pouvait en fait être prévu, car si les dictionnaires utilisables par machine sont une innovation dans l’utilisation des ressources, ils ne le sont pas dans leurs contenus.

En effet leurs contenus sont identiques aux dictionnaires classiques qui eux-mêmes rencontrent des problèmes d’incohérence et des problèmes dus à l’absence de connaissances qui dépasseraient le champ de la sémantique lexicale canonique comme le sont les connaissances du monde, les connaissances pragmatiques, etc. Ce type de limite d’un dictionnaire s’observe par exemple dans la question mentionnée ci-dessus : le dictionnaire Le Robert propose les verbes qui décrivent une démarche instable comme chanceler, flageoler, tituber, trébucher, vaciller, etc., mais il n’y a pas de définition ou d’information à propos de « la démarche d’un ivrogne ».

D’ailleurs, dans ce dictionnaire les exemples qui pourraient fournir des connaissances indirectes ne sont pas très cohérents : Le Robert propose deux phrases « Il chancelle comme un homme ivre » et « Un ivrogne, un malade qui titube » mettant ainsi en évidence que chanceler et tituber sont les candidats pour le verbe cherché ; cependant les francophones répondront majoritairement tituber et non chanceler. 

Formation et coursTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *