Étude des mots étiquette et modèle linguistique prédictif
Ici, nous voulons d’abord nous attarder sur un problème précis : la possibilité, malgré tous les efforts pour les minimiser, d’ambiguïtés sémantiques dans un corpus juridique multilingue. Nous voulons montrer que la traduction d’un corpus de droit international est à même d’aider à éclairer ces ambiguïtés. Afin de pouvoir mieux caractériser l’ambiguïté sémantique, nous nous inspirerons de la théorie des graphes pour assigner aux unités de sens des caractéristiques de traduction, comme le nombre de traductions et leurs fréquences, ceci permettant de mieux visualiser l’importance d’un terme dans une langue. Pour cela, nous présenterons d’abord la théorie des graphes et montrerons en quoi on peut l’appliquer dans le domaine de la traductologie (4.1.1). Ensuite nous étudierons les expressions soulignées de début de paragraphe des résolutions du Conseil de sécurité en établissant leur diversité et comment nous surmontons cette multiplicité en choisissant le lemme du mot principal de l’expression comme étant le mot-étiquette qui rend le sens principal de l’expression soulignée (4.1.2). Après cette détermination des mots-étiquette, nous en étudierons la distribution au sein du corpus (4.1.3) pour enfin voir les différentes traductions de certains d’entre eux (4.1.4).
La mathématisation d’un problème a pour but de le simplifier et de le systématiser pour permettre d’en trouver les solutions d’une façon reproductible et simple. Dans le domaine de la linguistique, la mathématisation des problèmes linguistiques a une très riche et longue histoire, et son but principal actuel est bien sûr le traitement automatique des langues, et notamment la traduction automatique ou traductique. La théorie des graphes est une branche des mathématiques dédiée à l’étude de graphes composés d’éléments reliés entre eux. Cette approche a été suggérée par Meara390 pour une analyse plus objective des associations entre mots entre des textes et leur traduction. Il convient donc d’abord de donner le cadre théorique de cette théorie avant d’essayer d’en utiliser certains outils sur une partie de notre corpus, les expressions soulignées de début de paragraphes et les mots-étiquette qu’on peut leur assigner. La mise sous forme de vecteurs des phrases d’un texte source pour permettre de produire une traduction automatique revient à donner à la langue une propriété mathématique qui pourra être utilisée par un ordinateur. Cela fut fait à l’origine pour la recherche d’information. Sumita a proposé un modèle similaire pour la traduction automatique : dans un tel modèle, on assigne à une phrase source un vecteur, et l’on recherche dans un corpus bilingue un vecteur similaire (c’est-à-dire avec une même propriété mathématique, en l’occurrence son cosinus) pour pouvoir sélectionner automatiquement la traduction adéquate d’un mot possédant plusieurs traductions .
La représentation graphique d’un vecteur va donc dépendre des points qui composent ce vecteur. Or ces points, lorsqu’il s’agit d’un vecteur représentant une phrase, vont dépendre eux-mêmes du sectionnement syntaxique appliqué. D’une façon plus générale, on peut incorporer d’autres informations dans de tels graphes : sémantiques, syntaxiques ou autres, pour obtenir des graphes de connaissance. Zhang décrit en détail toutes ces To establish a model for natural language understanding, it is necessary to be able to express the meaning of a word or a sentence when the knowledge graph is used. The meaning of a sentence is a function of the meaning of each of its parts. This is usually called the compositionality principle. Therefore, to know the meaning of a sentence is to first know the meaning of each word, then gather all words into a sentence, in order to know the meaning of the entire sentence. Dans cette optique, la détermination de la signification de chaque terme précède la détermination du sens de la phrase. Zhang se focalise sur la détermination du sens lorsque la traduction s’effectue entre des langues très différentes comme l’anglais et le chinois et les problèmes induits par cette distance, comme par exemple par le fait que les mots chinois sont invariables et qu’un même terme peut s’employer comme nom ou comme verbe. De ce fait, il intègre des aspects ontologiques (comme la causalité, l’égalité, etc.) dans ses graphes.