ANALYSE AUTOMATIQUE DE TEXTES THAÏ

ANALYSE AUTOMATIQUE DE TEXTES THAÏ

Cette analyse permet de reconnaître des parties de mots, c’est-à-dire des préfixes et des suffixes, en appliquant les dictionnaires d’affixes (cf. §4.1.1.7.1) sur un corpus P0. Ce dernier a été choisi pour ce type d’analyse parce qu’il avait été segmenté caractère par caractère, ce qui autorise l’identification partielle de mots par INTEX même dans les cas de mots composés avec adaptation morphologique (cf. §2.3.2.2.2). Par exemple, le préfixe « ราช » [racha] (roi) dans le mot « ราชาภิเษก » [rachaphisek] (couronnement de roi) ne sera reconnu qu’avec le corpus P0 à cause du caractère vocalique inséparable « -า » [a] qui est courants tel « พล » [phala] (force) que nous trouvons 9 274 fois comme préfixe dans notre corpus d’analyse. Parmi ces 9 274 occurrences, seules 7 sont correctes. En effet, les petits affixes correspondent trop facilement à des parties de mots (cf. §4.1.1.6) et INTEX n’est pas en mesure de distinguer les bons des mauvais. » [kiatti] (réputation) est correctement reconnu 10 fois sur 19 et le préfixe « วฒั น » [watthana] (prospérité), grâce au caractère peu courant « ฒ » [th phuthaw], obtient la note de 16/17. » (cf. Figure 4.48) en mode « recherche de motifs par graphes » (cf. §1.3.2.2) sur un corpus P1 dans lequel les phonèmes muets sont préalablement regroupés par les graphes « Replace 1.23 » et « Replace 1.24 » (cf. Figure 4.38 et Figure 4.39).

Dans notre expérimentation sur le corpus « SiPhanDin-P1 » qui comporte exactement 2 119 phonèmes muets, notre méthode a identifié correctement 2 108 phonèmes, partiellement 9 phonèmes et 2 phonèmes n’ont pas été détectés du tout. Si nous considérons que les 9 phonèmes partiellement identifiés ont été à la fois détectés à tort et non détectés à tort, alors la précision est égale à 99,6% Il s’agit de l’identification des mots simples et des mots composés dans un corpus respectivement au moyen des dictionnaires DELAF et DELACF et de l’association de ces mots aux informations lexicales correspondantes. Nous rappelons que la différence entre mots simples et mots composés dans INTEX est purement formelle (cf. §3.2.1).  Ici encore, le choix de la version (P0 – P3) du corpus à analyser est important. Plus la version est élevée, moins il existe de bruit produit, parce que le nombre de lexèmes dans une version supérieure est réduit par rapport à celui d’une version inférieure. Le tableau suivant montre le résultat des analyses de différentes versions de corpus. Discussion : le graphe modifié ci-dessus peut engendrer des erreurs en reconnaissant des noms différents dans les première et troisième position. C’est pourquoi nous indiquons simultanément le $1 et le $3 dans la sortie de graphe afin de pouvoir vérifier leur identité. Par exemple, l’expression suivante est correctement reconnue parce que $1 = $3 : Après l’application de tous les graphes d’expressions figées ci-dessus sur le corpus « SiPhanDin-P3 » sur lequel nous avons appliqué les DELAF et DELACF, nous trouvons correctement 64 expressions figées, incorrectement 5 expressions, et 8 ne sont pas trouvées. Ainsi, la précision est égale à 93%.Nous appliquons ce graphe sur le corpus « SiPhanDin » quelle que soit la version, en mode « recherche de motifs par graphes » (cf. §1.3.2.2) et nous identifions les 219 nombres décimaux sans aucune erreur. C’est-à-dire que la précision et le rappel sont égaux à 100%. • Le graphe ci-dessous reconnaît les nombres à partir de 1 000 000. C’est un RTN qui fait appel aux graphes ci-dessus et également à lui-même. En conséquence, il reconnaît théoriquement les nombres entiers d’un million jusqu’à l’infini  les expressions des nombres décimaux d’une valeur de moins l’infini jusqu’à l’infini En appliquant le graphe ci-dessus sur le corpus d’analyse « SiPhanDin-P3 », nous arrivons à identifier correctement 2 835 expressions numériques écrites en toutes lettres avec 436 incorrectes et 4 manquantes. C’est-à-dire que la précision est égale à 87%• Les indications d’ère sont décrites dans le graphe ci-dessous. Il tient compte des calendriers chrétien, bouddhiste, islamique, etc. qui sont exprimés sous une forme complète ou abrégée. En choisissant « Construct FST-Text » dans le menu « Text », nous pouvons voir toutes les structures possibles des phrases sous la forme des transducteurs du texte, dans lesquels chaque unité linguistique est représentée par une étiquette et chaque chemin du nœud initial vers le nœud terminal correspond à une analyse possible de chaque phrase. La version du corpus joue aussi un rôle important dans la complexité des transducteurs. Plus la version  Sachant que notre phrase ne comporte que des mots courants, nous pouvons encore réduire la complexité du transducteur en n’appliquant sur le texte que les dictionnaires z1 (27 étiquettes) : Afin de réduire encore la complexité des transducteurs du texte, INTEX intègre l’option « Remove .Xxx lexical items » dans le menu de la construction du transducteur du texte (cf. §1.3.4). Cette option permet de ne pas présenter dans le résultat les mots inconnus (XERR) ainsi que les nœuds et les chemins associés, si et seulement si on peut passer par d’autres chemins concurrents et étiquetés. En conséquence, le transducteur du texte sera beaucoup plus simple comme dans les figures ci-dessous. Cependant, les noms propres absents des dictionnaires seraient également effacés avec cette option.

 

Cours gratuitTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *