Implémentation des systèmes CasANER et ASRextractor
Implémentation du système CasANER
Le système CasANER qui est dédié à la reconnaissance et l’annotation des ENA admet une seule entrée qui est le corpus brut extrait à partir de la Wikipédia arabe. Avant d’effectuer le processus de REN, ce corpus brut passe par une phase de prétraitement visant à le préparer afin d’appliquer le système CasANER. En fait, la sortie du système CasANER est le même corpus Chapitre 7 : Implémentation des systèmes CasANER et ASRextractor 132 qui contient des ENA reconnues et annotées. Dans la figure 31, nous illustrons l’architecture générale de ce système. Figure 38. Entrées/sorties du système CasANER La figure 38 décrit l’entrée du système CasANER qui passe par diverses étapes pour qu’il soit prêt à exploiter. Cette entrée est un corpus brut que nous collectons à partir de la Wikipédia arabe grâce à l’outil Kiwix18 pour la langue arabe. Il faut mentionner que cet outil nous a aidés à collecter les deux corpus d’étude et de test via une interface facile et manipulable. Avant d’appliquer le système CasANER, le corpus brut doit subir une phase de prétraitement composée de deux sous-phases suivantes : la segmentation et la suppression des liens. Le corpus prétraité nécessite l’application des dictionnaires pour que les tokens qui le composent soient reconnus. Enfin, le corpus résultant du système CasANER va être riche en termes d’ENA reconnues et annotées. Dans ce qui suit, nous expliquons la première partie qui est dédiée à la phase de prétraitement.
Phase de prétraitement
La création des corpus (étude et test) à partir de la Wikipédia arabe consiste à collecter des articles provenant de différents pays arabes. Ces articles représentent des pages web mais sous format textuel décrivant plusieurs thématiques qui appartiennent à divers domaines (art, sport, politique, etc.). Nous rappelons que l’acquisition des articles se fait à travers l’outil Kiwix permettant de consulter Wikipédia arabe en mode hors ligne. Via cet outil, nous téléchargeons chaque article sous forme d’un texte ayant l’extension « .txt ». Les articles formant les deux corpus subissent un prétraitement qui est un processus nécessaire pour segmenter les textes en premier lieu et pour éliminer également des liens internes ayant un format spécifique à la structure des articles de la Wikipédia arabe.
Segmentation du corpus
La segmentation est une étape importante représentant un prétraitement qui peut être effectué sur une ressource textuelle. La segmentation de nos articles sélectionnés se fait grâce à un graphe disponible dans le module arabe de la plateforme linguistique Unitex. Segmenter un texte appartenant à nos corpus consiste à délimiter ses phrases selon les signes de ponctuations. Chaque phrase délimitée prend à sa fin le symbole {S}. Nous illustrons le graphe de segmentation afin de présenter le principe suivi. Figure 39. Graphe de segmentation d’un texte arabe intégré sous Unitex Le graphe de segmentation de la figure 39 est propre à langue arabe. Le graphe implémenté comporte plusieurs chemins. En fait, certains chemins ne possèdent pas une annotation de sortie car ils ne correspondent pas aux signes de segmentation. Parmi les chemins ayant un signe de segmentation, nous constatons l’existence d’une boîte marquée en rouge ayant le contenu « ^ ». Cette boîte signifie le retour à la ligne. Dans notre cas, nous avons décoché ce chemin de reconnaissance vu que nous ne considérons pas le retour à la ligne comme étant la fin d’une phrase. Rappelons que ce graphe permet de fusionner les séquences reconnues avec l’annotation de sortie définie. La manipulation et l’application de ce graphe sont assurées par la plateforme Unitex à travers une interface conviviale. La segmentation se propose en chargeant un texte donné sous Unitex à travers la fenêtre « Preprocessing & Lexical parsing » et décrite dans la figure suivante. Figure 40. Interface facilitant la segmentation La figure 40 montre que la segmentation s’effectue en choisissant le graphe adéquat associé à un mode de passage. Deux modes peuvent se présenter soit « merge » pour fusionner le symbole de segmentation et la phrase soit « replace » pour un remplacement. Dans la rubrique « Lexical Parsing », nous pouvons choisir l’application de tous les dictionnaires sur le texte à segmenter.
Suppression des liens internes
Dans notre travail, le prétraitement ne concerne pas seulement la segmentation des articles mais il englobe également leur filtrage. Nous avons constaté la présence des liens incompressibles et liés à la structure interne de la Wikipédia arabe. Nous avons prédit que ces liens peuvent empêcher le processus de REN surtout que certains liens coupent l’ENA. Pour cette raison, nous avons créé un graphe qui permet de remplacer chaque lien rencontré par un symbole {Link}. Pour mieux expliquer le principe, nous présentons tout d’abord le graphe de la suppression puis nous illustrons un extrait d’un texte. Figure 41. Graphe de suppression des liens internes Chapitre 7 : Implémentation des systèmes CasANER et ASRextractor 135 La figure 41 montre la forme du graphe qui contient deux chemins possibles. Le premier chemin à parcourir prend la forme de qui doit être remplacé par {Link}. Nous avons créé le deuxième chemin après avoir analysé les différentes formes qu’un lien peut avoir. Ce deuxième commence par la lecture du début du lien comme par exemple « » ou « > ». Par conséquent, chaque token rencontré sera lu tant que la condition d’arrêt n’est pas atteinte. Chaque chemin reconnu par ce graphe illustré sera remplacé par l’annotation de sortie située dans la boîte qui précède le nœud final. Nous donnons un extrait d’un texte montrant le résultat d’application de ce graphe.