Evaluation des systèmes CasANER et ASRextractor
Phase d’expérimentation
La phase d’expérimentation des systèmes implémentés est une initiation à leur évaluation. Cette phase consiste à appliquer ces systèmes sur le corpus de test qui a été collecté parallèlement à la collection du corpus d’étude. Nous rappelons que le nouveau corpus a été obtenu aussi grâce à l’outil Kiwix. De plus, nous devons mentionner que le corpus de test n’a été exploité dans aucune phase des travaux élaborés. En fait, la visualisation des résultats obtenus est assurée par l’éditeur du texte Notepad++ v6.8.8 qui a facilité la lecture des textes arabes et l’analyse des balises qui entourent les ENA et les RS. Dans la section suivante, nous décrivons des extraits issus de l’expérimentation associée à chaque travail implémenté.
Expérimentation du système CasANER
L’application du système CasANER s’effectue sur le corpus de test brut qui a subi à son tour un prétraitement consistant à le segmenter et à éliminer les liens internes indésirables. Après ce prétraitement, le système CasANER a généré une nouvelle version de ce corpus dont les ENA sont reconnues et annotées à travers les accolades. Pour montrer le résultat obtenu, nous proposons un extrait d’un texte arabe appartenant au corpus de test. Figure 62. Extrait d’un fichier de sortie de CasANER La figure 62 décrit deux extraits différents d’un même texte arabe associé au nom d’une personne célèbre appelée « هينΎش يϠلϭΩ/ Dolly Chahine ». Le premier extrait représente la version brute qui était initialement l’entrée du système CasANER avant le prétraitement. Cependant, le deuxième est une sortie générée par notre système après la segmentation et la suppression des liens internes qui vont empêcher le processus. Pour cette raison, nous remarquons la présence des balises {S} et [Link] ajoutés par les graphes élaborés précédemment. D’après le deuxième extrait, nous trouvons que le système CasANER reconnaît des ENA et les annote selon les trois catégories « persName » et « placeName » et « Date ». De plus, cet extrait montre l’annotation qui est détaillée et raffinée.
Expérimentation du système ASRextractor
L’expérimentation du système ASRextractor se base sur la sortie du système CasANER vu qu’il génère un corpus contenant des ENA reconnues et annotées. De plus, le système ASRextractor profite de l’annotation sous la forme des accolades puisque ce type d’annotation rend l’ENA reconnue exploitable comme un trait d’un dictionnaire. Pour observer les RS extraites et annotées en TEI, nous proposons l’extrait d’un texte faisant partie du corpus de test annoté. Chapitre 8 : Expérimentation et évaluation des systèmes CasANER et ASRextractor 155 Figure 63. Extrait d’un fichier de sortie de ASRextractor La figure 63 montre que le système ASRextractor a pu extraire deux types de RS à partir des 4 premières lignes du texte. Les deux types extraits sont « Origine » et « Date de naissance » qui concerne un nom de personne. D’après cette figure, nous constatons que les composants des RS sont bien organisés et représentés à travers les éléments exploités comme type, persName, Date et OriginPlace.
Expérimentation de la cascade de normalisation
L’application de la cascade de normalisation fonctionne bien lors de son application sur le corpus de test, plus précisément en profitant de la sortie de CasANER. Dans la figure suivante, nous proposons une illustration de la sortie de cette cascade de normalisation. Figure 64. Annotation normalisée d’une ENA La figure 64 illustre la transformation de l’annotation d’une ENA ayant la catégorie nom de lieu relatif plus précisément un nom de musée. Dans la première partie, l’ENA entre accolades a été reconnue et annoté via CasANER. Puis, nous avons sa traduction selon le fichier XML généré par CasSys qui était l’entrée de la cascade de normalisation pour produire l’ENA structurée dans la troisième partie. En fait, la forme d’annotation finale est associée à la TEI.
Expérimentation de la cascade de récupération de la forme brute des ENA
Après l’application du système ASRextractor, nous avons pensé à préparer le corpus de test pour son exploitation par d’autres applications de TAL. Cette fois, nous n’allons pas exploiter le corpus de test avec l’annotation des accolades mais nous allons profiter de sa version en XML. Cette dernière se génère automatiquement grâce à l’outil CasSys. De plus, les fichiers en XML se trouvent dans le même répertoire des fichiers texte issus du système ASRextractor. Après l’application de la cascade de récupération de la forme brute des ENA dans les RS extraites, nous proposons deux extraits d’un même texte du corpus de test pour monter le résultat obtenu. Figure 65. Résultat de récupération de la forme brute des ENA La figure 65 décrit un extrait d’un texte appelé « فήش يΠن ·/ Enji Charaf » avant et après l’application de la cascade de récupération de la forme brute d’ENA. Nous constatons que toutes les ENA ont été traitées par cette cascade. En fait, la nouvelle forme des RS offre une représentation claire et visible. Les résultats obtenus favorisent dans ce cas l’utilisation de notre corpus de test pour enrichir des dictionnaires d’ENA ou d’autres corpus arabes par les RS. L’application de la cacade de normalisation et celle de récupération de la forme brute des ENA n’ont pas une influence sur la qualité des systèmes élaborés. En fait, elles permettent juste de traiter la sortie de ces systèmes pour les exploiter dans d’autres applications de TAL comme l’enrichissement des dictionnaires d’ENA.