L’élaboration et l’étude du corpus

L’élaboration et l’étude du corpus

 L’importance du RTE dans le TALN a poussé les chercheurs à s’investir dans ce domaine et à explorer différents chemins pour parvenir à détecter et à classifier différents types d’inférences. Dans les chapitres précedents, nous avons d’abord étudié les groupes travaillant sur la reconaissance de l’inférence textuelle et nous avons remarqué qu’aucun groupe n’utilisait l’inférence temporelle dans son système. Dans le chapitre précedent nous avons étudié le temps dans la langue et nous avons remarqué que les groupes travaillant sur l’inférence temporelle se base sur l’amélioration des détéctions des relations temporelles existantes entre évènements et expressions temporelles mais ils n’essayaient en aucun cas d’intégrer leurs travaux a un systéme d’inférence textuelle. Afin de répondre au manque de l’inférence temporelle dans le RTE, notre objectif est d’intégrer le système de détéction d’inférence temporelle dans un systéme d’inférence textuelle. Pour cela, nous avons l’obligation d’étudier les relations temporelles qui peuvent exister entre deux ségments de textes à travers un corpus que nous avons élaboré. Ceci nous a permis de distinguer différents types d’inférences. Nous allons montrer tout au long de ce chapitre comment nous avons concrétisé ces différents objectifs.

L’élaboration du corpus

La première étape à entreprendre consiste à créer le corpus constitué de paires de textes et hypothèses (T-H) qui correspond à des informations collectées à travers le web dans des domaines différents. Nous avons choisi d’établir notre corpus en langue anglaise car jusqu’à nos jours les recherches les plus abouties sur l’inférence temporelle et aussi sur le RTE sont en langue anglaise. Pour cela, nous avons choisi d’utiliser le corpus de questions élaborées pour le test par la compagne d’évaluation des systèmes de recherches d’informations (clef9 ) pour l’année 2006.Le challenge CLEF est crée en 2000 pour fournir une infrastructure visant à soutenir le développement, d’essai et d’évaluation des systèmes de cross-langue de recherche d’information dans plusieurs langues européennes (Français, Italien, Allemand). Pour pouvoir développer et évaluer notre système, nous avons sélectionné des questions portant sur des événements temporels et nous avons soumis ces questions au système de question-réponse answerbus 10 disponible sur le web. Nous avons récupéré les réponses correspondantes et nous les avons modifiées pour obtenir l’inférence souhaitée. Nous avons aussi transformé les questions à l’affirmatif. Nous illustrons ces démarches par l’exemple montré ci-dessous : La question numéro 13 du corpus de test de challenge clef 2006: In what year did the catastrophe in Chernobyl happen?

H: It is not by accident that one of the versions explaining the catastrophe at the Chernobyl AES on 26 April 1986 (because smaller-scale accidents happened there before) ties up the cause of the tragedy with experiments at « Chernobyl-Two » . Aussi, nous transformons la question en affirmatif en répondant à la question. Comme résultat nous avons la réponse suivante : T: the catastrophe of Chernobyl happens in 1987. Finalement nous avons une paire de texte de la forme : T: the catastrophe of Chernobyl happens in 1987. H: It is not by accident that one of the versions explaining the catastrophe at the Chernobyl AES on 26 April 1986 (because smaller-scale accidents happened there before) ties up the cause of the tragedy with experiments at « Chernobyl-Two » . Comme dans le challenge RTE, les exemples sont divisés en deux types de corpus (corpus de développement et corpus de test). Les deux corpus sont constitués de 30 paires de textes et chaque portion du corpus doit inclure 50% d’exemples avec une inférence vrai 50% d’exemples avec une inférence fausse. Pour cela, chaque exemple (T-H) paire est jugé par un annotateur pour voir s’il y a une inférence textuelle dans la paire de texte entre (T-H) ou pas. 

LIRE AUSSI :  Transitivité et voix

Classification de l’inférence temporelle

Apres avoir conçu notre corpus, nous avons annoté manuellement les événements, les dates et les différents types d’inférences (lexicales, syntaxiques et temporelles) existant entre les segments de textes. Cela nous a permis de détecter les différents types d’inférences temporelles entre les segments de textes. Nous détaillons dans ce qui suit les différentes classes que nous avons distingué: 

Les inférences entre expressions temporelles 

L’inférence permet d’établir des relations temporelles liant date, heure et durée entre elles. Dans le même contexte, nous avons distingué trois types d’inférences temporelles liant des expressions temporelles. Cette figure représente le nombre de paires de textes pour chaque sous classe d’inférence dans notre corpus de développement.

Les inférences entre dates 

C’est la relation temporelle entre qui peut y avoir entre les dates du texte T et les dates du texte H. L’exemple suivant permet de montrer la relation qui peut exister entre les dates. Exemple 1: T: the football world cup finished on t1: july 12 th 2006. H: the football world cup finished in t2: july 2006. Dans cet exemple, nous remarquons que l’inclusion entre les deux dates t1 et t2 a permis d’avoir l’inférence temporelle. Exemple 2: 1) T: the second world war finished in t1: 1945. H: the end of the second world war took part t2: between 1940 and 1950. Dans cet exemple nous remarquons aussi que l’inclusion entre les deux dates t1 et t2 a permis d’avoir l’inférence temporelle. 

Les inférences entre adverbiaux temporels 

L’inférence permet d’établir une relation temporelle entre adverbiaux de référence temporelle qui exprime la localisation d’un événement dans le temps. L’exemple suivant permet de montrer la relation qui peut exister entre deux adverbiaux temporels. Exemple 1: T: he has worked during 10 days. H: He has worked for many days. Dans cet exemple, nous pouvons remarquer que l’adverbial temporel « During 10 days » l’infère l’adverbial « many days ». Exemple 2: 14) T: the day before yesterday, Paul disappeared. H: two days ago, Paul disappeared. Dans cet exemple nous remarquons que l’adverbial temporel « the day before yesterday» infère l’adverbial « two days ago».

Cours gratuitTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *