La présentation du système TIMINF
Architecture informatique de TIMINF
L‟architecture générale de TIMINF, telle que déduite de l‟analyse du corpus présenté au chapitre précédant, est illustrée dans la figure 4.1 suivante. Cette dernière s‟articule autour de trois étapes essentielles qui sont : Le prétraitement qui permet de repérer les données temporelles et les composants syntaxiques de la paire de texte (T, H). L‟inférence textuelle qui contient les modules de test d‟inférence textuelle et du balisage des expressions temporelles. L‟inférence temporelle qui contient les moteurs d‟inférence et les règles d‟inférences.
Le prétraitement
Le prétraitement est effectué par les deux modules TARSQI et LINK parseur. Ces deux modules s‟exécutent en parallèle et nous permettent respectivement de repérer les données temporelles et les composants syntaxiques de la paire de texte (T, H). Nous détaillerons dans ce qui suit les deux modules et leurs utilisations dans notre système.
Le projet TARSQI
TARSQI est un outil permettant d‟organiser des textes en langages naturels en fonction de leurs caractéristiques temporelles (Pustejovsky et al., 2003). Son objectif est d‟annoter les données temporelles dans un texte en langage naturel, d’extraire des données temporelles à partir de textes et d‟effectuer des raisonnements sur les données temporelles (http://www.timeml.org). Afin de répondre à ces différents objectifs, le module TARSQI utilise les balises TimeML pour marquer les expressions temporelles, les événements, les relations temporelles et les Subordinations syntaxiques des événements. Le système TARSQI est mis en place comme une cascade de modules successivement ajoutés Le module TARSQI doit avoir comme entrée des documents prétraités syntaxiquement. Pour cela, les concepteurs de TARSQI ont choisi d‟utiliser une analyse morphosyntaxique avec le module TreeTagger. Dans ce qui suit nous allons décrire le module TreeTagger.
TreeTagger
C‟est un système d’étiquetage automatique des catégories grammaticales des mots avec lemmatisation et tokenisation (Helmut Schmid, 1994) (www.ims.unistuttgart.de/projekte/corplex/TreeTagger/). Le module Treetagger a comme entrée un texte brut et il admet deux types de sorties : A) Une sortie en forme de tableau Comme il est montré dans l‟exemple suivant (figure 4.3), le mode de sortie est un tableau représentant l‟étiquetage des mots dans la phrase.Sachant que : Mot : représente le mot étiqueté. POS : représente la catégorie grammaticale du mot par exemple (VB pour verbe, DT pour un déterminant…..). Lemme : représente la lemmatisation du mot.
Sortie format XML
Avec La sortie format XML, chaque mot est tagué avec les balises de TreeTagger. Exemple d‟entrée, sortie TreeTagger : Entrée: He also slept on Friday night. Sortie: He also slept on Friday night . Les balises utilisées par TreeTagger sont : contient le corps du document. contient le texte. Les phrases doivent être marquées d’un . Le groupe nominal est balisé avec et le groupe verbal avec . chaque mot dans la phrase est balisé par . Les attributs utilisés par TreeTagger sont : Stem : représente la lemmatisation du mot qui est balisé. Pos : donne la catégorie grammaticale du mot balisé. (DT pour déterminant-nom, PP pour une préposition…). pour en savoir plus sur les différents symboles utilisés par Treetagger pour étiquetter les différentes catégories grammaticales, toutes les définitions des symboles sont disponibles sur le site (www.ims.unistuttgart.de/projekte/corplex/TreeTagger/).
GUTime
L’étiqueteur GUTime, développé à l’Université de Georgetown, utilise TIMEX3 tag pour représenter les expressions temporelles, telles que : les dates, les heures, les durées, etc (Mani et Wilson, 2000). Il existe 3 types d‟informations temporelles détectées par TIMEX3. DATE : c’est-à-dire les années, les mois et les jours. Exemple: USA were touched by terrorism in September 11, 2001. TIME : c’est-à-dire les heures de la journée. Exemple: The building collapsed at 2 o’clock p.m. DURATION : représente un intervalle de temps entre deux dates. Exemple: The end of the second world war happened between 1940 and 1950. Un exemple de sortie du module GUTime est montré ci-dessous : In Washington today, the Federal Aviation Administration released air traffic control tapes from the night the TWA Flight eight hundred went down. Les attributs de TIMEX3 dans l‟exemple sont : Tid : donne l‟identifiant de l‟expression temporelle, pour chaque expression tagger par TIMEX a son propre identifiant. Type : chaque TIMEX est assigné à ces différents types {DATE, TIME, DURATION}. TemporalFunction : c‟est un attribut qui retourne si la date est précise dans le temps ou pas. Exemple: Next Tuesday TemporalFunction= true. September 11,2001 TemporalFunction= false. AnchorTimeID : s‟il y a un ancrage temporel de l‟expression temporelle identifiée par Tid avec une autre expression temporelle, AnchorTimeID donne son identifiant.
Evita
Evita est un système de reconnaissance d‟événements, pour cela le module utilise deux balises de TIMEML (EVENT et MAKEINTANCE) qui sont décrites ci-dessous :
EVENT
EVENT est utilisé pour annoter les événements dans un texte, syntaxiquement, les évènements sont généralement des verbes, mais un nom peut aussi être utilisé pour dénoter un événement. Les différentes classes d‟événements qui sont détectées sont représentées ci-dessous
occurence : la plupart des événements font partie de cette classe. Ils décrivent ce qui se produit dans le monde. state : les états décrivant les circonstances dans lesquelles un événement a lieu et dont l‟état peut être modifié ; et les états introduits par les i-action, i-state et reporting. Reporting : description de l‟action d‟une personne par un acte narratif. i-action : une action intentionnelle introduisant un autre événement, comme un essai, une enquête, un rapport, un ordre, une demande, une promesse, une nomination. i-state : similaire à i-action mais pour identifier un état tel que penser, ressentir. suspecter, douter, vouloir, désirer, détester, être prêt, être capable. aspectual : un événement débutant, terminant ou continuant une action. Perception : constatation physique d‟un événement telle qu‟entendre ou voir l‟action.