EXTRACTION D’INFORMATIONS TEMPORELLES

EXTRACTION D’INFORMATIONS TEMPORELLES

 Définition de l’information temporelle

Bien que souvent les expressions temporelles ne soient pas définies explicitement, mais plutôt par la tâche d’extraction en elle-même, plusieurs définitions existent. Nous reprenons ici celle que donne Ahn et al. [2005] qui définit les expressions temporelles comme étant des « natural language phrases that refer directly to time points or intervals. They not only convey temporal information on their own but also serve as anchors for locating events referred to in text ». Il ne s’agit pas vraiment d’une définition opérationnelle telle qu’on pourrait la concevoir en extraction d’informations, mais elle a le mérite de souligner de manière succincte trois aspects importants de l’information temporelle auxquels le domaine s’attaque : – l’information temporelle est véhiculée par des groupes de mots, que l’on peut reconnaître et annoter, dans les textes en langage naturel ; – ces expressions peuvent être interprétées afin de leur donner une valeur relative à un certain espace temporel ; – les valeurs temporelles structurent le discours en étant reliées aux événements qui le composent, et permettent d’ordonner les événements entre eux.

Types d’extractions et objectifs poursuivis

Les objectifs principaux concernent le repérage et l’interprétation des expressions temporelles. Les extensions constituées par la reconnaissance d’événements et leur positionnement temporel sortent quelque peu du cadre strict de l’extraction temporelle telle que nous la concevons, mais sont généralement considérés comme une suite logique.

Reconnaissance et interprétation d’expressions temporelles

La reconnaissance et l’annotation des expressions temporelles constituent naturellement la première étape de tout traitement de la temporalité. L’objectif poursuivi est de baliser le plus complètement et précisément possible un ensemble d’expressions temporelles diverses et préalablement définies. Ces définitions peuvent par exemple prendre la forme de directives d’annotation, telles que celles présentées à la section 6.5. L’attribution d’une valeur aux expressions temporelles est une seconde étape, qui est souvent traitée conjointement avec l’annotation. D’une manière générale, il s’agit de donner un sens à la référence temporelle, ce qui est la plupart du temps réalisé en lui attribuant une valeur explicite, relative à une ligne du temps (un système calendaire). Un certain nombre de travaux sont consacrés exclusivement à la question de la reconnaissance et de l’annotation des expressions temporelles (Maurel [1990], Fairon et Senellart [1999], Vazov [2001], Bittar [2008], Weiser [2010]) mais il est très fréquent que le problème connexe de l’attribution d’une valeur temporelle à l’expression soit également abordé dans le même temps (Maurel et Mohri [1994], Mani et Wilson [2000], Filatova et Hovy [2001], Wilson et al. [2001], Muller et Tannier [2004] Battistelli et al. [2006], Ahn et al. [2005, 2007], Vicente-Díez et al. [2008], Parent et al. [2008], Bittar [2009], Martineau et al. [2009]). 6.3.2 Reconnaissance et positionnement temporel d’événements Un autre aspect du traitement de la temporalité est la reconnaissance des unités considérées comme des événements. Cette notion est cependant très large et peut correspondre à de nombreuses choses dans la pratique. Dans le cadre des systèmes d’extraction d’informations temporelles, les événements considérés sont la plupart du temps limités à certains types de syntagmes précis. Concrètement, Mani et Wilson [2000], Filatova et Hovy [2001] et Mani et Schiffman [2005] ne prennent en compte que les verbes. Muller et Tannier [2004] se concentrent également sur les événements introduits par des verbes finis4 , alors que Schilder et Habel [2001] exploitent à la fois les verbes (« increased ») et les groupes nominaux (« the election »). Bittar [2008, 2009] se conforme à la définition donnée par TimeML qui considère l’événement dans un sens large, c’est-à-dire la plupart des verbes, des noms événementiels (« destruction », « guerre »), des adjectifs (« malade ») et des groupes prépositionnels (« à bord ») qui désignent des états. Parent et al. [2008] adoptent le même type de définition, mais sous le nom d’éventualité, celle-ci dénotant un événement ou un état. Dans Hagège et Tannier [2008], les événements pris en compte sont exprimés par : – les verbes, qu’ils expriment une action ou un état ; – les noms déverbaux pour lesquels il existe un lien morphologique clair entre le nom et le verbe (par exemple, en anglais, « interaction » et « interact ») ; – les autres noms s’ils sont argument de la préposition « during » (« during the war ») ou s’ils sont le sujet des verbes « to last », « to happen », « to occur » lorsque ces 4Un verbe ou un auxiliaire qui porte une indication du temps et qui porte des traits de personne et de nombre provenant de l’accord sujet-verbe. 152 6 Extraction d’informations temporelles verbes sont modifiés par une expression temporelle explicite (« the siege lasted three days »). Dans un certain nombre de travaux, la notion d’événement est accompagnée et raccrochée à celle de proposition, qui désigne une portion de phrase qui ne contient qu’un seul événement : Filatova et Hovy [2001], Muller et Tannier [2004], Mani et Schiffman [2005]. Le positionnement temporel d’événements constitue une suite logique à leur reconnaissance. Il existe quelques variations entre les différentes approches, entre autre en ce qui concerne le type de relations à établir – relations d’événement à expression temporelle et/ou d’événement à événement – et la taille de l’ensemble de relations utilisé. La première approche consiste donc à établir des relations entre les événements et la ligne du temps (Mani et Wilson [2000], Filatova et Hovy [2001], Schilder et Habel [2001] ). La seconde s’intéresse plutôt aux relations d’événement à événement. Pour ce type de relation, les divers travaux s’inspirent tous des relations définies par Allen [1984]5 . Cependant, il est apparu que les relations d’Allen constituent un ensemble trop grand et trop précis pour être utilisées lors d’une annotation manuelle (Setzer [2001], Muller et Tannier [2004], Mani et Schiffman [2005]). En effet, un annotateur humain se contentera souvent d’une ou deux relations entre deux événements alors qu’il peut souvent y en avoir plus. Cela pose évidemment un problème dans le cadre d’une évaluation automatique des résultats, lorsque celle-ci est effectuée par rapport à une annotation manuelle. Un ensemble alternatif et plus simple de relations est donc souvent choisi. Schilder et Habel [2001] utilisent sept relations6 , tout comme Hagège et Tannier [2008]7 . Muller et Tannier [2004] n’utilisent eux que six relations8 , alors que Mani et Schiffman [2005] n’en considèrent que trois 9 . 

Formation et coursTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *