IMPLÉMENTATION D’UN SYSTÈME D’EXTRACTION D’INFORMATIONS TEMPORELLES
Modèle pour une interprétation temporelle
Parmi l’ensemble des éléments qui sont porteurs d’une information temporelle dans le langage naturel (Section 4), tous n’ont pas été exploités par la démarche d’extraction d’informations développée. Le modèle d’interprétation du temps qui est proposé s’attache donc à déterminer quels sont ceux qui doivent, et qui peuvent, être pris en compte, et de quelle manière.
Éléments d’information pris en compte
La date d’émission du texte est une information fondamentale car elle constitue un point de repère par rapport auquel vont se situer de nombreuses informations temporelles du texte. Dans une série de situations, la date d’émission n’a que peu de rapport avec le contenu informationnel du document. Les romans et les chroniques historiques constituent deux exemples évidents à cet égard. Cependant, nombreux sont les types de textes à être ancrés dans l’actualité de leur moment d’émission. Les textes de presse, et spécialement les dépêches de presse, en constituent un exemple par excellence8 . Par conséquent, la date d’émission est considérée comme une métadonnée du texte, essentielle et obligatoire à son analyse. Elle constitue un prérequis à l’analyse automatique et doit donc toujours être présente et identifiée en tant que telle dans les textes. L’analyse temporelle du texte est principalement alimentée par les adverbes et locutions adverbiales (voir section 4.2). Ces éléments constituent véritablement le cœur du système car ils présentent le double avantage d’être un vecteur très fort pour l’information temporelle, tout en pouvant être repérés efficacement. Ils représentent un moyen largement utilisé pour fixer les repères temporels d’un récit, surtout lorsqu’il s’agit d’une référence qui se rapporte de manière assez précise à l’espace du temps modélisé sous la forme d’un calendrier. Bien entendu, de nombreuses expressions adverbiales désignent aussi des zones temporelles de manière imprécise. Cette caractéristique est prise en compte et conservée lors du traitement automatique. Autre source d’information importante, les temps verbaux donnent des indications utiles lors de l’analyse des adverbes relatifs. Ces derniers sont en effet interprétés à partir d’un point de repère, explicite ou implicite, et dans une certaine direction temporelle. Les temps verbaux contribuent à indiquer si l’interprétation de l’adverbe doit s’effectuer dans le passé, le futur ou le présent. L’interprétation des temps verbaux actuellement implémentée reste cependant relativement basique, 8 Rien n’empêche cependant les textes de presse de s’ancrer temporellement ailleurs que dans leur présent, mais cela ne constitue pas la règle du genre. 7.3 Modèle pour une interprétation temporelle 173 et ne va pas jusqu’à exploiter toutes les finesses de la langue. Ce modèle est par conséquent appelé à évoluer afin d’affiner la mise en relation du temps grammatical (ou linguistique) avec le temps notionnel (ou chronique). Comme nous l’avons vu au chapitre 4, et plus particulièrement à la section 4.7.6, l’interprétation de l’aspect grammatical9 , pourrait être une information profitable. L’intégration d’un modèle complet pour les temps verbaux, tel que ceux évoqués à la section 4.7 ne semble cependant pas chose évidente. En effet, l’explication du fonctionnement de ces modèles reste encore un défi en linguistique, et il est dès lors compliqué d’envisager leur implémentation. Il existe d’ailleurs très peu de systèmes qui intègrent un environnement complet de traitement des temps verbaux. Un de ceux qui existent est l’implémentation inspirée du modèle des intervalles de Gosselin proposé par Person [2004]. Ce système présente cependant certaines limites10 . En pratique, le repérage et l’analyse des groupes verbaux est en grande partie réalisée à partir des informations issues de l’analyse syntaxique. Il s’agit en particulier des éléments annotés par XIP (Aït-Mokhtar et al. [2002]) à l’aide des étiquettes relatives aux groupes verbaux finis (« FV »), infinitifs (« IV ») et gérondifs (« GV »). L’annotation qui concerne les formes verbales passives (« AUXIL_PASSIVE ») est également exploitée. Pour les formes verbales simples, les informations fournies par l’analyse en parties du discours (Treetagger, Schmid [1994]) sont également prises en compte. En cas de conflit entre XIP et le Treetagger au sujet d’un code grammatical d’un forme verbale simple, c’est l’analyse du Treetagger qui est privilégiée. Lors de leur traitement, les adverbes et les temps verbaux sont analysés en fonction de leur contexte. Celui-ci est constitué, au sein de la phrase, par la proposition. La découpe en propositions doit donc faire partie des prétraitements effectués sur le texte. Cette découpe est principalement réalisée sur la base d’informations fournies par l’analyse syntaxique (XIP). En particulier, les séparateurs de propositions peuvent être insérés au niveau des éléments étiquetés « BG », qui marquent le début d’une clause, et « PUN » qui identifient les signes de ponctuation. Dans le cas où une proposition contient plus d’un verbe, celle-ci est scindée, soit sur un signe de ponctuation (par exemple une virgule), soit juste avant un verbe, et cela de manière à n’obtenir qu’un seul verbe par proposition. Le temps du verbe caractérise l’ensemble de la proposition à laquelle il appartient. L’utilité de cette découpe est de lier une expression temporelle avec le verbe qui permet de l’interpréter. Ce lien, lorsqu’il est effectué sur des segments suffisamment fins, peut être réalisé au moyen d’une simple co-occurrence. Si la proposition contient un ou plusieurs adverbes, ceux-ci sont tous interprétés à l’aide du même temps verbal attribué à cette proposition. Le même principe est également employé pour lier indices thématiques et expressions temporelles lors de l’indexation thématico-temporelle (voir chapitre 8).
Caractéristiques importantes de la modélisation temporelle
Le chapitre 5 a abordé la représentation et la modélisation du concept de temps. Dans le cadre de l’implémentation de ce système d’extraction d’informations temporelles, des choix ont été effectués en la matière. Tout d’abord, il faut préciser que le cadre général de cette modélisation temporelle est un calendrier (voir section 5.2.1). En l’occurrence, il s’agit plus précisément du calendrier grégorien. Celui-ci constitue la base de la conceptualisation du temps et a été choisi, d’une part pour son acceptation et son utilisation très large, et d’autre part parce qu’il est naturellement centré sur le niveau de granularité du jour (voir section 5.2.2), qui est adapté aux traitements que l’on envisage. Plusieurs approches ont été proposées en ce qui concerne la modélisation d’une zone temporelle, principalement sous la forme d’un point, ou d’un intervalle (voir section 5.3). Cependant, ces deux notions sont fortement liées. Entre un point et un intervalle, il n’y a souvent guère plus qu’une question de granularité. Le choix opéré par rapport à ces deux représentations s’est par conséquent plutôt basé sur des critères pratiques. Ainsi, toute expression qui peut être représentée sans perte d’information, sous la forme d’un point à une certaine granularité, adopte effectivement ce format. Par contre les expressions qui font intervenir explicitement deux bornes sont pour leur part représentées à l’aide d’un couple de points. Par exemple « 2010 » est représenté sous la forme d’un point dont la granu11 Ou plus précisément jusqu’à la fin du cadre, par exemple la fin du paragraphe. 12 L’événement qui concerne le fait que Luc boit de la bière n’est pas temporellement équivalent dans « Luc a bu une bière le 20 janvier » (à un moment précis du 20 janvier) et « Luc a bu de nombreuses bières le 20 janvier » (potentiellement durant toute la journée). 13 Au contraire de TimeML qui prévoit de prendre ces éléments en compte. 7.3 Modèle pour une interprétation temporelle 175 larité est l’année ( [ 2010 ] ) alors qu’il pourrait l’être de manière équivalente à l’aide de l’intervalle [ 01/01/2010 , 31/12/2010 ]. De même, l’expression « du 1er décembre 2010 au 31 décembre 2010 » correspondra l’intervalle [ 01/12/2010 , 31/12/2010 ] alors que la représentation au moyen d’un point à la granularité du mois ( [ 12/2010 ] ) est tout aussi valable. Notre mode de représentation du temps adopte donc à la fois les points et les intervalles. Un autre choix réside dans la décision de différencier les expressions temporelles selon qu’elles sont déictiques, relatives au moment de l’énonciation, ou anaphoriques, relatives à un point de référence se situant dans le discours. Cette caractéristique n’a pas vraiment d’influence sur la représentation finale de la zone temporelle, mais bien sur le processus d’interprétation de l’expression qui désigne cette zone. Vient ensuite la prise en compte du caractère flou, ou imprécis, de certaines expressions temporelles (voir section 5.3.4). Trois valeurs sont possibles pour cette caractéristique nommée fuzzy14 : « 0 » lorsque l’expression ou la zone temporelle est précise, « 1 » pour exprimer une imprécision limitée à la zone définie (imprécision dite interne), et enfin « 2 » pour désigner de manière imprécise une zone qui inclus et s’étend autour de la zone temporelle délimitée (imprécision dite externe). Une seconde façon de caractériser de manière floue une zone temporelle est de désigner une partie de celle-ci (le début, le milieu ou la fin). L’utilisation de cette caractéristique implique automatiquement celle de l’indicateur d’imprécision. La notion d’imprécision est importante dans le modèle. D’une part, elle permet de coder et de représenter des expressions naturellement floues, qu’il ne serait pas souhaitable de préciser. Et d’autre part, en utilisant l’indicateur d’imprécision à la manière d’un indice de certitude, cela permet de contrôler les éventuelles approximations de l’analyse automatique. Lorsque le système n’est pas certain de fournir un résultat tout à fait correct, l’accompagner d’une étiquette d’imprécision permet de gérer une certaine marge d’erreur. Les trois points abordés jusqu’ici – modélisation sous la forme de points ou d’intervalles, caractère absolu ou relatif, et précision ou imprécision – correspondent à trois des quatre caractéristiques importantes qui ont été isolées pour caractériser les expressions temporelles. Cette catégorisation est exposée plus en détail à la section 7.6.1.