Extraction d’informations temporelles et indexation thématique à dimension temporelle
LA NOTION DE TEMPS
Dans cette deuxième partie, c’est le problème du traitement automatique de l’information temporelle qui est abordé. Cette tâche consiste, dans les textes en langage naturel, à repérer les éléments qui véhiculent ce type d’information, à les interpréter afin de leur donner une valeur univoque dans l’espace du temps, et, finalement, à en fournir une représentation normalisée. Le résultat d’une telle analyse est important car il apporte la possibilité d’exploiter plus facilement et de manière plus complète les informations temporelles. Celles-ci apparaissent dans de nombreux types de textes, quel que soit le thème abordé. Bien qu’elles puissent être considérées comme des données à part entière, les informations temporelles constituent souvent une dimension particulière en rapport avec une autre information (statut de métadonnée par rapport à celle-ci). Nous considérons que les références temporelles constituent des éléments particulièrement intéressants pour l’indexation de textes, et c’est dans ce but qu’elles sont exploitées au chapitre 8. Cependant, que ce soit dans le cadre de la recherche ou de l’extraction d’informations, et que le but soit l’amélioration de l’accès aux documents ou tout autre objectif, de nombreuses applications peuvent tirer profit de l’analyse temporelle (construction de bases de connaissances à partir de corpus de textes non structurés, résumé automatique, la traduction automatique, etc). Alors que l’aspect thématique, qui a été présenté à la partie I, représente une dimension très variable de l’information, la dimension temporelle est, elle, beaucoup plus stable, que ce soit du point de vue de son expression qu’en ce qui concerne sa distribution dans les différents textes1 . Dès lors, là où la prise en compte des informations thématiques exigeait une méthode adaptable en fonction du domaine, le traitement de l’information temporelle reste une tâche assez peu variable. Cette caractéristique justifie un investissement beaucoup plus important, entre autres dans des ressources linguistiques ad-hoc, car celles-ci sont réutilisables. Après l’introduction à la notion de temps qui est donnée par le présent chapitre, un tour d’horizon des travaux concernant l’information temporelle dans le langage naturel est réalisé. Celui-ci s’organise en trois chapitres, consacrés à différentes approches de la question : le point de vue linguistique 1 Les expressions temporelles sont employées dans de très nombreux textes, alors que les informations relatives à un certain thème n’apparaissent que dans un ensemble de documents spécifiques. 100 3 La notion de temps (Chapitre 4), la question de la modélisation du temps (Chapitre 5), et finalement l’extraction d’informations (Chapitre 6). Une fois ces fondations posées, le chapitre 7 présente les réalisations concrètes effectuées, dans le cadre de cette thèse, en matière de traitement automatique de l’information temporelle. Finalement, le chapitre 8 réunit les apports de la première partie à ceux obtenus pour les aspects temporels afin de montrer comment ces éléments peuvent conjointement améliorer la représentation sémantique des documents de manière à en améliorer l’accès.
La notion de temps
De manière générale, tout événement est confronté d’une façon ou d’une autre à des informations temporelles et peut être caractérisé en fonction d’un calendrier ou d’un horaire. Les concepts temporels que nous manipulons, sans même plus y penser, et avec tant de facilité, représentent pourtant, à divers points de vue, une notion fondamentale. Ces concepts sont tellement intégrés dans notre perception du monde qu’il est parfois difficile de se rappeler qu’ils constituent un système de représentation et non une réalité en tant que telle. Il existe par contre, bien évidemment, un lien entre les concepts temporels et le monde réel. Les notions de temps que nous utilisons proviennent principalement de divers phénomènes naturels cycliques. Ce type de phénomène possède une caractéristique intéressante qui consiste à retrouver son état initial après le passage successif dans divers états intermédiaires. Lorsque le cycle est assez régulier, il possède une propriété remarquable : à partir d’un événement quelconque, il est possible de compter le nombre de fois que le cycle s’opère jusqu’à un autre événement2 . Il s’agit donc d’un moyen de matérialiser et de mesurer le temps qui passe, en termes de nombre de cycles. Concrètement, un certain nombre de ces phénomènes ont effectivement servi de base à l’élaboration de concepts temporels. La rotation de la Terre autour de son axe implique une alternance de périodes d’obscurité et de clarté. Ce phénomène a donné naissance au concept de jour. Il s’agit du temps nécessaire à une rotation complète de la Terre sur son axe. La succession des saisons provoquées par les révolutions de la Terre autour du Soleil a donné naissance à la notion d’année. Enfin, la révolution de la Lune autour de la Terre, et l’alignement Lune-Terre-Soleil, a lui donné lieu à l’observation des différents quartiers de lune dont découle le concept de mois. Notons que si ces phénomènes sont effectivement cycliques, leur réalisation n’est pas toujours tout à fait constante en raison de l’interaction avec divers autres phénomènes astronomiques. Au cours de l’histoire de nombreux systèmes de calendriers ont été utilisés. Ceux-ci sont en rapport avec les phénomènes astronomiques que nous venons de citer. Pour les calendriers lunaires, le mois se calque sur la période d’une lunaison alors que pour les calendriers solaires une année doit correspondre à une révolution complète de la Terre autour du Soleil. Le calendrier communément utilisé dans une grande partie du monde est le calendrier grégorien, qui est solaire.
Le temps dans le langage naturel
Étant donné l’importance de la notion de temps, il n’est donc pas vraiment surprenant de voir apparaître, dans de nombreux textes, une grande quantité de marques temporelles. Leur utilité est d’organiser les diverses informations dans l’espace du temps. L’étude de la temporalité dans le langage naturel a été abordée au travers de nombreux domaines de recherche : la linguistique, les théories du discours, la logique, l’extraction d’information ou encore l’ingénierie des connaissances. Si ces travaux abordent tous le sujet selon un point de vue différent, il existe évidemment de nombreux points communs ou d’interconnexions entre ceux-ci. Il n’est pas pour autant facile d’obtenir une vue d’ensemble tant les différentes approches semblent concentrées sur le point spécifique qui les occupe. Il faut reconnaître que la complexité du problème, ou des problèmes, posé(s) par le traitement du temps en langage naturel ne permet souvent pas de l’aborder sous tous ses aspects. Dans les chapitres suivants, quelques-unes des théories les plus importantes sont abordées afin de brosser un aperçu de ces différentes approches. Nous allons cependant dès à présent évoquer quelques exemples qui vont permettre de donner une première intuition des obstacles rencontrés lors du traitement du temps dans les textes en langage naturel. L’information temporelle apparaît souvent de manière directe par l’intermédiaire d’expressions temporelles, souvent adverbiales : « le 25 mai 2009 », « jeudi », « ce soir ». Il existe cependant de nombreux autres moyens d’exprimer la notion de temps. L’emploi des temps morphologiques permet par exemple de placer le propos dans le présent, le futur ou le passé. Certaines constructions syntaxiques apportent également des éléments d’informations. Il existe aussi des connecteurs qui ont une dimension temporelle, comme « et » qui peut marquer la succession de deux actions. De manière générale, l’agencement des phrases et des propositions au sein du discours a son importance. Qu’il s’agisse de propositions simplement juxtaposées, de propositions coordonnées ou subordonnées, il y a souvent une indication sur la temporalité des événements qui peut être déduite : « Il traversa la rue prudemment car les voitures roulaient rapidement. Il prit un taxi pour se rendre à l’aéroport », « Il a raté son bus car il s’est levé trop tard », « Il a pris le bus après avoir atteint Bruxelles en train »,