La tâche de reconnaissance des entités nommées
L’extraction d’information
C’est en effet à la faveur du développement de la tˆache d’extraction d’information que la tˆache de reconnaissance des entités nommées est apparue. La recherche pour la conception de systèmes d’analyse de textes a, depuis les débuts du tal, exploré diverses voies. C’est dans ce cadre que l’extraction d’information a succédé aux systèmes génériques de compréhension de textes, aux visées sensiblement trop ambitieuses, comme le souligne T. Poibeau et A. Nazarenko [Poibeau et Nazarenko, 1999]. L’extraction d’information, ne cherchant plus à comprendre l’ensemble du texte, vise à extraire d’un texte donné des éléments pertinents d’information, dont la nature a été spécifiée préalablement. Il s’agit ainsi d’identifier des occurrences d’événements particuliers, d’en extraire les arguments impliqués pour ensuite en donner une représentation structurée. L’analyse s’effectue au niveau local et seule une partie du texte est considérée. Cette tˆache peut alors se définir, selon la formule de textes écrits en langue naturelle » [Poibeau, 2003, p.13]. Si le principe sous-jacent de l’extraction d’information n’était pas nouveau [Grishman, 1997], cette tˆache a gagné en maturité et s’est singulièrement précisée grˆace à la série des conférences MUC (Message Understanding Conferences1 ). Ce cycle de conférences, organisé par diverses institutions américaines et financé par la DARPA (Defense Advanced Research Projects Agency), s’est déroulé de 1987 à 1998, motivant de la sorte de nombreuses équipes de recherche pendant plus d’une décennie. Comme leur nom l’indique, l’objectif de ces conférences était à l’origine d’encourager la recherche autour de la compréhension automatique de messages militaires. Baptisées « conférences », ces dernières sont en réalité des campagnes d’évaluation, au cours desquelles un certain nombre de participants se voient remettre, dans un premier temps, un corpus d’entraˆınement et des instructions précises sur les informations à en extraire automatiquement, puis, dans un second temps, un corpus de test sur lequel ils doivent appliquer leurs systèmes. Les résultats sont ensuite évalués et présentés lors de la conférence finale, à laquelle seuls les participants à l’évaluation ont le droit d’assister. L’histoire de ces conférences est désormais bien connue ; [Grishman, 1997, Hirschman, 1998, Poibeau, 2003] permettent d’en apprécier l’évolution de fa¸con détaillée. Nous en retra¸cons ici les grandes lignes afin de mieux situer l’apparition de la tˆache qui nous occupe, la reconnaissance des entités nommées, et avant d’examiner d’autres événements ayant eux aussi contribué à l’émergence de cette dernière.
Les conférences MUC
Les trois « cycles » de conférences Il est possible de distinguer trois « cycles » au sein des 7 conférences qui se sont succédées, en fonction de la définition et de la difficulté de la tˆache d’extraction à mettre en œuvre tout d’abord, de la taille et de la nature des corpus à analyser ensuite, et du degré d’aboutissement du processus d’évaluation enfin. Les deux premières conférences (1987 et 1989) forment un cycle liminaire que l’on peut qualifier d’« exploratoire » . Les corpus sont des messages de la Navy de style télégraphique et, après l’absence de toute instruction précise quant aux données à en extraire lors de la conférence de 1987, une premier formulaire simple de structuration de données (en anglais template) fait son apparition lors de la suivante en 1989. Sont également adoptées les premières mesures d’évaluation, précision et rappel, issues de la recherche d’information. Ces deux sessions pionnières, si elles n’ont révélé aucune méthode ou système particulier, ont le mérite 1http://www-nlpir.nist.gov/related_projects/muc/. 1 La tˆache de reconnaissance des entités nommées : état des lieux d’avoir rassemblé autour d’une mˆeme tˆache plusieurs participants, ainsi amenés à discuter de leur travail et des moyens de l’évaluer. Les conférences MUC-3, MUC-4 et MUC-5 constituent le second cycle, au cours duquel la tˆache d’extraction d’information, telle que présentée ci-dessus et initiée par les précédentes conférences, s’est progressivement définie, gagnant en précision mais également en complexité. MUC-3 (1991) et 4 (1992) ont travaillé sur des corpus de nature journalistique, traitant d’événements ou d’actes terroristes en Amérique Centrale et du Sud. Les templates comportent alors de plus en plus de champs à remplir, ces derniers pouvant atteindre le nombre de 24. La figure 1.11 montre un exemple de formulaire à remplir pour MUC-3 : à partir d’une dépˆeche sur un acte terroriste, il importait d’en extraire le type d’incident, le lieu, la date, les exécutants, la cible ainsi que les effets sur cette dernière. Si les textes sont mieux écrits (moins de problèmes de casse, rédaction plus soignée et plus homogène), ils sont en revanche plus difficiles à analyser (plus longs, l’information à en extraire est plus difficile à identifier). Les collections de textes d’apprentissage sont distribuées en grand nombre et les premiers systèmes à base d’automates [Appelt et al., 1993] ainsi que d’autres basés sur des méthodes statistiques font leur apparition. MUC-4 introduit également une nouvelle mesure d’évaluation, la F-mesure, qui combine les taux de précision et de rappel et rend ainsi plus facile les comparaisons entre systèmes. MUC-5 suit de près (un an) ces deux conférences et gagne encore en complexité : deux domaines sont proposés (technologique avec la microélectronique et commercial avec la vente d’entreprises) pour deux langues, anglais et japonais. Cette diversification correspond à une volonté d’améliorer la portabilité2 des systèmes ; néanmoins, les temps de développement de ces derniers sont extrˆemement longs (6 mois) et les niveaux de performance ne dépassent pas les précédents. Vue par certains comme un échec, cette dernière conférence de 1993 infléchit néanmoins de manière significative la vision de la tˆache d’extraction d’information : devant traiter plusieurs domaines en plusieurs langues, les participants sont amenés à rendre plus génériques leurs architectures et certains modules d’analyse apparaissent comme nettement indépendants. MUC-5 marque ainsi un point d’aboutissement de ce deuxième cycle de conférence, révélant la nécessité de fragmenter en fonctionalités indépendantes une tˆache d’extraction d’information devenue trop complexe.