Extraction d’information la reconnaissance d’entités nommées dans des textes formels et bruités

Extraction d’information la reconnaissance d’entités nommées dans des textes formels et bruités

La reconnaissance d’entités nommées dans des données textuelles compte déjà un grand nombre d’applications qui s’appuient sur des approches orientées connaissances linguistiques, données bruts ou hybrides. Ce chapitre débute avec la présentation de travaux autour de la reconnaissance des entités nommées et se poursuit par l’identification des entités nommées contenant du bruit. Par bruit nous sous-entendons les fautes typographiques, telles que celles rencontrées souvent dans des textes provenant de transcriptions orales, produites par ocr, sms ou tweets, etc. En effet, le traitement automatique de documents dégradés s’avère sensiblement plus compliqué et limité, nécessitant davantage de traitements. Nous présentons les entités nommées de façon générale tout en essayant de nous focaliser sur les recherches et applications existantes autour de la reconnaissance d’entités nommées dans des textes dégradés. 

Les entités nommées

Les entités nommées sont des fragments du langage qui se réfèrent à une entité unique du domaine du discours tout en apportant une valeur informationnelle. Plus Extraction d’information la reconnaissance d’entités nommées dans des textes formels et bruités 6.1 Les entités nommées 6 106 particulièrement, ils peuvent se définir comme des unités lexicales qui décrivent entre autres des noms et prénoms de personnes, des noms d’organisations, des lieux, des dates, des quantités, des distances, des valeurs, etc. (Chinchor et al., 1998, Tjong Kim Sang et De Meulder, 2003, Meur et al., 2004). L’identification des entités nommées s’avère incontournable dans de nombreuses tâches liées à l’extraction automatique de l’information. En effet, les entités identifiées sont utilisées dans plusieurs types de systèmes : fouille de données textuelles, moteurs de recherche, traduction automatique, question-réponse, interaction homme-machine, etc. En outre, les entités nommées peuvent concerner plusieurs domaines scientifiques et être potentiellement appliquées à différents styles de texte. En hdatei1528h/datei, hpersiFrançois Ierh/persi fixe officiellement sa résidence à hlieuiParish/lieui.  Paris Tableau 6.2 – Exemple d’annotation déportée d’entités nommées (stand-off annotation) L’exemple du tableau 6.1 et 6.2, illustre les entités nommées identifiées dans la phrase « En 1528, François Ier fixe officiellement sa résidence à Paris » : 1528 DATE , François Ier PERS et Paris LIEU . Les entités identifiées sont annotées à l’aide de balises textuelles portant l’étiquette correspondant au type d’entité qu’elles délimitent, dans l’exemple : date, personne et lieu. Dans une annotation textuelle, les balises se retrouvent fusionnées dans le texte (tableau 6.1). En revanche, dans une annotation déportée, les étiquettes sont munies de la position de l’entité et sont répertoriées séparément du texte (tableau 6.2). 6.1.1 Aperçu général La définition d’entités nommées fut le fruit des campagnes réalisées à la fin des années 90 consacrées au développement des méthodologies autour de l’extraction d’information. Plus précisément, à l’occasion de la septième conférence muc (Message Understanding Conferences), Chinchor (1998) apporte une première définition des entités nommées d’un point de vue utile à l’extraction automatique d’information. Ils les décrivent alors comme des noms propres particuliers désignant les noms de personne, les organisations, les lieux, aussi bien que les dates, les heures, les pourcentages et les montants monétaires. Daille et al. (2000) ont étendu cette définition en indiquant que la notion d’entité nommée est plus vaste et que l’on peut y inclure aussi bien les gentilés, les personnages 6 Extraction d’information : la reconnaissance d’entités nommées dans des textes formels et bruités 107 de légendes, les maladies ou les drogues qui ne sont pas toujours admis comme des noms propres. Quelques années plus tard, Friburger (2002) dans ses travaux de thèse rapproche également le terme d’entité nommée de celui de nom propre et apporte des éléments qualitatifs supplémentaires. Notamment, en remarquant le fait que les chercheurs travaillant autour de l’extraction d’information emploient le terme d’entité nommée pour cibler non seulement tous les noms propres au sens classique et élargi, mais aussi les expressions temporelles et les expressions de quantités. Par ailleurs, ces travaux soulignent la difficulté de délimiter les noms propres des autres noms ; puisque il y a une continuité entre l’ensemble des noms propres et l’ensemble des noms communs. Dans la même optique, Vicente (2005) oriente le terme vers le traitement automatique du langage naturel en attribuant des éléments discursifs monoréférenciels proches des noms propres en accord avec des patrons syntaxiques déterminés. Même si la définition d’entité nommée semble échapper à toute définition standard, c’est à l’occasion de la campagne ester (Evaluation des Systèmes de Transcription Enrichie d’Émissions Radiophoniques) que Meur et al. (2004) donnent une définition plus pragmatique des EN comme des types d’unités lexicales particulières qui font référence à une entité du monde concret dans certains domaines spécifiques notamment humains, sociaux, politiques, économiques ou géographiques et qui ont un nom (typiquement un nom propre ou un acronyme). 

Typologie des entités nommées

L’annotation d’entités nommées implique la définition d’une typologie dédiée pour leur classification. Ainsi, il existe un grand nombre de typologies, dont une des plus répandues et générales est celle de la conférence muc 7 (Chinchor, 1998), divisée en trois catégories (tableau 6.3). En accord avec la définition d’entité nommée, la catégorie ENAMEX regroupe les anthroponymes, les toponymes et les entreprises. La catégorie TIMEX comprend les entités temporelles et la catégorie NUMEX les valeurs physiques et monétaires. Type Description ENAMEX Noms de personne, lieu, organisations, entreprises TIMEX Dates et heures NUMEX Expressions monétaires et pourcentages Tableau 6.3 – Catégories d’entités nommées dans muc(1995) Néanmoins, cette typologie exclut une grande partie d’entités nommées qui pourraient s’avérer utile dans le cadre de l’extraction d’information. Même si dans la pratique, un besoin particulier imposerait d’adapter ou de concevoir une nouvelle typologie, Paik et al. (1996) ont introduit une classification élargie comportant trente 6.1 Les entités nommées 6 108 catégories divisées en 9 classes 1 : Classe Types Géographique villes, ports, aéroports, pays, etc Affiliation religions, nationalités Organisation entreprises, organisations, etc Humain personnes, fonctions Document documents Équipement machines, matériels, etc Scientifique maladies, médicaments Temporel dates et heures Divers autres entités Tableau 6.4 – Typologie d’entités nommées de Paik et al. Parmi d’autres catégorisations plus exhaustives, citons également la hiérarchie étendue de Sekine et al. (2002) conçue pour couvrir le plus d’entités possibles, ceci en introduisant 150 types d’EN, en essayant de ne pas couvrir uniquement un domaine spécifique. Cet effort de complétude, ainsi que d’autres propositions ultérieures (CITATION) doivent être considérées en tenant compte de la remarque d’Ehrmann (2008), qui indique qu’il n’existe aucune catégorisation idéale. Afin de mettre en rapport les typologies des entités nommées avec les principales campagnes d’évaluation qui ont été réalisées durant les 20 dernières années (1996-2016), nous présentons dans le tableau 6.5 un récapitulatif chronologique adapté de Nouvel (2012). Mises à part les typologies, le tableau indique les langues visées et la modalité des écrits.

Formation et coursTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *