Indexation et apprentissage de termes et de relations à partir de comptes rendus de radiologie

Facebook Tweet Pin Email

Dans la société de médias dans laquelle nous vivons, l’information, au sens large, joue un rôle de plus en plus important. L’invention et le développement du support électronique ont permis le stockage de données de plus en plus considérables. Grâce à l’avènement de l’informatique, l’ordinateur permet de traiter des quantités importantes d’informations de toutes natures ainsi stockées. La quantité de données traitées par les différentes organisations est devenue si grande que leur manipulation serait impossible sans l’outil informatique. Pour le grand public, la plus grande source d’information disponible reste le web. En 2006, on estimait qu’il existait environ 60 milliards de pages en sachant que les principaux moteurs de recherches en indexaient 20 milliards. D’après l’union internationale des télécommunications, le nombre d’internautes en 2014 est d’environ 2,9 milliards, soit environ 40% de la population mondiale. Ces quelques chiffres permettent de comprendre et d’appréhender les défis majeurs que peuvent représenter la collecte, le stockage, la transmission de l’information, ainsi que la capacité à rechercher efficacement au sein de la masse de données qu’elle représente.

L’informatisation des données textuelles concerne non seulement le domaine général mais aussi les domaines de spécialité (domaine biomédical, domaine juridique, domaine nucléaire, …). Dans le domaine médical, l’informatisation des professions de santé et le développement du dossier médical personnel (DMP) entraîne une progression rapide du volume d’information médicale numérique. Les systèmes informatiques médicaux permettent de stocker de l’information (dossier médical, résultats d’examens complémentaires, images et comptes rendus radiologiques, par exemple), d’y accéder en vue de découvrir de nouvelles informations ou de fournir une aide à la décision pour l’amélioration de la qualité des soins. Ces informations constituent des banques de données, d’une grande importance, sur les plans économique, politique et sociétaux. Ils peuvent avoir un impact déterminant sur les décisions de santé publique.

L’information médicale à exploiter est pour une grande part sous forme textuelle, et il s’agit alors de pouvoir extraire de façon automatique des données sémantiques. Dans la plupart des cas, les textes médicaux sont écrits de façon libre, et non structurés. Le besoin de convertir toute cette information sous une forme structurée et automatiquement interprétable constitue un enjeu majeur. C’est le point de départ du développement et de la mise au point d’outils d’interrogations appropriés. Pour cela, les méthodes issues du traitement automatique du langage naturel (TALN) semblent bien adaptées.

Dans le domaine de l’imagerie médicale, cette recherche sémantique pourra être combinée avec la recherche par similitude (CBIR (Content Based Image Retrieval)) pour améliorer l’extraction d’images médicales. Cela permettra d’améliorer le suivi des patients, la communication entre praticiens, l’aide au diagnostic ainsi que l’aide pédagogique.

Cette thèse s’est déroulée dans le cadre d’une Convention Industrielle de Formation par la Recherche (CIFRE) en partenariat avec la société IMAIOS . Son activité est dédiée à la recherche et au développement de nouvelles solutions de formation et d’aide au diagnostic dans le domaine médical. Elle s’appuie sur l’expertise des deux fondateurs de l’entreprise, médecins radiologues. La société IMAIOS développe des sites internet médicaux destinés aux professionnels de santé. Le caractère innovant de ses réalisations se fonde sur une technologie de visualisation d’examens radiologiques à partir d’une interface web. L’entreprise a étudié la faisabilité d’un système de recherche et d’identification de sous-ensembles d’une image pour l’identification d’une maladie à partir d’une grande base de données d’images. Dans ce cadre, des recherches ont été effectuées sur les descripteurs visuels les plus adaptés pour caractériser les lésions présentes au niveau du foie (couleur, forme, texture,…). Toujours dans un objectif d’amélioration de l’aide au diagnostic, une partie sémantique liée à l’analyse des comptes rendus a été ajoutée en vu de réaliser un moteur de recherche (projet IMAIOS).

La recherche d’information (RI) [Grossman et Frieder, 2012] [Salton, 1971] est une des branches de l’informatique qui étudie la façon de sélectionner à partir d’un corpus de documents, ceux qui sont susceptibles de répondre à la requête de l’utilisateur. Traiter des textes nécessite de pouvoir les stocker, les rechercher, les explorer et de les sélectionner de façon pertinente. À partir de cette définition, nous pouvons introduire différentes notions :
— Corpus : un ensemble de documents.
— Document : l’objet élémentaire d’un corpus.
— Besoin d’information : les besoins de l’utilisateur (qui va chercher des documents).
— Requête : l’interface entre l’utilisateur et un système de recherche d’information.

Quelques différents modèles de recherche d’information

De façon générale, on distingue trois modèles principaux de recherche d’information:
— les modèles booléens : des méthodes ensemblistes de représentation du contenu d’un document. Il existe le modèle booléen pur (boolean model), le modèle booléen étendu et un modèle basé sur les ensembles flous.
— les modèles vectoriels : le contenu d’un document est représenté selon une approche algébrique.
— les modèles probabilistes : ces modèles essaient d’inférer la probabilité de pertinence du document, connaissant la requête.

Modèle booléen

Le modèle booléen, une des premières méthodes utilisées en recherche d’information, est fondé sur la logique booléenne et la théorie des ensembles [Manning et al., 2008]. Les documents sont représentés par des ensembles de termes grâce à un index inversé et les requêtes sont traitées par des expressions combinant des termes et des opérateurs logiques ET, OU et SAUF, selon le formalisme de l’algèbre de Boole. La recherche booléenne, en utilisant la structure d’index inversé, consiste à parcourir les listes de documents associés à la requête et à fusionner ces listes par rapport aux opérateurs logiques présents dans cette dernière . Un document du corpus est considéré comme pertinent quand son contenu vérifie exactement l’expression de la requête.

Le modèle booléen standard présente l’avantage de la simplicité de sa mise en œuvre et de la clarté de l’expression de la requête . Le modèle booléen peut être utile dans le cadre de corpus spécialisés où les utilisateurs possèdent une très bonne connaissance du vocabulaire. L’inconvénient de cette méthode est qu’elle effectue des appariements exacts entre les termes de la requête et les documents, ce qui ne permet pas de retrouver des documents pertinents ne contenant pas exactement les termes de la requête booléenne. Le deuxième inconvénient majeur de cette technique est qu’elle est incapable d’ordonner les documents par ordre de pertinence.

Pour contourner ces difficultés, Salton et al [Salton et al., 1983] ont proposé le modèle booléen étendu. Il consiste à donner des poids aux termes des documents et de la requête pour tenir compte de leur importance. Le poids des termes dans les documents est déterminé par des mesures statistiques comme par exemple la fréquence d’un terme dans le document (TF) et la fréquence inverse de documents (IDF). Le positionnement des documents se fait dans un espace euclidien dont les axes sont les termes de la requête. Dans le cas d’une requête composée de deux termes, une condition logique de type ET est représentée par la distance entre le document et les coordonnées (1,1) alors qu’une condition de type OU est calculée par la distance du document à l’origine (0,0). Cela permet d’ordonner les documents selon leur similarité avec la requête.

Pour modéliser les notions d’imprécision, d’incertitude de l’information, le modèle booléen flou a été proposé [Salton, 1989],[Dubois et Prade, 2012], [Paice, 1984], [Bordogna et Pasi, 2000], [Zadrozny et Kacprzyk, 2005]. Le modèle booléen flou, basé sur la théorie des ensembles flous ou la logique floue, est avant tout une extension du modèle booléen standard. L’objectif principal est l’introduction de la notion de degré d’appartenance d’un élément à un ensemble. Dans les ensembles flous, l’appartenance est mesurée par un degré variant entre 0 et 1. Ce modèle a pour objectif de caractériser un élément par son degré d’appartenance à un ensemble flou et de représenter un document donné par un ensemble flou de termes pondérés.

Table des matières

Introduction
1 Recherche d’informations
1.1 Quelques différents modèles de recherche d’information
1.1.1 Modèle booléen
1.1.2 Modèles vectoriels
1.1.3 Modèles connexionnistes
1.1.4 Modèles probabilistes
1.2 Évaluation des Systèmes de RI
1.2.1 Mesures de rappel/précision
1.2.2 Précision moyenne et gain cumulatif réduit
1.2.3 La courbe ROC
1.3 Les différentes étapes de la recherche d’information
1.3.1 Le processus d’indexation
1.3.2 Les requêtes
2 Indexation sémantique et bases de connaissance : un état de l’art
2.1 Définition de l’indexation sémantique
2.1.1 Indexation pour des textes généraux
2.1.2 Indexation dans le domaine médical
2.1.3 Indexation par propagation
2.2 Critère d’évaluation de l’indexation
2.2.1 Consistance de l’indexation
2.2.2 Exactitude
2.2.3 Qualité de l’indexation
2.3 Utilisation de bases de connaissances
2.3.1 Définition des ontologies
2.3.2 Définition d’un réseau sémantique
2.4 Extraction de relations et le TALN dans le domaine médical
2.4.1 Extraction de relations
2.4.2 Traitement automatique du langage naturel dans le domaine médical
3 Le réseau lexico-sémantique JDM et le domaine radiologique
3.1 Crowsourcing et Game With A Purpose
3.1.1 Crowdsourcing
3.1.2 Un outil contributif : Diko
3.2 Annotation de relations
3.2.1 Déduction
3.2.2 Principe des annotations de relation
3.2.3 Expérimentations sur la propagation des annotations
3.2.4 Exploitation des annotations
Conclusion générale