Contexte applicatif, de la santé, du biomédical 

DÉFIS EN RAPPORT AVEC LES MALADIES RARES

L’exploitation des publications scientifiques sur les maladies rares présente différents chal-lenges à relever. Premièrement, les maladies rares, par leur nature, sont des maladies qui ont été moins sujettes à des recherches biomédicales et nécessairement, par rapport à des maladies plus courantes, il est possible que le nombre de publications ne soit pas assez grand. Il faut donc vérifier qu’il existe suffisamment de publications scientifiques en ce qui concerne ces maladies. La vérifica-tion de cette information sera discutée dans la section « Hypothèses de recherche » (1.2.2). Deuxièmement, même si le nombre de publications est suffisant, les publications scienti-fiques sont sous forme de texte et donc sous une forme non structurée que les méthodes statistiques, de « data mining » ne peuvent pas toujours exploiter au premier abord. Envisager d’apporter une structure cohérente au texte en fonction de ce qu’on veut extraire est important ; ce qui implique alors de réfléchir aux différents modèles de représentation que l’on pourrait utiliser pour structurer notre texte.

Enfin, il existe un dernier défi quant aux données disponibles actuellement sur les maladies rares. En effet, il existe plusieurs portails où l’on peut se renseigner sur les maladies rares. Ces portails sont construits par des personnes dévouées qui le font souvent gratuitement pendant leur temps libre ou par des organisations à but non lucratif travaillant à la sensibilisation à certaines de ces maladies (Orphanet, EpiRare, NORD, etc.). Cette stratégie d’information présente deux inconvé-nients majeurs. D’abord, le processus de transfert des connaissances débute par des spécialistes hautement qualifiés qui publient des papiers scientifiques, puis par les médecins qui utilisent ces publications pour agrandir leurs connaissances, puis par les personnes travaillant sur le portail. L’en-semble du processus peut alors prendre des années. Ensuite, au vu du nombre d’étapes du proces-sus et au nombre d’humains pouvant être impliqués dans celui-ci, il y a des chances que l’information perde de son exactitude avec le temps.

EXTRACTION DE SYMPTÔMES

Le travail se rapprochant le plus de notre problématique est certainement celui de Holat et al. (2016). De la même manière que dans ce présent mémoire, l’objectif est d’extraire des éléments cohérents et significatifs des publications et dans le cas de ce travail, cela concerne l’extraction et la reconnaissance de symptômes dans les publications en rapport avec les maladies rares. En utilisant 100 publications par maladie, sur 100 maladies sélectionnées par un expert, les auteurs sont parve-nus à obtenir un F-score de 29,38%. Un point intéressant est que ce travail utilise deux sources de données, dont nous parlerons plus tard à la section 4.3, OrphaData et Human Phenotype Ontology, qui représentent respective-ment une source de données reconnue en ce qui concerne les maladies rares et un inventaire de symptômes. Ce travail diverge sur de nombreux points comparativement au nôtre. Premièrement, la reconnaissance de symptômes qui a été implémentée ne suit pas l’hypothèse H4 que nous avons posée. Pour rappel, cette hypothèse dit, de manière formelle : « Ce qui est extrait d’une publication en rapport avec une maladie M est lié à la maladie M ».

Concrètement, cela veut dire que si on extrait un symptôme S d’une publication en rapport avec la maladie B, S est considéré comme un symptôme de la maladie B. En ajoutant à cela le fait que ce travail utilise uniquement les résumés de publications et qu’il ne considère que 100 maladies rares, il sera quasiment impossible de comparer leurs résultats avec les nôtres. Les méthodes utilisées sont le « pattern mining » (Aggarwal & Han, 2014) ainsi que le « sequence labelling » (Erdogan, 2010), ces approches sont comparées et combinées pour obtenir le meilleur résultat possible. Un dernier travail, celui de Martin, Battistelli et Charnois (2014), a également tenté d’extraire les symptômes des publications. Un F-score de 36,8% est atteint sur 25 résumés pris au hasard en utilisant des méthodes de « pattern mining » et de « natural language processing » (Chowdhury, 2003). En plus d’expliquer et de tester leur approche, les auteurs mettent l’accent sur la difficulté de définir précisément ce qu’est un symptôme. D’abord, il n’y a pas de différence morphologique ou syntaxique entre un signe d’une maladie et un symptôme d’une maladie (un symptôme est remarqué et décrit par un patient), la différence n’est que sémantique. Ensuite, les symptômes prennent des formes linguistiques extrêmement variées. Martin et al. (2014) précisent que dans sa forme la plus simple, un symptôme est un nom, qui peut être complété par des compléments, tels que des adjectifs ou d’autres noms. Ils peuvent également apparaître sous d’autres formes plus complexes, allant d’une seule expression à une phrase entière.

DISCUSSION

D’après le Tableau 1, si l’on considère le critère de l’utilisation du texte des publications, on remarque que seuls les travaux de Bui et Sloot (2012) utilise le texte complet des publications. Il pourrait donc être intéressant de réutiliser la méthodologie employée et de voir comment les obs-tacles liés à la grande quantité d’informations non pertinentes sont surmontés. Un deuxième point à noter est qu’en comparant les travaux de Mahmood et al. (2016) et de Singhal et al. (2016), on voit qu’au niveau des performances, c’est le travail de Mahmood et al. (2016) qui l’emporte de 10% environ, ce qui n’est pas négligeable. Cette affirmation pourrait alors laisser penser, au vu des différences entre les 2 travaux, que l’approche « natural language processing » fonctionne mieux que l’approche « machine learning ». Cette nouvelle affirmation pourrait également être intéressante à vérifier dans le cadre du projet de recherche, car elle permettrait de savoir quelle est la meilleure approche à adopter. Plus globalement, on peut voir que les modèles utilisés par tous les travaux sont proches, les seules différences notables concernent le nombre de méthodes d’apprentissage utilisées et le type d’apprentissage utilisé.

Ensuite, si l’on considère les connaissances extraites, les travaux de Bui et Sloot (2012) sont une tentative de généralisation des autres travaux, car un évènement biomédical pourrait englober des associations d’éléments biomédicaux (gènes, protéines, maladies, mutations). Étant donné que ces travaux ont bientôt 6 ans et que les performances restent moyennes, il serait tout aussi intéres-sant de continuer dans cette voie afin de couvrir le plus de faits biomédicaux pertinents que possible. Pour continuer, le travail de Cha et al. (2016) est à part, car il permet de son côté une extrac-tion de plus de résultats de recherche sur PubMed. La problématique d’augmenter le nombre de résultats de recherche de PubMed pourrait être utile pour bénéficier d’un nombre de résultats signi-ficatif (plus de 50 comme dit précédemment) pour une maladie rare donnée. Enfin, dans les travaux de Holat et al. (2016) et Martin et al. (2014), on constate que les performances ne sont pas très élevées (toujours inférieur à 40%). Augmenter les performances de l’extraction de symptômes est donc une problématique qui reste à creuser. D’ailleurs, en plus de concerner les maladies rares (dont il est difficile de trouver de la connaissance), les symptômes sont des entités qu’un public non-expert peut facilement comprendre. C’est ce genre d’éléments que notre projet de recherche souhaite extraire dans les publications scientifiques.

« WORD EMBEDDING » ET WORD2VEC

Presque toutes les représentations précédentes représentent les mots comme des entités uniques. Or, un mot seul a peu de sens si son contexte n’est pas précisé. Par exemple le mot « sou-ris » possède un sens différent dans les phrases suivantes : « Le chat chasse désespérément une souris pour la dévorer », « J’ai acheté un clavier et une souris pour mon ordinateur ». Pour per-mettre de faire la distinction, un ordinateur peut :

• Apprendre tous les sens de tous les mots d’une langue et faire une analyse séman-tique de la phrase pour décider quel est le sens le plus proche.

• Analyser le contexte dans lequel le mot est employé en regardant les voisins de ce mot.

La première solution est fastidieuse, car en plus de stocker toutes les définitions des mots existants, l’analyse sémantique par un ordinateur d’un texte n’est pas encore une tâche qui peut se faire de manière rapide et efficace. En ce qui concerne la seconde solution, regarder le voisinage du mot aurait pu nous aider déterminer le sens. Si l’on considère que les mots « chat » et « chasser » font partie du contexte du mot « souris » dans la première phrase, il est assez naturel de penser que la souris désignera l’animal et non l’objet. Cependant, utiliser les mots du contexte tel quel pose un problème de dimensionnalité (on parle aussi de « fléau de dimensions ») originellement identifié par Bellman (2013). En effet, le nombre de mots existants dans un texte ou un ensemble de textes peut être de l’ordre des dizaines de milliers de mots différents et chacun d’entre eux peut avoir des formes variées (singulier/pluriel, masculin/féminin, conjugaisons). La présence d’un grand nombre de dimensions implique souvent de nécessiter un trop grand nombre d’observations pour obtenir une couverture équivalente. Afin de pallier ce problème, il existe une solution consistant à représenter les mots sous la forme d’un vecteur de nombres réels dans un espace de dimension beaucoup plus petit. De cette façon, on peut estimer que des mots qui apparaissant dans un contexte similaire ont des vecteurs correspondants relativement proches (en calculant la distance entre ces vecteurs). C’est ce qu’on appelle le « word embedding » ou plongement de mots introduit par Vukotic, Claveau et Raymond (2015). Créé par une équipe de chercheurs menés par Tomas Mikolov chez Google et expliqué dans les travaux de Goldberg et Levy (2014), Word2vec est un modèle prédictif efficace pour l’apprentis-sage des « word embeddings » à partir de texte brut. Ce modèle utilise des réseaux de neurones à 2 couches et permet d’obtenir une représentation pour les mots et de leur contexte de manière effi-cace.

• « RULE-BASED » NER La « rule-based » NER établit un ensemble de règles grammaticales s’appliquant à un certain type d’entité. Ensuite, en parcourant le texte, si une portion de texte respecte l’une des règles éta-blies, on dira que cette portion fait partie du type d’entité associé à cette règle. On utilise pour cela ce qu’on appelle des expressions régulières. Par exemple, si notre but est d’identifier les adresses courriel dans un texte, en prenant l’expression régulière suivante : (\w[-._\w]*\w@\w[-._\w]*\w\.\w{2,3}) (par Neimke (2003)) et en l’appliquant au texte suivant : « Charles aimerait que sa demande de CAQ soit acceptée.

Pour cela, il a laissé son adresse charles.cousyn1@uqac.ca sur le site de l’immigration du Québec », on obtient alors la chaîne de caractère suivante : « charles.cou-syn1@uqac.ca », ce qui correspond bien à ce que nous souhaitions obtenir. Chaque caractère ou groupe de caractères d’une expression régulière (« \w », « * », « @ », « {2,3} », « . », « – », « [ », « ] », …) a une signification précise qui aura un impact sur les termes qui seront identifiés par celle-ci. (Par exemple, « \w » correspond à tous les caractères alphanumériques) L’avantage des expressions régulières est que, une fois l’expression trouvée, il suffit de l’ap-pliquer par l’utilisation d’un moteur d’expression régulière (que tous les langages ou presque possè-dent) pour obtenir les mots ou groupes de mots faisant partie de la catégorie voulue. Malheureuse-ment, dans de nombreux cas, il est impossible de créer une expression régulière capable de détecter les entités voulues. Pour illustrer, il n’existe pas d’expression régulière capable de décrire tous les mots ou groupes de mots appartenant à la catégorie des animaux. Théoriquement, cela pourrait être possible en écrivant une expression régulière contenant tous les mots ou groupes de mots possibles appartenant à la catégorie des animaux, mais cela revient à l’approche par dictionnaire qui sera traitée dans la section suivante. L’explication est qu’une expression régulière s’occupe d’analyser les différents caractères du texte, elle ne s’occupe ni de la sémantique ni de la fréquence des mots, elle regarde simplement si tel ou tel ensemble de caractères correspond aux règles établies dans l’ex-pression régulière.

Table des matières

RÉSUMÉ
TABLE DES MATIÈRES
LISTE DES TABLEAUX
LISTE DES FIGURES
LISTE DES ABRÉVIATIONS
REMERCIEMENTS
CHAPITRE 1 INTRODUCTION
1.1 CONTEXTE ET MOTIVATIONS
1.1.1 CONTEXTE THÉORIQUE
1.1.2 CONTEXTE APPLICATIF, DE LA SANTÉ, DU BIOMÉDICAL
1.1.3 DÉFIS EN RAPPORT AVEC LES MALADIES RARES
1.2 PROBLÈME DE RECHERCHE
1.2.1 TERMINOLOGIES ET CONCEPTS
1.2.2 HYPOTHÈSES DE RECHERCHE
1.2.3 QUESTION DE RECHERCHE
1.3 CONTRIBUTIONS
1.4 MÉTHODOLOGIE
1.5 ORGANISATION DU DOCUMENT
CHAPITRE 2 ÉTAT DE L’ART
2.1 CRITÈRES D’INCLUSION/EXCLUSION
2.2 CRITÈRES D’ANALYSE
2.3 TRAVAUX
2.3.1 EXTENSION DE MOTEUR DE RECHERCHE
2.3.2 EXTRACTION DES INTERACTIONS ENTRE PROTÉINES
2.3.3 EXTRACTION D’ASSOCIATION MUTATION/MALADIE
2.3.4 EXTRACTION D’ASSOCIATION PRODUIT CHIMIQUE/MALADIE
2.3.5 EXTRACTION D’ÉVÈNEMENTS BIOMÉDICAUX
2.3.6 EXTRACTION DE SYMPTÔMES
2.4 DISCUSSION
2.5 CONCLUSION
CHAPITRE 3 LE « TEXT MINING »
3.1 DÉFINITIONS
3.1.1 « TEXT MINING »
3.1.2 « TEXT MINING » DANS LE DOMAINE BIOMÉDICAL
3.1.3 « NATURAL LANGUAGE PROCESSING »
3.1.4 « NAMED ENTITY RECOGNITION »
3.1.5 « TEXT CLASSIFICATION »
3.1.6 SYNONYMES ET EXTRACTION D’ABRÉVIATIONS
3.2 CONCEPTS
3.2.1 PRÉTRAITEMENT
3.2.2 MODÈLES DE REPRÉSENTATION
3.2.3 ALGORITHMES
3.3 CONCLUSION
CHAPITRE 4 CONTRIBUTIONS DES TRAVAUX
4.1 PROBLÉMATIQUE
4.2 ÉLÉMENTS EXTRAITS
4.2.1 ANOMALIES PHÉNOTYPIQUES ET SYMPTÔMES
4.2.2 MÉDICAMENTS
4.3 SOURCES DE DONNÉES UTILISÉES
4.3.1 ORPHANET ET ORPHADATA
4.3.2 JEU DE DONNÉES « PHÉNOTYPES ASSOCIÉS AUX MALADIES RARES » SUR ORPHADATA
4.3.3 JEU DE DONNÉES « MALADIES RARES ET RÉFÉRENCES CROISÉES » SUR ORPHADATA
4.3.4 PUBLICATIONS SCIENTIFIQUES
4.3.5 « HUMAN PHENOTYPE ONTOLOGY »
4.4 ALGORITHMES UTILISÉS
4.4.1 RECONNAISSANCE BASÉE SUR UN DICTIONNAIRE
4.4.2 TF-IDF MODIFIÉ
4.5 OUTIL DÉVELOPPÉ
4.5.1 RÉCUPÉRATION DES PUBLICATIONS ET NER PAR DICTIONNAIRE
4.5.2 PREMIÈRE ÉVALUATION
4.5.3 RECHERCHE DE LA MEILLEURE COMBINAISON TF-IDF
4.5.4 RECHERCHE DU MEILLEUR SEUIL
4.5.5 IMPLÉMENTATION
4.6 EXPÉRIMENTATIONS
4.6.1 MESURES DE PERFORMANCES
4.6.2 FORMAT DES RÉSULTATS
4.6.3 OUTIL DE VISUALISATION
4.6.4 RÉSULTATS ET INTERPRÉTATION
4.7 CONCLUSION
CHAPITRE 5 CONCLUSIONS
5.1 REVUE DES CONTRIBUTIONS
5.2 LIMITES
5.3 TRAVAUX FUTURS
5.4 CONCLUSION PERSONNELLE
RÉFÉRENCES

Cours gratuitTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *