Classification automatique de textes par réseaux de neurones profonds

Aujourd’hui, la médecine moderne est devenue inconcevable sans l’utilisation des données de santé, volumineuses et hétérogènes, issues de la relation patient-médecin (dossiers des patients, résultats de biologie et d’imagerie, de la e-santé, de la télé-médecine, de l’ensemble des NBIC (nanotechnologies, biotechnologies, informatique et sciences cognitives), de la littérature médicale et de l’expression personnelle dans les médias sociaux, etc. Par exemple en France, on recense les données médico-économiques le Sniiram (Système National d’Information Inter Régimes de l’Assurance Maladie) et ses 8,9 milliards de feuilles de soins, ainsi que les images des 80 millions d’actes d’imagerie effectués chaque année, etc. Dans cette thèse, nous allons nous focaliser sur un type de données de santé particulières, les données textuelles. Dans lesquels, nous retrouvons les textes produits par les patients et les données issues de la littérature biomédicale.

Nous considérerons tout d’abord la littérature biomédicale qui résume les connaissances scientifiques actuelles. La littérature biomédicale est très vaste (plusieurs millions de publications scientifiques) et continue de croître rapidement (plus d’un million par an) via des sites comme PubMed  , Google Scholar  , etc. Le processus de recherche documentaire, qui consiste à chercher des informations pertinentes dans cette littérature, pour trouver la réponse à une question spécifique, ou encore pour identifier les auteurs d’articles les plus influents sur un sujet, devient de plus en plus complexe. Convertir cette masse d’information sous une forme structurée est un enjeu majeur et constitue le point de départ du développement et de la mise au point d’outils d’interrogation et de traitement automatique adaptés [Chua and Zhang, 2020].

Nous nous intéresserons également aux médias sociaux en ligne, spécialisés dans un domaine comme les forums de discussions, les tweets, etc. Ces médias sociaux ont de multiples fonctions et applications. Dans un premier temps, ils sont une source d’informations précieuses pour les internautes [Barrington et al., 2012]. Ils sont également utilisés à des fins d’information du grand public par les institutions, dans l’intention de sensibiliser les populations et de réaliser des actes de prévention sur les pratiques à risque. Enfin, ils ont également le rôle d’information et de veille auprès des professionnels de santé afin de parfaire leurs connaissances sur les comportements des patients. Proposer des modèles d’analyses automatiques et efficaces, utilisables par les professionnels de santé à partir de ces ensembles de textes produits par les patients, représente un défi majeur [Zhao et al., 2019].

Lorsque l’on veut analyser ces deux types de documents de manière automatique, les méthodes de classification sont essentielles. La classification est une méthode d’analyse de données qui consiste, pour faciliter l’étude d’une population, à regrouper ces individus en classes, de telle sorte que les individus d’une même classe soient les plus semblables possibles et que les individus de classes différentes soient les plus différents possibles. On distingue les approches supervisées pour lesquelles les classes sont connues, des approches non supervisées pour lesquelles les classes ne sont pas connues. Pour comparer les individus, on s’intéresse à des variables correspondant aux caractéristiques de ces individus (e.g. température, vocabulaire, couleur, etc.). L’ensemble de ces variables réalisent une représentation des individus. À partir de ces représentations abstraites, il est alors possible de procéder à la mesure d’une distance entre deux individus. Il existe de nombreux algorithmes de classification qui différent selon le type de données traitées, des choix de représentation de ces données et des modèles sous-jacents.

En santé, parmi les approches de classification ayant connu un vif succès, on peut citer les travaux de [Cheikhrouhou, 2012] qui a travaillé sur la classification des masses mammaires pour le diagnostic du cancer du sein à partir d’imageries . Ce type de systèmes automatiques de Diagnostic Assisté par Ordinateur sert à donner un second avis au radiologue. Nous pouvons également citer les travaux de [Robert et al., 2019] pour le Centre d’épidémiologie sur les causes médicales de décès (CépiDc) de l’Inserm qui permet d’identifier automatiquement les causes médicales de décès à partir de textes.

Récemment les modèles de classification par apprentissage profond ont fortement progressé et ont montré leur supériorité sur les modèles de classification plus classiques, notamment sur de très gros ensembles de données. Ils ont été développés et améliorés par les GAFAM  qui utilisent des ensembles de données produits par leurs utilisateurs et en conséquence de très grande taille. Or, dans le domaine applicatif de la santé, très fréquemment, les classifications de données utiles se réalisent sur des petits volumes de données textuelles et surtout les modèles sont appris à partir de petits volumes de données annotées. En effet, il est difficile de disposer d’un volume de données étiquetées suffisant pour l’entraînement des modèles. Cette étape est généralement manuelle et coûteuse et il convient de la réduire par des systèmes semi-automatiques.

Pour une tâche précise de classification de données textuelles, le data scientist cherche à identifier le meilleur algorithme de classification et à définir les meilleures caractéristiques prises en entrée de ces classifieurs pour représenter les données. Dernièrement, les méthodes d’apprentissage profond se sont révélées très efficaces pour différents types de données dont les données de nature textuelle. Par ailleurs, les modèles de représentation des textes ont également beaucoup évolué. Les représentations classiques sont généralement basées sur des caractéristiques issues de l’expérience du data scientist (e.g. longueur de la phrase, nombre de chiffres, etc.) et sur des lexiques [Wu et al., 2008]. Ce type d’approches est difficilement généralisable à différents domaines. Récemment, de nombreux travaux se sont penchés sur les représentations continues de mots (word embeddings) [Mikolov et al., 2013b] et leurs différentes extensions.

En classification de textes, la phase d’étiquetage nécessaire à l’apprentissage du classifieur peut s’avérer longue et fastidieuse. Dans ce contexte, l’apprentissage actif, pendant lequel l’oracle intervient pour choisir les meilleurs exemples à étiqueter, s’avère prometteur. L’intuition est la suivante : en choisissant les exemples intelligemment et non aléatoirement, les modèles devraient s’améliorer avec moins d’efforts pour l’oracle et donc à moindre coût (c’est-a-dire avec moins d’exemples annotés). Il existe différentes approches d’apprentissage actif mais peu ont été combinées avec des modèles d’apprentissage profond [Ash et al., 2020] et encore moins pour des données textuelles [Bang et al., 2018].

Table des matières

I Introduction
1 Motivations de la recherche
2 Questions de recherche étudiées et challenges
2.1 Représenter et classer des données textuelles
2.2 Impliquer l’annotateur via un apprentissage actif
2.3 Augmenter les données
3 Données de la thèse
4 Résumé des trois contributions principales de la thèse
5 Plan de la thèse
6 Publications
6.1 Apprentissage actif profond
6.2 Augmentation de données
II Architecture des réseaux de neurones
1 Le neurone formel
2 Le perceptron
3 Le perceptron multi-couches
4 Les réseaux récurrents
5 Les réseaux LSTM
6 Les réseaux de convolution
7 Les auto-encodeurs
8 Le mécanisme d’attention
9 L’architecture de réseau neurone Transformer
10 Conclusion
III Comparaison des classifieurs de textes
1 État de l’art
1.1 Représentation des documents
1.1.1 Représentation par sac de mots
1.1.2 Représentation par TF-IDF
1.1.3 Représentation des documents par identifiant
1.1.4 Représentation statique continue des mots
1.1.4.a GloVe
1.1.4.b Word2vec
1.1.4.c fastText
1.1.5 Représentation continue des mots contextualisés
1.2 Classifieurs statistiques
1.2.1 Bayes naïf
1.2.2 KNeighborsClassifier (KNN)
1.2.3 Decision Trees (DT)
1.2.4 Random Forest (RF)
1.2.5 AdaBoost (AB)
1.2.6 XGBoost (XGB)
1.2.7 LinearSVC (SVM)
1.2.8 Méta Classifier Commettee (MCC)
1.3 Classifieurs basés sur des modèles neuronaux convolutionnels
1.3.1 Convolutional Neural Network (CNN)
1.3.2 Multi-Group Norm Constraint Convolutional Neural Network (MGNCCNN)
1.3.3 Convolutional Neural Network 2 Dimensions (CNN2D)
Conclusion

Cours gratuitTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *