Le traitement d’images biomédicales [Abràmoff et al., 2004 ; Bankman, 2008 ; Demirkaya et al., 2008] est une branche du traitement de l’image de plus en plus étudiée et que l’on retrouve dans de nombreux domaines applicatifs (microscopie, imagerie par résonance magnétique, . . . ). Son objectif principal est d’accompagner les biologistes et les médecins dans le traitement des données auxquelles ils sont confrontés au quotidien. Par exemple, certaines techniques permettent d’améliorer la qualité des images observées (débruitage [Delpretti et al., 2008 ; Luisier et al., 2009], défloutage [Choi et al., 2006 ; Tristán-Vega et al., 2012], . . . ) ou de réaliser certaines tâches (semi-) automatiquement et à grande échelle (comme détecter et compter des cellules [Kothari et al., 2009 ; Poulain et al., 2015]).
Le traitement de telles images présente des spécificités que l’on ne retrouve pas systématiquement dans le domaine du traitement de l’image. Par exemple, il est généralement plus simple de connaître les ordres de grandeurs de ce que l’on observe dans la mesure où on connaît le matériel qui a fait l’acquisition de l’image ainsi que l’échantillon observé.
La classification est une étape que l’on retrouve de façon récurrente dans le domaine biomédical. En effet, les biologistes et médecins sont régulièrement amenés à établir un diagnostic, ce qui revient généralement attribuer une classe générale y au phénomène x observé (pathologie, cellule, . . . ). En apprentissage statistique, on distingue deux grandes familles d’algorithmes de classification :
— La classification supervisée (qui sera discutée plus en détails en Partie I) consiste à apprendre une règle de classification à partir de données (telles que des images) préalablement annotées, c’est-à-dire auxquelles un expert a attribué une classe parmi un ensemble (prédéfini) de classes. Un algorithme de classification supervisée prendra donc en entrée un ensemble d’objets X et l’ensemble Y des classes correspondantes.
— La classification non-supervisée (ou clustering, Cf. Partie II) [Hastie, Tibshirani et Friedman, 2009] cherche à réaliser la même tâche, mais en n’ayant recours qu’à des données non-annotées, c’est-à-dire sans connaissance a priori sur l’ensemble des classes. En d’autres termes, un algorithme de classification non-supervisée n’aura que l’ensemble d’objets X en entrée.
Ces deux types de classification ont leur place dans le domaine biomédical. En effet, la classification supervisée permet à l’algorithme d’apprendre une règle de classification fondée sur des classes bien définies. À l’inverse, l’apprentissage non supervisé peut quant à lui s’utiliser lorsque les classes ne sont pas clairement définies, qu’on cherche à les définir, ou lorsque l’acquisition d’une vérité terrain sur un nombre significatif d’échantillons n’est pas envisageable.
L’extraction de caractéristiques est une composante du traitement de l’image qui va souvent de paire avec la classification. En effet, pour établir une règle de classification (supervisée ou non), on se base généralement sur un ensemble de critères numériques décrivant l’objet ou le phénomène observé x ∈ X. En pratique et selon le contexte, deux types de caractéristiques peuvent être extraites :
— Des descripteurs génériques n’ayant pas nécessairement d’interprétation physique ou biologique (SIFT [Lowe, 2004], SURF [Bay et al., 2008], histogrammes de gradients orientés [Dalal et Triggs, 2005], contexte de forme [Belongie et al., 2002], sacs de mots [Sivic et Zisserman, 2003], . . . ),
— Des descripteurs ayant un sens physique. Typiquement, dans le domaine biomédical, il peut s’agir de caractéristiques morphologiques décrivant les objets observés (taille d’une cellule, épaisseur d’un vaisseau, . . . ).
Le problème de la classification d’objets consiste à établir une procédure qui associe une classe (appartenant à un ensemble de classes) à une donnée. La classification supervisée se fait à partir d’un ensemble d’apprentissage, composée d’objets et des classes qui leur correspondent, et d’un ensemble de test, composée d’objets dont la classe est inconnue. Une classification supervisée se réalise alors en deux temps. Elle commence par la phase d’apprentissage, pendant laquelle la procédure (généralement appelée classifieur) permettant d’associer un objet à une classe est définie. S’en suit alors la phase de classification (ou de prédiction) pendant laquelle les règles de classification établies (ou apprises) lors de la phase précédente sont utilisées pour en déduire la classe, a priori inconnue, d’un objet.
Pour ce faire, une donnée quelconque (que ce soit un document texte, un fichier audio, une image, une vidéo, un maillage, . . .) est généralement convertie en un vecteur de valeurs réelles, pouvant appartenir à un espace de grande dimension, parfois appelé signature [Oliva et Torralba, 2001 ; Sivic et Zisserman, 2003]
La classification binaire correspond au cas où il n’y a que 2 classes. C’est une situation courante dans le contexte biomédical, par exemple lorsqu’il s’agit de faire la distinction entre malin et bénin [Jiang et al., 1996 ; Stavros et al., 1995]. Par conséquent, certains algorithmes d’apprentissage s’appliquent uniquement au cas où il n’y a que deux classes. On parle alors de classifieurs binaires. Parmi les plus populaires dans la littérature, on retrouve les séparateurs à vaste marge , et le Boosting (et plus particulièrement AdaBoost, un meta-algorithme consistant à combiner des classifieurs dits « faibles » afin d’obtenir un classifieur dit « fort » [Schapire, 2003]). Par opposition au cas binaire, on parle de classification « multiclasse » lorsque le nombre de classe est supérieur ou égal à 3. Là encore, les applications dans le domaine biomédical ne manquent pas. On peut citer à titre d’exemple la classification histologique de la tumeur [Kleihues et al., 2002 ; Sobin et Fleming, 1997] ou la classification de séquences d’ADN [J. T. Wang et al., 1999]. Certains classifieurs binaires peuvent être reformulés afin d’être applicables au cas multiclasse (par exemple AdaBoost [Zhu et al., 2009] et les SVM [Crammer et Singer, 2002]). D’autres sont directement multiclasses. C’est le cas notamment pour les réseaux de neurones artificiels [Bengio et al., 2013], ainsi que les arbres de décision et les forêts d’arbres décisionnels [Breiman, 2001 ; Quinlan, 1986].
De nombreuses extensions ont été proposées dans la littérature [Allwein et al., 2001; Aly, 2005 ; Hastie, Tibshirani et al., 1998 ; Hsu et Lin, 2002]. Les plus populaires d’entre elles peuvent être classées dans 4 principales catégories : un contre tous, un contre un, code correcteur et division pour régner.
un contre tous Souvent abrégée OVA (de l’anglais « one versus all »), cette famille d’extensions [Athitsos et al., 2007 ; Manikandan et Venkataramani, 2009 ; Mota et Thome, 2009 ; Rifkin et Klautau, 2004] consiste à comparer chaque classe à son complémentaire, c’està-dire la classe virtuelle composée de l’ensemble des n − 1 autres classes. Dans ce cas, le nombre de classifieurs binaires appris K est égal à n. La classe prédite y d’une nouvelle signature x est alors celle qui maximise le critère de confiance .
1 introduction générale |