Télécharger le fichier original (Mémoire de fin d’études)
La reconnaissance de formes
La RDF est l’ensemble de techniques et méthodes visant à identifier des motifs à partir des données brutes afin de prendre une décision dépendante de la catégorie attribuée à ce motif, elle se considère comme une branche de l’intelligence artificielle qui fait largement appel aux techniques d’apprentissage automatique et aux statistiques. Les formes à reconnaître peuvent être de natures très variés. Il peut s’agir de contenu visuel (caractère, visage, empreinte digitale, images médicales, rayon X, IRM ou images satellitaires …) ou sonore (reconnaissance de parole ou de locuteur) ou bien d’autres. La RDF s’intéresse à la conception et à la réalisation de systèmes (matériels ou logiciels) capables de percevoir, et dans une certaine mesure, d’interpréter des signaux captés dans le monde physique [Dubuisson 1990].
La RDF est un des nombreux aspects de l’intelligence artificielle. A partir d’un ensemble de données ou d’informations apprises, elle offre la possibilité d’interpréter toute nouvelle observation (ou forme). Les observations déjà connues sont regroupées en classes, constituant des prototypes auxquels la nouvelle observation est comparée pour être identifiée. Les algorithmes utilisés permettent donc de classer des observations dont les propriétés ont varié par rapport à une observation type [Zouari 2002].
Processus de la RDF
Les informations issues du monde réel (via le capteur) et fournies au système de RDF sont généralement trop volumineuses et peu pertinentes. Le processus de RDF consiste à une réduction progressive et sélective de l’information [Lepage 2004], la Figure I.1 représente les étapes de traitement d’un processus de RDF typique.
Acquisition de données
Le monde physique qui nous entoure est considéré comme un espace analogique de dimension n appelé l’espace de formes F . C’est celui qui est présenté dans sa forme la plus primaire, c’est-à-dire dont nous devons déterminer les caractéristiques les plus apparentes avant l’étape du codage. L’opération de codage consiste en une conversion numérique du monde physique continu vers un monde discret.
Prétraitement de données
La phase de prétraitement permet de sélectionner les informations nécessaires à l’application à partir de l’espace de représentation de la forme F [Barrat 2010]. Cette sélection passe par la suppression du bruit dû aux conditions d’acquisition et de la qualité de la forme, par la normalisation des données ainsi par la suppression des redondances.
Le prétraitement de données concerne le filtrage et la transformation des informations qui permettent d’obtenir des données plus adaptées à l’extraction de caractéristiques informatives. Cette étape peut être exécutée à l’aide de plusieurs méthodes [Trouilhet 1994] telles que :
l’analyse de Fourier standard, les méthodes Temps-Fréquence (exemple : filtre de Gabor), l’analyse des ondelettes, etc. Lorsque les données sont obtenues, des caractéristiques structurelles peuvent être obtenues en utilisant une technique de segmentation.
Les techniques de segmentation peuvent utiliser différents types de primitives [Colomer 2002] qui sont connectées en maintenant la structure de chaque échantillon. En conservant la connexion entre les différentes parties d’un signal, une technique de segmentation permet d’obtenir une signature, qui est une représentation simplifiée et caractéristique de chaque signal
Extraction et sélection de caractéristiques
La première étape de l’analyse des données traitées permet d’obtenir des caractéristiques statistiques (des valeurs scalaires) ou structurelles. Les caractéristiques statistiques fournissent des informations spatiales telles que le nombre de pics présents dans un signal, l’écart-type des données, la moyenne quadratique, la valeur maximale ou minimale, le coefficient d’aplatissement (Kurtosis), etc. Lors de la deuxième phase, la sélection des caractéristiques les plus informatifs sera effectué. Généralement un grand nombre de caractéristiques est calculé à partir des données recueillies par les capteurs du système. C’est pourquoi, il est nécessaire d’extraire et/ou de sélectionner les caractéristiques les plus utiles pour représenter la forme [Benzecri 1979], c’est-à-dire ceux qui permettront de discriminer au maximum les classes de formes. Les méthodes de sélection des paramètres choisissent le sous-ensemble de paramètres les plus informatifs. Les méthodes d’extraction des paramètres créent un sous-ensemble de nouveaux paramètres par combinaison des paramètres existants. La réalisation de la phase de sélection de caractéristiques, se fait par l’utilisation des techniques d’analyse des données [Benzecri 1979] telles que l’Analyse en Composantes Principales (ACP), les algorithmes génétiques, la mesure discriminante de Fisher, etc. Plus les caractéristiques du système permettent de bien discriminer les formes a analysées, plus les résultats de classification sont considérés bons. L’ensemble des caractéristiques trouvés par ces méthodes représente les paramètres qui permettent de caractériser chaque forme. Lorsque les données issues de l’observation du fonctionnement d’un système sont représentées par des paramètres statistiques, elles sont transformées en formes, c’est-à-dire en points, dans l’espace de représentation. Les groupes de formes similaires sont appelés classes. Si les caractéristiques de forme sont bien déterminées, les classes sont bien discriminées et elles sont situées dans différentes régions de l’espace de représentation. Chaque classe est associée à un mode de fonctionnement (normal ou défaillant). Ces formes, avec leurs assignements à une classe, constituent l’ensemble d’apprentissage. Elles sont représentées par des caractéristiques ou attributs, c’est à dire des points, dans l’espace de représentation.
L’objectif de l’extraction et de la sélection de caractéristiques est d’identifier les caractéristiques importantes pour la discrimination entre classes. Après avoir choisi le meilleur ensemble de caractéristiques, il s’agit de réduire la dimensionnalité de l’ensemble des caractéristiques en trouvant un nouvel ensemble, plus petit que l’ensemble original, qui néanmoins, contient la plupart de l’information.
✓ Dans les systèmes de reconnaissance des caractères, les caractéristiques utilisables peuvent venir des squelettes ou des contours des segments, elles peuvent également venir de la densité des pixels, des moments, des lieux caractéristiques ou des transformées mathématiques.
✓ Dans les applications liées à l’analyse de texture et de densité des niveaux de gris telles que l’imagerie médicale et l’analyse des scènes, les caractéristiques utilisables peuvent venir de la matrice de cooccurrence des niveaux de gris (GLCM) ou de la méthode Run difference matrix (RDM), des descripteurs de Fourier, aussi bien que de diverses primitives structurelles.
✓ Dans l’analyse et la reconnaissance de formes d’ondes telles que les signaux électroencéphalographique, électrocardiographique, sismique ou audible aussi bien que les images ayant une forme de courbes, les caractéristiques utilisables généralement peuvent venir du spectre de puissance, de fonctions d’approximation, et de plusieurs types de segments de traits structurels.
I.3.4. Apprentissage et classification
La classification par apprentissage automatique est introduite dans ses objectifs et ses principes. En s’appuyant sur les approches qui ont montré leurs efficacités (Les arbres de décision, Les réseaux de neurones artificiels, les séparateurs à vaste marge, k-moyennes, k-plus proches voisins, etc.), aussi, les grands principes de l’apprentissage automatique (supervisées, non-supervisées et semi-supervisées) pour la classification automatique sont présentés dans cette section.
Méthodes supervisées
Dans le cadre de la reconnaissance de formes, une méthode de classification supervisée, dite aussi discrimination est la tâche qui consiste à discriminer des données, de façon supervisée (c’est à dire avec l’aide préalable d’un expert) ; les méthodes de classification supervisée tentent d’apprendre, à partir d’objets étiquetés (pour lesquelles la classe est connue), constituant un échantillon d’apprentissage, une fonction de classification. Cette fonction permettra d’associer une valeur de classe à chaque objet non étiqueté.
Généralement, on passe par une première étape dite d’apprentissage où il s’agit d’apprendre une règle de classification à partir de données annotées (étiquetées) par l’expert et donc pour lesquelles les classes de sortie sont connues, afin de prédire les classes de nouvelles données, pour lesquelles (on suppose que) les données sont inconnues. Parmi les méthodes d’apprentissages supervisées :
Méthodes basées sur le concept de similarité
L’un des moyens le plus simple de faire de la classification est de définir une fonction de distance entre les vecteurs caractéristiques, et d’affecter chaque image d’entrée inconnue à la classe dont le barycentre est le plus proche de l’image requête, selon la fonction de distance définie [Barrat 2010].
Les notions de distance et de similarité sont proches, dans le sens où elles permettent toutes deux d’identifier si deux objets sont différents ou non. Cependant, à la différence des mesures de similarité, les mesures de distance accordent une valeur maximale à deux objets complétement différents et minimale (tend vers zéro) à deux objets identiques. De plus, une mesure D peut être considérée comme une distance sur un ensemble E (où E est un R-espace vectoriel), si et seulement si D est une application de E × E dans R+ telle que :
• D(a, b) = 0 ⇔ a = b (réflexivité),
• ∀a, b ∈ E, D(a, b) = D(b, a) (symétrie),
• ∀a, b, c ∈ E, D(a, b) + D(b, c) ≥ D(a, c) (inégalité triangulaire)
Il existe plusieurs mesures de similarité et de distances dans la littérature (Euclidienne, Minkowski, Mahalanobis …). Certaines sont des distances, c’est-à-dire des mesures qui ont les propriétés de non-négativité, réflexivité, symétrie.
La distance classique la plus utilisée est la distance de Minkowski (ou Lp-norme) qui se base sur la distance euclidienne, Il existe cependant des mesures spécifiques aux histogrammes: L’intersection d’histogrammes [Swain 1991] et La distance entre histogrammes cumulés [Stricker 1995]. L’inconvénient des mesures telles que la distance Euclidienne ou l’intersection d’histogrammes est qu’elles comparent les composantes des vecteurs une par une, sans prendre en compte les autres composantes.
k plus proches voisins (kppv)
La méthode de classification k plus proche voisins (KPPV) [Cover 1967] est la méthode non paramétrique la plus simple. La méthode des KPPV est une méthode de classification géométrique très utilisée en reconnaissance de formes, en raison de sa simplicité et de sa robustesse. Les caractéristiques sont exploitées dans un espace métrique de représentation, généralement Rn muni de la distance Euclidienne.
Elle permet de reconnaître les formes lorsque la distribution des classes n’est pas convexe [Taconet 2006]. L’algorithme de base est facile à écrire et à programmer. En contrepartie, elle nécessite un grand volume de données d’apprentissage, ce qui veut dire un grand nombre de points d’apprentissage à stocker et à examiner, autrement dit, des ressources mémoire élevées et un temps d’exécution important dans une implémentation brute de l’algorithme.
Depuis plusieurs décennies, les chercheurs ont essayé d’améliorer la méthode, d’une part en réduisant le volume des données nécessaires et en optimisant les algorithmes pour réduire le temps de traitement. Keller et al. [Keller 1985] proposent une méthode de lissage flou des étiquettes, afin de filtrer les incertitudes. Une vote majoritaire proposé par Dudani [Dudani 1976], voisinage par classe de Hattori et al. [Hattori 1999], paramétrique de Arif [Arif 2005].
La Figure I.2 représente une illustration d’un problème de classification à 2 classes (A et B) avec un algorithme KPPV où k = 1 puis k = 6. Un ensemble de points sont répartis dans le plan. Les données étiquetées de classe A (respectivement de classe B) sont représentées par les points noirs (respectivement par les points blancs). Une observation non étiquetées (individu à classer), est représentée par le forme étoile x.
Afin de classer l’individu x dans un voisinage de k = 1 point, on recherche le plus proche voisin de x. Le petit cercle noir entoure le point à classer et son plus proche voisin. Le plus proche voisin de x est un point noire, x sera donc affecté à la classe A.
Considérons maintenant le même problème, mais avec un voisinage de k = 6 points. Afin de classer l’individu x, on recherche les 6 points les plus proches de x. le grand cercle noir qui entoure l’individu à classer x et ses six plus proches voisins. Parmi les 6 points les plus proches de x, il y en a 4 points blancs et 2 points noirs. Un vote majoritaire est effectué et l’individu x sera donc affecté à la classe des points blancs (Classe B).
L’avantage principal de la méthode KPPV est sa simplicité et le fait qu’elle ne nécessite pas d’apprentissage. L’introduction de nouveaux individus permet d’améliorer la qualité de classification sans nécessiter la reconstruction d’un modèle. C’est une différence majeure avec des méthodes telles que les réseaux de neurones et les arbres de décision. Cette méthode est également utilisable même en présence de caractéristiques de grande dimension.
L’inconvénient majeur de cette méthode est qu’elle est lourde car chaque nouvel individu à classer est comparé (sur la base de ses caractéristiques) à tous les individus stockés (sauf si un schéma d’indexation a été appliqué, auquel cas la comparaison se fera uniquement avec les individus d’une région). D’autre part, la performance des KPPV est très dépendante de la mesure de distance appliquée et de la valeur k utilisée.
Réseaux de neurones
Un réseau de neurones (Artificial Neural Network) est un modèle de calcul dont la conception est schématiquement inspirée du fonctionnement de vrais neurones. Les réseaux de neurones sont généralement optimisés par des méthodes d’apprentissage de type statistique, si bien qu’ils sont placés d’une part dans la famille des applications statistiques, qu’ils enrichissent avec un ensemble de paradigmes permettant de générer de vastes espaces fonctionnels, souples et partiellement structurés, et d’autre part dans la famille des méthodes de l’intelligence artificielle qu’ils enrichissent en permettant de prendre des décisions s’appuyant d’avantage sur la perception que sur le raisonnement logique formel.
Ce sont les deux neurologues Warren McCulloch et Walter Pitts [McCulloch 1943] qui ont mené les premiers travaux sur les réseaux de neurones. Ils constituèrent un modèle simplifié de neurone biologique communément appelé neurone formel. Ils montrèrent également théoriquement que des réseaux de neurones formels simples peuvent réaliser des fonctions logiques, arithmétiques et symboliques complexes.
La fonction des réseaux de neurones formels à l’instar du modèle vrai est de résoudre divers problèmes. A la différence des méthodes traditionnelles de résolution informatique, on ne doit pas construire un programme pas à pas en fonction de la compréhension de celui-ci. Les paramètres les plus importants de ce modèle sont les coefficients synaptiques. Ce sont eux qui construisent le modèle de résolution en fonction des informations données au réseau. Il faut donc trouver un mécanisme, qui permet de les calculer à partir des grandeurs acquises du problème, c’est le principe fondamental de l’apprentissage. Dans un modèle de réseau de neurones formels, apprendre, c’est d’abord calculer les valeurs des coefficients synaptiques en fonction des exemples disponibles. La représentation graphique d’un réseau de neurones artificiel est donnée par la Figure I.3.
Le neurone calcule la somme de ses entrées puis cette valeur passe à travers la fonction d’activation pour produire sa sortie. La fonction d’activation (ou fonction de seuillage) sert à introduire une non linéarité dans le fonctionnement du neurone.
Figure I.3: Représentation d’un neurone artificiel [Tilmanne 2009].
Les fonctions de seuillage présentent généralement trois intervalles :
1. en dessous du seuil, le neurone est non-actif (souvent dans ce cas, sa sortie vaut 0 ou 1),
2. au voisinage du seuil, une phase de transition,
3. au-dessus du seuil, le neurone est actif (souvent dans ce cas, sa sortie vaut 1).
En général, un réseau de neurone est composé d’une succession de couches dont chacune prend ses entrées à partir des sorties de la couche précédente. Chaque couche i est composée de Ni neurones, prenant leurs entrées sur les Ni_1 neurones de la couche précédente. A chaque synapse est associé un poids synaptique, de sorte que les Ni_1 sont multipliés par ce poids, puis additionnés par les neurones de niveau i, ce qui est équivalent à multiplier le vecteur d’entrée par une matrice de transformation. Mettre l’une derrière l’autre, les différentes couches d’un réseau de neurones, reviendrait à mettre en cascade plusieurs matrices de transformation et pourrait se ramener à une seule matrice, produit des autres, s’il n’y avait à chaque couche, la fonction de sortie qui introduit une non linéarité à chaque étape. Ceci montre l’importance du choix judicieux d’une bonne fonction de sortie : un réseau de neurones dont les sorties seraient linéaires n’aurait aucun intérêt.
Plusieurs types de réseaux de neurones ont été reportés dans la littérature, notamment le perceptron proposé par Rosenblatt [Rosenblatt 1958], les cartes autoorganisatrices de Kohonen [Kohonen 1989] et les réseaux basés sur le modèle de Hopfield [Hopfield 1982], etc.
Les réseaux de neurones fonctionnent en répartissant les valeurs des variables dans des automates (les neurones). Ces unités sont chargées de combiner entre elles leurs informations pour déterminer la valeur du paramètre de discrimination. C’est de la connexion de ces unités entre elles qu’émerge la capacité de discrimination du RNA. Chaque neurone reçoit des informations numériques en provenance de neurones voisins ; à chacune de ces valeurs est associée un poids représentatif de la force de la connexion. Chaque neurone effectue localement un calcul dont le résultat est transmis ensuite aux neurones avals.
La famille de réseau majoritairement employé est le perceptron multi-couches (PMC). À lui seul ce type de réseau recouvre plus de 95 % des applications scientifiques et industrielles.
Le PMC est un modèle de réseau à propagation par couche (Figure I.4). Les neurones y sont organisés en couches successives : une couche d’entrée, une couche de sortie et entre les deux une ou plusieurs couches intermédiaires, appelées aussi couches cachées. Il n’existe pas de connexion entre les neurones d’une même couche, en revanche tout neurone d’une couche est connecté à tous les neurones de la couche suivante. La « couche » d’entrée n’est pas une réelle couche de neurones car elle se contente de coder les variables d’observation. La couche de sortie code la variable de discrimination. Les valeurs d’activité des neurones sont propagées dans le réseau, de l’entrée vers la sortie, sans retour arrière. La présence d’une couche cachée permet de modéliser des relations non linéaires entre les entrées et la sortie. En théorie une seule couche cachée suffit, mais le fait de disposer d’une seconde couche cachée permet de modéliser plus facilement une fonction de discrimination non continue. En pratique, la plupart des problèmes sont résolus avec un ou deux niveaux, trois au maximum.
L’objectif général d’un RNA est de trouver la configuration des poids de connexion entre neurones pour qu’il associe à chaque configuration d’entrée, une réponse adéquate. L’utilisation d’un RNA se fait en deux temps. Tout d’abord une phase d’apprentissage qui est chargée d’établir des valeurs pour chacune des connexions du réseau, puis une phase d’utilisation proprement dite, où l’on présente au réseau une entrée et où il nous indique en retour « sa » sortie calculée.
Dans le cas du PMC, on utilise un apprentissage supervisé. Les valeurs des poids de connexion sont créées tout d’abord au hasard et le système cherche par itérations successives à obtenir une modélisation des données. A chaque étape, une entrée est présentée au réseau, il propage ces valeurs vers les neurones de sortie. Cette sortie calculée est comparée avec la réponse attendue et le système modifie les poids en conséquence. Cette altération des connexions est obtenue par l’algorithme de rétropropagation du gradient d’erreur. Ce calcul est chargé de rétropropager dans le réseau les erreurs constatées sur les sorties. En théorie, on ne peut jamais être sûr que cet algorithme finisse par déterminer un ensemble de poids convenable pour tous les couples d’entrées-sorties. En pratique, on ne construit pas un seul RNA, mais plusieurs modèles en jouant sur les paramètres de cet algorithme, et en cherchant à obtenir un modèle qui colle au mieux aux données.
Grâce à leur capacité de classification et de généralisation, les réseaux de neurones sont généralement utilisés dans des problèmes de nature statistique, tels que la classification automatique, reconnaissance de caractère, approximation d’une fonction inconnue … etc.
Les réseaux de neurones sont célèbres pour leurs bonnes performances, en termes de taux et de vitesse de classification. Ils ont aussi l’avantage de fonctionner en présence de données manquantes ou fausses. Ces avantages font la popularité des approches neuronales en reconnaissance de formes [Barrat 2010].
L’inconvénient majeur des réseaux de neurones est l’absence de méthode systématique permettant de définir la meilleure architecture du réseau et le nombre de neurones à placer pour chaque couche cachée, il est difficile de choisir l’architecture et de régler les paramètres d’apprentissage. En effet, le résultat de l’apprentissage est un réseau défini par une fonction d’activation et un très grand nombre de poids à valeurs réelles. Ces poids sont difficilement interprétables. De plus les réseaux de neurones ont un côté « boîte noire » : les résultats de la classification sont difficilement interprétables.
Arbres de décision
Un arbre de décision est un outil d’aide à la décision représentant un ensemble de choix sous la forme graphique d’un arbre. Les différentes décisions possibles sont situées aux extrémités des branches (les « feuilles » de l’arbre). C’est en particulier le cas pour l’aide au diagnostic médical où le médecin doit pouvoir interpréter les raisons du diagnostic. Les arbres de décision répondent à cette contrainte car ils représentent graphiquement un ensemble de règles et sont aisément interprétables. Pour les arbres de grande taille, la procédure globale peut être difficile à appréhender, cependant, la classification d’un élément particulier est toujours compréhensible.
Figure I.5: Un exemple d’arbre de décision pour la classification de 100 individus pris de la base IRIS. [Rakotomalala 2005].
Les premiers algorithmes de classification par arbres de décision sont anciens. Les travaux les plus marquants sont :
✓ CHAID (CHi-squared Automatic Interaction Detector) développée par kass et al. [Kass 1980].
✓ La méthode « itérative Dichotomiser 3 » (ID3) et son successeur (C4.5) réalisées par Quinlan et al. [Quinlan 1986] [Quinlan 1992].
✓ Exhaustive CHAID [Biggs 1991].
✓ MARS (Multivariate adaptive regression splines) [Friedman 1991]
✓ CART (Classification and Regression Tree) [Breiman 1996].
L’idée de l’apprentissage des arbres de décision commence par la division récursive des éléments de la base d’apprentissage par des tests définis à l’aide des caractéristiques jusqu’à ce que l’on obtienne des sous-ensembles d’exemples ne contenant (presque) que des exemples appartenant tous à une même classe.
Les méthodes vont différer par les choix effectués pour ces différents opérateurs, c’est-à-dire sur le choix d’un test (par exemple, utilisation du gain et de la fonction entropie) et le critère d’arrêt (quand arrêter la croissance de l’arbre, soit quand décider si un nœud est terminal). Tous ces algorithmes se distinguent par le ou les critères de segmentation utilisés, par les méthodes d’élagages implémentées, par leur manière de gérer les données manquantes dans les prédicteurs. Dans toutes les méthodes, on trouve les trois opérateurs suivants :
1. Décider si un nœud est terminal, c’est-à-dire décider si un nœud doit être étiqueté comme une feuille. Par exemple : tous les exemples sont dans la même classe, il y a moins d’un certain nombre d’erreurs.
2. Sélectionner un test à associer à un nœud. Par exemple : aléatoirement, utiliser des critères statistiques.
3. Affecter une classe à une feuille. On attribue la classe majoritaire sauf dans le cas où l’on utilise des fonctions coût ou risque.
L’avantage de cette méthode est qu’elle permet à l’utilisateur d’interpréter le résultat de la classification, puisque le processus de classification est représenté graphiquement. De plus, une fois l’arbre construit, le temps de décision est réduit. Enfin, cette approche est non paramétrique. Ces avantages rendent les arbres de décisions adaptés aux problèmes de reconnaissance de formes. D’une autre part, les performances des arbres de décision tendent à se dégrader lorsque le nombre de classes devient trop important. De plus, les variables situées en haut de l’arbre ont beaucoup de poids. En effet, elles influencent grandement le reste de la construction. Ceci peut conduire à changer complètement les prédictions en cas de modification d’une de ces variables, ce qui fait des arbres de décision une méthode d’apprentissage plutôt instable. Enfin, comme pour les réseaux de neurones, l’apprentissage n’est pas incrémental et par conséquent, si les données évoluent avec le temps, il est nécessaire de relancer une phase d’apprentissage pour s’adapter à cette évolution.
Séparateurs à vaste marge (SVM)
Les SVM (Support Vector Machine) souvent traduit par l’appellation de Séparateur à Vaste Marge ou Les machines à vecteurs de support sont un ensemble de techniques d’apprentissage supervisé destinées à résoudre des problèmes de discrimination.
L’idée des hyperplans à marge maximale a été explorée dès 1963 par Vladimir Vapnik [Vladimir 1963], et en 1973 par Richard Duda et Peter Hart dans leur livre « Pattern classification and scene analysis » [Duda 1973].
Les SVM ont été rapidement adoptés pour leur capacité à travailler avec des données de grandes dimensions, le faible nombre d’hyper paramètres, leurs garanties théoriques, et leurs bons résultats en pratique.
Les SVM ont été appliqués à de très nombreux domaines (bio-informatique, recherche d’information, vision par ordinateur, finance…).
La marge est la distance entre la frontière de séparation et les échantillons les plus proches. Ces derniers sont appelés vecteurs supports. Dans les SVM, la frontière de séparation est choisie comme celle qui maximise la marge. Ce choix est justifié par la théorie de Vapnik-Chervonenkis [Vladimir 1963], qui montre que la frontière de séparation de marge maximale possède la plus petite capacité [Hearst 1998]. Le problème est de trouver cette frontière séparatrice optimale, à partir d’un ensemble d’apprentissage.
Table des matières
INTRODUCTION GENERALE
CHAPITRE I: RECONNAISSANCE DE FORMES & VISION ARTIFICIELLE
I.1. INTRODUCTION
I.2. LA RECONNAISSANCE DE FORMES
I.3. PROCESSUS DE LA RDF
I.3.1. Acquisition de données
I.3.2. Prétraitement de données
I.3.3. Extraction et sélection de caractéristiques
I.3.4. Apprentissage et classification
I.3.4.1. Méthodes supervisées
I.3.4.1.1. Méthodes basées sur le concept de similarité
I.3.4.1.2. k plus proches voisins (kppv)
I.3.4.1.3. Réseaux de neurones
I.3.4.1.4. Arbres de décision
I.3.4.1.5. Séparateurs à vaste marge (SVM)
I.3.4.1.6. La classification Bayésienne
I.3.4.2. Méthodes non supervisées
I.3.4.2.1. Méthodes basées sur le concept de similarité
I.3.4.2.2. Méthode K – moyennes
I.3.4.2.3. Cartes de Kohonen (Self-Organizing Maps)
I.3.4.3. Autres types d’apprentissage
I.4. LA VISION PAR ORDINATEUR
I.4.1. Applications industrielles de la vision artificielle
I.4.2. Analyse d’image
I.4.2.1. Analyse de bas niveau
I.4.2.2. Analyse de haut niveau
I.5. CONCLUSION
CHAPITRE II: MAMMOGRAPHIE ET DEPISTAGE DU CANCER DU SEIN
II.1. INTRODUCTION
II.2. LA GLANDE MAMMAIRE
II.3. LA MAMMOGRAPHIE
II.3.1. Les incidences de base
II.3.1.1. L’incidence de face ou incidence cranio-caudale (CC)
II.3.1.2. L’incidence oblique externe
II.3.2. La qualité de la mammographie
II.3.2.1. Caractéristique de positionnement
II.3.2.2. Caractéristiques de la mammographie
II.3.3. Limite de la mammographie
II.3.3.1. L’échographie
II.3.3.2. Imagerie par Résonance Magnétique (IRM)
II.4. LES OPACITES DU SEIN
II.5. DEPISTAGE DU CANCER DU SEIN
II.5.1. Les densités asymétriques
II.5.2. Les masses
II.5.2.1. Les masses régulières
II.5.2.2. Les masses irrégulières
II.5.3. Les calcifications
II.6. LA CLASSIFICATION DES ANOMALIES MAMMOGRAPHIQUES
II.6.1. La classification de LeGal
II.6.2. La classification de Lanyi
II.6.3. La classification de BI-RADS
II.6.3.1. BI-RADS 0
II.6.3.2. BI-RADS 1
II.6.3.3. BI-RADS 2
II.6.3.4. BI-RADS 3
II.6.3.5. BI-RADS 4
II.6.3.6. BI-RADS 5
II.6.3.7. BI-RADS 6
II.7. CONCLUSION
CHAPITRE III: EXTRACTION DE CARACTERISTIQUES MAMMAIRES
III.1. INTRODUCTION
III.2. LES CARACTERISTIQUES DES MASSES MAMMOGRAPHIQUES
III.2.1. Les descripteurs de texture en mammographie
III.2.1.1. Les statistiques du premier ordre
III.2.1.2. La matrice de co-occurence
III.2.1.3. La méthode Run difference matrix (RDM)
III.2.1.4. La transformée de Fourier
III.2.1.5. L’analyse fractale
III.2.2. Les descripteurs de forme en mammographie
III.2.2.1. Les descripteurs géométriques
III.2.2.2. Les descripteurs spécifiques
III.2.3. Les descripteurs de contours
1. Le coefficient d’aplatissement (Kurtosis)
2. L’entropie
3. L’index de la probabilité maximale
III.2.4. Autres caractéristiques
III.3. CONCLUSION
CHAPITRE IV: LES ÉLÉMENTS D’UN SYSTÈME DE DÉPISTAGE AUTOMATIQUE DU CANCER DU SEIN (DACS)
IV.1. INTRODUCTION
IV.2. LES SYSTEMES DE DEPISTAGE AUTOMATIQUE DU CANCER DU SEIN
IV.2.1. Les avantages des systèmes DACS
IV.2.2. L’histoire des systèmes DACS
IV.3. LES TECHNIQUES UTILISEES PAR LES SYSTEMES DACS
IV.4. PROCESSUS DE DEPISTAGE AUTOMATIQUE DU CANCER DU SEIN
IV.4.1. Prétraitement d’images
IV.4.2. Segmentation
IV.4.2.1. Les méthodes de seuillage
IV.4.2.2. Les méthodes basées régions
IV.4.2.3. Les méthodes basées contours
IV.4.3. Extraction de caractéristiques
IV.4.4. La sélection des caractéristiques
IV.4.5. La classification
IV.4.6. Évaluation de la performance
IV.5. CONCLUSION
CHAPITRE V: LA CLASSIFICATION AUTOMATIQUE DES MASSES MAMMOGRAPHIQUES
V.1. INTRODUCTION
V.2. PROCESSUS DE CLASSIFICATION AUTOMATIQUE DES MASSES
V.2.1. La sélection de la région d’intérêt (ROI)
V.2.2. La Segmentation des masses mammaires
V.2.3. L’extraction de caractéristiques des masses mammographiques
V.2.3.1. Extraction de caractéristiques de forme
V.2.3.2. L’extraction de caractéristiques de contours
V.2.3.3. L’extraction de caractéristiques de la densité des masses
V.2.3.3.1. L’extraction de caractéristiques texturale
V.2.3.3.2. Extraction de caractéristiques de l’intensité
V.2.3.3.3. Les caractéristiques de texture et de densité utilisées
V.2.3.3.4. Autres caractéristiques
V.2.3.4. La classification
V.3. BASE DE DONNEES DE MAMMOGRAPHIES
V.3.1. Une description des fichiers « .LJPEG »
V.3.2. Description de fichier « .ics »
V.3.3. Description du fichier overlay
V.3.4. La description des fichiers « .16_PGM »
V.4. RESULTATS ET DISCUSSIONS
V.4.1. Les images de test et d’apprentissage
V.4.2. 1er scénario (La classification BI-RADS)
V.4.3. 2ème scénario (masses malignes Vs bénignes)
V.4.4. Comparaison avec les méthodes existantes
V.5. CONCLUSION
CONCLUSION GENERALE
RÉFÉRENCES BIBLIOGRAPHIQUES
LISTE DES PUBLICATIONS