L'apprentissage Artificiel

Facebook Tweet Pin Email

L’intelligence artificielle est sans doute l’un des domaines de recherches scientifiques qui a connu une forte avancée ces dernières années. Souvent abrégée par IA. Marvin Lee Minsky a défini l’IA comme « la construction de programmes informatiques qui s’adonnent à des tâches qui sont, pour l’instant, accomplies de façon plus satisfaisante par des êtres humains, car elles demandent des processus mentaux de haut niveau tels que : l’apprentissageperceptuelle, l’organisation de la mémoire et le raisonnement critique ». L’IA utilise des ordinateurs (avec des programmes informatiques adéquats) ou de processus électroniques élaborés afin d’imiter le comportement humain. Donc, il s’agit de reproduire l’intelligence humaine mais avec l’utilisation des machines, d’où la qualification artificielle. Les domaines traités par l’IA en général couvrent les sciences cognitives, la représentation et l’acquisition des connaissances, la robotique, la classification, la vision par ordinateur, la reconnaissance de formes, la modélisation des raisonnements .

La classification qui est l’un des axes de recherche de l’IA, consiste à trouver une application de l’ensemble des objets à classer, décrits par les variables descriptives choisies, dans l’ensemble des classes. L’algorithme ou la procédure qui réalise cette application est appelé classifieur et il doit passer par deux phases : une phase d’apprentissage et une phase de test.

Phase d’apprentissage

L’apprentissage, c’est un processus calculatoire qui doit être capable d’amener à une certaine prédiction et à une certaine généralisation. Cornuéjols, L. Miclet ont définit L’apprentissage comme : » un programme possède des capacités d’apprentissage si ses potentialités de comportement sur les données se modifient en fonction de ses performances au fur et à mesure qu’il traite les données ».

Types d’apprentissage

Il existe différents types d’apprentissages :

Apprentissage supervisé

L’apprentissage supervisé « supervised learning » est vue comme : « un programme informatique où il peut apprendre à partir de l’expérience E relativement à une classe de tâches T et à une mesure de performance P, si sa performance à traiter les tâches de T, comme mesurée par P, augmente avec l’expérience E. » [2].

Ce type est une technique d’apprentissage automatique où l’on cherche à produire automatiquement des règles à partir d’une base de données d’apprentissage contenant des « exemples ». Où L’apprentissage automatique désigne l’ensemble des changements dans un système qui lui permettent de réaliser une même tâche, ou des tâches similaires, de manière plus efficace ou plus efficiente au cours du temps [2].

Le principe d’apprentissage supervisé consiste à déterminer une nouvelle sortie 𝑌 à partir d’une nouvelle entrée 𝑋 , connaissant un ensemble de données{(𝑋1, 𝑌1), … (𝑋𝑛 , 𝑌𝑛 )}.Lorsque les 𝑌𝑖 prennent des valeurs discrètes, donc il s’agit d’un problème de classification. Par exemple en classification binaire, on cherche à attribuer à 𝑋 une étiquette 0 ou 1, tandis que des 𝑌𝑖 ont des valeurs réelles, nous plaçons dans le cadre de la régression.

On trouve deux grandes familles d’apprentissage supervisé en fonction du langage des hypothèses manipulé : les approches symboliques et les approches numériques. Les approches symboliques construisent des hypothèses dans des langages directement compréhensibles par les experts du domaine traité, comme les arbres de décision ou les bases de règles. Les approches numériques utilisent des langages de représentation moins directement interprétables comme les réseaux de neurones ou les réseaux bayesiens.

L’apprentissage supervisé est utile soit pour prédire, soit pour expliquer. Il est utile pour prédire quand l’hypothèse apprise a pour but de servir à classer correctement de nouveaux exemples non encore classés. Il est utile pour expliquer quand on s’intéresse au contenu de l’hypothèse apprise pour comprendre ce qui relie les exemples à leur classe .

Plusieurs méthodes de classification supervisée sont utilisées dans la littérature comme : Réseau de neurones, Méthode des k plus proches voisins, Arbre de décision, Machine à vecteurs de support…Etc .

Apprentissage non supervisé

Dans le domaine informatique, l’apprentissage non supervisé « clustering » est une méthode d’apprentissage automatique. Il s’agit pour un classifieur de diviser un groupe hétérogène de données, en sous-groupes de manière que les données considérées comme les plus similaires soient associées au sein d’un groupe homogène et qu’au contraire les données considérées comme différentes se retrouvent dans d’autres groupes distincts ; l’objectif étant de permettre une extraction de connaissance organisée à partir de ces données .

Ce type d’apprentissage cherche des régularités parmi un ensemble d’exemples, sans être nécessairement guidé par l’utilisation qui sera faite des connaissances apprises. Par exemple, le clustering cherche à grouper des exemples de manière à ce que les exemples au sein d’un même groupe se ressemblent suffisamment, et que les exemples de groupes différents soient suffisamment différents [2].

L’idée principale de la classification non supervisée est de classer les données en k groupes satisfaisant les deux conditions suivantes :

➤ Chaque groupe contient au moins une donnée et chaque donnée appartient à un et un seul groupe.
➤ La seconde condition impose que deux groupes ne peuvent avoir de données en commun et que les k groupes contiennent toutes les données.

Plusieurs techniques qui s’occupent de ce genre d’apprentissage on site : le K_means, carte de kohenen, classification hiérarchique ascendante et descendante…

Table des matières

Introduction générale
Chapitre I :Apprentissage Artificiel
I.1. Introduction
I.2. Phase d’apprentissage
I.3.Types d’apprentissage
I.3.1. Apprentissage supervisé
I.3.2. Apprentissage non supervisé
I.3.3. Apprentissage semi supervisé
I.3.4. Apprentissage par renforcement
I.3.5. Apprentissage « en ligne » et apprentissage « hors-ligne »
I.4. Phase de test
I.4.1. Taux de classification
I.4.2. La Sensibilité
I.4.3. La Spécificité
I.5. La validation croisée
I.6. Conclusion
Chapitre II : Etat de l’art
II.1. Introduction
II.2. Mono classification
II.2.1. Machine à Vecteurs de support (SVM)
II.2.2. Réseaux de Neurones (RNA)
II.2.3. K plus proches voisins (KNN)
II.2.4. Arbre de décision (ADD)
II.3. Multi classification
II.4. Méthodes de sélection
II.5. Conclusion
Chapitre III : Mono et Multi Classification
III.1. Introduction.
III.2. Mono Classification
III.2.1. Les machines à vecteur de support (SVM)
III.2.1.1. Principes de fonctionnement général de la technique SVM
III.2.1.2. Séparation linéaire et non linéaire
III.2.2. Les réseaux de neurones (RNA)
III.2.2. 1. Neurone formel
III.2.2. 2. Perceptron multicouche
III.2.2. 3. L’algorithme de rétro-propagation du gradient
III.2.3. Les K plus proche voisins (KNN).
III.2.3.1. Algorithme des KNN
III.2.4. Arbre de décision (ADD)
III.2.4.1. Construction d’un arbre de décision
III.3. Multi classification
III.3.1. Introduction
III.3.2. Combinaison Homogène
III.3.2.1. Processus de sélection de variables
III.3.3. Combinaison Hétérogène
III.3.3.1 Vote majoritaire (VM)
III.4. Conclusion
Chapitre IV : Résultats et Discussion
IV.1. Introduction
IV.2. l’hypothyroïdie
IV.2.1. Définition de la thyroïde
IV.2.2. Ensemble hypothalamus/hypophyse/thyroïde
IV.2.3.Définition de l’hypothyroïdie
IV.2.4. Comment détecter l’hypothyroïdie ?
IV.2.5. Les facteurs de risque : [75]
IV.2.6. Les types de l’hypothyroïdie
IV.3. Base de données
IV.3.1. Description des paramètres de la base de données
IV.3.2. Prétraitement de la base
IV.4. Critère d’évaluation
IV.5. Expérimentation 1 : mono-Classification
IV.5.1. Les paramètres des différents classifieurs utilisés
IV.5.2. Sélection de variables
IV.5.2.1. Sélection Relief
IV.5.2.2. Sélection Rank
IV.6. Expérimentation 2 : Multi-Classification
IV.6.1. Vote majoritaire
IV.6.2. Théorie de Dempster-Shafer
IV.6.3. Combinaison homogène
IV.6.4. Combinaison hétérogène
IV.6.4.1. Combinaison hétérogène (BDD sans sélection de variables)
IV.6.4.2.combinaison hétérogène (BDD avec sélection de variables Relief)
IV.6.4.3.combinaison hétérogène (BDD avec sélection de variables Rank)
IV.8. Conclusion
Conclusion