Apprentissage Artificiel et Métaplasticité Artificielle

Apprentissage Artificiel des réseaux de neurones

L’apprentissage naturel implique des modifications physiques des connexions entre neurones. Les réseaux de neurones biologiques réalisent facilement un certain nombre d’applications telles que la reconnaissance de formes, le traitement du signal, l’apprentissage par l’exemple, la mémorisation, la généralisation. Ces applications sont pourtant, malgré tous les efforts déployés en algorithmique et en intelligence artificielle, à la limite des possibilités actuelles. C’est à partir de l’hypothèse que le comportement intelligent émerge de la structure et du comportement des éléments de base du cerveau que les réseaux de neurones artificiels se sont développés. Les réseaux de neurones artificiels sont des modèles, à ce titre ils peuvent être décrits par leurs composants, leurs variables descriptives et les interactions des composants.

Apprentissage

L’apprentissage est vraisemblablement la propriété la plus intéressante des réseaux neuronaux. Elle ne concerne cependant pas tous les modèles, mais les plus utilisés.

Définition :
L’apprentissage est une phase du développement d’un réseau de neurones durant laquelle le comportement du réseau est modifié jusqu’à l’obtention du comportement désiré. L’apprentissage neuronal fait appel à des exemples de comportement.

Apparus en 1985, les réseaux multicouches sont aujourd’hui les modèles les plus employés. Plusieurs couches de traitement leurs permettent de réaliser des associations non linéaires entre l’entrée et la sortie. Ils sont ainsi capables de résoudre le cas du « ou exclusif » [Ros’58]. On sait depuis les années soixante que les possibilités de traitement des réseaux multicouches sont supérieures à celle du Perceptron, cependant l’algorithme d’apprentissage manquait. Pour la couche de sortie, nous pouvons appliquer l’apprentissage du Perceptron, mais comment modifier les poids pour les connexions qui ne sont pas en relation avec un neurone de sortie ? Le problème est ramené à l’obtention d’une estimation de la valeur désirée pour chaque neurone de la couche cachée. La rétropropagation de gradient est une solution à ce problème. Cet algorithme a été proposé indépendamment par trois équipes en 1985, dont Y. le Cun[Cun’85]. Des recherches bibliographiques ont montré qu’il s’agit en fait d’une redécouverte. Le principe utilisé par la rétropropagation (« backpropagation » en anglais) de gradient est la minimisation d’une fonction dépendante de l’erreur. Il s’agit d’une méthode générale, largement employée dans d’autres domaines tels que la physique. Une perception intuitive de cet algorithme consiste à considérer l’apprentissage comme la recherche sur la surface de coût de la position du coût minimal. A chaque configuration de poids correspond un coût. Le gradient est une estimation locale de la pente de la surface. La minimisation du gradient permet de parcourir cette surface orthogonalement aux courbes de niveau d’un pas fixé. Les problèmes rencontrés durant l’apprentissage résultent des zones très plates et des minima locaux. L’algorithme de la rétropropagation de gradient, bien que très simple à Implémenter , nécessite un certain savoirfaire pour une utilisation efficace. En effet, la convergence de l’algorithme n’est pas prouvée et de multiples variables sont à ajuster précisément en fonction du problème traité. Parmi ces variables à fixer, citons par exemple : les paramètres apparaissant dans les différentes équations (gain de la procédure de gradient (μ), pente de la fonction sigmoïde , la sélection des exemples pour l’apprentissage (X(t) ;Y(t))et le test , l’ordre de présentation et les distributions relatives des exemples dans la base d’apprentissage, le choix du codage des informations en entrée et en sortie, la structure du réseau (présence éventuelle de connexions directes de la couche d’entrée sur la couche de sortie pour traiter à ce niveau la partie linéaire du problème, limitation pratique du nombre de couches, taille de la couche cachée), la configuration initiale des poids, le nombre d’itérations d’apprentissage, ….

Métaplasticité Artificielle

Dans cette section nous allons appliquer le concept de métaplasticité sur un perceptron multicouches MAPMC et nous allons décrire la base mathématique derrière cette théorie et la relation existante entre la métaplasticité et la théorie de l’information de Shannon. L’algorithme de métaplasticité sera implémenté durant la phase d’apprentissage du perceptron multi couches suivant la rétropropagation du gradient. Rappelons que la métaplasticité est définie comme l’induction de modifications synaptiques, qui dépend de l’activité synaptique précédente. Elle correspond aux variations des niveaux de dépolarisation postsynaptique ,qui induisent les changements synaptiques.ces variations facilitent la potentialisation synaptique et inhibent la dépression synaptique dans les synapses déprimées. Le renforcement de l’efficacité synaptique est appelée LTP et la diminution est appelée LTD.

La Métaplasticité et la théorie d’information de Shannon

Dans le domaine des RNAs ,Hebb a postulé en 1949 que, durant la phase d’apprentissage , les connexions synaptiques des neurones biologiques sont renforcées en raison de la corrélation de l’activité présynaptique et postsynaptique des neurones.[Heb’49].

La plasticité synaptique des réseaux de neurones biologiques a été modélisée dans plusieurs réseaux de neurones comme un changement des valeurs des poids (forces synaptiques) des connexions des neurones artificiels ou des nœuds. Les poids sont les paramètres qui jouent le rôle le plus important dans l’apprentissage et la performance des RNAs. Des recherches récentes en neurosciences ont montré que ce paradigme classique peut être amélioré.par exemple, des propriétés biologiques ont été découvertes, elles ont une relation directe avec les poids, telle que la métaplasticité. Ces procédés biologiques sont cruciaux pour le développement de nouvelles architectures pour les réseaux de neurones. Autres mécanismes biologiques particuliers ont été cités dans la littérature, comme la synchronisation entre les neurones, permettant l’identification du neurone qui a la plus forte activation, et le comportement dual (haute/basse fréquence) de certains neurones biologiques peut être utilisé pour améliorer la performance des réseaux de neurones artificiels( [Mar et al’00] ,[Nev et al’08]).

En 2007, Kinto et al [Kin et al’07]ont appliqué la plasticité synaptique et la plasticité intrinsèque sur un RNA pour identifier la direction du mouvement d’un objet .

La plasticité intrinsèque est caractérisée par deux fonctions particulières: la première est d’assurer l’homéostasie de l’excitabilité intrinsèque du neurone, ce qui veut dire que le neurone s’adapte aux moindres changements de l’excitation pour toujours produire la même réponse. Notamment lorsque la fréquence d’entrée augmente progressivement, l’excitabilité du neurone baisse de manière à garder la même fréquence de sortie.et la deuxième fonction est qu’Elle permet sous certaines conditions de potentialiser l’excitabilité du neurone, par exemple après une série de potentiels d’actions à haute fréquence sur une faible durée, le neurone augmente sa fréquence de sortie en augmentant l’excitabilité.

Monteiro et al [Mon et al’08] ont modélisé avec succès un réseau de neurones pour simuler la maladie d’Alzheimer , en se basant sur la plasticité intrinsèque( la plasticité intrinsèque est liée directement avec la métaplasticité ).Dans son travail Monteiro a renforcé l’hypothèse selon laquelle la dérégulation du calcium est liée à la maladie d’Alzheimer. Actuellement plusieurs modèles de métaplasticité ont été proposés, mais le plus efficace du point de vue de l’apprentissage et la performance est celui qui utilise la théorie d’information de Shannon [Sha’48].sachant que la théorie d’information de Shannon vise à quantifier et qualifier la notion de contenu en information présent dans un ensemble de données. C’est une théorie probabiliste permettant de quantifier le contenu moyen en information d’un ensemble de données, dont le codage satisfait une distribution statistique précise. Ce domaine trouve son origine scientifique avec Claude Shannon qui en est le père fondateur avec son article « A Mathematical Theory of Communications » publié en 1948.[Sha’48] .

D’après ces études et travaux de recherche nous pouvons confirmer que la modélisation d’une de ces propriétés biologiques des neurones, comme la métaplasticité , pourra participer à améliorer l’apprentissage et la performance des RNAs, sachant que cette propriété est étroitement liée à l’apprentissage dans les réseaux de neurones biologiques.

Table des matières

Introduction Générale
1. Contexte général
2. Position du problème
3. Motivation et contribution de nos travaux
4. Organisation de la thèse
Chapitre 1 :Etat de l’art
1. Introduction
2. Etat de l’art
3. Conclusion
Chapitre 2 : Apprentissage Naturel et Métaplasticité
1. Introduction
2. Mémoire et Apprentissage
2.1. Principes de l’apprentissage naturel
2.2. Notions de mémoire
2.2.1. Mémoires à court terme
a) Mémoire sensorielle
b) Mémoire de travail
2.2.2 Mémoires à long terme
a) Mémoire déclarative
– Mémoire épisodique
– Mémoire sémantique
b) Mémoire non-déclarative
2.2.3 Passage de la mémoire à court terme à la mémoire à long terme
3. Réseaux de Neurones et Principes de la Plasticité
3.1. Plasticité des réseaux de neurones biologiques
3.2. La Transmission Neuronale
a) Principe
b) Intérêt des synapses
4. La Plasticité synaptique
4.1. Historique de la plasticité synaptique
4.2. Généralités sur la plasticité synaptique
4.3. La plasticité synaptique : substrat cellulaire de la mémoire
5. La Potentialisation à Long Terme (PLT)
5.1. Principe de la PLT
5.2. Processus de la PLT
6. La Depression à Long Terme (DLT)
6.1. Principe de la DLT
6.2. Mécanismes d’induction
7. Les types de la plasticité à long terme
7.1. PLT et DLT homosynaptiques
7.2. P LT et DLT associatives
8. Métaplasticité
8.1. Concept de la Métaplasticité
8.2. Métaplasticité hétérosynaptique
8.3. Plasticité de la plasticité synaptique
9. Conclusion
Chapitre 3 : Apprentissage Artificiel et Métaplasticité Artificielle
I. Apprentissage Artificiel des réseaux de neurones
1. Introduction
2. Le neurone artificiel
3. Apprentissage
4. l’Algorithme de RétroPropagation
II. Métaplasticité Artificielle
1. Introduction
2.La Métaplasticité et la théorie d’information de Shannon
3.Algorithme de rétropropagation et métaplasticité artificielle
4.Implémentation du MAPMC dans la phase d’apprentissage du PMC
5. Description de l’algorithme MAPMC
6.Conclusion
Chapitre 4 Sélection de variables
1. Introduction
2 .Extraction de caractéristiques
2.1 Méthodes linéaires
2.1.1 Analyse en Composantes Principales
2.1.2 AC Analyse des correspondances simples
2.1.3 ACM l’analyse des correspondances multiples
2.1.4 Analyse Linéaire Discriminante
2.1.5 Positionnement Multi-Dimensionnel
2.2. Méthodes non-linéaires
2.2.1 Isomap
2.2.2 Plongement localement linéaire
3 .Sélection de caractéristiques
3.1 Définition de la sélection
3.2 Processus général de la sélection de caractéristiques
3.2.1 La première étape
3.2.2 Procédure de recherche
3.2.3 Méthode d’évaluation
3.2.4 Critère d’arrêt
3.3 Présentation de quelques méthodes de sélection
3.3.1 Méthode Max-relevance, Min-Redundancy (mRMR)
3.3.2 Méthode FOCUS
3.3.3 Méthode Relief
3.3.4 Méthodes LVW et LVF
3.3.5 Méthodes SFS et SBS
3.3.6 Méthode Branch and Bound
3.3.7 Les algorithmes génétiques
3.3.4 Méthode SAC
4. Conclusion
Chapitre 5 :Résultats Expérimentaux et discussions
I. Introduction
II. 1ère expérimentation : Classification des arythmies cardiaques
1. Introduction
2. Préparation de la base de données
2.1 Présentation du modèle de classification neuronale
2.2 Description de la base de données MIT-BIH
2.3 Sélection des descripteurs d’un cycle cardiaque
2.3.1 Introduction
2.3.2 Présentation des différents descripteurs
2.3.3 Sélection de la base d’exemples
3. Analyse de la base de données
3.1 Représentation boîte à moustaches ou diagramme en boîte
3.2. Représentation tridimensionnelle
4. Résultats
4.1 Dimensionnement du classifieur neuronal et choix des paramètres
4.2 Classification neuronale en utilisant deux fonctions d’apprentissage différentes
4.2.1 Apprentissage et test du classifieur PMC1
4.2.2 Apprentissage et test du classifieur PMC2
4.3 Sélection de l’architecture du classifieur MAPMC
4.4 Résultats du classifieur optimisé MAPMC
5. Discussion
6. Classification par MAPMC et Sélection de variables
6.1. Résultats de la classification avec sélection de variables
7. Conclusions
III. 2ème expérimentation : Classification du cancer du sein
1. Introduction
2. Description de la base de données du cancer du sein(WBCD)
3. Sélection de l’architecture du classifieur neuronal
4. Evaluation du classifieur optimisé MAPMC
4.1. Critères des performances
a) Matrice de confusion
b) Résultats de la courbe ROC
5. Comparaison avec l’état de l’art
6. Classification par MAPMC et Sélection de variables
7. Conclusion
Conclusion Générale