Apprentissage Artificiel des réseaux de neurones
L’apprentissage naturel implique des modifications physiques des connexions entre neurones. Les réseaux de neurones biologiques réalisent facilement un certain nombre d’applications telles que la reconnaissance de formes, le traitement du signal, l’apprentissage par l’exemple, la mémorisation, la généralisation. Ces applications sont pourtant, malgré tous les efforts déployés en algorithmique et en intelligence artificielle, à la limite des possibilités actuelles. C’est à partir de l’hypothèse que le comportement intelligent émerge de la structure et du comportement des éléments de base du cerveau que les réseaux de neurones artificiels se sont développés. Les réseaux de neurones artificiels sont des modèles, à ce titre ils peuvent être décrits par leurs composants, leurs variables descriptives et les interactions des composants.
Apprentissage
L’apprentissage est vraisemblablement la propriété la plus intéressante des réseaux neuronaux. Elle ne concerne cependant pas tous les modèles, mais les plus utilisés.
Définition :
L’apprentissage est une phase du développement d’un réseau de neurones durant laquelle le comportement du réseau est modifié jusqu’à l’obtention du comportement désiré. L’apprentissage neuronal fait appel à des exemples de comportement.
Apparus en 1985, les réseaux multicouches sont aujourd’hui les modèles les plus employés. Plusieurs couches de traitement leurs permettent de réaliser des associations non linéaires entre l’entrée et la sortie. Ils sont ainsi capables de résoudre le cas du « ou exclusif » [Ros’58]. On sait depuis les années soixante que les possibilités de traitement des réseaux multicouches sont supérieures à celle du Perceptron, cependant l’algorithme d’apprentissage manquait. Pour la couche de sortie, nous pouvons appliquer l’apprentissage du Perceptron, mais comment modifier les poids pour les connexions qui ne sont pas en relation avec un neurone de sortie ? Le problème est ramené à l’obtention d’une estimation de la valeur désirée pour chaque neurone de la couche cachée. La rétropropagation de gradient est une solution à ce problème. Cet algorithme a été proposé indépendamment par trois équipes en 1985, dont Y. le Cun[Cun’85]. Des recherches bibliographiques ont montré qu’il s’agit en fait d’une redécouverte. Le principe utilisé par la rétropropagation (« backpropagation » en anglais) de gradient est la minimisation d’une fonction dépendante de l’erreur. Il s’agit d’une méthode générale, largement employée dans d’autres domaines tels que la physique. Une perception intuitive de cet algorithme consiste à considérer l’apprentissage comme la recherche sur la surface de coût de la position du coût minimal. A chaque configuration de poids correspond un coût. Le gradient est une estimation locale de la pente de la surface. La minimisation du gradient permet de parcourir cette surface orthogonalement aux courbes de niveau d’un pas fixé. Les problèmes rencontrés durant l’apprentissage résultent des zones très plates et des minima locaux. L’algorithme de la rétropropagation de gradient, bien que très simple à Implémenter , nécessite un certain savoirfaire pour une utilisation efficace. En effet, la convergence de l’algorithme n’est pas prouvée et de multiples variables sont à ajuster précisément en fonction du problème traité. Parmi ces variables à fixer, citons par exemple : les paramètres apparaissant dans les différentes équations (gain de la procédure de gradient (μ), pente de la fonction sigmoïde , la sélection des exemples pour l’apprentissage (X(t) ;Y(t))et le test , l’ordre de présentation et les distributions relatives des exemples dans la base d’apprentissage, le choix du codage des informations en entrée et en sortie, la structure du réseau (présence éventuelle de connexions directes de la couche d’entrée sur la couche de sortie pour traiter à ce niveau la partie linéaire du problème, limitation pratique du nombre de couches, taille de la couche cachée), la configuration initiale des poids, le nombre d’itérations d’apprentissage, ….
Métaplasticité Artificielle
Dans cette section nous allons appliquer le concept de métaplasticité sur un perceptron multicouches MAPMC et nous allons décrire la base mathématique derrière cette théorie et la relation existante entre la métaplasticité et la théorie de l’information de Shannon. L’algorithme de métaplasticité sera implémenté durant la phase d’apprentissage du perceptron multi couches suivant la rétropropagation du gradient. Rappelons que la métaplasticité est définie comme l’induction de modifications synaptiques, qui dépend de l’activité synaptique précédente. Elle correspond aux variations des niveaux de dépolarisation postsynaptique ,qui induisent les changements synaptiques.ces variations facilitent la potentialisation synaptique et inhibent la dépression synaptique dans les synapses déprimées. Le renforcement de l’efficacité synaptique est appelée LTP et la diminution est appelée LTD.
La Métaplasticité et la théorie d’information de Shannon
Dans le domaine des RNAs ,Hebb a postulé en 1949 que, durant la phase d’apprentissage , les connexions synaptiques des neurones biologiques sont renforcées en raison de la corrélation de l’activité présynaptique et postsynaptique des neurones.[Heb’49].
La plasticité synaptique des réseaux de neurones biologiques a été modélisée dans plusieurs réseaux de neurones comme un changement des valeurs des poids (forces synaptiques) des connexions des neurones artificiels ou des nœuds. Les poids sont les paramètres qui jouent le rôle le plus important dans l’apprentissage et la performance des RNAs. Des recherches récentes en neurosciences ont montré que ce paradigme classique peut être amélioré.par exemple, des propriétés biologiques ont été découvertes, elles ont une relation directe avec les poids, telle que la métaplasticité. Ces procédés biologiques sont cruciaux pour le développement de nouvelles architectures pour les réseaux de neurones. Autres mécanismes biologiques particuliers ont été cités dans la littérature, comme la synchronisation entre les neurones, permettant l’identification du neurone qui a la plus forte activation, et le comportement dual (haute/basse fréquence) de certains neurones biologiques peut être utilisé pour améliorer la performance des réseaux de neurones artificiels( [Mar et al’00] ,[Nev et al’08]).
En 2007, Kinto et al [Kin et al’07]ont appliqué la plasticité synaptique et la plasticité intrinsèque sur un RNA pour identifier la direction du mouvement d’un objet .
La plasticité intrinsèque est caractérisée par deux fonctions particulières: la première est d’assurer l’homéostasie de l’excitabilité intrinsèque du neurone, ce qui veut dire que le neurone s’adapte aux moindres changements de l’excitation pour toujours produire la même réponse. Notamment lorsque la fréquence d’entrée augmente progressivement, l’excitabilité du neurone baisse de manière à garder la même fréquence de sortie.et la deuxième fonction est qu’Elle permet sous certaines conditions de potentialiser l’excitabilité du neurone, par exemple après une série de potentiels d’actions à haute fréquence sur une faible durée, le neurone augmente sa fréquence de sortie en augmentant l’excitabilité.
Monteiro et al [Mon et al’08] ont modélisé avec succès un réseau de neurones pour simuler la maladie d’Alzheimer , en se basant sur la plasticité intrinsèque( la plasticité intrinsèque est liée directement avec la métaplasticité ).Dans son travail Monteiro a renforcé l’hypothèse selon laquelle la dérégulation du calcium est liée à la maladie d’Alzheimer. Actuellement plusieurs modèles de métaplasticité ont été proposés, mais le plus efficace du point de vue de l’apprentissage et la performance est celui qui utilise la théorie d’information de Shannon [Sha’48].sachant que la théorie d’information de Shannon vise à quantifier et qualifier la notion de contenu en information présent dans un ensemble de données. C’est une théorie probabiliste permettant de quantifier le contenu moyen en information d’un ensemble de données, dont le codage satisfait une distribution statistique précise. Ce domaine trouve son origine scientifique avec Claude Shannon qui en est le père fondateur avec son article « A Mathematical Theory of Communications » publié en 1948.[Sha’48] .
D’après ces études et travaux de recherche nous pouvons confirmer que la modélisation d’une de ces propriétés biologiques des neurones, comme la métaplasticité , pourra participer à améliorer l’apprentissage et la performance des RNAs, sachant que cette propriété est étroitement liée à l’apprentissage dans les réseaux de neurones biologiques.
Introduction Générale |