Les apprentissages motivés à l’addiction

La dopamine

Parmi les substrats moléculaires des apprentissages motivés par la récompense, la dopamine (DA) joue un rôle majeur. Cette molécule neuromodulatrice, libérée par diffusion volumique dans le cerveau, régule de nombreux comportements tels que l’attention et la mémoire de travail, la prise de décision, le contrôle de la motricité. Des dysfonctionnements du système dopaminergique ont été mis en cause dans différentes pathologies incluant entre autres la maladie de Parkinson, la schizophrénie ou encore le syndrome de Gilles de la Tourette (Nieoullon, 2002).
L’innervation dopaminergique du cerveau émane de noyaux regroupés en différents systèmes fonctionnels dans le mésencéphale, le diencéphale (hypothalamus) ainsi que le tubercule olfactif et la rétine. Le système dopaminergique mésencéphalique est principalement impliqué dans la régulation des fonctions cognitives et motrices. Dans cette région, les corps cellulaires dopaminergiques sont regroupés dans la substance noire compacte (SNc), l’aire tegmentale ventrale (ATV) et l’aire rétrorubrale (RR) formant une population d’environ 30000 neurones dopaminergiques dans le cerveau de souris. Bien que restreinte, cette population neuronale projette vers de multiples structures cibles et module ainsi l’activité de nombreuses régions cérébrales. L’anatomie de ces voies de projection reflète la diversité qui existe au sein des neurones dopaminergiques du mésencéphale et il est possible de distinguer ces neurones en fonction de leurs structures cibles. On distingue ainsi trois grandes voies de projection issues du mésencéphale. La voie nigro-striée émane de la SNc et innerve principalement les régions dorsales du striatum. En modulant l’activité des neurones de cette structure, la voie nigrostriée participe au contrôle de la motricité (Graybiel, 1990). La voie méso-limbique est formée des projections issues de l’ATV vers les structures limbiques telles que les régions ventrales du striatum (noyau accumbens, NAcc), le tubercule olfactif ou encore le septum et l’amygdale. Enfin la voie méso-corticale comprend les projections de l’ATV vers les aires corticales telles que le cortex préfrontal, enthorinal ou encore cingulaire (Taber et al., 2012) (Figure 2). La composante limbique des projections de l’ATV est associée à la régulation de la motivation alors que les afférences corticales sont engagées dans la mémoire de travail et l’attention. L’ensemble du réseau ciblé par l’ATV forme le système méso-cortico-limbique, important pour les réponses émotionnelles, la motivation et les processus d’apprentissages récompensés (Kalivas and Nakamura, 1999). L’intégration des informations cortico-limbiques au sein de ce système joue un rôle majeur dans l’attribution des valeurs motivationnelles aux stimuli récompensants et dans les apprentissages motivés par la récompense (Everitt and Wolf, 2002, Kalivas and Volkow, 2005).
Le contrôle de l’activité des neurones dopaminergiques est central pour la régulation des fonctions cérébrales modulées par ce système. Les neurones de l’ATV et de la SNc sont ciblés par de nombreuses afférences et intègrent une grande diversité d’informations en provenance des aires somatosensorielles, motrices et autonomes (Watabe-Uchida et al., 2012). Au-delà de la diversité de leurs projections, les neurones de l’ATV et de la SNc semblent également se distinguer par le type d’afférences qu’ils reçoivent. Il a ainsi été montré que les neurones dopaminergiques de la SNc reçoivent des afférences excitatrice majeure des cortex moteur et somotosensoriel ainsi que du noyau sous-thalamique alors que les neurones de la VTA reçoivent majoritairement des afférences provenant de l’hypothalamus latéral (WatabeUchida et al., 2012). Une étude récente suggère cependant que les neurones dopaminergiques du mésencéphale se distinguent, en fait, principalement par leurs régions de projections et reçoivent des afférences très similaires (Menegas et al., 2015). D’après cette étude, une seule population neuronale se distinguerait clairement par sa connectivité, il s’agit d’une souspopulation de neurones dopaminergiques projetant vers la région postérieure du striatum. Ces neurones se démarquent par une très faible innervation en provenance du striatum ventral au profit d’une plus forte innervation par le globus pallidus, le noyau sous-thalamique et la zona incerta. Il semble également exister une diversité de connectivité au sein même de l’ATV où les neurones qui projettent vers les régions latérales du NAcc reçoivent une innervation préférentielle du noyau tegmental latéro-dorsal alors que les neurones projetant vers le cortex préfrontal médian reçoivent une innervation majoritaire de l’habenula (Lammel et al., 2012).
Cette étude montre que l’activation des afférences en provenance du noyau tegmental latérodorsal est spécifique des comportements de récompense alors que les afférences provenant de l’habenula sont associées à des comportements d’aversion. Ces différences de connectivité pourraient ainsi définir des populations neurones engagés spécifiquement dans certaines composantes des comportements motivés suggérant qu’il existe des circuits spécifiques de chacune de ces signatures motivationnelles au sein de l’ATV (Lammel et al., 2012).

Dopamine et apprentissages motivés

De nombreuses études ont montré que les récompenses naturelles et artificielles exercent leur effet sur le comportement en augmentant la concentration en DA dans le NAcc (Wise and Bozarth, 1987, Di Chiara and Imperato, 1988). La DA ne semble pas directement responsable de la sensation de plaisir associée aux récompenses puisqu’il est possible d’induire une préférence hédonique dans des modèles animaux d’inhibition pharmacologique ou génétique de la libération de DA (Berridge and Robinson, 1998, Cannon and Palmiter, 2003, Robinson et al., 2005). Il apparaît cependant que la DA occupe une place centrale dans les apprentissages motivés par la récompense où sa fonction s’est, en effet, avérée plus complexe qu’un simple signal de récompense (Schultz et al., 1997, Schultz, 2006). Les travaux de Schultz et ses collaborateurs montrent que les neurones dopaminergiques sont activés en réponse à une récompense inattendue mais leur réponse se modifie au fur et à mesure que le singe apprend à reconnaître le signal qui prédit la récompense. L’activation des neurones par la récompense elle-même diminue alors au profit d’une augmentation de leur activité lors de la présentation d’un stimulus associé à la récompense. La réponse des neurones est augmentée dans le cas d’une récompense plus importante qu’attendue et elle est, à l’inverse, diminuée en cas d’absence de la récompense attendue. Ces données ont conduit à l’hypothèse selon laquelle la libération de DA coderait pour une erreur de prédiction de la récompense qui correspond à la différence entre la récompense reçue et la récompense attendue. La libération de DA serait ainsi nécessaire pour l’attribution de valeurs motivationnelles aux récompenses et aux indices qui leur sont associés et agirait comme un signal d’apprentissage facilitant la consolidation de leur mémorisation. Dans ce contexte, la DA permet de relier les propriétés agréables d’une récompense avec la motivation à l’obtenir et joue ainsi un rôle central dans la formation des associations qui sous-tendent les apprentissages motivés par la récompense (Berridge and Robinson, 1998).
L’anatomie des projections dopaminergiques au sein des systèmes de récompense conduit à une libération large et diffuse de DA à partir d’un petit nombre de noyaux dopaminergiques.
Cette architecture caractéristique des systèmes neuromodulateurs confère à la DA la possibilité de coordonner l’activité des différentes structures cérébrales des systèmes de récompense. La DA modulerait ainsi la valeur motivationnelle des récompenses en interagissant avec des circuits qui encodent des informations sensorielles et motrices associées à ces récompenses. Au sein des différentes structures des circuits de récompense, la modulation de la transmission glutamatergique, par le système dopaminergique, joue un rôle majeur dans les mécanismes de plasticité neuronale qui sous-tendent l’acquisition des apprentissages motivés par la récompense (Berke and Hyman, 2000, Reynolds and Wickens, 2002, Kalivas et al., 2006).

L’addiction, une forme d’apprentissage pathologique

De nombreuses substances psychoactives naturelles ou artificielles peuvent faire l’objet d’un usage répété du fait notamment des sensations positives que procure leur consommation. Cependant, chez des individus vulnérables, l’usage répété de ces substances peut conduire à la mise en place d’un état pathologique, l’addiction, caractérisé par une perte de contrôle de la consommation de la substance malgré de nombreuses conséquences néfastes dans la vie de l’individu. Les comportements compulsifs et centrés sur la recherche et la consommation de la drogue, caractéristiques de cette maladie, sont le reflet d’une forme de motivation extrême et pathologique à obtenir une substance ayant acquis une valeur hédonique anormalement élevée. L’addiction apparaît ainsi comme une forme d’apprentissage pathologique résultant d’un détournement des processus neuronaux normalement impliqués dans les comportements motivés et la mise en place des apprentissages liés à la récompense.

Définition de l’addiction

L’addiction est un état pathologique qui se caractérise par la recherche et la prise compulsives de drogue, l’incapacité à contrôler la dose absorbée et l’émergence d’un état émotionnel négatif (anxiété, irritabilité) lorsque l’accès à la drogue est limité ou impossible (Koob, 2006).
D’un point de vue clinique, la consommation de drogue dite récréative, qui est occasionnelle et contrôlée, se distingue de l’addiction qui est, elle, associée à une escalade incontrôlée de la consommation et une recherche chronique et compulsive de la substance. L’addiction se développe chez certains individus qui ont initialement consommé la drogue dans un cadre festif dans le but de se procurer des sensations plaisantes. Chez ces individus vulnérables, l’exposition répétée aux drogues induit des adaptations neuronales qui conduisent à la mise en place de la tolérance et de la dépendance responsables de l’escalade de la consommation ainsi que de la sensation de manque en l’absence de drogue.
On peut ainsi considérer que les drogues, initialement consommées en vue d’obtenir une sensation positive, sont ensuite consommées, dans le cas de l’addiction, pour échapper aux sensations négatives causées par le manque (Koob and Le Moal, 1997, Robinson and Berridge, 2003). Dans l’addiction, la drogue acquiert une valeur positive anormalement élevée et sa recherche, ainsi que sa consommation, prennent le pas sur de nombreux objectifs de la vie de l’individu. L’addiction se définit ainsi comme une prise excessive et compulsive de drogue en dépit des souffrances physiques, psychiques et sociales qu’elle entraîne chez l’individu (Deroche-Gamonet et al., 2004). Si certains sujets parviennent à contrôler ou stopper leur consommation, dans la majorité des cas, l’addiction est une pathologie chronique présentant un risque élevé de rechute. Ce risque persiste extrêmement longtemps après l’arrêt de la drogue, parfois même après que toute sensation de manque a disparu (McLellan et al., 2000). Ceci pose de nombreuses questions quant à la persistance des adaptations cérébrales pathologiques induites par les drogues. L’identification des mécanismes neuronaux impliqués dans des changements comportementaux durables est une étape clé dans la compréhension de la physiopathologie de l’addiction et de la rechute. Les enjeux majeurs de la recherche en neurobiologie dans le domaine de l’addiction consistent à élucider les mécanismes cellulaires et moléculaires qui sous-tendent la transition d’un usage récréatif vers une prise compulsive ainsi que les substrats neuronaux engagés à long terme dans les rechutes chroniques.

Modélisation de l’addiction chez le rongeur

La modélisation de l’addiction chez l’animal est un outil primordial pour l’investigation des processus neurobiologiques impliqués dans cet état pathologique. Cette approche requiert de pouvoir reproduire les altérations comportementales caractéristiques de l’addiction chez l’animal de laboratoire. Si aucun modèle ne récapitule intégralement la pathologie humaine, chacun d’entre eux permet d’approcher un ou plusieurs éléments du processus d’addiction.
L’établissement d’un apprentissage associatif entre des éléments du contexte, la disponibilité de la drogue et la réponse comportementale requise pour y accéder est un élément clé dans la mise en place de l’addiction. Ainsi, une base commune à ces modèles est leur capacité à reproduire le renforcement qu’exerce la drogue sur certaines réponses comportementales favorisant l’accès à cette dernière. Un autre intérêt majeur des modèles animaux est qu’ils offrent la possibilité d’étudier la transition d’un état naïf vers la consommation compulsive au contraire des études cliniques qui impliquent des individus déjà engagés dans la pathologie (Robbins and Everitt, 2002)
Le modèle d’auto-administration est un test de conditionnement opérant qui utilise les propriétés motivationnelles des drogues comme renforcement positif. Les récompenses naturelles comme les drogues ont la propriété de favoriser les réponses comportementales qui permettent leur obtention du fait notamment de la valeur positive qui leur est associée (Cardinal and Everitt, 2004). Ce protocole modélise la capacité à mémoriser et reproduire une séquence motrice favorisée par l’association entre la tâche comportementale et sa conséquence hédonique. Dans ce protocole opérant, l’animal déclenche volontairement l’administration de la drogue en réalisant une tâche comportementale précise telle qu’une pression sur un levier ou le positionnement de son museau dans un trou. La drogue est délivrée soit par voie intraveineuse au travers d’un cathéter soit par voie intra-crâniale par infusion dans une canule. Les drogues que les animaux s’auto-administrent correspondent à celles qui ont un haut potentiel addictif chez l’Homme et l’auto-administration est ainsi considérée comme un modèle prédictif du potentiel d’abus d’une drogue (Collins et al., 1984a). Ce test permet d’analyser différentes phases du processus d’addiction, des plus précoces avec la transition d’un état naïf vers une consommation compulsive, jusqu’aux altérations comportementales à très long terme observées dans la rechute. Dans ce test, l’évaluation de la réponse chez des rats a permis de modéliser la plupart des critères cliniques qui définissent l’addiction. Les sujets présentent une difficulté à limiter la consommation de la drogue et ne parviennent pas à stopper le comportement conditionné en l’absence de drogue.
L’augmentation progressive de l’effort requis pour obtenir la drogue permet de mesurer la motivation de l’animal à consommer la substance. La poursuite de la consommation en présence d’un stimulus douloureux associé à la drogue reflète l’incapacité à stopper la drogue en dépit de ses conséquences néfastes. Enfin, la propension à la rechute est évaluée par la réexposition à des indices contextuels associés à la drogue après une longue période d’abstinence. Ce protocole opérant dans lequel l’animal s’administre lui-même la drogue permet également de modéliser la variabilité interindividuelle en termes de vulnérabilité et de mesurer la proportion de sujets qui basculent vers un comportement addictif (DerocheGamonet et al., 2004).