Un réseau motivant l’action
Nous avons vu que le réseau des valeurs calcule un compromis coûts/bénéfices. Qu’en est-il de l’impact de ce calcul sur le comportement ?
Une facilitation de l’approche ou de l’évitement en réaction à la valeur
La théorie des perspectives développée par Daniel Kahneman et Amos Tversky établit que les individus ont une aversion pour la perte (voir L’économie comportementale). Ils auraient tendance à donner plus de poids aux évènements aversifs qu’aux évènements appétitifs lorsqu’ils prennent une décision (Kahneman, 2012; Kahneman and Tversky, 1984). Ce biais a été identifié comme une aversion à la perte (loss aversion). Il s’exprimerait par le fait que la pente qui transforme les valeurs objective, au moins au niveau monétaire, en valeurs subjectives possède une pente plus importante dans le domaine des pertes que dans le domaine des gains (voir Figure 2). Cependant, dans nos études, nous avons observé au contraire un biais dans le sens inverse. Dans notre première étude,nos participants donnaient légèrement plus de poids à la valeur des récompenses qu’à la valeur des efforts (βR = 1.50 > |βE| = 1.12 ; p.value = 0.002) lorsqu’ils devaient choisir s’ils étaient prêts à exécuter un effort en vue d’une récompense. Cette différence dépend cependant bien évidemment des items que nous avons utilisé dans l’étude et ne peut pas nécessairement se généraliser à tout calcul impliquant un rapport coûts/bénéfices.
Cependant, dans la tâche d’effort physique (voir Ce qui détermine la performance), la performance des participants était légèrement supérieure dans le cas des gains (54.31%) par rapport aux pertes (52.60%). Dans la tâche d’effort mental (voir Ce qui détermine la performance), cette faible différence était encore moins prononcée, mais elle allait aussi dans le même sens. Les participants avaient en effet tendance à avoir une performance équivalente voire légèrement meilleure dans le cas des gains (59.53%) que dans le cas des pertes (58.86%).
Dans ces deux tâches, la performance des participants augmentait linéairement avec les enjeux signés.
De plus, dans presque toutes les tâches de la première étude (voir Figure 26) et aussi dans la troisième étude (voir Figure 37) le temps de délibération était d’autant plus rapide que la valeur subjective signée était élevée. On retrouve d’ailleurs la même tendance au niveau des temps de réaction dans les tâches de la deuxième étude, même si, dans ce cas, les corrélations n’étaient pas significatives (voir Figure 31).
Un réseau qui motive l’action en fonction d’un but
En résumé, le réseau des valeurs calcule la valeur nette d’un compromis bénéfices/coûts en vue de maximiser le taux de récompenses obtenues et de minimiser le taux de punition subies, tout en minimisant l’effort fourni dans ce but. De plus, considérons que le réseau des valeurs permet de faciliter l’exécution d’un effort, physique ou mental, en vue d’un but déterminé après avoir calculé le compromis coûts/bénéfices associé à un but donné et avoir considéré que le but en question en valait la peine. Il paraît alors logique que, dans notre seconde étude incluant une tâche d’effort physique et une tâche d’effort mental et où effectuer un effort plus important était instrumental aussi bien dans le cas des gains que dans le cas des pertes, l’activité du striatum (voir Figure 34 et Figure 35), de même que la performance (voir Figure 33), variait linéairement avec les enjeux monétaires non-signés. Nos études sont simplement de nature corrélationnelle de sorte qu’il est impossible d’en tirer réellement un lien de causalité direct. Il est en effet aussi possible d’interpréter ce lien comme un simple reflet de l’anticipation de la récompense obtenue, ou de la punition évitée, avant même que la performance ait eu lieu.
Cependant, il a déjà été montré que le striatum, et les ganglions de la base plus généralement, jouent un rôle dans la vigueur d’un effort effectué en vue d’un but (Schmidt et al., 2008). Il serait cependant fort intéressant de voir dans quelle mesure l’activité du vmPFC détermine aussi la quantité d’effort qui va être fourni ou si, à l’inverse des ganglions de la base, il ne jouerait qu’un rôle passif en reflétant l’anticipation du plaisir associé à l’obtention d’une récompense ou à l’évitement d’une punition sans avoir de rôle direct dans la rapidité ou l’intensité de l’effort effectué en vue d’un but.
Qu’est-ce que le vmPFC ?
S’il fallait choisir les aires anatomiques à identifier avec les clusters fonctionnels du réseau des valeurs, avec le terme « cortex préfrontal ventromédian » (ventromedial prefrontal cortex ou vmPFC en anglais), je choisirais l’aire 14m et, avec le striatum ventral, je choisirais le noyau accumbens (voir Figure 8). Cependant, il faut noter que, dans le domaine, ces équivalences sont loin d’être consensuelles, en particulier en ce qui concerne le vmPFC. Les chercheurs utilisant le terme de vmPFC l’emploient en général en référence à des activations fonctionnelles plus qu’à une position et une aire anatomique bien définie au niveau du cortex préfrontal. Sous ce terme, on peut ainsi trouver des études qui parlent de la partie périgénuale du cortex cingulaire, c’est-à-dire de l’aire 24 (Levy and Glimcher, 2011; Lopez-Persem et al., 2016) ou encore de la partie subgénuale du cortex cingulaire (Smith et al., 2010a), c’est-à-dire de l’aire 25. Ce manque de cohérence dans la nomenclature pourrait créer des malentendus dans l’interprétation des résultats puisque le même terme, le vmPFC, englobe des populations neurales avec une connectivité et des rôles fonctionnels potentiellement très différents. D’un autre côté, il faut noter que nos résultats ne permettent pas a priori d’identifier le cluster fonctionnel constitué par le vmPFC à une aire anatomique bien définie. En effet, dans notre première étude par exemple, lorsque nous avons observé les corrélats cérébraux de la valeur subjective à travers nos tâches, nous avons aussi bien pu observer un cluster que nous avons nommé vmPFC avec un pic aux coordonnées MNI (-10 ; 48 ; -12) et qui correspond plus ou moins à l’aire 14m, mais aussi un cluster dans la partie périgénuale du cortex cingulaire avec un pic aux coordonnées (-8 ; 38 ; 6) (voir Table 1). Pour ce qui est du striatum, dans notre deuxième étude (voir Figure 34), tout comme dans l’article original de Schmidt et al. (Schmidt et al., 2012), l’aire correspondant aux enjeux paraît légèrement plus dorsale que la localisation où le noyau accumbens est généralement supposé se trouver. Il se pourrait ainsi qu’il s’agisse d’une autre composante du striatum qui soit impliquée dans la transformation des enjeux monétaires en performance, physique ou mentale.
De plus, il a été montré qu’il existe au moins trois patterns anatomiques différents à travers les participants au niveau de cette zone (Chiavaras and Petrides, 2000; Mackey and Petrides, 2014). Plusieurs études montrent d’ailleurs que les clusters d’activation fonctionnels sont plus ou moins décalés entre les participants en fonction du pattern anatomique auxquels ils appartiennent (Li et al., 2015; Lopez-Persem et al., 2018). Mieux prendre en compte la diversité des participants en termes d’architecture cérébrale nécessite certes des pools de participants plus importants que ceux que nous avons réunis dans nos tâches. Cependant, cela permettrait d’améliorer notre compréhension du fonctionnement du cerveau. En particulier, nous pourrions voir quelles sous-parties du cortex préfrontal ventromédian sont réellement impliquées et nécessaires dans l’évaluation de la valeur subjective. Une telle approche permettra à l’avenir aussi de mieux identifier les structures correspondantes chez les modèles animaux, en particulier chez le primate non-humain.
Un avantage de notre approche, que ce soit dans la première ou dans la seconde étude, est que nous avons cherché à identifier les corrélats cérébraux des concepts cognitifs qui nous intéressaient, la valeur subjective, la confiance et l’effort lié à la décision, au sein des mêmes participants au travers de plusieurs tâches. Nos résultats ne pouvaient ainsi pas être biaisés par des différences anatomiques entre les participants associés à chaque tâche puisque les mêmes participants effectuaient toutes les tâches.
Conclusion sur le réseau des valeurs et la valeur nette
Dans ce calcul, le réseau des valeurs est cependant soumis à plusieurs biais qui sont liés à son fonctionnement. Nous avons vu premièrement qu’il pourrait exister un biais pavlovien dans la manière dont ce réseau considère tout stimulus. Le réseau des valeurs va ainsi systématiquement faciliter l’exécution plus rapide d’un effort d’intensité plus importante en réponse à des stimuli appétitifs, même si cela n’est pas instrumental. De plus, tout phénomène faisant varier l’activité basale de ce réseau qui varie avec l’humeur subjective d’un individu, peut impacter l’évaluation qu’il va effectuer d’un stimulus donné. Il a ainsi été montré qu’une activité plus élevée dans le vmPFC, liée à une humeur plus joyeuse, augmenterait la sensibilité à des gains monétaires (Vinckier et al., 2018). De même, il a été montré que des participants à qui on demandait d’évaluer des tableaux étaient impactés, dans leur évaluation, par le fait d’écouter une musique qu’ils jugeaient agréable. Cette modulation passait, là encore, par l’activité d’une des deux composantes principales du réseau des valeurs : le vmPFC (Abitbol et al., 2015). Plus généralement, l’économie comportementale a identifié toute une série de biais comportementaux qui affectent la prise de décision. Nous en avons déjà évoqué certains et nous ne chercherons pas ici à en faire la liste (voir (Kahneman, 2012) pour une liste exhaustive). Ces biais concerneraient principalement le fonctionnement de ce que Daniel Kahneman, reprenant des termes introduits par Keith Stanovich et Richard West en psychologie (Stanovich and West, 2000), appellera le Système 1 (Kahneman, 2012). Daniel Kahneman affirme que cette notion est purement opérationnelle et qu’elle n’est pas ancrée dans l’idée qu’il en existerait des bases neurales25. Il serait cependant intéressant de vérifier dans quelle mesure les biais identifiés par l’économie comportementale sont supportés par le fonctionnement du réseau des valeurs, afin de confronter à nouveau l’étude des bases neurales de la prise de décision et l’économie comportementale. Il a par exemple été montré que le striatum ventral déformait les probabilités de manière similaire aux prédictions de la théorie des perspectives (voir Figure 11) (Hsu et al., 2009). Nos résultats sont cependant en contradiction avec l’une des prédictions de la théorie des perspectives qui suggère que l’activité du réseau des valeurs devrait être biaisée par une aversion à la perte en s’activant plus fortement face à des pertes qu’à des gains équivalents. Nous avons en effet constaté un biais dans le sens inverse puisque l’activité du réseau des valeurs était positivement corrélée avec les enjeux monétaires signés. Quoiqu’il en soit, il paraît clair que non seulement le réseau des valeurs calcule un compromis bénéfices/coûts, mais aussi que ce calcul est sujet à plusieurs biais innés.
Enfin, une fois que ce calcul a été effectué en intégrant la valeur subjective des coûts et des bénéfices associés à l’action ainsi que les biais qui influent sur l’activité de ce réseau, alors ce signal pourrait servir à motiver la performance. Ce que l’on entend par là consiste à allouer plus ou moins de ressources en vue d’atteindre le but qui aura obtenu la valeur nette la plus élevée.
La confiance
Valeur et confiance
L’encodage de la confiance au cours d’une tâche pourrait avoir un intérêt double en termes de survie. Premièrement, encoder la confiance de manière prospective, c’est-à-dire avant de prendre une décision, permet de ne prendre une décision que lorsqu’un certain seuil de confiance est atteint. La confiance, vue comme l’estimation de la probabilité qu’une série d’actions donnée permette d’obtenir une récompense, permettrait de moduler la mise en action, notamment en vue d’éviter d’engager inutilement des ressources, qu’il s’agisse simplement de temps, comme proposé par la théorie du coût d’opportunité, ou de ressources physiologiques si la probabilité de succès de la série d’actions envisagée est très faible. Deuxièmement, encoder 25 « there is no one part of the brain that either of the systems would call home », c’est-à-dire « il n’y a aucune partie du cerveau où ces deux systèmes logeraient », Chapitre I, Thinking, Fast and Slow, Daniel Kahneman (Kahneman, 2012) la confiance de manière rétrospective, c’est-à-dire par rapport à une série d’actions qui a déjà eu lieu, pourrait permettre de moduler le comportement futur de l’individu. Plusieurs études montrent que la confiance subjective à chaque essai pourrait avoir un impact sur les essais suivants, notamment en termes d’allocations de ressources (voir La confiance). Il est d’ailleurs connu depuis plusieurs années que la détection de la commission d’une erreur entraîne un ralentissement de la réponse lors des essais suivants, ainsi qu’une réduction de la proportion d’erreurs lors des essais suivants. Cet effet est connu sous le nom de ralentissement post-erreur (post-error slowing). Dans nos études, nous nous sommes principalement intéressés à la confiance rétrospective, c’est-à-dire la probabilité d’avoir pris la bonne décision, mais sans nécessairement chercher à voir l’impact de celle-ci sur les essais ultérieurs ce qui n’était pas une question centrale de nos études. Il serait intéressant cependant d’étudier dans quelle mesure le niveau de confiance à un essai donné pourrait influencer le traitement des essais suivants dans nos tâches de décision.
Nous venons d’évoquer les biais qui peuvent concerner le fonctionnement du réseau des valeurs (voir Conclusion sur le réseau des valeurs et la valeur nette). Or, il a été montré que la confiance prospective dans la performance augmente linéairement avec la valeur des enjeux signés, indépendamment de la performance (Bioud, 2019; Lebreton et al., 2018). Ce résultat suggère que les mêmes aires cérébrales qui encodent la valeur subjective sont aussi responsables d’encoder la confiance. Lorsque l’une de ces deux variables est impactée, cela pourrait ainsi aussi influencer l’encodage de l’autre variable. Il a d’ailleurs déjà été montré que l’activité du réseau des valeurs était dévaluée par l’incertitude, au moins dans le cas de décisions probabilistes et avant que la décision n’ait lieu (voir Le réseau des valeurs est impacté par l’incertitude). Dans nos résultats, nous avons confirmé, comme beaucoup d’études précédentes dans plusieurs contextes allant de la mémoire, la prise de décision basée sur la valeur ou des informations perceptuelles (Chua et al., 2006; De Martino et al., 2013; Fleming et al., 2018; Gherman and Philiastides, 2018; Lebreton et al., 2015; Lopez-Persem et al., 2020)), que le vmPFC était positivement corrélé à notre mesure de confiance dans notre première étude, comme dans notre troisième étude (voir Figure 27, Figure 38 et Figure 39). Ce résultat pointe vers l’idée que le réseau des valeurs encode à la fois le résultat du compromis coûts/bénéfices et la confiance dans ce calcul. Cela expliquerait pourquoi des enjeux signés plus importants pourraient aussi biaiser l’estimation de la confiance prospective si c’est la même zone qui est en charge de ces deux calculs.