La confiance dans la décision
Pour apprendre dans quelle mesure l’association entre une action ou un événement passif et une récompense ou une punition est pertinente (dernières étapes du modèle de Rangel vu précédemment, voir Étapes de la motivation), les organismes disposent de plusieurs stratégies.
Dans le cas du système des habitudes et du système pavlovien (voir Différents systèmes d’évaluation), tout évènement spatio-temporellement concomitant à une récompense peut y être associé. L’association, c’est-à-dire l’apprentissage, sera principalement basée sur la répétition, surtout dans le cas des récompenses, et sur la saillance, notamment dans le cas des punitions où une seule association peut suffire à créer une association (Izquierdo et al., 2016), comme dans la peur par conditionnement ou dans les expériences de stress post-traumatique. Pour le système orienté vers des buts, l’apprentissage va être modulé grâce à une composante additionnelle. Cette composante permet aux individus d’estimer dans quelle mesure les actions qu’ils ont effectué sont bien les plus efficaces pour obtenir des événements positifs et éviter des situations aversives : la confiance. La confiance est peut-être aussi engagée dans les deux autres systèmes motivationnels, mais cela reste à prouver. De plus, lorsque les individus prennent une décision donnée, il semblerait qu’ils agissent non pas seulement en vue de maximiser leurs gains, mais aussi de maximiser leur confiance dans leur décision. Ce phénomène se reflète dans les modèles dynamiques de prise de décision que nous avons vus précédemment (voir Choix binaires et modèles) où la décision n’est prise qu’une fois qu’un seuil de confiance dans la décision est atteint. Dans cette partie, nous allons ainsi nous intéresser à cette composante majeure du système motivationnel orienté vers des buts qui permet potentiellement de définir un seuil de décision.
La confiance
Nous avons déjà étudié comment les individus et leurs cerveaux estiment l’incertitude, autant celle liée au risque que celle liée à l’ambigüité (voir L’incertitude). La confiance cependant se distingue de l’estimation de l’incertitude. En effet, l’incertitude est liée uniquement à l’estimation des probabilités dans l’environnement externe, alors que la confiance est un processus dit « métacognitif », c’est-à-dire un jugement sur sa propre réflexion. La définition que nous allons adopter ici pour la confiance est de la considérer comme l’estimation subjective de la probabilité d’avoir donné une réponse correcte (Pouget et al., 2016). Plusieurs définitions et sous-catégories existent pour la confiance, mais nous n’allons pas nous aventurer à les développer ici pour des raisons de concision et afin de nous concentrer sur la confiance dans la décision qui vient pendant ou après la décision. Le lecteur est invité à consulter (Bioud, 2019; Meyniel et al., 2015) pour une vision plus détaillée. Comme suggéré dans l’introduction de cette partie, il semblerait que la confiance soit utilisée comme une métrique permettant de savoir dans quelle mesure le comportement doit ou non être renforcé ou au contraire modifié pour l’avenir. Il a été démontré par exemple que dans le cas d’un choix où la confiance finale dans la décision était faible, les individus avaient plus de chance de changer d’avis la seconde fois où le choix était présenté (Folke et al., 2016). Dans la même logique, il a été montré récemment que les individus adaptaient leur comportement en fonction de leur niveau de confiance dans une tâche impliquant de l’exploration : quand leur confiance dans le fait que la stratégie d’exploitation était la meilleure était faible, ils se remettaient à explorer l’environnement (Boldt et al., 2019). Il a aussi été montré que, quand la confiance dans un choix donné est faible, les individus ont tendance à adapter leur ratio vitesse/précision lors des essais suivants afin d’améliorer leur précision, c’est-à-dire la confiance espérée, quitte à réduire leur vitesse (Desender et al., 2019). Tous ces résultats confirment bien que la confiance joue un rôle dans l’apprentissage et dans le comportement en aidant l’individu à adapter son comportement. Le comportement futur peut être adapté, quand la confiance est faible, soit en changeant de stratégie soit en la modifiant lorsque la confiance est faible.
Les individus, en plus de chercher à optimiser la valeur obtenue lors de leurs actions et de leurs choix, semblent aussi chercher à maximiser leur confiance dans leurs décisions. Ce phénomène se reflète dans les modèles dynamiques de prise de décision que nous avons vus précédemment (voir Choix binaires et modèles) où la décision n’est prise qu’une fois qu’un seuil de confiance dans la décision est atteint. Il est généralement admis que les individus cherchent à maximiser un compromis vitesse/précision dans leurs décisions. Moins ils sont sûrs de la bonne décision à prendre, plus ils vont passer de temps à se décider et réciproquement.
Cela explique pourquoi des évaluations de la confiance sont régulièrement négativement corrélées avec les temps de réactions dans la décision (de Gardelle et al., 2016; Lebreton et al., 2015; Rahnev et al., 2020; Weidemann and Kahana, 2016). Il a récemment été proposé par des membres de notre équipe que les individus chercheraient à optimiser le ratio confiance/effort en essayant de minimiser l’effort mental effectué lors d’une prise de décision par rapport au gain de confiance dans la décision qu’ils espèrent obtenir du fait de cet effort (Lee and Daunizeau, 2019). Les liens entre confiance et temps de réaction ne sont cependant pas unilatéraux puisqu’il semblerait, d’après une étude chez 6 participants, que la confiance subjective consiste en une estimation du temps mis à répondre, indépendamment de la performance (Kiani et al., 2014). Cette proposition reste néanmoins à confirmer dans des groupes de participants plus importants pour évaluer dans quelle mesure biaiser le temps de réponse sans changer les autres variables permet en effet de faire varier l’estimation subjective de confiance.
En résumé, la confiance dans la décision pourrait jouer aussi bien sur les décisions en cours en vue de favoriser les ajustements permettant de la maximiser
Y a-t-il une zone cérébrale de la confiance ?
Nous avons déjà étudié les aires cérébrales liées à l’estimation subjective de l’incertitude dans l’environnement (voir Les bases neurales de l’incertitude). Le dmPFC est une zone clé dans ce processus. Pour l’estimation de la confiance, par contre, on retrouve le réseau des valeurs avec, notamment, le vmPFC, en corrélation avec la confiance dans des tâches de choix binaires basées sur la valeur (De Martino et al., 2013; Shapiro and Grafton, 2020), la mémoire (Chua et al., 2006; Kuchinke et al., 2013; Moritz et al., 2006) ou sur la perception (Fleming et al., 2018; Gherman and Philiastides, 2018; Rolls et al., 2010) et aussi dans des tâches d’évaluation où il n’y a pas de choix à effectuer (Lebreton et al., 2015). Une première conclusion serait donc de dire que le vmPFC encode non seulement la valeur subjective dans une dimension commune, peu importe ce qui est considéré (voir Bases neurales de la valeur), mais qu’il en fait aussi de même pour la confiance qu’il encoderait indépendamment du type de tâche effectuée. L’idée d’une échelle commune pour la confiance, indépendamment de la tâche considérée, semble de plus confirmée au niveau comportemental (de Gardelle and Mamassian, 2014; de Gardelle et al., 2016). Une méta-analyse a d’ailleurs identifié le vmPFC comme corrélant avec la confiance à travers plusieurs études regroupant différents types de tâches (Vaccaro and Fleming, 2018).
Enfin, plusieurs études ont identifié des clusters très différents en corrélation avec la confiance et, ironiquement, il s’agit de travaux venant parfois des mêmes équipes que celles ayant identifié le vmPFC en corrélation avec la confiance. Par exemple, dans le cas de choix basés sur la perception, certains auteurs ont identifié un cluster légèrement plus dorsal et postérieur que le vmPFC en corrélation avec la confiance rapportée par les sujets. Ce cluster serait situé dans le cortex cingulaire antérieur périgénual, c’est-à-dire juste devant le genou du corps calleux (Bang and Fleming, 2018; Gherman and Philiastides, 2018). D’autres ont identifié d’autres zones sans que le vmPFC soit impliqué. Par exemple, plusieurs études en lien avec la mémoire identifient un cluster dans le cortex préfrontal ventrolatéral (Chua et al., 2009; Qin et al., 2011), ou encore une modulation de l’activité de l’hippocampe ou du cortex pariétal avec la confiance (Hayes et al., 2011), sans aucune activation du vmPFC détectée. Quelques études ont aussi identifié un autre composant du réseau des valeurs, le striatum ventral, en lien avec la confiance, mais pas le vmPFC (Hebart et al., 2016; Molenberghs et al., 2016). Enfin, une métaanalyse pointe vers le fait que le cluster associé à la confiance serait plus dorsal que le vmPFC sans pour autant être collé au genou du corps calleux comme suggéré précédemment (White et al., 2014). Ces résultats ont aussi été confirmés par une étude qui montre que, dans une tâche d’évaluation, on pouvait identifier un gradient dans le cortex préfrontal médian avec un encodage plus marqué pour la valeur subjective au niveau ventral et l’inverse pour la confiance (voir Figure 22 et (De Martino et al., 2017)). Ceci est d’ailleurs cohérent avec le résultat de plusieurs études qui montrent que deux clusters, un dans le vmPFC et un autre plus dorsal, parfois regroupés dans un seul grand cluster, sont régulièrement associés avec la confiance (Kuchinke et al., 2013; Lebreton et al., 2015; Moritz et al., 2006; Vaccaro and Fleming, 2018).
Les coûts de la prise de décision
La prise de décision est coûteuse
Le système pavlovien et le système des habitudes ne « coûtent rien ». Ils sont perçus comme opérant de manière automatique et ne demandant, de ce fait, pas d’effort. Ils n’impliquent d’ailleurs pas vraiment de rapport bénéfices/coûts mais plutôt une réponse automatisée en réponse à un set de stimuli donné. Ceci est d’ailleurs cohérent avec le fait que ces systèmes ne semblent pas s’accompagner de mesure de confiance dans leur fonctionnement. Ceci a mené au développement de plusieurs théories qui parlent de l’utilisation d’une stratégie « sans modèle du monde » (model-free) et avec un coût neural très faible qui s’opposerait à une stratégie « basée sur un modèle du monde » (model-based) qui implique des computations neurales avec un coût (Daw et al., 2005). La stratégie sans modèle du monde est ainsi partiellement équivalente à l’utilisation du système des habitudes.
A l’inverse, lorsque les individus emploient le système orienté vers un but, ils cherchent à maximiser leur niveau de confiance dans leurs décisions comme nous venons de le voir. Ceci va de pair avec un temps de délibération accru pour que le niveau de confiance soit plus élevé, ainsi qu’avec l’allocation de ressources neurales accrue. Cela implique qu’augmenter le niveau de la confiance dans une décision donnée va aussi de pair avec un coût. L’emploi du système orienté vers un but s’accompagne ainsi d’un coût subjectif. Ce coût se reflète d’ailleurs partiellement dans des modèles comme le modèle d’urgence (urgency gating model) de Paul Cisek qui partent du principe que le cerveau lancerait une sorte de minuteur une fois qu’il démarre une tâche (ou l’essai d’une tâche en laboratoire). Ce minuteur indiquerait une « urgence à répondre » qui augmenterait linéairement en fonction du temps « dépensé » dans une décision donnée. Indépendamment de la tâche en cours, le cerveau forcerait l’individu à ne pas passer trop de temps sur une tâche particulière en le poussant à répondre même s’il n’a pas confiance dans son choix (Cisek et al., 2009; Ditterich, 2006; Drugowitsch et al., 2012; Thura et al., 2012). D’autres modèles, comme le modèle de drift-diffusion (voir Modèle de diffusion), ont aussi incorporé ce type de signal d’urgence (Milosavljevic et al., 2010). Ces modèles qui incorporent un signal d’urgence ont été partiellement contestés par Hawkins et al., en particulier sur l’idée que les individus ressentiraient systématiquement ce type de signal dans n’importe quelle tâche. Les auteurs proposent en effet que ce type de signal soit spécifique à des tâches où les individus ont été beaucoup entraînés et que généralement la présence ou non de ce type de signal d’urgence dépende de la tâche en cours (Hawkins et al., 2015). De plus, la plupart de ces études sont basées sur des études basées sur une prise de décision perceptuelle et il est dur, pour l’instant, de savoir dans quelle mesure il existe ou non un signal d’urgence dans le cas de la prise de décision basée sur la valeur lorsqu’on utilise le système orienté vers un but.