Performance, efficacité, efficience : les critères d’évaluation des Politiques sociales sont-ils Pertinents ?
Qu’est-ce qu’un bon indicateur de mesure de performance ?
Un indicateur permet de mesurer l’écart entre le résultat obtenu et les objectifs poursuivis, pour déterminer si ces derniers sont en voie d’être atteints. Il faut au préalable s’assurer que les indicateurs ont fait l’objet d’une définition explicite et partagée, afin de limiter les erreurs de construction et les interprétations divergentes : pour cela, il est indispensable de positionner la valeur de l’indicateur par rapport à une valeur de référence ou une cible à atteindre (une norme, une moyenne, une prévision, un objectif). Le choix de la référence est déterminant pour le jugement qui sera porté. Il fait partie intégrante de la construction de l’indicateur.
Les qualités d’un bon indicateur de politique sociale
A l’occasion d’un café de la statistique2 consacré à la fiabilité des indicateurs, Jean-René Brunetière3 détaillait les dix qualités d’un bon indicateur. Son intervention ne concernait pas spécifiquement l’évaluation des politiques publiques mais s’y applique parfaitement. Les dix qualités énoncées sont les suivantes :
– clarté (pas d’ambigüité dans la définition),
– pertinence (cohérent avec l’objectif),
– sélectivité (indépendant des phénomènes autres que ceux que l’on veut mesurer),
– fiabilité,
– comparabilité,
– sensibilité (précision ne doit pas être inférieure aux variations que l’on veut observer),
– accessibilité (peut être obtenu à un coût raisonnable),
– pérennité (possible de le suivre dans le temps),
– utilité (liens de causalité entre l’action menée et le résultat de l’indicateur),
– ne pas entraîner des effets contraires à ceux recherchés (l’existence de l’indicateur peut induire des effets pervers).
Anthony Athkinson et ses coauteurs ont énuméré les conditions techniques auxquelles doivent répondre les indicateurs sociaux dans les deux rapports qu’ils ont rédigé pour l’Union Européenne
en 2005 et 2007 et reprises dans les réflexions du comité de protection sociale4 (instance consultative mise en place dans le but de promouvoir la coopération en matière de politiques de protection sociale entre les États membres et la Commission européenne) :
– ciblage pertinent,
– possibilité d’interprétation aisée et acceptée par tous,
– robustesse statistique et fiabilité,
– s’adapter aux interventions politiques sans être manipulables,
– comparable d’un pays à l’autre et comparable dans le temps,
– actualisable en temps adéquat et se prêtant à révision,
– ne générant pas un travail trop lourd en termes de production,
– s’intégrant dans un ensemble d’indicateurs équilibré entre les différentes dimensions,
– cohérents entre eux, chaque dimension ayant un poids proportionné au sein de cet ensemble,
– être le plus transparent et accessible possible aux citoyens.
Ces deux listes apparaissent très complémentaires. De nombreux critères sont communs comme la pertinence, la fiabilité, la pérennité, le mode de production accessible. D’autres critères sont additionnels : Jean-René Brunetière insiste sur l’utilité de l’indicateur (il doit effectivement y avoir un lien de causalité entre l’action menée et le résultat de l’indicateur) et sa sensibilité (l’évolution doit être proportionnée aux changements qu’elle indique), Anthony Athikson insiste quant à lui sur la cohérence de l’ensemble des indicateurs retenus. Il évoque également la souplesse de l’indicateur : il doit être à la fois adaptable, actualisable, révisable. Si les deux auteurs évoquent la clarté, Jean-René Brunetière fait plutôt référence à la clarté de la définition de l’indicateur alors qu’Anthony Athikson insiste plutôt sur son interprétation. Ce dernier précise également qu’il faut que cet indicateur soit partagé : il doit à la fois être accepté par tous et accessible à tous. Jean-René Brunetière relève, par ailleurs, la nécessité de prévenir les risques d’effets pervers (par exemple la focalisation sur le bon résultat de l’indicateur, au détriment d’autres objectifs plus qualitatifs, ou encore une sélection des publics pour améliorer la valeur de l’indicateur). Enfin, Anthony Athkinson met en exergue, de façon très pragmatique, la nécessité de prendre en compte le coût de production des indicateurs.
Si l’indicateur remplit effectivement toutes ces qualités, l’ensemble des utilisateurs le considèreront comme légitime. Ils seront plus enclins à accepter les jugements qui reposeront sur son analyse, en particulier l’attribution de financements publics.
Une interprétation difficile
Le plus souvent, ce n’est pas le niveau de l’indicateur qui importe mais sa variation sur une période donnée. Dans le domaine social, l’interprétation des variations des indicateurs est complexe, car il faut isoler les effets propres de l’action publique des variations liées aux différentes caractéristiques des bénéficiaires ou à l’évolution du contexte économique et social dans son ensemble.
Pour mesurer précisément les effets, il faudrait idéalement pouvoir observer la situation des bénéficiaires d’une action donnée et la comparer avec ce qui se serait passé pour ces mêmes bénéficiaires en l’absence d’action publique. Comme une personne ne peut pas au même instant à la fois être dans le programme et en dehors du programme, il est souvent nécessaire, pour mesurer les effets propres d’un programme, de construire ce que l’on appelle communément un groupe « témoin ».
La meilleure comparaison possible consiste à construire un groupe témoin en tout point semblable au groupe test, la seule différence entre les deux groupes étant que l’un est exposé au programme mais pas l’autre (expérimentation randomisée). On peut ainsi observer directement les effets du programme, par différence entre les observations au sein du groupe cible et du groupe témoin.
Hormis dans le cadre d’expérimentations prévoyant spécifiquement la constitution d’un groupe témoin, il est très difficile de constituer une population témoin qui soit parfaitement comparable : par construction, l’action publique s’applique à tous ceux qui répondent à des critères donnés (âge, niveau de ressources, situation familiale, état de santé, situation vis-à-vis de l’emploi…). Les populations non bénéficiaires ne sont donc par définition pas similaires aux populations bénéficiaires, y compris dans le cas où elles sont éligibles mais n’ont pas recours au service auquel elles peuvent prétendre (par choix mais aussi par méconnaissance de leurs droits).
A défaut d’une comparaison entre groupe test et groupe témoin avec affectation aléatoire, d’autres types de comparaison peuvent cependant être effectués :
• En comparant les mêmes individus avant et après l’entrée dans l’action (comment ont évolué leur situation par rapport à l’emploi, leurs revenus, leur état de santé…). Cette comparaison est généralement effectuée en interrogeant à intervalle régulier un panel de bénéficiaires ou en reconstituant lors d’une seule interrogation leur trajectoire passée.
Cependant, ce type de comparaison avant-après ne permet pas de contrôler les effets environnementaux. Il est impossible d’isoler les effets imputables à des facteurs exogènes au dispositif de ceux qui sont liés au dispositif lui-même : une reprise d’emploi d’un jeune peut être le fruit de l’accompagnement renforcé dont il a bénéficié mais aussi d’une reprise de l’économie locale ou de ses démarches personnelles. Ce même jeune aurait en effet peut-être retrouvé un emploi même sans cet accompagnement.
• En comparant la situation d’individus similaires mais non identiques au temps « t », certains étant passés par le dispositif, d’autres non.
Mais dans ce deuxième type de comparaison, on ne contrôle pas toutes les différences individuelles. Les individus peuvent sembler similaires au regard de variables observables (comme l’âge, le sexe, le niveau de diplôme, la période d’inactivité,…) mais être différents au regard d’autres variables plus difficiles à observer (état de santé, motivation personnelle…).
Autre difficulté pour l’interprétation d’indicateurs sociaux : le lien de causalité entre l’évolution des indicateurs et les actions mises en place apparaît délicat à établir à cause des phénomènes d’interdépendance qui existent entre les différentes actions. A titre d’exemples : les performances du système éducatif ont un impact direct sur le marché de l’emploi ; un jeune accompagné par une mission locale peut en parallèle bénéficier d’un suivi par Pôle emploi. Des méthodes de modélisation statistiques permettent de raisonner « toutes choses égales par ailleurs », et ainsi de mesurer les effets séparément les uns des autres, mais elles nécessitent de faire des hypothèses a priori sur les variables qui sont liées entre elles pour les intégrer dans le modèle.