CONCEPTION DES ÉVALUATIONS EXTERNES STANDARDISÉES- QUESTIONS DE VALIDITÉ

CONCEPTION DES ÉVALUATIONS EXTERNES STANDARDISÉES- QUESTIONS DE VALIDITÉ

Nous abordons dans cette partie, les différentes évaluations externes existant en France et mises en œuvre par la DEPP (Direction de l’évaluation de la prospective et de la performance) en fin d’école, en mathématiques : il s’agit de les recenser, de présenter leurs enjeux et de montrer comment leurs résultats peuvent être exploités par les décideurs ou par les chercheurs en didactique. Nous abordons ensuite une question commune à l’ensemble de ces évaluations (et a fortiori à toute évaluation) qui est celle de la validité ; ce qui nous amène à présenter des critères plus spécifiques liés à des considérations psychométriques, puisque les évaluations externes que nous étudions sont soumises à un traitement statistique ou à l’application de modèles probabilistes pour déterminer, par exemple, des scores, des indices de performance. La présentation des enjeux de ces évaluations et des types de preuve qui permettent de garantir leur validité nous amène ensuite à présenter les différentes étapes de conception de ces évaluations externes : quelles considérations didactiques sous-tendent le cadre de l’évaluation et son contenu ? En particulier, comment le référent est-il défini ? Prend-il en compte les différentes étapes de la transposition didactique, et de quelle façon ? Comment la validité de ces évaluations est-elle assurée ? Nous exploitons principalement le bilan CEDRE, et dans une moindre mesure l’évaluation TIMSS, pour illustrer nos propos et introduire progressivement nos questionnements didactiques relatifs à la conception des évaluations et à leur validité.

Évaluations nationales et internationales : des enjeux différents et une exploitation parfois « ambigüe »

Il ne s’agit pas ici d’entrer dans l’histoire des évaluations externes en France (nous renvoyons pour cela à Bottani & Vrignaud (2005) et Troseille & Rocher (2015)), mais de comprendre comment s’est créée une certaine ambigüité sur les outils d’évaluation, entre des évaluations sensées être « bilan » et les autres supposées être « diagnostiques », et de voir les objectifs qui leur sont assignés. Depuis une quarantaine d’années des évaluations standardisées sont menées en France avec des objectifs qui diffèrent selon la période : des évaluations « bilans » pour mesurer les acquis des élèves entre les années 1975 et 1989, des évaluations diagnostiques de masse devant outiller les enseignants pour l’évaluation de leurs élèves dans les années 1990 – 2000, et dernièrement des évaluations bilans à visées comparatives nationales et internationales (Troseille & Rocher 2015). Si nous pouvons repérer a priori deux orientations distinctes données à ces évaluations, les évaluations bilans axées sur les populations servant au pilotage du système éducatif et les évaluations diagnostiques, axées sur les élèves, destinées aux enseignants pour évaluer leurs élèves, l’exploitation dans la réalité en a été tout autre : les évaluations diagnostiques ont été détournées de leur objectif premier à partir de 2008. Non seulement, il leur a été attribué à la fois une fonction diagnostique et bilan (les évaluations ne sont plus menées à l’entrée du CE2 ou de la 6ème, mais au cours de l’année de CE1 et de CM2), mais elles sont aussi utilisées à des fins de pilotage. (Troseille & Rocher 2015). Cette confusion a non seulement créé une certaine « ambigüité », mais n’a pas favorisé l’exploitation par les enseignants des outils diagnostiques mis à leur disposition. Par ailleurs si la DEPP qui coordonne les évaluations standardisées s’attache à une standardisation des passations pour pouvoir mener des comparaisons temporelles ou longitudinales, les conditions dans lesquelles les évaluations diagnostiques étaient passées ne permettaient guère de telles comparaisons (Bardi & Mégard 2009, Troseille & Rocher 2015).

La mise en place, par le Ministère de l’éducation nationale, à partir de 2007, d’évaluations bilans (en particulier avec le cycle d’évaluation CEDRE) ayant pour seul enjeu d’évaluer les acquis des élèves est une des réponses à l’ambigüité soulevée précédemment ; les différentes évaluations externes sur échantillon qui se sont alors développées visent ainsi : à évaluer la mise en application de la LOLF (Loi Nous avons établi la liste des évaluations externes existant en fin d’école (Annexe 1) pour évaluer les élèves en mathématiques. Si nous constatons, actuellement, la disparition d’évaluations diagnostiques (voire celle d’outils diagnostiques, tels que ceux qui existaient dans la Banqoutils), nous retrouvons les trois visées définies précédemment, avec des rythmes de passation différents selon que sont évalués : – les acquis au regard des programmes scolaires : bilan CEDRE tous les 6 ans (2008 et 2014 en mathématiques) – des compétences « de base » dans le cadre de la LOLF (tous les ans) – les connaissances en calcul pour des comparaisons temporelles (1987-2007-2014) – les connaissances au regard des programmes scolaires de plusieurs pays (TIMSS) à partir de 2015.