ANALYSE DE L’ÉVALUATION CEDRE
La méthodologie d’analyse que nous avons développée dans le chapitre précédent est appliquée ici aux évaluations CEDRE 2008 et 2014 sur le domaine de la numération et de l’arithmétique des nombres entiers, pour étudier la validité de contenu de ces évaluations et interpréter les résultats obtenus. Nous consacrons une première partie à la place attribuée au domaine d’étude relativement à la globalité de l’évaluation, puis nous étudions, par la suite, sa validité en suivant les étapes décrites dans la méthodologie : D’un point de vue méthodologique, nous avons travaillé à partir de fichiers fournis par la DEPP desquels nous avons extrait les données dont nous avions besoin sur notre domaine d’étude ; les items utilisés à titre d’exemples sont pour la plupart issus des évaluations CEDRE 2008 ou 2014, dans le cadre d’une convention avec la DEPP réalisée au sein du projet ANR NéoPraéval. La majorité des items des évaluations CEDRE n’étant pas libérés, il n’est pas possible d’illustrer systématiquement notre propos avec un item issu de l’évaluation ; dans certains cas, nous proposons donc, en le précisant, des items similaires à ceux présents dans l’évaluation. de trois champs définis par le cadre1 de l’évaluation : la connaissance des nombres entiers naturels (portant principalement sur la numération), le calcul et l’exploitation de données numériques incluant, en 2008, la résolution de problèmes. Les items relevant de la résolution de problèmes ont été intégrés en 2014 dans le champ du calcul. Nous retenons pour la description globale du contenu uniquement les items exploités pour l’échelle de scores et nous reviendrons, dans un paragraphe spécifique, sur ceux écartés car considérés comme non pertinents d’un point de vue statistique.
Ensuite, une partie de l’évaluation 2014 contenant, entre autres, les items de calcul mental a été réalisée sur support numérique alors qu’en 2008, la partie relative au calcul mental l’avait été à partir d’un CD audio et sur papier : ce qui change non seulement les modalités de passation, mais aussi les types de représentation sémiotique en jeu (numération parlée en 2008 et écriture chiffrée des nombres en 2014) et les modes de réponse (papier-crayon en 2008 et sur support numérique en 2014). Au moment où nous rédigeons la thèse, nous n’avons pas en notre possession l’ensemble des résultats des items passés sur support numérique, mis à part ceux relatifs au calcul mental (automatisé et réfléchi) ; comme l’échelle des scores en 2014 ne prend pas en compte les items passés sur ce support, nous avons choisi de les considérer dans l’étude globale de façon séparée. Nous présentons donc, dans ce paragraphe, le poids du domaine étudié relativement à l’ensemble La répartition globale des items entre 2008 et 2014 (Tableau 1) montre d’abord une baisse importante du nombre d’items entre les deux évaluations (environ 140 en moins), mais aussi une évolution dans leur répartition : la passation d’une partie des items de 2014 sur support informatique et le changement de qualification des items de résolution de problèmes (inclus dans le domaine « exploitation de données numériques » en 2008 puis « calcul » en 2014) expliquent l’augmentation du nombre d’items de calcul en 2014 et la baisse en exploitation de données numériques.
Le terme d’item en psychométrie correspond à une prise d’information, c’est-à-dire au codage d’une réponse. Par exemple, dans une suite de trois questions sous la forme de vrai-faux successifs, chacune des questions correspond à un code (vrai ou faux) et donc à un item. Or, dans le cas de tels exercices, les trois réponses des élèves sont regroupées et renvoient une seule information : réussi ou échoué selon le seuil de bonnes réponses attendu, par exemple, deux réponses sur trois. Nous qualifions donc dans ce chapitre d’ « item » l’objet pris en compte pour le calcul des scores : il peut s’agir d’une seule question (dans le cas de question ouverte ou de QCM) ou du regroupement de plusieurs questions (une succession de vrai-faux par exemple, est considérée comme un seul item). Notre domaine d’étude (numération décimale et arithmétique des entiers) représente une part importante du contenu de l’évaluation puisqu’il est représenté par 180 items en 2008 (soit 47 % des items de l’évaluation) et 99 items en 2014 (soit 40 % des items). Si les savoirs relatifs aux nombres entiers (numération – calcul – résolution de problèmes) représentent un enjeu important en termes d’apprentissage à l’école primaire, la part qui leur est accordée dans l’évaluation est néanmoins très importante, notamment au regard des autres domaines (nombres décimaux et fractionnaires, grandeurs et mesures et géométrie). Nous n’approfondissons pas la question de cette répartition dans le cadre de la thèse, mais nous soulignons tout de même qu’elle n’est ni anodine, ni sans incidence sur les résultats. Non seulement elle pose la question de la validité de l’évaluation dans son ensemble et pas uniquement sur un domaine (les programmes de mathématiques accordant une importante place à la résolution de problèmes que nous ne retrouvons pas dans l’évaluation), mais de plus, en ciblant autant les apprentissages sur les entiers, on peut se demander si les résultats globaux de l’évaluation seraient identiques si une répartition renforçant le poids des autres domaines était proposée. Il est difficile de déterminer les raisons des choix opérés et dans quelle mesure ils relèvent d’une négociation institutionnelle, mais ils ne sont pas neutres quant aux résultats obtenus.