Utilisations des MOOC : éléments de typologie
Les recherches liées à l’attrition
Nous nous proposons maintenant de revenir succinctement sur les principales recherches réalisées sur la question des MOOC entre 2009 et 2016. Parmi les quelques revues de la littérature scientifique consacrées aux MOOC publiées à ce jour, quatre ont retenu notre attention (Liyanagunawerda, 2013 ; Ebben & Murphy, 2014 ; Raffaghelli et al., 2015 ; Veletsianos & Shepherdson, 2016). Revues de littérature et publications assimilées Ebben & Murphy (2014) décomposent les recherches menées sur les MOOC entre 2009 et 2013 en deux grandes périodes correspondant peu ou prou aux différentes phases du développement de ces dispositifs. Entre 2009 et 2011/2012, les travaux portent exclusivement sur les MOOC qui seront par la suite qualifiés de connectivistes, tandis qu’après 2012, les recherches se concentreront sur les xMOOC ; elles accordent une importance toute particulière aux traces d’activité. Liyanagunawerda (2013) consacrera une revue de la littérature à la période 2009 – 2012, revue portant sur 45 publications centrées presque exclusivement sur les MOOC connectivistes. Ce travail couvre l’essentiel des publications sur la poignée de MOOC connectivistes qui fit son apparition entre le lancement du CCK08 (Fini, 2009) et l’essor des xMOOC. Certains auteurs se concentrent sur les interactions entre participants (Mackness, 2008 ; Kop, 2011), d’autres sur les dimensions technologiques (Levy, 2011), les derniers approfondissent le concept de connectivisme (Kop & Hill, 2008 ; Kop, 2011 ; Kop et al. 2011 ; Bell, 2011). On retrouvera en France peu d’échos de ces travaux sur les MOOC connectivistes, le travail de Jézégou (2015) sur le MOOC Itypa constituant une exception en la matière. Veletsianos & Stepherson (2016) reviennent sur la période 2013-2015, en portant une attention toute particulière aux actes de colloques ; cette dernière revue se fait l’écho d’un travail débuté antérieurement (Veletsianos & Shepherdson, 2015), travail dont l’objet était de déterminer dans quelles disciplines s’inscrivaient les auteurs effectuant des recherches sur les MOOC. Utilisations des MOOC : éléments de typologie 55 La publication de Raffaghelli et al. (2015) est probablement l’une des revues de littérature les plus étendues à ce jour ; elle se base sur soixante articles publiés entre 2009 et 2014, en se concentrant sur les méthodologies suivies par les auteurs. Pour chaque article, les auteurs déterminent l’objectif de la publication, le paradigme dans lequel elle s’inscrit, la méthodologie suivie. Ils se basent sur le cadre de Gorard & Cook (2007) sur les différentes phases de la recherche en éducation pour analyser l’état de la recherche sur les MOOC au moment de la publication. Les auteurs mettent au jour une multiplication rapide des publications à partir de 2012, liée à une explosion de recherches descriptives et de travaux théoriques-conceptuels non ancrés empiriquement. Enfin, Gasevic et al. (2014) réalisent un tour d’horizon de vingt-huit travaux de recherches financés par la Fondation Bill Gates à travers la MOOC Research Initiative. Ce travail ne s’apparente pas à proprement parler à une revue de la littérature, mais il propose une classification intéressante des recherches sur la question, classification centrée sur les thématiques abordées davantage que sur les méthodologies employées. Par ailleurs, on recense quelques revues de littérature orientées sur une thématique précise. Ainsi, Khalil et al. (2014) se concentrent sur les publications dont l’objet est d’identifier les facteurs influant sur les taux de certification. Dans une revue quelque peu hétéroclite de par la nature des publications choisies, Hew & Cheung (2015) reviennent quant à eux sur les motivations des étudiants pour s’inscrire, et des concepteurs pour s’engager dans la mise en place d’un dispositif. Nous rangerons en trois catégories les recherches sur l’attrition dans les MOOC, selon le type de donnée collectée par les auteurs, ou la démarche sous-jacente. Commençons par nous intéresser à la question des traces d’activité avant de revenir sur celle des données autodéclarées. Nous conclurons par les approches modélisatrices, expérimentales et quasiexpérimentales visant à identifier les facteurs expliquant l’attrition. Nous reviendrons plus en détail sur nombre de ces publications en introduction de chaque chapitre. Des analyses sur les traces d’activité : une abondante littérature grise L’analyse des traces d’activité est omniprésente dans les travaux publiés sur l’attrition dans les MOOC, aussi bien dans la littérature grise que dans la littérature scientifique proprement dite. La première est à certains égards plus riche en données que la seconde, aussi nous baseronsnous sur elle à de multiples reprises. Une partie conséquente des travaux auxquels nous ferons référence dans le cadre de ce manuscrit n’ont pas été évalués par un comité scientifique et MOOC, formation à distance et attrition : une revue de littérature 56 constituent des livrables de travail ou des rapports d’activité réalisés par des établissements d’enseignement supérieur (University of Edimburgh, 2013, University of London, 2013, 2014 ; EPFL, 2014), par des institutions de recherche comme l’INRIA (Mariais et al., 2016), ou par des consortiums d’établissements comme Harvard et le MIT (Ho et al., 2014, 2015). Rares sont les plates-formes qui, comme Open2Study, diffusent des rapports détaillés de l’activité des cours qu’elles hébergent (Kevat, 2013). Les plates-formes comme Coursera ou edX, si elles servent de support à des études transversales sur plusieurs dizaines de MOOC, n’ont, à notre connaissance, jamais fourni à ce jour d’analyse de l’activité à l’échelle de l’ensemble de leur offre. Ces rapports vont généralement au-delà des statistiques usuelles que sont le nombre d’inscrits et de certifiés, nous y reviendrons par la suite. À ces analyses résolument descriptives s’ajoutent des tentatives plus poussées de classifier les participants sur la base de leur activité dans le cours. Ainsi, Kizilcec et al. (2013) se basent sur des trajectoires de participants au sein d’un dispositif pour distinguer les non-certifiés selon qu’ils « décrochent », c’est-à-dire que leur activité chute au fil du temps, ou selon qu’ils se cantonnent de visionner les vidéos du cours, « en auditeur libre ». Anderson et al. (2014) mettent en avant les préférences pour telle ou telle activité prescrite ; ils distinguent les participants selon qu’ils préfèrent se concentrer sur les vidéos pédagogiques ou sur les devoirs à rendre ou les quiz à soumettre. Diffusion d’enquêtes et croisements avec les traces d’activité Parallèlement à ces travaux centréssur les traces d’activité se développe une littérature focalisée plus ou moins exclusivement sur l’analyse des enquêtes diffusées auprès des participants de MOOC, et fournissant des résultats intéressants au regard des motivations pour s’inscrire ou de la composition sociodémographique des audiences. Cette littérature s’étend de simples études de cas, comme celle de Liyanagunawardena et al. (2015), qui se penche sur deux MOOC organisés sur Futurelearn, jusqu’aux études transversales réalisées à l’échelle d’une plateforme comme edX (Hansen & Reich, 2015), ou à l’échelle de l’ensemble des cours d’un Utilisations des MOOC : éléments de typologie 57 établissement (Christensen et al., 2013 ; Edimburgh, 2013 ; EPFL, 2014 ; Kizilcec & Schneider, 2015). 10 Un certain nombre de recherches se sont attachées à croiser différents types de données autodéclarées avec les comportements observables comme l’obtention du certificat, ou les notes obtenues. Certaines se concentrent spécifiquement sur les données autodéclarées, comme l’intention déclarée (Reich et al., 2014 ; Campbell et al., 2014 ; Wilkowski et al., 2014a), les variables sociodémographiques, dont le niveau de diplomation (Rosé et al., 2014 ; Champaign et al., 2014 ; Colvin et al., 2014), le degré de maîtrise du sujet (Hood et al., 2015), ou les motivations pour s’inscrire (Kizilcec & Schneider, 2015 ; Barak et al., 2015). D’autres auteurs se baseront sur des modèles mêlant différents types de données déclarées : motivations pour s’inscrire et maîtrise du sujet (Phan et al., 2015), variables sociodémographiques et intentions déclarées (Engle et al., 2015 ; Greene et al., 2015). Cette démarche, qui consiste à combiner dans le même modèle différents types de variables explicatives pour expliquer l’attrition est à la base de plusieurs des analyses qui seront réalisées dans le cadre de ce travail de recherche
Quelques cadres mobilisés ponctuellement
Nous terminerons cette revue de littérature en évoquant brièvement quelques-uns des cadres que nous mobiliserons ponctuellement, comme les recherches sur les usages d’Internet ou sur le webmarketing, travaux qui peuvent faire preuve d’une certaine utilité dès lors que l’on s’intéresse à l’apprentissage en ligne. Nous mobiliserons notamment la littérature sur les processus d’achat en ligne (Isaac & Voole, 2008 ; Stenger & Bourliataux-Lajoinie, 2014), en faisant le parallèle entre l’achat d’un produit sur Internet et l’inscription à un MOOC. Ces cadres sont particulièrement utiles pour traiter la question du mode de découverte du cours. Nous nous sommes basés sur un concept de webmarketing qu’est la clé d’entrée (Isaac & Voole, 2008), et sur un autre qui en découle : le type de visite. La clé d’entrée désigne le processus qui a conduit MOOC, formation à distance et attrition : une revue de littérature 62 à l’achat d’un produit, ou dans notre cas, à l’inscription au cours ; deux modalités y sont associées, la clé d’entrée plate-forme d’une part, et la clé d’entrée produit d’autre part. Soit l’internaute se rend sur site avec une vague idée des produits qu’il souhaite acheter, soit il souhaite acheter un ou plusieurs produits sans avoir nécessairement une idée très précise des sites marchands où il peut les acheter. Dans le premier cas, la clé d’entrée est le « le site marchand à visiter », alors que dans le deuxième cas, la clé d’entrée est « le produit à acheter » Les auteurs font l’analogie entre la clef d’entrée plate-forme et le « lèche-écran ». Un exemple de clef d’entrée plate-forme est représenté par le système de recommandation d’Amazon, qui, sur la base des données récoltées sur le comportement antérieur sur la plate-forme, pousse les utilisateurs connectés à acheter des produits dont ils ignoraient l’existence. Les auteurs croisent ces deux concepts avec le degré de connaissance des plates-formes et des produits (Isaac et Voole 2008 p.213). Soit l’internaute connaît bien l’offre (les sites, les catégories de produits), soit il la connaît peu ; le croisement de ces deux niveaux avec la clé d’entrée génère quatre types de visites que nous définirons au moment opportun : expérientielle et expéditive pour la clef d’entrée plate-forme, exploratoire et comparative pour la clef d’entrée produit14 . Nous proposerons d’établir un parallèle entre l’inscription à un MOOC et l’achat d’un produit sur Internet. Nous reviendrons plus en détail sur ces différents types de visite, en illustrant le concept au travers d’enquêtes et d’extraits d’entretiens. Conclusion Il nous a paru nécessaire de rappeler dans ses grandes lignes l’historique des recherches sur l’attrition en formation à distance, tant pour les concepts que l’on pourra emprunter à ce cadre d’analyse, que pour souligner la filiation dans laquelle s’inscrivent les travaux que nous mènerons. Rares sont les publications qui inscrivent explicitement les recherches sur les taux de certification des MOOC dans la continuité de ceux sur l’attrition en formation à distance, et ce bien que les problématiques et les méthodologies employées soient relativement similaires. Les cadres liés aux recherches des usages sur Internet ne seront mobilisés qu’à titre ponctuel, lorsque les cadres précédemment évoqués perdront en pouvoir interprétatif. 14 Nous conserverons le terme clef d’entrée produit car il ne saurait être remplacé par clef d’entrée MOOC dans la mesure où, comme nous allons le voir, un certain nombre de participants découvrent le concept MOOC au cours même de leur recherche. Utilisations des MOOC : éléments de typologie 63 L’un des objectifs de ce travail réside précisément dans la délimitation du périmètre d’application des différents cadres conceptuels, ce qui explique cette diversité apparente. Ainsi, le cadre des projets d’apprentissage est particulièrement utile lorsque l’on s’intéresse aux participants autodéterminés, mais montre ses limites dès lors que l’on se penche sur le cas de participants s’inscrivant dans une logique hédonique. La typologie des motifs d’entrée en formation, bien que plus holistique, échoue à expliquer certains des comportements d’inscription que nous observerons au chapitre dédié à la diversité des formes d’attrition, dans la mesure où nombre de participants s’inscrivent sans réellement vouloir « entrer en formation ». Dans ce contexte, le cadre du webmarketing montrera toute sa pertinence. Maintenant que nous avons achevé la revue de littérature, nous nous proposons de revenir sur les méthodologies employées pour collecter les données sur lesquelles se base ce travail de recherche
Méthodologie de recueil et d’analyse des données
L’objectif de ce travail de recherche est triple : qualifier les formes d’attrition qui prévalent au sein des MOOC, chercher à en effectuer une estimation quantitative, et identifier certains des mécanismes qui les sous-tendent. La qualification de ces différentes formes d’attrition passe dans une large mesure par la réalisation d’entretiens semi-directifs. Leur quantification, quant à elle, nécessite d’avoir accès à différents types de données : Des données autodéclarées, qui permettent de comprendre l’intention du participant au moment de l’inscription, ou la raison pour laquelle il cesse sa participation à un cours. Des traces d’activité, nécessaires pour décrire précisément les actions réalisées au sein des dispositifs. Des données d’inscription, qui offrent l’opportunité d’appréhender le comportement d’un utilisateur à l’échelle des plates-formes qui hébergent les cours. Une quantification précise des formes d’attrition nécessiterait d’une part d’avoir accès à l’ensemble de ces données, pour la totalité des participants étudiés, et d’autre part de pouvoir croiser ces données via des identifiants communs. Pour de multiples raisons sur lesquelles nous reviendrons, il n’est pas possible d’obtenir ni la totalité de ces données, ni d’obtenir cet identifiant commun. Les inscrits qui répondent participent aux enquêtes organisées en début de MOOC sont minoritaires, et une plus faible minorité encore à répondre à ceux qui sont envoyés après qu’ait cessé leur activité observable au sein du cours (Whitehill et al., 2015). Par ailleurs, les outils utilisés pour collecter données d’inscription et données autodéclarées n’autorisent pas l’existence d’un identifiant commun. Du fait des différents biais associés à la collecte des données comme de l’impossibilité de croiser les différentes sources de données, nous chercherons à travers les données quantitatives récoltées à identifier des indicateurs susceptibles de nous éclairer quant à l’importance de telle ou telle forme d’attrition. Le lien entre ces indicateurs et la forme d’attrition repose en partie sur différentes hypothèses que nous expliciterons au fur et à mesure. Méthodologies de recueil et d’analyse des données 66 Enfin, la bonne compréhension de la nature et la taille de l’offre des plates-formes qui hébergent ces cours constituent autant de données qui permettront au lecteur de se représenter l’environnement dans lequel évoluent les utilisateurs de MOOC. Il pourra ainsi mieux appréhender à travers l’analyse d’annuaires certains des résultats qui émergeront de nos tentatives de quantification des formes d’attrition. Type de données Quantité de données en jeu Annuaires internationaux Class Central : 4095 cours MOOC List : 2805 cours Pages de présentation de MOOC français 283 cours (dont 178 de FUN) Traces d’activité Unow : 7 cours Coursera : 6 cours Données d’inscription FUN : 1.047.445 inscriptions Entretiens semi-directifs 41 entretiens de 40 minutes en moyenne (Tableau 15) Enquêtes 30 cours échantillonnés (Tableau 14) Données de réseaux sociaux 4 MOOC échantillonnés sur Twitter, 1 sur Google+ Données de forums 10 MOOC échantillonnés sur FUN Tableau 2 Tableau récapitulatif des données exploitées dans le cadre de ce manuscrit Dans ce chapitre, nous commencerons par nous pencher sur les caractéristiques de l’offre de MOOC à l’échelle internationale, à travers l’analyse de deux des principaux annuaires, Class Central et MOOC List. Nous nous intéresserons ensuite aux pages de présentation et aux structures des MOOC de la plate-forme française FUN. Puis, nous nous focaliserons sur les traces d’activité collectées au sein des plates-formes Unow et Coursera, sur les forums de la plate-forme FUN, et sur les réseaux sociaux Twitter et Google+, pour conclure sur les enquêtes et les entretiens semi-directifs. Enfin, nous fournirons quelques précisions relatives aux tests statistiques utilisés pour l’analyse des données quantitatives, afin de faciliter la compréhension des résultats. Nous résumons dans le Tableau 2 l’ensemble des données que nous mobiliserons dans le cadre de ce manuscrit et que nous allons présenter dans les paragraphes qui suivent. En sus de la description des méthodes employées, nous renverrons autant que faire se peut, et toujours dans des notes de bas de page, vers un répertoire Github contenant tant les données brutes mobilisées que les codes qui ont servi à leur analyse. Ces fichiers permettront au lecteur qui le désire d’entrer dans le détail des méthodologies suivies. Les procédures de nettoyage et de préparation des données analysées ne sont pas explicitées dans le corps du manuscrit, mais sont disponibles dans les fichiers auxquels nous ferons référence. Par ailleurs, afin d’illustrer la Utilisations des MOOC : éléments de typologie 67 logique sous-tendant les analyses réalisées sur les traces d’activité, nous avons ponctuellement créé des données factices. Celles-ci permettront au lecteur familier du logiciel R de comprendre rapidement les analyses effectuées en court-circuitant la fastidieuse étape de préparation des données, qui n’ont d’ailleurs pas pu être systématiquement rendues accessibles au public. A. Analyse d’annuaires et de structures de MOOC 1. Extraction des données Pour différencier les principales plates-formes de diffusion de MOOC sur la base de leurs caractéristiques les plus marquantes, nous nous sommes basés sur deux annuaires distincts, d’une part Class Central et d’autre part MOOC List. Ils ont été choisis parmi un ensemble d’annuaires plus ou moins exhaustifs, allant de Coursetalk, pour les annuaires à visée internationale, à mymooc.fr, mooc-francophone.fr et annuaire-mooc.fr, pour les sites davantage spécialisés dans les MOOC en langue française. Le choix de ces annuaires a été réalisé sur des critères d’exhaustivité de la collecte de données, et de la période sur laquelle porte cette collecte. Ces annuaires collectent des informations, d’une part de manière automatisée depuis les principales plates-formes de diffusion de MOOC, et d’autre part de manière manuelle quand les approches automatisées échouent. Le détail des protocoles de collecte de données, et l’éventuelle différenciation des méthodes de collecte selon les plates-formes d’hébergement, n’a pas été fourni par les annuaires en question. Les données de Class Central ont été envoyées par mail 15; elles correspondent à la mise au jour de novembre 2015. Nous avons récolté en octobre 2015 les données de MOOC List par le processus dit de web scraping après obtention d’un accord informel de la part de l’entreprise. Le web scraper est un programme qui explore les pages d’intérêt et extrait les informations jugées utiles par le chercheur, selon le protocole qui suit. Tout d’abord, une base de données répertoriant l’ensemble des URL d’intérêt est créée. Cette approche permet ensuite d’identifier de recenser l’ensemble des URL des pages de présentation de cours telles que rapportées dans l’annuaire. Un outil, SelectorGadget, permet alors d’identifier manuellement les emplacements de la page html où l’information jugée intéressante par le chercheur est située. Cet outil fournit un système de balises qui est ensuite utilisé par un programme extrayant les données des pages, sur la base des packages R rvest, RJSONIO, et RCurl16 . Dans le cas de Class Central comme dans le cas du MOOC List, nous avons collecté les informations suivantes : nom du cours, plate-forme d’hébergement, institution de rattachement mise en avant sur la page de présentation, discipline correspondant au cours. Dans celui de MOOC List, des informations supplémentaires ont été collectées : langue d’enseignement, charge hebdomadaire estimée, nationalité de l’institution de rattachement. Lorsqu’une valeur minimale et une valeur maximale sont fournies pour la charge hebdomadaire, nous avons calculé la moyenne. Si les concepteurs annoncent un investissement hebdomadaire de 2-3 heures, la charge de travail hebdomadaire moyenne correspond donc à 2,5 heures par semaine. La charge de travail totale de la formation correspond au produit du nombre de semaines de cours et de la charge de travail hebdomadaire moyenne. Le créateur de Class Central choisit lui-même la discipline principale dans laquel s’inscrit le cours parmi onze modalités, comme le droit, les sciences humaines, les mathématiques ou la programmation. Les analyses d’annuaires que nous réaliserons se basent systématiquement sur les disciplines ou sous-disciplines choisies par Class Central17 . Concluons enfin sur le fait que plus de 80% des dispositifs recensés dans MOOC List proposent un certificat, ce qui montre que les dispositifs recensés dans les annuaires correspondent bel et bien aux MOOC qui nous intéressent, les MOOC certifiant. 2. Choix des plates-formes analysées Class Central dispose d’un annuaire plus riche que MOOC List, avec respectivement 4095 and 2805 cours dans les données extraites, mais l’annuaire de MOOC List fournit davantage de détails quant aux cours concernés. L’offre de cours correspondante s’étend du 1er octobre 2011 au 6 mai 2016 pour Class Central, la grande majorité des formations étant postérieures à 2012, et du 7 janvier 2013 au 15 janvier 2016 pour MOOC List. Ces dates correspondent aux dates de lancement officiel du cours au moment de l’extraction des données. 16 Le détail du code du web scraper est disponible à cette adresse : https://github.com/Skillwiki/These_MOOC/blob/master/aggregator_webscraper. Les deux annuaires adoptent une définition plus large du terme MOOC que celle que nous avons adoptée au cours de ce manuscrit. La plate-forme américaine Udacity est notamment recensée dans Class Central comme hébergeur de MOOC, tandis que Saylor.org l’est sur MOOC List ; nous les avons exclues, entre autres plates-formes, car les dispositifs qu’ils proposent se distinguent par trop des dispositifs qui nous intéressent dans le cadre de ce manuscrit. L’analyse a été cantonnée à sept plates-formes pour MOOC List et onze plates-formes pour Class Central. Nous nous sommes concentrés sur les plates-formes dont les institutions partenaires constituent dans leur grande majorité des établissements d’enseignement supérieur. Certaines platesformes de taille sont absentes des annuaires, probablement pour des raisons linguistiques ; sont ainsi exclues les plates-formes chinoises comme XuetangX, bien qu’elles disposent d’une offre conséquente. 3. Choix méthodologique lié à l’essor du format atemporel Les cours ouverts en permanence, ou atemporels car sans date de début ou de fin, font en 2015 leur apparition au sein des principales plates-formes américaines, pour représenter au fil des années une part croissante de l’offre de certaines plates-formes. Ainsi, l’analyse du catalogue de Class Central révèle que l’offre de Coursera, edX, Canvas.net, et Edraak est composée respectivement de 18%, 13%, 9% et 13% de cours au format atemporel. Cette transition constitue l’une des principales ruptures de l’année 2015, puisque le MOOC perd ce faisant son caractère événementiel. L’essor du format atemporel impose un choix méthodologique : exclure ou non ces cours de l’analyse des annuaires. Notre travail de recherche se concentre uniquement sur les MOOC au format dit temporalisé, c’est-à-dire avec une date de début et une date de fin séparées de quelques semaines en général, quelques mois tout au plus. Quand bien même son importance a décru au fil des années, c’est le format temporalisé qui a prévalu tout au long de la période à laquelle nous nous sommes intéressés. Si nous nous intéressions à l’analyse de l’activité observable de ces cours, la logique voudrait qu’on les exclue du fait des trop grandes différences qui existent avec le format temporalisé. Néanmoins, l’un des principaux objectifs de l’analyse des annuaires réside dans la compréhension de la dispersion des inscriptions à l’échelle d’une ou plusieurs plates-formes. En ce sens, les cours au format atemporel ne peuvent être exclus ; au contraire, la flexibilité que permet un accès permanent à la formation augmente sa probabilité d’attirer des inscriptions sur des périodes de temps non délimitées. Ils ne sauraient par conséquent être exclus, et à l’exception des analyses.
Introduction : Pourquoi les taux de certification des MOOC sont-ils si bas ? |