LE CONTEXTE DES DONNEES COMME CADRE D’ETUDE L’EFFET DE L’AVALANCHE DE DONNEES SUR LE PROCESSUS SCIENTIFIQUE

LE CONTEXTE DES DONNEES COMME CADRE D’ETUDE L’EFFET DE L’AVALANCHE DE DONNEES SUR LE PROCESSUS SCIENTIFIQUE

Dans ce chapitre, nous nous intéressons à la transformation du rapport aux données suggérée par un certain nombre d’épistémologues avec l’arrivée de bases de données massives dans le processus scientifique. Nous montrons que cette transformation est susceptible d’avoir des impacts organisationnels sur le processus de production de connaissance, notamment sur le processus de génération des hypothèses scientifiques. Nous montrons l’émergence d’une dichotomie entre deux modes organisationnels de la science. D’un côté le modèle traditionnel, dit « knowledge-driven », qui s’est construit dans un environnement pauvre en données (Baraniuk, 2011; Miller, 2010),. Les mesures de la réalité étaient difficiles, coûteuses et lourdes à obtenir, à stocker et à manipuler. De l’autre côté, l’émergence d’une science dite « data-driven » où les coûts de capture, de stockage et de manipulation des données numériques ont fortement baissé, et les technologies de communication et d’information sont maintenant largement déployées dans les organisations scientifiques (Miller, 2010). Nous suggérons alors que les projets de science citoyenne sont susceptibles d’apporter une réponse organisationnelle à cette transformation, mais que celle-ci nécessite d’être gérée. La littérature sur les sciences citoyennes, les nombreux exemples de projets (voir l’échantillon en annexe 2 par exemple) ainsi que l’avalanche de données dans de nombreuses disciplines scientifiques suggèrent qu’il y a une opportunité d’un point de vue des sciences de gestion à analyser les sciences citoyennes en rapport avec les données.

D’un côté, les différentes études menées sur les modes d’ouverture de la science ont constaté implicitement ce lien entre ouverture et données (Franzoni & Sauermann, 2014; Haklay, 2015; Houllier, 2016; Wiggins & Crowston, 2011), sans pour autant l’exploiter. Dans des disciplines comme la biologie l’environnement, ou le développement durable les chercheurs analysent les projets de science citoyenne selon une grille d’analyse basée sur les activités autour des données : la collecte, la labellisation, l’analyse, ou encore la construction de modèles prédictifs à partir de bases de données (Bonney et al., 2014; Haklay, 2015; Wiggins & Crowston, 2011). Par ailleurs, les cas d’utilisation des projets de science citoyenne autour des données se multiplient. Le projet Zooniverse, une des principales plateformes regroupant des projets de science citoyenne, permet de se rendre compte en partie du phénomène. Cette plateforme s’est donnée pour mission « d’utiliser la « sagesse de la foule » afin de produire des données exploitables et de bonne qualité » 1. Des projets de science citoyenne basés sur les données ont émergé dans une grande variété de disciplines comme la biologie (45 projets), la climatologie (9 projets), l’histoire (12 projets), la linguistique (9 projets), la médecine (7 projets), les sciences naturelles (48 projets), la physique (12 projets), les sciences sociales (9 projets), l’astronomie (17 projets)2.

L’avalanche de bases de données massives pousse le processus scientifique vers ses limites en terme de capacité de production pour traiter, stocker et coder ces données3 (Laney, 2001). Plusieurs structures scientifiques sont obligées de repenser leurs systèmes de stockage et de traitement des données pour répondre à un besoin grandissant (Hey, Tansley, & Tolle, 2009). Par exemple, les équipes travaillant sur le plus grand collisionneur de particules, le Large Hadron Collider (LHC), prévoient que la quantité de collision générée sera multipliée par 100 d’ici 2020 alors que les technologies de traitement des données existantes ne sont pas adaptées (Gligorov, 2015). Bien que leur système de stockage, de filtrage et de traitement des données soit souvent reconnu pour son efficacité unique au monde, l’ensemble du système est susceptible d’être saturé et de ne pas pouvoir accueillir en l’état cette augmentation du nombre de données disponibles. Une des idées soumises par un des experts en analyse de données serait de pouvoir systématiser une analyse en temps réel des données collectées afin de ne conserver que le produit de cette analyse et de supprimer les données restantes (Gligorov, 2015). L’application de ce principe transformerait profondément l’organisation du LHC, et pose des questions sur la réplicabilité des expériences tandis qu’actuellement toutes les collisions sont conservées en trois exemplaires différents pour éviter de perdre la trace des données brutes de l’expérience.

Par ailleurs, comme nous allons le voir dans ce chapitre, l’avalanche des données massives est susceptible d’avoir d’autres conséquences sur les méthodes d’analyse des données, mais également sur le modèle de raisonnement scientifique (Kitchin, 2014; Shmueli, 2011). Nous verrons notamment que l’avalanche de données massives est susceptible de modifier le processus de génération des hypothèses scientifiques dans un paradigme appelé « data-driven science », et donc d’impacter le processus de production de connaissances. Nous suggérerons que les sciences citoyennes peuvent apporter une réponse en terme de capacité de production à cette transformation, mais qui demande de penser à un mode de gestion adapté. Au cours des dernières décennies, la science est passée d’un contexte limité en données à une abondance des données disponibles (Miller, 2010). Cette transformation touche un large panel de disciplines scientifiques comme les sciences de la terre, la médecine et les domaines de la santé, la physique des particules, la génétique, mais également plusieurs disciplines des sciences sociales (George, Haas, & Pentland, 2014; Gligorov, 2015; González-Bailõn, 2013; Gray, 2009; Raghupathi & Raghupathi, 2014). L’émergence de ces données représente une opportunité pour les scientifiques afin d’étudier des phénomènes jusqu’alors inaccessible que de trop faibles échantillons ne permettaient pas d’envisager. Dans le domaine de la santé par exemple, de multiples avantages apportés par l’émergence de ces bases de données massives sont suggérés : détecter des maladies à des stades précoces ; gérer la santé des individus de manière plus rapide et efficace ; prédire ou estimer certains évènements comme des complications, des taux de remplissage des hôpitaux, ou les progressions de la maladie (Raghupathi & Raghupathi, 2014).

 

Cours gratuitTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *