L’optimisation des outils d’analyse en ligne

L’optimisation des outils d’analyse en ligne

Suite aux éléments mis en évidence dans le chapitre 2 quant à l’identification des forces et des faiblesses des technologies actuelles pour l’analyse de données spatiales, nous avons décidé de procéder à la sélection d’une approche d’analyse qui sera par la suite optimisée pour un contexte particulier, soit l’archéologie de terrain. L’archéologie est une discipline des sciences humaines/sociales dont l’objet d’étude est l’ensemble des vestiges matériels laissés par les anciennes sociétés humaines (Barceló, 2002). Dans bien des cas, pour étudier ces vestiges, les archéologues doivent dans un premier temps les retirer de terre. Ils utilisent alors une technique précise : la fouille. Lors de ce processus d’acquisition de leurs données, que ce soient des structures ou des objets, ils doivent tenir compte de leur localisation exacte au sein de la superposition de différentes couches de terre (= stratigraphie) formant le site archéologique qu’ils fouillent. Aussi, pour comprendre les relations stratigraphiques entre les différents vestiges, l’archéologue recherche un outil d’analyse performant qui répondrait entièrement à ses besoins. Suite à diverses rencontres avec des archéologues, l’analyse de leurs besoins a montré que, globalement, les archéologues désirent interroger fréquemment la base de données et visualiser, par une représentation cartographique tridimensionnelle, les « unités de fouille » pour faciliter leur interprétation. Des requêtes complexes ont été pointées comme d’intérêt pour eux. Des requêtes de type : – Comparer les unités de fouille entre elles en fonction de leur couleur, de leur granulométrie, de leur consistance et de leur position géographique et stratigraphique avec en plus la possibilité de comparer ces unités avec une céramique particulière (type et temporalité) contenue dans celles-ci » – Où se trouvent les unités de fouille dont la matrice (la terre) est gris claire, loameuse et molle et qui contiennent des fragments de col de jarre (céramique) du bronze ancien au sein d’un contexte majoritairement de l’âge bronze ? L’optimisation des outils d’analyse en ligne 39 Ces requêtes sont complexes car : – elles font intervenir plusieurs catégories de données (ex : les unités de fouille, la céramique) et des attributs différents dans une même requête ; – elles font aussi intervenir tant des données détaillées (ex : l’âge de bronze ancien,) que des données agrégées (ex : l’âge de bronze est l’agrégation de l’âge de bronze ancien, moyen et récent – la consistance molle est l’agrégation de la consistance meuble, friable, friable variée) Le contexte de fouille archéologique propose donc des défis intéressants et particuliers pour les outils d’analyse de données spatiales, notamment la nécessité: – d’analyser simultanément l’espace et le temps, dans un contexte où l’un peut influencer l’autre ; – de ne pas être ralenti par le logiciel d’analyse dans leur processus analytique, processus jugé très intuitif, peu structuré et peu typé ; – de faire évoluer les données dans le système (les interprétations de l’archéologue suivant des heuristiques qui ne peuvent pas toujours être formalisées de façon absolue) ; – de posséder une interface d’analyse conviviale, simple et accessible par des non spécialistes en informatique ; – puis d’exploiter au mieux les environnements tridimensionnels afin de mieux supporter l’interprétation des données, la création d’hypothèses et la découverte de nouvelle connaissance archéologique. Cette analyse des besoins nous a donc amené à identifier trois critères retenus pour faire la sélection de l’approche d’analyse: la rapidité et la facilité d’utilisation, la possibilité de faire évoluer les données dans le système et la visualisation tridimensionnelle.

La révision des données d’interprétation : nouveaux concepts

Principe Dans le contexte des bases de données spatiales, la mise à jour de données consiste à changer la valeur des donnée spatiales pour les faire correspondre le plus possible à l’état actuel de la réalité (Pouliot et al., 2004). Ce changement peut se concrétiser par un ajout, une modification, une suppression de données. La correction des données, quant à elle, consisterait à remplacer une donnée que l’on pense erronée par une nouvelle donnée que l’on sait meilleure en se basant sur des croyances assurées. La « modification volontaire » de données se distinguerait de la mise à jour par le fait que celle-ci n’implique pas un changement de la réalité ou une erreur de manipulation comme c’est le cas pour la correction de données. Cette modification se ferait simplement pour « voir ce que cela donnerait » et revenir éventuellement à l’ancienne donnée. Ce processus de modification volontaire est très important dans une démarche de recherche et de découverte de nouvelle connaissance, comme c’est entre autres, le cas en archéologie. En effet, la fouille archéologique est une action « destructrice ». Il n’y a donc pas de mise à jour possible par rapport à la réalité qui ne peut plus changer. Seule l’interprétation de l’archéologue sur ces données va le pousser à réviser certaines des données. La distinction que nous faisons ici entre mise à jour et révision est très importante à comprendre. Ce processus de révision consiste alors à effectuer des processus itératifs de modifications volontaires dans le but d’aboutir à la meilleure interprétation possible du site étudié. Cela influencera directement la manière de gérer cet évènement dans le système analytique. 42 Actuellement, il est difficile de comprendre comment se produit la révision dans un outil d’analyse en ligne pendant son utilisation. En effet, typiquement, un utilisateur ne va jamais écrire dans un cube de données (du moins, selon les principes théoriques). Par contre, il existe des situations exceptionnelles (comme en archéologie) où la donnée mise dans le cube doit être « modifiée » à la volée, i.e. réinterprétée afin d’être améliorée. Il ne s’agit pas d’une erreur à corriger dans le système transactionnel, ni d’une mise à jour puisque la situation terrain n’a pas changé. Il s’agit d’une amélioration que l’utilisateur veut apporter à la donnée car en fait, et c’est le cas en archéologie, l’analyste ne peut valider efficacement le peuplement du cube de données qu’en effectuant son analyse … avec le cube! Comme typiquement les données agrégées résultent de l’interprétation des données fines ET d’autres données agrégées, il est impensable ou même impossible de remonter aux données sources pour effectuer les changements désirés. De plus, comme les interprétations de l’archéologue suivent des heuristiques qui ne peuvent pas toujours être formalisées de façon absolue, il faut laisser à l’analyste archéologue la possibilité de revoir les données agrégées produites par algorithmes lors du peuplement initial du cube ET de conserver les résultats de cette nouvelle interprétation (qui ne suit pas les règles de l’algorithme d’agrégation utilisé initialement pour peupler le cube). Nous allons étudier dans la section suivante les différents types de données : celles sur lesquelles il sera possible d’effectuer des mises à jour et celles sur lesquelles il sera possible d’effectuer des révisions. Ainsi, cette différenciation, nous a permis de trouver deux grandes catégories de données : les données d’observation et les données d’interprétation qui seront deux données distinctes dans un système d’analyse en ligne.

Mise à jour vs révision

La mise à jour de données va se porter sur des données que l’on va qualifier de données d’observation. Ce sont des données sources qui sont issues de systèmes d’acquisition des données ou de systèmes transactionnels. Un récepteur de données GPS, une image satellite, un outil relevant les ventes et les achats en temps réel d’une entreprise, une prise de sang pour une analyse médicale sont des exemples de ces systèmes d’acquisition de données d’observation. Ces données sont habituellement traitées avant d’être utilisables dans les 43 systèmes transactionnels. Elles peuvent ensuite être ajoutées au système d’analyse et ne peuvent pas être modifiées au cours de l’analyse car elles représentent « la réalité observée ». Une correction de la donnée pourra cependant être envisagée si une mauvaise « saisie » de la réalité avait été effectuée. La révision de données va se porter sur des données issues d’interprétation et qualifiées de données d’interprétation. L’expression « données d’interprétation » correspond d’une certaine manière à l’expression « données dérivées » dans le contexte traditionnel de base de données, mais que dans le contexte actuel d’archéologie, ce terme « dérivées » ne serait pas approprié car les données archéologiques ne sont pas le résultat de traitements algorithmiques, mais bel et bien le résultat d’interprétations par un expert, d’une expertise non programmable. C’est pour mieux refléter cette nuance que nous avons préféré l’expression « données d’interprétation » à l’expression « données dérivées ». De plus, ces données d’interprétation étant saisies explicitement dans le système plutôt qu’obtenues par traitements, l’expression « données dérivées » aurait été fausse. Un budget prévisionnel, l’interprétation d’une analyse médicale, la recherche de nouveaux concepts,… sont autant d’exemples de processus permettant la création de données d’interprétation. Ces données ne proviennent pas du système d’acquisition dans le sens traditionnel du terme, mais sont directement issues d’un besoin de l’utilisateur à revoir son analyse afin d’enrichir, de comprendre et/ou d’expliquer sa perception de la réalité, ceci sans mettre à jour les données d’observation. De plus, le degré de certitude des données d’interprétation varie en fonction de la façon dont celles-ci sont interprétées. Par exemple, si elles sont directement issues d’une combinaison de données observables, elles auront un degré de certitude élevé de même que si ces données sont issues de phénomènes connus et/ou compris. En prenant l’exemple de l’analyse médicale, une donnée d’interprétation sur l’état de santé du patient va être générée en fonction de plusieurs données d’observation (tension, température corporelle, présence ou non d’infection,…) et d’autres données issues d’interprétation (stress, hygiène alimentaire, activité physique,…).