Répartition spatio-temporelle des données et de la qualité de l’information
REPARTITION SPATIO-TEMPORELLE DES UNAR
Nous avions choisi dans le chapitre précédent de raisonner en temps calendaire et de découper nos périodes d’étude en intervalles de 100 ans. Cette résolution sera ici conservée, et nous visualiserons le changement dans le nombre de données siècle en siècle. Nous avons vu dans le chapitre 1 de la première partie que diverses méthodes de répartition temporelle des données ont été testées par les chercheurs qui se sont attelés à la question (Lawrence, 2012 ; Bevan et al., 2013 ; Favory, Nuninger, 2008). Une multitude de méthodes pourraient en fait être testées : cette répartition ne peut qu’être totalement artificielle, et relève d’un choix de l’analyste de composer entre ce qu’exprime la base de données -c’est-à-dire les éléments qui ont été collectés sur le terrain et au cours des recherches des archéologues- et les besoins de l’analyse spatiale. Nous avons donc choisi d’effectuer cette opération en élaborant deux méthodes différentes mais complémentaires, c’est-à-dire chacune permettant d’accéder à un aspect différent de la relation entre les données. Les résultats issus de ces deux méthodes de répartition des UNAR dans le temps doivent donc être lus simultanément, afin de mettre en évidence les invariants dans le temps et l’espace, quelle que soit la méthode choisie, mais aussi d’identifier les artefacts. La comparaison entre ces deux méthodes permet également de s’affranchir de la comparaison à un modèle théorique pour effectuer cette répartition.
Méthode 1 : Répartition aléatoire des UNAR dans chaque intervalle de 100 ans
La première méthode élaborée pour répartir les UNAR dans les intervalles de 100 ans consiste à effectuer un tirage aléatoire au sein de chaque période. Nous nous intéressons tout d’abord aux périodes datées avec le plus de finesse, c’est-à-dire ayant la résolution temporelle la plus petite. Les UNAR associées à ces périodes sont réparties aléatoirement dans chacun des intervalles de 100 ans des périodes associées (Figure 23).Ainsi, chacune des 56 UNAR de la période 2 sera attribuée indifféremment à l’un des trois intervalles de 100 ans de la période, et chacune des 85 UNAR de la période 3 sera attribuée à l’un des deux intervalles de la période 3. En effet, nous ne disposons d’aucune information permettant de déterminer si une UNAR a plus de chances de se situer dans tel ou tel intervalle de 100 ans de la période à laquelle elle est associée. Certaines UNAR n’ont en revanche pu être datées aussi finement que dans le cas précédent. Elles sont donc associées à des périodes plus longues, recouvrant plusieurs sous-périodes. Dans ce cas, nous disposons donc d’une information supplémentaire : les UNAR de la sous-période recouvrant les autres seront attribuées de manière certes aléatoire au sein de la période, mais plus les sous-périodes associées comporteront d’UNAR, plus elles auront de chances de se situer dans ces intervalles de 100 ans (Figure 24).
Méthode 2 : Répartition cumulative des UNAR dans chaque intervalle de 100 ans
Chaque UNAR est ici attribuée à chaque intervalle de 100 ans de la période à laquelle elle est associée (Figure 25). Ainsi, chaque UNAR apparaîtra plusieurs fois au cours de la période à laquelle elle est associée si celle-ci dure plus de 100 ans (par exemple : les périodes 2, 3 et 4).Les UNAR présentes dans chaque intervalle de 100 ans sont par la suite sommées, afin de n’obtenir plus qu’un niveau de datation, c’est-à-dire un nombre d’UNAR pour chaque intervalle de 100 ans. On pourrait se demander pourquoi nous n’avons pas divisé le nombre d’UNAR par le nombre de tranches de 100 ans pour mieux les répartir dans la méthode 2. En fait, une telle répartition serait tout aussi artificielle que la nôtre, et la pondération qu’elle offrirait pourrait même introduire de graves erreurs.Après un tel découpage, le rapport entre les périodes s’inverse : la période A, dont le nombre d’UNAR était plus faible, est désormais découpée en siècles présentant plus d’UNAR que la période B, qui en comportait un nombre plus élevé. Cela rend donc proportionnels la longueur de la période et le nombre d’UNAR, ce qui est, selon nous, un postulat extrêmement fort et injustifiable thématiquement. La démarche que nous choisissons d’adopter est donc de conserver le nombre total d’UNAR par tranche de 100 ans, et de considérer la pondération des données en comparant cette méthode de répartition à la méthode 1, par tirage au sort, explicitée plus haut. Cette problématique de la répartition temporelle des données peut s’assimiler à celle de l’estimation de leur répartition spatiale, que l’on rencontre plus fréquemment en géographie et en archéologie spatiale. Comprendre la répartition des données dans l’espace s’effectue le plus souvent par la comparaison à un modèle théorique, pouvant par exemple postuler l’homogénéité de la répartition des découvertes. C’est le choix effectué par l’équipe ArchaeDyn en élaborant les cartes de représentativité des zones étudiées : « Celles-ci permettent de comparer la densité des découvertes au sein d’un maillage régulier de la zone étudiée au nombre de points que recevrait chaque maille en cas d’homogénéité de la répartition des découvertes (valeur théorique = nombre de sites/nombre de mailles). Apparaissent ainsi des zones « sur-représentées » ou « sous représentées » qui peuvent, dans chacun des deux cas, s’expliquer par une réalité archéologique ou par des biais documentaires » (Favory, Nuninger, 2008). Cette entreprise s’avère possible notamment parce qu’elle est envisagée de manière statique et non dynamique : le modèle théorique, et donc la représentativité des phénomènes, n’est inhérent qu’à une période donnée (dans le cas de l’étude d’ArchaeDyn, l’âge du Bronze), et ne peut être utilisé pour percevoir le changement d’une période à l’autre. Alors que notre problématique de répartition est ici spatio-temporelle, nous choisissons donc, à défaut de modèle théorique, de confronter et de prendre simultanément en considération deux méthodes complémentaires de répartition spatio-temporelle des données.