Structuration de l’information
La structuration de l’information représente toutes les techniques de production, de stockage et d’accès au contenu. Elle fait une certaine différence entre les bases de données et les corpus documentaire dans le sens où les techniques vont différer selon si l’on souhaite retrouver le contenu de chaque champ d’une base de données ou si nous souhaitons une recherche d’information en texte intégral.
Structurer un document permet d’inscrire le contenu dans une forme afin de le retrouver grâce à des index spécifiques par exemple, ou de le publier sous des formes diverses. Une structuration logique permet de définir des éléments hiérarchisés et d’assigner des attributs pour chaque éléments. Les objectifs de la structuration de l’information sont de permettre un meilleur traitement, ici automatique, des données. Pour rappel, une donnée est une information qui n’a pas été transformée pour être traitée dans le but de leur donner un sens, d’être communiquée.
Une structuration des données peut être différente en fonction du traitement informatique que l’on souhaite lui approprier, et cela faciliterait le travail d’application information et diminuer le nombre d’erreurs de traitement. Dans notre cas, nous parlerons essentiellement de structuration de données numériques puisque les données à traiter sont celles du corpus d’articles de presse issus de La Voix du Nord et récupérés sous format HTML via le serveur Europresse.
Dans le cadre du stage, la structuration de l’information va être utilisée afin de produire une base de connaissance dans le but de valoriser le patrimoine minier. Les données étant diffuses dans les contenus de la presse, la première tâche a donc été de collecter les informations, pour ensuite les structurer avant de les analyser. Il y a donc des enjeux de préparation du corpus et d’identification des éléments pertinents.
Plus précisément, et comme expliqué de manière plus abstraite dans la méthodologie, il a fallut transformer et structurer de façon automatique le corpus d’articles de presse afin de permettre au logiciel Tropes un meilleur traitement des documents pour l’analyse de leur contenu mais aussi dans le but de réutiliser ces documents dans le projet sans pour autant être gêner par le bruit des métadonnées non pertinentes à quelconques analyse.
Balisage et langages de structuration de l’information
Avant d’expliquer les termes de balisage et de langages de structuration de l’information, il est important de préciser que notre travail s’appuie sur la modélisation de l’information. La modélisation est « une technique d’ingénierie visant à comprendre un système, déjà existant ou à créer. Elle permet de « visualiser » […] un système tel qu’il est, ou tel que nous voudrions qu’il soit ; d’en préciser la structure ou le comportement suivant des points de vue qui éclairent la réalité de différentes façons, et ceci indépendamment d’un langage de programmation » (Dalbin, 2003). La modélisation permet donc de structurer les idées et simplifier la réalité dont la représentation est abstraite. En d’autres termes, le but est de construire un système pour le documenter.
En prenant l’exemple de notre mission, il a fallut modéliser et donc de structurer le corpus d’articles de presse en balisant totalement les fichiers afin de repérer très rapidement les titres des articles, le nom de leur source, leur numéro, leur date de publication et évidemment leur contenu. Il est plus aisé pour l’humain de se concentrer sur une zone du document à la fois plutôt que sur un ensemble de données non structurées limitant la perception ne serait-ce que d’un unique élément de l’information. Pour faire une comparaison avec une situation du quotidien, l’humain a du mal à retrouver l’objet qu’il cherche dans une maison qui n’est pas rangé alors que dans une maison bien rangé, il visualise déjà la pièce dans lequel l’objet peut se trouver éliminant ainsi toutes les autres pièces de la maison.