Les annotations sémantiques, discursives, élaborantes

Les annotations sémantiques, discursives,élaborantes

L’annotation sémantique : un index pour mettre la main sur le document

D’après (Leech, 1997) ou (Habert, 1997) dans le cadre de l’annotation de corpus en linguistique informatique, l’annotation est un enrichissement, une valeur ajoutée, consistant en un apport d’information de nature interprétative aux données brutes.

En effet, il est difficile de séparer d’une façon stricte représentation des données et interprétation. J. Véronis (2000) adopte donc une vue assez radicale, en appelant annotation « tout apport d’information aux données brutes originales ». Cependant, l’annotation est un terme qui est souvent ramené à son sens d’étiquette et son usage indexant. Dans cet usage, les marginalia anglaises déposées sur un document et reliées au sens de to annotate, s’effacent au profit de l’annotation sémantique taggée dans le document pour l’indexer. Ainsi, de l’index 12 qui indique un lieu, l’annotation est devenue la ressource elle-même selon certains auteurs, le document étant modifié dans son contenu même par cette annotation informatique. L’annotation sémantique est la descendante de la marque utilisée sur un document pour situer et inventorier. L’annotation sémantique est une métadonnée (une donnée sur une donnée) qui permet d’associer une information exploitable à une ressource (Prié et Garlatti, 2004). Afin de structurer le nombre grandissant d’informations et de documents déposés sur le Web, l’initiative du Web Sémantique propose une organisation des documents et informations pour les rendre accessibles et partageables pour différents services Web. Cette initiative d’interopérabilité impose le recours à l’annotation sémantique pour donner un sens à l’information en tatouant des métadonnées dans le corps des documents. Le WS développe alors des langages de balise normés qui permettent d’annoter les entités du Web. Il s’inspire en cela de la recherche documentaire qui utilise des descripteurs, des index permettant de retrouver un document. Ces problèmes de typage des informations se posent aussi dans le cadre d’un travail distribué où les membres d’un projet échangent un grand nombre de documents.

Le Web Sémantique

Le Web Sémantique (WS) (Berners-Lee et al., 2001) provient des efforts de normalisation du Web dans le consortium du W3C (World Wide Web), mais également d’autres domaines comme la recherche d’information, le traitement automatique des langues ou la représentation de connaissances. Il est vu comme « un vaste espace d’échange de ressources entre êtres humains et machines permettant une exploitation, qualitativement supérieure, de grands volumes d’informations et de services variés » (Laublet et al., 2004, p. 1). Un espace si vaste que les efforts de normalisation ont pour but non seulement l’interopérabilité des systèmes mais aussi la gestion du nombre grandissant de documents sur le Web. Pour ce faire, le WS s’applique à améliorer la gestion de document par des techniques de Recherche d’Information (RI), en incluant entre autres des techniques d’extraction d’information (de termes et de relations) et de structuration des données (ontologies). Le WS propose différents outils qui utilisent des données normalisées ou qui aident à structurer les données du Web et à leur associer une sémantique. Une couche syntaxique est ajoutée aux informations disponibles sur le Web pour représenter l’apport sémantique. C’est elle qui permet une intercompréhension machine-machine ou homme-machine. Tout élément du WS est étiqueté. Cette étiquette est comprise par des systèmes logiciels ce qui permet leur interopérabilité (services Web). Ces étiquettes normalisées et comprises par des agents humains et logiciels permettent d’attribuer une sémantique aux entités du Web.