Manipulation de représentations géométriques relatives aux informations spatiales

Analyse des besoins pour la valorisation d’un corpus a connotation territoriale

Les premiers travaux ont tout d’abord consiste en uneetude preliminaire du corpus numerise. Celle-ci a revele une connotation geographique predominante dans les documents, aussi bien dans les oeuvres litteraires, traitant de recits de voyages, que dans les periodiques locaux dont les articles relatent des informations sur le territoire. Une exp erimentation a montre par exemple que pres de 10 000 entites nommees a connotation spatiale ontete extraites de 10 des livres du corpus (soit 600 000 mots). Une exploration de ce corpus du point de vue de l’information geographique semble donc ˆetre une demarche pertinente. Nous nous sommes alors aussi interesse a la caracterisation des types d’usagers susceptibles d’ˆetre interesses par la consultation d’un tel corpus. Caracteristiques du corpus La mediatheque, dans une optique de valorisation, a numerise et realise une ROC3 de son fonds documentaire patrimonial afin de l’indexer dans un systeme de recherche documentaire. De cette maniere, les documents numerises peuvent beneficier d’une nouvelle visibilite et ˆetre parcourus par un large public.

Il faut preciser que cette numerisation, compte-tenu du coˆut de l’operation, aete realisee sans correction d’erreurs ni recuperation de la structure des documents. Ce corpus se compose de documents aux formats divers (oeuvres litteraires, recits de voyage, journaux, cartes geographiques anciennes, lithographies, cartes postales, etc.) et qui ont pour denominateur commun de traiter d’un territoire restreint (les Pyrenees4), dans une periode de l’Histoire determinee (principalement du XVIIIe et du XIXe siecle). Une lecture du corpus nous a permis de constater que de nombreuses informations sont associees a une localisation nommee du territoire auxquelles elles se referent. Particuli erement dans les documents textuels, de nombreuses informations sont associees a des lieux geographiques, des indications spatiales, des descriptions de paysages, des indicateurs temporels et de dates impliquant un interˆet marque de ces documents pour l’aspect geographique. La majorite des documents textuels (oeuvres litteraires) sont constitues de recits de voyage (voir un extrait dans la Figure. 1.1). Les auteurs de ces oeuvres utilisent la plupart du temps une structure identique. Le texte est decoupe en paragraphes decrivant un passage de leur voyage.

Ce passage peut consister en une description d’itineraire, une description d’uneetape, un point de vue ou une comparaison de lieux. Nous avons ainsi degage ces differents motifs spatiaux recurrents dans les recits de voyage. Caracteristiques des usages potentiels Les documents qui composent le corpus sont particulierement interessants de par leur richesse en indications geographiques du territoire pyreneen. Un usage touristique est envisageable, plus precisement pour un tourisme rural, permettant la decouverte d’une region. L’histoire d’une region peut aussi vraisemblement interesser les gens qui l’habitent. Un usage pedagogique peut alors ˆetre defini pour enrichir les connaissances de ses habitants eteveiller les plus jeunes a leur lieu de vie. Enfin nous avons imagine un usage de specialiste qui peut parcourir les ressources de la mediatheque plus efficacement en utilisant les outils avances de Gestion Electronique de Documents ( GED ou GEIDE5). Tous ces usages n ecessitent donc l’exploitation du corpus documentaire via un systeme d’information adapte, en particulier capable d’offrir des possibilites de recherche du point de vue du territoire decrit par ce corpus. Des systemes de recherche d’information automatiques apportent d’ailleurs de plus en plus une aide complementaire aux professionnels des bibliotheques [FG04].

Travaux existants en Recherche

Documentaire et Sys- temes d’Information Geographique Nous avonsetudie differents outils existants dans divers domaines qui tentent de repondre aux problemes poses. D’une part uneetude du domaine de la recherche d’information et plus precisement des systemes de gestion documentaire classiques aete realisee afin d’expertiser les manques potentiels pour une gestion de l’information geographique. D’un autre cˆote, nous avonsetudie les dernieresevolutions des systemes d’information geographique concernant l’inclusion de fonctions spatiales qualitatives (ou floues) et leur integration dans des systemes de recherche d’information specifiques. La Recherche d’Information (RI) Les technologies employees dans les systemes d’acces a l’information textuelle, dits de Recherche de l’Information ou de Recherche Documentaire ontete con¸cues dans les annees 1970. Elles consistent en des mesures de similarite afin de retrouver des documents pertinents, a l’aide de requˆete en langage naturel, structure ou bien par un ensemble de documents utilises comme requˆete. A la fin des annees 1990, ces techniques sont devenues insuffisantes pour l’exploitation de grandes bases de donnees textuelles (comme les fonds documentaires) [Sch97].

Des domaines varies de la recherche en informatique, tels que le Traitement Automatique du Langage Naturel (TALN) ou l’Aprentissage Automatique (AA), sont venus enrichir les modeles de recherche d’information, ontelargi leur domaine d’application et ont permis a un plus grand nombre d’utilisateurs de les exploiter [Zar99]. Caracteristiques des outils de GED Un systeme de Gestion Electronique des Documents est un systeme informatise de gestion, classement, stockage, archivage, recherche de documentselectroniques ou de documents a numeriser. Un exemple d’utilisation courant est la numerisation de masse de documents papiers. Le systeme de GED de la MIDR, comme la plupart des systemes utilisant des moteurs de recherche, propose une indexation par notices descriptives et un regroupement des documents par themes en plus du systeme classique de recherche en texte integral. L’indexation par notices descriptives permet de fournir une interface de requˆetage precis a l’utilisateur specialise. Elle permet de recuperer de l’information au grain des documents et l’indexation « plein-texte » permet d’acceder a leur contenu. Cependant l’acces ne se fait alors qu’a deux niveaux, celui du document et celui beaucoup plus bas obtenu grˆace a la recherche a partir de mots cles du plein-texte. Or il serait interessant, en particulier pour les oeuvres litteraires, de pouvoir proposer un acces fragmente en plusieurs niveaux, ou seulement une partie de l’oeuvre, de taille variable selon le type de recherche, est retournee a l’utilisateur. Cet outil n’offre donc qu’une reponse generique de recherche d’information et ne tient pas compte des specificites du corpus, comme leur connotation geographique par exemple.

De plus il necessite beaucoup de manipulations manuelles pour l’indexation, notamment pour le remplissage des notices descriptives. Caracteristiques des outils de SIG Au depart les Systemes d’Information Geographique sont nes de besoins en gestion d’infrastructures (eau, gaz,electricite, etc.) pour l’amenagement du territoire. Ce sont des systemes dedies a la gestion de l’information geographique (sa composante spatiale). Ils viennent de la communaute « base de donnees » et ont repondu a la demande croissante d’outils exploitant des ressources geographiques (cartes, releves de donnees geo-referencees, etc.). Ils ne sont cependant pas utilisables directement dans un systeme de recherche documentaire spatial, car ils sont adaptes a des donnees structurees. Or l’indexation spatiale du contenu d’oeuvres litteraires necessite une gestion de donnees non-structurees et une gestion du contexte dans lequel sont exprimees les informations spatiales, difficiles a interpreter automatiquement. Pour pallier ce manque, des travaux sur l’indexation spatiale ont propose des moyens d’utiliser les SIG en y integrant des fonctions specifiques au raisonnement qualitatif [Ben96], domaine approprie a la modelisation de l’expression de l’information spatiale en texte libre.

Organisation du document

Notre memoire de these se compose de deux parties principales. Dans la premiere partie, un premier chapitre traite de la recherche d’information et des techniques classiques pour la recuperation d’information dans du texte. Nous exposons les limitations de ces techniques pour la recherche ciblee sur un domaine specifique comme le spatial et nous abordons alors les approches linguistiques et cognitives traitant de ce probleme. La presentation de ces travaux permet de determiner les methodes existantes utilisables dans un outil d’interpretation et d’indexation. Nous detaillons ensuite dans un deuxieme chapitre les travaux existants sur l’interpretation et la representation de motifs spatiaux definis par notre classification. Nous presentons plus particulierement le contexte de description d’itineraire. Le chapitre suivant porte sur la manipulation de cette information spatiale une fois qu’elle est interpretee et structuree. Des travaux sur l’indexation sont presentes, via l’utilisation de bases de donnees specifiques a la gestion d’information geographique, les Systemes d’Information Geographique. Nous abordons aussi des travaux de recherche relatifs a l’extraction d’information provenant de donnees semi-structurees. La deuxieme partie de ce memoire est consacree a notre contribution. Nous presentons dans le chapitre 5 nos preconisations quant a l’elaboration d’un systeme de recherche specialise dedie a l’information spatiale, base sur une indexation multi-niveaux.

Nous y definissons les principaux modeles utilises dans ce systeme. Le chapitre 6 presente un premier prototype developpe grˆace a ces modeles afin de valider nos hypotheses et de constituer un processus de base d’indexation a un premier niveau, intraphrastique. Ce prototype (le prototype PIV) implemente donc toutes les parties d’une indexation et d’une recherche d’information spatiale. Il aevolue tout au long de la these et a connu de nombreuses ameliorations, effectuees par desetudiants ou d’autres membres de l’equipe de recherche. Uneevaluation de ce prototype est presentee. Le dernier chapitre presente les debuts d’un travail sur l’indexation multi-niveaux basee sur l’indexation au premier niveau et la classification en motifs spatiaux de documents textuels. Nous presentons les caracteristiques definies pour la classification. L’implementation de ce travail constitue une amelioration potentielle pour le prototype PIV. Nous proposons enfin une premiere experimentation de ce systeme. Un chapitre de conclusion fait la synthese de nos resultats et liste l’ensemble des perspectives. Nous concluons ce memoire sur les apports theoriques et concrets de notre travail dans le domaine de la RI specialisee et des outils d’interpretation et d’indexation d’information spatiale qualitative. Nous presentons en quoi le prototype PIV, bˆati sur une architecture ouverte et modulaire sous forme de services web, permet d’envisager une plate-forme de recherche pour des travaux a venir dans les domaines de la RI, du TALN, du traitement de requˆetes spatiales et de la representation / visualisation de donnees resultants d’une requˆete spatiale.

Table des matières

Table des figures
Liste des tableaux
Partie I Introduction generale
Chapitre 1 Contexte de la these
1.1 Analyse des besoins pour la valorisation d’un corpus a connotation territoriale
1.2 Travaux existants en Recherche Documentaire et Systemes d’Information Geographique
1.3 Synthese de l’existant
1.4 Enonce de la problematique
1.5 Contribution
1.6 Organisation du document
Partie II Travaux existants
Chapitre 2 Traitement de l’information dans le texte : du cas general au cas du spatial
2.1 Introduction
2.2 Traitement de l’information dans la Recherche Documentaire
2.2.1 Definitionspre-requises
2.2.2 Methode classique de ponderation pour l’indexation
2.2.3 Modeles de RI
2.2.4 Evaluation des SRI
2.2.5 Evolution des techniques de RI
2.2.6 Cas du spatial en RI
2.3 Analyses linguistiques et cognitives pour l’information spatiale
2.3.1 Des elements du discours a leur interpretation dans un raisonnement spatial qualitatif
2.3.2 Le concept cible / site
2.4 Conclusion
Chapitre 3 Motifs spatiaux et categorisation de l’itineraire
3.1 Introduction
3.2 Contextes spatiaux exprimes dans un texte
3.3 Cas particulier : les itineraires
3.3.1 Proprietes linguistiques
3.3.2 Processus cognitif
3.3.3 Modeles existants
3.3.4 Definitions d’un point de repere dans un itineraire
3.3.5 Exemple de production d’une description d’itineraire
3.4 Conclusion
Chapitre 4 Manipulation de representationsgeometriques relatives aux informations spatiales
4.1 Introduction
4.2 Extraction et recherche d’information geographique
4.2.1 Detection des entitesnommees
4.2.2 Indexation et appariement avec une requˆete spatiale
4.3 Indexation dans les Systemes d’Information Geographique
4.3.1 Fonctionnalites des SIG
4.3.2 Structures de stockage des donneesgeographiques
4.3.3 Methodes d’indexation spatiale
4.3.4 Langage d’interrogation spatiale
4.3.5 Essais de SIG prenant en compte le qualitatif
4.4 Conclusion
Partie III Contribution
Chapitre 5 Preconisations pour une recherche d’information spatiale
5.1 Introduction
5.2 Rappel et recentrage de la problematique
5.3 Modelisation de l’information spatiale
5.3.1 Definition de l’EntiteGeographique (EG)
5.3.2 Modele Pivot pour l’interpretation de l’information spatiale
5.3.3 Indexation spatiale par motifs
5.4 Problematique de la representationgeo-referencee pour l’indexation
5.4.1 Methodes d’indexation disponibles
5.4.2 Geometries disponibles pour les representations
5.4.3 Calcul d’appariement pour la phase de recherche
5.5 Conclusion
Chapitre 6 Systeme d’information spatiale pour les corpus territorialises
6.1 Introduction
6.2 Plate-forme PIV
6.3 Systeme d’extraction et d’indexation d’information
6.3.1 Traitement semantiqueassocie au modele
6.3.2 Validation et geo-referencement
6.3.3 Indexation au grain paragraphe
6.4 Systeme de recherche d’information
6.4.1 Expression et traitement de la requˆete
6.4.2 Calcul de la pertinence « spatiale »
6.4.3 Visualisation des resultats
6.5 Evaluation intermediaire
6.5.1 Evaluation de la partie EI du systeme PIV
6.5.2 Evaluation de la partie RI du systeme PIV
6.6 Bilan des realisations et perspectives
Chapitre 7 Indexation spatiale par motifs
7.1 Introduction
7.2 Outils existants
7.2.1 Methode de Support a Vastes Marges
7.2.2 Construction des caracteristiques
7.3 Implementation des caracteristiques
7.3.1 Propriete de dispersion
7.3.2 Propriete d’ordonnancement
7.3.3 Propriete de saillance
7.3.4 Calcul de la representationassociee
7.3.5 Experimentation sur echantillon
7.4 Conclusion
Partie IV Conclusion
Chapitre 8 Conclusion generale
8.1 Synthese
8.2 Perspectives
Annexe
Annexe A
Extraits de corpus utilises dans le cas d’etude
A.1 Extrait de l’exemple 1
A.2 Extrait de l’exemple 2
Annexe B Schema XML du modele pivot
Annexe C Lexiques utilises dans le processus d’analyse linguistique
Annexe D Grammaire DCG utilisee durant le processus semantique
Annexe E Signatures des services web composant le prototype PIV
E.1 Services web de traitement semantique
E.1.1 Module de segmentation
E.1.2 Module d’analyse morpho-syntaxique
E.1.3 Module d’analyse semantique
E.2 Services web d’indexation
E.3 Service web dedie au stockage dans une base de donnees
E.4 Services web d’appariement
E.5 Services web annexes
Bibliographie