Mémoire Online: Implémentation d’un outil d’indexation et de recherche des textes en arabe

Sommaire: Implémentation d’un outil d’indexation

ABSTRACT
RESUME
TABLE DES MATIERES
LISTE DES TABLEAUX
LISTE DES FIGURES
INTRODUCTION GENERALE
1. Objectifs
1.1. Objectif général
1.2. Objectifs spécifiques
2. Méthodologie
3. Organisation du mémoire
CHAPITRE 1 : LA RECHERCHE D’INFORMATION
1. Introduction
2. Processus de recherche d’information
2.1. Modèles de RI
2.1.1. Le modèle booléen
2.1.1.1. Avantages
2.1.1.2. Inconvénients
2.1.2. Le modèle probabiliste
2.1.2.1. Avantages
2.1.2.2. Inconvénients
2.1.3. Le modèle LSI (Latent Semantic Indexing)
2.1.4. Le Modèle vectoriel
2.1.4.1. Avantages
2.1.4.2. Inconvénients
2.2. Critères d’évaluation des SRI
2.2.1. Évaluation
2.2.1.2. Précision
2.2.1.3. Rappel
2.2.2. La courbe de Rappel/Précision
2.2.3. Mesures globales
2.2.3.1 La précision moyenne interpolée IAP (Interpolated Average Precision)
2.2.3.2. La R-précision
2.2.3.3. La F-mesure [Van79]
3. RI en langue arabe
3.1. Les ressources arabes
3.1.1. Corpus
3.1.2. Dictionnaire
3.1.3. Outils
3.1.3.1. Analyseurs morphologiques
3.1.3.2. Les concordanciers
3.1.3.3. Racineurs
3.2. Lemmatisation
4. Conclusion
CHAPITRE 2 : PROPRIETES MORPHOLOGIQUES DE L’ARABE
1. Introduction
2. Particularité de la langue arabe
3. Morphologie arabe
4. Structure d’un mot
4.1. Les antéfixes
4.2. Les préfixes
4.3. Les suffixes
4.4. Les post fixes
5. Les catégories des mots
5.1. Verbe
5.2. Nom
5.3. Particule
6. Problèmes du traitement automatique de l’arabe
7. Conclusion
CHAPITRE 3 : PRETRAITEMENTS NECESSAIRES
1. Introduction:
2. Encodage
2.1. L’Unicode:
2.2. UTF-8
2.3. Produits Unicode supportant l’écriture arabe
2.4. L’encodage de corpus et requêtes:
3. Segmentation:
3.1. Définition
3.2. Le système d’écriture arabe:
3.4. Les types de segmentation
3.5. Les clitiques
3.6. Segments arabes
3.6.1. Segments principaux
3.6.2. Segments secondaires
3.7. Les solutions de segmentation
3.7.1. Le modèle de segmentation: Guesser [Bes03]
3.7.1.1. Le Guesser (pronostiqueur) de clitiques.
3.7.1.2. Capteur de Clitiques.
4. Les mots vides
5. Normalisation
6. Conclusion
CHAPITRE 4 : LEMMATISATION
1. Introduction
2. Définition
3. Difficultés de la lemmatisation des mots arabes
4. Les Techniques de lemmatisation
4.1. La technique de dictionnaire
4.2. Suppression d’affixe
4.3. Techniques d’analyse morphologique
4.4. Techniques statistiques
4.5. Techniques de traduction
5. La méthode proposée
5.1. Suppression d’affixe
5.2. La technique de dictionnaire
5.3. Techniques d’analyse morphologique
6. Conclusion
CHAPITRE 5 : IMPLEMENTATION ET EXPÉRIMENATION
1. Introduction
2. Le corpus de test
3. Implémentation
3.1. Indexation
3.2. Recherche d’information
3.3. Architecture du système
3.3.1 Encodage
3.3.2. Normalisation
3.3.3. Segmentation
3.3.4. Élimination des mots vides
3.3.5. Lemmatisation
3.3.5.1. La méthode PS-M
3.3.5.2. La méthode SP-M
3.3.5.3. La méthode PS+M (Préfixe Suffixe Avec Modèle)
3.3.5.4. La méthode SP+M
3.3.5.5. La méthode HY (Hybride)
3.3.6. Pondération des termes d’indexation
3.3.7. Techniques de création des index
3.3.8. Méthode de recherche
3.3.8.1. L’appariement document-requête
4. Expérimentation et évaluation
5. Conclusion
CONCLUSIONS ET PERSPECTIVES
1. Conclusion
2. Perspective
2.1. Lemmatisation des mots
2.2. Approche Sémantique
2.3. Approche Hybride
BIBLIOGRAPHIE

Extrait du mémoire implémentation d’un outil d’indexation

CHAPITRE 1 : LA RECHERCHE D’INFORMATION
1. Introduction:
Le but de la recherche d’information (RI) est de développer des systèmes permettant de retrouver les documents pertinents à une requête d’utilisateur, à partir d’une base de documents volumineuse. La notion de pertinence est très complexe. De façon générale, dans un document pertinent, l’utilisateur doit pouvoir trouver les informations dont il a besoin. C’est sur cette notion de pertinence que le système doit juger si un document doit être retourné à l’utilisateur comme réponse. Pour cela, il est important d’effectuer certains prétraitements sur les documents et les requêtes, c’est ce qu’on appelle l’indexation. Cette opération vise à construire une structure d’index qui permet de retrouver très rapidement les documents incluant des mots demandés.

L’indexation consiste donc à associer à chaque document (ou à chaque requête) un descripteur (également nommé index) formé de l’ensemble des termes d’indexation extraits de son contenu.
Pour déterminer si la représentation d’un document correspond à celle de la requête, on doit développer un processus d’évaluation. Différentes méthodes d’évaluation ont été développées, en relation avec la représentation de documents et de requêtes. C’est cet ensemble de représentation et de méthode d’évaluation qu’on appelle un modèle de RI; ils permettent :
– d’offrir une interprétation aux descripteurs en donnant une représentation interne des textes et des questions basée sur les termes d’indexation ;

– de définir les stratégies à adopter pour comparer les représentations des documents et des requêtes. Leur comparaison donne lieu à un score qui traduit leur degré de ressemblance ;
– de proposer éventuellement des méthodes de classement des résultats retournés à l’utilisateur.
Une fois les représentations des documents et des requêtes mises en correspondance, le système retourne à l’utilisateur la liste des documents répondant à sa requête. Une partie de ce chapitre y est consacrée.
Ne pas oublier aussi que la croissance rapide du World Wide Web (WWW) accompagnée d’une explosion des outils Web multilingues, de Web spider, d’indexation, et de recherche influent effectivement sur le développement dans le domaine de RI arabe.
2. Processus de recherche d’information
Une information est une donnée dont l’utilisateur a besoin pour résoudre un problème particulier. Il exprime donc son besoin sous forme de requête.
………..

Si le lien ne fonctionne pas correctement, veuillez nous contacter (mentionner le lien dans votre message)
Implémentation d’un outil d’indexation et de recherche des textes en arabe (5.4 MO) (Cours PDF)
Implémentation d’un outil d’indexation

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *