Modélisation sémantique et indexation

Le traitement automatique du langage naturel

D’abord, nous définissons le langage naturel comme un moyen de communication interhumaine tel que le français, l’anglais, l’arabe…etc. par contre les langages formels sont développés par l’être humain en utilisant la logique, le mathématique et l’informatique. Ainsi que, une définition acceptable du TALN serait de le considérer comme :
Le domaine d’étude des techniques automatiques d’analyse (compréhension) et de génération (production) d’énoncés oraux ou écrits.
Deux raisons principales, souvent conjointes dans la réalité, justifient le TALN. Tout d’abord, sur un plan théorique, le TALN permet de vérifier les théories linguistiques ou de manière plus générale, de mieux comprendre comment les humains communiquent entre eux. A cette fin, l’ordinateur est utilisé pour simuler les capacités humaines de compréhension et de production de la langue naturelle. Il y a d’autres raisons à vouloir s’intéresser au TALN : L’exploitation de la richesse de la langue naturelle (support d’information), L’acquisition d’une communication Homme-Machine naturelle.
Les résultats ainsi obtenus peuvent ensuite être comparés aux performances humaines. Ensuite, sur un plan pratique, le TALN rend possible la construction des systèmes opérationnels qui débouchent sur des produits commerciaux, largement diffusés.
Parmi les plus connues, citons : la traduction automatique : application pionnière apparue dès les années 1950 ; la correction orthographique ou grammaticale ; l’indexation des documents et de la recherche d’information (moteurs de recherche) ; la reconnaissance vocale (la dernière version de Windows 10 l’intègre en standard) ; la synthèse de la parole (horloge vocale) ; la génération automatique de textes ; le résumé automatique de textes ; le filtrage de texte.

Les niveaux de traitements

Pour une meilleure compréhension des énoncés de la langue naturelle, on présente dans cette partie les différents paliers du traitement de la langue. L’objectif de cette présentation est de voir l’intérêt de ces niveaux afin de réaliser des applications qui sont constituée par l’ensemble des modules.
Le problème de cette hiérarchie des niveaux est le cumul des difficultés durant la progression et les outils actuels disponibles se font moins performants, et ils sont limités au domaine particulier. Niveau morphologique : L’identification des items lexicaux des textes se fait dans la phase d’analyse morphologique, ainsi que durant cette phase le mot est décomposé en radical et d’affixe (préfixe et suffixe). Par exemple, charges peut être le nom féminin, « charge » au pluriel ou bien le verbe « charger » à l’indicatif ou au subjonctif présent. Cette opération est aussi appelée lemmatisation. Une partie des ambiguïtés peut être levée au niveau syntaxique du processus d’analyse .
Niveau syntaxique : Après la phase d’analyse morphologique, un certain nombre de solutions sont envisageables pour les mots d’une phrase. Une analyse syntaxique permet grâce aux règles, de ne conserver que les solutions qui sont possibles. Par exemple, prenons la phrase « Des charges supplémentaires seront retenues contre l’accusé. ». Le mot, « charges », comme nous l’avons vu dans la partie consacrée à la morphologie, peut être le nom féminin « charge » au pluriel, comme le verbe «charger» à l’indicatif ou au subjonctif présent. La morphologie possible des mots constituant le groupe nominal sujet « des charges supplémentaires » (pour « des » déterminant pluriel et pour «supplémentaires» adjectif masculin ou féminin pluriel) rendent ici la seule solution possible pour «charges» nom féminin pluriel.
La recherche pour mettre au point des analyseurs fiables, est encore florissante. La tâche est complexe puisqu’il n’existe pas à l’heure actuelle des règles grammaticales pouvant couvrir l’ensemble des phrases correctes dans aucune des langues existantes. Ainsi, deux grandes familles d’analyseurs coexistent : approche symbolique : ces analyseurs se basent sur des règles grammaticales et nécessitent donc une recherche et une implémentation de ces règles. approche statistique : ces analyseurs se basent sur des méthodes d’apprentissage à partir de corpus annotés manuellement ou automatiquement pour produire des règles pondérées.

Les difficultés sémantiques du TALN

Le traitement automatique du langage naturel pose plusieurs problèmes, parmi eux on cite : l’ambiguïté du langage, et la quantité d’implicité contenue dans les énoncées de la langue naturelles.
L’ambiguïté : Malgré le développement des outils informatique matériel et logiciel, L’ambiguïté reste l’un des obstacles du traitement automatique du langage naturel. La nature et la spécificité des langues rendent leur traitement automatique difficile. L’ambiguïté de la langue peut être source de calembours ou donner lieu à des quiproquos . Il y a plusieurs interprétations pour un mot dans un énoncée : Quel prix vaut ce sacrifice ?
A deux interprétations possibles : c’est le prix qui vaut le sacrifice, ou le sacrifice qui vaut le prix. Dans une situation de communication, l’auditeur ne perçoit pas nécessairement l’ambiguïté de la phrase ; c’est en générale le contexte de l’énoncé qui met en évidence le sens du message de l’interlocuteur. Des ambiguïtés peuvent se présenter à tous les niveaux de description de la langue: lexicales (catégorielle et sémantique), syntaxique, sémantique et pragmatique .
L’implicité : La communication entre les êtres humains est réalisée par l’activité langagière et dans ce cas les énoncés de la communication sont compréhensibles parce que l’être humain dispose de plusieurs connaissances du contexte par contre des difficultés majeurs sont posées quand il s’agit de l’interaction homme machine car la machine n’a pas dotée de toutes les connaissances du monde et de son fonctionnement. Pour cette raison la majorité des énoncés restent incompréhensible motivant l’ajout d’une base de connaissances qui donne accès à un savoir sur le contexte statique et dynamique.
La compréhension des énoncés par la machine pose d’autres problèmes qui sont due au manque des connaissances des figures de style (ellipses, métaphores , …). Pour résoudre ce type de problèmes les chercheurs proposent des approches concernant la restriction des textes analysés en domaine particulier (textes scientifiques, politiques, économiques,…). L’objectif de ces approches et de lever l’ambiguïté sémantique d’une part et de représenter formellement les connaissances nécessaires à la compréhension des énoncés du domaine considéré d’une autre part.

Mesures de similarité sémantique locales

L’évaluation de la proximité entre les concepts reliés à des termes d’un texte pose des difficultés dans plusieurs applications : traduction automatique, désambiguïsation sémantique, résumé automatique, recherche d’information, indexation automatique, etc.
On présente dans cette section quelques mesures de similarité conceptuelle. Les détails de ces mesures sont présentés par (Patwardham, 2003) où ces différentes mesures sont comparés par rapport à des évaluations faites par des sujets humains. Les deux premières mesures sont fondées sur la notion de contenu informationnel, Tandis que les autres basées sur les traits et la représentation vectorielle.
Approches basées sur les arcs (distances) : Dans une ontologie les mesures de similarité sont représentées par les distances entre les concepts. L’estimation de la similarité sémantique entre les différents objets dans une ontologie est basée sur les mesures qui déterminent la structure de l’ontologie. L’évaluation des distances entre les concepts nécessite un graphe de spécialisation des objets. La distance entre les objets dans ce graphe représente le chemin le plus court qui peut déterminer le nœud commun ou bien un ancêtre qui réunit deux objets via des descendants communs.
Approches basées sur les nœuds (le contenu informatif) : Ces méthodes sont inspirées des mesures entropiques de la théorie de l’information.  La probabilité d’un concept est le rapport des instances de c sur le nombre total des instances. Pour éviter le problème de la fiabilité des distances des arcs, les auteurs de de ce type des approches ont associé des probabilités des concepts, ce qui a donné une nouvelle façon de calculer la similarité. Parmi les mesures basées sur le contenu informationnel on peut citer : mesure de Resnik, mesure de Lin et mesure de Seco.

Algorithme génétique pour la désambiguïsation lexicale

Principe de l’algorithme : Les algorithmes génétiques, initiés dans les années 1970 par John Holland, sont des algorithmes d’optimisation. Ils combinent une stratégie de «survie des plus forts» avec un échange d’information aléatoire mais structuré. Pour un problème dans lequel une solution est inconnue donc un ensemble de solutions possibles est créé aléatoirement.
Cet ensemble est représenté par la population dont les variables sont déterminées par les gènes, ces derniers se combinent pour former des chromosomes et par la suite des individus. Un individu est lié à une solution, dont l’évaluation de cet individu est dépend de la correspondance avec la bonne solution au problème. La convergence vers la meilleure solution peut être démontrée par un processus de sélection naturelle inspiré de Darwin.
Trois étapes principales pour réaliser un algorithme génétique : Sélection , Reproduction, Mutation. L’algorithme génétique a été utilisé pour la désambiguïsation sémantique par Gelbukh et d’autres chercheurs dans (Gelbukh et al., 2003), dans cet algorithme la population est représentée par les chromosomes. Les allèles de chromosomes sont représentés par des indices du vecteur d’une configuration, donc les allèles possibles pour un indice sont les différents sens du mot ambigu. Avantages : L’obtention des bons résultats pour des problèmes très complexe, Adaptation rapide à de nouveaux environnements. Plusieurs approches sont proposées. Coévolution, parallélisme et distribution facile. Les représentations facilitent la compréhension.
Inconvénients : La sélection des bons éléments est difficile lorsque les performances des individus sont similaires. Coûteux en temps de calcul, puisqu’ils manipulent plusieurs solutions simultanément . Aucune garantis de solution optimale en un temps fini.

Table des matières

1  INTRODUCTION GENERALE
1.1 CONTEXTE DU TRAVAIL
1.2 MOTIVATIONS
1.3 CONTRIBUTIONS
1.4 ORGANISATION DU MANUSCRIT
2 L’AMBIGUÏTE DE LA LANGUE
2.1 INTRODUCTION
2.2 LE TRAITEMENT AUTOMATIQUE DU LANGAGE NATUREL
2.2.1 Les connaissances de la langue
2.2.1.1 Phonétiques et phonologiques
2.2.1.2 Morphologiques
2.2.1.3 Syntaxiques
2.2.1.4 Sémantiques
2.2.1.5 Pragmatiques
2.2.2 Les architectures des systèmes du TALN
2.3 LES NIVEAUX DE TRAITEMENT
2.3.1 Niveau morphologique
2.3.2 Niveau syntaxique
2.3.3 Niveaux Sémantique et pragmatique
2.3.3.1 La sémantique
2.3.3.2 La pragmatique
2.4 LES DIFFICULTES SEMANTIQUES DE TALN
2.4.1 L’ambiguïté
2.4.1.1 Les ambiguïtés lexicales
2.4.1.2 Les ambiguïtés syntaxiques ou structurales
2.4.1.3 Les ambiguïtés sémantiques ou logiques
2.4.1.4 Les ambiguïtés pragmatiques
2.4.2 L’implicité
2.5 LES RELATIONS SEMANTIQUES ET LES FONCTIONS LEXICALES
2.5.1 Les relations sémantiques lexicales
2.5.1.1 Les relations d’hiérarchie
2.5.1.2 Les relations symétriques
2.5.2 Les fonctions lexicales
2.5.2.1 Les fonctions lexicales paradigmatiques
2.5.2.2 Les fonctions lexicales syntagmatiques
2.6 CONCLUSION
3 ALGORITHMES LOCAUX ET GLOBAUX POUR LA DESAMBIGUÏSATION LEXICALE
3.1 INTRODUCTION
3.2 MESURES DE SIMILARITE SEMANTIQUE LOCALES
3.2.1 Approches basées sur les arcs (distances)
3.2.1.1 Mesure de Wu & Palmer
3.2.1.2 Mesure de Rada
3.2.1.3 Mesure d’Ehrig
3.2.1.4 La mesure de Hirst-St.Onge
3.2.1.5 La mesure de Zargayouna
3.2.2 Approches basées sur les nœuds (le contenu informatif)
3.2.2.1 Mesure de Resnik
3.2.2.2 Mesure de Lin
3.2.2.3 Mesure de Seco
3.2.3 Approches hybrides
3.2.3.1 Mesure de Jiang et Conrath
3.2.3.2 Mesure de Leacock et Chodorow
3.2.4 Approches basées sur une représentation vectorielle
3.2.4.1 L’indice de Jaccard
3.2.4.2 Similarité de cosinus
3.2.4.3 Similarité de Dice
3.2.5 Approches basées sur les traits
3.2.5.1 Mesure de Tversky
3.3 ALGORITMES GLOBAUX STOCHASTIQUES POUR LA DESAMBIGUISATION LEXICALE
3.3.1 Algorithme génétique pour la désambiguïsation lexicale
3.3.1.1 Principe de l’algorithme
3.3.1.2 Avantages
3.3.1.3 Inconvénients
3.3.2 Recuit simulé pour la désambiguïsation lexicale
3.3.2.1 Principe de l’algorithme
3.3.2.2 Avantages
3.3.2.3 Inconvénients
3.3.3 La méthode de recherche Tabou
3.3.3.1 Principe de base de la Recherche Tabou
3.3.3.2 Avantages
3.3.3.3 Inconvénients
3.3.4 Chaines lexicales
3.4  CONCLUSION
4 RESSOURCES LINGUISTIQUES
4.1 INTRODUCTION
4.2 DEFINITIONS
4.3 LES LEXIQUES
4.3.1 Les informations lexicales
4.3.1.1 Les informations intralexicales
4.3.1.2 Les informations interlexicales
4.3.2 Les lexiques monolingues
4.3.2.1 Le lexique BDlex
4.3.2.2 Les Ressources MHATLex
4.3.2.3 Wordnet
4.3.2.4 FrameNet
4.3.3 Les lexiques multilingues
4.3.3.1 Lexiques bilingues
4.3.3.2 Wikipédia
4.3.3.3 Wiktionnaire
4.4 GRAMMAIRES ELECTRONIQUES
4.4.1 Exemples
4.5 LES CORPUS
4.5.1 Corpus de textes bruts et étiquetés
4.5.2 Corpus arborés : Treebanks
4.5.2.1 Exemple des corpus arborés
4.5.3 Corpus multilingues alignés
4.6 CONCLUSION
5 TRAVAUX CONNEXES
5.1 INTRODUCTION
5.2 DESAMBIGUISATION LEXICALE
5.3 APPROCHES BASEES SUR LES CONNAISSANCES
5.3.1 Approches basées sur les préférences sélectionnelle (restrictions)
5.3.2 Approches basées sur le chevauchement
5.3.3 Approches basées sur l’algorithme de densité conceptuelle
5.3.4 Approches basées sur l’algorithme de marche aléatoire
5.4 APPROCHES BASEES SUR LE CORPUS
5.4.1 Approches basées sur corpus étiquetés
5.4.2 Approches basées sur corpus non étiquetés
5.5 APPROCHES HYBRIDES
5.6 APPROCHES BASEE SUR LES METHODES DE L’APPRENTISSAGE
5.7 BREF APERCU DES APPROCHES DE DESAMBIGUISATION DE LA LANGUE ARABE
5.8 CONCLUSION
6 ACARWSD : NOTRE APPROCHE PROPOSEE
6.1 INTRODUCTION
6.2 MOTIVATIONS
6.3 PARTIE1: CONSTRUCTION DE LA BASE LEXICALE
6.3.1 Extraction des relations sémantiques à partir du Wiktionnaire arabe
6.3.1.1 Prétraitement et Extraction des définitions
6.3.1.2 Analyse des vocabulaires
6.3.1.3 Extraction des relations sémantiques
6.3.1.4 Création de la base lexicale
6.3.2 Génération de dictionnaire à partir de Wordnet
6.3.2.1 Qu’est-ce qu’un dictionnaire multilingue
6.3.2.2 La matrice lexicale multilingue
6.3.2.3 Création automatique de la base de connaissances lexicales
6.3.3 Algorithme local : algorithme Lesk
6.3.3.1 Principe
6.3.3.2 Algorithme de LESK simplifié
6.4 DESAMBIGUISATION LEXICALE DES TEXTES ARABES
6.4.1 Algorithme global : Algorithmes à colonies de fourmis
6.4.2 Détail de l’approche
6.4.2.1 Prétraitement du texte
6.4.2.2 Environnement
6.4.2.3 Types des nœuds
6.4.2.4 Déplacement des fourmis
6.4.2.5 Vecteur de définition
6.4.2.6 Energie
6.4.2.7 Phéromone de passage
6.4.3 L’algorithme
6.5 EXEMPLE ILLUSTRE
6.6 CONCLUSION
7 EXPERIMENTATIONS ET EVALUATIONS
7.1 INTRODUCTION
7.2 ENVIRONNEMENT TECHNOLOGIQUE
7.3 DESCRIPTION DE L’APPLICATION
7.4 STATISTIQUES DE LA BASE LEXICALE EXTRAITE DE WIKTIONNAIRE
7.5 STATISTIQUES DE DICTIONNAIRE GENERE DE WORDNET
7.5.1 Structure de dictionnaire
7.6 CORPUS DE L’EVALUATION
7.6.1 Prétraitements des textes du corpus
7.7 METRIQUES
7.8 EVALUATION PRATIQUE
7.8.1 Sélection des paramètres
7.8.2 Tests et configurations expérimentales
7.8.3 Analyse des résultats
7.8.4 Comparaison de notre travail avec d’autres travaux connexes
7.9 CONCLUSION
CONCLUSION GENERALE
BIBLIOGRAPHIE
8.ANNEXE

Télécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *