Cours les systèmes d’apprentissages ontologiques, tutoriel & guide de travaux pratiques en pdf.
Comparaison entre différents systèmes & approches
Une cinquantaine (50) de systèmes d’extraction de connaissances (d’apprentissage ontologique à partir des textes) issus des travaux récents de laboratoires, de conférences et de revues publiés, sont exploités par [SHA02-a] et choisi, parmi eux sept, systèmes les plus distingués pour ensuite relever leur différences dans un cadre de comparaison.
Les systèmes d’apprentissages ontologiques
L’apprentissage ontologique se réfère à l’extraction des éléments ontologiques (connaissances conceptuelles) à partir des textes et construit ensuite une ontologie avec ces éléments. La construction manuelle des ontologies est une tâche lourde et assez coûteuse en temps, chers, biaisé en fonction de leur développeur, non-flexible aux changements et spécifiques seulement aux objectifs tracés. L’automatisation de la construction d’ontologies élimine non seulement les coûts, mais aussi, il en résulte une meilleure ontologie correspondante à son application.
Beaucoup de systèmes, utilisant l’approche semi-automatiques d’apprentissage ontologique, ont attiré notre attention en vue de la préparation de notre état de l’art. Par exemple : Adaptiva, SOAT, OntoLearn, TextStorm, ASIUM, HASTI, DODDLE II, SVETLAN, SYNDICATE, TEXT-TO-ONTO, WEBGroup de systèmes →KB. Mais nous n’avons retenue que sept systèmes, de base, pour ce cadre de comparaison, les autres ne sont qu’une image des 7 systèmes modèles de notre études. Ainsi les systèmes retenues sont :
ASIUM, HASTI, DODDLE II, SVETLAN, SYNDICATE, TEXT-TO-ONTO, WEB→KB
Les six dimensions de comparaison
Un framework de comparaison est proposé par Shamsfard [SHA02-a], montrant ainsi les points qui font la différence entre une méthode et une autre. Ce cadre de comparaison réunit les caractéristiques et les techniques de plusieurs approches. (Voir figure 33)
1. Les éléments à apprendre : Concepts, relations, axiomes, règles, instance, etc.).
2. Les sources d’apprentissages : Point de départ (textes, documents structurés, documents semi structurés, bases de données, dictionnaires, base de connaissances,…)
3. Le prétraitement : Traitement linguistique tels que la compréhension profonde ou peu profonde de traitement de texte.
4. La méthode d’apprentissage comprend :
oLes catégories d’apprentissage : Supervisé, non supervisé {on line1, off line2}
oLes approches d’apprentissage : Statistique, symbolique, logique, basé sur la linguistique, pattern matching, méthodes hybrides,…
o Les tâches d’apprentissages : classification, clustering, apprentissage des règles, former des concepts, peuplement d’ontologie)
o Le degré d’automatisation : manuel, semi-automatique, coopératif, automatique.
o Le résultat : ontologie, structures intermédiaires, etc.
o Les méthodes d’évaluation : évaluation de la méthode d’apprentissage, évaluation de l’ontologie résultante.
Les éléments à apprendre
Les mots sont les principaux éléments lexicaux à apprendre. Mais comme principaux éléments ontologiques ce sont les concepts, relations et axiomes.
Les termes
Bien que la majorité des méthodes utilisent des sources lexicales existantes (Text-To-Onto [MAE00-a]; DODDLE II [YAM01], [KIE00], [BOR97]). D’autres systèmes soutirent par eux-mêmes la connaissance lexicale relative aux termes, comme le cas pour SyndiKate [HAH01] et HASTI [SHA02-b].
o SyndiKate : Utilise une hiérarchie des différentes classes des mots pour être capable de prédire la catégorie syntaxique du mot entrée, et par la suite déduire toutes les informations grammaticales qui en découlent.
o HASTI : Traite la phase morphologique et les catégories syntaxiques des mots avant de passer à la phase sémantique.
Les concepts
Un concept peut être [COR00] :
Une définition d’un objet abstrait ou concret, élémentaire ou composé, réel ou virtuel. Une description d’une tâche,
Une description d’une fonction, Une description d’une action, Une description d’une stratégie,
D’un processus de raisonnement, etc.
Une ontologie est représentée sous forme d’une taxonomie avec les nœuds comme concepts. Ces derniers peuvent être prélevés à partir des sources d’entrées ou bien crées au cours d’un processus de raffinement via d’autres concepts.
Les instances
On peut trouver des systèmes qui se limitent simplement par l’enrichissement des classes de l’ontologie, cette technique est nommée « peuplement d’ontologie ». Dans cette catégorie on a le système : WEB→KB. [CRA00] et [SUR00]
Les relations entre concepts
Les relations se manifestent en deux classes : Taxonomiques et non taxonomiques.
Relations Taxonomiques :
Les ontologies sont organisées autour d’une taxonomie qui utilise les relations généralisations/spécialisations et engendre les deux type d’héritages : simple et multiple. La relation d’hyponymie « is-a » est la relation de base pour la hiérarchie. Citons des exemples de ces systèmes : SyndiKate [HAH01] et HASTI [SHA02-b], DODDLE II [YAM01], [TOD00], [AGI00], [SUR00], [HEY01], [CAR99], [DEI01], [SUN02] et [SPO02].
Relations Non taxonomique :
Ce sont toutes les relations qui excluent la relation « is-a ». On peut donc citer :
La méronymie – la synonymie – l’antonymie – attribute-of – la possession – la causalité, ou autres. Plusieurs systèmes raisonnent avec ces types de relations : HASTI [SHA02-b], Texte-to-Onto [MAE00a], [AGI00] et [GAM02]
Les axiomes
Les axiomes sont utilisés pour modéliser les phrases toujours vraies. Ils sont très utiles afin de formaliser les contraintes contenues dans une ontologie, la vérification de son exactitude ou de déduire de nouvelles informations [FAR96]. Peu de système utilise l’apprentissage de part sa complexité, néanmoins le système HASTI apprend les axiomes dans des situations limitée, il transforme les axiomes explicites décrits à l’aide des phrases conditionnelles et quantifiées du langage naturel en des axiomes exprimés à l’aide de KIF (Knowdlge Interchange Format). Des travaux sont en cours pour étendre HASTI afin qu’il soit capable d’apprendre les axiomes implicites.
Les Méta-connaissances
Les méta-connaissances sont des connaissances ontologiques primitives qu’un système essaie d’acquérir (règles pour extraire des instances, modèles de connaissances, etc.), 77
Etat de l’art : Extraction des connaissances à partir des textes
pour essayer par la suite de l’exploiter dans l’extraction des connaissances ontologiques. Finkelstein et Morin [FIN99] proposent une approche pour apprendre des patrons lexico-syntaxiques pour extraire des connaissances à partir des textes. Par contre WEB→KB [CRA00] apprend des règles pour extraire des instances à partir des textes.
Les sources d’apprentissages
La question posée dans cette dimension est « A partir de quoi l’ontologie va t’elle apprendre ? ». La plupart des approches soutiennent l’idée d’acquisition à partir des connaissances déjà présentes (afin de les réutiliser) ou bien d’enrichir par de nouveaux éléments, à partir d’autres sources d’entrées (documents, Web,…). La qualité, et la quantité de la connaissance déjà existante et qui va être réutilisé, sa structure, son type, et le langage de la deuxième source d’entrée diffèrent d’un système à un autre.
Les sources réutilisables (Ontologie de base)
Les connaissances de base essentielles varient selon le type et le volume dans les différentes approches. Les connaissances préalables peuvent être présentées en linguistique (lexical, grammatical, modèles, etc.) ou sous forme de ressources ontologiques (l’ontologie de base). Beaucoup de projet utilise une base de connaissance lexicale (Lexicon) pour traiter des textes comme dans [KIE00], ou à des Ontologies comme Wordnet ou EuroWordNet dans Text-To-Onto [MAE00-b], SyndiKate [HAH01] et DODDLE II [YAM01], [WAG00], [AGI00], [TER01]. Le volume de ces sources diffère d’une approche à une autre. Le système HASTI [SHA02-b], démarre le processus à partir d’un noyau presque vide, dans [BRE01] à partir d’une esquisse d’ontologie ou d’un petit ensemble de mots représentant les concepts de haut niveaux [HWA99] ou bien encore d’une ontologie générique telle que CYC dans [LEN90].
Les entrées
Les sources d’entrée varient selon le type et la langue.
Type :
Données structurés :
– Kashyap extrait les connaissances à partir des schémas de base données. [KAS99]
– Suryanto le fait à partir d’une base de connaissances (database schemata). [SUR00]
– William, par contre, à traves une ontologie existante. [WIL00]
Mais les approches qui réutilisent WordNet couvrent la littérature.
Données Semi-structurés
C’est parce que le web est immensément riche en source d’informations, que plein de concepteurs se sont hâtés vers les documents HTML, XML et DTDs (Documents Type Definition) : par exemple WEB→KB [CRA00] et [KAV02]. Les dictionnaires aussi sont considérés comme sources d’entrées semi structuré.
Données Non structurés
Trop complexe, ce type de sources, pour extraire de la connaissance : elle peut être du texte en langage naturel comme le projet HASTI [SHA02-a], SVETLAN [HAH01] et [HEY01] ou bien on épuise à partir des textes du Web comme Text-To-Onto [MAE00-b] et [TOD00].
Langage :
Les sources d’entrées peuvent être des textes en langages naturels comme l’anglais dans DODDLE II [YAM01], [WAG00], [TER01], l’allemand dans SyndiKate [HAH01] et [HEY01], le Français dans ASIUM [FAU98], SVETLAN [CHA00] et [TOD00], le persan dans HASTI [SHA02-a], et aussi dans d’autres langages artificiels XML dans Text-To-Onto [MAE00-b] ou RDF dans [DEI01].
Le prétraitement
La question posée dans ce contexte est : « Quels sont les outils à utiliser pour transformer ces entrées en une structure exploitable ? ».
Dans la catégorie des entrées textuelles, le premier traitement a fortiori est le traitement linguistique. De plus, La compréhension profonde des textes ralentisse le processus de construction de l’ontologie, mais elle permet de fournir des relations spécifiques entre les concepts, alors que les techniques peu profondes pourraient fournir des connaissances génériques sur les concepts [AGI00]. Notons que beaucoup de systèmes préfèrent les techniques du Shallow text processing qui engendre des techniques telles que le tokeninzing1 Part Of Speech tagging2 (PoS) et les analyses syntaxiques. Le système Text-To-Onto [MAE00-b] utilise SMES (Saarbrücken Message Extraction System) pour traiter les textes
1 – Tokeninzing : Il s’agit du processus permettant de marquer les différentes sections d’une chaîne de caractères. En effet, un ordinateur n’est pas capable seul de déterminer quels sont les mots d’une phrase ; il n’y voit qu’une chaîne de caractères. Un processus de tokenization consisterait donc à séparer ces mots, selon les espaces. [http://fr.wikipedia.org/wiki/Analyse_lexicale].
2 – En linguistique, l’étiquetage grammatical (POS tagging : part-of-speech tagging en anglais) est le processus qui consiste à associer aux mots d’un texte leur fonction grammaticale, grâce à leur définition et leur contexte (c’est-à-dire leur relation avec les mots adjacents dans un terme, une phrase ou un paragraphe). allemands, ASIUM [FAU98] utilise Sylex1 pour les textes Français, SynDiKATe utilise compréhension profonde pour extraire des connaissances ontologiques du texte, InfoSleut2 [HWA99] fait appel un simple marqueur Part Of speech (PoS) tagger pour parfaire une analyse syntaxique peu profonde. Par contre HASTI [SHA02-a] utilise le système Petex qui est un traitement de texte Persan. Quand aux approches qui manipulent les Databases et les bases de connaissances, ont recours à la discipline du DATA Mining.
Les méthodes d’apprentissages
On se pose la question suivante : « Quels sont les méthodes d’extractions de connaissances ? » Comme réponses directe, on peut dire qu’il existe plusieurs méthodes selon les approches les plus simples (statistiques) aux plus complexes (logiques), comme elles peuvent être supervisées ou non supervisées. Beaucoup de systèmes diffèrent de part leurs approches méthodologiques ou par leurs tâches de réalisations. On peut dire alors que chaque approche apprend en réalisant une tâche bien précise, comme la classification, ou le clustering.