SYSTEME INTEX
INTEX© est un environnement de développement permettant de créer des ressources linguistiques à large couverture et de les appliquer sur de vastes corpus en temps réel. Ces ressources peuvent prendre la forme de dictionnaires électroniques, bibliothèques de graphes et bases de données morpho-syntaxiques du type lexique-grammaire.
Il a été créé par Max SILBERZTEIN1 dans le but d’avoir une plate-forme de description de langues au moyen de dictionnaires à large couverture selon la théorie des grammaires transformationnelles de Zellig HARRIS2 et la méthodologie développée par Maurice GROSS3. Cette plate-forme peut lire des dictionnaires électroniques au format DELA, le format développé au Laboratoire d’Automatique Documentaire et Linguistique (LADL),
comportant pour chaque entrée une série d’informations morphologiques, syntaxiques et, dans certains cas, sémantiques. Elle permet aux utilisateurs d’exploiter soit leurs propres ressources, soit de vastes bases de données lexicales composées, en particulier,
des dictionnaires du français développés au LADL et des ressources linguistiques utilisant le même formalisme et développées pour d’autres langues au sein du réseau européen de laboratoires RELEX (allemand, anglais, bulgare, coréen, espagnol, grec, italien, norvégien, polonais, portugais, serbo-croate, slovaque, etc.).
INTEX est un système ouvert dans le sens où il permet aux utilisateurs d’ajouter leurs propres ressources au système et même de réutiliser séparément, dans leurs propres applications, les différents programmes dont il se compose. La ressource du type grammaire locale, habituellement créée par l’éditeur de graphe d’INTEX, peut être également réemployée dans d’autres grammaires locales.
Typiquement, les utilisateurs construisent des graphes élémentaires qui sont équivalents à des transducteurs à nombre fini d’états, et réemploient ces graphes dans d’autres graphes de plus en plus complexes. Une autre caractéristique d’INTEX est que les objets traités (grammaires, dictionnaires et textes) sont représentés de façon interne par des transducteurs à nombre fini d’états. En conséquence, toutes les fonctionnalités du système se ramènent à un nombre limité d’opérations sur des transducteurs.
Par exemple, appliquer une grammaire à un texte revient en gros à construire l’union des transducteurs élémentaires, la déterminiser, puis à calculer l’intersection du résultat avec le transducteur du texte. Cette architecture permet d’utiliser des algorithmes de manière efficace notamment en terme de rapidité. INTEX est utilisé dans plusieurs centres de recherches universitaires ou privés comme outil de développement linguistique, moteur de recherche, aide à l’enseignement des langues, outil d’extraction terminologique, et pour enseigner l’informatique linguistique.
Théories de base INTEX est basé sur les théories suivantes
Expressions rationnelles
Les expressions rationnelles sont des expressions logiques qui permettent de vérifier qu’une chaîne correspond à un format particulier, défini par l’expression. Elles permettent également, et par voie de conséquence, d’isoler des motifs particuliers au sein d’une chaîne de caractères. Elles existent sous plusieurs formes, et ont commencé à être développées et utilisées sur des systèmes UNIX® avec des logiciels comme « grep ».
INTEX utilise principalement les expressions rationnelles pour rechercher un ou des motifs dans un texte : c’est la fonctionnalité « Locate Pattern » ; mais elles sont un peu différentes des expressions rationnelles traditionnelles : • Le symbole « | » (ou) est remplacé par « + ». Ainsi, l’expression « jamais+toujours » localise toutes les occurrences du mot « jamais » ou du mot « toujours ».
Chapitre 1 Système INTEX • Les expressions rationnelles traditionnelles fonctionnent par caractère tandis que celles d’INTEX fonctionnent par « lexème4 ». Ainsi l’expression « (c+d+l)e » (équivalente à l’expression rationnelle traditionnelle « [cdl]e »
pour retrouver les mots « ce », « de » ou « le ») ne permet pas de localiser ces mots dans INTEX. Il faut écrire « ce+de+le ». • Un mot écrit en minuscules reconnaît toutes ses variantes, avec minuscules ou majuscules. En revanche, un mot qui contient au moins une lettre majuscule ne reconnaît pas ses variantes écrites en minuscules.
![Formation et cours](https://www.clicours.com/img/downloadicon.png)