La chaîne de traitement SxPipe
Avant de présenter la chaîne de traitement SxPipe (Sagot et Boullier, 2008), il nous semble important d’expliquer les raisons qui nous ont poussée à la choisir. Tout d’abord, SxPipe est un outil sous licence Cecill-C2 (compatible LGPL). Il est donc librement accessible, utilisable, modifiable et redistribuable y compris au sein d’une entreprise comme viavoo. Bien que cette chaîne de traitement soit générique, nous pouvons l’adapter à nos besoins. Cela est d’autant plus réalisable que SxPipe est modulaire. Il nous est ainsi possible de choisir les modules que nous voulons appliquer et leur paramétrage.
Par ailleurs, si nous voulons personnaliser certains des modules appartenant à SxPipe, nous pouvons le faire, son code étant accessible et modifiable. Enfin, nous voulons mettre en place un système capable de traiter des textes en français, en anglais, en allemand et en espagnol, il est donc important de souligner le caractère multilingue de SxPipe, lequel est ainsi 2. Les licences CeCILL, abréviation de CEA CNRS INRIA logiciel libre, sont une famille de licences de logiciel libre.
Pré-traitements en mesure de traiter toutes ces langues. Pour ce faire, SxPipe s’appuie sur des lexiques Alexina (Sagot, 2010) tel que le Lefff présenté section 1.2.2.
Format utilisé par SxPipe
Pour réaliser leur analyse, Sagot et Boullier (2008) s’appuient sur plusieurs notions telles que celles de forme simple et composée, de token ou encore d’amalgame, que nous avons déjà évoqué en section 1.1 (page 12). Ainsi, lors du découpage d’une phrase, tous les tokens qui y sont contenus obtiennent un identifiant unique indiquant leur position dans la chaîne de caractères initiale. Ils peuvent être ensuite rattachés à une forme simple ou composée ou à plusieurs formes amalgamées.
Les auteurs ont par ailleurs introduit la notion de forme spéciale afin d’abstraire un motif donné (composé d’une ou plusieurs formes) que l’on ne souhaite pas analyser, syntaxiquement parlant, autrement qu’en bloc. Nous illustrons ces différents cas dans la suite de cette section et dans la table 4.13. Lorsqu’une phrase est donnée à SxPipe, les tokens la composant sont alors stockés en commentaire, entre accolades, avec leur identifiant.
Cet identifiant, repré senté par un élément XML, se présente de la sorte : {token}. Les indices i et j correspondent ici respectivement au numéro de la phrase et au numéro du token dans cette dernière. Pour des questions de lisibilité, un tel token pourra être représenté comme ceci {tokenj}. Le token en commentaire est ensuite suivi de la forme qui lui est rattachée. Par exemple pour l’énoncé « Le soleil se couche », SxPipe proposera la sortie suivante : {Le} le {soleil} soleil {se } se {couche} couche Comme illustré dans le tableau 4.1, un token peut être dupliqué en sortie de SxPipe s’il correspond à deux formes amalgamées. Il peut aussi être regroupé à d’autres tokens au sein d’un même commentaire s’il appartient à une forme composée ou spéciale.
Dans le cas d’une forme spéciale, c’est non plus la forme en question qui sera réécrite à la droite du token, mais son étiquette. L’étiquette d’une forme sera ainsi toujours inscrite à la suite d’un tiret bas en caractères majuscules. Si un énoncé peut être analysé de plusieurs manières différentes, SxPipe conser vera cette ambiguïté. Sagot et Boullier (2008) utilisent la notion de graphe orienté acyclique (DAG). Ils proposent ainsi de représenter une ambiguïté sous deux formes différentes : sous la forme d’une expression régulière ou sous la forme d’une liste de transitions.