Évaluation d’une méthode statistique de la prédiction du contexte droit

État de l’art

La conception d’une methode de saisie efficace est devenue un objectif de recherche en ́ interaction homme-machine et de multiples methodes ont ete proposees depuis dix ans. Nous ́ ́ ́ ́ proposons dans cette première partie une brève présentation d’une de ces méthodes : la méthode de saisie basée sur la prédiction de mots.
L’expression prédiction de mots désigne dans la littérature scientifique deux systèmes informatiques qu’il convient de distinguer. Le premier système est ce que l’on appelle plus communément la complétion de mot. Ce système, datant des années 80, permet d’obtenir une liste de mots probables au fur et à mesure que l’utilisateur entre une lettre. Le second système est appelé prédiction de mots et permet d’obtenir également une liste de mots probables en fonction cette fois des mots déjà entrés par l’utilisateur. Il existe également des approches de la prédiction de mots combinant ces deux systèmes. Quelque soit le système utilisé ci-dessus, l’objectif de la prédiction de mots est le même. La prédiction de mots vise à proposer les mots susceptibles d’être sélectionnés par l’utilisateur en contexte droit en fonction de ce qui a déjà été sélectionné en contexte gauche. Il existe quelques cas particuliers de prédiction de mots consistant à prédire un ou plusieurs mots au milieu d’une phrase en s’aidant du contexte gauche et du contexte droit comme par exemple dans l’étude de van den Bosch (2006). Dans cette étude, il s’agit de prédire les mots is tired dans la phrase à trous Alice was beginning to get very (pour le contexte gauche) et of sitting by her sister on the bank (pour le contexte droit).
La prédiction de mots a donc pour objectif de réduire un maximum le champ des possibles du contexte droit en fonction du contexte gauche. Pour atteindre cet objectif, plusieurs méthodes ont été testées. Voici quelques-unes de ces méthodes relevées dans la littérature scientifique : (i) des approches purement probabilistes qui utilisent des algorithmes comme l’algorithme de Markov (ou appelé également Prediction Suffix Trees (PST) (Pereira & al.)) ou utilisant la théorie Latent Semantic Analysis (LSA)(Wandmacher & Antoine 2006). Ces algorithmes calculent la probabilité de prédiction d’un mot à partir d’un corpus d’apprentissage de plusieurs millions de mots ;
(ii) des approches n-grammes qui estiment la fréquence d’une séquence de mots word1…wordN dans une langue donnée à partir d’un corpus d’apprentissage de plusieurs millions de mots (Nantais & al., 2001; Shein & al., 2001) ; (iii) des approches hybrides mêlant n-grammes et connaissances syntaxico-sémantiques (Carlberger & al. 1997) ; (iv) des approches qui extraient à partir d’un corpus les contraintes syntaxiques et/ou sémantiques qui régit la restriction des arguments au sein d’un prédicat donné (Sundarkantham & Mercy Shalinie) ; (v) des approches purement linguistiques utilisant des lexiques de grandes tailles et dont chaque entrée contient des informations de fréquence et morpho-syntaxiques (systèmes : Vitipi (Boissiere & Dours, 2000), HandiAS (Le Pevedic, 1997), ́ ́ Kombe (Pasero & Sabatier, 1995), Sibylle (Schadle, 2003)). D’autres systèmes de prédiction de mots prennent en compte également des informations sémantiques comme Profet décrit dans (Carlberger & al. 1997). Ce système est capable de prédire le contexte droit d’un mot à l’aide d’informations syntaxiques et d’un jeu de 4 étiquettes sémantiques prédiction de mots pour décrire les arguments : inanimé, animé, human, inanimé qui se comporte comme un humain.
Les méthodes (i), (ii), (iii) et (iv) sont des approches « corpus-based » ce qui pose deux problèmes pour la prédiction de mots : le corpus doit être de taille importante (plusieurs millions de mots) et équilibré. Péry-Woodley (1995 : 219) exprime la difficulté de constituer un corpus équilibré :
En effet, la recherche de corpus équilibrés semble bien constituer une impasse : la notion d’équilibre s’apparente à celle de “langue générale”, et elle paraît tout aussi insaisissable. Elle suppose également une recherche irréaliste d’exhaustivité : le corpus équilibré est sans doute celui qui a “de tout un peu”, mais encore faudrait-il savoir ce qu’est “tout”, c’est-à-dire quelles sont les classes à représenter, – ce qui nécessite un modèle complet de la variation –, et avoir accès à des textes les représentant.
Notre approche de la prédiction du contexte droit des catégories prédicatives nous situe parmi les méthodes (v) purement linguistiques. Nous rappelons que notre objectif est de lancer une réflexion sur le(s) type(s) d’information linguistiques nécessaire(s) pour la prédiction des arguments des catégories prédicatives et évaluer les ressources linguistiques existantes pour cette tâche. Bien qu’il ne s’agisse pas d’une évaluation des différentes méthodes de prédiction du contexte droit, nous allons à présent décrire le protocole de test d’une méthode statistique de prédiction basée sur des ngrammes afin de la comparer à une méthode de prédiction de mots purement linguistique.

Évaluation d’une méthode statistique de la prédiction du contexte droit

Définition de la méthode n-grammes

La méthode n-grammes permet de prédire le contexte droit d’un mot à partir d’une liste de ngrammes désignant une séquence de n mots, liste établie au préalable à partir d’un corpus. La méthode n-grammes peut également être utilisée pour la prédiction de lettres, un n-gramme désignant alors une suite de lettres consécutives. Une liste de n-grammes est obtenue en déplaçant une fenêtre de n cases sur un texte ou un corpus de textes. Ce déplacement se fait de mot en mot et peut aller jusqu’à une fenêtre de cinq mots vers la droite. Par exemple, nous obtenons la série suivante de 5-grammes à partir de la phrase « Max commence par remercier sa sœur dans son discours » :
1. Max_commence_par_remercier_sa
2. commence_par_remercier_sa_soeur_
3. par_remercier_sa_soeur_dans
4. remercier_sa_soeur_dans_son
5. sa_soeur_dans_son_discours
À partir d’une telle liste de n-grammes, des calculs probabilistes sont appliqués pour déterminer quelle suite de mots est la plus probable après un mot donné.

Source de données

Le test de cette méthode se fait sur la prédiction du contexte droit du verbe commencer car ce verbe présente une alternance syntaxique. Il peut être employé dans un emploi absolu (ex : Max commence), dans une construction transitive directe autrement dit avec un objet direct (ex : Max commence ses devoirs) ou dans une construction intransitive autrement dit avec un objet indirect (ex : Max commence à parler).
La constitution d’une liste de n-grammes nécessite beaucoup de temps et de données. C’est pourquoi nous avons par conséquent utilisé une ressource déjà existante : Google Ngram Viewer. Cette ressource comporte 500 milliards de mots extraits de la numérisation des livres recensés sur Google Books. Un site Web permet d’effectuer des requêtes pour obtenir des statistiques sur les mots (fréquence d’apparition sur une période donnée) et propose en téléchargement des fichiers contenant jusqu’à 5-grammes (suite de 5 mots). Nous avons sélectionné un fichier du site Google Ngram Viewer contenant des 5-grammes afin d’avoir une plus grande fenêtre du contexte droit. Ce fichier contient des données pour le français et ne concerne que les suites commençant par co-. Nous avons pu ainsi récupérer la liste des 5-grammes pour le verbe commencer contenant 2818 suites de mots différentes.

Préparation des données

Nous avons extrait de ce fichier les suites dont le premier mot est une occurrence d’une forme fléchie du verbe commencer (ex : commençons_à_connaître_un_certain). Afin de comparer plus facilement notre corpus de 92 phrases et la liste de 5-grammes pour le verbe commencer, nous avons lemmatisé ces deux fichiers. Par exemple, la suite de n-grammes « commençons_à_connaître_un_certain » ne permet pas une correspondance avec le contexte droit à connaître pour l’occurrence je commence à connaître un peu tout le monde de notre corpus car commençons et commence étant deux formes fléchies différentes de commencer. C’est pourquoi nous avons lemmatisé le corpus et les suites de n-grammes (ex : commencer_à_connaître_un_certain / je commencer à connaître un peu tout le monde).

Résultats

La comparaison des 5-grammes pour le verbe commencer avec notre corpus de 92 phrases contenant des occurrences des formes fléchies de ce même verbe retourne 21 concordances (soit un taux de prédiction de mots de 22,83%). Les contextes droits concordants avec la liste des 5- grammes sont les suivants (indiqués en gras dans les phrases) : Cette évaluation de la méthode n-grammes pour la prédiction du contexte droit de commencer montre que cette méthode présente des limites : (i) nécessité de passer par une phase de lemmatisation, (ii) stricte concordance de mots implique de recenser toutes les combinaisons possibles et (iii) augmenter la taille du corpus pour obtenir un meilleur taux de prédiction. Or, malgré la taille importante des données de Google Ngram Viewer, nous obtenons seulement un taux de prédiction du contexte droit du verbe commencer de 22,83%. Par ailleurs, il n’est pas envisageable de stocker un tel corpus sur la mémoire d’un support mobile (smartphone ou tablette tactile).
Une autre possibilité serait d’envisager qu’il existe des contraintes linguistiques régissant le contexte droit du verbe commencer évitant ainsi de devoir lister toutes les combinaisons de mots possibles en contexte droit. Nous pouvons envisager une contrainte syntaxique telle que le verbe commencer est suivi d’un argument à l’infinitif introduit par la préposition à (ex : Max commence à parler). Cette approche purement linguistique permet alors de pallier les limites de l’approche ngrammes.
L’utilisation d’informations linguistiques dans la prédiction de mots présente d’autres avantages (Newelle & al. 1998 : 8-9) :
– la prédiction de phrases grammaticalement et sémantiquement correctes ;
– les informations linguistiques peuvent être aisément exploitées pour une seconde étape informatique après la prédiction comme une traduction automatique ;
– les informations linguistiques allègent la charge cognitive de l’utilisateur en lui proposant automatiquement une liste plus restreinte de mots probables en fonction du contexte syntaxique et sémantique en contexte gauche (MacKenzie, 2002; Garay-Vitoria & Abascal 2005).

Formation et coursTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *