Analyse linguistique
La détection et la notation des sentiments peuvent être aussi effectuées par les tech- niques de Traitement du Langage Naturel, ang : NLP – Natural Language Processing. L’extraction d’information consiste à identifier de l’information bien précise d’un texte en langage naturel et à la représenter sous forme structurée [Pazienza (1997)]. C’est une recherche documentaire qui vise à retrouver dans un corpus un ensemble de documents pertinents au regard d’une question [Voorhess (1999)]. Elle consiste à constituer auto- matiquement une banque de données à partir de textes écrits en langage naturel. Il ne s’agit pas de donner du texte brut à l’utilisateur, mais d’apporter des réponses précises aux questions qu’il pose, par le remplissage d’un formulaire ou d’une base de données. L’extraction nécessite des lexiques et des grammaires spécialisées. La mise au point de telles ressources est une tâche longue et fastidieuse qui demande, le plus souvent, une expertise du domaine abordé et des connaissances en linguistique informatique. Parmi ces connaissances, nous pouvons citer les techniques de filtrage, de catégorisation de documents et d’extraction d’information.Au départ, le développement du domaine linguistique concerne les systèmes de com- préhension traditionnels. La compréhension de textes est un domaine qui est exploré depuis le début du Traitement Automatique des Langues [Sabach (2001)]. Dans les an- nées 70, sont apparus les systèmes » KWIC » qui effectuent la recherche statistique des mots les plus significatifs [Salton (1983)]. Dans les années 80, des systèmes plus per- fectionnés pour l’interrogation de bases de données en langage naturel ont vu le jour. L’exemple d’un de ces systèmes est le système « Lunar ». Grâce à ce dernier, les géologues pouvaient interroger en anglais la base des minéraux collectés sur la lune après le retour des missions Apollo [Woods (1973)].
Les systèmes de compréhension de texte ont, pour la plupart, été conçus comme des systèmes génériques de compréhension, mais ils se sont révélés peu utilisables dans des applications réelles. La compréhension est vue comme une transduction qui transforme une structure linéaire. Cela signifie que le texte (i.e. la structure linéaire) est transformé en une représentation logico-conceptuelle intermédiaire. L’objectif final est ensuite de réaliser des inférences sur ces représentations dans le but d’effectuer différents traite- ments, par exemple répondre à des questions.Pour comprendre l’ensemble du texte il faut effectuer l’analyse syntaxique et l’ana- lyse sémantique. L’analyse syntaxique est la plus large possible à cause des ambiguïtés. L’analyse sémantique vise à produire une structure représentant le plus fidèlement pos- sible l’ensemble de la phrase, avec ses nuances et sa complexité, puis à intégrer l’ensemble des structures produites en une structure textuelle. A la fin, nous obtenons une repré- sentation logico-conceptuelle du texte. La représentation sémantique varie d’un système à l’autre. Nous pouvons voir dans le système » Core Language Engine » des formes dites logiques inspirées en partie de la grammaire de Montague [Alshawi (1992)]. Dans le sys- tème » Kalipsos « , la représentation sémantique est effectuée par les graphes conceptuels [Sowa (1984)] alors que le système » Acord » possède des structures de représentation discursive [Kamp (1981)]. Les structures sémantico-conceptuelles peuvent être plus ou moins larges, riches et complexes, plus ou moins ambiguës. L’adaptation de ces systèmes pose le problème classique de la réutilisation des sys- tèmes et des bases de connaissances qu’ils intègrent. L’adaptation d’une nouvelle tâche à un nouveau domaine nécessite la reconstruction d’une grande partie des bases de connaissances notamment le lexique sémantique.
L’échec relatif des systèmes de compréhension générique est aujourd’hui bien connu. Il faut cependant rappeler que ces systèmes issus des travaux de traitement automatique des langues des années 1980 ont réellement permis d’explorer cette approche générique de la compréhension de texte. Les chercheurs essayent d’avoir des dictionnaires électro- niques relativement complets avec la syntaxe et la sémantique. Ceci a poussé un grand nombre des chercheurs à décrire les langages naturels de la même façon que les langages formels. Maurice Gross entreprit avec son équipe du LADL l’examen exhaustif des phrases simples du français, afin de disposer de données fiables et chiffrées sur lesquelles il serait possible de faire des expériences scientifiques rigoureuses. Pour cela, chaque verbe fut étudié de manière à tester s’il vérifie ou non des propriétés syntaxiques comme le fait d’admettre une proposition complétive en po- sition sujet. 6000 verbes ont été examinés à l’aide d’environ 300 propriétés. Le résultat est que pour 6000 verbes, nous avons environ 15000 emplois différents, qui présentaient un comportement syntaxique différent. Nous nous apercevons que nous ne pouvons pas décrire le français avec des règles générales. La même situation vaut pour toutes les autres langues. Les résultats de cette étude ont été codés dans des matrices appelées tables de lexique-grammaire. La table montre une description précise du comportement syntaxique de chaque verbe du français. L’objectif est d’utiliser toutes les ressources des tables lexique-grammaire pour obtenir un système capable d’analyser n’importe quelle structure de phrase simple. L’unité minimale de sens, d’après Maurice Gross, est la phrase, et non le mot. Le principe est donc d’étudier les transformations que les phrases simples peuvent subir. Les phrases simples ont été indexées par leurs verbes. Pour un verbe nous pouvons avoir plusieurs emplois différents. C’est grâce à des propriétés syn- taxiques que nous pouvons distinguer les emplois d’un verbe. Il n’existe pas deux verbes possédant exactement le même comportement syntaxique. Nous ne pouvons donc pas formuler des règles générales qui pourraient expliquer la langue.