Le traitement du corpus documentaire par les approches statistique
De la Recherche d’Information à l’Analyse des Sentiments
Dans les dix dernières années les tâches de gestion basées sur le contenu de documents (collectivement connu sous le nom de « Recherche d’Information » – ang : Information Retrieval – IR) ont acquis un statut important dans le domaine des systèmes d’information, en raison de l’augmentation de la disponibilité des documents sous forme numérique et de la nécessité d’y accéder en souplesse. La Catégorisation de Texte (ang : Text Categorization – TC), l’activité de l’étiquetage des textes en langage naturel avec des catégories de thématiques prédéfinies, est une de ces tâches. Celle-ci remonte au début des années 60, mais elle n’est devenue l’un des principaux sous-domaines de la discipline des systèmes d’information qu’au début des années 90, grâce à un intérêt accru et à la disponibilité de matériels plus puissants. La catégorisation de texte est actuellement appliquée dans de nombreux et différents contextes : l’indexation de documents basée sur un lexique, le filtrage de documents, la génération automatique de métadonnées, la suppression de l’ambigüité du sens des mots, le peuplement des catalogues hiérarchique de ressources Web, et en général toutes les applications nécessitant l’organisation de documents ou le traitement sélectif et l’adaptation de documents [Sebastiani (2002)]. Actuellement la « TC » est un domaine entre l’Apprentissage Automatique (ang : Machine Learning – ML) et la Recherche d’Information (IR). Elle partage un certain nombre de caractéristiques avec d’autres tâches telles que l’extraction de connaissances à partir de textes et la Fouille de Textes (ang : Texte Mining) [Knight (1999), Pazienza (1997)]. La « ML » décrit un processus inductif général qui construit automatiquement un classificateur de texte par l’apprentissage, à partir d’une série des documents préclassifiés ou de caractéristiques de catégories d’intérêts. La Fouille de Textes est un ensemble de traitements informatiques consistant à extraire des connaissances selon des critères de nouveauté ou de similarité dans des textes produits par des humains pour des humains [Joachims & Sebastiani (2002), Lewis & Haues (1994)]. Un domaine utilisant les techniques de IR, TC, ML ou Fouille de Texte est notamment le domaine de l’Analyse des Sentiments, connu sur le nom de (ang : Opinion Mining). La recherche dans ce domaine couvre plusieurs sujets, notamment l’apprentissage de l’orientation sémantique des mots ou des expressions, l’analyse sentimentale de documents et l’analyse des opinions et attitudes à l’égard de certains sujets ou produits.
La Catégorisation de Texte
La Catégorisation de Textes consiste en l’attribution d’une valeur booléenne à chaque paire < dj , ci >∈ D × C où D est un domaine des documents et C = c1, …, c|C| est un ensemble de catégories prédéfinies. Une valeur de T attribuée à la paire < dj , ci > indique une décision de déposer dj sous ci , et une valeur de F indique une décision de ne pas déposer dj sous ci . Plus formellement, la tâche consiste à approximer une fonction inconnue d’une cible φ : D × C → {T, F} (qui décrit la façon dont les documents doivent être classifiés) par le biais d’une fonction 8 2.2 La Catégorisation de Texte φ : D × C → {T, F} appelée le classificateur de telle sorte que φ et φ coïncident autant que possible [Sebastiani (2002)]. En se fondant uniquement sur le caractère endogène des connaissances pour le classement d’un document fondé uniquement sur sa sémantique, et compte tenu du fait que la sémantique d’un document est une notion subjective, il s’ensuit que l’adhésion d’un document à une catégorie [Saracevic (1975)] ne peut être décidée de manière déterministe. Ceci est illustré par le phénomène d’inter-indexeur d’incohérence [Cleverdon (1984)] : lorsque deux des experts humains décident de classer un document dj dans une catégorie ci , il peut y avoir avoir désaccord ; ce qui se passe en fait fréquemment. La Catégorisation de Texte a été utilisée dans un certain nombre d’applications différentes. Les premières applications concernées étaient l’indexation automatique pour les systèmes de Recherche d’Information (IR) booléens. Les premières recherches dans le domaine ont été effectuées par Borko et Bernick [Borko & Bernick (1963)], Gray et Harley [Gray & Harley (1971)], Heaps [Heaps (1973), Maron [Maron (1961)]. A chaque document est attribué un ou plusieurs mots ou expressions clés décrivant son contenu, ces mots et expressions clés appartiennent à un ensemble fini appelé dictionnaire contrôlé, souvent composé d’un thesaurus thématique hiérarchique (par exemple, le thesaurus de NASA pour la discipline aéronautique, ou le thésaurus de MESH pour la médecine) [Sebastiani (2002)]. Habituellement, cette attribution est effectuée par des indexeurs manuels, et c’est donc une activité coûteuse. Divers classificateurs de texte explicitement conçus pour l’indexation de documents ont été décrit dans la littérature, par exemple : Fuhr et Knorz [Fuhr & Knorz (1984)], Robertson et Harding [Robertson & Harding (1984)], et Tzeras et Hartmann [Tzeras & Hartmann (1993)]
L’Apprentissage Automatique
Dans les années 80, l’approche la plus populaire pour la création des classificateurs automatique de documents a consisté à construire manuellement un système expert capable de prendre des décisions de TC. Un tel système d’expertise était composé généralement d’un ensemble de règles logiques définies manuellement par une catégorie, du type, if then DNF ( ang : disjonctive forme normale) est une disjonction de propositions conjonctives. Le document est classé dans la si et seulement s’il est en accord avec la formule, donc s’il est en accord avec au moins une des propositions. L’exemple le plus connu de cette approche est le système CONSTRUE [Hayes et al. (1990)], construit par le Carnegie Groupe pour l’agence de presse Reuter. L’inconvénient de cette approche est que les règles doivent être définies manuellement par un ingénieur des connaissances à l’aide d’un expert du domaine. Si l’ensemble des catégories est mis à jour, ces deux professionnels doivent intervenir à nouveau, et si le classificateur est adapté à un tout autre domaine (c’est-à-dire, ensemble de catégories), des experts d’un domaine différent doivent intervenir et le travail doit être repris à partir de zéro. Depuis le début des années 90, l’approche de ML pour le besoin de TC a gagné en popularité et a fini par devenir l’approche dominante [Mitchell (1996)]. Dans cette approche, un processus inductif (également appelé l’apprentissage) construit automatiquement un classificateur pour une catégorie ci en observant les caractéristiques d’un ensemble de documents classés manuellement pour ci ou ci par un expert du domaine. De ces caractéristiques le processus inductif tire les caractéristiques que doit avoir le nouveau document pour être classé dans la catégorie ci . Les avantages de l’approche de ML sont évidents. L’effort d’ingénierie va à la construction, non pas d’un classificateur, mais d’un constructeur automatique de classificateurs (l’apprenant). Cela signifie que tout ce qui est nécessaire est que l’apprenant subisse une construction inductive et automatique d’un classificateur à partir d’une série de documents classifiés manuellement. Dans ce cas, nous n’avons plus besoin de traiter à nouveau des classificateurs qui existent déjà et la série initiale des catégories est mise à jour si le classificateur est porté à un tout autre domaine pour définir les règles manuellement. Dans l’approche de ML, les documents pré-classifiés sont alors les ressources clés. Dans le cas le plus favorable, ils sont déjà disponibles, ce qui se passe généralement pour les organisations qui ont déjà effectué la catégorisation manuellement de même activité et ont décidé d’automatiser le processus. Les cas le moins favorable est le cas où les documents classés manuellement ne sont pas disponibles, ce qui se passe généralement pour les organisations qui commencent une activité de catégorisation et optent pour un mode automatique. L’approche ML est plus pratique également dans ce dernier cas. Il est en fait plus facile de classer manuellement un ensemble de documents que de construire et de modifier un ensemble de règles, car il est plus facile de caractériser des cas de « celui-ci » que de décrire ce concept en mots, ou de décrire une procédure de reconnaissance des cas. L’approche de ML repose sur la disponibilité d’un corpus initial Ω = d1, …, d|Ω| ⊂ D de documents pré-classifiés sous C = c1, …, c|C| . En d’autres termes, les valeurs de la fonction Φ : ˘ D × C → T, F sont connues pour chaque paire < dj , ci >∈ Ω × C. Un document dj est un exemple positif de ci si Φ( ˘ dj , ci) = T, un exemple négatif de ci si Φ( ˘ dj , ci) = F. Dans les paramètres de recherche, une fois qu’un classificateur Φ a été construit il est souhaitable d’évaluer son efficacité. Dans ce cas, avant la construction du classificateur, le corpus initial est divisé en deux séries, pas nécessairement de taille égale : un ensemble d’apprentissage et un ensemble de test. L’ensemble d’apprentissage est : EA = {d1, …, d|EA|}.