Définitions et caractérisations de modèles à base d’analogies pour l’apprentissage automatique des langues naturelles

La quantité sans cesse grandissante de données linguistiques numérisées disponibles offre de nouvelles perspectives au Traitement Automatique des Langues: l’approche déductive, caractérisée par l’application d’une connaissance globale exprimée par exemple sous forme de règles, laisse une place de plus en plus importante à l’approche inductive, qui extrait cette connaissance à l’aide de larges ressources linguistiques. Alors que l’approche déductive consiste à inférer des connaissances particulières à partir de connaissances générales, l’approche inductive permet d’inférer des connaissances générales à partir de connaissances particulières. L’approche inductive en TAL prend principalement la forme de modèles statistiques paramétriques, dont les paramètres sont estimés à l’aide de données ; dans ce contexte, les données servent à induire une abstraction (le modèle paramétré), laquelle peut ensuite s’utiliser de manière déductive sur des nouvelles données à analyser. Le schéma d’inférence alors adopté est le suivant : particulier → général → particulier.

L’approche analogique constitue un troisième mode de raisonnement, qui, de même que l’approche inductive, est capable d’exploiter des connaissances particulières contenues dans les corpus de données. Selon ce mode de raisonnement, l’analyse d’une nouvelle entité s’effectue par comparaison avec les données disponibles ; autrement dit, l’inférence s’effectue directement du particulier au particulier. Dans cette approche, l’abstraction que constitue la connaissance générale impliquée à la fois dans les approches déductives et inductives n’apparaît plus comme une composante nécessaire du modèle.

Cette approche nous semble intéressante à plusieurs titres : d’un point de vue cognitif, le raisonnement par analogie est considéré comme une faculté essentielle, au cœur de nombreux processus cognitifs. Dans un contexte d’Apprentissage Automatique, elle a donné lieu à des méthodes à la fois souples et efficaces ; on parle alors d’apprentissage paresseux car l’étape de généralisation (particulier → général) est évitée. Par ailleurs, cette approche s’accorde bien avec l’organisation paradigmatique des données linguistiques, qui permet de mettre aisément une entité linguistique en relation avec d’autres selon des schémas spécifiques ; la connaissance linguistique reste alors implicitement représentée dans le corpus accumulé et les relations systématiques qu’entretiennent les entités le composant.

En dépit de ces observations, l’utilisation de modèles relevant de cette approche reste marginale en TAL. En outre, les quelques approches que l’on peut qualifier d’analogiques n’exploitent, à notre sens, pas suffisamment (ou pas explicitement) les relations particulières qu’entretiennent les représentations linguistiques. En particulier, l’organisation paradigmatique des données linguistiques invite à considérer des proportions analogiques, qui feront l’objet d’une grande partie de ce travail de thèse. Les questions alors soulevées sont : comment exploiter au mieux ces proportions pour effectuer un apprentissage automatique, respectant les principes de l’apprentissage par analogie, et adapté aux tâches de TAL ? comment opérer l’identification des proportions analogiques ?

Le terme apprentissage par analogie désigne, sous une même appellation, des modèles ou procédés issus de domaines distincts. Le raisonnement par analogie correspond à une faculté cognitive essentielle, au cœur de nombreux processus cognitifs : résoudre un problème à l’aide de problèmes déjà résolus, plaider dans un procès à l’aide d’éléments provenant de cas similaires, imiter quelqu’un, reconnaître le lien entre une photo et la situation réelle qu’elle représente, etc. Cette capacité à représenter un objet ou une situation dans un contexte à l’aide d’un objet ou d’une situation rencontrés dans un autre contexte est l’essence même du raisonnement par analogie. Ce raisonnement nous permet, en particulier, d’expliquer de nouveaux concepts à l’aide de concepts plus familiers, de décrire des nouveaux phénomènes ou d’adopter une attitude dans une situation inconnue. Il est habituellement modélisé par un appariement entre deux descriptions, correspondant à des situations, la source et la cible; une inférence est effectuée par un transfert de connaissance de la situation familière (la source) vers la situation moins familière (la cible), enrichissant de la sorte notre connaissance relative à cette dernière. Un tel type de raisonnement fait l’objet de nombreuses études en Sciences Cognitives (Gentner et al., 2001). Dans ces travaux, l’objectif est de comprendre et de savoir modéliser cette faculté de l’être humain. Étudier le raisonnement par analogie fournit alors un point d’entrée pour la compréhension de mécanismes cognitifs plus généraux.

Le domaine de l’Apprentissage Automatique supervisé regroupe un ensemble de procédés inductifs dont l’objectif est de pouvoir analyser automatiquement un objet à partir d’une base d’objets déjà analysés, comme, par exemple, détecter automatiquement un courriel non sollicité à l’aide d’une base de courriels dont la nature sollicité/non sollicité est déjà connue. Dans ce contexte, l’apprentissage par analogie désigne les méthodes dites paresseuses, c’est-à-dire n’effectuant pas de généralisation des données disponibles. Pour analyser un nouvel objet, puisqu’aucune généralisation n’est opérée, le seul recours est de trouver un objet suffisamment « analogue  » parmi les objets déjà analysés, et de l’utiliser pour effectuer l’analyse recherchée. L’objet analogue est ici la source et l’objet à analyser la cible. Ces méthodes reposent donc en partie sur les mêmes principes que le raisonnement par analogie tel qu’étudié en sciences cognitives, à savoir l’identification d’un appariement entre deux situations. Toutefois, les objectifs respectifs se distinguent clairement : alors que les uns cherchent à modéliser une faculté cognitive, les autres essaient de résoudre des problèmes d’apprentissage exprimés de manière formelle. Cette formalisation, ainsi que les applications visées, conduisent à considérer des données d’une certaine nature : les données, disponibles et à analyser, sont potentiellement nombreuses, et en général faiblement structurées. À l’inverse, les modèles cognitifs considèrent habituellement un nombre réduit de situations, mais leur modélisation implique des représentations éventuellement complexes. Cette différence de nature des données entraîne également une vision différente de l’appariement caractérisant l’analogie. Dans un cas, il est réduit à une simple mesure de similarité alors qu’il repose sur une conservation de relations et de structures dans l’autre.

Dans les domaines de la Linguistique et du Traitement Automatique des Langues, l’approche analogique s’oppose aux modèles opérant une abstraction des données linguistiques, tels que les systèmes à base de règles et les méthodes statistiques paramétriques. Dans les premiers, la connaissance linguistique s’exprime par des représentations symboliques d’entités linguistiques et des règles permettant d’effectuer des traitements sur ces représentations. Les règles peuvent par exemple prendre la forme de règles de production ou de réécritures pour le traitement syntaxique, ou de règles d’inférence pour le traitement sémantique. Ces règles constituent les fondations d’un modèle génératif et abstrait du langage. Les  méthodes statistiques paramétriques, quant à elles, font l’hypothèse d’un modèle probabiliste paramétré permettant d’exploiter les données linguistiques. Les paramètres de ce modèle sont induits à partir d’un corpus de données. Une fois ces paramètres estimés, les données ne sont plus manipulées directement : le modèle paramétré représente une abstraction des données, et seule cette abstraction est utilisée. L’approche analogique s’oppose à de telles abstractions. Elle repose à la fois sur des fondements théoriques en linguistique et sur des considérations pratiques en TAL. En linguistique, elle repose sur l’hypothèse suivante : l’analyse des entités linguistiques et de leurs relations peut être apprise et effectuée par analogie avec des entités connues. Selon cette approche, l’abstraction n’apparaît pas comme une composante nécessaire des modèles. En TAL, l’exploitation automatique de données annotées et analysées fournit une alternative intéressante aux approches à base de règles reposant sur des bases des connaissances dont le coût de construction peut se révéler prohibitif.

Table des matières

CHAPITRE 1 Introduction
1.1 Contexte
1.2 Contributions
1.3 Organisation du document
CHAPITRE 2 Apprendre « par analogie »
2.1 Les modèles cognitifs de raisonnement par analogie
2.1.1 Introduction
2.1.2 Les approches symboliques
2.1.3 Les approches sub-symboliques
2.1.4 Les modèles hybrides
2.2 Les apprentis paresseux en apprentissage automatique
2.2.1 Introduction
2.2.2 Généralisation vs. paresse
2.2.3 Apprentissage paresseux et raisonnement par analogie
2.3 Apprentissage du langage par analogie
2.3.1 Introduction
2.3.2 Linguistique et proportions analogiques
2.3.3 TAL et apprentissage à partir d’exemples
2.4 Conclusion
CHAPITRE 3 Exploitation de proportions analogiques pour l’AALN
3.1 Apprentissage automatique de changement de niveau de représentation
3.1.1 Introduction
3.1.2 Quelques réponses
3.2 Un apprenti paresseux à base de proportions analogiques
3.2.1 Introduction
3.2.2 Des voisins aux proportions
3.2.3 APPA
3.3 Extension analogique et biais d’apprentissage
3.3.1 Introduction
3.3.2 Extension analogique
3.3.3 Biais d’apprentissage
3.4 Proportions analogiques et paradigmes
3.4.1 Introduction
3.4.2 Paradigmes morphologiques
3.4.3 Paradigmes syntaxiques
3.4.4 Paradigmes sémantiques
3.5 Conclusion
CHAPITRE 4 Conclusion

Cours gratuitTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *