A First Experiment with Structured Prediction : the WebNLG Challenge

Télécharger le fichier original (Mémoire de fin d’études)

Approches Proposées

Il est difficile d’exploiter les architectures de réseaux de neurones profonds pour cette tâche car le nombre de paramètres à entraîner nécessite une grande quantité de données et la verbalisation RDF manque de données alignées.
Les progrès récents des grands modèles pré-entraînés et de l’architecture Transformer sont très pro-metteurs pour les tâches de génération de texte. Pour le Challenge WebNLG 2020, nous avons proposé d’explorer l’effet du pré-entraînement massif et du modèle Transformer pour la tâche RDF-to-text.
Nous avons choisi d’utiliser des corpus externes pendant le pré-entraînement pour atteindre une meilleure généralisation. Nous construisons deux ensembles de données supplémentaires dans le but de pré-entraîner par réduction de bruit (ST1) et d’augmentation des données (WS1).
En outre, nous avons appliqué le paradigme de curriculum learning (CL) pour une convergence plus rapide et de meilleurs minima locaux à travers le processus d’optimisation. Pour rappel, l’idée du CL [Y. Bengio, Louradour et al., 2009] est d’augmenter progressivement la complexité des données pendant l’apprentissage pour imiter le comportement d’apprentissage humain. Dans notre cas, nous assimilons la complexité comme le nombre de triplets RDF en entrée. Plus le nombre de triplets est élevé, plus la complexité est élevée. Nous trions les données WebNLG de telle sorte que les exemples les plus faciles viennent en premier et les exemples les plus difficiles ensuite.
Nous avons entraîné 8 modèles Transformers correspondant à 8 configuration différentes. Chaque modèle est ensuite évalué à l’aide de l’ensemble de tests officiel du challenge WebNLG.
Pour la pré-entrainement par réduction de bruit, les phrases transformées (voir section 2.3.2) ont été directement introduites dans le Transformer. Le modèle doit donc reconstruire les phrases incomplètes. Des exemples d’échantillons prétraités pour les différentes configurations d’apprentissage sont présentés dans le tableau 2.2.

Résultats

Pour l’évaluation, nous avons utilisé le script d’évaluation officiel de WebNLG (disponible sur github). Pour évaluer l’impact des différents paramètres que nous voulons explorer, nous avons réalisé une étude d’ablation (ablation study). Nous avons défini notre modèle de référence (baseline) comme le Trans-former entraîné uniquement sur le jeu de données WebNLG, sans curriculum. Nous voulions évaluer l’influence du pré-entraînement, de l’augmentation des données et du CL par rapport à la baseline. Dans le tableau 2.3, en comparant notre baseline avec les stratégies de pré-entraînement pour chaque catégorie (sans curriculum), nous notons une augmentation moyenne de 3,07, 19,6 et 10,97 respectivement en bleu lors du pré-entraînement. Des variations similaires peuvent être notées avec les métriques me-teor, chrf++ et bleurt, bien que moins frappantes. Basée sur les incorporations contextuelles de bert,

Synthèse en Français

bleurt donne une bonne estimation de la corrélation sémantique entre la prédiction et les références. La plupart du temps, les métriques basées n-gram et sémantiques montrent une parfaite harmonie. Les meilleures valeurs de bleurt sont obtenues pour les mêmes modèles que les métriques basées n-gram. Par conséquent, toutes les métriques tendent à être corrélées, ce qui prouve une bonne concordance. Le gain de performance sur des domaines inconnus s’explique facilement par la diversité des données aug-mentées. Les nouvelles entités et le lexique spécifique au domaine rencontré aident mieux à modéliser les relations entre les données hors distribution. Ainsi, ces résultats soulignent l’utilité des corpus externes et renforcent le besoin d’un modèle pré-entraîné pour la lexicalisation de triplets RDF.
Sur les catégories connues, notre baseline donne un score de 55,24. Cependant, pour la génération hors domaine, tous les modèles démontrent de graves lacunes. Testé sur des entités inconnues, notre baseline montre une baisse de 42,34 pour atteindre 12,9. Nous constatons une perte similaire et même plus impor-tante dans les catégories inconnues. Dans le cas où les prédicats sont inconnus du modèle, il est difficile de générer une description cohérente des RDFs d’entrée. Des catégories connues aux catégories inconnues, notre baseline est presque pénalisée par un facteur de 5. Un tel effet est tempéré par nos approches de pré-entrainement. La baisse moyenne de la qualité des modèles pré-entraînés (sans apprentissage par programme) est de 25,6 % des catégories vues aux entités non vues, et de 35,5 % des catégories vues aux catégories non vues.
Lorsqu’une approche d’apprentissage avec CL est utilisée, nous assistons à des baisses de performance.
Ceci est contre-intuitif et opposé à l’expérience précédente sur notre ensemble de validation.
Il est intéressant de noter que les meilleurs résultats sont révélés avec un pré-entraînement sur ST1, exclusivement. Avec 5 fois moins de données, ST1 conduit à de meilleures performances. Les triplets extraits comprennent sûrement des triplets inexacts. Malgré la qualité imparfaite du jeu de données ST1, son utilisation contribue à la capacité de généralisation.
En revanche, nous constatons que le pré-entrainement par réduction de bruit ne donne pas de résultats satisfaisants lorsqu’il est combiné à notre pré-entrainement sur le jeu de données ST1, ce qui conduit finalement à un effet négatif. Cela peut être dû à une divergence de distribution des entrées entre WS1 et ST1. Le pré-entraînement par réduction de bruit ne nécessite pas de triplets en entrée mais une phrase bruitée. Le décalage entre cette représentation et la linéarisation des triplets peut être la raison de cet effet négatif.

Étude de la Génération de Paraphrase

La génération de paraphrases est une tâche fondamentale du traitement automatique des langues. Elle peut être considérée comme une variante de la traduction automatique où la traduction est effectuée dans la même langue que l’entrée. Par conséquent, les progrès de la génération de paraphrases sont étroitement liés à ceux de la traduction automatique. La paraphrase est cependant beaucoup moins étudiée. La raison principale est probablement le manque de ressources disponibles. En particulier, un exemple de modèle performant pour la traduction automatique est le réseau de neurones supervisé, entraîné sur d’énormes bases de données alignées. De tels ensembles de données ne sont pas disponibles pour la génération de paraphrases.

Étude de la Génération de Paraphrase

Données
Il n’existe pas d’ensemble de données génériques de paraphrases alignées. Les corpus de paraphrases ali-gnées disponibles sont souvent orientés vers des problèmes spécifiques comme la réponse à des questions ou le sous-titrage d’images. Nous avons utilisé cinq corpus de paraphrases pour nos expériences. Tout d’abord, nous avons utilisé 3 corpus alignés construits pour l’identification des paraphrases : MSRPa-raphrase, pawset qqp. Deuxièmement, deux autres corpus qui ont été construits dans un autre but : mscocopour le sous-titrage d’images et opusparcus pour la traduction de sous-titres.
Évaluation Les paramètres d’évaluation automatique sont similaires à ceux utilisés pour le défi WebNLG présenté dans la section 2, à savoir le bleuet le score bert.
Générateurs de Paraphrases Supervisés
Tout comme la traduction automatique ou la génération de rdf en texte, la génération de paraphrases peut être vue comme un problème de séquence à séquence.
Comme la traduction automatique, la génération de paraphrases a bénéficié des réseaux neuronaux profonds et a évolué vers des architectures efficaces de bout en bout qui peuvent à la fois apprendre
à aligner et à traduire [Bahdanau, Cho et al., 2016 ; Vaswani, Shazeer, Parmar, Uszkoreit, L.
Jones, Aidan N Gomez et al., 2017b]. Plusieurs articles, comme [Cao et al., 2017 ; Prakash, Sadid A. Hasan et al., 2016a], présentent la tâche de génération de paraphrases comme un problème supervisé de séquence à séquence. Nos expériences confirment que cette approche est efficace pour des types spécifiques de paraphrases. Elle est également capable de produire des transformations à relativement longue portée et une structure syntaxique complexe, mais elle nécessite d’énormes ensembles de données alignées de phrases de bonne qualité pour l’apprentissage.
Nous avons mené des expériences pour reproduire les résultats des modèles supervisés d’encodeurs-décodeurs tels que rapportés dans la littérature. Il n’existe cependant pas de configuration d’expérience uniforme permettant de comparer directement les modèles et les expériences présentés dans les différents articles. Cela entraîne des problèmes de reproductibilité.
En plus d’essayer de reproduire les résultats existants, nous avons mené les expériences en utilisant un cadre uniforme afin de comparer réellement les résultats et de les étendre à tous les ensembles de données.
Comme baselines supervisées, nous avons entraîné trois architectures de réseaux de neurones réputés comme performants ur mscoco et qqp, en particulier, l’architecture Seq2Seq, une architecture Residual lstm [Prakash, Sadid A Hasan et al., 2016b] et un modèle transformer [Egonmwan et Chali, 2019a]. Nous avons étendu les expériences aux autres corpus alignés : MSRParaphrase, opusparcus et paws.

Table des matières

Abstract
List of Figures
List of Tables
Synthèse en Français
1 Introduction
2 Première Expérience de Génération de Texte : le Challenge WebNLG
2.1 Données
2.2 Approches Proposées
2.3 Résultats
3 Étude de la Génération de Paraphrase
3.1 Générateurs de Paraphrases Supervisés
3.2 Approches Basées Recherche
3.3 Résultats
3.4 Expérience de Distillation
4 Conclusion et Perspectives
Introduction
I Background and First Experiments
1 An Introduction to Encoder-decoder Neural Networks
1.1 The Recurrent Neural Network (RNN)
1.2 The Encoder-Decoder Architecture
1.3 The Attention Mechanism
1.4 The Transformer and its Derivates
1.4.1 The Transformer
1.4.2 Transformer-based Models
1.5 Inference
1.5.1 Greedy Decoding
1.5.2 Beam Search
1.6 Maximum Likelihood Training (MLE) and its Limitations
1.6.1 Exposure Bias
1.6.2 Training Loss and Evaluation Metrics Discrepency
2 A First Experiment with Structured Prediction : the WebNLG Challenge
2.1 A Data to Text Generation Task
2.1.1 Knowledge Bases
2.1.2 A Text Generation Task
2.1.3 The WebNLG Dataset
2.1.4 The Evaluation Protocol
2.1.5 Human Evaluation
2.2 Background : the 2017 WebNLG Challenge Models
2.2.1 Pipeline Systems
2.2.2 Statistical Machine Translation (SMT)
2.2.3 Neural Machine Translation : Supervised Sequence-to-sequence Neural Networks
2.3 Proposed Approaches for the 2020 WebNLG Challenge
2.3.1 Data Augmentation
2.3.2 Pre-training Strategies
2.3.3 Curriculum Learning
2.4 Experiments
2.4.1 Data Preprocessing
2.4.2 Training Settings
2.4.3 Ablation Study Results
II The Use Case of Paraphrase Generation
3 The Paraphrase Generation Task
3.1 Definition and Applications
3.1.1 Definition
3.1.2 Applications
3.2 Data
3.2.1 Aligned Corpora Built for Paraphase Identification
3.2.2 Comparable Sentences Corpora
3.2.3 Statistics on the Aligned Corpora
3.3 Evaluation
3.3.1 Automatic Metrics
3.3.2 A Paraphrase Identification Experiment
3.4 Paraphrase Generators Overview
3.4.1 Rule-based and Statistical Approaches
3.4.2 Supervised Encoder-decoder Approaches
4 Supervised Paraphrase Generators
4.1 Overview of Supervised Paraphrase Generation
4.1.1 Survey
4.1.2 State of the Art Results Reproduction Issues
4.2 Paraphrase Generation Experiment
4.2.1 Settings
4.2.2 Results
4.2.3 Analysis
5 Search-based Approaches
5.1 A Paraphrase Tree Generator
5.1.1 PPDB: The Paraphrase Database
5.1.2 Statistics on the Paraphrase Spaces
5.2 Monte-Carlo Paraphrase Generator
5.2.1 Monte-Carlo Tree Search
5.2.2 MCPG
5.2.3 Scoring Function
5.3 Pareto Tree Search
5.3.1 From a Single Objective to the Pareto Front
5.3.2 PTS
5.3.3 E-pts
5.4 Experiments
5.4.1 Baselines
5.4.2 Settings
5.4.3 Results
6 Distillate Search Policies
6.1 Background
6.1.1 Supervised Pretraining and Fine-tuning
6.1.2 Distillation
6.2 Experiments
6.2.1 Settings
6.2.2 Results
6.2.3 Analysis
6.3 Conclusion on Paraphrase Generation
Conclusion
Publications
References
Appendices
Appendix A Paraphrase scoring module

Télécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *