Baudelaire et la ”Poésie obscure” : la réincarnation du modernisme français dans la philosophie poétique chinoise à la fin du XXème siècle
EXPÉRIENCES (II) : VECTORISATION PAR PLONGMENT DE MOTS
Bien que les Expériences (I) nous amènent à des résultats très intéressants, les approches adoptées sont loin d’être optimales : Tout d’abord, 1) La représentation sémantique ne pourrait pas se réduire à une simple distribution des unités lemmatisées ou des étiquettes grammaticalisées. 2) La vectorisation par fréquence exagère largement la contribution des mots courants, sans mentionner qu’elle ne conserve pas l’ordre séquentiel, le lien inter-lexical et la cohésion pragmatique. 3) Les résultats dépendent de la constitution des corpus, parce que la vectorisation fréquentielle est gérée par l’interdépendance entre les objets examinés, c’est-à-dire, un réarrangement des corpus pourrait aboutir à des sorties instables. Ainsi, une référence externe plus généralisée nous paraît très nécessaire à ce point-là. Et puis, en traitant les séquences morphosyntaxiques, l’examen des n-grammes (n-grams) est une démarche plus ou moins chaotique : Cette variable cherche à maximiser la reconnaissance des chaînes morphologiques, sans prendre en compte la composition naturelle des segments sémantiques, ceci risque de fragmenter mécaniquement la continuité logique, de multiplier des bruits insignifiants, et de contrebalancer l’efficacité des « attributs ». D’ailleurs, les n-grammes, ainsi que les mots fonctionnels, tendent à accentuer les particularités du savoir-écrire individuel d’un poète. En revanche, ils risquent d’affaiblir l’homogénéité du courant dans la représentation stylistique. Ces variables sont efficaces dans l’identification des auteurs, mais leurs applicabilités aux recherches stylométriques seraient discutables. En fin, les modélisations appliquées aux Expériences (I) consistent à représenter un style par des « variables » isolées, et une « variable » est décomposée de nouveau en « attributs » indépendants. Ce procédé n’est pas suffisamment argumentatif pour déduire une conclusion bien justifiée, car chaque variable est traitée séparément, mais avec un poids égalitaire. Par exemple, il est intéressant de conclure que le style baudelairien est : 1) romantique, par son savoir-écrire et ses thèmes abordés ; 2) moderniste par son renouvellement néologique des lexiques poétiques. Pourtant, ceci ne pourrait pas nous confirmer la position précise de Baudelaire sur la métamorphose du romantisme vers le modernisme. En conséquence, dans ce chapitre, nous nous engageons à introduire un autre corpus qui est énorme, linguistique et référentiel, sur lequel deux plongements de mots s’effectueront à l’aide de l’apprentissage neuronal : un sur les « lemmes », l’autre sur la combinaison de « lemme-POS ». Thèse en Littérature Générale et Comparée – École Normale Supérieure, Université de Lyon 284
Entraînement des Modèles W2V
Deux modèles W2V ont été entraînés sur le corpus référentiel : Tableau 35 Rapport sorti de l’entraînement des modèles W2V1 Objet Volume Articles entraînés 4,596,271 Nombre de mots > 50 1,855,399 Nombre de mots < 50 2,740,872 Mots entraînés 899,318,813 Effectifs 706,588,981 Non-effectifs 192,721,832 Conservés 255,562 (UNIQUES) Tableau 36 Description des modèles W2V2 Modèle Volume du vocab Nombre de dimensions Type des données W2V-Lemmes 255,562 500 Float32 W2V-LemmePos 325,716 700 Float32 Etant donné que le corpus poétique contient un grand nombre de termes à basse fréquence, nous avons choisi, lors de l’entraînement des modèles, les algorithmes « Skip-gram + Hierarchical Softmax » qui assurent un apprentissage plus subtil aux termes moins fréquents.
Calcul des vecteurs textuels
Avec les modèles W2V, on pourrait projeter une unité lexicale ( i v ) sur un espace multidimensionnel, et un corpus pourrait ainsi se représenter par une matrice de vecteurs lexicaux. Donc, le vecteur textuel ( T v ) se calculerait par la moyenne de vecteurs lexicaux : n v v n i i T 1 4.03) C’est une méthode simple et efficace, mais ce procédé égalitaire ignore la différence de la contribution de chaque terme dans le texte. Un traitement de pondération est ainsi requis. Inspirés par les algorithmes de (Sanjeev Arora, Yingyu Liang, Tengyu Ma, 2017) 1 sur le plongement de phrases (sentence embedding), nous adoptons ici la méthode décrite en pseudo-code au suivant (LDA : Langage de Description d’Algorithmes) : Algorithm Text Embedding2 Input : Word Embeddings{ vw : wV }, Text T , Smoothing parameter , Words frequencies {p(w): wV} , Weight of w
Résultats
Les résultats seront visualisés avec un graphique de PCA (Principal Component Analysis) et un dendrogramme du « clustering agglomératif ». En outre, puisque les corpus sont vectorisés en grandes dimensions, nous y ajouterons un autre graphique de T-SNE en 3D, pour que la transitivité, baudelairienne ou symboliste, soit potentiellement plus visible. 1) Lemmes Figure 26 PCA, TSNE et Dendrogrammes du clustering sur les corpus romantique, baudelairien, symbolique et moderniste (LEMME, W2V) PCA, T-SNE (3D) et Dendrogrammes du clustering agglomératif et hiérarchique sur les lemmes (W2V) (Méthode de Ward, Distance de Manhattan, Transformation Z-Score, et Normalisation vectorielle de longueurs), avec le nombre des features, le coefficient agglomératif. Corpus : poèmes répartis sur 4 courants littéraires adjacents : (rouge) Romantisme, (bleu) Baudelairien, (vert) Modernisme, (violet) Symbolisme. OBSERVATION : 1) L’hypothèse nulle (H0) est acceptée ; 2) Jugé sur les lemmes pondérés, le style baudelairien semble plus romantique ; 3) Le romantisme montre une structure interne beaucoup plus dense que celle du modernisme ; 4) Le symbolisme prouve une transitivité, surtout au cas de Verlaine et de Rimbaud, ce dernier ayant un rôle déchiré ; 5) Par T-SNE (3D), le modernisme se met à part.
BAUDELAIRE – EXPÉRIENCES AGGLOMÉRATIVES
Lemmes substantiels
Figure 27 PCA et Dendrogrammes du clustering sur les corpus romantique, baudelairien, symbolique et moderniste (LEMMES SUBSTANTIELS, W2V) PCA, T-SNE (3D) et Dendrogrammes du clustering agglomératif et hiérarchique sur les lemmes substantiels (W2V) (Méthode de Ward, Distance de Manhattan, Transformation Z-Score, et Normalisation vectorielle de longueurs), avec le nombre des features, le coefficient agglomératif. Corpus : poèmes répartis sur 4 courants littéraires adjacents : (rouge) Romantisme, (bleu) Baudelairien, (violet) Modernisme, (purple) Symbolisme. OBSERVATION : 1) L’hypothèse nulle (H0) est acceptée ; 2) Jugé sur les lemmes pondérés substantiels, le style baudelairien semble plus romantique ; 3) Le romantisme montre une structure interne beaucoup plus dense que celle du modernisme ; 4) Les symbolistes, sauf Mallarmé, confirment leurs préférences au modernisme ; 5) À l’intérieur de l’agglomération romantique, les auteurs sont mal classifiés, c’est-à-dire, le style romantique prouve une homogénéité forte. Thèse en Littérature Générale et Comparée – École Normale Supérieure, Université de Lyon 288 3) Lemmes-POS Figure 28 PCA et Dendrogrammes du clustering sur les corpus romantique, baudelairien, symbolique et moderniste (LEMME-POS, W2V) PCA, T-SNE (3D) et Dendrogrammes du clustering agglomératif et hiérarchique sur les lemmes-pos (W2V) (Méthode de Ward, Distance de Manhattan, Transformation Z-Score, et Normalisation vectorielle de longueurs), avec le nombre des features, le coefficient agglomératif. Corpus : poèmes répartis sur 4 courants littéraires adjacents : (rouge) Romantisme, (bleu) Baudelairien, (vert) Modernisme, (violet) Symbolisme.
OBSERVATION
1) L’hypothèse nulle (H0) est acceptée ; 2) Jugé sur les lemmes pondérés et étiquetés, le style baudelairien semble plus romantique ; 3) Le modernisme se met à côté par un décalage évident ; 4) Ce sont les symbolistes qui paraissent transitifs, mais leur attachement au style romantique est incontestable ; 5) À l’intérieur de l’agglomération romantique, Baudelaire a un rôle relativement indépendant. 4) Lemmes-POS substantiels Figure 29 PCA et Dendrogrammes du clustering sur les corpus romantique, baudelairien, symbolique et moderniste (LEMMES-POS, SUBSTANTIELS, W2V) PCA, T-SNE (3D) et Dendrogrammes du clustering agglomératif et hiérarchique sur les lemme-pos substantiel (W2V) (Méthode de Ward, Distance de Manhattan, Transformation Z-Score, et Normalisation vectorielle de longueurs), avec le nombre des features, le coefficient agglomératif. Corpus : poèmes répartis sur 4 courants littéraires adjacents : (rouge) Romantisme, (bleu) Baudelairien, (vert) Modernisme, (violet) Symbolisme. OBSERVATION : 1) L’hypothèse nulle (H0) est acceptée ; 2) Jugé sur les lemmes substantiels, pondérés et étiquetés, le style baudelairien semble plus romantique ; 3) Le modernisme se met à côté par un décalage évident ; 4) Les symbolistes, sauf Mallarmé, confirment leurs préférences au modernisme ; 5) À l’intérieur de l’agglomération romantique, Baudelaire a un rôle relativement indépendant. Thèse en Littérature Générale et Comparée – École Normale Supérieure, Université de Lyon En révisant les expériences effectuées au-dessus, nous remarquons que, quelle que soit la méthode de vectorisation, les symbolistes montrent un statut instable dans l’examen des corpus substantiels : les « lemmes substantiels » (Fig. 19, 20, 27), les « lemmes-POS substantiels » (Fig. 29). C’est aussi le cas pour Baudelaire sur les « lemmes substantiels » (Fig. 19, 20) sous la vectorisation par fréquence. Ainsi, nous allons analyser respectivement, dans le suivant, les termes adjectifs, nominaux, adverbaux et verbaux. 1) Lemmes nominaux Figure 30 TSNE et Dendrogrammes du clustering sur les corpus romantique, baudelairien, symbolique et moderniste (NOMs, W2V) 2) Lemmes adjectifs Figure 31 TSNE et Dendrogrammes du clustering sur les corpus romantique, baudelairien, symbolique et moderniste (ADJs, W2V) TSNE et Dendrogrammes du clustering sur les corpus romantique, baudelairien, symbolique et moderniste (VERs, W2V) Thèse en Littérature Générale et Comparée – École Normale Supérieure, Université de Lyon 292 4) Lemmes adverbiaux Figure 33 TSNE et Dendrogrammes du clustering sur les corpus romantique, baudelairien, symbolique et moderniste (ADVERs, W2V) Les expériences agglomératives menées au chapitre précédent nous confirment au moins trois points importants : primo, la typologie des courants poétiques romantique, symbolique et moderniste est bien justifiée par les résultats, malgré une moindre confusion relevée parmi quelques poètestransitifs; secundo, les variables, ou plus techniquement, les « features » choisis pour la modélisation textuelle semblent efficaces et fiables dans la représentation stylistique du langage poétique ; tertio, les symbolistes prouvent une transitivité stylistique plus forte que Baudelaire, alors que ce dernier montre un statut très fidèle au romantisme. La méthode du partitionnement non-supervisé (clustering) nous promet une vision naturelle sur la distribution stylistique des poètes. Néanmoins, les données textuelles sont généralement très dispersées, et le calcul de distance entre les vecteurs de hautes dimensions est facilement influencé par des valeurs singulières, c’est un cas typique au traitement des corpus poétiques. Des confusions inattendues seraient ainsi possibles (e.g. c’est pourquoi Eluard et Musset qui sont mal classifiés dans certains cas). Ainsi, dans le présent chapitre, nous allons réanalyser les styles baudelairiens et symboliques avec l’apprentissage supervisé. Cette analyse se basera sur le corpus poétique (II), et les œuvres romantiques et modernistes serviront des données d’entraînement (training sets). Enfin, un modèle informatique sortira pour prédire le rattachement de chaque poème baudelairien au courant le plus probable.
INTRODUCTION |