Classification supervisée multi-étiquette en actes de dialogue
Les articles de Wikipédia sont créés par ses contributeurs, qui partagent leurs informations et leurs critiques sur des pages de discussion, chaque article étant lié à une page de discussion. Ces discussions fournissent une base de données que Ferschke, Gurevych et Chebotar (2012) ont segmentée, pour Simple English Wikipedia, en tours de parole, définis comme les interventions successives des intervenants. Ils ont ensuite annoté ces tours de parole avec des actes de dialogue (section 5.1). De nombreux travaux (voir par exemple Stolcke et al., 2000) se sont intéressés à la classifi- cation de dialogues écrits ou oraux en actes de dialogue (dialogue acts) ou en actes de langage ou de discours (speech acts), servant à caractériser la fonction d’un énoncé dans un dialogue (Austin, 1962; Searle, 1969). Les actes de dialogue peuvent être différents selon le but de la clas- sification (pour une comparaison des principaux actes de dialogue et de langage utilisés, voir par exemple Goldstein et Sabin, 2006). Ferschke et al. (2012) utilisent leur propre jeu d’étiquettes d’actes de dialogue avec pour but de comprendre les « efforts de coordination pour l’améliora- tion d’un article ». Dans un second temps, ils ont procédé à une classification multi-étiquette. En général, un acte de dialogue est attribué à chaque énoncé, ce qui conduit à une classification ordinaire mono-étiquette. Dans ce jeu de données, les tours de parole, pouvant être composés de plusieurs énoncés, sont étudiés et peuvent donc se voir attribuer un ou plusieurs actes de dialogue, ce qui conduit à une classification multi-étiquette (cf. section 2.3.2 et 5.3.2.1) des tours de paroles en actes de dialogue. Pour examiner la cohérence de ces annotations et pour déterminer une méthode de classification, on commence ici par analyser les relations entre les étiquettes (section 5.2).
Finalement, concernant la méthode de classification, alors que les auteurs du jeu de données ont employé des approches classiques, telles que le classifieur Bayésien naïf ou les Séparateurs à Vastes Marges (SVM), ce travail utilise l’analyse discriminante linéaire, étendue aux transfor- mations de Schoenberg. Les résultats ainsi obtenus sont exposés dans la section 5.3.3, puis les extensions possibles de la méthode sont discutées dans la section 5.4. Les données utilisées dans ce projet sont celles de Ferschke et al. (2012) et mises librement à disposition sur Internet (http://www.ukp.tu-darmstadt.de/data/wikidiscourse). Comme déjà expliqué ci-dessus, elles concernent les pages de discussion de Wikipédia en anglais simple. Une partie de ces pages de discussion ont été extraites, segmentées automatiquement en tours de parole (1450 au total), puis classifiées en actes de dialogue. Pour cette dernière étape, deux annotateurs ont classifié l’ensemble du corpus. Ensuite, dans les cas où les deux annotateurs n’étaient pas d’accord, un troisième annotateur expert a pris la décision finale, ce qui a permis constituer un corpus de référence (pour la structure des données et le détail, voir Ferschke et al., 2012).
Chaque tour de discussion pouvant avoir plusieurs étiquettes ou appartenir à plusieurs groupes g = 1, . . . , m, il semblait pertinent de commencer par déterminer s’il existe des liens entre ces étiquettes. En plus de permettre une meilleure compréhension de l’annotation et de sa cohérence, cette première étude permet de choisir une méthode de classification multi-étiquette appropriée, i.e. prenant en compte ou non le lien entre les étiquettes (cf. section 5.3.2.1).′ ) , une analyse en composantes principales (ACP) (voir par exemple Lebart et al., 1995, section 1.2) a été effectuée afin de visualiser les relations entre les différentes étiquettes et étudier la diversité de ces dernières. Pour pratiquer l’ACP, on utilise la fonction « PCA » du package « FactoMineR » (Lê, Josse et Husson, 2008; Husson et al., 2013) de R. Les résultats pour le coefficient phi et le Q de Yule sont présentés dans la table 5.1. Pour les coefficients phi, la valeur maximale de 0.358 est obtenue pour la paire d’étiquettes CS et PSR, ce qui signifie que, souvent, les tours de parole classés comme parlant de problèmes structurels sont aussi classés comme constituant une suggestion, une recommandation ou une demande explicite, et inversement, ce qui semble cohérent. Quant à la valeur minimale de -0.306, elle se produit entre les classes IP et PFC. Cela suggère qu’en général, si un tour de parole apporte de l’information, il ne propose pas en même temps un engagement à une action dans le futur.Quant à la valeur minimale de -1, elle est obtenue pour plusieurs paires de classes. Cela signifie, pour rappel (cf. section 1.2.2.3), que soit aucun tour de parole n’appartient simultanément aux deux classes, soit tous les tours de parole appartiennent à au moins une des deux classes. En fait, il s’agit du premier cas pour toutes les paires de classes. En particulier, on remarque qu’une approbation ou un rejet partiel (ATTP) exclut une attitude négative (respectivement positive) envers un autre participant ou un rejet (resp. une approbation) (ATT- resp. ATT+), diverses critiques (CO), des problèmes structurels (CS), un contenu inapproprié (CU) ou la manque d’exactitude (CW). Cependant, cette exclusion, qui pourrait sembler utile à la classification, est certainement due au fait que l’étiquette ATTP est peu présente dans le corpus (elle est attribuée à seulement 2.4 % des tours de parole selon Ferschke et al., 2012).