Classification non supervisée en types de discours
Les CMS ont été choisies comme caractéristiques de cette classification non supervisée, car elles ont déjà montré leur utilité dans des travaux connexes. En effet, les CMS ont été de plus en plus exploitées, parmi d’autres caractéristiques, pour la catégorisation automatique de textes depuis les travaux de Biber (1988), qui s’intéresse à la détection de types de textes. Par exemple, Malrieu et Rastier (2001) travaillent sur la distinction, d’une part, et la classification automatique, d’autre part, de textes selon les genres (comédie, tragédie, drame, etc.) et selon les discours (littéraire, juridique, politique, etc.) en utilisant des variables majoritairement mor- phosyntaxiques. Karlgren et Cutting (1994) s’intéressent à la classification supervisée en genres de textes avec des CMS. On peut encore citer Palmer, Ponvert, Baldridge et Smith (2007) qui travaillent, en utilisant des CMS parmi d’autres caractéristiques, sur la classification supervi- sée de situation entities, un élément essentiel des modes de discours (modes of discourse) en linguistique anglaise (Smith, 2003), concepts relativement similaires aux types de discours en linguistique française. Pour déterminer si les CMS sont également utiles dans la détection des types de discours traités ici, une analyse préliminaire visant à mesurer le lien entre les CMS et les types de discours est effectuée dans la section 4.1.4. Finalement, la méthode et les résultats obtenus sont discutés dans la section 4.4.
Les données se composent de quatre contes de Maupassant, du 19ème siècle, annotées en types de discours par un expert humain. Ce dernier a proposé de travailler sur des contes de Maupassant pour trois raisons : les textes n’étaient pas trop longs et pouvaient être annotés en un temps raisonnable, ils étaient susceptibles de contenir tous les types de discours et ils étaient disponibles sur Internet. Aussi, un seul auteur et un seul genre sont considérés, car comme déjà expliqué dans l’introduction, les CMS varient en fonction des genres, mais aussi en fonction de l’auteur (voir par exemple Koppel et Schler, 2003). L’expert humain a utilisé des balises XML pour annoter les textes, une pratique standard dans ce domaine (voir par exemple Daoust, Marcoux et Viprey, 2010). Avant de pouvoir annoter les textes en types de discours, il a commencé par segmenter le texte en propositions énoncées, car le niveau des phrases, composées d’une ou plusieurs propositions énoncées, était trop grossier. C’est cette segmentation manuelle qui va servir de base à la classification non supervisée.Après avoir présenté les critères utilisés par l’expert humain pour l’annotation en types de discours (section 4.1.1), le corpus, ainsi que quelques statistiques descriptives le caractérisant, sont exposés dans la section 4.1.2. Ensuite, le prétraitement pour la création des tables de contingence croisant les propositions et les CMS est expliqué (section 4.1.3). De plus, comme déjà mentionné dans l’introduction de ce chapitre, une analyse préliminaire a été effectuée afin de s’assurer que les CMS sont des caractéristiques utiles à la distinction des types de discours et les résultats sont présentés dans la section 4.1.4.
Types de discours et annotation
En premier lieu, il faut noter que l’appellation « types de discours » est abusive, mais sera généralement utilisée dans ce qui suit. En effet, même si elle est courante en Français (Filliettaz, 2001), le terme « types de séquences » est plus précis, car il fait référence à des passages de textes et non à des textes entiers, et c’est celui utilisé par Adam (2008a,b) en général et par Bronckart (1996) lorsqu’il aborde les types traités ici. De plus, lorsque Bronckart (1996, section 5.2) parle de types de discours, il distingue quatre architypes psychologiques : le discours interactif, le discours théorique, le récit interactif et la narration, qu’il différencie des séquences décrites par Adam (2008a,b). Partant de cela, il définit ensuite des types linguistiques (Bronckart, 1996, section 5.3). Au chapitre suivant, il passe en revue les « Séquences et autres formes de planification » qui sont les éléments traités dans ce projet, (Bronckart, 1996, p. 219, chapitre 6) : Les types de discours (ou séquences) considérés par Adam (2008a,b) sont le narratif, l’argu- mentatif, l’explicatif, le dialogal et le descriptif. En plus de ces cinq types, on considérera ici le type de discours (ou séquence) injonctif, suggéré par Bronckart (1996), qui, dans les textes trai- tés dans ce projet, est toujours un « sous-type » du type dialogal. Il a été demandé à l’expert humain, Raphaël Pittier, alors étudiant de master en sciences du langage et de la communi- cation, ainsi qu’en français moderne (orientation linguistique française), d’annoter des textes selon ces six types de discours en se basant sur le travail de Adam (2008a,b) et Bronckart (1996). Dans ce qui suit, les types sont définis selon ces théories, ainsi que selon les critères re- tenus par l’expert humain, spécialiste dans ce domaine. De plus, il est fait mention des marques linguistiques que ce dernier a trouvé pertinentes.