Analyse de contenu avec Tropes
L’analyse de contenu est une méthode d’étude scientifique dans les Sciences Humaines et Sociales. C’est un champ de pratique large avec des méthodes, des méthodologies et des techniques scientifiques diverses. Elle est utilisé en recherche mais plus particulièrement dans les domaines des Sciences de l’Information et de la Communication (SIC) et des Sciences de l’Information et du Document (SID). L’analyse de contenu « se défi ve » (Robert, Bouillaguet, 2007). Le terme de « texte » peut désigner aussi bien des productions orales ou écrites, textuelles ou sonores. Dans notre cas, nous nous focaliserons sur les textes d’articles de presse écrite. Dans l’analyste de corpus de presse, la posture de l’analyste doit être différente de la posture du lecteur de journal. Pour le projet ANR MémoMines, l’analyste doit étudier les numéros du journal papier La Voix du Nord téléchargé sous format HTML, donc sous format numérique. Ce qu’il faut comprendre dans l’analyse de corpus de presse est que les textes qui ont été donnés à étudier pour l’analyste ne sont uniquement les textes que le journal a donné à lire. De plus « ce que l t » (Krieg, 2000). En d’autres termes, les textes ne reflètent absolument pas des paroles et doit être pris de façon autonome. L’analyse de corpus de presse ou de discours de presse est une spécificité dans l’analyse de contenu. Elle possède ses propres méthodes et techniques scientifiques.
En plus de la spécificité qu’est l’analyse de corpus de presse, il y a une dimension automatique à ajouter. En effet, dans la mission de stage, le but est d’analyse de façon automatisée un corpus de presse. En ce sens, certains outils numériques existent, qu’ils soient gratuits ou payants, et sont dédiés à ce champ disciplinaire. Ces outils permettent de faire ressortir très rapidement les mots-clés d’un discours. Le choix des outils numériques d’analyse sémantique diffèrent en fonction des besoins de l’analyste, la nature des discours à analyser ainsi que leur format. Cependant, ces outils comportent tous leurs propres limites dans leur utilisation. C’est pourquoi, une vue d’ensemble sur les outils existants et leur fonctionnalité va nous être utile pour déterminer le ou les outil(s) qui nous sera(ont) indispensable(s) et qui correspondra(ont) au mieux à nos attentes et nos besoins. Nous allons voir quels sont les différents outils qui peuvent être utilisés dans le cadre d’une analyse de corpus de presse et pourquoi nous avons choisi Tropes. Nous continuerons sur la méthodologie à adopter, les critères d’analyse et la confection d’une grille d’analyse. Puis nous terminerons par aborder la notion de l’objectivité et sa place dans l’analyse de contenu.Dans le cadre du projet ANR MémoMines, qui vise à établir une liste des acteurs et des lieux qui ont joué un rôle pendant ou après la période de l’exploitation du charbon, une question s’est posé sur le meilleur outil à utiliser pour une analyse de données textuelles informatisée. Ils sont nombreux à exister mais il a fallut trouver celui qui répondait le mieux à nos besoins. Pour ce faire, nous allons commencer par présenter certains outils qui pourraient nous intéresser dans le cadre d’une analyse de corpus d’articles de presse automatisée, puis nous allons nous focaliser sur l’outil Tropes, qui est l’outil qui a été choisi pour cette mission de stage.
Présentation des différents outils
Avant de commencer quelconque présentation, il est important d’expliquer les données que nous devons analyser. Les données à analyser sont sous forme de corpus textuel. Ce corpus représente l’ensemble des articles du journal La Voix du Nord publiés sur le domaine de la mine entre 2004 et 2021. Il est constitué de plus de 1 300 articles de presse. Ce qu’il faut comprendre c’est que nous avions besoin d’un outil capable de traiter les milliers de pages d’un corpus constitué au préalable et importé par l’analyste dans cet outil. Maintenant que le sujet d’analyse et expliqué, nous pouvons commencer la présentation des cinq outils qui pourraient être utiles dans ces circonstances. angage Python » (Ratinaud, 2021)1. C’est un logiciel disponible sous Windows, Linux et MacOs. Il permet de générer en sortie des corpus sous format CSV et ne prend qu’en entrée uniquement des corpus CSV. L’analyse de données textuelles qu’il propose repose sur la méthode de classification hiérarchique descendante de Reinert (1983, 1991), c’est-à-dire qu’elle est composée de trois modalités : la première étant la classification simple sur texte qui traite les textes dans leur intégralité et qui permet de regrouper les plus proches ; la seconde est une classification qui porte sur les segments de textes ; et la dernière est une classification sur deux tableaux, ici il n’est plus question de segments mais de regroupements de segments. L’un de ses points fort est qu’il propose une richesse informationnelle et une diversité des visualisation puisqu’il associe les différentes classes thématiques à une couleur.