Construction de corpus annotés pour le dialecte tunisien
Avec l’augmentation constante du nombre d’utilisateurs arabophones sur les réseaux sociaux tels que Twitter et Facebook, il s’est créé parallèlement un besoin pour des systèmes automatiques de traitement de la langue arabe, par exemple, les systèmes d’analyse de sentiments. Ces derniers sont utilisés pour classifier les textes dans des catégories qui correspondent à un sentiment : joyeux, triste, neutre. Ou bien encore, dans les systèmes de traduction de l’arabe à d’autres langues. Cependant, et à cause de la diversité des dialectes dans la langue arabe, il y a un manque de données d’entraînement pour la construction de ce type de systèmes. Un texte écrit en Tunisien ne peut pas être directement traduit en anglais si le système de traduction est entraîné avec de l’arabe moderne, de même pour l’analyse de sentiment. Une première étape consiste alors à différencier l’arabe moderne des dialectes qui existent, une seconde étape consiste à entraîner pour chaque dialecte un système différent. Nous proposons, dans ce chapitre, une étude du dialecte tunisien en fournissant un corpus de données pour les applications de différenciation et d’analyse des sentiments.Ces dernières années, nous avons constaté un intérêt croissant, dans la commu- nauté du traitement de la langue arabe, pour la fouille d’opinion et l’analyse des sentiments [Abdul-Mageed 2011, Shaalan 2014, Salameh 2015, Mohammad 2015]. Cependant, cette tâche reste difficile à réaliser à cause de la diversité de la langue arabe et de la multitude de dialectes.
Un outil qui est construit pour un dialecte ne marchera pas forcément pour un autre. Par exemple, l’outil de segmentation proposé par [Monroe 2014], ou l’outil d’analyse morphologique proposé par [Pasha 2014], sont deux outils construits sur l’arabe standard moderne (ASM) et le dialecte égyptien (EGY). L’application de ces outils sur le dialecte tunisien (TN), par exemple, ne donne pas des résultats précis. Car le TN a sa propre structure. Pour une analyse plus détaillée des différentes morphologies des dialectes arabes, se référer aux travaux de [Malmasi 2015]. Il y a donc un besoin de collecter plus de données de différents dialectes afin de construire un outil générique.Dans la table 6.1, nous citons la liste des jeux de données collectées pour la tâche de l’analyse des sentiments. Trois de ces jeux de données [Nabil 2015, Refaee 2014, Abdul-Mageed 2014b] sont collectés du site de microblogging Twitter et par la suite annotés. Nous trouvons, dans le travail de [Nabil 2015], un référentiel construit avec quatre algorithmes de classification, et aucune distinction entre le ASM et le EGY. Dans le travail de [Refaee 2014], Les auteurs proposent un jeu de données constitué de tweets jordaniens, ils détaillent dans leur article la méthodologie d’annotation utilisée ainsi que des statistiques reliées à leur jeu de données. Enfin, dans le travail de [Abdul-Mageed 2014b], les auteurs étudient le lexique des tweets qu’ils ont collectés et présentent une analyse des sentiments subjectifs dans la langue arabe.
Après un traitement des tweets et la suppression des tweets écrits avec des lettres en Latin, nous avons obtenu un total de 10,00 tweets écrits entièrement en lettres arabes. La constitution du jeu de données est fondée sur la collecte de certains mots clés qui ont été testés manuellement sur la barre de recherche du site de mircoblogging Twitter, et ont été discutés avec différents membres de la communauté tunisienne. En plus des mots clés, nous avons ajouté les hashtags comme une entrée lors de la requête des tweets. Les hashtags sont un moyen de donner plus de visibilité à un tweet. Ils sont considérés comme un hub où tous les tweets qui traitent du même sujet peuvent être facilement identifiés. Nous avons représenté les mots clés utilisés ainsi que les hashtags dans la table 6.2.Nous avons, avec trois personnes parlant le Tunisien, annoté manuellement 5514 exemples en ne tenant compte que des indicateurs positifs ou négatifs. Si un de ces indicateurs n’est pas identifié dans le tweet, nous le considérons comme neutre (se référer à la table 6.3 pour des exemples). Dans le cas où les annotateurs sont incapables de se décider sur un tweet, ils le suppriment tout simplement. Nous n’avons pas, de ce fait, considéré les sens cachés ou les phrases sarcastiques. Tous les tweets qui contenaient une redondance ou de la publicité ont été aussi supprimés.tunisien (TN). La proportion des différentes classes est illustrée dans la figure 6.1. Pour les tweets en ASM, nous avons un nombre important de tweets neutres, cela s’explique par le fait que c’est une langue utilisée pour les journaux écrits et télévisés. Pour les tweets en TN, nous avons un nombre important de tweets négatifs. Les tweets positifs et négatifs sont presque similaires en nombre. Une analyse poussée, des raisons expliquant ces différentes proportions, est au-delà de la portée de nos travaux. Nous résumons, dans la table 6.4, quelques statistiques relatives à notre jeu de données.