Module de notation de l’opinion
Architecture générale du module de notation de l’opinion
Dans le chapitre précédent, nous avons présenté l’architecture générale du système développé sans entrer dans les détails du module de notation des sentiments d’une critique cinématographique, le module le plus intéressant du point de vue de la recherche. Dans ce chapitre, nous allons décrire en détail les techniques de classification. Nous proposons deux nouvelles approches : – le classificateur de comportement des groupes, – le classificateur linguistique. Ensuite, nous comparons les résultats avec le classificateur statistique basé sur la classification « naïf Bayes » et la classification SVM [Figure 6.1].
Pour le marquage de l’opinion nous utilisons trois approches différentes qui sont les suivantes : – le classificateur de comportement des groupes : c’est une recherche statistique sur les données linguistiques pour déterminer le comportement des critiques cinématographiques qui ont la même note attribuée. Nous avons sélectionné plusieurs éléments que nous considérons comme les caractéristiques qui déterminent une des 5 catégories composées des critiques avec la même note associée.
Ces caractéristiques décrivent le comportement des groupes de critiques. Les caractéristiques étudiées sont par exemple : les mots caractéristiques, la longueur des phrases, la taille de l’opinion, la présence de la négation, les expressions caractéristiques ou la ponctuation spéciale. Pour déterminer la note de la nouvelle critique, nous avons calculé la distance entre les caractéristiques de la nouvelle critique et les caractéristiques des groupes – le classificateur statistique :
c’est une recherche basée sur le théorème de Bayes ou SVM – le classificateur linguistique : pour chaque phrase de la critique, nous attribuons une règle de grammaire qui exprime l’intensité de l’opinion. A la fin, nous calculons la note moyenne des phrases de la critique traitée. L’attribution de la note finale à la critique est effectuée grâce à un dernier classificateur basé sur un réseau de neurones.
Le classificateur de comportement des groupes
L’approche générale Dans cette section, nous présentons le classificateur utilisé pour la notation de l’opinion. L’approche générale est basée sur la vérification que les critiques ayant la même note associée ont des caractéristiques communes. Ensuite, nous déterminons un comportement des critiques qui ont la même note, nous déterminons donc le comportement général de chacun des groupes de critiques (5 groupes correspondant à 5 différentes notes de l’opinion).
Nous avons un très grand nombre de critiques cinématographiques déjà notées, mais pour effectuer l’étude des groupes nous utilisons une base de 1000 critiques (200 critiques par groupe). Nous avons rassemblé toutes les critiques selon leur note. Nous obtenons 76 6.2 Le classificateur de comportement des groupes alors 5 groupes différents de critiques du film. Ensuite, nous avons essayé de déterminer les caractéristiques typiques de chaque groupe.
Nous avons défini tous les paramètres qui pourraient caractériser le comportement d’un groupe tels que : – les mots caractéristiques, – les expressions caractéristiques, – la longueur de phrase, – la taille de l’opinion – la fréquence de répétition de plusieurs mots, – la négation – le nombre de signes de ponctuation ( !, ;), ?) – et ainsi de suite … Le choix des critères que nous avons gardés pour analyse de comportement du groupe a été fait de manière empirique.
Tout d’abord en analysant les corpus de critiques, nous avons défini des critères qui nous semblaient intéressants et qui pouvaient déterminer le comportement du groupe. Ensuite, nous avons testé ces critères sur une base d’apprentissage contenant mille critiques. Si les résultats montraient des différences entre les groupes, nous avons considéré ces critères comme critères valides pour nos travaux de recherche. Dans cette approche, nous présentons l’étude statistique sur les données linguistiques. La base d’apprentissage a été utilisée pour l’analyse des critiques avec la même note afin de trouver les caractéristiques qui déterminent le comportement de chaque groupe.
Chacune des approches utilisées dans notre recherche est basée sur différentes caractéristiques pour ne pas les répéter dans le processus de la classification. Néanmoins, nous avons emprunté les classes sémantiques de l’approche linguistique pour la création de la liste des mots caractéristiques. L’utilisation de ces données est différente dans ces deux approches. Apres avoir sélectionné des critères qui caractérisent les groupes de notes, nous avons analysé le corpus pour obtenir des résultats statistiques.
Les résultats montrent de grandes différences entre les caractéristiques de ces groupes. La création du comportement global de chaque groupe permet de déterminer à quel groupe appartient une nouvelle critique cinématographique. Pour les nouvelles critiques, nous avons calculé la distance entre ses caractéristiques et les caractéristiques des groupes.