L’évaluation et les tests

L’évaluation et les tests

Les tests des classifications de notation des sentiments

Le choix de validation des performances Dans le chapitre précédent nous avons présenté les techniques de classification de texte pour effectuer la notation de l’opinion des critiques cinématographiques. Dans ce chapitre nous présentons nos résultats et nous précisons les avantages et les inconvenants des méthodes décrites dans le chapitre précédent. Pour mesurer les performances des classificateurs nous calculons les paramètres du rappel et de la précision, en déduisant la valeur de F-score. Dans notre activité de recherche nous avons utilisé le classificateur linguistique pour lequel nous avons créé les grammaires en se basant sur les critiques de la base d’apprentissage (identique pour toutes les méthodes). Pour cette raison nous avons choisi la méthode de validation par test. Les autres méthodes de validation [Section 2.3 ] sont basées sur l’estimation de l’erreur et utilisent les données de la base d’apprentissage. La création des grammaires pour le classificateur linguistique est basée sur la base d’apprentissage, donc pour calculer la performance nous avons besoin d’une nouvelle base, la base de test. Nous precisons aussi que nous avons un très important nombre de critiques annotées dans notre base de données ce qui justifie l’utilisation de la méthode de validation par test. Nous comparons les résultats de toutes les approches de classification developpées sur le même ensemble de validation. Nous avons utilisé la même base de test et la même base d’apprentissage pour tous les classificateurs des sentiments. Nous supposons que l’utilisation des mêmes bases d’apprentissage et de tests nous permet d’effectuer la comparaison des résultats des trois classificateurs, même si l’apprentissage était effectué d’une manière complètement différente. Dans notre recherche de la notation des sentiments, une des méthode utilisée est la méthode de classification de comportement des groupes. Ce classificateur attribue uniquement la note directement à la critique entière. Les autres classificateurs attribuent la note à chaque phrase de la critique. Pour pouvoir comparer les trois méthodes utilisées, la performance de tous les classificateurs est calculée par rapport à la bonne attribution de la note à la critique entière et non à chaque phrase. La mesure de performance d’attribution de la note à la critique entière dans le cas de deux classificateurs (statistique et linguistique) peut sembler moins précise que la mesure de performance par rapport à l’attribution de la note à chaque phrase. En effet, nous effectuons la classification de chaque phrase et non pas la moyenne des notes de toutes les phrases de chaque critique cinématographique. Donc pour ces deux classificateurs nous avons aussi effectué la mesure de la performance par rapport à la note attribuée à chaque phrase. Les résultats que nous avons obtenus n’étaient pas trop éloignés de ceux que nous avons obtenus en regardant la critique entière, pourtant les sens de la précision et du rappel sont différents dans les deux mesures. Cette validation ne peut évidemment pas être effectuée avec le classificateur de comportement des groupes. Pour cette raison nous estimons que pour pouvoir comparer les résultats de toutes les classifications nous devons tenir compte de la note attribuée à la critique entière. La mesure de la performance d’attribution de la note par rapport à chaque phrase (le classificateur linguistique et statistique) demande le calcul de la précision et du rappel. Pour ces calculs nous avons besoin d’avoir : – l’ensemble de tous les documents pertinents trouvés, – l’ensemble de tous les documents trouvés, – l’ensemble de tous les documents pertinents présents dans la base.

Le classificateur linguistique

Le classificateur linguistique utilise la base d’apprentissage pour la création des règles des grammaires locales pour chaque classe de notes. Pour effectuer la notation nous prenons une nouvelle critique de la base de test. L’attribution de la note est effectuée phrase par phrase. A la fin de processus nous obtenons un nombre des phrases avec les notes associées. – Tableau 7.1: Mesure de performance pour le classificateur linguistique par rapport aux phrases – en haut : la classification des phrases de chaque groupe de notation (lignes – notes des auteurs, colonnes – notes de classification), en bas : les mesures de performance phrases avec une note égale à 5, 533 avec une note égale à 4, 588 avec une note égale à 3, 381 avec une note égale à 2 et 893 phrases avec une note égale à 1). Dans le Tableau 7.1 nous montrons les résultats pour les tests du classificateur linguisitique effectués sur la base de test de 300 critiques cinématographiques par la méthode de validation par le test. La mesure de performance est effectuée pour chaque phrase. La partie haute du tableau montre la classification des phrases pour chaque groupe de note. Les colonnes répresentent les notes attribuées par notre classificateur. Les lignes représentent les critiques notées par les auteurs (Exemple : 5*(744) – correspond à 744 phrases avec une note égale à 5 selon la base de test). Les colonnes répresentent les notes attribuées par notre classificateur, les valeurs dans le tableau donnent, en détail, la répartition des notes de notre classificateur par rapport aux notes des auteurs. Dans le tableau, PO désigne les phrases objectives, PNC désigne les phrases non classées. Dans la première colonne par exemple, 5(646) correspond à 646 phrases avec une note égale à 5 selon la note de notre classificateur, où 539 phrases correspondent à des phrases classifiées correctement,correspondent à des phrases classifiées avec une note égale à 5 au lieu de 4, et ainsi de suite. Le classificateur a attribué aussi les notes pour les phrases objectives (24 phrases pour le groupe 5, 20 pour le groupe 4, 27 pour le groupe 3, 39 pour le groupe 2 et 18 phrases pour la groupe 1). Plusieurs phrases n’ont pas été notées (75 phrases pour la note de 5, 40 pour la note de 4, 88 pour la note de 3, 57 pour la note de 2 et 92 pour la note de 1). La partie basse du tableau montre les valeurs de la précision, du rappel et du f-score pour le classificateur linguistique. Pour calculer la note de la critique entière nous calculons la moyenne des notes de toutes les phrases notées. Nous pondérons les grammaires en fonction du niveau de l’analyse linguistique de la critique présentée dans la [Section 6.4 ]. La création des grammaires locales était effectuée en ajoutant un niveau de complexité par rapport à l’analyse linguistique. Les grammaires de niveau supérieur sont plus précises, mais le rappel est très faible. La recherche est effectuée de façon à ce qu’une phrase de la critique corresponde à une grammaire d’un niveau supérieur. Les autres grammaires de même note ne sont plus appliquées pour cette phrase. Pour cette raison nous avons la certitude que les résultats de la notation obtenus avec une telle grammaire sont plus précis. Les grammaires ainsi que leurs pondérations ont été créées manuellement. Nous avons partagé les critiques en 4 groupes en fonction de leur niveau d’analyse linguistique. Nous avons ajouté les pondérations pour chaque groupe. Des grammaires les plus précises jusqu’aux grammaires générales les poids sont respectivement de 2.0 ; 1.6 ; 1.3 ; 1. Les poids ont été choisis pour que la valeur du F-score soit la plus performante, de manière empirique. Dans le Tableau 7.2 nous montrons les résultats du classificateur linguistique appliqué à la base de test de 300 critiques cinématographiques par la méthode de validation par le test. La mesure de performance est effectuée pour la critique entière.