Contexte et déroulement de l’évaluation
L’évaluation de notre système s’est avérée être une tâche complexe car elle requiert d’une part des compétences en extraction et en représentation des connaissances et d’autre part une bonne gestion de l’incertitude. Pour effectuer nos tests, nous avons constitué un panel d’utilisateurs variés : étudiants, doctorants informaticiens et non informaticiens. Afin d’évaluer plusieurs aspects de notre approche, nous avons également considéré les compétences en Web Sémantique lors de la constitution de notre panel. Notre panel de testeurs a été divisé en trois catégories : — Catégorie 1 : constituée de personnes expertes ou ayant de bonnes notions du traitement automatique du langage naturel. Au nombre de six, ces testeurs porteront un intérêt particulier à la première catégorie de nos tests, à savoir, la qualification de l’incertitude ; — Catégorie 2 : comprend des experts en Web Sémantique et en représentation des connaissances. Ces testeurs sont, en grande majorité, étrangers au TAL mais familiers avec la représentation RDF. Ils pourront ainsi juger la modélisation choisie pour représenter l’incertitude et la cohérence globale du graphe de connaissances ; — Catégorie 3 : représente des personnes totalement étrangères aux deux premières catégories. Ces testeurs auront une vue critique sur l’ensemble du système ainsi que son utilité dans des applications concrètes. Pour ce qui est des textes choisis, nous avons sélectionné des articles de l’actualité dont les faits n’ont pas encore été jugés, et qui par conséquent sont décrits avec beaucoup de précautions de la part des auteurs. Nous avons proposé un ensemble de 4 textes en français et 4 autres en anglais. Parmi les sujets choisis, nous pouvons citer : l’attaque du Thalys en août dernier, le procès du suspect des attentats de Boston ou encore la mort du terroriste Mokhtar Belmokhtar en Libye. L’ensemble des textes choisis décrit des faits ou des événements avec diverses incertitudes, celles-ci peuvent concerner les acteurs impliqués ou bien les descriptions de l’événement en question. Nous notons que ces critères de sélection des textes nous ont imposé de rejeter bon nombre de dépêches recueillies de 106 5.1. Contexte et déroulement de l’évaluation manière automatique. En effet, les textes que nous avons choisis doivent obligatoirement contenir des informations incertaines et des doutes exprimés par l’auteur. Notre évaluation comporte plusieurs parties : La première expérimentation concerne les sources d’incertitude. Pour ce faire, nous proposons à nos testeurs de lire un ensemble de textes sélectionnés et nous leur demandons d’extraire les marqueurs d’incertitude. Par ailleurs, nous précisons qu’un marqueur d’incertitude peut être un mot, une expression, une tournure de phrase, ou encore tout ce qui permet d’indiquer qu’il y a un doute concernant la fiabilité de l’information. Figure 5.1 – Exemple de texte proposé lors de l’évaluation. Dans le cas de l’exemple proposé dans la figure 5.1, nous pouvons identifier les marqueurs suivants : — « dans des circonstances qui restent à éclaircir » ; — « a indiqué le parquet de Paris » ; — « D’après les premiers éléments » ; — « probablement » ; — « a précisé à l’AFP la vice-procureur ». La deuxième partie concerne la modélisation de l’incertitude. Dans les textes que nous avons sélectionnés, nous avons identifié trois types d’incertitude : le discours rapporté, l’incertitude exprimée par l’auteur, l’incertitude issue de l’extraction de connaissances et de la mise en cohérence. Le but ici est de vérifier la conformité de l’extraction de connaissances par rapport aux textes choisis. Pour cela, nous avons demandé aux testeurs d’une part de valider les triplets du graphe de connaissances (issu du démonstrateur présenté dans la section 2.6) en fonction de ce qui est décrit dans le texte et d’autre part de vérifier les degrés de confiance accordée à chaque information incertaine. Notre choix s’est porté sur la validation du graphe car nous estimons qu’il serait plus simple à valider car plus compréhensible et plus intuitif que des triplets écrits en n-triple ou encore en RDF/XML. Dans le graphe présenté dans la figure 5.2, notre système a, par exemple, identifié deux types d’incertitude : (1) le discours rapporté relatif à la phrase « a source familiar with the matter said » 1 ; il s’agit d’un discours rapporté par une source inconnue. (2) l’incertitude 1. une source familière avec l’affaire a dit. 107 Chapitre 5 – Évaluation de l’approche exprimée par l’auteur de l’article concernant l’auteur de la fusillade, et ce par l’utilisation de « possible suspect ». Figure 5.2 – Exemple de graphe à valider lors de l’évaluation. Enfin, la troisième partie de l’évaluation concerne la réponse aux requêtes. Comme nos testeurs ne sont pas tous familiers avec le langage d’interrogation SPARQL, nous avons décidé de leur demander d’évaluer et d’apprécier l’incertitude quant à une requête sur des informations incertaines dans le texte. Nous présentons un exemple de cette évaluation dans la figure 5.3. Figure 5.3 – Exemple d’évaluation des requêtes.
Présentation et analyse des résultats
Ainsi, les testeurs n’ont qu’à choisir une option parmi les choix suivants : certainement, probablement, peut être, il y a peu de chances, certainement pas. Le résultat obtenu par l’exécution de la requête SPARQL, correspondant à la requête proposée au testeur, sera alors comparée au choix qu’il aura indiqué. Le tableau 5.1 permet d’indiquer la correspondance attendue entre le résultat de la requête et le choix du testeur. Choix du testeur Intervalle de confiance Certainement [0.80 – 0.99] Probablement [0.65 – 0.79] Peut être [0.45 – 0.64] Peu de chances [0.20 – 0.44] Certainement pas [0.01 – 0.19] Table 5.1 – Correspondance entre la réponse du testeur et le degré de confiance obtenu après exécution de la requête. Le résultat de la requête est un nombre précis, dû à la combinaison des degrés d’incertitudes liées aux informations connexes, tel que nous l’avions présenté dans la section 3.3. Il faudra par la suite faire la correspondance entre le degré de confiance donné par la requête et l’intervalle de confiance indiqué par l’utilisateur. Concernant les testeurs, pour la catégorie 1, nous avons fait appel à nos collègues linguistes chez GEOLSemantics ainsi qu’à quelques membres du LIGM travaillant sur le traitement des langues 2 . Concernant la catégorie 2, nous avons demandé à différentes personnes (8 personnes) rencontrées durant des conférences et écoles d’été, dans le domaine du Web Sémantique, auxquelles nous avons participé. La troisième catégorie quant à elle, ne répond pas à un profil particulier, de ce fait, nous avons demandé à divers testeurs (11 parmi les amis, la famille et les collègues). Nous soulignons également le fait que les personnes choisies ne sont pas toutes localisées au même endroit. De ce fait, nous ne pouvions être présents, physiquement, pour toutes les évaluations. Nous les avons alors contacté par email et leur avons envoyé un lien vers un Formulaire Google Docs. Ce dernier décrit brièvement le sujet de notre étude, le but de notre évaluation ainsi que la procédure à suivre lors de l’évaluation. Pour ne pas influencer les réponses des testeurs, nous avons évité de donner des exemples pour chaque partie, car nous voulions voir les points sur lesquels ils mettaient l’accent.