Principales mesures de similarité pour l’extraction des termes 

Principales mesures de similarité pour l’extraction des termes 

Le tf-idf

Tf-idf (Term Frequency-Inverse Document Frequency) est une méthode de pondération souvent utilisée en recherche d’information. C’est une mesure statistique qui permet d’évaluer l’importance d’un terme contenu dans un document, relativement à un corpus. Le poids augmente avec le nombre d’occurrences du mot dans le document et varie aussi en fonction de la fréquence du mot dans le corpus. Il existe plusieurs variantes de la formule originale. Elles sont aussi utilisées dans d’autres domaines comme l’extraction des termes. a) La fréquentielle ( tf ) La représentation dite fréquentielle, notée tf, est une extension de la représentation binaire qui ne considère que la présence ou l’absence du mot dans le document. Tf est plutôt basée sur le nombre d’occurrences d’un terme i dans un document j . b) Le idf La fréquence inverse de document est une mesure de l’importance du terme dans l’ensemble du corpus. Dans le schéma tf-idf, elle vise à donner un poids plus important aux termes les moins fréquents, considérés comme plus discriminants. Cette pondération issue du domaine de la Recherche d’Informations tire son inspiration de la loi de Zipf (Zipf, 1949), introduisant le fait que les termes les plus informatifs d’un corpus ne sont pas ceux apparaissant le plus dans ce corpus. Ces mots sont la plupart du temps des mots outils. Par ailleurs, les mots les moins fréquents du corpus ne sont également pas les plus porteurs d’informations. Ces derniers peuvent en effet être des fautes d’orthographe ou encore des termes trop spécifiques à quelques documents du corpus étudié. Le tf-idf peut se décrire formellement comme suit : pour un terme i dans un document j parmi les N documents du corpus (Bechet, 2009). 𝑤𝑖𝑗 = 𝑡𝑓𝑖𝑗 × 𝑖𝑑𝑓𝑖 Avec  𝑖𝑑𝑓𝑖 = 𝑙𝑜𝑔 𝑁 𝑛𝑖 Où : ni est le nombre de documents dans lesquels apparaît le terme i. N le nombre total de documents.

La fréquence d’un couple

La fréquence d’une séquence s est le nombre d’apparition de s. Cette séquence peut être un lexème36, un lemme, un mot, un terme, etc. Cette mesure est utilisée dans tous les modèles statistiques, ce qui explique le soin apporté pendant les calculs de cette mesure. Ces modèles utilisent souvent quatre fréquences (Daille, 1994) : 1) La fréquence d’un couple de séquences (Si , Sj) dans un document et/ou dans un corpus, 2) La fréquence des couples de séquences (Si , Sj), où la séquence Si apparait comme premier élément d’un couple, 3) La fréquence des couples de séquences (Si , Sj), où la séquence Sj donné apparait comme deuxième élément d’un couple La fréquence totale des couples (pour chaque couple (Si ,Sj) ) dans un document et/ou dans un corpus.

Critères d’association

Les données définies à partir des fréquences citées précédemment, sont représentées sous forme d’un tableau croisé, dit tableau de contingence. Dans ce tableau on associe à chaque couple de lemmes , les valeurs a, b, c et d qui décrivent les fréquences du couple.o a est la fréquence du couple (li , lj), li est le premier élément et lj le second o b est la fréquence des couples où li est le premier élément d’un couple et lj n’est pas le deuxième o c est la fréquence des couples où lj est le deuxième élément du couple et li n’est pas le premier, o d est la fréquence de couples où ni li ni lj n’apparaissent, o La somme a+b+c+d, notée N est le nombre total d’occurrences de tous les couples trouvés. La majorité des mesures statistiques exploitent les données du tableau de contingence afin de déterminer le degré de liaison de deux lemmes donnés. Nous abordons dans ce qui suit les mesures statistiques les plus utilisées dans le domaine de l’extraction de terminologie. Dans ces meures, les fréquences a, b, c et d sont données dans le Tableau 7. 

Formation et coursTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *