Détection et analyse d’une thématique rare dans de grands ensembles de requêtes

Détection et analyse d’une thématique rare dans de
grands ensembles de requêtes

Détection des requêtes pédophiles 

La pédopornographie est une activité criminelle activement poursuivie par diverses organisations qui ont pour but d’anéantir les réseaux de production et de diffusion de tels contenus. Les individus qui participent à de tels échanges souhaitent donc généralement se cacher et ont donc recours à des pseudonymes et à des mots-clefs spécifiques, cachés, qu’un non-initié ne comprend pas ou ne considère pas comme faisant référence à de la pédopornographie . Les réseaux P2P étant accessibles depuis la plupart des pays, les requêtes peuvent en outre être exprimées dans de nombreuses langues différentes. Un premier déV dans notre travail consiste donc à savoir détecter une requête pédophile, avant de pouvoir la discerner des autres et de pouvoir en estimer le nombre. Compte tenu de la taille des ensembles considérés, la classification des requêtes ne peut se faire de façon complètement manuelle et cette détection se traduit en pratique par l’élaboration d’un algorithme de classification des requêtes en deux classes, pédophiles et non pédophiles. Une manière classique d’aborder ce type de problème de classification consiste à utiliser des techniques d’apprentissage automatique. Cependant, l’emploi de ces méthodes nécessite de disposer au préalable de données étiquetées pour élaborer les modèles et entraîner les algorithmes à distinguer les requêtes appartenant à telle ou telle classe. Or, dans le contexte de l’activité pédophile dans le P2P, ce type de données n’existait pas au début de cette thèse. Au contraire, les travaux que nous avons eU tués ayant permis d’obtenir de grands ensembles de requêtes pédophiles, de telles approches seront possibles dans le futur. Une autre problématique importante de notre travail est l’évaluation de la qualité de la détection réalisée, c’est-à-dire des performances de notre outil de classification de requêtes pédophiles. En effet, malgré l’importance du sujet, peu de personnes disposent de l’expertise requise pour participer à la validation d’un tel outil. En outre, la faible présence relative de ces requêtes nécessite d’adopter des méthodes statistiques adaptées. Classification des utilisateurs Pour la société, disposer de statistiques valables sur les utilisateurs qui participent aux échanges de contenus pédopornographiques est une problématique fondamentale, qu’ils en soient les fournisseurs ou les demandeurs. Dans notre contexte, étudier les utilisateurs soulève deux problématiques de recherche principales. Dans un premier temps, il est fondamental de pouvoir identifier un utilisateur, c’est-à-dire de distinguer quelles requêtes proviennent de la même personne et quelle est cette personne. Sur Internet, les ordinateurs interagissent en étant identifiés par une adresse IP et un port de communication (qui ne sera souvent pas disponible dans nos données). Cependant, plusieurs utilisateurs peuvent se servir de la même machine (et donc de la même adresse) et une personne peut avoir à sa disposition plusieurs machines différentes (par exemple, à son domicile, sur son lieu de travail, des terminaux publics ou mobiles, etc.). En outre, pour diverses raisons techniques, les adresses IP peuvent être attribuées à des machines différentes au cours du temps, ce qui complique le problème de l’étude sur une durée relativement longue. L’identification des utilisateurs est donc en pratique quasiment impossible dans notre contexte. Dans la plupart des cas, nous pourrons cependant nous contenter de savoir seulement distinguer (c’est-à-dire ne pas mélanger) les requêtes de plusieurs utilisateurs, Cette problématique est loin d’être triviale, pour les mêmes raisons que précédemment. L’autre difficulté essentielle à laquelle nous faisons face, même en sachant isoler les requêtes soumises par un utilisateur donné, est de décider si cet utilisateur est pédophile ou non. Nous ferons en première approximation l’hypothèse qu’un utilisateur ayant soumis au moins une requête pédophile est pédophile, mais dans ce cas les erreurs de classification des requêtes induisent des erreurs de classification des utilisateurs. Bien entendu, des raisonnements de cette hypothèse  sont envisageables, comme par exemple Fixer un seuil différent pour être considéré comme pédophile, mais cela sort du cadre de notre thèse. Notre étude doit faire face à plusieurs problématiques : – l’activité pédophile est cachée et s’eFFectue dans plusieurs langues ; – la grande taille des ensembles de requêtes et la faible proportion relative de requêtes pédophiles imposent des traitements adaptés ; – il n’existe pas d’ensemble de référence et peu d’experts du sujet pouvant classer des requêtes comme pédophiles ou non pédophiles ; – les informations disponibles ne permettent pas d’identiFIer ou de distinguer directement les utilisateurs. 

 Données

 Les ensembles de requêtes que nous allons étudier dans ce manuscrit ont été collectés en observant à différents moments l’activité de deux des plus grands systèmes d’échanges de Fichiers actuellement déployés, eDonkey [20,46] et KAD 1 . Sur ces deux réseaux, un utilisateur souhaitant télécharger un contenu auprès des autres utilisateurs peut se servir d’un moteur de recherche intégré. Il saisit alors sa requête dans un champ de recherche sous la forme d’une succession de mots-clefs. Le moteur de recherche propose en retour une liste de Fichiers correspondant à ces mots-clés, que l’utilisateur peut décider de télécharger auprès des pairs. De telles requêtes de recherche, que nous appelons plus simplement requêtes, sont intéressantes pour l’analyse car elles capturent l’attention de l’utilisateur à un moment donné. Les deux systèmes fonctionnent de façons bien diFFérentes du point de vue des recherches : alors que eDonkey est constitué d’un ensemble de serveurs, chacun indexant les Fichiers dont il a connaissance et fournissant son propre moteur de recherche (sur ces Fichiers), KAD a en revanche un moteur de recherche distribué, qui indexe tous les Fichiers du réseau. Nous présentons ci-dessous les diFFérents jeux de données que nous utilisons par la suite ; leurs caractéristiques sont résumées dans le tableau 1.1.Pendant une durée de dix semaines en continu, en 2007, des membres de l’équipe Complex Networks du LIP6 ont observé le traFIc destiné à un des plus importants serveurs eDonkey du moment. En particulier, les requêtes auprès du moteur de recherche du serveur ont pu être collectées. Chaque requête comporte un horodatage, l’adresse IP et le port de communication de l’utilisateur, ainsi que les mots-clefs de la recherche. Nous appelons ce premier jeu de données data-ed2k2007. En 2009, nous avons obtenu du responsable de deux serveurs eDonkey qu’il active la capacité d’enregistrement des requêtes soumises au moteur de recherche sur chacun de ses serveurs. Ceux-ci sont situés dans des pays différents (l’un en France, l’autre en Ukraine) et ont des politiques d’indexation de contenus 2 différentes. Le port de communication de l’utilisateur n’est cette fois pas disponible. En revanche, l’adresse IP est géolocalisée avant d’être anonymisée. La collecte sur le serveur en Ukraine a été arrêtée après quelques mois, celle sur le serveur en France est toujours opérationnelle en octobre 2012. Nous allons utiliser à plusieurs reprises dans ce manuscrit les données obtenues sur ces serveurs, en extrayant différents jeux de données selon les besoins. Le jeu de données principal créé avec l’enregistrement du serveur français s’étend actuellement sur une période de 147 semaines (près de trois ans) et contient plus d’un milliard de requêtes. Nous le désignons sous le nom data-ed2k0912. Nous l’utiliserons notamment dans le chapitre 4 pour étudier l’évolution à long terme de l’activité pédophile. Auparavant, nous avons travaillé sur un jeu de données intermédiaire de 28 semaines, que nous appelons data-ed2k2009 [48,49]. Nous avons également obtenu des données sur le réseau KAD, grâce à une collaboration avec des membres de l’équipe MADYNES du LORIA. Dans le cadre de la thèse de Thibault Cholez, les membres de l’équipe ont développé un système de supervision de KAD, appelé HAMAC [14, 15]. Celui-ci est capable de collecter dans KAD toutes les requêtes concernant un mot-clef donné. En revanche, HAMAC ne peut superviser l’intégralité des mots-clefs. Nous avons donc élaboré avec l’équipe MADYNES une liste de mots-clefs correspondant à nos besoins et nous avons ciblé la mesure sur ceux-ci (les détails sont présentés dans le chapitre 5). L’enregistrement des requêtes a duré dix jours en continu, en novembre 2010. Nous désignons ce jeu de données par l’appellation data-KAD. En, nous avons utilisé les mesures des serveurs eDonkey français et ukrainien, mais avons restreint les requêtes observées avant que les jeux de données soient comparables à KAD (voir chapitre 5). Nous appelons les ensembles ainsi créés data-ed2k-FR et data-ed2k-UA respectivement.

Table des matières

Remerciements
1 Introduction
1.1 Problématiques
1.2 Données
1.3 État de l’art
1.3.1 Analyse d’ensembles de requêtes
1.3.2 Techniques de classification
1.3.3 Pédopornographie
1.4 Organisation de la thèse
2 Requêtes pédophiles
2.1 Détection
2.2 Méthode de validation
2.3 Protocole de validation
2.3.1 Construction des échantillons
2.3.2 Experts
2.3.3 Interface
2.4 Résultats fournis par les experts
2.4.1 Sélection des experts
2.4.2 Classification des requêtes
2.5 Résultats de la validation
2.6 Fraction de requêtes pédophiles
2.6.1 Fraction de requêtes étiquetées comme pédophiles
2.6.2 Fraction de requêtes pédophiles
2.7 Conclusion
3 Utilisateurs pédophiles
3.1 Différentes notions d’utilisateurs
3.1.1 Adresse IP et port de communication
3.1.2 Effet de la durée de la mesure
3.1.3 Sessions temporelles
3.2 Quantifier les utilisateurs pédophiles
3.2.1 Une borne inférieure
3.2.2 Taux d’erreur sur les utilisateurs
3.2.3 Fraction d’utilisateurs pédophiles
3.3 Conclusion
4 Évolution temporelle
4.1 Évolution à long terme
4.1.1 Évolution globale
4.1.2 Activité pédophile
4.2 Dynamique journalière
4.2.1 Étude générale
4.2.2 Restriction géographique
4.2.3 Comparaison thématique
4.3 Conclusion
5 Comparaison de KAD et eDonkey
5.1 Données
5.2 Quantité de requêtes pédophiles dans eDonkey et dans KAD
5.3 Indications d’âge
5.4 Quantifier l’activité pédophile dans KAD
5.5 Conclusion
6 Conclusions et perspectives
6.1 Contributions
6.2 Perspectives
6.2.1 Améliorer la détection de l’activité pédophile
6.2.2 Étude des utilisateurs
6.2.3 Aller plus loin
Annexes
A Normalisation et anonymisation des données
B Géolocalisation des utilisateurs
C Catégories de requêtes pédophiles
D Listes de mots-clefs utilisés par notre algorithme
Bibliographie

projet fin d'etude

Télécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *