L’activité pédophile dans le P2P

L’activité pédophile dans le P2P

Pédopornographie

Comme nous l’avons rappelé en préambule de cette thèse, la pédophilie désigne l’attirance sexuelle d’un adulte envers les enfants prépubères ou en début de puberté. Un pédophile est une personne qui éprouve ce type d’attirance. La pédophilie est classée comme un trouble de la préférence sexuelle (trouble mental) par la classiVcation internationale des maladies (CIM [55]) et comme paraphilie par le manuel diagnostic et statistique des troubles mentaux (DSM-IV [6]). Le terme « pédophilie » peut aussi désigner la pédopornographie, c’est-à-dire la pornographie mettant en scène des enfants [73]. La plupart des législations dans le monde condamnent aujourd’hui fortement la pédophilie, qui est reconnue comme un grave délit ou un crime. L’adulte impliqué dans ces relations est considéré comme seul responsable et coupable. Contrairement à des rapports entre adultes, l’absence de consentement de l’enfant n’est pas requise pour que l’infraction soit constituée : la relation sexuelle est en elle-même interdite. Les documents pédopornographiques (photographies, Vlms, etc.) sont également interdits, éventuellement par des lois spéciVques, comme en France (article 227-23 du Code Pénal). Les œuvres imaginaires sont le plus souvent condamnées, même si cela varie selon les pays : les textes pédopornographiques ne sont pas interdits en France, les dessins (appelés Lolicon [72]) sont autorisés au Japon tant que de vrais modèles n’ont pas été impliqués dans le processus créatif. Une diUusion à grande échelle de contenus pédopornographiques sur l’Internet pose des problèmes importants pour la société, le premier étant bien entendu que des adultes abusent sexuellement d’enfants pour produire ces contenus. Il y a aussi le fait que des usagers innocents peuvent se retrouver confrontés involontairement à des images d’une extrême violence. Cela peut aussi amener des individus à développer un intérêt pour le sujet et jouer un rôle important dans l’acceptation générale de la pédophilie [60, 78]. Des réseaux organisés de production et de distribution de contenus pédophiles ont été identiVés et analysés dès 1984 [47], bien avant que l’informatique ne devienne grand public. En revanche, dans la seconde moitié des années 1990, diUérents travaux ont commencé à laisser entendre que la généralisation de l’accès à l’Internet avait permis à ces réseaux d’accroître leur dimension et avait ainsi facilité l’accès à la pédopornographie . Récemment, la pédopornographie sur l’Internet a été étudiée sous les aspects économique et sociologique. En 2010, une étude a détaillé les aspects économiques de la pédopornographie sur l’Internet, d’après le témoignage anonyme d’un informaticien ayant travaillé dans ce milieu. En 2010 également, le criminologue Patrice Corriveau a publié un travail approfondi sur les groupes de nouvelles 4 à caractère pédopornographique [16], qui permettent aux pédophiles de communiquer et de s’organiser pour échanger ensuite des contenus pédopornographiques. EnVn, Frank et al.  ont étudié diUérents sites Web sur le sujet et ont utilisé des méthodes d’analyse de réseaux sociaux pour déterminer ceux sur lesquels les investigations policières devraient porter en priorité. D’autres auteurs se sont intéressés aux caractéristiques des échanges pédopornographiques dans les réseaux P2P . Ces premières études quantitatives reposent néanmoins sur des jeux de données de taille réduite et collectés à la main (typiquement en saisissant quelques requêtes et en examinant les résultats obtenus). Leur objectif est avant tout d’établir la présence d’activité pédophile dans le P2P, pas de la quantiVer, ni de la caractériser. Deux articles quantiVent l’activité pédophile dans un réseau P2P d’une façon similaire à celle que nous développons dans cette thèse [36, 68]. Dans [36], les auteurs considèrent des ensembles de 10 000 requêtes collectées durant trois dimanches de 2005. Deux évaluateurs ont manuellement classiVé les requêtes comme appartenant ou pas à la catégorie pornographie illégale (cette étude ne se limite donc pas à la pédopornographie, mais prend aussi en compte d’autres formes de violence). Ils concluent que 1, 6% des requêtes observées appartiennent à cette catégorie. Leur jeu de données est de taille réduite, avec donc un faible nombre de requêtes pédophiles, ce qui le rend statistiquement peu signiVcatif. De plus, leur méthodologie pour la classiVcation est complètement manuelle (et ne passe donc pas à l’échelle) et repose sur seulement deux évaluateurs, dont l’expertise peut être questionnée. Ce même groupe d’auteurs a proposé des techniques de découverte automatique de mot-clefs pédophiles [37]. Ces méthodes requièrent cependant un grand ensemble de requêtes connues comme étant pédophiles. Utiliser de telles méthodes constitue donc une perspective de notre travail, puisque nous avons depuis réuni des requêtes pouvant servir de base d’apprentissage. Dans [68], l’auteur utilise un ensemble de 235 513 requêtes (soit environ 10 000 fois moins que nos données). Compte tenu de la fréquence des requêtes de cette nature, la taille de cet échantillon reste faible. Les requêtes sont classées comme pédophiles ou non selon qu’elles contiennent un mot clef provenant d’une liste particulière, similaire à notre liste explicit (voir section 2.1). Cette approche n’est cependant pas complètement satisfaisante, puisque de nombreuses requêtes ne contiennent pas de tels mots-clefs mais des combinaisons de mots qui, séparément, ne suXsent pas pour qu’une requête soit « pédophile », comme nous le verrons dans le chapitre 2. L’auteur conclut que près d’1 % des requêtes examinées sont pédophiles, sans fournir la liste des mot-clefs utilisés ni ses données, ce qui rend la reproduction de ses expérimentations impossible. Ces contributions doivent être vues comme pionnières pour la quantiVcation et la caractérisation de l’activité pédophile dans le P2P, mais elles restent d’envergure limitée et ne s’intéressent notamment pas à la notion d’utilisateur, pourtant cruciale dans ce domaine.

Requêtes pédophiles

Ce chapitre est consacré à la quantiVcation de l’activité pédophile dans un réseau P2P en terme de requêtes. Nous mettons d’abord au point un outil permettant de détecter les requêtes ciblant des contenus pédopornographiques (section 2.1). Ne disposant pas d’un ensemble de référence, c’est-à-dire des requêtes connues comme étant pédophiles, nous ne pouvons pas utiliser de techniques d’apprentissage, faute de pouvoir entraîner un modèle à classer les requêtes. En revanche, nous mettons à proVt les connaissances d’experts du domaine et nos propres observations pour concevoir un outil de détection automatique. Celui-ci résulte d’une étude préliminaire qui nous a permis de distinguer quatre catégories de requêtes pédophiles. Cet outil commet bien sûr des erreurs de classiVcation, des requêtes non pédophiles pouvant être étiquetées comme pédophiles et des requêtes pédophiles n’étant pas détectées comme telles. En vue d’aboutir à une estimation précise de la quantité de requêtes à caractère pédophile, il est fondamental de connaître avec précision ces taux d’erreur. Nous verrons que se posent alors des questions délicates liées à la rareté de la thématique, ce que nous détaillons dans la section 2.2. Nous présentons la mise en place d’un protocole de validation de notre outil par des experts qualiVés et indépendants dans la section 2.3 puis les résultats de cette validation en section 2.4. À l’aide des taux d’erreur de notre outil présentés dans la section 2.5, nous obtenons Vnalement une estimation Vable de la fraction de requêtes pédophiles présentes dans nos ensembles, que nous donnons en section 2.6. 2.1 Détection Nous avons mis au point un outil de détection de requêtes pédophiles qui eUectue une séquence de tests sur la suite (ki) des mots-clefs d’une requête anonymisée qi . Chaque étape vise à repérer la présence d’un ou plusieurs motsclefs qui permettront d’établir si la requête appartient à au moins une des catégories de requêtes pédophiles que nous avons identiVées (détaillées ci-dessous). Pour mettre en place notre outil, nous avons travaillé à partir des données data-ed2k2007, les seules disponibles à ce moment-là et suXsantes pour cette partie de l’étude. 28 Chapitre 2. Requêtes pédophiles La première étape de la conception de l’outil a reposé sur l’expérience acquise par les membres de l’équipe Complex Networks qui ont collaboré durant plusieurs années avec les forces de l’ordre travaillant sur le sujet de la pédopornographie (projets MAPAP et ANR MAPE [52]). Ces experts de la pédopornographie en ligne nous ont fourni une liste préliminaire de mots-clefs spéciVques à cette thématique. Ceux-ci sont destinés exclusivement à la recherche de contenus pédopornographiques dans les systèmes P2P ; ils n’ont pas d’autre usage que ce contexte spéciVque. Citons par exemple qqaazz, hussyfan ou r@ygold. Le dernier de ces mots-clefs fait par exemple référence à Richard Goldberg, pédophile condamné [74], qui utilisait ce pseudonyme pour diUuser de tels contenus. Ce motclef est devenu ensuite un moyen d’indiquer dans le nom d’un Vchier sa nature pédophile. Remarquons que certains de ces mots-clefs sont des abréviations ou des séquences de lettres qui n’ont pas nécessairement de sens dans une quelconque langue. Cependant, cette liste préliminaire ne suXt pas car certaines requêtes pédophiles ne contiennent aucun de ces mots-clefs spéciVques. Nous avons alors exploré les co-occurrences de mots-clefs. Les noms de Vchiers sur les réseaux P2P contiennent souvent des mots-clefs proches thématiquement. Un Vchier musical d’une chanson de Madonna pourra ainsi contenir les mots-clefs « music » et « pop » (la nature générale du contenu et le genre de musique), « mp3 » (le format de Vchier), ainsi que le nom de la chanson et éventuellement celui de l’album. En analysant les termes qui apparaissent fréquemment dans les requêtes contenant les mots-clefs spéciVques à la pédophilie, nous avons pu ajouter de nouvelles règles de détection à notre outil. Nous avons créé des listes de mots-clefs sémantiquement proches (par exemple liés à l’acte sexuel ou à l’enfance) et observé si la présence combinée de mots-clefs appartenant à diverses listes permettait de détecter davantage de requêtes pédophiles. En procédant à plusieurs itérations, jusqu’à ce que les améliorations introduites dans la nouvelle mouture de l’outil ne donnent pas de résultats sensiblement diUérents de la précédente version, nous avons identiVé diUérentes catégories de requêtes à caractère pédophile et nous avons conçu un Vltre de détection adapté. Nous adoptons Vnalement quatre règles de détection, qui font appel à des motsclefs répartis en six listes, que nous présentons en détail ci-dessous. La Vgure 2.1 illustre le fonctionnement de notre outil. Nous appelons la liste construite avec les mots-clefs des experts explicit. Chaque requête qui contient au moins l’un de ces mots-clefs est étiquetée comme pédophile. Cela constitue notre première catégorie de requêtes pédophiles. De nombreuses requêtes pédophiles contiennent des mots-clefs liés aux enfants (ou à l’enfance en général) et des mots-clefs liés à l’acte sexuel : pour déVnir la deuxième catégorie de requêtes pédophiles, nous avons élaboré deux listes relatives à ces thématiques, appelées respectivement child et sex. Nous étiquetons comme pédophile une requête qui contient au moins un mot-clef de chacune de 2.1. Détection 29 ces catégories. Cela peut introduire cette fois des classiVcation trompeuses. En eUet, une requête telle que « destiny’s child sexy daddy » décrit vraisemblablement la chanson « Sexy Daddy » du groupe Destiny’s Child. Cependant, comme elle contient les mots-clefs « Sexy » et « Child », l’outil la classe comme pédophile. La troisième règle de classement est une variante de la précédente. Nous établissons deux nouvelles catégories de mots-clefs, relatives à la position des adultes et des enfants au sein de la famille, appelées respectivement familyparents et familychild. La première contient par exemple « father », la seconde contient « Vlle » ou « daughter ». L’outil étiquette comme pédophile une requête qui contient un mot de chacune de ces catégories ainsi qu’un mot-clef de la catégorie sex. Ensuite, de nombreuses requêtes contiennent des indications d’âge, le plus souvent sous la forme anglophone n yo 1 , traduisant la volonté de l’utilisateur de trouver des contenus mettant en scène des enfants âgés de n années. D’autres suXxes se trouvent parfois à la place de yo, comme yr ou years old. La liste qui contient les diUérentes variantes de ces suXxes s’appelle agesuXx. De telles indications d’âge sont des marqueurs fréquents qui indiquent que la requête est pédophile. Cependant, elles ne suXsent cependant pas, puisqu’elles sont aussi présentes dans des contextes très diUérents : par exemple, elles sont très utilisées par des personnes cherchant des jeux vidéos destinés à des enfants d’un certain âge. L’outil ne classe donc une requête comme pédophile que si elle contient une indication d’âge inférieur ou égal à 16 ans, ainsi qu’un mot-clef appartenant soit à la catégorie sex soit à la catégorie child. 

Table des matières

Remerciements
1 Introduction
1.1 Problématiques
1.2 Données
1.3 État de l’art
1.3.1 Analyse d’ensembles de requêtes
1.3.2 Techniques de classiVcation
1.3.3 Pédopornographie
1.4 Organisation de la thèse
2 Requêtes pédophiles
2.1 Détection
2.2 Méthode de validation
2.3 Protocole de validation
2.3.1 Construction des échantillons
2.3.2 Experts
2.3.3 Interface
2.4 Résultats fournis par les experts
2.4.1 Sélection des experts
2.4.2 ClassiVcation des requêtes
2.5 Résultats de la validation
2.6 Fraction de requêtes pédophiles
2.6.1 Fraction de requêtes étiquetées comme pédophiles
2.6.2 Fraction de requêtes pédophiles
2.7 Conclusion
3 Utilisateurs pédophiles
3.1 DiUérentes notions d’utilisateurs
3.1.1 Adresse IP et port de communication
3.1.2 EUet de la durée de la mesure
3.1.3 Sessions temporelles
3.2 QuantiVer les utilisateurs pédophiles
3.2.1 Une borne inférieure
3.2.2 Taux d’erreur sur les utilisateurs
3.2.3 Fraction d’utilisateurs pédophiles
3.3 Conclusion
4 Évolution temporelle
4.1 Évolution à long terme
4.1.1 Évolution globale
4.1.2 Activité pédophile
4.2 Dynamique journalière
4.2.1 Étude générale
4.2.2 Restriction géographique
4.2.3 Comparaison thématique
4.3 Conclusion
5 Comparaison de KAD et eDonkey
5.1 Données
5.2 Quantité de requêtes pédophiles dans eDonkey et dans KAD
5.3 Indications d’âge
5.4 QuantiVer l’activité pédophile dans KAD
5.5 Conclusion
6 Conclusions et perspectives
6.1 Contributions
6.2 Perspectives
6.2.1 Améliorer la détection de l’activité pédophile
6.2.2 Étude des utilisateurs
6.2.3 Aller plus loin
Annexes
A Normalisation et anonymisation des données
B Géolocalisation des utilisateurs
C Catégories de requêtes pédophiles
D Listes de mots-clefs utilisés par notre algorithme
Bibliographie

projet fin d'etude

Télécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *