Framework hybride de détection des comportements anormaux sur un réseau multidimensionnel utilisant des données multimodales
Collecte de données
Nous nous concentrons dans cette section sur l’extraction de trois types de données : (1) les données textuelles, qui comprennent les messages, les commentaires, les légendes d’images, le texte dans une image, etc., (2) les données de type image, comme par exemple les photos publiées, les photos de profil, etc. et (3) les données de type numérique, comme l’âge, le nombre d’amis, le nombre moyen de messages par jour, etc. Plusieurs autres informations existent dans les médias Figure 7.1: Principe général du framework sociaux, comme le nom d’utilisateur, le sexe, la ville natale, la ville de résidence, les membres de la familles, etc. Par conséquent, au lieu d’avoir une catégorie de données de contenu numérique, nous avons opté pour l’utilisation d’une autre catégorie appelée « Données d’informations générales » qui comprend les données de contenu numérique et les données d’information de l’utilisateur. Dans cette section, nous présentons les sources de données hors ligne et en ligne qui sont utilisées pour récupérer nos types de données cibles pour l’entraînement du modèle et la détection ultérieure d’événements terroristes. Afin d’entraîner le modèle et de distinguer précisément les profils de terroristes et de réduire les faux positifs (des profils qui ressemblent à des profils terroristes sans l’être), nous avons décidé de considérer (comme c’était le cas dans la première contribution) les contenus terroristes comme des étiquettes positives et les contenus militaires et d’actualité comme des étiquettes négatives. Comme ces types de contenus sont liés, l’entraînement de ces derniers les uns par rapport aux autres rendra le modèle plus précis.
Sources de données hors ligne
Les données hors ligne sont les données utilisées pour l’entraînement du modèle, que nous avons recueillies à partir de jeux de données publics sur le terrorisme. Pour chaque type d’entrée, nous avons utilisé un ensemble de données différent. Pour les données de contenu textuel, nous nous sommes inspirés de [28] pour utiliser l’API de Twitter afin de rassembler les tweets qui contiennent des hashtags liés au terrorisme et les tweets des comptes terroristes qui ont été signalés au compte de sécurité de Twitter (twittersafety) en s’assurant qu’il ne s’agit pas de comptes anti-terroristes. De cette façon, nous avons crée notre ensemble de données de contenu textuel hors ligne et nous avons considéré ces tweets comme des étiquettes positives. Alors que les tweets d’actualité terroriste et les titres d’actualité recueillis dans d’autres ensembles de données publiques tels que la base de données mondiale sur le terrorisme (GTD) [113] ont été considérés comme des étiquettes négatives.
Nous avons également utilisé l’API google translate car certains comptes peuvent publier des tweets dans différentes langues. Pour les données de type image, nous n’avons pas trouvé d’ensemble de données publiques d’images liées au terrorisme dans le cadre de notre recherche. Nous avons décidé d’utiliser une méthode de grattage manuel du Web avec Google Image comme source de données. Nous avons rassemblé manuellement les images d’individus terroristes et les images d’incitation au terrorisme, qui sont nos étiquettes positives, et nous les avons opposées aux images d’actualités militaires et terroristes, qui sont nos étiquettes négatives. Pour les données d’information générales, Study of Terrorism And Responses to Terrorism (START) a publié une base de données appelée « Profiles of Individual Radicalization In the United States » (PIRUS) 1 , qui contient 1. https ://www.start.umd.edu/data-tools/profiles-individual-radicalization-united-statespirus Méthodologie générale 125 environ 145 caractéristiques sur de nombreux profils radicaux dont nous avons extrait les caractéristiques pertinentes pour notre travail, à savoir l’âge, le sexe, les relations, etc.
Sources de données en ligne
Les données en ligne sont les données des réseaux sociaux qui font partie de la détection et du réentraînement du modèle futur. Pour les médias sociaux, nous avons décidé d’étudier trois sites Web populaires qui ont des contenus de données similaires et qui peuvent être reliés entre eux : Facebook, Instagram et Twitter. Facebook fournit un Graph API 2 , un service API basé sur HTTP permettant d’accéder aux objets du graphe social de Facebook 3 . Les données sont riches en sémantique puisque le Graph API utilise le format Resource Description Framework (RDF) comme type de retour [140]. Instagram, qui fait partie de Facebook, fournit également une API graphique pour les comptes professionnels 4 . Pour les comptes d’utilisateurs normaux, il fournit une API REST qui renvoie un objet JSON pour l’interrogation des données publiques 5 . Twitter met à disposition une API REST 6 avec un format de retour JSON qui fournit plusieurs requêtes de données publiques ainsi que des données privées avec les autorisations appropriées..
Méthode de détection d’anomalies
Dans cette sous-section, nous expliquons brièvement les étapes suivies pour réaliser l’identification des nœuds atypiques dans une structure multidimensionnelle. Notre méthode, présentée dans le chapitre précédent (Chapitre 6), fonctionne principalement en trois phases : — Phase 1 : la détection des différentes communautés d’utilisateurs suivant l’utilisation d’une formule basée sur le calcul du degré externe normalisé de chaque pair de nœuds. — Phase 2 : l’estimation du score d’anomalie pour chaque nœud du graphe en considérant le degré d’influence du nœud dans sa communauté. 7. https://github.com/minimaxir/interactive-facebook-reactions Méthodologie générale 127 — Phase 3 : la classification des différents scores obtenus par le modèle de mélange Beta. Ce choix d’un classifieur s’explique par l’efficience de ce modèle probabiliste pour la détection de nœuds anormaux. L’application d’une telle méthode a permis d’obtenir un ensemble de nœuds présentant un caractère anormal. Un modèle de détection d’un comportement spécifique entraîné sur des données terroristes analysera ces nœuds dans ce qui suit.
Modèle hybride de détection du terrorisme
Dans cette sous-section, nous présentons un nouveau modèle de détection des comportements terroristes.
Il considère trois sous-modèles différents : un sous modèle pour chaque type de données d’entrée (modèle d’analyse de texte, modèle d’analyse d’image et modèle d’analyse d’informations générales). Le workflow de notre modèle est illustré par la figure 7.2. Chaque fois qu’un utilisateur est impliqué dans une activité, les données de l’utilisateur passent à nouveau par notre modèle. Si l’utilisateur est détecté comme terroriste, nous reformons le modèle avec ces nouvelles données pour le maintenir à jour avec les nouveaux comportements invisibles. Si à la fin de l’entraînement le modèle perd de sa précision, nous revenons au dernier modèle existant.