Modèle de détection et de prédiction des comportements anormaux sur Twitter

Modèle de détection et de prédiction des comportements anormaux sur Twitter

Description de la méthodologie de notre modèle

Sous-modèle de détection Le sous-modèle de détection est composé de deux sous-modèles de classifications, un pour les données textuelles et un pour les données images et un module d’aide à la décision en charge de l’agrégation de deux scores générés automatiquement des deux sous-modèles. Dans ce qui suit, nous donnons un aperçu des sous-modèles respectifs.

Sous-modèle de classification de texte

Le processus de classification des données d’entrée textuelles se compose de trois parties principales, comme illustré dans la figure 5.2. (1) Application du NLP : le prétraitement des données textuelles afin de disposer de données structurées prêtes à l’emploi et faciles à comprendre et traiter. Le processus d’analyse des données textuelles s’effectue en quatre étapes majeures : le marquage, l’annotation, la coréférence et l’analyse des sentiments [127]. (2) Word Embedding (WE) [128] : l’utilisation du modèle N-gramme qui estime la probabilité du dernier mot par rapport aux mots précédents. Ce choix a été motivé par le fait que les n-grammes vont être réutilisés et très utiles pour notre sous-modèle de prédiction

Classification

le contenu textuel est maintenant sous une forme numérique, compréhensible par la machine et prêt à être utilisé par n’importe quel classificateur de machine learning. L’exécution du processus de classification de texte permet de générer un score de profil basé sur les données textuelles.

Sous-modèle de classification d’images

Les CNNs sont connus pour être les meilleurs classificateurs lorsqu’il s’agit du traitement des données d’image [82]. Afin d’aboutir à notre objectif, nous commençons par fournir l’image d’entrée à la couche de convolution, nous prenons la convolution avec les filtres sélectionnés, appliquons la couche pooling pour réduire les dimensions, puis nous ajoutons ces couches plusieurs fois, nous aplatissons la sortie et alimentons une couche entièrement connectée afin d’être prêt à entraîner le modèle.

Nous avons également utilisé certaines fonctionnalités courantes de la technique Data Augmentation (mise en miroir, recadrage aléatoire, rotation, ajustement de l’échelle, changement de couleur, etc.). Cela permet d’élargir l’ensemble de données et d’augmenter la quantité de données pertinentes en augmentant la diversité des données d’entraînement, ce qui est essentiel pour développer un modèle robuste et améliorer les performances des modèles d’apprentissage profonds. Comme le sous-modèle de classification de texte, un score spécifique au sous-modèle de classification d’images est généré.

Composant de prise de décision

Ce module calcule le score final en fonction des scores fournis par les sousmodèles de classification de textes et d’images. L’équation 5.1 calcule le score final Description de la méthodologie de notre modèle 91 pour l’utilisateur Su ayant les scores s1, s2 et les poids α1, α2 attribués respectivement aux deux modèles de classification. Ces poids sont calculés en tenant compte des métriques des classificateurs de texte et d’image ainsi que de la taille des ensembles de données collectées.