« VandalBot » : différence entre les versions

De Wikipast
Aller à la navigation Aller à la recherche
Aucun résumé des modifications
Aucun résumé des modifications
Ligne 6 : Ligne 6 :




Le but ce bot est d'identifier les pages qui sont susceptibles d'avoir été créées par des bot "malveillant". Nous avons décidé de résoudre ce problème en utilisant le [https://en.wikipedia.org/wiki/Machine_learning machine learning], plus précisément le [https://en.wikipedia.org/wiki/Deep_learning deep learning], en utilisant un [https://en.wikipedia.org/wiki/Recurrent_neural_network  réseau de neurone récurrent], car il présente plusieurs aspects intéressants:
Le but ce bot est d'identifier les pages qui sont susceptibles d'avoir été créées par des bot "malveillants". Nous avons décidé de résoudre ce problème en utilisant le [https://en.wikipedia.org/wiki/Machine_learning machine learning], plus précisément le [https://en.wikipedia.org/wiki/Deep_learning deep learning], en utilisant un [https://en.wikipedia.org/wiki/Recurrent_neural_network  réseau de neurone récurrent], car il présente plusieurs aspects intéressants:
* contrairement à un bot se basant sur des règles prédéfinies, notre bot sera capable de s'adapter au nouveau type de bot vandal qui pourraient apparaître sur le wikipast (nouvelles langues, nouvelles syntaxes, ...)
* contrairement à un bot se basant sur des règles prédéfinies, notre bot sera capable de s'adapter au nouveau type de bot vandal qui pourraient apparaître sur le wikipast (nouvelles langues, nouvelles syntaxes, ...)
* au fur et à mesure de l'évolution du wikipast, le réseau pourra être de nouveau entrainé afin de mieux détecter les pages d'origine vérifiées (pages créées par le professeur, les étudiants, ou par les futures bots développés dans le cadre du cours).
* au fur et à mesure de l'évolution du wikipast, le réseau pourra être de nouveau entrainé afin de mieux détecter les pages d'origine vérifiées (pages créées par le professeur, les étudiants, ou par les futures bots développés dans le cadre du cours).
Ligne 16 : Ligne 16 :
L'algorithme général est expliqué ci-dessous:
L'algorithme général est expliqué ci-dessous:
* nous avons d’abord récupéré dans une liste tous les usernames des utilisateurs certifiés (à savoir les étudiants, les modérateurs et leurs bots), et les pages qui leurs sont associées. On a fait de même avec des utilisateurs et pages malveillants, en générant des pages aléatoirement, et en vérifiant qu’elles n’appartiennent pas à la liste précédente.
* nous avons d’abord récupéré dans une liste tous les usernames des utilisateurs certifiés (à savoir les étudiants, les modérateurs et leurs bots), et les pages qui leurs sont associées. On a fait de même avec des utilisateurs et pages malveillants, en générant des pages aléatoirement, et en vérifiant qu’elles n’appartiennent pas à la liste précédente.
* à chaque page nous avons assigné un boolean, (true = bot, false = utilisateur certifié) afin d’avoir une base de donnée sur laquelle le réseau neuronal peut s’entraîner.
* à chaque page nous avons assigné un boolean, (true = spambot, false = utilisateur certifié) afin d’avoir une base de donnée sur laquelle le réseau neuronal peut s’entraîner.
* le réseau neuronal est ensuite entraîné avec l'ensemble  des pages récupérées.
* le réseau neuronal est ensuite entraîné avec l'ensemble  des pages récupérées.
* une fois le réseau entraîné, il nous suffit de passer le contenu d'une page à notre réseau qui déterminera si oui ou non cette page a été créée par un bot malveillant.  
* une fois le réseau entraîné, il nous suffit de passer le contenu d'une page à notre réseau qui déterminera si oui ou non cette page a été créée par un bot malveillant.  
* les pages détecté comme étant du spam sont ensuite marquées avec le flag définit précédemment et ajoutées à une page contenant la liste de tous les spams ([[Suspicious pages]]).
* les pages détectées comme étant du spam sont ensuite marquées avec le flag définit précédemment et ajoutées à une page contenant la liste de tous les spams ([[Suspicious pages]]).


==Performances==
==Performances==

Version du 20 mai 2018 à 15:19

Résumé des fonctionnalités

Lutte activement contre les nombreux SPAMBot qui assiègent Wikipast.

Description technique

Le but ce bot est d'identifier les pages qui sont susceptibles d'avoir été créées par des bot "malveillants". Nous avons décidé de résoudre ce problème en utilisant le machine learning, plus précisément le deep learning, en utilisant un réseau de neurone récurrent, car il présente plusieurs aspects intéressants:

  • contrairement à un bot se basant sur des règles prédéfinies, notre bot sera capable de s'adapter au nouveau type de bot vandal qui pourraient apparaître sur le wikipast (nouvelles langues, nouvelles syntaxes, ...)
  • au fur et à mesure de l'évolution du wikipast, le réseau pourra être de nouveau entrainé afin de mieux détecter les pages d'origine vérifiées (pages créées par le professeur, les étudiants, ou par les futures bots développés dans le cadre du cours).

Nous avons décider d'utiliser un réseau neuronal récurrent car il est l'un des plus populaires, et probablement un des plus performants pour faire du text classification. Nous avons choisi d'utiliser comme loss function le f-score au lieu du traditionel binary crossentropy, afin de minimiser le nombre de faux positifs et de maximiser le nombre de vrai négatifs (le plus importants étant avant tout de ne pas enlever de pages vérifiées, en enlevant le plus de pages non-vérifiées possible).

Lorsque le bot identifie une page susceptible d'avoir été créée par un bot, ce dernier la signalera en y ajoutant le flag ci dessous, et se sera alors au modérateur de décider de l’avenir de la page.

FLAG

L'algorithme général est expliqué ci-dessous:

  • nous avons d’abord récupéré dans une liste tous les usernames des utilisateurs certifiés (à savoir les étudiants, les modérateurs et leurs bots), et les pages qui leurs sont associées. On a fait de même avec des utilisateurs et pages malveillants, en générant des pages aléatoirement, et en vérifiant qu’elles n’appartiennent pas à la liste précédente.
  • à chaque page nous avons assigné un boolean, (true = spambot, false = utilisateur certifié) afin d’avoir une base de donnée sur laquelle le réseau neuronal peut s’entraîner.
  • le réseau neuronal est ensuite entraîné avec l'ensemble des pages récupérées.
  • une fois le réseau entraîné, il nous suffit de passer le contenu d'une page à notre réseau qui déterminera si oui ou non cette page a été créée par un bot malveillant.
  • les pages détectées comme étant du spam sont ensuite marquées avec le flag définit précédemment et ajoutées à une page contenant la liste de tous les spams (Suspicious pages).

Performances

Exemples de résultats

Code

Le code source est disponible sur Github