« VandalBot » : différence entre les versions

De Wikipast
Aller à la navigation Aller à la recherche
Aucun résumé des modifications
Aucun résumé des modifications
Ligne 6 : Ligne 6 :




L’idée derrière ce bot est d’utiliser le machine learning pour identifier une page qui est susceptible d'avoir été créer par un bot "malveillant". Nous avons décidé de résoudre ce problème en utilisant le [https://en.wikipedia.org/wiki/Machine_learning machine learning], plus précisément le [https://en.wikipedia.org/wiki/Deep_learning deep learning], en utilisant un [https://en.wikipedia.org/wiki/Recurrent_neural_network  réseau de neurone récurrent], car il présente plusieurs aspects interessants:
L’idée derrière ce bot est d’utiliser le machine learning pour identifier une page qui est susceptible d'avoir été créée par un bot "malveillant". Nous avons décidé de résoudre ce problème en utilisant le [https://en.wikipedia.org/wiki/Machine_learning machine learning], plus précisément le [https://en.wikipedia.org/wiki/Deep_learning deep learning], en utilisant un [https://en.wikipedia.org/wiki/Recurrent_neural_network  réseau de neurone récurrent], car il présente plusieurs aspects interessants:
* contrairement à un bot se basant sur des règles prédéfinies, notre bot sera capable de s'adapter au nouveau type de bot vandal qui pourraient apparaître sur le wikipast (nouvelles langues, nouvelles syntax, ...)
* contrairement à un bot se basant sur des règles prédéfinies, notre bot sera capable de s'adapter au nouveau type de bot vandal qui pourraient apparaître sur le wikipast (nouvelles langues, nouvelles syntax, ...)
* au fur et à mesure de l'evolution du wikipast, le réseau pourra être de nouveaux entrainé afin de mieux détecter les pages d'origine vérifiée (pages créées par le professeur, les étudiants, ou par les futures bots developés dans le cadre du cours).
* au fur et à mesure de l'evolution du wikipast, le réseau pourra être de nouveaux entrainé afin de mieux détecter les pages d'origine vérifiée (pages créées par le professeur, les étudiants, ou par les futures bots developés dans le cadre du cours).

Version du 8 mai 2018 à 12:09

Résumé des fonctionnalités

Lutte activement contre les nombreux SPAMBot qui assiègent Wikipast.

Description technique

L’idée derrière ce bot est d’utiliser le machine learning pour identifier une page qui est susceptible d'avoir été créée par un bot "malveillant". Nous avons décidé de résoudre ce problème en utilisant le machine learning, plus précisément le deep learning, en utilisant un réseau de neurone récurrent, car il présente plusieurs aspects interessants:

  • contrairement à un bot se basant sur des règles prédéfinies, notre bot sera capable de s'adapter au nouveau type de bot vandal qui pourraient apparaître sur le wikipast (nouvelles langues, nouvelles syntax, ...)
  • au fur et à mesure de l'evolution du wikipast, le réseau pourra être de nouveaux entrainé afin de mieux détecter les pages d'origine vérifiée (pages créées par le professeur, les étudiants, ou par les futures bots developés dans le cadre du cours).

Nous avons décider d'utiliser un réseau neuronal récurrent car il est l'un des plus populaires, et probablement un des plus performants pour faire du text classification. Nous avons choisi d'utiliser comme loss function le f-score de notre réseau, afin de minimiser le nombre de faux positifs et de maximiser le nombre de vrai négatifs (le plus importants étant avant tout de ne pas enlever de pages vérifiées, en enlevant le plus de pages non-vérifiées possible).

Lorsque le bot identifie une page susceptible d'avoir été créée par un bot, ce dernier la signalera en y ajoutant le flag ci dessous, et se sera alors au modérateur de décider de l’avenir de la page.

FLAG

L'algorithme général est expliquer ci dessous:

  • nous avons d’abord récupéré dans une liste tous les usernames des utilisateurs certifiés (à savoir les étudiants, les modérateurs et leurs bots), et les pages qui leurs sont associées. On a fait de même avec des utilisateurs et pages que nous suspectons avoir été publiées par des bots malveillants, en générant des pages aléatoirement, et en vérifiant qu’elles n’appartiennent pas à la liste précédente.
  • à chaque page nous avons assigné un boolean, (true = bot, false = utilisateur certifiés) afin d’avoir une base de donnée sur laquelle le réseau neuronal peut s’entraîner.
  • le réseau neuronal est ensuite entrainé avec l'ensemble des pages récupérées
  • une fois le réseau entrainé, il nous suffit de paser le contenu d'une page à notre réseau qui déterminera si oui ou non cette page a été créée par un bot malveillant. Si tel est le cas, notre bot flag la page comme étant potentiellement du spam.
  • la page est ensuite marquer avec le flag définit précédemment et ajouter à la liste des pages flaguer ([[]])

Performances

Exemples de résultats

Code

Le code source est disponible sur Github