« VandalBot » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
Ligne 19 : | Ligne 19 : | ||
* le réseau neuronal est ensuite entraîné avec l'ensemble des pages récupérées. | * le réseau neuronal est ensuite entraîné avec l'ensemble des pages récupérées. | ||
* une fois le réseau entraîné, il nous suffit de passer le contenu d'une page à notre réseau qui déterminera si oui ou non cette page a été créée par un bot malveillant. | * une fois le réseau entraîné, il nous suffit de passer le contenu d'une page à notre réseau qui déterminera si oui ou non cette page a été créée par un bot malveillant. | ||
* les pages détecté comme étant du spam sont ensuite marquées avec le flag définit précédemment et ajoutées à une page contenant la liste de tous les spams ([[]]). | * les pages détecté comme étant du spam sont ensuite marquées avec le flag définit précédemment et ajoutées à une page contenant la liste de tous les spams ([[Suspicious pages]]). | ||
==Performances== | ==Performances== |
Version du 15 mai 2018 à 12:31
Résumé des fonctionnalités
Lutte activement contre les nombreux SPAMBot qui assiègent Wikipast.
Description technique
Le but ce bot est d'identifier les pages qui sont susceptibles d'avoir été créées par des bot "malveillant". Nous avons décidé de résoudre ce problème en utilisant le machine learning, plus précisément le deep learning, en utilisant un réseau de neurone récurrent, car il présente plusieurs aspects intéressants:
- contrairement à un bot se basant sur des règles prédéfinies, notre bot sera capable de s'adapter au nouveau type de bot vandal qui pourraient apparaître sur le wikipast (nouvelles langues, nouvelles syntaxes, ...)
- au fur et à mesure de l'évolution du wikipast, le réseau pourra être de nouveau entrainé afin de mieux détecter les pages d'origine vérifiées (pages créées par le professeur, les étudiants, ou par les futures bots développés dans le cadre du cours).
Nous avons décider d'utiliser un réseau neuronal récurrent car il est l'un des plus populaires, et probablement un des plus performants pour faire du text classification. Nous avons choisi d'utiliser comme loss function le f-score au lieu du traditionel binary crossentropy, afin de minimiser le nombre de faux positifs et de maximiser le nombre de vrai négatifs (le plus importants étant avant tout de ne pas enlever de pages vérifiées, en enlevant le plus de pages non-vérifiées possible).
Lorsque le bot identifie une page susceptible d'avoir été créée par un bot, ce dernier la signalera en y ajoutant le flag ci dessous, et se sera alors au modérateur de décider de l’avenir de la page.
FLAG
L'algorithme général est expliqué ci-dessous:
- nous avons d’abord récupéré dans une liste tous les usernames des utilisateurs certifiés (à savoir les étudiants, les modérateurs et leurs bots), et les pages qui leurs sont associées. On a fait de même avec des utilisateurs et pages malveillants, en générant des pages aléatoirement, et en vérifiant qu’elles n’appartiennent pas à la liste précédente.
- à chaque page nous avons assigné un boolean, (true = bot, false = utilisateur certifié) afin d’avoir une base de donnée sur laquelle le réseau neuronal peut s’entraîner.
- le réseau neuronal est ensuite entraîné avec l'ensemble des pages récupérées.
- une fois le réseau entraîné, il nous suffit de passer le contenu d'une page à notre réseau qui déterminera si oui ou non cette page a été créée par un bot malveillant.
- les pages détecté comme étant du spam sont ensuite marquées avec le flag définit précédemment et ajoutées à une page contenant la liste de tous les spams (Suspicious pages).
Performances
Exemples de résultats
Code
Le code source est disponible sur Github