« VandalBot » : différence entre les versions
Aucun résumé des modifications |
|||
Ligne 6 : | Ligne 6 : | ||
L’idée derrière ce bot est d’utiliser le machine learning pour identifier | L’idée derrière ce bot est d’utiliser le machine learning pour identifier une page qui est susceptible d'avoir été créer par un bot "malveillant". Les bots évoluent rapidement, et changent leur façon de créer des pages, raison pour laquelle le machine learning semblait être la solution la plus adéquat pour résoudre ce problème. En effet, le réseau pourra être de nouveau entraîné avec les pages nouvellement crées. | ||
Lorsque le bot identifie un bot, il | Lorsque le bot identifie une page susceptible d'avoir été créée par un bot, il la signalera, et ça sera au modérateur de décider de l’avenir de la page. | ||
Pour ce faire, nous avons d’abord récupéré dans une liste | Pour ce faire, nous avons d’abord récupéré dans une liste tous les usernames des utilisateurs certifiés (à savoir les étudiants, les modérateurs et leurs bots), et les pages qui leurs sont associées. On a fait de même avec des utilisateurs et pages que nous suspectons avoir été publiées par des bots malveillants, en générant des pages aléatoirement, et en vérifiant qu’elles n’appartiennent pas à la liste précédente. | ||
A chaque page nous avons assigné un boolean, (true = bot, false = utilisateur | A chaque page nous avons assigné un boolean, (true = bot, false = utilisateur certifiés) afin d’avoir une base de donnée sur laquelle le réseau neuronal peut s’entraîner. | ||
==Performances== | ==Performances== |
Version du 1 mai 2018 à 12:41
Résumé des fonctionnalités
Lutte activement contre les nombreux SPAMBot qui assiègent Wikipast.
Description technique
L’idée derrière ce bot est d’utiliser le machine learning pour identifier une page qui est susceptible d'avoir été créer par un bot "malveillant". Les bots évoluent rapidement, et changent leur façon de créer des pages, raison pour laquelle le machine learning semblait être la solution la plus adéquat pour résoudre ce problème. En effet, le réseau pourra être de nouveau entraîné avec les pages nouvellement crées. Lorsque le bot identifie une page susceptible d'avoir été créée par un bot, il la signalera, et ça sera au modérateur de décider de l’avenir de la page.
Pour ce faire, nous avons d’abord récupéré dans une liste tous les usernames des utilisateurs certifiés (à savoir les étudiants, les modérateurs et leurs bots), et les pages qui leurs sont associées. On a fait de même avec des utilisateurs et pages que nous suspectons avoir été publiées par des bots malveillants, en générant des pages aléatoirement, et en vérifiant qu’elles n’appartiennent pas à la liste précédente. A chaque page nous avons assigné un boolean, (true = bot, false = utilisateur certifiés) afin d’avoir une base de donnée sur laquelle le réseau neuronal peut s’entraîner.
Performances
Exemples de résultats
Code
Le code source est disponible sur Github