« MostWantedBot » : différence entre les versions

De Wikipast
Aller à la navigation Aller à la recherche
Ligne 30 : Ligne 30 :
===Création & Contenu===
===Création & Contenu===


Pour cette dernière partie, le bot se chargera d'exécuter la création des pages
Pour cette dernière partie, le bot se chargera d'exécuter la création des pages correspondant à la liste acquise à la fin de la partie précédente. De plus, il se chargera de remplir le contenu de l'article en question en y plaçant notamment une référence à toutes les pages qui ont voulu citer cet article. Nous respectons la syntaxe suivante :
* test
Étant donné que chaque article à créer a été mentionner dans au minimum une vingtaine d'autres articles, nous devrions obtenir au moins 20 entrées de cette sorte dans nos nouvelles pages Wikipast.


==Résultats & Analyses==
==Résultats & Analyses==

Version du 24 mai 2021 à 21:52

Objectif du bot

Le but final de ce bot consiste dans la création de pages wikipast correspondant principalement à des personnes n'étant pas encore répertorier mais qui figurent parmi les demandes de création les plus réclamées.


Données traitées

La base de données pour ce bot est orientée autour de la page "Most Wanted Wikipedia Article"[1]. En effet, cette page recense les articles qui n'existe pas dans Wikipédia mais qui ont toutefois été cités au minimum une vingtaine de fois dans d'autres articles déjà existants.

Résumé des fonctionnalités

Dans un premier temps, le bot récupérera les données de la page "Most Wanted Wikipedia Article"[2] et placera le résultat dans un tableau. Dans un second temps, le robot vérifiera si les articles présents dans le tableau existent déjà (dans le cas où les articles ont été crées entre temps). Pour finir, dans le cas où l'article n'existe toujours pas, le bot crée la page dédiée tout en remplissant son contenu par les articles de Wikipédia ayant cités cet article (voir "Création & Contenu")


Description technique

Récupération des données

Comme expliqué ci-dessus, les données traitées par notre bot sont présentes dans la liste des “Most Wanted Wikipedia Article”.

Afin de récupérer ces données, nous utilisons la librairie "BeautifulSoup" qui permet de parcourir le code HTML de pages web. Cela nous permet de parcourir la page Wikipedia, et d'extraire les éléments de la liste en sélectionnant les éléments de la liste dont la classe HTML est "new", représentant des articles à créer.

BeautifulSoup nous permet ensuite de récupérer le texte des balises HTML satisfaisant les conditions ci-dessus. Ces textes, qui sont les titres des articles à créer, sont ajoutés à une liste afin de pouvoir traiter les données durant les étapes suivantes.

Tri des données

Une fois les données, à savoir les titres des articles à créer, récupérées, nous passons à l'étape du tri et de l'analyse de ces données afin d'obtenir un résultat cohérent et satisfaisant nos attentes.

Comme la liste des Most Wanted Articles est très hétérogène, nous avons du traiter cette liste pour retenir uniquement les articles pertinents à ajouter sur Wikipast. Le but de Wikipast étant de référencer principalement des personnes, nous avons choisi de trier la liste afin d'obtenir une liste contenant uniquement les personnes présentes dans la liste des Most Wanted Articles.

Pour réaliser cette étape, nous avons utilisé la librairie "spaCy" qui permet de faire du language Processing en Python. Grâce à des modèles pré-entrainés pour plusieurs langues, spaCy reconnaît les entités présentes dans les phrases analysées, et donne une catégorie à chaque entité. Dans notre cas, nous avons donc lancé le language Processing sur la liste des Most Wanted Article précédemment extraite, et récupéré uniquement les items dont la catégorie était "Personne". C'est à partir de cette dernière liste que nous ajoutons les articles sur Wikipast

Création & Contenu

Pour cette dernière partie, le bot se chargera d'exécuter la création des pages correspondant à la liste acquise à la fin de la partie précédente. De plus, il se chargera de remplir le contenu de l'article en question en y plaçant notamment une référence à toutes les pages qui ont voulu citer cet article. Nous respectons la syntaxe suivante :

  • test

Étant donné que chaque article à créer a été mentionner dans au minimum une vingtaine d'autres articles, nous devrions obtenir au moins 20 entrées de cette sorte dans nos nouvelles pages Wikipast.

Résultats & Analyses

Améliorations envisageables

homonymes ? noms  ?

Code

Le code pour ce bot se trouve à l'adresse GitHub suivante :