« MostWantedBot » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
| Ligne 4 : | Ligne 4 : | ||
==Données traitées== | ==Données traitées== | ||
La base de données pour ce bot est orientée autour de la page | La base de données pour ce bot est orientée autour de la page "Most Wanted Wikipedia Article"[https://en.wikipedia.org/wiki/Wikipedia:Most-wanted_articles]. En effet, cette page recense les articles qui n'existe pas dans Wikipédia mais qui ont toutefois été cités au moins 20 fois dans d'autres articles déjà existants. | ||
==Résumé des fonctionnalités== | ==Résumé des fonctionnalités== | ||
Dans un premier temps, le bot récupérera les données de la page "Most Wanted Wikipedia Article"[ | Dans un premier temps, le bot récupérera les données de la page "Most Wanted Wikipedia Article"[https://en.wikipedia.org/wiki/Wikipedia:Most-wanted_articles] et placera le résultat dans un tableau. Dans un second temps, le robot vérifiera si les articles présents dans le tableau existent déjà (dans le cas où les articles ont été crées entre temps). Pour finir, dans le cas où l'article n'existe toujours pas, le bot crée la page dédiée tout en remplissant son contenu par les articles de Wikipédia ayant cités cet article (voir "Création & Contenu") | ||
Version du 24 mai 2021 à 21:42
Objectif du bot
Le but final de ce bot consiste dans la création de pages wikipast correspondant principalement à des personnes n'étant pas encore répertorier mais qui figurent parmi les demandes de création les plus réclamées.
Données traitées
La base de données pour ce bot est orientée autour de la page "Most Wanted Wikipedia Article"[1]. En effet, cette page recense les articles qui n'existe pas dans Wikipédia mais qui ont toutefois été cités au moins 20 fois dans d'autres articles déjà existants.
Résumé des fonctionnalités
Dans un premier temps, le bot récupérera les données de la page "Most Wanted Wikipedia Article"[2] et placera le résultat dans un tableau. Dans un second temps, le robot vérifiera si les articles présents dans le tableau existent déjà (dans le cas où les articles ont été crées entre temps). Pour finir, dans le cas où l'article n'existe toujours pas, le bot crée la page dédiée tout en remplissant son contenu par les articles de Wikipédia ayant cités cet article (voir "Création & Contenu")
Description technique
Récupération des données
Comme expliqué ci-dessus, les données traitées par notre bot sont présentes dans la liste des “Most Wanted Wikipedia Article”.
Afin de récupérer ces données, nous utilisons la librairie "BeautifulSoup" qui permet de parcourir le code HTML de pages web. Cela nous permet de parcourir la page Wikipedia, et d'extraire les éléments de la liste en sélectionnant les éléments de la liste dont la classe HTML est "new", représentant des articles à créer.
BeautifulSoup nous permet ensuite de récupérer le texte des balises HTML satisfaisant les conditions ci-dessus. Ces textes, qui sont les titres des articles à créer, sont ajoutés à une liste afin de pouvoir traiter les données durant les étapes suivantes.
Tri des données
Une fois les données, à savoir les titres des articles à créer, récupérées, nous passons à l'étape du tri et de l'analyse de ces données afin d'obtenir un résultat cohérent et satisfaisant nos attentes.
Comme la liste des Most Wanted Articles est très hétérogène, nous avons du traiter cette liste pour retenir uniquement les articles pertinents à ajouter sur Wikipast. Le but de Wikipast étant de référencer principalement des personnes, nous avons choisi de trier la liste afin d'obtenir une liste contenant uniquement les personnes présentes dans la liste des Most Wanted Articles.
Pour réaliser cette étape, nous avons utilisé la librairie "spaCy" qui permet de faire du language Processing en Python. Grâce à des modèles pré-entrainés pour plusieurs langues, spaCy reconnaît les entités présentes dans les phrases analysées, et donne une catégorie à chaque entité. Dans notre cas, nous avons donc lancé le language Processing sur la liste des Most Wanted Article précédemment extraite, et récupéré uniquement les items dont la catégorie était "Personne". C'est à partir de cette dernière liste que nous ajoutons les articles sur Wikipast
Création & Contenu
Résultats & Analyses
Améliorations envisageables
homonymes ? noms ?
Code
Le code pour ce bot se trouve à l'adresse GitHub suivante :