« GallicaSPARQLBot » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
Ligne 10 : | Ligne 10 : | ||
Pour la date de décès : <pre> 1926.12.06 / Giverny. Décès de Claude Monet. </pre> | Pour la date de décès : <pre> 1926.12.06 / Giverny. Décès de Claude Monet. </pre> | ||
Pour une œuvre : <pre> 1879. Création par Claude Monet de Camille sur son lit de mort (Monet). </pre> | Pour une œuvre : <pre> 1879. Création par Claude Monet de Camille sur son lit de mort (Monet). </pre> | ||
Ligne 20 : | Ligne 18 : | ||
Les pages Wikipast de chacune des œuvres de l'auteur sont aussi créées. | Les pages Wikipast de chacune des œuvres de l'auteur sont aussi créées. | ||
Afin d'éviter des collisions entre le nom de plusieures œuvres ainsi qu'entre le nom d'une œuvre et celui d'un auteur, il a été choisi de nommer ces pages avec le nom de l’œuvre suivi du nom de l'auteur (par exemple: .......... ). | Afin d'éviter des collisions entre le nom de plusieures œuvres ainsi qu'entre le nom d'une œuvre et celui d'un auteur, il a été choisi de nommer ces pages avec le nom de l’œuvre suivi du nom de l'auteur (par exemple: .......... ). | ||
Ligne 32 : | Ligne 28 : | ||
Suite à la création de 7000 auteurs (ainsi que de nombreuses œuvres), les estimations pratiques se rangent plutôt dans les 7 jours. | Suite à la création de 7000 auteurs (ainsi que de nombreuses œuvres), les estimations pratiques se rangent plutôt dans les 7 jours. | ||
== Exemple d'utilisation == | |||
[[Fichier:Page Audran.png]] | |||
[[Fichier:Oeuvre Audran.png]] |
Version du 9 mai 2019 à 06:03
Le GallicaSPARQLBot est un bot python complétant ou générant automatiquement des pages Wikipast à partir des données de la Bibliothèque nationale de France (BnF).
Le code pour le bot est disponible sur ce repo GitHub. Pour exécuter le bot, il suffit de lancer le fichier python execute_bot.py en passant le mot de passe du GallicaSPARQLBot en argument.
Dans un premier temps, le bot cherche, à travers des requêtes SPARQL, l'intégralité des auteurs appartenant à la base de données de la BnF.
A partir de ces informations, le bot crée ou modifie la page Wikipast liée à chaque auteur en y ajoutant leurs dates de naissance et de mort et ajoute de la même façon les œuvres principales de l'auteur. Ces ajouts sont chacuns accompagnée de liens renvoyant vers le site de la BnF et sont normalisés de la façon suivante:
Pour la date de naissance :
1840.11.14 / Paris 9e. Naissance de Claude Monet.
Pour la date de décès :
1926.12.06 / Giverny. Décès de Claude Monet.
Pour une œuvre :
1879. Création par Claude Monet de Camille sur son lit de mort (Monet).
Exemple d'auteur ayant des dates compliqués à gérer
Les pages Wikipast de chacune des œuvres de l'auteur sont aussi créées.
Afin d'éviter des collisions entre le nom de plusieures œuvres ainsi qu'entre le nom d'une œuvre et celui d'un auteur, il a été choisi de nommer ces pages avec le nom de l’œuvre suivi du nom de l'auteur (par exemple: .......... ).
Chacune des pages explorées par le bot seront agrémentées d'un identifiant BnF (Bnf id) et de leur type wikidata.
Performances
Le bot permet de créer en moyenne 1000 pages d'auteurs (sans compter les pages d'œuvres) en environ 7 minutes. Ceci fait fait que l'import total (environ 500'000 auteurs) ne devrait pas prendre plus de 2.5 jours. Cette vitesse a été atteinte en parallélisant le programme, permettant une diminution très importante du temps total.
Suite à la création de 7000 auteurs (ainsi que de nombreuses œuvres), les estimations pratiques se rangent plutôt dans les 7 jours.