BottinBot2

De Wikipast
Aller à la navigation Aller à la recherche

Présentation du bot

La fonction de ce bot est d'automatiser la création d'articles biographiques à partir de données extraites des anciens annuaires de la ville de Paris. La donnée primaire est un DataFrame dont les lignes sont les entrées des bottins, chaque entrée contient les informations suivantes:

index, directory, page, row, year, name, job, street, number, street_clean, street_only

Fonctionnement du bot

Traitements des données du bottin

Le but de cette partie est de créer un dictionnaire listant tout les entitées distinctes qui ont pu être extraites des bottins. On considère que deux entrée du bottin font référence à la même entité si leurs variables name,job et street_clean sont très similaires.


Ecriture des articles

à l'aide de la fonction entry2url, il est possible de déduire des variables directory,page et row une adresse URL menant à la page du bottin sur GALLICA, qui pourra servir de source