BottinBot2
Aller à la navigation
Aller à la recherche
Fonctionnement du bot
Le but de l'algorithme est de regrouper les entrées des bottins
Traitements des données du bottin
La donnée de base est un DataFrame dont les lignes sont les entrées des bottins, chaque entrée contient les informations suivantes:
index, directory, page, row, year, name, job, street, number, street_clean, street_only
Dans notre cas on considère qu'une entité peut être uniquement défini par son nom, son métier et par le nom de la rue où il a effectué son métier.
à l'aide de la fonction entry2url, il est possible de déduire des variables directory,page et row une adresse URL menant à la page du bottin sur GALLICA, qui pourra servir de source