« BottinBot2 » : différence entre les versions

De Wikipast
Aller à la navigation Aller à la recherche
Aucun résumé des modifications
Aucun résumé des modifications
Ligne 1 : Ligne 1 :
== Présentation du bot ==
La fonction de ce bot est d'automatiser la création d'articles biographiques à partir de données extraites des anciens annuaires de la ville de Paris. La donnée primaire est un DataFrame dont les lignes sont les entrées des bottins, chaque entrée contient les informations suivantes:
index, directory, page, row, year, name, job, street, number, street_clean, street_only
== Fonctionnement du bot ==
== Fonctionnement du bot ==
Le but de l'algorithme est de regrouper les entrées des bottins
L'algorithme marche en deux temps:
-traitement des données et création d'un dictionnaire listant les entrées à écrire
-écriture des articles à partir du dictionnaire
=== Traitements des données du bottin ===
=== Traitements des données du bottin ===
La donnée de base est un DataFrame dont les lignes sont les entrées des bottins, chaque entrée contient les informations suivantes:
index, directory, page, row, year, name, job, street, number, street_clean, street_only
Dans notre cas on considère qu'une entité peut être uniquement défini par son nom, son métier et par le nom de la rue où il a effectué son métier.




Le but du traitement est de créée un dictionnaire de personnes disctinctes
=== Ecriture des articles ===






à l'aide de la fonction '''entry2url''', il est possible de déduire des variables ''directory'',''page'' et ''row'' une adresse URL menant à la page du bottin sur GALLICA, qui pourra servir de source
à l'aide de la fonction '''entry2url''', il est possible de déduire des variables ''directory'',''page'' et ''row'' une adresse URL menant à la page du bottin sur GALLICA, qui pourra servir de source

Version du 18 mai 2020 à 20:58

Présentation du bot

La fonction de ce bot est d'automatiser la création d'articles biographiques à partir de données extraites des anciens annuaires de la ville de Paris. La donnée primaire est un DataFrame dont les lignes sont les entrées des bottins, chaque entrée contient les informations suivantes:

index, directory, page, row, year, name, job, street, number, street_clean, street_only

Fonctionnement du bot

L'algorithme marche en deux temps: -traitement des données et création d'un dictionnaire listant les entrées à écrire -écriture des articles à partir du dictionnaire

Traitements des données du bottin

Le but du traitement est de créée un dictionnaire de personnes disctinctes


Ecriture des articles

à l'aide de la fonction entry2url, il est possible de déduire des variables directory,page et row une adresse URL menant à la page du bottin sur GALLICA, qui pourra servir de source