« BottinBot2 » : différence entre les versions

De Wikipast
Aller à la navigation Aller à la recherche
Aucun résumé des modifications
Aucun résumé des modifications
Ligne 1 : Ligne 1 :
== Fonctionnement du bot ==
== Fonctionnement du bot ==
 
Le but de l'algorithme est de regrouper les entrées des bottins
=== Traitements des données du bottin ===
=== Traitements des données du bottin ===
La donnée de base est un DataFrame dont les lignes sont les entrées des bottins, chaque entrée contient les informations suivantes:
La donnée de base est un DataFrame dont les lignes sont les entrées des bottins, chaque entrée contient les informations suivantes:
  index, directory, page, row, year, name, job, street, number, street_clean, street_only
  index, directory, page, row, year, name, job, street, number, street_clean, street_only
où :
Dans notre cas on considère qu'une entité peut être uniquement défini par son nom, son métier et par le nom de la rue où il a effectué son métier.
;index
:indice de l'entrée dans le DataFrame


;directory
:???


;page
:page du bottin où se trouve l'entrée


;row
:ligne à laquelle se trouve l'entrée


;year
:année du bottin


;name
à l'aide de la fonction '''entry2url''', il est possible de déduire des variables ''directory'',''page'' et ''row'' une adresse URL menant à la page du bottin sur GALLICA, qui pourra servir de source
:nom

Version du 18 mai 2020 à 16:47

Fonctionnement du bot

Le but de l'algorithme est de regrouper les entrées des bottins

Traitements des données du bottin

La donnée de base est un DataFrame dont les lignes sont les entrées des bottins, chaque entrée contient les informations suivantes:

index, directory, page, row, year, name, job, street, number, street_clean, street_only

Dans notre cas on considère qu'une entité peut être uniquement défini par son nom, son métier et par le nom de la rue où il a effectué son métier.



à l'aide de la fonction entry2url, il est possible de déduire des variables directory,page et row une adresse URL menant à la page du bottin sur GALLICA, qui pourra servir de source