« BottinBot3 » : différence entre les versions
(Déscription technique, première ébauche) |
|||
Ligne 2 : | Ligne 2 : | ||
Ce bot a pour but d'insérer des données sur Wikipast issues de l'extraction de 4 Million d'adresses des anciens annuaires de la ville de Paris qui fut réalisée par l'équipe du DHLAB en 2019. | Ce bot a pour but d'insérer des données sur Wikipast issues de l'extraction de 4 Million d'adresses des anciens annuaires de la ville de Paris qui fut réalisée par l'équipe du DHLAB en 2019. | ||
Notre BottinBot3 traite un sous-ensemble de ces données [https://drive.google.com/open?id=1gvN6Fq1z2cfIJA_IwWOgRubctOiYNEZT données groupe 3] correspondant aux années 1857 à 1864. | Notre BottinBot3 traite un sous-ensemble de ces données [https://drive.google.com/open?id=1gvN6Fq1z2cfIJA_IwWOgRubctOiYNEZT données groupe 3] correspondant aux années 1857 à 1864. Soit un total de 548704 entrées. | ||
== Description technique == | == Description technique == | ||
Le bot crée un dictionnaire et parcourt les entrées du bottin dans l'ordre chronologique. Pour chaque personne, une entrée est créée contenant avec comme clé son nom, puis comme valeur un tuple contenant son métier et sa rue, puis une liste d'index est ajoutée pour retrouver la personne dans notre jeu de données. Si le nom de la personne existe déjà dans le dictionnaire, alors ses champs viennent être ajoutés à la clé correspondante. | |||
Il se peut qu'une personne se retrouve d'années en années. Pour ce faire, nous comparons son nom, son travail et sa rue et s'il s'agit effectivement de la même personne, alors l'index de sa nouvelle apparition est ajoutée à la liste d'index. | |||
Nous avons choisi d'ajouter des entrées sur wikipast de la forme: | |||
<nowiki>* [[year]] / [[Paris]], [[street_clean]] street_nb. Mention de [[nom]] avec la catégorie [[Métier]] </nowiki> | |||
== Stratégies == | == Stratégies == | ||
== Évaluation des performances == | == Évaluation des performances == |
Version du 18 mai 2020 à 09:00
Résumé des fonctionnalités
Ce bot a pour but d'insérer des données sur Wikipast issues de l'extraction de 4 Million d'adresses des anciens annuaires de la ville de Paris qui fut réalisée par l'équipe du DHLAB en 2019.
Notre BottinBot3 traite un sous-ensemble de ces données données groupe 3 correspondant aux années 1857 à 1864. Soit un total de 548704 entrées.
Description technique
Le bot crée un dictionnaire et parcourt les entrées du bottin dans l'ordre chronologique. Pour chaque personne, une entrée est créée contenant avec comme clé son nom, puis comme valeur un tuple contenant son métier et sa rue, puis une liste d'index est ajoutée pour retrouver la personne dans notre jeu de données. Si le nom de la personne existe déjà dans le dictionnaire, alors ses champs viennent être ajoutés à la clé correspondante.
Il se peut qu'une personne se retrouve d'années en années. Pour ce faire, nous comparons son nom, son travail et sa rue et s'il s'agit effectivement de la même personne, alors l'index de sa nouvelle apparition est ajoutée à la liste d'index.
Nous avons choisi d'ajouter des entrées sur wikipast de la forme:
* [[year]] / [[Paris]], [[street_clean]] street_nb. Mention de [[nom]] avec la catégorie [[Métier]]