« BottinBot1 » : différence entre les versions

De Wikipast
Aller à la navigation Aller à la recherche
Ligne 15 : Ligne 15 :


A première vu, nous avons 390223 entrées dans notre fichier CSV. Celles-ci sont des entrées entre l'année 1839 et 1848.
A première vu, nous avons 390223 entrées dans notre fichier CSV. Celles-ci sont des entrées entre l'année 1839 et 1848.
Nous avons choisi de ne pas prendre les lignes contenant des valeurs NaN, ceci nous a amené à ne traiter que 389599 entrées. Soit une perte de 0.15%


=== Vérification d'existence ===
=== Vérification d'existence ===

Version du 19 mai 2020 à 06:53

Résumé des fonctionnalités

En 2019, l’équipe du DHLAB a effectué une extraction de 4 Million d’adresses dans les anciens annuaires de la ville de Paris.

Di Lenardo, I., Barman, R., Descombes, A., Kaplan F. (2019). Repopulating Paris: massive extraction of 4 Million addresses from city directories between 1839 and 1922, Digital Humanities conference DH2019, Utrecht, Pays-Bas, [1]

Ce bot va extraire les données de ces annuaires et créer les pages dans wikipast. Le BottinBot1 que nous avons développé traite les données des années 1839 à 1848 [2]. Il peut bien entendu être utilisé pour traiter d'autres données.


Description technique

Lecture du bottin

On utilise la librairie Pandas pour lire les données dans le fichier CSV qui nous a été accordé et les organiser dans un objet DataFrame.

A première vu, nous avons 390223 entrées dans notre fichier CSV. Celles-ci sont des entrées entre l'année 1839 et 1848.

Nous avons choisi de ne pas prendre les lignes contenant des valeurs NaN, ceci nous a amené à ne traiter que 389599 entrées. Soit une perte de 0.15%

Vérification d'existence

Exécution du BottinBot

Stratégies adoptées

Stratégie générale

Stratégie pour les erreurs d'homonymie

Stratégie pour les erreurs d'OCR

Évaluation des performances

Évaluation des performances techniques

Évaluation du nombre de pages générées et modifiées

Analyse critique

Code