« BottinBot5 » : différence entre les versions

De Wikipast
Aller à la navigation Aller à la recherche
(Page créée avec « {| class="wikitable" |Langue |'''Français''' |English |} == Résumés des fonctionnalités == Ce bot a pour but d'extraire en grande quantité… »)
 
Aucun résumé des modifications
Ligne 15 : Ligne 15 :
...(à compléter)...
...(à compléter)...


=== Stratégie adoptée ===
== Stratégie adoptée ==


Dans la perspective de ce projet d'Humanités Digitales, nous avons délibérément choisi d'adopter une méthode d'extraction-création itérative, à savoir en parcourant un maximum de données à chaque exécution du code. En cas de problème rencontré pour une entrée particulière, nous cherchions alors à fixer l'erreur correspondante et nous reprenions ensuite l'exécution de notre code à partir du dernier conflit. Cela nous a permis, assez tôt, de produire des pages dans Wikipast en grande quantité.  
Dans la perspective de ce projet d'Humanités Digitales, nous avons délibérément choisi d'adopter une méthode d'extraction-création itérative, à savoir en parcourant un maximum de données à chaque exécution du code. En cas de problème rencontré pour une entrée particulière, nous cherchions alors à fixer l'erreur correspondante et nous reprenions ensuite l'exécution de notre code à partir du dernier conflit. Cela nous a permis, assez tôt, de produire des pages dans Wikipast en grande quantité.  
Ligne 23 : Ligne 23 :
...(à conserver?)...
...(à conserver?)...


==== Analyse critique ====
== Analyse critique ==


...(à compléter)...
...(à compléter)...

Version du 16 mai 2020 à 10:26

Langue Français English

Résumés des fonctionnalités

Ce bot a pour but d'extraire en grande quantité des informations à partir de la base de données créée en 2019 par l’équipe du DHLAB, qui contient quatre millions d’adresses issues d'anciens annuaires de la ville de Paris. Dans un second temps, le bot devra créer les pages correspondantes dans Wikipast.

Notre BottinBot5 traitera un sous-ensemble de cette base de donnée, à savoir les annuaires des années 1880 à 1887 (soit un total de 790405 entrées non traitées).

Description technique

...(à compléter)...

Stratégie adoptée

Dans la perspective de ce projet d'Humanités Digitales, nous avons délibérément choisi d'adopter une méthode d'extraction-création itérative, à savoir en parcourant un maximum de données à chaque exécution du code. En cas de problème rencontré pour une entrée particulière, nous cherchions alors à fixer l'erreur correspondante et nous reprenions ensuite l'exécution de notre code à partir du dernier conflit. Cela nous a permis, assez tôt, de produire des pages dans Wikipast en grande quantité.

Évaluation des performances

...(à conserver?)...

Analyse critique

...(à compléter)...