« GenealogyBot » : différence entre les versions

De Wikipast
Aller à la navigation Aller à la recherche
Ligne 10 : Ligne 10 :


==Description technique==
==Description technique==
===Extraction des données===
===Traitement des données===
===Vérification d'existence===
===Création des entrées sur les pages===


==Discussion des performances==
==Discussion des performances==

Version du 18 mai 2021 à 13:09

Le but de ce bot est de traiter les données généalogiques provenant du recensement lausannois de 1832.

Données traitées

Les données traitées par ce bot sont des données généalogiques issues du recensement de 1832 dans la ville de Lausanne. Le document original est accessible sur le site des archives de Lausanne [1]. C'est la transcription automatique par un OCR de ces données qui est utilisée [2]. Cela correspond à 3701 entrées sous le format d'un tableau Excel.

Résumé des fonctionnalités

Dans un premier temps, le bot doit traiter toutes les entrées pour en extraire le nom de tous les chefs de famille et de leurs enfants ainsi que leurs dates de naissances respectives. Ensuite, il doit créer sur Wikipast les pages et/ou les entrées correspondantes en respectant la bonne syntaxe.

Description technique

Extraction des données

Traitement des données

Vérification d'existence

Création des entrées sur les pages

Discussion des performances

Performances techniques

Le temps d'exécution du bot est XXhXX. Cela permet la création de X nouvelles pages et la modification de X pages.

Améliorations possibles

De futures améliorations de ce bot sont envisageables :

  • Exploitation de données issues du recensement et non traitées par le bot actuel :
- année de naissance de l'épouse
- métier chef de famille
- adresse
- toutes les informations sur les pensionnaires
  • Correction de certaines erreurs d'OCR:
- pour les dates : remettre les | de séparation aux endroits où les dates sont correctes mais qu'ils sont juste manquants
- pour les noms : corriger les noms à l'aide des dictionnaires de noms et prénoms

Code

L'entièreté du code est disponible sur GitHub. [3]