« BottinBot3 » : différence entre les versions
Aucun résumé des modifications |
(Ajout de la page) |
||
Ligne 8 : | Ligne 8 : | ||
directory, page, row, year, name, job, street, number, street_clean, street_only | directory, page, row, year, name, job, street, number, street_clean, street_only | ||
Notre bot crée un dictionnaire et parcourt ces entrées dans l'ordre chronologique. Pour chaque personne, une entrée est créée contenant avec comme clé son nom, puis comme valeur une liste contenant un tuple avec son métier et sa rue, ainsi qu'une liste d'index pour retrouver la personne dans notre jeu de données. Si le nom de la personne existe déjà dans le dictionnaire, alors ses champs viennent être ajoutés à la clé correspondante. | |||
Il se peut qu'une personne se retrouve d'années en années. Pour ce faire, nous comparons son nom, son travail et sa rue et s'il s'agit effectivement de la même personne, alors l'index de sa nouvelle apparition est ajoutée à la liste d'index. | Il se peut qu'une personne se retrouve d'années en années. Pour ce faire, nous comparons son nom, son travail et sa rue et s'il s'agit effectivement de la même personne, alors l'index de sa nouvelle apparition est ajoutée à la liste d'index. | ||
Exemple d'une entrée: | Exemple d'une entrée du dictionnaire: | ||
{"Ollivier" : [[('café de la Redoute', 'Grenelle-SaintHonoré'), [47444]], [('limonadier', 'boulevard Beaumarchais'), [47447, 115747, 530253, 313487]], ... } | {"Ollivier" : [[('café de la Redoute', 'Grenelle-SaintHonoré'), [47444]], [('limonadier', 'boulevard Beaumarchais'), [47447, 115747, 530253, 313487]], ... } | ||
Ligne 18 : | Ligne 18 : | ||
Puis nous insérons les données sur Wikipast. | Puis nous insérons les données sur Wikipast. | ||
Pour chaque apparition d'une personne dans le dictionnaire, nous ajoutons une entrée de la forme suivante à sa page: | Pour chaque année d'apparition d'une personne dans le dictionnaire, nous ajoutons une entrée de la forme suivante à sa page: | ||
<nowiki>* [[year]] / [[Paris]], [[street_clean]] number. Mention de [[name]] avec la catégorie [[job]] </nowiki> | <nowiki>* [[year]] / [[Paris]], [[street_clean]] number. Mention de [[name]] avec la catégorie [[job]] </nowiki> | ||
== Stratégies == | == Stratégies == | ||
Dans le but de donner le plus de sens possible aux données, il a fallut mettre au point des stratégies afin de regrouper les mêmes personnes ensemble ainsi que corriger les erreurs d'extraction. | |||
=== Comparaison entre deux personnes === | |||
Lorsqu'une entrée du bottin est lue, | |||
=== Cas d'homonymie === | |||
== Évaluation des performances == | == Évaluation des performances == |
Version du 18 mai 2020 à 09:50
Résumé des fonctionnalités
Ce bot a pour but d'insérer des données sur Wikipast issues de l'extraction de 4 Million d'adresses des anciens annuaires de la ville de Paris qui fut réalisée par l'équipe du DHLAB en 2019.
Notre BottinBot3 traite un sous-ensemble de ces données données groupe 3 correspondant aux années 1857 à 1864. Soit un total de 548704 entrées.
Description technique
Le bottin contient des entrées de la forme suivante:
directory, page, row, year, name, job, street, number, street_clean, street_only
Notre bot crée un dictionnaire et parcourt ces entrées dans l'ordre chronologique. Pour chaque personne, une entrée est créée contenant avec comme clé son nom, puis comme valeur une liste contenant un tuple avec son métier et sa rue, ainsi qu'une liste d'index pour retrouver la personne dans notre jeu de données. Si le nom de la personne existe déjà dans le dictionnaire, alors ses champs viennent être ajoutés à la clé correspondante.
Il se peut qu'une personne se retrouve d'années en années. Pour ce faire, nous comparons son nom, son travail et sa rue et s'il s'agit effectivement de la même personne, alors l'index de sa nouvelle apparition est ajoutée à la liste d'index.
Exemple d'une entrée du dictionnaire:
{"Ollivier" : [[('café de la Redoute', 'Grenelle-SaintHonoré'), [47444]], [('limonadier', 'boulevard Beaumarchais'), [47447, 115747, 530253, 313487]], ... }
Puis nous insérons les données sur Wikipast.
Pour chaque année d'apparition d'une personne dans le dictionnaire, nous ajoutons une entrée de la forme suivante à sa page:
* [[year]] / [[Paris]], [[street_clean]] number. Mention de [[name]] avec la catégorie [[job]]
Stratégies
Dans le but de donner le plus de sens possible aux données, il a fallut mettre au point des stratégies afin de regrouper les mêmes personnes ensemble ainsi que corriger les erreurs d'extraction.
Comparaison entre deux personnes
Lorsqu'une entrée du bottin est lue,