« BottinBot2 » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
Ligne 7 : | Ligne 7 : | ||
Le but de cette partie est de créer un dictionnaire listant tout les entitées distinctes qui ont pu être extraites des bottins. On considère ici que deux entrées se réfèrent à la même personne si les variables : | Le but de cette partie est de créer un dictionnaire listant tout les entitées distinctes qui ont pu être extraites des bottins. On considère ici que deux entrées se réfèrent à la même personne si les variables : | ||
name, job, street_clean | name, job, street_clean | ||
sont assez "similaires". Ici la similarité entre deux entrées est définie à l'aide d'une fonction, qui pour deux entrées | sont assez "similaires". Ainsi chaque entité distincte est ici uniquement définie par son nom, métier et adresse de travail. Ici la similarité entre deux entrées est définie à l'aide d'une fonction, qui pour deux entrées données, retourne un score de ressemblance compris entre 0 (aucune ressemblance) et 1 (identiques). | ||
La création du dictionnaire contenant les entités distinctes se fait en comparant les entrées d'une année avec celles de l'année précédente et en groupant dans des dataFrames les entrées ayant les | préciser le fonctionnement de cette fonction? | ||
La création du dictionnaire contenant les entités distinctes se fait en comparant les entrées d'une année avec celles de l'année précédente et en groupant dans des dataFrames les entrées ayant les scores de ressemblance les plus élevés et ayant dépassé un seuil minimum de ressemblance (ceci évitant que deux entrées soient mises dans le même dataFrame avec un score de ressemblance très bas). L'approche anti-chronologique est justifiée par le fait que ???. Le résultat de ce processus est une liste de dataFrame contenant les entrées attribuées à la même entité: | |||
mettre image? | mettre image? | ||
Cette liste est ensuite convertie en un dictionnaire à trois | Cette liste est ensuite convertie en un dictionnaire à trois niveaux de clefs permettant de retrouver à l'aide du nom, du métier et de l'adresse d'une entité, le dataFrame d'entrée correspondant. | ||
Ligne 20 : | Ligne 22 : | ||
=== Ecriture des articles === | === Ecriture des articles === | ||
L'avantage du dictionnaire créé précédement est qu'il est facile de savoir quand il faut écrire une page de | Un article est composé d'entrée de la forme : | ||
*[[year]] / Paris. Mention de [[name]] dans la catégorie [[job]] à l'adresse [[number]] [[street_clean]] [[url]] | |||
L'avantage du dictionnaire créé précédement est qu'il est facile de savoir quand il faut écrire une page de désambiguisation ou non lorsque l'on veut écrire un |
Version du 18 mai 2020 à 23:09
Présentation du bot
La fonction de ce bot est d'automatiser la création d'articles biographiques à partir de données extraites des anciens annuaires de la ville de Paris. La donnée primaire est un DataFrame dont les lignes sont les entrées des bottins, chaque entrée contient les informations suivantes:
index, directory, page, row, year, name, job, street, number, street_clean, street_only
Fonctionnement du bot
Traitements des données du bottin
Le but de cette partie est de créer un dictionnaire listant tout les entitées distinctes qui ont pu être extraites des bottins. On considère ici que deux entrées se réfèrent à la même personne si les variables :
name, job, street_clean
sont assez "similaires". Ainsi chaque entité distincte est ici uniquement définie par son nom, métier et adresse de travail. Ici la similarité entre deux entrées est définie à l'aide d'une fonction, qui pour deux entrées données, retourne un score de ressemblance compris entre 0 (aucune ressemblance) et 1 (identiques).
préciser le fonctionnement de cette fonction?
La création du dictionnaire contenant les entités distinctes se fait en comparant les entrées d'une année avec celles de l'année précédente et en groupant dans des dataFrames les entrées ayant les scores de ressemblance les plus élevés et ayant dépassé un seuil minimum de ressemblance (ceci évitant que deux entrées soient mises dans le même dataFrame avec un score de ressemblance très bas). L'approche anti-chronologique est justifiée par le fait que ???. Le résultat de ce processus est une liste de dataFrame contenant les entrées attribuées à la même entité:
mettre image?
Cette liste est ensuite convertie en un dictionnaire à trois niveaux de clefs permettant de retrouver à l'aide du nom, du métier et de l'adresse d'une entité, le dataFrame d'entrée correspondant.
mettre image dico ?
Ecriture des articles
Un article est composé d'entrée de la forme :
L'avantage du dictionnaire créé précédement est qu'il est facile de savoir quand il faut écrire une page de désambiguisation ou non lorsque l'on veut écrire un