|
|
Ligne 97 : |
Ligne 97 : |
| == Projets 2020 == | | == Projets 2020 == |
|
| |
|
| En 2019, l’équipe du DHLAB a effectué une extraction de 4 million d’adresses dans les anciens annuaires de la ville de Paris
| | À partir de l'extraction de 4 million d’adresses dans les anciens annuaires de la ville de Paris effectuée par l'équipe du DHLAB (Di Lenardo, I., Barman, R., Descombes, A., Kaplan F. (2019). [https://dev.clariah.nl/files/dh2019/boa/0878.html Repopulating Paris: massive extraction of 4 Million addresses from city directories between 1839 and 1922, Digital Humanities conference DH2019, Utrecht, Pays-Bas]), les étudiants du cours en 2020 ont créé des millions de nouvelles entrées dans Wikipast en programmant des BottinBots – chacun se voyant attribuée une partie du corpus, et prêtant attention aux cas d'homonymie, d'erreurs d'OCR, et de pages préexistantes. |
| | |
| Di Lenardo, I., Barman, R., Descombes, A., Kaplan F. (2019). [https://dev.clariah.nl/files/dh2019/boa/0878.html Repopulating Paris: massive extraction of 4 Million addresses from city directories between 1839 and 1922, Digital Humanities conference DH2019, Utrecht, Pays-Bas] | |
| | |
| Les étudiants du cours en 2020 vont travailler sur cette base d’extraction pour créer des millions de nouvelles entrées dans Wikipast en programmant des BottinBots. Chaque groupe recevra une partie du Corpus et extrait et devra créer les pages correspondantes avec une ligne du type
| |
| | |
| * [[1875]] / [[Paris]]. [[Marcel Dupont]] exerce l’occupation de [[vendeur de vin]] au [[20 boulevard poissonnière]] ([Lien vers la page de l’annuaire correspondant])
| |
| | |
| ou
| |
| * [[1875]] / [[Paris]]. [[Mention]] de [[Marcel Dupont]] comme [[vendeur de vin]] au [[20 boulevard poissonnière]] (Lien vers la page de l’annuaire correspondant)
| |
| | |
| ou
| |
| * [[1875]] / [[Paris]], [[boulevard poissonnière 20]]. [[Mention]] de [[Marcel Dupont]] comme [[vendeur de vin]] (Lien vers la page de l’annuaire correspondant)
| |
| | |
| Attention
| |
| * Beaucoup de personnes se retrouvent d’année en année, il ne faudra pas créer plusieurs pages dans ce cas
| |
| * Certaines personnes sont déjà dans Wikipast, il ne faudra pas effacer les pages correspondantes, mais au contraire rajouter la ligne à la bonne année.
| |
| * Il y aura dans certains cas des homonymes. Il faudra trouver un moyen de nommer les pages pour les gérer.
| |
| * Il y aura des erreurs d’OCR dans les données. Il faudra développer une stratégie pour éventuellement normaliser certains noms.
| |
| | |
| En utilisant les codes des bots faits les années précédentes, chaque groupe pour tenter d’aller le plus loin possible dans la génération de pages de qualité.
| |
| | |
| Exemples d’idées
| |
| * Lien des adresses vers page Wikipedia de la rue correspondante.
| |
| * Association avec les id Wikidata quand cela est possible.
| |
| * Éventuellement création d’une Wikibase propre à Wikipast pour donner nos propres ID (à discuter collectivement), par exemple en construisant la page [[Ontologie annuaires Paris]]
| |
| * Recherche systématique d'images illustrations ou d'autres informations dans la presse numérisée (par exemple les collections numérisées sur Gallica https://gallica.bnf.fr/html/und/presse-et-revues/presse-par-thematiques)
| |
|
| |
|
| {| class="wikitable" | | {| class="wikitable" |
Propositions 2021
Nom du bot
|
Description
|
Membre 1
|
Membre 2
|
Membre 3
|
DisambiguationBot
|
Création d'une page de désambiugation pour des pages ayant des noms similaires
|
Clara Beaubis
|
Julia Heiniger
|
Simon Liétar
|
ImpressoBot
|
Importation des entitées nommées non présentes dans Wikidata et trouvées dans les journaux d'Impresso (extraction déjà effectuée)
|
|
|
|
WebLinkBot
|
Recherche d’informations supplémentaires à ajouter sur les pages Wikipast et création de liens vers ces pages
|
|
|
|
WikidataImporterBot
|
Complétion des pages Wikipast ayant des information sur Wikidata (à partir de l'annotation de Wikidataficator)
|
|
|
|
UniqueIDBot
|
Définition d’un WikipastID unique et insertion dans les pages déjà créées
|
Louis-Dardaye Dramé
|
Eloi Garandel
|
Robin Ottinger
|
EliteBot
|
Importation dans Wikipast des données de la base des Élites Suisses
|
Joshua Bernimoulin
|
Nicolas Raulin
|
Ira Dobbelaere
|
MostWantedBot
|
Création dans Wikipast de pages à partir de la liste “Most Wanted Wikipedia Article”
|
Arthur André
|
Xavier Dulex
|
Yucef Grebici
|
LinkBot2
|
Augmenter le nombre de liens entre les pages Wikipast par la création d’index plus nombreux
|
Parzival Nussbaum
|
Noah Kaltenrieder
|
Léonard Flückiger
|
ImageBot2
|
Amelioration d’ImageBot (avec par exemple, la création d’images génériques dans le cas où aucune image est présente)
|
|
|
|
GenealogyBot
|
Importation d’informations à partir de base généalogique (source à choisir et citer)
|
Jeremy Dezalos
|
Romain Küenzi
|
Armelle Bouhali
|
PlaceBot
|
Importation d’informations à partir de Geonames ou autre et recherche des pages Wikipast ayant des informations sur ces lieux
|
|
|
|
ArtBot
|
Importation d’événements de ventes d’oeuvres d’art (source à choisir et citer)
|
Michael Richter
|
Vincent Philippoz
|
Agatha Duranceau
|
SportBot
|
Importation de données sur des évènements sportifs (source à choisir et citer)
|
Antonin Stampbach
|
Enzo Palmisano
|
Alessio Verardo
|
WarBot
|
Importation de données sur les guerres mondiales (source à choisir et citer)
|
Mohamed Ali Dhraief
|
Nora Bugmann
|
Stefan Eric
|
Projets 2020
À partir de l'extraction de 4 million d’adresses dans les anciens annuaires de la ville de Paris effectuée par l'équipe du DHLAB (Di Lenardo, I., Barman, R., Descombes, A., Kaplan F. (2019). Repopulating Paris: massive extraction of 4 Million addresses from city directories between 1839 and 1922, Digital Humanities conference DH2019, Utrecht, Pays-Bas), les étudiants du cours en 2020 ont créé des millions de nouvelles entrées dans Wikipast en programmant des BottinBots – chacun se voyant attribuée une partie du corpus, et prêtant attention aux cas d'homonymie, d'erreurs d'OCR, et de pages préexistantes.
Projets 2019
Projets 2018
Nom de bot
|
Membre 1
|
Membre 2
|
Membre 3
|
Membre 4
|
Membre 5
|
SummarizingBot
|
Andrey Piskunov |
Daniil Morzhakov |
|
|
|
SimilarBot
|
Christian Bertoni |
Ludovico Machet |
Mathieu Suter |
Elisa Vidal-Revel |
Rémi Petitpierre
|
TranslatorBot
|
Pierre Gabioud |
Maxime Lemarignier |
Natalia Nessler |
Kopiga Rasiah |
Yusi Zou
|
VandalBot
|
Mathieu Ducroux |
Frédéric Myotte |
Stanislas Michel |
Vincent Coriou |
|
Triplificator
|
Basil Hall |
Shana Calmes |
Jan Frogg |
Souhail Elaissaoui |
|
Creatobot
|
Bourquin Vladimir |
Duruz Noé |
Natalija Ljubic |
Evard Amandine |
|
SliderBot
|
Paul Guhennec |
Maël Wildi |
Etienne Bonvin |
Mathilde Raynal |
Stefano Politi
|
GraderBot
|
Aurélien Debbas |
Léo Meynent |
|
|
|
EntryMakerBot
|
Luca Marti |
Alexandre Pages |
|
|
|
Projets 2017
Wikipast Bot Projects
|
member_1
|
member_2
|
member_3
|
member_4
|
member_5
|
InferenceBot
|
Marc Jollès |
Pierre-Alexandre Lee |
Leandro Kieliger |
Quentin Bacuet |
Aurélien Monbaron
|
SourceBot
|
Karine Perrard |
Matthieu Baud |
Alexis Dewaele |
Grégoire Mayrhofer |
|
TangoBot
|
Patrik Wagner |
Stephane Selim |
Alex Cavaleri |
Antoine Gomez |
|
LinkBot
|
Thierry Bossy |
Ignacio Aleman |
Andy Caforio |
Ziyan Li |
Nawel Naas
|
ImageBot
|
Thomas Boyer |
Ghislain Asin |
Samuel Sekarski |
Christine Roth |
|
ChronoBot
|
Aurélien Verdier |
Jonathan Charrière |
Arnau Albà |
Sonia Bouchiba |
Sébastien Morel
|
SPARQLBot
|
Marc Bickel |
Raphaël Barman |
Grégoire Hirt |
Houssam Ben Hallam |
|
FormatBot
|
Cem Musluoglu |
Alex Jourdan |
Jan Snoeijs |
Claudio Loureiro |
|
OrthoBot
|
Leblanc Martin |
Antoine Launay |
Bruno Wicht |
Cinéus Jennifer M. |
|
PageUpdaterBot
|
Pannatier Arnaud |
Fournier Romain |
Giorla Matteo |
Viaccoz Cédric |
|
BioPathBot
|
Christophe Badoux |
Kim Lan Phan Hoang |
Robin Lang |
Julien Burkhard |
|