Accueil
Aller à la navigation
Aller à la recherche
Bienvenue sur Wikipast, le mediawiki du cours Digital humanities (HUM-369).
Contact
Professeur: Frédéric Kaplan
Assistant: Raphaël Barman
Horaire: Mardi de 13h à 15h à INM 202
Liens
- Site Moodle
- MediaWiki: Syntaxe et Liens
- Archive de presse - Impresso
- Archive de presse - Le Temps
- Gallica - BNF
- Datafication biographique sur la page Biographies
- Typologie d'évènements
- Entités nommées d'Impresso
- Tutorial python
- Peergrading
- Projets de Bots
Résumé
Ce cours permet de découvrir les Digital Humanities par la pratique.
Plan
- 18.02.2020 Introduction au cours. Présentation des outils du cours (MediaWiki). Ecriture d'une biographie simple pour s'initier à la syntaxe MediaWiki. Recherche d'une personne ne figurant pas sur Wikipedia et Wikidata.
- 25.02.2020 Présentation des principes d'extraction automatiques à base de segmentation. Introduction à la base d'archives de presse qui sera utilisée ce semestre pour le cours: Impresso. Sigature du NDA pour s'inscrire sur Impresso <ref>Pour des raisons de droits d'auteur et afin d'avoir un accès complet aux données d'Impresso, il est nécessaire de signer un NDA. Il faut donc se rendre sur le site web d'Impresso, télécharger le NDA, le remplir et le renvoyer à l'adresse mentionnée sur le site d'Impresso.</ref>. Principe de la datafication biographique. Discussion d'un exemple. Choix d'une personne pour le projet personnel.
- 03.03.2020 Linguistique des grands nombres. N-gramme. Champ attentionel d'un media (attention temporelle, attention spatiale). Typologie de courbes. Suite de la datafication biographique. Exercice d'indexation en transformant chaque terme en hypermot.
- 10.03.2020 Discretisation de l'espace et du temps. UT.TAI. UTC. Classes d'équivalences temporelles. Classes d'équivalences spatiales. Exercices de conversion de dates. Complétion de la datafication biographique
- 17.03.2020 Tutorial python - Complétion de la datafication biographique - Deadline pour la remise de la datafication biographique (30%)
- 24.03.2020 Explication du Peer-grading - Présention des projets de bots pour Wikipast - Début de la constitution des équipes - Travail à la définition des projets
- 31.05.2020 Procéduralité et automatisme - Les bots dans Twitter - Les bots dans Wikipedia - Statistiques - Wikification du domaine public - Les controverses des bots - Les bots et le capitalisme linguistique - Deadline Peer-grading des datatifactions biographiques (10%) - Constitution finale des groupes (2-3) et choix des projets
- 07.04.2020 Algorithmes d'analyses textuelles - Introduction aux techniques de traitement du langage naturel - Les conférences MUC - Typologie des entités nommées (ENAMEX, TIMEX, NUMEX) - Gazetters - Tokenizers / Language guessers / POS - Tagger - Méthodes à base de règles - Méthodes à base d'apprentissage (Bayesian classifier, Hidden Markov Models, CRF) - Clustering / Linking - Extraction des entitées nommées dans la base des articles de presse - Calcul sur les noeuds du cluster - Exemple de règles ecrites en ExPRESS - Cascade de règles - Travail sur les projets
- 14.04.2020 Algorithmes d'analyses visuelles - Méthode de comparaison de recherche visuelle et distances entre images - Histogrammes de gradients - Deep learning - Moteur de recherche visuel - Travail sur les projets - Presentation des résultats du peer-grading
- 21.04.2020 Pas de cours
- 28.04.2020 Travail sur les projets - Presentation informelle de chaque groupe (5 - 10 min) - Detection des éventuelles incompatibilités entre bots
- 05.05.2020 Travail sur les projets - Essai de tous les bots sur une page test - Deadline pour la description technique du bot (30%)
- 12.05.2020 Travail sur les projets - Scheduling des bots - incompatibilités entre bots - déployment des bots à grande échelle
- 19.05.2020 Presentation des projets (30%) - 15 minutes par projet (10 minutes présentation, 5 minutes questions)
- 26.05.2020 Pas de cours
<references/>
Références
Référentiels temporels :
Référentiels spatiaux :
Barème
Barème pour la Datafication biographique (30 % de la note finale)
- Une biographie d'une personne ne figurant pas sur Wikipedia et Wikidata avec au moins 15 entrées a été écrite sous la forme d'une chronologie sourcée. Certaines entrées ont été indexées avec des hypermots > 4
- La présentation et la syntaxe Wiki ont été respectée +0.5
- Toutes les entrées sont sourcées avec au moins un article +0.5
- Le codage utilisant des hypermots est satisfaisant +0.5
- Au moins cinq pages liées ont été créées ou mises à jour.+0.5
Barème pour le peer-grading (10 % de la note finale)
- 5 datafication ont été notée : 6, sinon 0
Barème pour la description technique du bot (30 % de la note finale)
- La page du bot a été créée, le code est inséré sur Wikipast ou GitHub, un résumé des fonctionnalités est présent ainsi qu'une discussion critique des performances (au moins 300 mots) > 4
- Le bot réalisé répond aux fonctionnalités attendues +0.5
- La description est claire et précise +0.5
- Des exemples de résultats sont proposés +0.5
- La discussion est bien argumentée +0.5
Barème pour la presentation (30 % de la note finale)
- Une présentation en groupe du projet de bot (10 mn) avec des slides est effectuée > 4
- La présentation orale est dynamique, précise et claire +0.5
- Les réponses aux questions sont pertinentes + 0.5
- Les slides sont bien présentés +0.5
- L'ensemble du projet est cohérent et bien réalisé +0.5