Déjà vu
Déjà vu, ou l’histoire condamnée à se répéter
Objectif
Chaque jour, ressortir un article du passé traitant le même type de sujet (événement, problématique, acteurs) que la une du jour du Temps.
Fichier:2-maquette-deja-vu.jpg
Membres
Catherine Brand, Anthony Byledbal, Kyril Gossweiler, Fabrice Hong, Didier Jeandrevin, Arnaud Miribel, Douglas Watson.
Fonctionnement
Un article du Temps est repris dans une interface d'où l'on peut accéder à des articles mis en lien automatiquement ou par le lectorat.
Fichier:3-maquette-deja-vu.jpg
En cliquant sur un article lié automatiquement ou par le lectorat, l'utilisateur peut confirmer si cet article tiré des archives est en effet en lien avec l'article du Temps qu'il lisait ou non. Il peut justifier son choix (ce qui sert à améliorer la base de données de liens).
Derrière l'interface, un search engine écrit en Python sert à retrouver les articles similaires sur la base de la méthode TF-IDF. Cet algorithme calcule une distance entre articles en fonction de mots en commun qu'elle discrimine en fonction de leur rareté. Par exemple, le filtre est plus fort lorsqu'il y a des entités nommées.
Fichier:Search engine hackathon.png
Pour l'instant, les articles récents ressortent plus souvent, mais il n'y a pas eu le temps pour creuser plus loin ce problème.
Au final, on obtient un graphe entre des articles, ce qui permet d'utiliser les techniques de l'analyse des réseaux.
Pour l'anecdote
En une du 11 janvier 1933 du Journal de Genève, on trouve une rubrique "Dans le journal il y a cent ans" ;-)