« SPARQLBot » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
Ligne 3 : | Ligne 3 : | ||
== Description technique == | == Description technique == | ||
Le bot effectue une | Le bot effectue une requête sur le endpoint SPARQL qui permet d'obtenir un grande de nombre de mention d'individu ainsi que des informations sur cette personne: | ||
* Son nom | * Son nom | ||
* Sa fonction | * Sa fonction | ||
Ligne 19 : | Ligne 19 : | ||
Le bot vérifie ensuite que la page cible ne contient pas encore de texte. Et, le cas échéant envoie la modification de la page. Dans le futur, une liste des pages modifiées sera tenu à jour afin pour ne pas en perdre la trace si elles deviennent trop nombreuses. | Le bot vérifie ensuite que la page cible ne contient pas encore de texte. Et, le cas échéant envoie la modification de la page. Dans le futur, une liste des pages modifiées sera tenu à jour afin pour ne pas en perdre la trace si elles deviennent trop nombreuses. | ||
== Évaluation des performances == | == Évaluation des performances == | ||
Le bot a à la fois l'avantage et l'inconvénient d'utiliser la base de donnée SPARQL tel quel. Ce qui implique une faible quantité de données accessible pour chaque personne et des temps de réponses assez haut. | Le bot a à la fois l'avantage et l'inconvénient d'utiliser la base de donnée SPARQL tel quel. Ce qui implique une faible quantité de données accessible pour chaque personne et des temps de réponses assez haut. | ||
Malgré quelques précautions prise pour ôter les potentiels doublons dans les recherches, certaines personnes présentes une fois en 'Marcel Dupond' puis en 'M. Dupond' seront introduites deux fois dans les pages. Il y a aussi | Malgré quelques précautions prise pour ôter les potentiels doublons dans les recherches, certaines personnes présentes une fois en 'Marcel Dupond' puis en 'M. Dupond' seront introduites deux fois dans les pages. Il y a aussi des personnes dont nous n'avons pas le prénom. Nous avons donc décidé de ne pas créer des pages pour ces personnes, ainsi que d'enlever tous les prénoms abrégés. | ||
Aussi, la grande quantité de données produit des pages très longues car nous ne pouvons pas juger de la pertinence des [[Mention]] des différents individus dans les articles. Principalement parce que cette | Aussi, la grande quantité de données produit des pages très longues car nous ne pouvons pas juger de la pertinence des [[Mention]] des différents individus dans les articles. Principalement parce que cette information n'est pas mesurée dans la BDD et également car nous ne pouvons pas l'extraire, n'ayant pas accès au texte de l'article cité. | ||
== Code == | == Code == | ||
Le code source est disponible sur [https://github.com/sriak/sparqlbot Github]. | Le code source est disponible sur [https://github.com/sriak/sparqlbot Github]. |
Version du 8 mai 2017 à 15:43
Résumés des fonctionnalités
Ce bot utilise la base de donnée SPARQL des archives du Temps pour générer automatiquement des pages en suivant un certain squelette. Ces pages serviront de base pour être complétée par un humain pour lequel le travail de recherche d'article aura déjà été fait.
Description technique
Le bot effectue une requête sur le endpoint SPARQL qui permet d'obtenir un grande de nombre de mention d'individu ainsi que des informations sur cette personne:
- Son nom
- Sa fonction
- Sa nationalité
- La date de l'article
- Le journal de l'article
- Le lien vers l'article
Le bot effectue deux requêtes. Une première pour obtenir une liste de 100 noms de personnes qui ont été mentionnées, nous avons limité les nationalités à la nationalité suisse afin de rester sur des personnes plus locales. La deuxième requête recherche tous les articles dans lesquels la personne a été mentionnée. Cette liste d'articles est ensuite nettoyée et filtrée pour ne garder que celle qui contiennent suffisamment d'information. Elle sont ensuite triées par date et un squelette de page est créé. Chaque mention sur le squelette suivant:
AAAA.MM.JJ/ -. Mention de PERSONNE en tant que FONCTION dans JOURNAL. SOURCE
Le bot vérifie ensuite que la page cible ne contient pas encore de texte. Et, le cas échéant envoie la modification de la page. Dans le futur, une liste des pages modifiées sera tenu à jour afin pour ne pas en perdre la trace si elles deviennent trop nombreuses.
Évaluation des performances
Le bot a à la fois l'avantage et l'inconvénient d'utiliser la base de donnée SPARQL tel quel. Ce qui implique une faible quantité de données accessible pour chaque personne et des temps de réponses assez haut.
Malgré quelques précautions prise pour ôter les potentiels doublons dans les recherches, certaines personnes présentes une fois en 'Marcel Dupond' puis en 'M. Dupond' seront introduites deux fois dans les pages. Il y a aussi des personnes dont nous n'avons pas le prénom. Nous avons donc décidé de ne pas créer des pages pour ces personnes, ainsi que d'enlever tous les prénoms abrégés.
Aussi, la grande quantité de données produit des pages très longues car nous ne pouvons pas juger de la pertinence des Mention des différents individus dans les articles. Principalement parce que cette information n'est pas mesurée dans la BDD et également car nous ne pouvons pas l'extraire, n'ayant pas accès au texte de l'article cité.
Code
Le code source est disponible sur Github.