« Triplificator » : différence entre les versions
Aucun résumé des modifications |
|||
Ligne 22 : | Ligne 22 : | ||
* Librairie de prédicats | * Librairie de prédicats | ||
:: Un des problèmes majeurs lié à la conversion en format RDF est la retransmission des prédicats. En effet, la liste des mots que nous avons référencés étant créée en interne, nous possédons un nombre limité de ces mots. Ceci donne lieu à un fichier RDF qui ne contient pas la totalité des entrées de chaque datafication biographique car le bot n'y reconnaît simplement pas tous les prédicats. Il est également important de noter que notre liste a été créée à partir d'une seule source de référence ([http://purl.org/vocab/ Vocab.org]). Une amélioration possible de notre bot serait donc d'utiliser soit plusieurs sources, soit une plus grande librairie de | :: Un des problèmes majeurs lié à la conversion en format RDF est la retransmission des prédicats. En effet, la liste des mots que nous avons référencés étant créée en interne, nous possédons un nombre limité de ces mots. Ceci donne lieu à un fichier RDF qui ne contient pas la totalité des entrées de chaque datafication biographique car le bot n'y reconnaît simplement pas tous les prédicats. Il est également important de noter que notre liste a été créée à partir d'une seule source de référence ([http://purl.org/vocab/ Vocab.org]). Une amélioration possible de notre bot serait donc d'utiliser soit plusieurs sources, soit une plus grande librairie de références, ou encore de faire en sorte que le bot puisse accéder directement à la(aux) source(s) et qu'il construise en amont un dictionnaire de prédicats référencés par lui-même. | ||
* Syntaxe Wikipast | * Syntaxe Wikipast | ||
== Code == | == Code == | ||
== Exemples de résultats == | == Exemples de résultats == |
Version du 2 mai 2018 à 16:29
Génère une version RDF du contenu d'une page Wikipast.
Description
Le Triplificator est un bot qui va se charger de convertir l'information contenue dans les datafications biographiques du Wikipast dans le format RDF (Resource Description Framework). Celui-ci est lisible par la majorité des programmes d'ordinateur et cette conversion a donc pour but de pousser la datafication biographique plus loin en la rendant bien plus accessible. Le format RDF est composé de triplets. En effet, l'information est compactée en une série de 3 mots: le Sujet, le Prédicat et l'Objet, qui a pour but de transmettre l'information brute et utile. Enfin, le Triplificator va mettre le contenu RDF sur une nouvelle page texte à laquelle on peut accéder depuis un lien mis à la fin de la biographie sur la page Wikipast.
Fonctionnalités
- Lecture de la page Wiki
- L'information est extraite de la page Wikipast (Web scraping) afin de récupérer les hypermots tels que la date, le lieu et les différentes actions dans chaque ligne de la datafication, que le bot va ensuite classer afin d'y accéder facilement et de les utiliser pour créer les triplés RDF.
- Interprétation du contenu et mise en forme sous format RDF (en utilisant la syntaxe XML??)
- Pour interpréter l'information reçue et la convertir en triplés RDF, nous avons créé une librairie d'évènements tels que "Naissance" ou "Mort" qui sont référencés par rapport au moteur de définitions Vocab.org. A partir de cette librairie, le Triplificator va associer une action venant de la datafication biographique avec son équivalent dans la librairie référencée et va ensuite nous donner un triplé sur l'action en question, qui est donc le prédicat du triplé, le sujet étant toujours le nom du personnage de la biographie et l'objet pouvant varier selon la cible du prédicat. Il est important de noter que l'on suppose que la syntaxe des biographies ait été respectée afin d'assurer le bon fonctionnement du Triplificator.
- Mise en ligne de la nouvelle page
Problèmes rencontrés & éventuelles améliorations
- Librairie de prédicats
- Un des problèmes majeurs lié à la conversion en format RDF est la retransmission des prédicats. En effet, la liste des mots que nous avons référencés étant créée en interne, nous possédons un nombre limité de ces mots. Ceci donne lieu à un fichier RDF qui ne contient pas la totalité des entrées de chaque datafication biographique car le bot n'y reconnaît simplement pas tous les prédicats. Il est également important de noter que notre liste a été créée à partir d'une seule source de référence (Vocab.org). Une amélioration possible de notre bot serait donc d'utiliser soit plusieurs sources, soit une plus grande librairie de références, ou encore de faire en sorte que le bot puisse accéder directement à la(aux) source(s) et qu'il construise en amont un dictionnaire de prédicats référencés par lui-même.
- Syntaxe Wikipast