« LinkBot2 » : différence entre les versions

De Wikipast
Aller à la navigation Aller à la recherche
Ligne 32 : Ligne 32 :
*Toutes les entrées des chronologique biographiques commencent avec un <code>*</code> et est suivi par une date et par un <code>/</code>.
*Toutes les entrées des chronologique biographiques commencent avec un <code>*</code> et est suivi par une date et par un <code>/</code>.
*Toutes les entrées se trouvent dans la même section du wikitext.
*Toutes les entrées se trouvent dans la même section du wikitext.
*La date de chaque entrée d'une chronologie biographique  <code>*</code> est dans le format <code>yyyy.mm.dd</code>, <code>yyyy.mm</code> ou bien <code>yyyy</code>. Si ceci n'est pas la cas
*La date de chaque entrée d'une chronologie biographique  <code>*</code> est dans le format <code>yyyy.mm.dd</code>, <code>yyyy.mm</code> ou bien <code>yyyy</code>. Les entrées qui ne suivent pas se format ne seront pas détectes et donc pas comptées.
*Le flags <code>LINKBOT2_SUBPAGE_FLAG = "<!--Automatically generated LinkBot2 subpage-->"</code> et <code>LINKBOT2_MOTHERPAGE_FLAG = "<!--Automatically generated LinkBot2 references to subpages-->"</code> ne sont utilisé par aucun autre bot et ne sont pas été modifié/supprimé par les autres bots et utilisateurs humains sur le wiki.


====Condition sur la division====
====Condition sur la division====

Version du 25 mai 2021 à 19:03

Logo: Font in use CooperHewitt-Semibold designed by Chester Jenkins and licensed under Open Font License. Icon Designed by Alfredo @ IconsAlfredo.com

Résumé des fonctionnalités

LinkBot2 a comme but d'augmenter le nombre de liens entre les datafications biographiques sur Wikipast. Ceci est un but important afin de pouvoir augmenter la visibilité de Wikipast sur les moteurs de recherche (SEO).

Le bot a deux fonctionnalités principales:

  • Faire en sorte que sur chaque page de datafication biographique, chaque lien pointe sur une page qui, elle, pointe sur cette page en retour. Pour cela, le bot regarde dans un premier temps si la page pointée existe, et si ce n'est pas le cas, la créé. Puis il vérifie si la ligne qui comprend le lien est présente sur la page pointée. Si ce n'est pas le cas, il copie cette ligne et la colle dans la page pointée. Ce bout de texte comprend un lien qui pointe vers la page originale. Pour cette partie du bot, le code se base sur PageUpdaterBot et a été amélioré.
  • Diviser les pages comprenant un grand nombre d'entrées en tranches temporelles (décennies), afin d'éviter d'avoir des pages qui soient trop longues, et ainsi améliorer l'expérience d'utilisation pour un humain qui utilise le wiki.

Description technique

Le bot consiste de deux modules exécuté consécutivement qui accomplissent deux fonctionnalités principales:

  1. Compléter les liens entre les pages en créant les entrés réciproques manquantes pour chaque entrée d'une biographie chronologique.
  2. Division des pages trop longues en sous-pages en le regroupant par décennie

Compléter les liens

Le bot utilise un dump de wikipast en local, il faut donc avoir une archive correspondante pour lancer cette partie du bot. Il effectue une recherche sur ces différentes pages en local pour observer quelles entrées doivent être mises à jour et les pages qui doivent être créées. Le bot les créé ensuite sur le site wikipast et ajoute l'entrée sur la nouvelle page. Si la page existe déjà, le bot ajoute seulement l'entrée, si elle n'est pas déjà présente sur la page.

Exemple de fonctionnement

Prenons l'entrée suivante :

Ici, la page "2032" n'existe pas encore, le bot va donc créer cette page et y ajouter l'entrée complète. Mais le bot va aussi modifier les pages : "Lune", "Présentation", "Michael Jackson", pour y ajouter l'entrée si elle n'y est pas déjà présente.

Division en sous-pages

Hypothèses

Le bot suppose que pour cette opération:

  • Toutes les entrées des chronologique biographiques commencent avec un * et est suivi par une date et par un /.
  • Toutes les entrées se trouvent dans la même section du wikitext.
  • La date de chaque entrée d'une chronologie biographique * est dans le format yyyy.mm.dd, yyyy.mm ou bien yyyy. Les entrées qui ne suivent pas se format ne seront pas détectes et donc pas comptées.
  • Le flags LINKBOT2_SUBPAGE_FLAG = "" et LINKBOT2_MOTHERPAGE_FLAG = "" ne sont utilisé par aucun autre bot et ne sont pas été modifié/supprimé par les autres bots et utilisateurs humains sur le wiki.

Condition sur la division

La division d'une page en sous-pages est effectué si:

  • La page considéré n'est pas déjà sous-page
  • Le titre de la page n'est pas une date.
  • La taille de la page dépasse un certain taux (par défaut 30kB).
  • ET le nombre d'entrées dans chronologie biographiques (caractérisés par * suivi par une date entre des [ ]) dépasse un certain nombre (par défaut 150 entrées).

Exemple de fonctionnement

Un exemple de fonctionnement/le résultat de la division en sous-pages pour la page "Naissance" qui remplit les deux critères par défaut (mins que 30kB en taille et plus que 150 Entrées dans la biographie chronologique).

La page "Naissance" après avoir été divisé
Une des sous-pages de "Naissance"

Discussion des performances

Améliorations possibles

Complétion des liens

Lors d'un test en lançant le bot seulement sur les dix premières pages du dump utilisé, le bot a effectué la complétion des liens en approximativement 5-6 sec. Ce n'est pas très optimisé, mais cela parait difficile à améliorer. En effet, disons qu'il y a "m" nombre d'hypermots dans chaque entrée et qu'il y a en tout "n" entrées :

  • Alors le temps d'execution du bot sera en O(m*n) pour chaque page, donc s'il y a "k" pages l'execution totale du bot sera donc en O(k*m*n)

C'est un ordre de grandeur assez élevé, en sachant que wikipast a plus d'un million de pages maintenant.

Division en sous-pages

  • Comprendre différents formats de dates, et éventuellement modifier les dates des entrées pour les uniformiser
  • Pour la page d'un mot qui a été découpée en décennies, séparer la page qui comprend les liens vers les sous-pages de la page qui comprend toutes les entrées. Par exemple, pour Naissance, séparer la page "Naissance" qui recenserait les liens (Naissance 1870-1879, Naissance 1880-1889, ...) de la page "Naissance (archive)" qui comprend toutes les entrées de datafications biographiques qui utilisent l'hypermot Naissance.

Code

Le code est disponible sur l'instance GitLab de l'EPFL. [1]