« LinkBot2 » : différence entre les versions
Ligne 69 : | Ligne 69 : | ||
C'est un ordre de grandeur assez élevé, en sachant que wikipast a plus d'un million de pages maintenant. | C'est un ordre de grandeur assez élevé, en sachant que wikipast a plus d'un million de pages maintenant. | ||
=====Idées d'améliorations===== | =====Idées d'améliorations===== | ||
* À cause de la limitation que cette partie du bot lit ces information du dump local du wiki on peut lancer ce bot seulement une seule fois puisque le bot ne se rend pas comptes des changement qu'il a effectué sur le vrai wiki | |||
===Division en sous-pages=== | ===Division en sous-pages=== |
Version du 25 mai 2021 à 20:18
Résumé des fonctionnalités
LinkBot2 a comme but d'augmenter le nombre de liens entre les datafications biographiques sur Wikipast. Ceci est un but important afin de pouvoir augmenter la visibilité de Wikipast sur les moteurs de recherche (SEO).
Le bot a deux fonctionnalités principales:
- Faire en sorte que sur chaque page de datafication biographique, chaque lien pointe sur une page qui, elle, pointe sur cette page en retour. Pour cela, le bot regarde dans un premier temps si la page pointée existe, et si ce n'est pas le cas, la créé. Puis il vérifie si la ligne qui comprend le lien est présente sur la page pointée. Si ce n'est pas le cas, il copie cette ligne et la colle dans la page pointée. Ce bout de texte comprend un lien qui pointe vers la page originale. Pour cette partie du bot, le code se base sur PageUpdaterBot et a été amélioré.
- Diviser les pages comprenant un grand nombre d'entrées en tranches temporelles (décennies), afin d'éviter d'avoir des pages qui soient trop longues, et ainsi améliorer l'expérience d'utilisation pour un humain qui utilise le wiki.
Description technique
Le bot consiste de deux modules exécuté consécutivement qui accomplissent deux fonctionnalités principales:
- Compléter les liens entre les pages en créant les entrés réciproques manquantes pour chaque entrée d'une biographie chronologique.
- Division des pages trop longues en sous-pages en le regroupant par décennie
Compléter les liens
Le bot utilise un dump de wikipast en local, il faut donc avoir une archive correspondante pour lancer cette partie du bot. Il effectue une recherche sur ces différentes pages en local pour observer quelles entrées doivent être mises à jour et les pages qui doivent être créées. Le bot les créé ensuite sur le site wikipast et ajoute l'entrée sur la nouvelle page. Si la page existe déjà, le bot ajoute seulement l'entrée, si elle n'est pas déjà présente sur la page.
Exemple de fonctionnement
Prenons l'entrée suivante :
- 2032 / Lune. Présentation du moonwalk sur la Lune par Michael Jackson.
Ici, la page "2032" n'existe pas encore, le bot va donc créer cette page et y ajouter l'entrée complète. Mais le bot va aussi modifier les pages : "Lune", "Présentation", "Michael Jackson", pour y ajouter l'entrée si elle n'y est pas déjà présente.
Division en sous-pages
Hypothèses
Le bot suppose que pour cette opération:
- Toutes les entrées des chronologique biographiques commencent avec un
*
et est suivi par une date et par un/
. - Toutes les entrées se trouvent dans la même section du wikitext.
- La date de chaque entrée d'une chronologie biographique
*
est dans le formatyyyy.mm.dd
,yyyy.mm
ou bienyyyy
. Les entrées qui ne suivent pas se format ne seront pas détectes et donc pas comptées. - Le flags
LINKBOT2_SUBPAGE_FLAG = "<!--Automatically generated LinkBot2 subpage-->"
etLINKBOT2_MOTHERPAGE_FLAG = "<!--Automatically generated LinkBot2 references to subpages-->"
ne sont utilisé par aucun autre bot et n'ont pas été modifié/supprimé par les autres bots et utilisateurs humains sur le wiki.
Condition sur la division
La division d'une page en sous-pages est effectué si:
- La page considéré n'est pas déjà une sous-page.
- Le titre de la page n'est pas une date. (Pour éviter de diviser les pages comme 1997 p.ex)
- La taille de la page dépasse un certain taux (par défaut 30kB).
- ET le nombre d'entrées dans chronologie biographiques (caractérisés par
*
suivi par une date entre des[ ]
) dépasse un certain nombre (par défaut 150 entrées).
Traitement des données
Notez d’abord que cette partie du bot ne travaille par sur l'archive dump mais retire directement toutes les informations dont il a besoin directement de la api du wiki.
- Les candidats pour la division en sous-pages sont obtenue en effectuant une query sur les pages avec un taille minimale spécifié (par défaut 30kB). Ceci est réalisé en utilisant le paramètre "apminsize".
- Les pages dont leur titre est une date sont jartés.
- En suite le nombre d'entrées biographie chronologique est déterminé et les seulement les pages avec un minimum d'entrées et qui ne sont pas des sous-pages (grâce à un "tag") sont considérées pour la suite.
- Les pages restantes seront divisées en sous-pages
- Les entrées de biographie chronologiques sont triées et regroupé par décennie.
- Les sous-pages contenant les entrées correspondantes sont crées et marqué avec le tag
<!--Automatically generated LinkBot2 subpage-->
. De plus un lien vers la "page mère" (la super page qui est divisé) est crée sur les sous-pages - Si jamais le tableau des sous-pages sur la "page mère" existe déjà il est supprimées. En écrasant tout le contenu entre les deux tags
<!--Automatically generated LinkBot2 references to subpages-->
- La "page mère" obtient un tableau pointant vers ses propres sous-pages. Le contenu original de la page n'est pas supprimé.
Exemple de fonctionnement
Un exemple de fonctionnement/le résultat de la division en sous-pages pour la page Naissance qui remplit les deux critères par défaut (mins que 30kB en taille et plus que 150 Entrées dans la biographie chronologique).
Discussion
Complétion des liens
Performance
Lors d'un test en lançant le bot seulement sur les dix premières pages du dump utilisé, le bot a effectué la complétion des liens en approximativement 5-6 sec. Ce n'est pas très optimisé, mais cela parait difficile à améliorer. En effet, disons qu'il y a "m" nombre d’hyper-mots dans chaque entrée et qu'il y a en tout "n" entrées :
- Alors le temps d’exécution du bot sera en O(m*n) pour chaque page, donc s'il y a "k" pages l’exécution totale du bot sera donc en O(k*m*n)
C'est un ordre de grandeur assez élevé, en sachant que wikipast a plus d'un million de pages maintenant.
Idées d'améliorations
- À cause de la limitation que cette partie du bot lit ces information du dump local du wiki on peut lancer ce bot seulement une seule fois puisque le bot ne se rend pas comptes des changement qu'il a effectué sur le vrai wiki
Division en sous-pages
Performance
La query qui cherche les pages plus grande que une certaine taille, prends seulement quelque secondes à exécuter pour une taille limite de 30kB et retourne environ 300 candidats (selon l'état de wikipast au 25.05.21). La triage de ces 300 candidats pour la division prends moins que une minute (selon l'état de wikipast au 25.05.21). Cette triage trouve ainsi environ 150 candidats pour la division. La créations des sous-pages pour ces 150 candidats prend 2h de temps.
Idées d'améliorations
- Comprendre différents formats de dates, et éventuellement modifier les dates des entrées pour les uniformiser/corriger. On pourrait aussi assurer que le LinkBot2 tourne seulement après le FormatBot sur le wiki
- Pour la page d'un mot qui a été découpée en décennies, séparer la page qui comprend les liens vers les sous-pages de la page qui comprend toutes les entrées. Par exemple, pour Naissance, séparer la page "Naissance" qui recenserait les liens (Naissance 1870-1879, Naissance 1880-1889, ...) de la page "Naissance (archive)" qui comprend toutes les entrées de datafications biographiques qui utilisent l’hyper mot Naissance.
- Diviser les pages en sous-pages d'une façon dynamique, selon la distribution des dates, en utilisant des divisions en siècles si jamais la division en décennies est trop "extrême".
- Diviser les pages en sous-pages selon d'autres critères. Par exemple le lieu.
- LinkBot2 ne supprime pas les sous-pages qui ont déjà été crée lorsque de la dernière exécution. Ceci fonctionne seulement puisqu'on suppose que a) la taille de pages augmentes seulement et b) le critère de division est fixe. Ce fait devrait être changé si jamais on veut avoir des manières division en sous-pages différentes car sinon on finirait avec plein de pages abandonnées qui ne sont plus référencées par la page mère avec la version actuelle du code.
- On pourrait modifier DisambiguationBot d'une façon qu'il regroupe les sous-page crées par LinkBot2 pour augmenter la lisibilité de la désambiguïsation.
- La partie de complétion de lien utilise un dump du site pour parcourir toutes les pages de manières plus rapide et en générant moins de traffic avec wikipast, néanmoins cela est plus compliqué à l'utilisation et nécessite un travail en amont pour obtenir le dump. L'utilisation du dump empêche aussi de lancer le bot deux fois de suite, car il ne sera pas au courant des modifications qu'il a fait si on utilise deux fois le meme dump. Il faudrait créer un dump a chaque mise à jour de wikipast ce qui n'est pas optimal. Il faudrait donc peut être envisager de modifier cette partie pour tenir le dump à jour, ou alors directement faire les queries sur wikipast et ne plus utiliser de dump.
Code
Le code est disponible sur l'instance GitLab de l'EPFL. [1]