« MasterBot » : différence entre les versions

De Wikipast
Aller à la navigation Aller à la recherche
(Wikipastbot update)
Aucun résumé des modifications
Ligne 32 : Ligne 32 :


# the function takes a table of strings as argument containing the names of the pages to translate  
# the function takes a table of strings as argument containing the names of the pages to translate  
def translate(names):
def translate(*names):
     user='testbot'
     user='testbot'
     passw='dhbot2017'
     passw='dhbot2017'

Version du 25 avril 2019 à 15:50

Langue Français English

Description

Le MasterBot se charge de gérer et d'orchestrer les bots de wikipast. D'une part, il permet de lancer les bots de manière individuelle, en entrant des paramètres depuis un tableau de bord. D'autre part, il permet personaliser des séquences de lancement de bots, en spécifiant les paramètres (i.e. la fréquence le lancement, l'ordre, etc) de chaque bot.

Lancer les bots individuellement

Dans un premier temps, l'idée est d'avoir le code de chaque bot sur une page (ou section d'une page) spécifique. Cela permet de lancer les bots à partir du code disponible sur la page de chacun (ou même depuis Github). Ensuite, il suffit d'avoir un script pour lancer chacun des bots (aves les paramètres nécessaires, par ex. la page à traduire pour le translatorBot). Il faudrait pouvoir faire tourner tout cela sur une page "tableau de bord" sur wikipast ou à l'aide d'une simple application web.

Les scripts

Chaque bot a son propre script qui se charge des tâches suivantes:

  1. Parser les paramètres de la ligne de commande
  2. Récupérer le code du bot (de wikipast ou de Github) (TODO)
  3. Lancer le bot avec les paramètres donnés

L'interface graphique

J'ai utilisé l'interface graphique Wooey [1] qui permet de lancer des scripts Pythons. J'ai testé le tout avec TranslatorBot sur les pages de Lausanne et de David Bowie.

Wooey home.png
Wooey done.png

Code

import requests
import re
from bs4 import BeautifulSoup
from googletrans import Translator

# the function takes a table of strings as argument containing the names of the pages to translate 
def translate(*names):
    user='testbot'
    passw='dhbot2017'
    baseurl='http://wikipast.epfl.ch/wikipast/'
    summary='Wikipastbot update'
    translator = Translator()

    # this parameter is the target language in which we want to translate
    target_lang = 'en'
    target_language = 'English'

    # login request
    payload={'action':'query','format':'json','utf8':'','meta':'tokens','type':'login'}
    r1=requests.post(baseurl + 'api.php', data=payload)

    # login confirm
    login_token=r1.json()['query']['tokens']['logintoken']
    payload={'action':'login','format':'json','utf8':'','lgname':user,'lgpassword':passw,'lgtoken':login_token}
    r2=requests.post(baseurl + 'api.php', data=payload, cookies=r1.cookies)

    # get edit token2
    params3='?format=json&action=query&meta=tokens&continue='
    r3=requests.get(baseurl + 'api.php' + params3, cookies=r2.cookies)
    edit_token=r3.json()['query']['tokens']['csrftoken']

    edit_cookie=r2.cookies.copy()
    edit_cookie.update(r3.cookies)

    # we fetch the text we want to translate
    for name in names:
        result=requests.post(baseurl+'api.php?action=query&titles='+name+'&export&exportnowrap')
        soup=BeautifulSoup(result.text, "lxml")
        code=''
        for primitive in soup.findAll("text"):
            code += primitive.string

        # create names with english prefix
        en_name = "(" + target_lang + ")_" + translator.translate(name, src='fr', dest=target_lang).text

        # add a table in the french page if it still not exists
        if(code != '' and code[0] != '{'and code[0] != '|') :
           code2 = '''{| class="wikitable"\n|Langue \n|''' + "'''Français'''\n|[[" + en_name + "|" + target_language + "]]\n|}\n" + code
           payload2={'action':'edit','assert':'user','format':'json','utf8':'','text':code2,'summary':summary,'title':name,'token':edit_token}
           r5=requests.post(baseurl+'api.php',data=payload2,cookies=edit_cookie)

        # save the links of sources that we won't translate
        sources = []
        i=0
        while i< len(code):
            if (code[i-1] != '[' and code[i] == '[' and code[i+1] != '[') :
                j = i+2
                while(code[j] != ']') :
                    j += 1
                sources.append(code[i:j+1])        
                code = code.replace(code[i:j+1], "&&&", 1)
                i = j+1
            else:
                i += 1

        # translate the whole text by chunk of approx. 5000 characters.
        length = len(code)
        chaine =''
        punto = '.'
        k = 0
        diminution = 1
        last = k+5000
        while last < length:        
            if code[last] == punto:
                chaine += translator.translate(code[k:last], src = 'fr', dest= target_lang).text
                k = last
            else:
                while code[k+5000-diminution] != punto:
                    diminution += 1
                chaine += translator.translate(code[k:k+5000-diminution],src = 'fr', dest= target_lang).text
                k = k+5000-diminution+1
                diminution = 1
            last += 5000        
        last -= 5000
        chaine += translator.translate(code[last:length],src='fr',dest= target_lang).text

        translated_text = chaine

        # make the hyperlinks point to the correct page while hiding the (en)
        for i in range(len(translated_text)):
            if (translated_text[i] == '[' and translated_text[i+1] == '[' and translated_text[i+2].isalpha()) :
                j = i
                while(translated_text[j] != ']') :
                    j += 1
                m = translated_text[i+2:j]
                linkM = "[[" + m + "]]"
                translated_text = translated_text.replace(linkM, "[[(" + target_lang + ")_" + m + '|' + m + "]]")

        # replace the translates sources by the original ones
        M_final_text = translated_text.split("&&&")
        final_text =""
        for i in range(len(sources)):
            final_text += M_final_text[i]
            final_text += sources[i]
        translated_text = final_text

        # avoid problems due to the comments of other bots
        translated_text = translated_text.replace('->', '-->').replace('<! -', '<!--').replace('</ ', '</')

        # add the table
        translated_text = '''{| class="wikitable"\n|Language \n|[[''' + name + "|Français]]\n|'''" + target_language + "'''\n|}\n" + translated_text

    # write on the page
    payload={'action':'edit','assert':'user','format':'json','utf8':'','text':translated_text,'summary':summary,'title':en_name,'token':edit_token}
    r4=requests.post(baseurl+'api.php',data=payload,cookies=edit_cookie)