MasterBot
| Langue | Français | English |
Description
Le MasterBot se charge de gérer et d'orchestrer les bots de wikipast. D'une part, il permet de lancer les bots de manière individuelle, en entrant des paramètres depuis un tableau de bord. D'autre part, il permet personaliser des séquences de lancement de bots, en spécifiant les paramètres (i.e. la fréquence le lancement, l'ordre, etc) de chaque bot.
Lancer les bots individuellement
Dans un premier temps, l'idée est d'avoir le code de chaque bot sur une page (ou section d'une page) spécifique. Cela permet de lancer les bots à partir du code disponible sur la page de chacun (ou même depuis Github). Ensuite, il suffit d'avoir un script pour lancer chacun des bots (aves les paramètres nécessaires, par ex. la page à traduire pour le translatorBot). Il faudrait pouvoir faire tourner tout cela sur une page "tableau de bord" sur wikipast ou à l'aide d'une simple application web.
Les scripts
Chaque bot a son propre script qui se charge des tâches suivantes:
- Parser les paramètres de la ligne de commande
- Récupérer le code du bot (de wikipast ou de Github) (TODO)
- Lancer le bot avec les paramètres donnés
L'interface graphique
J'ai utilisé l'interface graphique Wooey [1] qui permet de lancer des scripts Pythons. J'ai testé le tout avec TranslatorBot sur les pages de Lausanne et de David Bowie.
Code
import requests
import re
from bs4 import BeautifulSoup
from googletrans import Translator
# the function takes a table of strings as argument containing the names of the pages to translate
def translate(names):
user='testbot'
passw='dhbot2017'
baseurl='http://wikipast.epfl.ch/wikipast/'
summary='Wikipastbot update'
translator = Translator()
# this parameter is the target language in which we want to translate
target_lang = 'en'
target_language = 'English'
# login request
payload={'action':'query','format':'json','utf8':'','meta':'tokens','type':'login'}
r1=requests.post(baseurl + 'api.php', data=payload)
# login confirm
login_token=r1.json()['query']['tokens']['logintoken']
payload={'action':'login','format':'json','utf8':'','lgname':user,'lgpassword':passw,'lgtoken':login_token}
r2=requests.post(baseurl + 'api.php', data=payload, cookies=r1.cookies)
# get edit token2
params3='?format=json&action=query&meta=tokens&continue='
r3=requests.get(baseurl + 'api.php' + params3, cookies=r2.cookies)
edit_token=r3.json()['query']['tokens']['csrftoken']
edit_cookie=r2.cookies.copy()
edit_cookie.update(r3.cookies)
# we fetch the text we want to translate
for name in names:
result=requests.post(baseurl+'api.php?action=query&titles='+name+'&export&exportnowrap')
soup=BeautifulSoup(result.text, "lxml")
code=''
for primitive in soup.findAll("text"):
code += primitive.string
# create names with english prefix
en_name = "(" + target_lang + ")_" + translator.translate(name, src='fr', dest=target_lang).text
# add a table in the french page if it still not exists
if(code != '' and code[0] != '{'and code[0] != '|') :
code2 = '''{| class="wikitable"\n|Langue \n|''' + "'''Français'''\n|[[" + en_name + "|" + target_language + "]]\n|}\n" + code
payload2={'action':'edit','assert':'user','format':'json','utf8':'','text':code2,'summary':summary,'title':name,'token':edit_token}
r5=requests.post(baseurl+'api.php',data=payload2,cookies=edit_cookie)
# save the links of sources that we won't translate
sources = []
i=0
while i< len(code):
if (code[i-1] != '[' and code[i] == '[' and code[i+1] != '[') :
j = i+2
while(code[j] != ']') :
j += 1
sources.append(code[i:j+1])
code = code.replace(code[i:j+1], "&&&", 1)
i = j+1
else:
i += 1
# translate the whole text by chunk of approx. 5000 characters.
length = len(code)
chaine =''
punto = '.'
k = 0
diminution = 1
last = k+5000
while last < length:
if code[last] == punto:
chaine += translator.translate(code[k:last], src = 'fr', dest= target_lang).text
k = last
else:
while code[k+5000-diminution] != punto:
diminution += 1
chaine += translator.translate(code[k:k+5000-diminution],src = 'fr', dest= target_lang).text
k = k+5000-diminution+1
diminution = 1
last += 5000
last -= 5000
chaine += translator.translate(code[last:length],src='fr',dest= target_lang).text
translated_text = chaine
# make the hyperlinks point to the correct page while hiding the (en)
for i in range(len(translated_text)):
if (translated_text[i] == '[' and translated_text[i+1] == '[' and translated_text[i+2].isalpha()) :
j = i
while(translated_text[j] != ']') :
j += 1
m = translated_text[i+2:j]
linkM = "[[" + m + "]]"
translated_text = translated_text.replace(linkM, "[[(" + target_lang + ")_" + m + '|' + m + "]]")
# replace the translates sources by the original ones
M_final_text = translated_text.split("&&&")
final_text =""
for i in range(len(sources)):
final_text += M_final_text[i]
final_text += sources[i]
translated_text = final_text
# avoid problems due to the comments of other bots
translated_text = translated_text.replace('->', '-->').replace('<! -', '<!--').replace('</ ', '</')
# add the table
translated_text = '''{| class="wikitable"\n|Language \n|[[''' + name + "|Français]]\n|'''" + target_language + "'''\n|}\n" + translated_text
# write on the page
payload={'action':'edit','assert':'user','format':'json','utf8':'','text':translated_text,'summary':summary,'title':en_name,'token':edit_token}
r4=requests.post(baseurl+'api.php',data=payload,cookies=edit_cookie)