« Chronobot » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
Ligne 55 : | Ligne 55 : | ||
=Code source= | =Code source= | ||
==create_site.py== | ==create_site.py== | ||
<nowiki> | <nowiki> | ||
''' | ''' | ||
cette fonction prend en input une année, et crée un site en blanc | cette fonction prend en input une année, et crée un site en blanc | ||
Ligne 104 : | Ligne 104 : | ||
</nowiki> | </nowiki> | ||
== recherchedates2.py == | |||
import requests | |||
from bs4 import BeautifulSoup | |||
from retrieve_content import retrieve_content | |||
def recherchedates2(page_name): | |||
x=str(retrieve_content(page_name)) | |||
x=x.split("\n") | |||
dates=[] | |||
for i in x: | |||
d_start=i.find("[[") | |||
if (d_start!=-1) and i[d_start+2:d_start+6].isnumeric(): | |||
d_start=d_start+2 | |||
d_end=i[d_start:].find("]]")+d_start | |||
date=i[d_start:d_end] | |||
d_start=d_start-2 | |||
even='*'+i[d_start:] | |||
dates.append([date,even]) | |||
return(dates) | |||
</nowiki> | |||
==modify_links.py== | |||
<nowiki> | |||
''' | |||
cette fonction prend en input le nom d'une page. | |||
Pour toutes les dates de type [[AAAA/MM/JJ]], elle crée le | |||
lien de redirection vers la page de l'année. | |||
Pour les dates de type [[AAAA]] elle ne fait | |||
rien puisqu'elles sont déjà un lien vers l'année | |||
''' | |||
import requests | |||
from bs4 import BeautifulSoup | |||
from retrieve_content import retrieve_content | |||
months=["Janvier","F.C3.A9vrier","Mars","Avril","Mai","Juin","Juillet","Ao.C3.BBt","Septembre","Octobre","Novembre","D.C3.A9cembre"] | |||
def modify_links(page_name): | |||
############### | |||
############### | |||
#retrieve dates | |||
text=retrieve_content(page_name) | |||
text=text.split("\n") | |||
dates=[] | |||
for line in text: | |||
d_start=line.find("[[") | |||
if (d_start!=-1) and line[d_start+2:d_start+6].isnumeric(): | |||
d_start=d_start+2 | |||
d_end=line[d_start:].find("]]")+d_start | |||
date=line[d_start:d_end] | |||
if len(date)!=4: | |||
dates.append(date) | |||
############### | |||
############### | |||
#create pages with redirection code | |||
user = "ChronoBOT" | |||
passw = "sajas2017" | |||
baseurl='http://wikipast.epfl.ch/wikipast/' | |||
summary='ChronoBOT page creation' | |||
# Login request | |||
payload={'action':'query','format':'json','utf8':'','meta':'tokens','type':'login'} | |||
r1=requests.post(baseurl + 'api.php', data=payload) | |||
#login confirm | |||
login_token=r1.json()['query']['tokens']['logintoken'] | |||
payload={'action':'login','format':'json','utf8':'','lgname':user,'lgpassword':passw,'lgtoken':login_token} | |||
r2=requests.post(baseurl + 'api.php', data=payload, cookies=r1.cookies) | |||
#get edit token2 | |||
params3='?format=json&action=query&meta=tokens&continue=' | |||
r3=requests.get(baseurl + 'api.php' + params3, cookies=r2.cookies) | |||
edit_token=r3.json()['query']['tokens']['csrftoken'] | |||
edit_cookie=r2.cookies.copy() | |||
edit_cookie.update(r3.cookies) | |||
for date in dates: | |||
year=date[:4] | |||
if(int(date[5:7])<13): | |||
month=months[int(date[5:7])-1] | |||
content="#REDIRECT [["+year+"#"+month+"]]" | |||
else: | |||
content="#REDIRECT [["+year+"]]" | |||
# save action | |||
payload={'action':'edit','assert':'user','format':'json','utf8':'','text':content,'summary':summary,'title':date,'token':edit_token} | |||
r4=requests.post(baseurl+'api.php',data=payload,cookies=edit_cookie) | |||
</nowiki> | |||
=Critiques et faiblesses du bot= | =Critiques et faiblesses du bot= |
Version du 20 mai 2017 à 09:45
Chronobot est un bot programmé en langage Python et qui agit sur des pages Wikipast. Il permet de regrouper tous les événements qui se sont passés en une année dans une même page
Fonctionnement
Chronobot va d'abord effectuer un scan sur l'ensemble des pages biographiques crées par les élèves du cours "Humanités Digitales" (2017). Il effectue ensuite un scan sur tous les événements relevés dans la page et en stocke la date (sous forme AAAA.MM.JJ) et la description dans une liste. Une fois cette liste en main, il crée une page pour chaque jour différent. Pour des raisons pratiques, il est plus logique de n'avoir qu'une seule page par année avec tous les événements relevés durant cette année classé chronologiquement. Pour ce faire, au lieu d'agir directement sur l'url de la page, Chronobot redirige chaque lien d'un jour vers l'url de l'année correspondante. Enfin, il y écrit l'événement dans l'ordre chronologique.La gestion des doublons est résolue ultérieurement.
Généralités
- Concepteurs : Arnau Albà Jacas, Sonia Bouchiba, Jonathan Charrière, Sébastien Morel, Aurélien Verdier.
- UserName : ChronoBOT
Liste des fonctions
Fonctions principales
- select_page.py parcourt les différentes pages sur une séléection précise de Users (ceux du cours SHS) et en retourne les pages crées sous formes de chaînes brutes (String). Les images (.png) sont ôtées ainsi que
- recherchedates.py prend en argument une page donnée (string) et en sort une liste année/événement
- modify_links.py modifie toutes les pages des dates pour qu'elles soient redirigées vers la page de l'année.
- create_new_site.py crée une page Wikipast avec le contenu donné
- place_evenement.py reçoit les pages dans lesquelles elle doit écrire ainsi que les événements sous forme de chaîne. Elle a deux rôles majeures. D'une part, elle écrit (tout en s'adpatant aux différents formats de date) la date et l'événement dans la page. Simultanément, elle trie les événements dans l'ordre chronologique.
- event_not_in_page.py gère les doublons en comparant deux strings-évenements caractère par caractère. Il considère ainsi deux évenements identiques s'ils contiennent les mêmes suites de caractères. Il ne tient pas compte des virgules (,), points (.) et espaces ( ) s'ils sont différents dans les deux strings.
Fonctions secondaires
- retrieve_content.py prend en input le nom d'une page et retourne tout le texte contenu en syntaxe wiki.
- split_date.py est utilisée par place_evenement.py.
Algorithme
L'algo général se trouve dans la fonction main.py. Il utilise la fonction main_one_page.py aui contient l'agorithme général.
from create_new_site import create_new_site from create_site import create_site from modify_links import modify_links from place_evenement import place_evenement from event_not_in_page import event_not_in_page from recherchedates2 import recherchedates2 #ajouter ici les autres fonctions dont on aura besoin def main_one_page(page): page=page.replace(" ","_") #modifie les dates pour rediger vers une année modify_links(page) #renvoie un array de deux colonnes: une colonne de dates et une colonne d'evenements elements=recherchedates2(page) for element in elements: evenement = element[1] date = element[0] annee = date[:4] #cree le site si il existe pas encore create_site(annee) if event_not_in_page(annee,evenement): content=place_evenement(date,evenement) create_new_site(annee,content)
Code source
create_site.py
''' cette fonction prend en input une année, et crée un site en blanc pour cette année Si le site existe déjà, il ne fait rien ''' import requests def create_site(year): #check if year is a four digit number year=str(year) if(len(year)!=4)or not(year.isnumeric()): return user = "ChronoBOT" passw = "sajas2017" baseurl='http://wikipast.epfl.ch/wikipast/' summary='ChronoBOT page creation' #check if page already exists if(requests.get('http://wikipast.epfl.ch/wikipast/index.php/'+year)).status_code!=404: return # Login request payload={'action':'query','format':'json','utf8':'','meta':'tokens','type':'login'} r1=requests.post(baseurl + 'api.php', data=payload) #login confirm login_token=r1.json()['query']['tokens']['logintoken'] payload={'action':'login','format':'json','utf8':'','lgname':user,'lgpassword':passw,'lgtoken':login_token} r2=requests.post(baseurl + 'api.php', data=payload, cookies=r1.cookies) #get edit token2 params3='?format=json&action=query&meta=tokens&continue=' r3=requests.get(baseurl + 'api.php' + params3, cookies=r2.cookies) edit_token=r3.json()['query']['tokens']['csrftoken'] edit_cookie=r2.cookies.copy() edit_cookie.update(r3.cookies) content="" # save action payload={'action':'edit','assert':'user','format':'json','utf8':'','text':content,'summary':summary,'title':year,'token':edit_token} r4=requests.post(baseurl+'api.php',data=payload,cookies=edit_cookie)
recherchedates2.py
import requests from bs4 import BeautifulSoup from retrieve_content import retrieve_content
def recherchedates2(page_name):
x=str(retrieve_content(page_name))
x=x.split("\n") dates=[] for i in x: d_start=i.find("[[") if (d_start!=-1) and i[d_start+2:d_start+6].isnumeric(): d_start=d_start+2 d_end=i[d_start:].find("]]")+d_start date=i[d_start:d_end] d_start=d_start-2 even='*'+i[d_start:] dates.append([date,even]) return(dates)
</nowiki>
modify_links.py
''' cette fonction prend en input le nom d'une page. Pour toutes les dates de type [[AAAA/MM/JJ]], elle crée le lien de redirection vers la page de l'année. Pour les dates de type [[AAAA]] elle ne fait rien puisqu'elles sont déjà un lien vers l'année ''' import requests from bs4 import BeautifulSoup from retrieve_content import retrieve_content months=["Janvier","F.C3.A9vrier","Mars","Avril","Mai","Juin","Juillet","Ao.C3.BBt","Septembre","Octobre","Novembre","D.C3.A9cembre"] def modify_links(page_name): ############### ############### #retrieve dates text=retrieve_content(page_name) text=text.split("\n") dates=[] for line in text: d_start=line.find("[[") if (d_start!=-1) and line[d_start+2:d_start+6].isnumeric(): d_start=d_start+2 d_end=line[d_start:].find("]]")+d_start date=line[d_start:d_end] if len(date)!=4: dates.append(date) ############### ############### #create pages with redirection code user = "ChronoBOT" passw = "sajas2017" baseurl='http://wikipast.epfl.ch/wikipast/' summary='ChronoBOT page creation' # Login request payload={'action':'query','format':'json','utf8':'','meta':'tokens','type':'login'} r1=requests.post(baseurl + 'api.php', data=payload) #login confirm login_token=r1.json()['query']['tokens']['logintoken'] payload={'action':'login','format':'json','utf8':'','lgname':user,'lgpassword':passw,'lgtoken':login_token} r2=requests.post(baseurl + 'api.php', data=payload, cookies=r1.cookies) #get edit token2 params3='?format=json&action=query&meta=tokens&continue=' r3=requests.get(baseurl + 'api.php' + params3, cookies=r2.cookies) edit_token=r3.json()['query']['tokens']['csrftoken'] edit_cookie=r2.cookies.copy() edit_cookie.update(r3.cookies) for date in dates: year=date[:4] if(int(date[5:7])<13): month=months[int(date[5:7])-1] content="#REDIRECT [["+year+"#"+month+"]]" else: content="#REDIRECT [["+year+"]]" # save action payload={'action':'edit','assert':'user','format':'json','utf8':'','text':content,'summary':summary,'title':date,'token':edit_token} r4=requests.post(baseurl+'api.php',data=payload,cookies=edit_cookie)
Critiques et faiblesses du bot
- Optimisation du code (plusieurs minutes pour s'exéctuer sur toutes les pages.)
- Dates mal-écrites (par exemple inversion mois-jour pas prise en compte)
- Si une année a déjà été crée avant notre bot et une phrase a été ajoutée, par exemeple "Grande année" redigirigée vers "1995" comportait une phrase commançant par "Grande année". Pour résoudre ce problème, deux solutions sont enbisageables : la première, assez radicale, est d'effacer la ligne en question dans la page Wikpast. La seconde (celle choisie, plus douce) est
- Gestion des doublons : pourrait être amélioré dans la comparaison de deux événements similaires. Actuellement, seules deux événements écrits exactement pareils ne sont pas dédoublés (par la fonction event_not_in_page.py), mais on pourrait imaginer qu'un événement du type Mariage qui serait écrit comme "A se marie avec B" dans la page de A et "B ser marie avec B" dans la page de B, et qui serait donc relevé deux fois.