« DisambiguationBot » : différence entre les versions

De Wikipast
Aller à la navigation Aller à la recherche
Aucun résumé des modifications
Aucun résumé des modifications
Ligne 15 : Ligne 15 :


<small>  
<small>  
Ex. ‘<span style="color:red "> (en) </span> Alfonso Rodríguez <span style="color:red "> G. </span>  from Ceballos’ -> ‘alfonso rodríguez from ceballos’  <br>
::Ex. ‘<span style="color:red "> (en) </span> Alfonso Rodríguez <span style="color:red "> G. </span>  from Ceballos’ -> ‘alfonso rodríguez from ceballos’  <br>
Ex. ‘<span style="color:red "> 24 </span> Préludes<span style="color:red ">.</span> Violoncelle<span style="color:red ">,</span>  piano<span style="color:red ">.</span>  Op<span style="color:red ">. 47 (Auerbach) </span>’ -> ‘préludes violoncelle piano op’  
::Ex. ‘<span style="color:red "> 24 </span> Préludes<span style="color:red ">.</span> Violoncelle<span style="color:red ">,</span>  piano<span style="color:red ">.</span>  Op<span style="color:red ">. 47 (Auerbach) </span>’ -> ‘préludes violoncelle piano op’  
</small>
 
Pour trouver les homonymies seulement le premier et dernier mot des titres sont comparés (en supposant que les titres sont des noms et le premier mot est le prénom et le dernier mot est le nom de famille). Aussi les titres qui se composent simplement d’un mot sont comparés. Car il existe beaucoup des pages de l’annuaire avec juste le nom de famille.
 
<small>
::Ex. ‘Alfred Martin’ -> ‘<span style="background:lime"> alfred martin </span>’ <br>
:::‘Alfred Henri Martin’  -> ‘<span style="background:lime"> alfred </span> henri <span style="background:lime"> martin </span>’ <br>
:::‘Alfred Martin <span style="color:red ">(19f0bfa)</span>’ -> ‘<span style="background:lime"> alfred martin </span>’ <br>
</small>
</small>



Version du 20 mai 2021 à 08:23

Le DisambiguationBot génére des pages homonymie des personnes sur Wikipast.

Résumé des fonctionnalités

Le bot a pour but de chercher des désambiguations dans les titres des toutes les pages. Mais seulement les pages qui sont identifiées comme une page d’une personne sont finalement pris en considération. Ensuite, il crée pour chaque désambiguations un page d’homonymie.

Description technique

Recherche des homonymies

Après tous titres des pages Wikipast sont récupérer, ils sont traité de sorte que :

  • Ils sont écrits en lettre minuscule
  • Ils ne contiennent pas des mots dans des parenthèse
  • Ils ne contiennent que des lettres, ils ne contiennent ni des nombres ni des symboles
  • Ils ne contiennent que des mots qui sont plus longue que 1 lettres

Ex. ‘ (en) Alfonso Rodríguez G. from Ceballos’ -> ‘alfonso rodríguez from ceballos’
Ex. ‘ 24 Préludes. Violoncelle, piano. Op. 47 (Auerbach) ’ -> ‘préludes violoncelle piano op’

Pour trouver les homonymies seulement le premier et dernier mot des titres sont comparés (en supposant que les titres sont des noms et le premier mot est le prénom et le dernier mot est le nom de famille). Aussi les titres qui se composent simplement d’un mot sont comparés. Car il existe beaucoup des pages de l’annuaire avec juste le nom de famille.

Ex. ‘Alfred Martin’ -> ‘ alfred martin
‘Alfred Henri Martin’ -> ‘ alfred henri martin
‘Alfred Martin (19f0bfa)’ -> ‘ alfred martin

Identification des pages des personnes

Création des pages homonymie