« DisambiguationBot » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
Ligne 15 : | Ligne 15 : | ||
<small> | <small> | ||
Ex. | ::Ex. ‘<span style="color:red "> (en) </span> Alfonso Rodríguez <span style="color:red "> G. </span> from Ceballos’ -> ‘alfonso rodríguez from ceballos’ <br> | ||
Ex. | ::Ex. ‘<span style="color:red "> 24 </span> Préludes<span style="color:red ">.</span> Violoncelle<span style="color:red ">,</span> piano<span style="color:red ">.</span> Op<span style="color:red ">. 47 (Auerbach) </span>’ -> ‘préludes violoncelle piano op’ | ||
</small> | |||
Pour trouver les homonymies seulement le premier et dernier mot des titres sont comparés (en supposant que les titres sont des noms et le premier mot est le prénom et le dernier mot est le nom de famille). Aussi les titres qui se composent simplement d’un mot sont comparés. Car il existe beaucoup des pages de l’annuaire avec juste le nom de famille. | |||
<small> | |||
::Ex. ‘Alfred Martin’ -> ‘<span style="background:lime"> alfred martin </span>’ <br> | |||
:::‘Alfred Henri Martin’ -> ‘<span style="background:lime"> alfred </span> henri <span style="background:lime"> martin </span>’ <br> | |||
:::‘Alfred Martin <span style="color:red ">(19f0bfa)</span>’ -> ‘<span style="background:lime"> alfred martin </span>’ <br> | |||
</small> | </small> | ||
Version du 20 mai 2021 à 08:23
Le DisambiguationBot génére des pages homonymie des personnes sur Wikipast.
Résumé des fonctionnalités
Le bot a pour but de chercher des désambiguations dans les titres des toutes les pages. Mais seulement les pages qui sont identifiées comme une page d’une personne sont finalement pris en considération. Ensuite, il crée pour chaque désambiguations un page d’homonymie.
Description technique
Recherche des homonymies
Après tous titres des pages Wikipast sont récupérer, ils sont traité de sorte que :
- Ils sont écrits en lettre minuscule
- Ils ne contiennent pas des mots dans des parenthèse
- Ils ne contiennent que des lettres, ils ne contiennent ni des nombres ni des symboles
- Ils ne contiennent que des mots qui sont plus longue que 1 lettres
- Ex. ‘ (en) Alfonso Rodríguez G. from Ceballos’ -> ‘alfonso rodríguez from ceballos’
- Ex. ‘ 24 Préludes. Violoncelle, piano. Op. 47 (Auerbach) ’ -> ‘préludes violoncelle piano op’
- Ex. ‘ (en) Alfonso Rodríguez G. from Ceballos’ -> ‘alfonso rodríguez from ceballos’
Pour trouver les homonymies seulement le premier et dernier mot des titres sont comparés (en supposant que les titres sont des noms et le premier mot est le prénom et le dernier mot est le nom de famille). Aussi les titres qui se composent simplement d’un mot sont comparés. Car il existe beaucoup des pages de l’annuaire avec juste le nom de famille.
- Ex. ‘Alfred Martin’ -> ‘ alfred martin ’
- ‘Alfred Henri Martin’ -> ‘ alfred henri martin ’
- ‘Alfred Martin (19f0bfa)’ -> ‘ alfred martin ’
- ‘Alfred Henri Martin’ -> ‘ alfred henri martin ’
- Ex. ‘Alfred Martin’ -> ‘ alfred martin ’