SimilarBot

De Wikipast
Aller à la navigation Aller à la recherche

Bot qui a pour but de suggérer des personnages similaires.

Idées de critères

  • profession(s)
  • lieux
  • période
  • évènements en commun (p.ex publication commune)
  • personnage cité

Calcul d'un score dans différentes catégories et corrélation

par exemple :

  • 40% des entrées font référence au tennis
  • 70% des entrées font référence à Genève
  • les entrées s'étalent entre 1910 et 1990
  • liens familiaux
  • présence au même évènement un même jour
  • publication commune

Suggestion en bas de la page de personnalités liées.

Code

lien vers le code : [1]

Description des principales fonctions

getacquaintance

Cette fonction est la plus basique pour déterminer un lien de similitude entre deux personnages du wikipast, elle se contente de vérifer si un autre des personnages est cité dans la biographie. Pour être utilise à notre SimilarBot qui a pour but de suggérer une page en lien il faut que la personne citée dans la biographie ai une page wikipast à son nom. Pour ce faire le bot parcourt une page biographique et vérifie si une autre des biographies du Wikipast est citée dans cette page il va ensuite l'ajouter à sa liste de connaissance puis la fonction "checkAquaintanceReciprocity" s'assure que le personnage dont on parcourt la biographie est lui aussi ajouté à la liste de connaissance du nouveau personnage.

getPlaces

Cette fonction sert à miner les informations concernant les lieux associés aux entrées évènements de chaque personnage de Wikipast. Elle crée ensuite, pour chacun des personnages, un objet Python "dictionnaire", contenant le nom de chacun des lieux cité au début des entrées-évènements, et leur fréquence de citation relative (normée).

Exemple :

Le programme associera au personnage : Genève : 66.6%, Lausanne : 33.3%. Les entrées où le lieu n'est pas spécifié ne sont pas prises en compte par l'algorithme.

Limitations :

  • Lorsque la syntaxe n'est pas respectée, le programme peut comprendre une suite de lettres, se trouvant à la place normale du lieu, c'est-à-dire après le signe / et entre crochets, comme étant un nom de lieu. Cela n'est pas le cas lorsque la syntaxe est respectée (pas de problème donc dans les entrées-évènements 4 et 5 de l'exemple).
  • Un second problème concerne les éventuels espaces dans les noms de lieux. En effet, un lieu comme Suisse romande ne pourra pas être détecté. Les noms à tirets, par contre, ne sont pas un problème (comme Aix-la-Chapelle)
  • Actuellement, la proximité topographique des lieux n'est pas prise en compte, ainsi, l'algorithme n'accordera pas un seul point de corrélation entre Paris et Versailles, même si ces lieux sont géographiquement proches.
  • Les évolutions toponymiques (Istanbul, Constantinople) ne sont pas prises en compte, de même que les variantes orthographiques d'un même nom de lieu (Biel, Bienne).

getLifespan

Cette fonction récupère les informations concernant l'époque où le personnage a vécu (date de naissance et de décès).

Exemple :

Le programme comprendra que la durée de vie du Grand Schtroumpf s'étend sur la période [1926,1999].

Limitations :

  • Lorsque ni la date de naissance, ni la date de décès ne sont spécifiées, le programme n'enregistre pas d'informations à propos de la période de vie du personnage.
  • Lorsque la date de naissance est spécifiée, mais pas la date de décès, le programme part du principe que le personnage est toujours vivant, pour autant que la durée de vie que cela implique ne soit pas hors norme (max. 98 ans). Si la durée de vie parait déraisonnable, le programme considère une durée de vie moyenne de 70 ans.
  • Lorsque la date de décès est spécifiée, mais pas la date de naissance, le programme considère la première entrée de la biographie comme début de la période de vie du personnnage.
  • Le programme ne comprend que les entrées liées aux hypermots conventionnels : Naissance, Décès, Mort et Exécution.

getWork

Cherche et repère, dans chaque évènement de la Biographie, une liste de mots clé, en lien avec différents domaines d'activité. Établit ensuite, à l'image de getPlaces, un tableau (dictionnaire Python) qui attribue à chaque domaine d'activité un poids relatif. Actuellement, il existe 15 domaines d'activité principaux : Sport, Arts plastiques, Littérature, Musique, Cinéma, Sciences naturelles, Sciences humaines, Mathématiques, Politique, Philosophie et psychologie, Médecine et santé, Militaire et Affaires. Les catégories d'activités les plus grandes sont divisées en sous-catégories (comme par exemple Politique, Sport, Sciences naturelles).

Exemple :

Le programme attribuera les poids suivants à cet extrait

  • 40% Littérature (2 lignes contiennent le mot-clé Publication)
  • 20% Mathématiques (1 ligne contien le mot-clé théorèmes)
  • 20% Politique (1 ligne contient le mot-clé Election, de la sous-catégorie Démocratie)
  • 20% Sport (1 ligne contient le mot-clé échecs, de la sous-catégorie Échecs)

Limitations :

  • Les catégories sont définies directement dans le code Python, ainsi que les mots-clés. Cela limite le nombre de catégories et les capacités de compréhension du programme.
  • L'intention du personnage n'est pas prise en compte. Par exemple, un antimilitariste qui s'expose à des situations de guerre, et dont la biographie contiendra des mots-clé lié à la guerre, pourra être mis en lien avec un général, militaire de carrière.

computeCorrelation

Calcule la corrélation en fonction des 4 critères principaux (Lieux, Période de vie, Domaines d'activité et Relations interpersonnelles). La contribution des 4 critères est identique, à l'exception de de la Période de vie, dont l'importance a été évaluée 20% inférieure à celle des autres catégories.

Le calcul de la corrélation est basé sur les pourcentages de recouvrement.

Exemple du calcul de la corrélation entre deux personnages

Nom : Simone de Beauvoir Période :

 de 1908 à 1986

Lieux :

 Paris : 57.1%
 Chicago : 14.2%
 Joigny : 14.2%
 Tokio : 14.2%

Poids des principaux domaines d'activité :

 Littérature  : 60.0%
 Politique  : 10.0% (dont 10.0% du sous-domaine Démocratie)
 Philosophie et psychologie  : 10.0% (dont 10.0% du sous-domaine Philosophie)
 Médecine et santé  : 10.0%
 Militaire  : 10.0%

Connaissances :

 Jean-Paul Sartre

Nom : Jean-Paul Sartre Période :

 de 1905 à 1980

Lieux :

 Paris : 68.7%
 France : 6.25%
 Rome : 6.25%
 Stockholm : 12.5%
 Suisse : 6.25%

Poids des principaux domaines d'activité :

 Littérature  : 55.5% (dont 11.1% du sous-domaine Littérature romanesque et 33.3% du sous-domaine Essais)
 Cinéma  : 11.1% (dont 11.1% du sous-domaine Télévisuel)
 Politique  : 11.1%
 Philosophie et psychologie  : 11.1% (dont 11.1% du sous-domaine Philosophie)
 Médecine et santé : 11.1%

Connaissances :

 Simone de Beauvoir

La corrélation entre ces deux personnages est de 85.4%, détaillée comme suit :

  • 100% des 26% liés au Relations interpersonnelles.
  • Durée de vie en commun / durée de vie la plus longue des deux = 72 ans / 78 ans = 92% des 22% liés à la Période de vie.
  • 57.1% des 26% liés aux Lieux (un seul lieu en commun : Paris, Simone de Beauvoir y étant liée par 57.1% de ses entrées biographiques et Jean-Paul Sartre par 68.7%. Le pourcentage de recouvrement des Lieux est donc de 57.1%)
  • sur le même principe que pour les Lieux (avec une importance 2 fois plus grande pour les catégories principales que pour les catégories secondaires) :