« SimilarBot » : différence entre les versions
mAucun résumé des modifications |
(ajustements divers) |
||
Ligne 1 : | Ligne 1 : | ||
SimilarBot a pour but de suggérer des personnages similaires au bas de chaque biographie. | SimilarBot a pour but de suggérer des recommandation de personnages similaires au bas de chaque biographie. Pour cela, il tente de rapprocher les personnages qui pourraient être liés en fonction de 4 critères : Lieux, Période de vie, Domaines d'activité et Relations interpersonnelles. Ces personnages peuvent avoir été directement liés au cours de leur vie, où avoir simplement observé un parcours de vie similaire. L'algorithme apporte également une justification à chaque recommandation, qui fournit le critère ayant été le plus décisif pour établir la recommandation. Selon la proximité ayant pu être établie entre un personnage et les autres personnages de Wikipast, le nombre de recommandations peut varier entre 0 et 3. | ||
== Code == | == Code == | ||
Ligne 6 : | Ligne 6 : | ||
== Description des principales fonctions de l'algorithme == | == Description des principales fonctions de l'algorithme == | ||
Ci-dessous sont listées les principales fonctions de l'algorithme. Elles sont décrites séparément, de manière à permettre de bien comprendre les différentes étapes du cheminement. On peut résumer le fonctionnement de l'algorithme en 4 étapes distinctes : | |||
# '''Data scrapping''' : MAIN, puis ''getAcquaintance'', ''getPlaces'', ''getLifespan'' et ''getWork'' | |||
# '''Calcul de la corrélation''' : ''computeCorrelation'' (qui utilise 4 autres fonction spécifiques à chacun des critères) | |||
# '''Classement''' : ''ranking'' | |||
# '''Affichage''' : MAIN | |||
=== | === ''getAcquaintance'' === | ||
Cette fonction est la plus basique pour déterminer un lien de similitude entre deux personnages du | Cette fonction est la plus basique pour déterminer un lien de similitude entre deux personnages du Wikipast, elle se contente de vérifer si un autre des personnages est cité dans la biographie. Pour être utilise à notre SimilarBot qui a pour but de suggérer une page en lien il faut que la personne citée dans la biographie ai une page Wikipast à son nom. Pour ce faire le bot parcourt une page biographique et vérifie si une autre des biographies du Wikipast est citée dans cette page il va ensuite l'ajouter à sa liste de connaissance puis la fonction ''checkAquaintanceReciprocity'' s'assure que le personnage dont on parcourt la biographie est lui aussi ajouté à la liste de connaissance du nouveau personnage. | ||
=== getPlaces === | ==== Limitation : ==== | ||
* Comme nous le verrons plus bas, une simple citation suffit pour obtenir un score de 100% à cette catégorie. Il aurait été possible d'affiner cette fonction pour qu'elle repère des rapports interpersonnels plus détaillés (par exemple lien de parenté, couples, époux, collègues, connaissances, etc.). Cependant, au vu du faible nombre de biographies ayant actuellement des liens interpersonnels sur Wikipast, nous n'avons pas retenu cette option. | |||
=== ''getPlaces'' === | |||
Cette fonction sert à miner les informations concernant les lieux associés aux entrées évènements de chaque personnage de Wikipast. Elle crée ensuite, pour chacun des personnages, un objet Python "dictionnaire", contenant le nom de chacun des lieux cité au début des entrées-évènements, et leur fréquence de citation relative (normée). | Cette fonction sert à miner les informations concernant les lieux associés aux entrées évènements de chaque personnage de Wikipast. Elle crée ensuite, pour chacun des personnages, un objet Python "dictionnaire", contenant le nom de chacun des lieux cité au début des entrées-évènements, et leur fréquence de citation relative (normée). | ||
==== Exemple : ==== | ==== Exemple : ==== | ||
* [[1926.12.12]] / [[Genève]]. [[Naissance]] du '''Grand Schtroumpf'''. | * [[1926.12.12]] / [[Genève]]. [[Naissance]] du '''Grand Schtroumpf'''. | ||
* [[1929.02.06]] / [[Genève]]. [[Publication]] : Le '''Grand Schtroumpf''' publie ''Vivre à [[Lyon]]''. | * [[1929.02.06]] / [[Genève]]. [[Publication]] : Le '''Grand Schtroumpf''' publie ''Vivre à [[Lyon]]''. | ||
* [[1933.07.01]] / [[Lausanne]]. [[Election]] du '''Grand Schtroumpf''' au poste de [[Grand Schtroumpf]]. | * [[1933.07.01]] / [[Lausanne]]. [[Election]] du '''Grand Schtroumpf''' au poste de [[Grand Schtroumpf]]. | ||
* [[1935.11.22]] / -. [[Publication]] : Le '''Grand Schtroumpf''' publie ''La salsepareille dans tous ses états''. | * [[1935.11.22]] / -. [[Publication]] : Le '''Grand Schtroumpf''' publie ''La salsepareille dans tous ses états''. | ||
* [[1939.09.30]]. [[Décès]] du '''Grand Schtroumpf'''. | * [[1939.09.30]]. [[Décès]] du '''Grand Schtroumpf'''. | ||
Le programme associera au personnage : | Le programme associera au personnage : | ||
Ligne 30 : | Ligne 38 : | ||
* Les évolutions toponymiques ([[Istanbul]], [[Constantinople]]) ne sont pas prises en compte, de même que les variantes orthographiques d'un même nom de lieu ([[Biel]], [[Bienne]]). | * Les évolutions toponymiques ([[Istanbul]], [[Constantinople]]) ne sont pas prises en compte, de même que les variantes orthographiques d'un même nom de lieu ([[Biel]], [[Bienne]]). | ||
=== getLifespan === | === ''getLifespan'' === | ||
Cette fonction récupère les informations concernant l'époque où le personnage a vécu (date de naissance et de décès). | Cette fonction récupère les informations concernant l'époque où le personnage a vécu (date de naissance et de décès). | ||
==== Exemple : ==== | ==== Exemple : ==== | ||
* [[1926.12.12]] / [[Genève]]. [[Naissance]] du '''Grand Schtroumpf'''. | * [[1926.12.12]] / [[Genève]]. [[Naissance]] du '''Grand Schtroumpf'''. | ||
* [[1949.02.06]] / [[Genève]]. [[Naissance]] de [[Petit Schtroumpf]], fils de '''Grand Schtroumpf'''. | * [[1949.02.06]] / [[Genève]]. [[Naissance]] de [[Petit Schtroumpf]], fils de '''Grand Schtroumpf'''. | ||
* [[1999.04.01]] / [[Genève]]. [[Décès]] du '''Grand Schtroumpf'''. | * [[1999.04.01]] / [[Genève]]. [[Décès]] du '''Grand Schtroumpf'''. | ||
Le programme comprendra que la durée de vie du Grand Schtroumpf s'étend sur la période [1926,1999]. | Le programme comprendra que la durée de vie du Grand Schtroumpf s'étend sur la période [1926,1999]. | ||
Ligne 44 : | Ligne 52 : | ||
* Le programme ne comprend que les entrées liées aux hypermots conventionnels : [[Naissance]], [[Décès]], [[Mort]] et [[Exécution]]. | * Le programme ne comprend que les entrées liées aux hypermots conventionnels : [[Naissance]], [[Décès]], [[Mort]] et [[Exécution]]. | ||
=== getWork === | === ''getWork'' === | ||
Cherche et repère, dans chaque évènement de la Biographie, une liste de mots clé, en lien avec différents domaines d'activité. Établit ensuite, à l'image de getPlaces, un tableau (dictionnaire Python) qui attribue à chaque domaine d'activité un poids relatif. | Cherche et repère, dans chaque évènement de la Biographie, une liste de mots clé, en lien avec différents domaines d'activité. Établit ensuite, à l'image de ''getPlaces'', un tableau (dictionnaire Python) qui attribue à chaque domaine d'activité un poids relatif. | ||
Actuellement, il existe 15 domaines d'activité principaux : Sport, Arts plastiques, Littérature, Musique, Cinéma, Sciences naturelles, Sciences humaines, Mathématiques, Politique, Philosophie et psychologie, Médecine et santé, Militaire et Affaires. | Actuellement, il existe 15 domaines d'activité principaux : Sport, Arts plastiques, Littérature, Musique, Cinéma, Sciences naturelles, Sciences humaines, Mathématiques, Politique, Philosophie et psychologie, Médecine et santé, Militaire et Affaires. | ||
Les catégories d'activités les plus grandes sont divisées en sous-catégories (comme par exemple Politique, Sport, Sciences naturelles). | Les catégories d'activités les plus grandes sont divisées en sous-catégories (comme par exemple Politique, Sport, Sciences naturelles). | ||
==== Exemple : ==== | ==== Exemple : ==== | ||
* [[1932.04.01]] / [[Genève]]. [[Publication]] de ''[[Petits théorèmes schtroumpfants]]'' par le '''Grand Schtroumpf'''. | * [[1932.04.01]] / [[Genève]]. [[Publication]] de ''[[Petits théorèmes schtroumpfants]]'' par le '''Grand Schtroumpf'''. | ||
* [[1933.07.01]] / [[Lausanne]]. [[Election]] du '''Grand Schtroumpf''' au poste de [[Grand Schtroumpf]].'. | * [[1933.07.01]] / [[Lausanne]]. [[Election]] du '''Grand Schtroumpf''' au poste de [[Grand Schtroumpf]].'. | ||
* [[1935.04.01]] / [[Genève]]. [[Publication]] de ''[[Mes meilleures parties d'échecs]]'' par le '''Grand Schtroumpf'''. | * [[1935.04.01]] / [[Genève]]. [[Publication]] de ''[[Mes meilleures parties d'échecs]]'' par le '''Grand Schtroumpf'''. | ||
Le programme attribuera les poids suivants à cet extrait | Le programme attribuera les poids suivants à cet extrait | ||
Ligne 62 : | Ligne 70 : | ||
* L'intention du personnage n'est pas prise en compte. Par exemple, un antimilitariste qui s'expose à des situations de guerre, et dont la biographie contiendra des mots-clé lié à la guerre, pourra être mis en lien avec un général, militaire de carrière. | * L'intention du personnage n'est pas prise en compte. Par exemple, un antimilitariste qui s'expose à des situations de guerre, et dont la biographie contiendra des mots-clé lié à la guerre, pourra être mis en lien avec un général, militaire de carrière. | ||
=== computeCorrelation === | === ''computeCorrelation'' === | ||
Calcule la corrélation en fonction des 4 critères principaux (Lieux, Période de vie, Domaines d'activité et Relations interpersonnelles). La contribution des 4 critères est identique, à l'exception de de la Période de vie, dont l'importance a été évaluée 20% inférieure à celle des autres catégories. | Calcule la corrélation en fonction des 4 critères principaux (Lieux, Période de vie, Domaines d'activité et Relations interpersonnelles). La contribution des 4 critères est identique, à l'exception de de la Période de vie, dont l'importance a été évaluée 20% inférieure à celle des autres catégories. | ||
Le calcul de la corrélation est basé sur les pourcentages de recouvrement. | Le calcul de la corrélation est basé sur les pourcentages de recouvrement. | ||
==== Exemple du calcul de la | ==== Exemple du calcul de la corrélation entre deux personnages : ==== | ||
Résultats du ''data scraping'' : | Résultats du ''data scraping'' : | ||
'''Nom :''' | '''Nom :''' | ||
Ligne 107 : | Ligne 115 : | ||
[[Fichier:SimilarBot weights chart.png|280px|right|thumb|Répartition du poids des différents critères dans le calcul global.]] | [[Fichier:SimilarBot weights chart.png|280px|right|thumb|Répartition du poids des différents critères dans le calcul global.]] | ||
La corrélation entre ces deux personnages est de 85.4%, détaillée comme suit : | La corrélation entre ces deux personnages est de 85.4%, détaillée comme suit : | ||
* 100% des 23.3% liés au Relations interpersonnelles. | * 100% des 23.3% liés au Relations interpersonnelles (une simple citation suffit pour obtenir un score de 100% à cette catégorie). | ||
* Durée de vie en commun / durée de vie la plus longue des deux = 72 ans / 78 ans = 92% des 18.6% liés à la Période de vie. | * Durée de vie en commun / durée de vie la plus longue des deux = 72 ans / 78 ans = 92% des 18.6% liés à la Période de vie. | ||
* 57.1% des 23.3% liés aux Lieux (un seul lieu en commun : Paris, Simone de Beauvoir y étant liée par 57.1% de ses entrées biographiques et Jean-Paul Sartre par 68.7%. Le pourcentage de recouvrement des Lieux est donc de 57.1%) | * 57.1% des 23.3% liés aux Lieux (un seul lieu en commun : Paris, Simone de Beauvoir y étant liée par 57.1% de ses entrées biographiques et Jean-Paul Sartre par 68.7%. Le pourcentage de recouvrement des Lieux est donc de 57.1%). | ||
* Sur le même principe que pour les Lieux (c'est à dire par recouvrement des pourcentages des différentes entrées) : 62.6% des 34.9% liés au Domaines d'activité (dont 85% des 23.3% liés au Domaines d'activité principaux et 17% des 11.6% liés aux Domaines d'activité secondaires) | * Sur le même principe que pour les Lieux (c'est à dire par recouvrement des pourcentages des différentes entrées) : 62.6% des 34.9% liés au Domaines d'activité (dont 85% des 23.3% liés au Domaines d'activité principaux et 17% des 11.6% liés aux Domaines d'activité secondaires) | ||
Au final, cela nous donne bien une corrélation de 85.4%. | Au final, cela nous donne bien une corrélation de 85.4%. | ||
===ranking=== | Notons que dans le programme, ce calcul est, par soucis de simplicité, effectué par 4 fonctions différentes : ''computeAcquaintanceCorrelation'', ''computeLifespanCorrelation'', ''computePlaceCorrelation'' et ''computeWorkCorrelation''. | ||
===''ranking''=== | |||
Cette fonction permet de déterminer pour un personnage les 3 personnages qui lui sont le plus liés. Pour cela on parcourt les scores de corrélation du personnage étudié avec les autres personnages et on stock les trois meilleurs scores en modifiant le classement lorsque les personnages parcourus ont un score supérieur à un des trois classés. A la fin la fonction | Cette fonction permet de déterminer pour un personnage les 3 personnages qui lui sont le plus liés. Pour cela on parcourt les scores de corrélation du personnage étudié avec les autres personnages et on stock les trois meilleurs scores en modifiant le classement lorsque les personnages parcourus ont un score supérieur à un des trois classés. A la fin la fonction choisit les personnages à afficher : sur les 3 du classement elle n’affichera uniquement ceux dont le score de corrélation est supérieur à 0.8 (pour la meilleure recommandation du classement). En effet le meilleur score pouvant être 4.3 nous considérons comme insignifiantes et peu pertinentes les corrélations inférieures à 0.8. | ||
====Exemple de sortie==== | ====Exemple de sortie : ==== | ||
'''Recommandation(s) pour Simone de Beauvoir''' | '''Recommandation(s) pour Simone de Beauvoir''' | ||
Jean-Paul Sartre. Matching : 85.4%. Les personnages se connaissaient. | Jean-Paul Sartre. Matching : 85.4%. Les personnages se connaissaient. | ||
Marguerite Duras. Matching : 47.5%. Les personnages ont été contemporains sur la période 1914-1984 | Marguerite Duras. Matching : 47.5%. Les personnages ont été contemporains sur la période [[1914]]-[[1984]] | ||
Charles de Gaulle. Matching : 42.0%. Les personnages ont tous deux été actifs dans le domaine littéraire | Charles de Gaulle. Matching : 42.0%. Les personnages ont tous deux été actifs dans le domaine littéraire | ||
==Limitations générales== | ==Limitations générales== | ||
* L'algorithme utilise une liste de | * L'algorithme utilise une liste de mot-clés écrite à la main: elle est donc restreinte au contexte et à la liste des biographies courante. | ||
* Le mots clés n'identifient pas toujours un domaine avec certitude totale, par exemple, une biographie qui contient la mot "cinématique" aura un score non nul pour le domaine du cinéma, bien que la cinématique soit une branche de la physique. Cela à cause du mot-clé ''cinéma''. | * Le mots clés n'identifient pas toujours un domaine avec certitude totale, par exemple, une biographie qui contient la mot "cinématique" aura un score non nul pour le domaine du cinéma, bien que la cinématique soit une branche de la physique. Cela à cause du mot-clé ''cinéma''. | ||
* La précision du bot est limitée par le contenu des biographies, et souvent 15 entrées n'arrivent pas à résumer la vie d'un personnage de manière satisfaisante. Par exemple la page de Mao Zedong et Adolf Hitler ont beaucoup de poids sur "démocratie" simplement parce que ils sont été élus, bien qu'il soit clair que la majorité du poids devrait être sur "dictature". | * La précision du bot est limitée par le contenu des biographies, et souvent 15 entrées n'arrivent pas à résumer la vie d'un personnage de manière satisfaisante. Par exemple la page de Mao Zedong et Adolf Hitler ont beaucoup de poids sur "démocratie" simplement parce que ils sont été élus, bien qu'il soit clair que la majorité du poids devrait être sur "dictature". | ||
* Le calcul de la corrélation est basé sur les pourcentages de recouvrement. | * Le calcul de la corrélation est basé sur les pourcentages de recouvrement. | ||
* Le nombre limité de biographies ne permet pas une quantification précise de l'efficacité du bot. | * Le nombre limité de biographies ne permet pas une quantification précise de l'efficacité du bot. |
Version du 7 mai 2018 à 15:51
SimilarBot a pour but de suggérer des recommandation de personnages similaires au bas de chaque biographie. Pour cela, il tente de rapprocher les personnages qui pourraient être liés en fonction de 4 critères : Lieux, Période de vie, Domaines d'activité et Relations interpersonnelles. Ces personnages peuvent avoir été directement liés au cours de leur vie, où avoir simplement observé un parcours de vie similaire. L'algorithme apporte également une justification à chaque recommandation, qui fournit le critère ayant été le plus décisif pour établir la recommandation. Selon la proximité ayant pu être établie entre un personnage et les autres personnages de Wikipast, le nombre de recommandations peut varier entre 0 et 3.
Code
lien vers le code : [1]
Description des principales fonctions de l'algorithme
Ci-dessous sont listées les principales fonctions de l'algorithme. Elles sont décrites séparément, de manière à permettre de bien comprendre les différentes étapes du cheminement. On peut résumer le fonctionnement de l'algorithme en 4 étapes distinctes :
- Data scrapping : MAIN, puis getAcquaintance, getPlaces, getLifespan et getWork
- Calcul de la corrélation : computeCorrelation (qui utilise 4 autres fonction spécifiques à chacun des critères)
- Classement : ranking
- Affichage : MAIN
getAcquaintance
Cette fonction est la plus basique pour déterminer un lien de similitude entre deux personnages du Wikipast, elle se contente de vérifer si un autre des personnages est cité dans la biographie. Pour être utilise à notre SimilarBot qui a pour but de suggérer une page en lien il faut que la personne citée dans la biographie ai une page Wikipast à son nom. Pour ce faire le bot parcourt une page biographique et vérifie si une autre des biographies du Wikipast est citée dans cette page il va ensuite l'ajouter à sa liste de connaissance puis la fonction checkAquaintanceReciprocity s'assure que le personnage dont on parcourt la biographie est lui aussi ajouté à la liste de connaissance du nouveau personnage.
Limitation :
- Comme nous le verrons plus bas, une simple citation suffit pour obtenir un score de 100% à cette catégorie. Il aurait été possible d'affiner cette fonction pour qu'elle repère des rapports interpersonnels plus détaillés (par exemple lien de parenté, couples, époux, collègues, connaissances, etc.). Cependant, au vu du faible nombre de biographies ayant actuellement des liens interpersonnels sur Wikipast, nous n'avons pas retenu cette option.
getPlaces
Cette fonction sert à miner les informations concernant les lieux associés aux entrées évènements de chaque personnage de Wikipast. Elle crée ensuite, pour chacun des personnages, un objet Python "dictionnaire", contenant le nom de chacun des lieux cité au début des entrées-évènements, et leur fréquence de citation relative (normée).
Exemple :
* 1926.12.12 / Genève. Naissance du Grand Schtroumpf. * 1929.02.06 / Genève. Publication : Le Grand Schtroumpf publie Vivre à Lyon. * 1933.07.01 / Lausanne. Election du Grand Schtroumpf au poste de Grand Schtroumpf. * 1935.11.22 / -. Publication : Le Grand Schtroumpf publie La salsepareille dans tous ses états. * 1939.09.30. Décès du Grand Schtroumpf.
Le programme associera au personnage : Genève : 66.6%, Lausanne : 33.3%. Les entrées où le lieu n'est pas spécifié ne sont pas prises en compte par l'algorithme.
Limitations :
- Lorsque la syntaxe n'est pas respectée, le programme peut comprendre une suite de lettres, se trouvant à la place normale du lieu, c'est-à-dire après le signe / et entre crochets, comme étant un nom de lieu. Cela n'est pas le cas lorsque la syntaxe est respectée (pas de problème donc dans les entrées-évènements 4 et 5 de l'exemple).
- Un second problème concerne les éventuels espaces dans les noms de lieux. En effet, un lieu comme Suisse romande ne pourra pas être détecté. Les noms à tirets, par contre, ne sont pas un problème (comme Aix-la-Chapelle)
- Actuellement, la proximité topographique des lieux n'est pas prise en compte, ainsi, l'algorithme n'accordera pas un seul point de corrélation entre Paris et Versailles, même si ces lieux sont géographiquement proches.
- Les évolutions toponymiques (Istanbul, Constantinople) ne sont pas prises en compte, de même que les variantes orthographiques d'un même nom de lieu (Biel, Bienne).
getLifespan
Cette fonction récupère les informations concernant l'époque où le personnage a vécu (date de naissance et de décès).
Exemple :
* 1926.12.12 / Genève. Naissance du Grand Schtroumpf. * 1949.02.06 / Genève. Naissance de Petit Schtroumpf, fils de Grand Schtroumpf. * 1999.04.01 / Genève. Décès du Grand Schtroumpf.
Le programme comprendra que la durée de vie du Grand Schtroumpf s'étend sur la période [1926,1999].
Limitations :
- Lorsque ni la date de naissance, ni la date de décès ne sont spécifiées, le programme n'enregistre pas d'informations à propos de la période de vie du personnage.
- Lorsque la date de naissance est spécifiée, mais pas la date de décès, le programme part du principe que le personnage est toujours vivant, pour autant que la durée de vie que cela implique ne soit pas hors norme (max. 98 ans). Si la durée de vie parait déraisonnable, le programme considère une durée de vie moyenne de 70 ans.
- Lorsque la date de décès est spécifiée, mais pas la date de naissance, le programme considère la première entrée de la biographie comme début de la période de vie du personnnage.
- Le programme ne comprend que les entrées liées aux hypermots conventionnels : Naissance, Décès, Mort et Exécution.
getWork
Cherche et repère, dans chaque évènement de la Biographie, une liste de mots clé, en lien avec différents domaines d'activité. Établit ensuite, à l'image de getPlaces, un tableau (dictionnaire Python) qui attribue à chaque domaine d'activité un poids relatif. Actuellement, il existe 15 domaines d'activité principaux : Sport, Arts plastiques, Littérature, Musique, Cinéma, Sciences naturelles, Sciences humaines, Mathématiques, Politique, Philosophie et psychologie, Médecine et santé, Militaire et Affaires. Les catégories d'activités les plus grandes sont divisées en sous-catégories (comme par exemple Politique, Sport, Sciences naturelles).
Exemple :
* 1932.04.01 / Genève. Publication de Petits théorèmes schtroumpfants par le Grand Schtroumpf. * 1933.07.01 / Lausanne. Election du Grand Schtroumpf au poste de Grand Schtroumpf.'. * 1935.04.01 / Genève. Publication de Mes meilleures parties d'échecs par le Grand Schtroumpf.
Le programme attribuera les poids suivants à cet extrait
- 40% Littérature (2 lignes contiennent le mot-clé Publication)
- 20% Mathématiques (1 ligne contien le mot-clé théorèmes)
- 20% Politique (1 ligne contient le mot-clé Election, de la sous-catégorie Démocratie)
- 20% Sport (1 ligne contient le mot-clé échecs, de la sous-catégorie Échecs)
Limitations :
- Les catégories sont définies directement dans le code Python, ainsi que les mots-clés. Cela limite le nombre de catégories et les capacités de compréhension du programme.
- L'intention du personnage n'est pas prise en compte. Par exemple, un antimilitariste qui s'expose à des situations de guerre, et dont la biographie contiendra des mots-clé lié à la guerre, pourra être mis en lien avec un général, militaire de carrière.
computeCorrelation
Calcule la corrélation en fonction des 4 critères principaux (Lieux, Période de vie, Domaines d'activité et Relations interpersonnelles). La contribution des 4 critères est identique, à l'exception de de la Période de vie, dont l'importance a été évaluée 20% inférieure à celle des autres catégories.
Le calcul de la corrélation est basé sur les pourcentages de recouvrement.
Exemple du calcul de la corrélation entre deux personnages :
Résultats du data scraping :
Nom : Simone de Beauvoir Période : de 1908 à 1986 Lieux : Paris : 57.1% Chicago : 14.2% Joigny : 14.2% Tokio : 14.2% Poids des principaux domaines d'activité : Littérature : 60.0% Politique : 10.0% (dont 10.0% du sous-domaine Démocratie) Philosophie et psychologie : 10.0% (dont 10.0% du sous-domaine Philosophie) Médecine et santé : 10.0% Militaire : 10.0% Connaissances : Jean-Paul Sartre
Nom : Jean-Paul Sartre Période : de 1905 à 1980 Lieux : Paris : 68.7% France : 6.25% Rome : 6.25% Stockholm : 12.5% Suisse : 6.25% Poids des principaux domaines d'activité : Littérature : 55.5% (dont 11.1% du sous-domaine Littérature romanesque et 33.3% du sous-domaine Essais) Cinéma : 11.1% (dont 11.1% du sous-domaine Télévisuel) Politique : 11.1% Philosophie et psychologie : 11.1% (dont 11.1% du sous-domaine Philosophie) Médecine et santé : 11.1% Connaissances : Simone de Beauvoir
La corrélation entre ces deux personnages est de 85.4%, détaillée comme suit :
- 100% des 23.3% liés au Relations interpersonnelles (une simple citation suffit pour obtenir un score de 100% à cette catégorie).
- Durée de vie en commun / durée de vie la plus longue des deux = 72 ans / 78 ans = 92% des 18.6% liés à la Période de vie.
- 57.1% des 23.3% liés aux Lieux (un seul lieu en commun : Paris, Simone de Beauvoir y étant liée par 57.1% de ses entrées biographiques et Jean-Paul Sartre par 68.7%. Le pourcentage de recouvrement des Lieux est donc de 57.1%).
- Sur le même principe que pour les Lieux (c'est à dire par recouvrement des pourcentages des différentes entrées) : 62.6% des 34.9% liés au Domaines d'activité (dont 85% des 23.3% liés au Domaines d'activité principaux et 17% des 11.6% liés aux Domaines d'activité secondaires)
Au final, cela nous donne bien une corrélation de 85.4%.
Notons que dans le programme, ce calcul est, par soucis de simplicité, effectué par 4 fonctions différentes : computeAcquaintanceCorrelation, computeLifespanCorrelation, computePlaceCorrelation et computeWorkCorrelation.
ranking
Cette fonction permet de déterminer pour un personnage les 3 personnages qui lui sont le plus liés. Pour cela on parcourt les scores de corrélation du personnage étudié avec les autres personnages et on stock les trois meilleurs scores en modifiant le classement lorsque les personnages parcourus ont un score supérieur à un des trois classés. A la fin la fonction choisit les personnages à afficher : sur les 3 du classement elle n’affichera uniquement ceux dont le score de corrélation est supérieur à 0.8 (pour la meilleure recommandation du classement). En effet le meilleur score pouvant être 4.3 nous considérons comme insignifiantes et peu pertinentes les corrélations inférieures à 0.8.
Exemple de sortie :
Recommandation(s) pour Simone de Beauvoir Jean-Paul Sartre. Matching : 85.4%. Les personnages se connaissaient. Marguerite Duras. Matching : 47.5%. Les personnages ont été contemporains sur la période 1914-1984 Charles de Gaulle. Matching : 42.0%. Les personnages ont tous deux été actifs dans le domaine littéraire
Limitations générales
- L'algorithme utilise une liste de mot-clés écrite à la main: elle est donc restreinte au contexte et à la liste des biographies courante.
- Le mots clés n'identifient pas toujours un domaine avec certitude totale, par exemple, une biographie qui contient la mot "cinématique" aura un score non nul pour le domaine du cinéma, bien que la cinématique soit une branche de la physique. Cela à cause du mot-clé cinéma.
- La précision du bot est limitée par le contenu des biographies, et souvent 15 entrées n'arrivent pas à résumer la vie d'un personnage de manière satisfaisante. Par exemple la page de Mao Zedong et Adolf Hitler ont beaucoup de poids sur "démocratie" simplement parce que ils sont été élus, bien qu'il soit clair que la majorité du poids devrait être sur "dictature".
- Le calcul de la corrélation est basé sur les pourcentages de recouvrement.
- Le nombre limité de biographies ne permet pas une quantification précise de l'efficacité du bot.