Norman Hurens  Le PageRank, c’est quoi ?

La base du PageRank – que nous noterons parfois PR dans la suite de ce document – est une formule mathématique, à l’allure rébarbative, mais en définitive assez simple à comprendre.
Cette méthode est utilisée par Google pour déterminer l’importance d’une page Web.

Elle se base sur un concept très simple : un lien émis par une page A vers une page B est assimilé à un « vote » de A pour B. Au plus une page reçoit de « votes », au plus cette page est considérée comme importante par Google, exactement comme le principe des élections que nous connaissons tous.

La comparaison avec les élections s’arrête là car toutes les pages n’ont pas le même pouvoir de « vote ».
Nous reviendrons plus en détail sur ce point, mais retenez dès à présent qu’un vote émis par la page d’accueil d’un site majeur tel que Microsoft ou CNN pèse beaucoup plus lourd qu’un vote émis par la page perso de votre cousine, si mignonne soit-elle.

Et cette fameuse formule, alors ?

Nous assumons qu’une page A reçoit des liens (ou « votes ») émis par les pages T1…Tn.
Le paramètre d est un facteur d’amortissement pouvant être ajusté entre 0 et 1.
Nous donnons généralement à d la valeur 0.85.
De même, C(A) est défini comme le nombre de liens émis par la page A (liens sortants). Le PageRank de la page A est défini comme suit :
PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))
Le PageRank peut être calculé en utilisant un simple algorithme itératif, et correspond au vecteur propre principal de la matrice normalisée des liens du Web.

Tout cela est bien moins compliqué qu’il n’y paraît, essayons de disséquer l’expression.
Pour ce faire, voici l’explication de la notation utilisée :

PR(A) le PageRank de la page A
PR(Tn) le PageRank de la page Tn
C(Tn) le nombre de liens émis sur la page Tn
d tous les « votes » sont additionnés, mais pour en limiter l’importance, le total est multiplié par ce coefficient d’amortissement (0.85)
1 – d Un petit peu de « magie mathématique » qui permet de garantir que la moyenne des PageRank de l’ensemble des pages du Web sera de 1.

L’examen de cette formule permet de voir que le PageRank d’une page n’ayant aucun lien entrant sera de 0.15 ,
soit : (1 – 0.85) + 0.85*(0) = 0.15

Il est généralement admis que l’échelle du PageRank est logarithmique, sans que ceci ne soit officiellement confirmé. Pour cette raison, la base utilisée ne peut qu’être estimée. Il est de même raisonnable de penser que cette base évolue dans le temps.
Prenons une échelle logarithmique de base 10 pour simplifier nos calculs, le raisonnement restant valable quelle que soit le base choisie.

PageRank Affiché
(log base 10)
PageRank réel
(calculé)
PR0 0 ≤ PR < 1
PR1 1 ≤ PR < 10
PR2 10 ≤ PR < 100
PR3 100 ≤ PR < 1000
PR4 1000 ≤ PR < 10000