Yahoo User Sensitive PageRank : le brevet de Yahoo

WebRankInfo · 10 Septembre 2008

Il n'y a pas que Microsoft qui travaille sur une évolution du PageRank pour tenir compte du comportement des internautes dans l'analyse du netlinking : Yahoo aussi a des idées pour améliorer le PageRank et a obtenu un brevet intitulé User Sensitive PageRank (bien avant la publication du BrowseRank).

Je vous ai résumé tout ça et donné mes idées (enfin, quelques unes, j'en garde certaines de côté...). J'espère que mon article vous sera utile ; en tout cas quand je lis le forum et discute avec les participants de mes formations, je pense que pas mal de monde devrait revoir ses stratégies de netlinking pour s'adapter aux algos actuels des moteurs :roll:

Le PageRank est dépassé ! En tout cas celui décrit dans l’article de référence rédigé par les cofondateurs de Google. Mais quelle est la formule désormais utilisée par Google ? Peut-être utilisent-ils déjà d’autres données que les liens entre pages web, par exemple des données représentant l’activité des internautes sur le web ? Microsoft a publié en juillet 2008 un article présentant leur algorithme du BrowseRank qui prétend justement surpasser le PageRank grâce à la prise en compte du temps passé sur chaque page. En fait c’est aussi une voie explorée par Yahoo, décrite dans un brevet intitulé User-sensitive pagerank, obtenu le 10 janvier 2008 chez le US Patent and Trademark Office. Explications…

Le brevet de Yahoo : User Sensitive PageRank
Le brevet a été déposé par Yahoo en juin 2006 et validé le 10 janvier 2008. Les auteurs sont Pavel Berkhin, Usama M. Fayyad, Prabhakar Raghavan et Andrew Tomkins. Le résumé du brevet est le suivant :

Techniques are described for generating an authority value of a first one of a plurality of documents. A first component of the authority value is generated with reference to outbound links associated with the first document. The outbound links enable access to a first subset of the plurality of documents. A second component of the authority value is generated with reference to a second subset of the plurality of documents. Each of the second subset of documents represents a potential starting point for a user session. A third component of the authority value is generated representing a likelihood that a user session initiated by any of a population of users will end with the first document. The first, second, and third components of the authority value are combined to generate the authority value. At least one of the first, second, and third components of the authority value is computed with reference to user data relating to at least some of the outbound links and the second subset of documents.

Un des schémas du brevet de Yahoo : User Sensitive PageRank

Les faiblesses de l’algorithme initial du PageRank
Les auteurs du brevet déposé par Google commencent par faire remarquer certains problèmes dans la formule initiale du PageRank :

Tous les liens ne se valent pas et ne devraient pas compter autant : par exemple les liens disclaimer (mise en garde) ou ceux qui pointent vers les mentions légales (c’est pour ça que certains utilisent le nofollow sur ces liens)
Les internautes ne choisissent pas au hasard une page web quand ils quittent un site : dans la formule initiale du PageRank, il est prévu que de temps en temps, quand l’internaute en a marre du site sur lequel il est, saute aléatoirement pour aller sur une autre page du web. C’est la partie (1-d) dans la formule. Il est pourtant évident que dans ce cas, il est plus probable que l’internaute aille sur un (gros) site connu d’une page interne au fin fond d’un (petit) site perso…
Les internautes ne choisissent pas les sites à fort TrustRank quand ils quittent un site : de la même manière, quand un internaute quitte un site pour aller sur un autre sans cliquer sur un lien, il ne va pas forcément aller sur un site à fort TrustRank. L’algorithme du TrustRank permet surtout de combattre le spamdexing mais il ne représente pas vraiment le comportement réel des internautes.
Les pages web évoluent : une page peut changer de contenu à tout moment, par exemple si le site est racheté ou plus simplement si les objectifs de la page sont modifiés. Ces changements évoluent à des fréquences très variables selon les sites, et le PageRank devrait en tenir compte. Je précise qu’il ne faut tout de même pas oublier que le PageRank est recalculé très souvent en interne chez Google…).

Le brevet du PageRank basé sur le comportement des internautes
Pour corriger les défauts listés précédemment, ce brevet propose d’utiliser des données issues de l’activité des internautes (la façon dont ils surfent sur le web) :

La valeur d’un lien entrant dépend du trafic : le poids d’un backlink dans l’algorithme peut dépendre du nombre d’internautes qui l’ont suivi. Je pense donc que les liens vraiment destinés aux internautes auront beaucoup plus de poids que ceux créés spécialement pour optimiser le référencement.
La partie téléportation dans la formule initiale (le fameux (1-d)) peut dépendre elle aussi des données sur le trafic
Le degré de satisfaction de l’internaute pour la page en cours de consultation peut être pris en compte (Yahoo n’explique pas précisément comment l’évaluer)

Ces trois nouvelles composantes sont utilisées pour calculer un indice d’autorité (authority value) pour chaque page du web, en remplacement du PageRank.

D’autres éléments sont abordés dans ce brevet, notamment :

Les données utilisateurs prises en compte dans les calculs peuvent être calculées sur un échantillon d’utilisateurs sélectionnés selon différents critères (âge, sexe, revenus, emplacement géographique, habitudes de surf, etc.). On pourrait imaginer que des valeurs différentes de ce nouveau PageRank seraient utilisées pour des internautes de régions différentes. On ne sait pas vraiment comment ces données concernant les internautes sont récoltées…
L’algorithme pourrait se baser sur la façon dont les internautes visitent des pages de différents blocs (un bloc étant un site web, un nom d’hôte ou un nom de domaine). L’analyse de ces données de surf pourrait par exemple améliorer l’utilisation des blocs dans le calcul du PageRank
De nos jours, le PageRank est utilisé dans l’algorithme qui sélectionne dans quel ordre il faut crawler le web (en gros, une page à fort PageRank a plus de chances d’être crawlée plus souvent). Si le PageRank tient compte de données utilisateurs, l’utilisation du PageRank dans le crawl permettra d’améliorer encore ce crawl.

Mon point de vue sur ce nouveau PageRank
Voici mes premières conclusions :

Yahoo propose une nouvelle façon de calculer le PageRank, dans laquelle la popularité n’est pas seulement mesurée mathématiquement en termes de liens, mais aussi comme tout le monde s’y attend en termes de trafic généré par ces liens. Certes, cela peut paraître naturel de mesurer la popularité d’une page en fonction du trafic reçu en provenance des backlinks, mais réussir à le mesurer pour en tenir compte est une autre paire de manches !
En prévoyant de tenir compte du trafic généré par un backlink, ce brevet confirme ce que je conseille depuis longtemps : les liens les plus efficaces sont ceux intégrés au cœur du contenu. A l’inverse, un lien en bas de page risque de plus en plus d’être insignifiant pour le référencement.
Si Yahoo utilise réellement un PageRank personnalisé en fonction de critères aussi spécifiques que l’âge de l’internaute, son sexe, son emplacement géographique, alors d’une part on pourra vraiment jeter à la poubelle tous les outils d’affichage du PageRank, et d’autre part il sera impossible d’analyser l’influence de ce nouveau PageRank dans le positionnement.
Même si ce brevet est associé à Yahoo, il est évident que les ingénieurs de Google l’ont déjà testé depuis des mois. Peut-être même qu’ils exploitent déjà certaines idées décrites ici…

Je discute également de ces évolutions autour du PageRank dans ma formation (surtout dans le module de netlinking), pendant laquelle les participants peuvent me poser de nombreuses questions. Si cela vous intéresse, consultez le site Ranking Metrics pour connaître les prochaines dates.

Pour en savoir plus

dadovb · 10 Septembre 2008

Ouais... Je sais plus si on peut vraiment appeler ça des stratégies de netlinking...On ne peut plus s'inscrire dans les annuaires, on ne peut plus faire d'échanges de liens, on ne peut rien spammer... Le seule façon d'obtenir des liens est d'avoir un contenu qui intéresse le public qui publie sur internet (et qui sait faire des liens...) ou d'avoir un réseau de connaissances permettant de créer un netlinking...

WebRankInfo · 10 Septembre 2008

tu sembles résumer le netlinking aux inscriptions dans les annuaires et aux échanges de liens, mais c'est la préhistoire du netlinking non ? Je veux dire, il y a plein d'autres choses à faire !

supeva · 10 Septembre 2008

et oui...et toujours aux goûts du jour

dadovb · 10 Septembre 2008

WebRankInfo a dit:
les annuaires et les échanges de liens, c'est la préhistoire du netlinking non ?

Oui, et bientôt l'époque des dinosaures...

Mais pour l'instant, ça apporte toujours des résultats...

Billy_le_kid_creole · 10 Septembre 2008

WebRankInfo a dit:
les annuaires et les échanges de liens, c'est la préhistoire du netlinking non ?

Et oui, maintenant c'est réseau VIP et club privé. Tout droit vers l'internet consanguin :roll:

SuperCureuil · 10 Septembre 2008

les annuaires et les échanges de liens, c'est la préhistoire du netlinking non ?

C'est vrai, mais pour avoir très bien positionné un site depuis trois mois uniquement avec des inscriptions sur des annuaires, je peux confirmer que le procédé fonctionne encore merveilleusement bien :wink:

Jusque quand ... that's ze question ... ça commence quand même à faire un bail qu'on annonce la mort des annuaires ... et pourtant ils sont toujours là.

Tous les liens ne se valent pas et ne devraient pas compter autant

C'est sûr, mais ça c'est certain même ! :mrgreen:

Suis persuadé que les algo actuels en tiennent déjà compte ...

A propos du brevet déposé par Yahoo!, je reste surtout pantois face à ça :

Les données utilisateurs prises en compte dans les calculs peuvent être calculées sur un échantillon d'utilisateurs sélectionnés selon différents critères (âge, sexe, revenus, emplacement géographique, habitudes de surf, etc.). On pourrait imaginer que des valeurs différentes de ce nouveau PageRank seraient utilisées pour des internautes de régions différentes. On ne sait pas vraiment comment ces données concernant les internautes sont récoltées...

8O

HawkEye · 10 Septembre 2008

WebRankInfo a dit:
les annuaires et les échanges de liens, c'est la préhistoire du netlinking non ?

Note tout de même que la roue a été inventée vers l'an -3500 et qu'on en a toujours 4 par bagnole

Trève de plaisanterie, je trouve tout à fat judicieux de faire intervenir l'analyse comportementale dans un algo de détermination de la pertinence. On en parle depuis plusieurs mois en émettant des théories sur le CTR des SERPs, l'utilisation des données recueillies par la Toolbar Google, etc...

dadovb · 10 Septembre 2008

HawkEye a dit:
Trève de plaisanterie, je trouve tout à fat judicieux de faire intervenir l'analyse comportementale dans un algo de détermination de la pertinence. On en parle depuis plusieurs mois en émettant des théories sur le CTR des SERPs, l'utilisation des données recueillies par la Toolbar Google, etc...

Reste à savoir si cette analyse comportementale sera pertinente, on ne peut pas se baser sur le taux de rebond, ni sur le temps passé sur une page dans de nombreux cas de figure...
Quand aux nombre de visiteurs envoyés par un lien, je crois que ça va vraiment lancer un vrai business de la publicité/SEO. On va pouvoir acheter des espaces publicitaires qui auront double fonction : publicité comme on la connait aujourd'hui + effet sur le SEO avec des liens en dur.

HawkEye · 10 Septembre 2008

Bah tant mieux: comme ça les liens qui n'envoient pas de visiteurs seront défavorisants.... ça allègera les footers, et ça purgera un peu la "masse annuaire" :roll:

nza2k · 10 Septembre 2008

dadovb a dit:
lancer un vrai business de la publicité/SEO. On va pouvoir acheter des espaces publicitaires qui auront double fonction : publicité comme on la connait aujourd'hui + effet sur le SEO avec des liens en dur.

Ca se fait déjà... et y a déjà eu de nombreuses sanctions

dadovb · 10 Septembre 2008

nza2k a dit:
dadovb a dit:

lancer un vrai business de la publicité/SEO. On va pouvoir acheter des espaces publicitaires qui auront double fonction : publicité comme on la connait aujourd'hui + effet sur le SEO avec des liens en dur.

Cliquez pour agrandir...

Ca se fait déjà... et y a déjà eu de nombreuses sanctions

Je ne parle pas d'achat de liens :wink:

Je parle d'achat d'espaces publicitaires, ce qui n'est absolument pas interdit, qui au lieu d'être en flash, seront en HTML pour que GG puisse manger les liens.

Jeviensderio · 10 Septembre 2008

Le browserank me semble pire que le PageRanken terme de spamming, comme tout ce qui se base sur le trafic ou le comportement.

Quand à déterminer l'âge et le sexe des surfeurs ...

L'algorithme va planter sur les transexuels.

domdom26 · 11 Septembre 2008

En anglais peut-être mais en français, il y a tellement peu de sites que ça reste que quelques échanges de liens et hop top10 position.

De plus le SMO, qu'est-ce qui existe de bon en français pour vous donner des liens, scoopéo ou wikio ? je doute que ce soit aussi fort que des annuaires et échanges de liens.

Audiofeeline · 11 Septembre 2008

WebRankInfo a dit:
les annuaires et les échanges de liens, c'est la préhistoire du netlinking non ?

Oui et non, il y a tout de même des annuaires intéressants et qui lorsqu'ils sont bien fait peuvent apporter un peu au ref'.
Quant aux échanges de liens, s'ils n'apportent pas grand chose dans de nombreux cas il permettent d'obtenir de la visibilité, c'est intéressant.

Personnellement je remarque que la tendance va plutôt dans le sens de "la marque", il suffit de voir comment les réseaux sociaux se développent sans pour autant avoir une vrai stratégie de netlinking.
Je m'aperçois aussi avec les années que la course au positionnement n'est pas toujours la meilleure solution puisque Google met beaucoup en avant les contenus et que se placer sur un mot qui certes peu apporter du trafic n'est pas toujours idéal, il faut voir si l'investissement en vaut la chandelle...

Enfin, ce qui tend à se développer selon moi ce sont les sites de communiqués de presse qui permettent de présenter ses activités et d'en dire un peu plus sur sa société par exemple. C'est une bonne chose pour les Internautes qui à travers des articles découvrent un site.
Je tente le coup avec WeeDooz*, je pense que dans les prochaines années c'est ce qu'il y aura de plus efficace pour le référencement tant les articles publiés sont un plus pour le site et/ou marque.

Je comprend Google qui sévit face aux annuaires car beaucoup sont juste là pour placer des pubs, des sortes de MFA autorisés en quelque sorte...

* On aura compris que je faisais ma pub...

WebRankInfo · 11 Septembre 2008

j'ai mis à jour mon post ci-dessus car apparemment je n'ai pas été compris...

87133 · 11 Septembre 2008

dadovb a dit:
nza2k a dit:

dadovb a dit:

lancer un vrai business de la publicité/SEO. On va pouvoir acheter des espaces publicitaires qui auront double fonction : publicité comme on la connait aujourd'hui + effet sur le SEO avec des liens en dur.

Cliquez pour agrandir...

Ca se fait déjà... et y a déjà eu de nombreuses sanctions

Cliquez pour agrandir...

Je ne parle pas d'achat de liens :wink:

Je parle d'achat d'espaces publicitaires, ce qui n'est absolument pas interdit, qui au lieu d'être en flash, seront en HTML pour que GG puisse manger les liens.

Oui j'ai effectivement vue des sites qui partent dans ce sens, genre le vertigo.

manthoR · 15 Septembre 2008

Moi je vais déposer le brevet du "FakingUserRank" :
L'utilisateur arrive, vous lui couvrez la page avec un gros div : " votre demande se trouve ici ! cliquez pour continuer ..." qui raffraichit la page en enlevant le gros div (on peut meme imaginer deux splash...) taux de rebonds proche de 0

:roll:

Bon ok, c'était juste pour rire !

Thierry Bugs · 16 Septembre 2008

l'âge du visiteur, son sexe, le taux de rebond...
pourquoi pas...

Des idées des idées encore chez yahoo
et pourtant,
toujours pas l'ombre d'un visiteur à l'horizon... :roll: