Google : bientôt l'indexation en temps réel avec PubSubHubbub

  • Auteur de la discussion Auteur de la discussion salva
  • Date de début Date de début
Olivier Duffez (admin)
Membre du personnel
pour ceux qui n'ont pas bien compris ce que c'est, voici un petit guide...

Pubsubhubbub : aide à l'indexation temps réel​

Pubsubhubbub est un protocole open source destiné à faciliter les abonnements aux flux RSS/Atom, permettant aux abonnés d'être notifiés en quasi temps réel de l'arrivée de nouveaux éléments, tout en réduisant la charge des éditeurs hébergeant ces flux. Développé par Brad Fitzpatrick, Brett Slatkin et Mihai Parparita, 3 ingénieurs de Google, Pubsubhubbub est déployé progressivement sur un grand nombre de produits Google. Wordpress le propose via un plugin, et vous, allez-vous l'adopter ? Cet article vous explique tout !

Présentation de Pubsubhubbub​

Logo PubSubHubbub
Logo du protocole PubSubHubbub
Vous trouverez toutes les informations détaillées sur le site officiel code.google.com/p/pubsubhubbub/

Je cite le bon article de Didier Durand :

L'architecture de PubSubHubbub est basée sur 3 types d'acteurs :​

  • les éditeurs de contenu (publishers) : leurs utilisateurs publient des nouveaux éléments de contenus (articles, micro-blogs, etc...) au gré de leurs activités
  • les concentrateurs (hubs) : les éditeurs signalent à ces concentrateurs les nouveaux éléments de contenus dès leur parution. L'intérêt: l'éditeur signale une seule fois et il peut atteindre en cascade via le concentrateur des milliers de services à l'écoute de son activité...
  • les abonnés : ce sont tous les services Internet qui ont annoncé - par échange de messages idoines - au(x) concentrateur(s) leur intérêt pour 1 ou N (N pouvant être des millions) flux d'information issus des éditeurs. Dès qu'il est notifié par un éditeur, le concentrateur répercute instantanément (en tout cas, il essaie...) les abonnés de la présence d'un nouveau contenu sur le flux Atom ou RSS d'intérêt. Le concentrateur pousse même l'efficacité jusqu'à livrer le nouvel élément de contenu lui-même avec la notification de sa naissance.

Explications en vidéo :​

Concrètement, il faut comprendre qu'un abonné peut être prévenu dans la seconde même où un contenu est publié !

Un tutoriel Pubsubhubbub est disponible ici en slides sur Google Docs.

Vous publiez du contenu ? Utilisez un hub Pubsubhubbub​

Déclarer un hub dans un flux RSS ou Atom​

Si vous êtes éditeur de contenus, vous avez tout intérêt à utiliser les services d'un hub qui améliorera les performances de la distribution de vos contenus par le biais des flux. Pour cela dans votre flux RSS vous devez déclarer les "coordonnées" du hub, par le biais d'une ligne <link rel="hub" href="URL du hub">. Par exemple les flux FeedBurner définissent http://pubsubhubbub.appspot.com comme hub (ce dernier n'étant pas réservé aux abonnés FeedBurner).

Quand un abonné à votre flux cherche à savoir s'il y a eu une nouvelle publication, au moment où il consulte le flux il peut se rendre compte que le flux déclare utiliser un hub. Dans ce cas, plutôt que de continuer à solliciter le flux, il va solliciter le hub, ce qui au final va s'avérer plus efficace aussi bien pour l'abonné que pour l'éditeur de contenus.

Utiliser un hub Pubsubhubbub sur un blog WordPress​

Si vous avez un blog WordPress hébergé sur WordPress vous n'avez rien à faire, c'est déjà configuré. Si vous utilisez WordPress sur votre propre site, il vous suffit d'installer le plugin disponible ici. et tout est ensuite automatique. Ce plugin va déclarer le hub que vous utilisez et va envoyer des pings à certains gros hubs (tels que Demo hub (sur Google App Engine) et SuperFeedr) dès que vous mettez en ligne de nouveaux articles. Vous pouvez bien sûr en configurer d'autres en allant dans les options de l'extension WordPress. Je suppose qu'elle sera prochainement intégrée directement dans le script WordPress...

Produits utilisant Pubsubhubbub​

Parmi les produits exploitant ce protocole, citons :

  • Google Alerts
  • Google Reader
  • Blogger
  • Google Buzz
  • FeedBurner
  • WordPress
  • Typepad
  • etc.
et certainement des centaines d'autres !

Votre avis​

Que pensez-vous de tout ça ? J'espère que vous avez compris de quoi il s'agissait car ce n'est pas si simple que ça à présenter. J'ai passé un peu de temps à récolter des infos et à vous les présenter. Pour ma part je n'aurais pas pu trouver pire comme nom : Pubsubhubbub :-) Son petit nom officiel est Hubbub : c'est mieux non ?
 
WRInaute accro
En fait, je suis quelque peu déçu par ce pseudo temps réel : je l'imaginais universel à tous les sites et sans avoir recours à une intervention de l'éditeur.
 
WRInaute occasionnel
Si je comprends bien pour le lecteur c'est une sorte de netvibes rafraichi automatiquement en ajax ...

Et côté éditeur / Google je ne vois pas bien la différence avec l'exploration d'un flux RSS classique :?: :?:
 
Olivier Duffez (admin)
Membre du personnel
l'intérêt pour l'éditeur est de disposer d'un système plus performant d'envoi de notifications de ses MAJ, tout en diminuant la charge pour son serveur. En gros il pourra être crawlé + vite, ses abonnés pourront être prévenus + vite, et ça lui coûtera moins de ressources.

l'intérêt pour les moteurs est d'améliorer leur crawl

l'intérêt pour les internautes est d'être tenu au courant des MAJ instantanément

l'intérêt pour les hubs, je ne l'ai toujours pas compris :-)
 
WRInaute accro
Extrait du second lien/premier post.
Pourquoi je parle de ce sujet Pubsubhubbub qui peut paraître tellement abscons à l'utilisateur standard de l'internet ?

Eh bien que je suis convaincu que la mise en place maintenant très rapide de ce service va permettre à une nouvelle génération de services d'émerger: ceux qui ne sont intéressés que par une fraction des contenus publiés - ou des méta-données induites par ses publications - en continu sur le web (de manière distribuée) mais pour qui la taille de cette fraction reste malgré tout trop importante pour le financement d'une infrastructure classique de crawling à faible rendement (ratio découvertes / visites très faible).

C'est exactement pour cela que Google a choisi pour Buzz une architecture ouverte aussi capillarisée : pour permettre à de toutes petites équipes d'innover à l'échelle du web en "montant sur ses larges et solides épaules"!
 
WRInaute occasionnel
Peut-être que certains hubs seront payant. Ou bien inclusion de pubs dans les flux envoyés aux abonnées. Ou encore simplement se faire connaître, travailler l'image de marque, et promouvoir le site derrière ou autour.
 
WRInaute impliqué
je sais pas trop mais on peut par exemple lire un flux sur feedburner avec son client habituel. je pense que c'est le même principe ici.

plutot que de fournir directement le flux depuis son blog au client final, on lui indique d'utiliser un intermédiaire (le hub) et c'est à cet intermédiaire qu'on signale qu'il y a du nouveau (principe du ping).... le client lui s'en fout de savoir si c'est un hub de renom ou le hub perso qui lui fourni le contenu.
j'imagine aussi qu'on peut utiliser plusieurs intermédiaire (ping sur plusieurs hub)

je me trompe peut-être, mais c'est ça que j'ai compris.
 
WRInaute occasionnel
seebz a dit:
je sais pas trop mais on peut par exemple lire un flux sur feedburner avec son client habituel. je pense que c'est le même principe ici.

plutot que de fournir directement le flux depuis son blog au client final, on lui indique d'utiliser un intermédiaire (le hub) et c'est à cet intermédiaire qu'on signale qu'il y a du nouveau (principe du ping).... le client lui s'en fout de savoir si c'est un hub de renom ou le hub perso qui lui fourni le contenu.
j'imagine aussi qu'on peut utiliser plusieurs intermédiaire (ping sur plusieurs hub)

je me trompe peut-être, mais c'est ça que j'ai compris.

J'ai compris la même chose que toi. MA remarque ne concernait pas les "clients" mais le site éditeurs qui fourni le contenu au hub. Il va devoir mettre en place un ping ou autre vers chaque hub avec qui il décidera de travailler. C'est la que le petit hub sorti de nul part devra motiver l'éditeur ;-)
 
WRInaute impliqué
Oui, j'ai bien compris mais je regarde actuellement la source du plugin pour wordpress "PuSHPress" qui semble inclure son propre hub.
The main difference between this plugin and others is that it includes the hub features of PuSH, built right in.
(source)

c'est pas très clair ce truc... quelqu'un de motivé pour nous faire une explication plus claire ? :mrgreen:
 
WRInaute impliqué
sur le plugin wordpress "pubsubhubbub"

j'ai une belle

Code:
Parse error: syntax error, unexpected T_STRING, expecting T_OLD_FUNCTION or T_FUNCTION or T_VAR or '}' in ****/pubsubhubbub/publisher.php on line 10

vous rencontrez le même pb ?

[ooops ! error ! résolu => version php 5 requise ]
 
WRInaute impliqué
Petite question, le <link rel="hub" href="URL du hub"> s'implémente ou dans le site ou dans le flux ?
J'ai loupé une marche pouvez vous m'éclairer SVP ?
 
WRInaute impliqué
pcamliti a dit:
Petite question, le <link rel="hub" href="URL du hub"> s'implémente ou dans le site ou dans le flux ?
J'ai loupé une marche pouvez vous m'éclairer SVP ?

Il me semble que c'est dans le flux
 
WRInaute impliqué
J'ai testé dans mon flux en rajoutant :
<link rel="self" href="http://www.mon_site.com/mon_flux.xml" type="application/rss+xml" />
<link rel="hub" href="http://pubsubhubbub.appspot.com">

Mais ça ne fonctionne pas ? est-ce une autre méthode ?
 
Nouveau WRInaute
Bonjour,

j'ai installé ce systeme sur mon site.

J'ai opté pour la methode superfeedr.
N'ayant pas de blog j'ai installé ce système en php (en suivant les sources d'exemples).


Lorsque j'ajoute un nouvel article, je contact bien mon hub http://demarchesadministratives.superfeedr.com/
Tout semble bien se passer, pourtant .... l'indexation instantannée est loin d'être instantannée.

Quelqu'un a -t-il une idée ?

merci, :mrgreen:
 
WRInaute accro
Enfin, quand on voit la vitesse à laquelle un article publié sur un blog est indexé sur google... ;)
Après, que ce soit en 20 minutes ou instantané, ça change quoi ?
 
Nouveau WRInaute
padadam22 a dit:
Enfin, quand on voit la vitesse à laquelle un article publié sur un blog est indexé sur google... ;)
Après, que ce soit en 20 minutes ou instantané, ça change quoi ?


je n'utilise pas de blog.
Le site est fait entièrement à la main.
Je ne bénéficie par des systèmes de ping offert par les blog qui permettent d'accélérer l'indexation.


Je souhaite accélérer l'indexation, c'est pourquoi je pose cette question.

Actuellement j'ai mi en place plusieurs 2 methodes php pour le ping : pingomatic et feedburner.
Ainsi que le système subpubhubbub.

Mais il semble que l'indexation ne s'accélère pas... :?

Aurais-je rater quelque chose ? (mes méthodes fonctionnent et ne renvoi pas d'erreur, ... tout est envoyé correctement, mais l'indexation ne s'améliore pas)

merci d'avance,
cdlt
 
WRInaute accro
parce que ping ou pas, cela va dépendre de l'importance que gg donnera au contenu d'un site : si gg vient 10 fois par jour sur la page d'accueil ou s'il n'y vient que toutes les semaines, la fraicheur de l'index en dépendra
 
WRInaute accro
Effectivement.
Joli boulot pour un site fait main :)
Juste un bémol, ton adsense à gauche, qui cache une bonne partie de la page.

Pour ton souci, ça ne viendrait pas d'un manque de contenu ?
 
Nouveau WRInaute
merci de vos retours.

PubSubHubbub ce n'est pas du ping.

Pour info :
Le problème ne vient pas de la fraicheur de l'index.
- Auparavant le site était sous Wordpress et les pages s'indexaient en même pas 5 minutes.
- Depuis la nouvelle version, le site crawl 10x fois de page.


J'ai essayé de faire afficher un max d'info de la méthode pubsubhubbub (et superfeedr) ici : http://www.demarchesadministratives.fr/pin.php



thx
 
WRInaute accro
t'as arrêté Wordpress quand ? fin novembre ?
si c'est ça, laisse faire gg, car sa courbe de crawl est montée en flèche, à l'inverse du temps de chargement des pages
 
Nouveau WRInaute
Bonjour,

Je rencontre exactement le même problème ! J'utilise ping-o-matic couplé à pubsubhubbub (également superfeedr).

A chaque nouvelle page ajoutée, mes méthodes me renvoient toutes un succès (comme toi jeanbelhache) mais je dois attendre au moins 3h pour que la page apparaissent sur google U_U' (Soit le temps à peu près normal...)

Voici l'url de mon site: http://www.bon-ap.com

Si quelqu'un peut m'aider car je désespère...

Merci à tous
 
Discussions similaires
Haut