Matt Cutts vient d’expliquer dans ce billet ce qu’ils appellent le Crawl Caching Proxy. Il s’agit d’une optimisation du crawl fait par les multiples robots de Google : recherche web, news, blogs, AdSense… Directement issu de la nouvelle architecture BigDaddy, le principe de ce proxy est de centraliser au même endroit les versions en cache d’une page. Si un des robots souhaite crawler une page, Google vérifie qu’un autre robot ne l’a pas déjà fait peu de temps avant, même si c’est un robot dédié à une autre tâche (news, AdSense, etc.).
On peut lister au moins 2 conséquences :
Mise à jour :
On peut lister au moins 2 conséquences :
- Google économise de la bande passante (et en fait économiser aussi aux webmasters)
- il vaut mieux éviter de faire du cloaking en se basant sur le nom d’agent (user agent) car on pourrait avoir des surprises, vu que Google mélange les robots
Mise à jour :
- certains font état de gros problème de mise à jour du cache ou pire : d’indexation depuis que Google utilise ses différents robots pour tout indexer (lire les problèmes de l’after BigDaddy)
- voir aussi les explications de Sébastien Billard qui avait écrit un article sur le sujet hier