Description du système de crawl et d'indexation de Google

WebRankInfo · 20 Août 2008

Depuis l'été 2007, Google a considérablement amélioré son système de crawl : non seulement le moteur semble arriver à indexer les très nombreuses pages créées chaque jour sur le web, mais il n'est plus rare de voir des pages indexées en quelques minutes à peine ! Voici quelques explications issues d'un brevet de Google qui décrit les différents types de crawlers et leurs rôles respectifs.

Commençons par le système de crawl (récupération des documents web) et d'indexation (analyse des documents web) par Google.

Le crawl
Google a mis en place un logiciel de type crawler, dénommé GoogleBot. Il s'agit d'un robot d'indexation des pages web (et maintenant d'autres types). Son principe est simple (mais pas sa mise en œuvre !) : quand il lit une page pour l'indexer, il rajoute à sa liste de pages à visiter toutes celles liées à la page en cours de traitement.

Théoriquement, il devrait donc être capable de connaître la plupart des pages du web, c'est-à-dire toutes celles qui ne sont pas orphelines (une page est dite orpheline si aucune autre ne pointe vers elle). Le volume des données à traiter étant considérable, ce robot est un programme réparti sur des centaines de serveurs.

Outre la connaissance du plus grand nombre de pages, Google cherche aussi à les indexer régulièrement, car une bonne partie des pages sont mises à jour de temps en temps. D'ailleurs la fréquence de visite de GoogleBot sur une page web dépend de son PageRank : plus il est grand, plus il l'indexera souvent. D'un passage à l'autre, GoogleBot peut détecter une page devenue inexistante ("erreur 404").

L'indexation
Cette masse colossale d'informations, Google va l'analyser, la décortiquer jusque dans les moindres détails. A chaque mot ou phrase est en effet associé son type, basé sur le langage HTML. C'est ainsi qu'un mot contenu dans le titre sera jugé plus important que dans le corps du texte. Une échelle de valeurs classe les types de mots (titre de la page, titre de paragraphe H1 à H6, gras, italique, etc.). Ce pré-traitement, associé à d'autres critères dont celui du PageRank, permet de fournir les résultats les plus pertinents en premier.

Rappel des systèmes de crawl et d'indexation
Il est déjà loin le temps où Google ne mettait à jour son index qu'une fois par mois ! C'était la période mythique de la Google Dance pendant laquelle les résultats oscillaient entre l'ancien et le nouvel index, selon le data center de Google utilisé pour répondre à la requête de l'internaute.

Ensuite, Google a mis en place ce qu'on a appelé l'everflux, c'est-à-dire la mise à jour permanente de son index (et a fortiori des résultats).

Le système de crawl de Google
Découverte d'URL et niveaux de crawl
Google peut découvrir des nouvelles URL de 3 façons :

soumission directe dans le formulaire adéquat
crawl et analyse des liens sur les pages
soumission de listings (RSS, fichiers sitemaps, et autres formes de syndication)

Pour récupérer le contenu de ces nouvelles pages, Google a créé 3 couches de pages associées :

la couche de base contient la plupart des pages du web. Elles sont crawlées régulièrement, à une fréquence liée à la fréquence de mise à jour du contenu sur ces pages ainsi qu'à leur PageRank.
la couche quotidienne contient un petit nombre de pages (en comparaison avec la couche de base) qui sont crawlées de façon quotidienne.
la couche temps réel contient un nombre de pages encore plus restreint, qui sont crawlées en temps réel (avec une fréquence de l'ordre de la minute ou de l'heure).

Apparemment il n'y a pas 3 types de robots mais un seul : Googlebot sait gérer les 3 couches de pages à crawler.

Google calcule pour chaque page un score de crawl, qui lui sert à déterminer à quelle couche elle sera associée. Certaines thématiques sont traitées de façon spécifique, comme par exemple l'actualité.

Gestion des redirections
Quand le crawler détecte une redirection (code HTTP sous la forme 3XX), il réagit différemment selon le type de redirection :

pour une redirection temporaire (302), le robot crawle immédiatement la page vers laquelle il est redirigé
pour une redirection permanente (301), le robot transmet l'information à d'autres systèmes et reviendra crawler plus tard la page vers laquelle il est redirigé. On peut imaginer que dans ce cas, un traitement plus complexe est mis en œuvre, afin de transférer tout ce qui était connu à propos de l'ancienne URL vers la nouvelle (avec fusion des informations si l'URL finale était déjà connue).

Analyse des liens et détection de contenus dupliqués
Quand le crawler récupère une page, son contenu et les liens sont ensuite analysés. Un log des liens trouvés sur la page est envoyé par le crawler à d'autres programmes en charge de ces analyses plus poussées. Parmi ces analyses, on trouve :

l'analyse du contenu de la page
le calcul d'une signature à partir de l'URL de la page, pour servir à la détection de contenus dupliqués
le calcul d'une signature à partir du contenu de la page, pour servir à la détection de contenus dupliqués
l'analyse du texte des liens et même du texte autour des liens (c'est utilisé pour l'analyse off page)
la détection de contenu dupliqué au niveau d'une page
la détection de contenu dupliqué au niveau d'un site

Au sujet de l'analyse du texte entourant le lien, Google donne un exemple dans son brevet : il s'agit d'une page A qui fait un lien texte vers une autre page B contenant une photo du Mont Everest :

<p>Pour voir une photo du Mont Everest, <a href="page-B.html">cliquez ici</a></p>

Même si ce lien n'est pas optimal pour le positionnement de la page B (car l'anchor text ne contient pas de mot-clé stratégique), Google peut tenir compte du fait qu'il y a des mots-clés juste à côté du lien. Cette information est stockée dans ce que les auteurs du brevet appellent la carte des ancres (Anchor Map). C'est peut-être rassurant mais il est indéniable qu'il vaut mieux avoir un ou plusieurs mots ciblés dans l'anchor text...

Conclusion
Les informations décrites ici sont issues d'un brevet, il n'est donc pas garanti que le système décrit ici soit en place. Par ailleurs, ce brevet Anchor tag indexing in a web crawler system est très vieux (il a été déposé en juillet 2003 et accepté fin 2007) et Google a sans doute adapté son système depuis...

Pour en savoir plus au sujet de ce brevet :

auteurs : Huican Zhu, Jeffrey Dean, Sanjay Ghemawat, Bwolen Po-Jen Yang, and Anurag Acharya
attribué à Google sous le numéro 7,308,643
déposé le 3 juillet 2003 et attribué le 11 décembre 2007
les détails : sur le site uspto.gov ou dans l'excellente analyse de Bill Slawski

Szarah · 20 Août 2008

C'est un article réellement très intéressant, il y a matière à discussion en effet.
Mon sentiment depuis 2006, c'était que GG donnait une certaine priorité au crawl des redirections (c'est pour ça que j'avais froidement mis les berszerkers derrière une 302 du root).

e-kiwi · 20 Août 2008

moi ce qui m'intéresse, c'est d'avoir plus d'informations sur :
"certaines thématiques sont traitées de façon spécifique, comme par exemple l'actualité."

si quelqu'un en a...

Zecat · 20 Août 2008

Intéressante cette notion de couches de périodes différentes qui explique pas mal de constats fait régulièrement en matière de crawlabilité. allez hop une reco :wink:

V1tr1neMag1que · 20 Août 2008

interressant
+1 reco

WebRankInfo · 20 Août 2008

Merci, je suis sur une bonne lancée avec mes derniers articles vu vos remerciements. J'en ai encore qq uns sous le coude pour la rentrée

e-kiwi · 20 Août 2008

en même temps, je pense que celui là est intéressant pour tous les membres de Wri, quelqusoit le niveau. j'ai mis une reco aussi, et je crois que depuis le début c'est la seconde que je met, c'est pour dire

Madrileño · 20 Août 2008

Très intéressant article pour mieux comprendre les crawls et le fonctionnement de Google.

guide-de-stockholm · 20 Août 2008

Donc si je comprends bien, un site qui est dans la "couche de base" et qui se fait pomper son contenu par un site dans la "couche quotidienne" sera celui qui fait du duplicate content parce que le second site sera plus rapidement indexé et donc son contenu considéré comme plus ancien?

Fnnyaert · 20 Août 2008

Rien de bien nouveau. On sait bien que la fréquence de crawl des pages sur internet n'est pas la même pour toutes et que beaucoup de paramètres rentrent en jeu (comme ceux que tu as marqué et sûrement d'autres).

J'aime bien quand tu marques "est très vieux (il a été déposé en juillet 2003 et accepté fin 2007) et Google a sans doute adapté son système depuis..." et dans le titre de ton lien " l'état actuel du système " ...

Zecat · 20 Août 2008

e-kiwi a dit:
en même temps, je pense que celui là est intéressant pour tous les membres de Wri, quelqusoit le niveau. j'ai mis une reco aussi, et je crois que depuis le début c'est la seconde que je met, c'est pour dire

Le kiwi est radin :d

Zecat · 20 Août 2008

guide-de-stockholm a dit:
Donc si je comprends bien, un site qui est dans la "couche de base" et qui se fait pomper son contenu par un site dans la "couche quotidienne" sera celui qui fait du duplicate content parce que le second site sera plus rapidement indexé et donc son contenu considéré comme plus ancien?

Il ne faut pas confondre :

- Crawl de la page (qui permet de prendre date)
- Insertion dans l'index (les fameuses couches)

guide-de-stockholm · 20 Août 2008

Zecat a dit:
guide-de-stockholm a dit:

Donc si je comprends bien, un site qui est dans la "couche de base" et qui se fait pomper son contenu par un site dans la "couche quotidienne" sera celui qui fait du duplicate content parce que le second site sera plus rapidement indexé et donc son contenu considéré comme plus ancien?

Cliquez pour agrandir...

Il ne faut pas confondre :

- Crawl de la page (qui permet de prendre date)
- Insertion dans l'index (les fameuses couches)

Justement, le site qui est crawlé plus fréquemment aura la date la plus ancienne (de crawl pour un contenu en particulier).

Zecat · 20 Août 2008

Je suppose qu'avant le crawl il y a une phase "inventaire des pages" qui permet de résoudre ce pb ... sinon ca serait trop facile et ca se saurait en plus.

Djoule_logo · 20 Août 2008

Zecat a dit:
guide-de-stockholm a dit:

Donc si je comprends bien, un site qui est dans la "couche de base" et qui se fait pomper son contenu par un site dans la "couche quotidienne" sera celui qui fait du duplicate content parce que le second site sera plus rapidement indexé et donc son contenu considéré comme plus ancien?

Cliquez pour agrandir...

Il ne faut pas confondre :

- Crawl de la page (qui permet de prendre date)
- Insertion dans l'index (les fameuses couches)

Oui, mais on est bien d'accord qu'un site faisant partie de la couche quotidienne sera crawlé tres frequement (sans parler d'inclusion dans l'index). Donc une nouvelle page sera très vite vue. Alors qu'un site de la couche de base sera crawler moins frequement, et une nouvelle page peut être decouverte plusieurs jours après sa mise en ligne.
Le problème du DC reste donc entier.

domdom26 · 21 Août 2008

Ce qui serait bien aussi, c'est une explication sur comment et pourquoi une page actualité est priorisé et ensuite mis très loin aux oubliettes. Donc comment concevoir une page qui traite d'Actualités tous en restant dans le Top10 sur google pendant plusieurs mois.

Szarah · 21 Août 2008

domdom26 a dit:
Ce qui serait bien aussi, c'est une explication sur comment et pourquoi une page actualité est priorisé et ensuite mis très loin aux oubliettes. Donc comment concevoir une page qui traite d'Actualités tous en restant dans le Top10 sur google pendant plusieurs mois.

L'"actualité" est un truc jetable par excellence. Une dépêche sera logiquement mise au top puis chassée par les analyses et les dossiers la concernant.
C'est la réponse : évolution.
Les malins modifient à peine le papier de départ, lui ajoutant les menues nouveautés, et ils modifient légèrement le title en gardant les mots-clés. Suffit de surveiller GG-news pour le constater.

e-kiwi · 21 Août 2008

je pense effectivement que Google sait gérer ce cas.

WebRankInfo · 21 Août 2008

en cas de contenus dupliqués, pour identifier la source, Google utilise d'autres critères que la chronologie des crawls des différentes versions. Par exemple, le netlinking entre en jeu

@Fnnyaert : merci pour la remarque, je vais corriger mon titre. Par contre je vais oublier le reste de ton message, car j'ai du mal avec ceux qui ne sont jamais satisfaits de trouver gratuitement du contenu sur WRI...

edit : ce n'était pas un titre mais un sous-titre à l'intérieur de l'article. J'avais mis "actuel" par opposition à la description du système de crawl datant de l'époque des Google Dance. enfin bon, c'est du détail hein...

tophus · 22 Août 2008

Merci, bon article!

Pour en revenir à la découverte d'URL et niveaux de crawl:
Je rajouterais Google peut également découvrir par la google toolbar. Je crois que ce n'est plus à démontrer.

WebRankInfo · 22 Août 2008

tophus a dit:
Je rajouterais Google peut également découvrir par la google toolbar. Je crois que ce n'est plus à démontrer.

Matt Cutts a pourtant encore dit le contraire le mois dernier : http://www.mattcutts.com/blog/toolbar-i ... bunk-post/

cela dit ce n'est pas bien important...

Audiofeeline · 22 Août 2008

e-kiwi a dit:
moi ce qui m'intéresse, c'est d'avoir plus d'informations sur :
"certaines thématiques sont traitées de façon spécifique, comme par exemple l'actualité."

En effet, je suis assez concerné par ça. Le fait de traiter des "news du jour" favorise un peu l'indexation. Je ne sais pas trop comment ça fonctionne (j'imagine que c'est un truc qui utilise le principe de Google News) mais généralement Google arrive a positionner des résultats récents notamment sur des trucs qui buzz durant une journée par exemple.
Après c'est classique : ancienneté du site, force du référencement, pertinence, etc.
C'est assez nouveau, ça du être introduit en même temps que l'indexation en "temps réel".

tophus a dit:
Je crois que ce n'est plus à démontrer.

Négatif, Olivier, tu n'as pas fait des tests là dessus ?
Je pencherai plus pour une histoire de cookie ou de referer.

Szarah · 22 Août 2008

Avec la GGbar installée, la consultation d'une page envoie une requête à GG pour pouvoir afficher le PR de la page, je pense que ça, c'est certain.
Maintenant, si Matt Cutts affirme que quand GG reçoit l'info qu'il existe une page inconnue de sa bdd, il ne fait rien, bin ok, ok ok. S'il le dit ...

Druidefou · 22 Août 2008

En lisant ça, je vois que j'ai encore du chemin à parcourir. Je n'avais pas du tout connaissance de ce genre de système, même si à le lire ça semble plutôt logique.

Mais un site qui ne fait pas d'actualités, mais qui a un contenu mis à jour quotidiennement. Par exemple je prends mon cas, les membres viennent mettre des projets. Le jour où le site aura une activité importante, il y aura beaucoup de projets posté chaque jour. Si en page d'accueil je mets les derniers projets ajoutés, google vient t'il chaque minute, ou préfère t'il mettre comme un site à voir quotidiennement, ou alors je reste définitivement en couche de base ?

Madrileño · 22 Août 2008

WebRankInfo a dit:
Matt Cutts a pourtant encore dit le contraire le mois dernier : http://www.mattcutts.com/blog/toolbar-i ... bunk-post/
cela dit ce n'est pas bien important...

C'est toujours intéressant de savoir l'information.

V1tr1neMag1que · 22 Août 2008

Druidefou a dit:
Si en page d'accueil je mets les derniers projets ajoutés, google vient t'il chaque minute, ou préfère t'il mettre comme un site à voir quotidiennement, ou alors je reste définitivement en couche de base ?

tu as la réponse au dessus :

Audiofeeline a dit:
Après c'est classique : ancienneté du site, force du référencement, pertinence, etc..

tout simplement

tophus · 22 Août 2008

Je veux bien croire Matt Cutts....
Mais dans ce cas, difficile d'expliquer comment des sites en cours de dev se retrouvent indexés.
Je travail seul, aucune personne ne connais mes ndd en cours de dev, aucun lien, pas de rss , rien.
Dernier exemple; j'utilise un cms, je copie mes BDD d'un site à l'autre pour tester avec du contenu.
Surprise, je retrouve indexé le site en dev en moins de 24h.
Avec en prime un contenu dupliqué. et une apparition sur la première page des deux site en questions.....
Je vois vraiment pas comment le site a été crawlé si ce n'ai pas par GGbar. le site est uniquement indexé dans GG, aucun autre moteur ne l'a trouvé...
GG ferait peut être dans la voyance.

thony25 · 22 Août 2008

WebRankInfo a dit:
tophus a dit:

Je rajouterais Google peut également découvrir par la google toolbar. Je crois que ce n'est plus à démontrer.

Cliquez pour agrandir...

Matt Cutts a pourtant encore dit le contraire le mois dernier : http://www.mattcutts.com/blog/toolbar-i ... bunk-post/

cela dit ce n'est pas bien important...

Je travaillais sur un site il y a quelques mois. Je suis le seul à connaître l'url. Et ben google le connait déjà... et j'ai une toolbar

bon article sinon

YoyoS · 22 Août 2008

Et pourquoi vous avez la barre google au fait ?

Si y a bien un truc inutile, c'est ça !

Fnnyaert · 22 Août 2008

thony25 a dit:
Je suis le seul à connaître l'url. Et ben google le connait déjà...

Toutes façons Google connaît tout ... la dernière fois je cherchais mon portable, j'ai demandé à Google il m'a indiqué qu'il était sous mon lit ... formidable, mais jusqu'où iront ils ...

Sérieusement si Matt Cutts a indiqué que non pour la toolbars c'est peut être pour que les gens continuent à l'installer sans crainte ... après tout, se faire tiré des informations à son insu n'est pas très rassurant. Mais c'est vrai que c'est pas très important.

Madrileño · 22 Août 2008

YoyoS a dit:
Et pourquoi vous avez la barre google au fait ? Si y a bien un truc inutile, c'est ça !

Pour les corrections orthographiques manquantes de FireFox. :mrgreen:

YoyoS · 22 Août 2008

Y a des dictionnaires à ajouter comme des extensions pour firefox

Thierry Bugs · 26 Août 2008

YoyoS a dit:
Y a des dictionnaires à ajouter comme des extensions pour firefox

la majorité des surfeurs ne se servent pas de firefox

la google barre c'est pour surveiller le pagerank bien entendu :lol:
(moi je me sers aussi du moteur de recherche intégré,
du lien direct vers gmail)

arnaudmn · 26 Août 2008

Thierry Bugs a dit:
la google barre c'est pour surveiller le pagerank bien entendu

Mais aussi pour l'orthographe dans les formulaires

fredfan · 26 Août 2008

Thierry Bugs a dit:
la majorité des surfeurs ne se servent pas de firefox

Chez les développeurs et les référenceurs je pense que les utilisateurs régulier d'internet explorer ne sont pas légion, à part pour tester les corrections de bug (et encore : ie tab permet de profiter des plugins de firefox tout en affichant avec ie)

nicolo · 26 Août 2008

Hello, très interessant effectivement,
si je peux me permettre d'ajouter une remarque sur l'intro liée à mon epxerience :
"Google peut découvrir des nouvelles URL de 3 façons" : j'ai indexé un site dans google sans aucune de ces 3 façons, ce site avait des tags google Addsense pendant son devt et voilà que je le retrouve ds l'index de Google après 2 semaines de devt... Et si ce n'est pas les tags Addsens qui ont dvoilé l'existence dudit site, j'ai ouie dire que la Google Toolbar, que j'ai sur mon navigateur, pouvait renvoyer l'existence d'un nouveau site et donc entrainer son indexation.

dadovb · 29 Août 2008

WebRankInfo a dit:
tophus a dit:

Je rajouterais Google peut également découvrir par la google toolbar. Je crois que ce n'est plus à démontrer.

Cliquez pour agrandir...

Matt Cutts a pourtant encore dit le contraire le mois dernier : http://www.mattcutts.com/blog/toolbar-i ... bunk-post/

cela dit ce n'est pas bien important...

Ce serait pas la première fois qu'il raconte des cracks celui-ci, son blog c'est quand même de la comm. pour webmaster...

J'ai des urls d'outils privés de ma société qui se sont retrouvés indexés dans google alors qu'il n'y a évidemment aucun lien pointant dessus...et un robots.txt dans le dossier 8O

christophetek · 2 Septembre 2008

Bonjour et merci pour cet article très intéressant.
Pour un débutant comme moi y'a déjà assez de zones d'ombre dans le fonctionnement de :?: GoogleCorp :?: comme ça alors des articles dans ce genre sont vraiment les bienvenus ...
On en veut encore ! Bonne réf à tous :wink:

Aye-Aye · 3 Septembre 2008

Trés bon article.

WebRankInfo · 3 Septembre 2008

Aye-Aye a dit:
Trés bon article.

Merci