Soumissions croisées de sitemaps via le fichier robots.txt

Olivier Duffez (admin)
Membre du personnel

Comment gérer simplement les sitemaps de plusieurs sites au même endroit​

Si vous gérez plusieurs sites, vous avez peut-être rencontré le cas où ça aurait été plus simple pour vous de centraliser au même endroit (sur un même site) tous les sitemaps de ces différents sites. C'était possible depuis octobre 2007 mais un peu compliqué, aujourd'hui c'est facilité par le biais du fichier robots.txt : explications...

On va reprendre ça calmement et dans l'ordre :

  • Google (et les autres moteurs) permet au webmaster de lister les pages de son site qu'il veut voir crawlées et indexées : il suffit de créer un fichier sitemap
  • Ce fichier sitemap est un fichier XML ou texte stocké sur le site concerné
  • S'il n'a pas déjà créé un compte Search Console, le webmaster doit prouver à Google qu'il est bien l'éditeur du site : pour cela il doit uploader un fichier spécifique (ou mettre une balise meta dans sa page d'accueil). On appelle ça la phase de vérification.
  • Le webmaster doit ensuite indiquer à Google où se trouve ce fichier sitemap : pour cela il utilise son compte Google Webmaster Tools, ou plus simplement depuis avril 2007 en indiquant l'adresse du fichier sitemap dans le fichier robots.txt
  • S'il a plusieurs sites à gérer (ou plusieurs sous-domaines du même site), il peut répéter le processus ci-dessus autant de fois que nécessaire, mais ça peut devenir assez laborieux.
  • Depuis octobre 2007 Google permet au webmaster de mettre tous ses fichiers sitemaps (de différents sites) au même endroit (sur un seul serveur) à condition de passer la phase de vérification de chaque site (ou sous-domaine)
  • A partir de maintenant il n'est plus obligatoire de procéder à ces différentes vérifications, il suffit d'indiquer dans le fichier robots.txt l'adresse du sitemap, même s'il est hébergé sur un autre site.
En conclusion si vous gérez les sites www.site1.com et www.site2.com et que vous souhaitez gérer les sitemaps de ces 2 sites au même endroit (sur www.site1.com) :

  • avant il fallait prouver que vous êtes le webmaster des 2 sites en procédant à la vérification de www.site1.com et de www.site2.com
  • maintenant il suffit pour le site secondaire www.site2.com de mettre une ligne dans son fichier robots.txt qui indique que le fichier sitemap de www.site2.com se trouve quelquepart sur www.site1.com
Pour indiquer ça dans le fichier http://www.site2.com/robots.txt il faut ajouter une ligne du style :

Sitemap:

Si mes explications ne sont pas claires, lisez celles de Google qui le seront peut-être plus !
 
WRInaute discret
Je ne sais pas si c'est une révolution et si ça simplifie la vie. D'expérience personnelles, c'est vrai que j'ai plus de 300 sites en stock dans mes comptes webmaster tools, mais en fait quand je cherche des stats de requêtes ou de sitemap indexés, je procède au cas par cas, par "fiche" correspondant à un site.

Enfin moi aussi j'ai du mal à me faire comprendre lol, je veux dire, je préfère avoir toutes les infos relatives à un site (sitemap mais également requêtes les plus fréquentes...) sur une fiche webmaster tool.

Merci pour l'info ceci dit.
Je pratiquais déjà le:
Sitemap: http://www.example.com/sitemap.xml dans le robots.txt suite à tes conseils.
 
WRInaute impliqué
Merci Olivier pour l'article.

Est-ce que ça veut bien dire que n'importe quel site peut créer un sitemap pour d'autres sites ?

Si c'est bien ça, ça me paraît dangereux...
 
Olivier Duffez (admin)
Membre du personnel
nza2k a dit:
Merci Olivier pour l'article.

Est-ce que ça veut bien dire que n'importe quel site peut créer un sitemap pour d'autres sites ?

Si c'est bien ça, ça me paraît dangereux...
non car il faut avoir accès (en écriture) au fichier robots.txt des sites concernés
 
WRInaute passionné
un instant j'ai cru que cela allait faciliter la vie de tous les bloggeurs, en leur permettant d'héberger ailleurs un sitemap, mais non, puisqu'il faut avoir accès aux robots.txt de tous les sites apparemment?

je m'explique: de nombreux bloggeurs utilisent des plateformes sur lesquelles ils ne peuvent uploader ni les fichiers .txt, et encore moins les .xml.

or, au fur et à mesure de leur "apprentissage du web", ils découvrent qu'un plan sitemap, c'est vachement bien. comme ils ne peuvent pas héberger de fichiers aux formats "spéciaux" sur leur blog, et qu'ils hébergent déjà ailleurs leurs .ico et autres .mp3, ils auraient pu espérer beaucoup de cette mesure, mais c'est raté!
 
Olivier Duffez (admin)
Membre du personnel
carole heinz a dit:
un instant j'ai cru que cela allait faciliter la vie de tous les bloggeurs, en leur permettant d'héberger ailleurs un sitemap, mais non, puisqu'il faut avoir accès aux robots.txt de tous les sites apparemment?

je m'explique: de nombreux bloggeurs utilisent des plateformes sur lesquelles ils ne peuvent uploader ni les fichiers .txt, et encore moins les .xml.

or, au fur et à mesure de leur "apprentissage du web", ils découvrent qu'un plan sitemap, c'est vachement bien. comme ils ne peuvent pas héberger de fichiers aux formats "spéciaux" sur leur blog, et qu'ils hébergent déjà ailleurs leurs .ico et autres .mp3, ils auraient pu espérer beaucoup de cette mesure, mais c'est raté!
en effet
mais ces gens-là comprendront que c'est une bêtise d'héberger son blog ailleurs que sur le (nom de) domaine de son site, même si ça présente certains avantages (simplicité)...
 
WRInaute passionné
L'article laisse entendre (au début) que l'on peut mettre les sitemaps de plusieurs sites sur un seul. C'est seulement l'URL des sitemaps que l'on peut mettre dans le robots.txt d'un seul site.
 
WRInaute discret
En mettant l'adresse du sitemap dans le robot.txt, est-ce qu'il y a un moyen ensuite d'accèder aux stats (Dernier téléchargement par Google, nbr de pages indexées) par le biais de Google Webmaster Tools pour le sitemap en question?
 
WRInaute occasionnel
Je fais rebondir cette vieille discussion car il semble bien que la technique proposée soit un peu… dépassé.

En effet, en cherchant une réponse à une épineuse question, je suis tombé sur une réponse de Google
https://www.google.com/support/webmasters/bin/answer.py?hl=fr&answer=75712

Si je comprends bien, place à au sitemap de sitemap… et là, on peut mettre plusieurs noms de domaine et de sous-domaine.

La mise à jour de la fiche date de juin 2010, c'est donc assez récent.

Est-ce quelqu'un a déjà tenté l'expérience ?
 
Discussions similaires
Haut