Bonjour,
Tout d'abord merci à WRI dont je suis un assidu. Ceci est ma première intervention sur ce forum, et je vais faire de mon mieux pour contribuer régulièrement.
Je viens de prendre en charge l'administration du site www.cfbt-asso.com. Sur ce site, chaque formation est décrite sur une page web avec possibilité de télécharger une fiche PDF reprenant plus en détails cette description. Manifestement, Google a considéré qu'il y avait duplicate content, et il semble que c'est la fiche PDF qui était considéré comme canonique, puisque les requêtes faisaient apparaître les PDF plutôt que les pages web.
J'ai beaucoup hésité sur la solution à adopter, et je commence à croire que j'ai fait un mauvais choix. L'idée, c'était de laisser Google indexer les fiches PDF mais en indiquant que la page canonique est la page web. Pour cela, j'ai utilisé la méthode indiquée par exemple ici : http://moz.com/blog/how-to-advanced-relcanonical-http-headers (3ème méthode : "HTTP Header Implementation"). Par ailleurs, j'ai fait un chmod 500 sur les fiches PDF, ce qui fait qu'un accès direct provoque une erreur 404.
J'ai supposé que Google allait donc désindexer progressivement les fiches PDF et indexer progressivement les fiches alternatives basées sur la méthode "HTTP Header Implementation". Pour le moment, le seul effet visible, c'est une liste d'erreurs d'exploration qui s'allonge chaque jour dans Google Webmaster Tools (bizarrement, certaines dans la catégorie "accès refusé", d'autres dans la catégorie "introuvable").
Cela m'inquiète : ai-je fait une bêtise ?
Merci d'avance.
Philippe
Tout d'abord merci à WRI dont je suis un assidu. Ceci est ma première intervention sur ce forum, et je vais faire de mon mieux pour contribuer régulièrement.
Je viens de prendre en charge l'administration du site www.cfbt-asso.com. Sur ce site, chaque formation est décrite sur une page web avec possibilité de télécharger une fiche PDF reprenant plus en détails cette description. Manifestement, Google a considéré qu'il y avait duplicate content, et il semble que c'est la fiche PDF qui était considéré comme canonique, puisque les requêtes faisaient apparaître les PDF plutôt que les pages web.
J'ai beaucoup hésité sur la solution à adopter, et je commence à croire que j'ai fait un mauvais choix. L'idée, c'était de laisser Google indexer les fiches PDF mais en indiquant que la page canonique est la page web. Pour cela, j'ai utilisé la méthode indiquée par exemple ici : http://moz.com/blog/how-to-advanced-relcanonical-http-headers (3ème méthode : "HTTP Header Implementation"). Par ailleurs, j'ai fait un chmod 500 sur les fiches PDF, ce qui fait qu'un accès direct provoque une erreur 404.
J'ai supposé que Google allait donc désindexer progressivement les fiches PDF et indexer progressivement les fiches alternatives basées sur la méthode "HTTP Header Implementation". Pour le moment, le seul effet visible, c'est une liste d'erreurs d'exploration qui s'allonge chaque jour dans Google Webmaster Tools (bizarrement, certaines dans la catégorie "accès refusé", d'autres dans la catégorie "introuvable").
Cela m'inquiète : ai-je fait une bêtise ?
Merci d'avance.
Philippe