CRAWLER GOOGLEBOT / ROBOT.txt et META ROBOT

Ricky67 · 31 Août 2012

Petite question.

Comment réagit googlebot s'il trouve sur un site le fichier robot.txt à la racine et une valise :
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> dans quelques pages.

Que va t-il lire en premier ?
Mais surtout qui est prioritaire ? et le plus restrictif ?

WebRankInfo · 1 Septembre 2012

le robots.txt c'est en amont : il liste les endroits où le robot ne doit pas mettre les pieds. Et en général il est obéissant (je parle de googlebot).

par exemple si tu ajoutes un noindex dans une page que tu bloques également par le robots.txt, si jamais cette page était déjà indexée alors Google ne la désindexera pas (puisque tu lui interdis d'aller la voir, il ne peut pas deviner que tu ne veux plus l'indexer)

c'est toute la différence entre le crawl et l'indexation

Ricky67 · 4 Septembre 2012

A ton avis quelle est la "bonne" méthode,
Laisser "tout ouvert" au niveau du fichier robot.txt et appliquer des "noindex" sur des pages
ou plutôt centraliser l'ensemble des paramètres dans le robot.txt ?