Disallow et noindex pour des pages filtres

WRInaute discret
Bonjour,

J'ai des pages que je ne souhaite ni faire suivre par les MR, ni indexer. Je précise qu'elle n'ont pas encore été mises en ligne.
Il me semble que la meilleure façon de faire est de mettre un disallow dans le fichier robots.txt pour empêcher les moteurs d'aller les crawler ? Et de rajouter un noindex sur ces pages au cas où les MR décideraient tout de même de les suivre ?

Mais je lis sur certains blogs et dans l'aide de Google qu'il ne faut pas bloquer le suivi des pages qu'on ne souhaite pas voir indexer, sinon Google ne peut pas accéder à la balise noindex. Mais cela ne s'applique-t-il pas uniquement si les pages ont déjà été indexées ? Car normalement, si Google ne les suit pas il ne peut pas les indexer, si ? Et si au pire il les suit, il verra le noindex, non ?

Autre question, les pages que je souhaite ne pas faire suivre par Google ne sont pas rattachées à un répertoire et sont des URL générées par des paramètres de filtres. Elles sont de type : /mediatheque?themes=1&type=10

Existe-il un moyen de toutes les mettre en disallow sans avoir à les lister une par une dans le fichier robots.txt ? car cela ne risque-t-il pas de saturer le fichier ?

Merci d'avance de bien vouloir m'éclairer :o
 
WRInaute impliqué
Hello,

Un
Code:
Disallow: /mediatheque
devrait suffire pr le robots.txt
Attention tout de même si des pages "normales" ont une url démarrant par cette chaine de caractères.

Si les pages ne sont pas encore en ligne, pourquoi pas combiner en effet des restrictions sur le fichier robots.txt Et via la meta robots
 
WRInaute discret
Bonjour,

Est-ce que si je mets Disallow: /*?type=, cela indique bien aux moteurs de recherche ne pas suivre les pages filtres de ma rubrique médiathèque (/mediatheque?type=9&themes=4), mais que pour autant les pages normales de ma rubrique pourront elles être suivies ? Je précise que ce type de filtres ne se trouvent que sur cette catégorie donc pas de risque de donner une directive pour une autre rubrique.

Merci d'avance!
 
WRInaute accro
perso je chercherais pas à bloquer le crawl avec le robots.txt, j'utiliserais le meta noindex c'est certains mais je ne mettrais pas de nofollow.
 
WRInaute discret
Salut Zeb,
Merci pour ta réponse. Mais pourquoi? Si elles n'ont pas d'intérêt en terme de sémantique, pourquoi ne pas demander aux robots de ne pas perdre leur temps à aller les crawler ?
J'aimerais connaitre ton point de vue :)
 
WRInaute accro
le robots txt c'est bien mais bon tu peux être amené a crawler pour autre chose comme la pub par exemple ... le noindex suffit a les exclure des indexs ... on ne sais jamais elles peuvent recevoir un lien (donc du jus) d'ou le follow.
 
Discussions similaires
Haut