Disallow et noindex pour des pages filtres

Beakido177 · 11 Juin 2015

Bonjour,

J'ai des pages que je ne souhaite ni faire suivre par les MR, ni indexer. Je précise qu'elle n'ont pas encore été mises en ligne.
Il me semble que la meilleure façon de faire est de mettre un disallow dans le fichier robots.txt pour empêcher les moteurs d'aller les crawler ? Et de rajouter un noindex sur ces pages au cas où les MR décideraient tout de même de les suivre ?

Mais je lis sur certains blogs et dans l'aide de Google qu'il ne faut pas bloquer le suivi des pages qu'on ne souhaite pas voir indexer, sinon Google ne peut pas accéder à la balise noindex. Mais cela ne s'applique-t-il pas uniquement si les pages ont déjà été indexées ? Car normalement, si Google ne les suit pas il ne peut pas les indexer, si ? Et si au pire il les suit, il verra le noindex, non ?

Autre question, les pages que je souhaite ne pas faire suivre par Google ne sont pas rattachées à un répertoire et sont des URL générées par des paramètres de filtres. Elles sont de type : /mediatheque?themes=1&type=10

Existe-il un moyen de toutes les mettre en disallow sans avoir à les lister une par une dans le fichier robots.txt ? car cela ne risque-t-il pas de saturer le fichier ?

Merci d'avance de bien vouloir m'éclairer

nza2k · 11 Juin 2015

Hello,

Un

Code:

Disallow: /mediatheque

devrait suffire pr le robots.txt
Attention tout de même si des pages "normales" ont une url démarrant par cette chaine de caractères.

Si les pages ne sont pas encore en ligne, pourquoi pas combiner en effet des restrictions sur le fichier robots.txt Et via la meta robots

UsagiYojimbo · 11 Juin 2015

Si elles n'ont pas encore été indexées, ta solution est la bonne.

Beakido177 · 11 Juin 2015

Merci beaucoup pour vos réponses, c'est plus clair comme ça !

Beakido177 · 11 Juin 2015

nza2k a dit:
Attention tout de même si des pages "normales" ont une url démarrant par cette chaine de caractères.

C'est le cas malheureusement. Un Disallow:/mediatheque? ne pourrait pas marcher ?

Beakido177 · 12 Juin 2015

Bonjour,

Est-ce que si je mets Disallow: /*?type=, cela indique bien aux moteurs de recherche ne pas suivre les pages filtres de ma rubrique médiathèque (/mediatheque?type=9&themes=4), mais que pour autant les pages normales de ma rubrique pourront elles être suivies ? Je précise que ce type de filtres ne se trouvent que sur cette catégorie donc pas de risque de donner une directive pour une autre rubrique.

Merci d'avance!

zeb · 12 Juin 2015

perso je chercherais pas à bloquer le crawl avec le robots.txt, j'utiliserais le meta noindex c'est certains mais je ne mettrais pas de nofollow.

Beakido177 · 12 Juin 2015

Salut Zeb,
Merci pour ta réponse. Mais pourquoi? Si elles n'ont pas d'intérêt en terme de sémantique, pourquoi ne pas demander aux robots de ne pas perdre leur temps à aller les crawler ?
J'aimerais connaitre ton point de vue

zeb · 12 Juin 2015

le robots txt c'est bien mais bon tu peux être amené a crawler pour autre chose comme la pub par exemple ... le noindex suffit a les exclure des indexs ... on ne sais jamais elles peuvent recevoir un lien (donc du jus) d'ou le follow.