J'ai un doute sur le robots.txt

WRInaute impliqué
Bonjour,

J'ai un petit doute sur une syntaxe du robots.txt.

J'aimerais autoriser l'indexation de l'url monsite.com/fichier.htm
Mais interdire l'indexation de toutes urls "doublons" de type monsite.com/fichier.htm?variable=valeur

Suffit-il d'insérer la commande suivante dans le robots.txt :

Code:
Disallow: /fichier.htm?

Bien entendu, je pourrais faire des tests en PHP pour insérer, ou pas, une méta robot dans le head, mais l'utilisation du fichier robots.txt me paraît plus propre et efficace (d'un point de vue technique).

Merci par avance pour votre aide
 
WRInaute impliqué
Le contenu n'est pas exactement le même. Il y a en fait différentes variables qui servent notamment à trier une même liste dans un ordre différent.

Je ne pense pas que l'url canonique soit la réponse adéquate à ce type de problématique, à moins que je me trompe ?
 
Olivier Duffez (admin)
Membre du personnel
si c'est juste du tri, alors je te conseille la balise d'URL canonique ou le traitement des paramètres dans GWT
 
WRInaute accro
Uniquement pris en charge par Google-Bot.
La correspondance de format peut être utilisée avec l'instruction Allow. Par exemple, si un signe "?" indique un identifiant de session, vous pouvez exclure toutes les URL contenant ce signe pour que Googlebot n'explore pas de pages en double. Toutefois, une URL qui se termine par un point d'interrogation peut correspondre à la version de la page que vous souhaitez inclure. Dans ce cas, configurez votre fichier robots.txt de la manière suivante :

User-agent: *
Allow: /*?$
Disallow: /*?
L'instruction Disallow: / *? bloque toute URL contenant un point d'interrogation. (En d'autres termes, elle bloque toute URL qui commence par votre nom de domaine, suivi d'une chaîne, d'un point d'interrogation, puis d'une chaîne).

L'instruction Allow: /*?$ autorise l'accès à toute URL se terminant par un point d'interrogation. (En d'autres termes, elle autorise l'accès à toute URL qui commence par votre nom de domaine, suivi d'une chaîne et qui se termine par un point d'interrogation : aucun caractère ne doit être ajouté après le point d'interrogation).
Source
 
WRInaute accro
nza2k a dit:
J'aimerais autoriser l'indexation de l'url monsite.com/fichier.htm
Mais interdire l'indexation de toutes urls "doublons" de type monsite.com/fichier.htm?variable=valeur

Suffit-il d'insérer la commande suivante dans le robots.txt :

Code:
Disallow: /fichier.htm?
C'est parfaitement correct.

Les remarques d'Olivier le sont aussi !

Jean-Luc
 
WRInaute accro
Bonjour

Pour ma part, sur les sites e-commerce que je gère j'utilise deux choses :
- la balise URL Canonique
- la balise META robots (à "noindex,follow" uniquement pour les pages avec pagination >2 et/ou tri des articles)

Je fais le test pour chaque page, dès le début d'appel de page (cela me permet au passage de vérifier l'unicité de l'URL... et de faire une redirection 301 en cas de différence latente)

Le bilan est très positif :)

Bien évidemment faut éviter d'avoir 50 pages de produits dans une catégorie unique, mais de manière générale ça fonctionne vraiment bien.
 
WRInaute discret
Moi aussi j'ai un doute sur le Robots.txt

qu'est ce qui sera désindexé avec ceci :

Disallow: /dossier/sous-dossier/

... Uniquement le sous-dossier n'est ce pas ? Merci


cedric_g a dit:
Bonjour

Pour ma part, sur les sites e-commerce que je gère j'utilise deux choses :
- la balise URL Canonique
- la balise META robots (à "noindex,follow" uniquement pour les pages avec pagination >2 et/ou tri des articles)

Je fais le test pour chaque page, dès le début d'appel de page (cela me permet au passage de vérifier l'unicité de l'URL... et de faire une redirection 301 en cas de différence latente)

Le bilan est très positif :)

Bien évidemment faut éviter d'avoir 50 pages de produits dans une catégorie unique, mais de manière générale ça fonctionne vraiment bien.

Je m'écarte peut être du sujet, mais tu devrais revérifier tes redirections sur ton blog pour chats (je te donne une piste Nom de chat commençant par la lettre A)
 
Discussions similaires
Haut