Duplicate Content et Robots.txt

slimooo · 8 Mars 2010

Bonjour,

je me pose la question depuis quelques temps déjà...

Exemple: sur sa page1 le site 1 plagie le site 2. Mais le site1 exclue la page1 de l'indexation grâce au Robots.txt

Le site1 sera-t-il sanctionné pour duplicate content par google?

jeanluc · 8 Mars 2010

Si une page est exclue par robots.txt, Googlebot ne lira pas la page, il ne saura donc pas qu'elle est une copie d'une autre page et le duplicate content ne sera pas détecté.

Jean-Luc

fredfan · 9 Mars 2010

Elle ne sera pas indexée non plus. Quel intérêt alors ?
Ca reste du plagiat juridiquement quand même.

daerf59 · 9 Mars 2010

Bonjour,

Je partage un autre point de vue.

Une page exclue par le fichier robots.txt ne veut pas dire "ignoré" par Google. J'ai déjà vu des pages exclue et indexées quand meme par Google.
Le fichier robots.txt est plus une régle de conduite qu'une règle absolue.
Donc oui il y a plagiat c'est sur.
Maintenant il peut y avoir DC si la page est indéxée par Google ( a condition que le contenu est vraiment identique)

jeanluc · 9 Mars 2010

daerf59 a dit:
Maintenant il peut y avoir DC si la page est indéxée par Google ( a condition que le contenu est vraiment identique)

Non.

Si elle est exclue par robots.txt, d'accord avec toi que son URL peut être indexée, mais sans son contenu qui n'aura pas été visité par Google, donc il n'y aura pas de DC.

DC ou pas, une copie non autorisée est une copie non autorisée. :mrgreen:

Jean-Luc

5_legs · 9 Mars 2010

jeanluc a dit:
daerf59 a dit:

Maintenant il peut y avoir DC si la page est indéxée par Google ( a condition que le contenu est vraiment identique)

Cliquez pour agrandir...

Non.

Si elle est exclue par robots.txt, d'accord avec toi que son URL peut être indexée, mais sans son contenu qui n'aura pas été visité par Google, donc il n'y aura pas de DC.

DC ou pas, une copie non autorisée est une copie non autorisée. :mrgreen:

Jean-Luc

C'est une remarque intéressante car on pense souvent qu'il suffit de mentionner une page dans un robots.txt pour qu'elle ne soit indexée et c'est peine perdue.

Le contenu ne sera pas indexé comme tu le souligne mais cela n'empêche pas l'url de l'être et ce, même si "en +" on a pris soin d'intégrer une balise meta robots none.

J'ai un cas sous les yeux avec près de 2000 pages (urls) indexées (sans contenu) alors qu'elles sont mentionnées dans le robots.txt et dans les meta.
Quelque part, à mes yeux ce n'est pas logique...

daerf59 · 9 Mars 2010

Donc on est d'accord jeanluc

SI la page indéxée oui il peut y avoir DC. Si Google ne l'a pas indexée aucun risque.
Maintenant je te rejoins aussi, je vois pas trop l'intérêt d'une telle pratique

daerf59 · 9 Mars 2010

Effectivement 5_legs.

Le meilleur de voir un dossier ou une page ignoré par Google et de protéger le dossier ou la page par une authentification.

jeanluc · 9 Mars 2010

5_legs a dit:
Le contenu ne sera pas indexé comme tu le souligne mais cela n'empêche pas l'url de l'être et ce, même si "en +" on a pris soin d'intégrer une balise meta robots none.

Une balise META placée dans une page interdite par robots.txt ne sera pas lue, puisque la lecture de la page est interdite. Donc, dans ce cas, elle ne sert à rien.

Si on veut utiliser la META robots, la page ne doit pas être interdite par robots.txt. Et ainsi, ça marche très bien.

Parfois le plus simple est d'utiliser l'outil de suppression des URL des GWT.

Jean-Luc

P.S. ne dites pas que Google ne respecte pas robots.txt ou donnez un exemple concret vérifiable :lol:

5_legs · 9 Mars 2010

jeanluc a dit:
P.S. ne dites pas que Google ne respecte pas robots.txt ou donnez un exemple concret vérifiable :lol:

Tu vas en recevoir un par MP :mrgreen: