Duplicate Content et Robots.txt

WRInaute discret
Bonjour,

je me pose la question depuis quelques temps déjà...

Exemple: sur sa page1 le site 1 plagie le site 2. Mais le site1 exclue la page1 de l'indexation grâce au Robots.txt

Le site1 sera-t-il sanctionné pour duplicate content par google?
 
WRInaute accro
Si une page est exclue par robots.txt, Googlebot ne lira pas la page, il ne saura donc pas qu'elle est une copie d'une autre page et le duplicate content ne sera pas détecté.

Jean-Luc
 
WRInaute accro
Elle ne sera pas indexée non plus. Quel intérêt alors ?
Ca reste du plagiat juridiquement quand même.
 
WRInaute discret
Bonjour,

Je partage un autre point de vue.

Une page exclue par le fichier robots.txt ne veut pas dire "ignoré" par Google. J'ai déjà vu des pages exclue et indexées quand meme par Google.
Le fichier robots.txt est plus une régle de conduite qu'une règle absolue.
Donc oui il y a plagiat c'est sur.
Maintenant il peut y avoir DC si la page est indéxée par Google ( a condition que le contenu est vraiment identique)
 
WRInaute accro
daerf59 a dit:
Maintenant il peut y avoir DC si la page est indéxée par Google ( a condition que le contenu est vraiment identique)
Non.

Si elle est exclue par robots.txt, d'accord avec toi que son URL peut être indexée, mais sans son contenu qui n'aura pas été visité par Google, donc il n'y aura pas de DC.

DC ou pas, une copie non autorisée est une copie non autorisée. :mrgreen:

Jean-Luc
 
WRInaute passionné
jeanluc a dit:
daerf59 a dit:
Maintenant il peut y avoir DC si la page est indéxée par Google ( a condition que le contenu est vraiment identique)
Non.

Si elle est exclue par robots.txt, d'accord avec toi que son URL peut être indexée, mais sans son contenu qui n'aura pas été visité par Google, donc il n'y aura pas de DC.

DC ou pas, une copie non autorisée est une copie non autorisée. :mrgreen:

Jean-Luc

C'est une remarque intéressante car on pense souvent qu'il suffit de mentionner une page dans un robots.txt pour qu'elle ne soit indexée et c'est peine perdue.

Le contenu ne sera pas indexé comme tu le souligne mais cela n'empêche pas l'url de l'être et ce, même si "en +" on a pris soin d'intégrer une balise meta robots none.

J'ai un cas sous les yeux avec près de 2000 pages (urls) indexées (sans contenu) alors qu'elles sont mentionnées dans le robots.txt et dans les meta.
Quelque part, à mes yeux ce n'est pas logique...
 
WRInaute discret
Donc on est d'accord jeanluc ;)
SI la page indéxée oui il peut y avoir DC. Si Google ne l'a pas indexée aucun risque.
Maintenant je te rejoins aussi, je vois pas trop l'intérêt d'une telle pratique
 
WRInaute discret
Effectivement 5_legs.

Le meilleur de voir un dossier ou une page ignoré par Google et de protéger le dossier ou la page par une authentification.
 
WRInaute accro
5_legs a dit:
Le contenu ne sera pas indexé comme tu le souligne mais cela n'empêche pas l'url de l'être et ce, même si "en +" on a pris soin d'intégrer une balise meta robots none.
Une balise META placée dans une page interdite par robots.txt ne sera pas lue, puisque la lecture de la page est interdite. Donc, dans ce cas, elle ne sert à rien.

Si on veut utiliser la META robots, la page ne doit pas être interdite par robots.txt. Et ainsi, ça marche très bien.

Parfois le plus simple est d'utiliser l'outil de suppression des URL des GWT.

Jean-Luc

P.S. ne dites pas que Google ne respecte pas robots.txt ou donnez un exemple concret vérifiable :lol:
 
Discussions similaires
Haut