Google crawle des urls qu'il invente : quel code renvoyer ?

Nouveau WRInaute
Bonjour à tous,

Google crawle sur mon site des urls qu'il invente :-/ (il prend des portions d'urls qu'il vient rajouter devant / derrière pour en créer de nouvelles), vous renverrez quelle erreur http ? (400/404/405/410/...)

J'ai beau éplucher les codes http ici : http://fr.wikipedia.org/wiki/Liste_des_codes_HTTP je ne sais pas vraiment lequel privilégier...

Mon but : faire comprendre à Google qu'il fait clairement fausse route.

Dans le cas où je suis capable de rediriger Google vers la bonne url : quel code de redirection renvoyer ? (308/303/...)

Help :-S
 
WRInaute passionné
J'aurais tendance à faire en sorte que Google trouve du 404 lorsqu'il crawle une URL qui n'existe pas. C'est le comportement logique, 404 Not Found.

Par contre, lorsque vous dites "Google crawle sur mon site des urls qu'il invente" j'aurais tendance à penser qu'il y a peut être dans votre code source, des liens sur des pages qui mènent aux URL's que vous pointez du doigt. Le fonctionnement de Google est de suivre les liens qu'il trouve et de ne pas perdre son temps à tenter de crawler des URL's créées au pifomètre par lui-même. Pourrait-on obtenir l'URL du site afin d'y voir plus clair ?

Si ce n'est pas le cas, peut-être existe-t-il un autre site internet qui s'amuse à créer ces liens que Google suit bêtement. Ça arrive...

Complément : conseils d'Olivier Duffez sur les codes HTTP
 
Nouveau WRInaute
Ok pour la 404, mais il y a également la 410 qui me semble pas mal non ? Ou d'autres comme :

400 Bad Request La syntaxe de la requête est erronée
404 Not Found Ressource non trouvée
405 Method Not Allowed Méthode de requête non autorisée
410 Gone La ressource est indisponible et aucune adresse de redirection n’est connue

J'ai lancé Xenu mais il ne me trouve pas ces fameuses url. :-/
 
WRInaute passionné
C'est simple, vous prenez n'importe quel site et vous essayez de visiter la page suivante :

Code:
/123/un-deux-trois/a-b-c-d-e-f.html

Dans pratiquement tous les cas, c'est une 404 qui est renvoyée.

La 410 signifie que la page existait à un moment donné, que ce n'est plus le cas actuellement et que rien n'est proposé en remplacement. Dans votre cas, les URL's n'ont jamais existé, donc il faut renvoyer une 404.

Seconde fois : Quelle est l'adresse de votre site ?
 
Nouveau WRInaute
Ok. Donc 404 si je n'arrive pas à récupérer la bonne url et si j'arrive à récupérer la bonne url (via l'id par exemple) j'appliquerai une 301. ;)

Merci.

PS : je ne peux pas diffuser l'url du site dsl... :/
 
WRInaute accro
Hello


Web Me I'm Famous a dit:
Google crawle sur mon site des urls qu'il invente :-/ (il prend des portions d'urls qu'il vient rajouter devant / derrière pour en créer de nouvelles)

Google n'invente jamais des urls, il les trouve quelque part (et il te dit où dans GWT) donc regarde bien ton code source, tes plugins si tu es sur WP : il y a "quelque chose" qui les créé
 
Nouveau WRInaute
Comme dit plus haut.

Effectivement, google ne créer pas des urls au pifomètre. Il les trouve quelque part. Soit sur ton site, soit ailleurs.

Si ces urls n'existe vraiment pas, alors renvoie une 404. Mais vérifie ton site. Non pas directement dans le code, mais en inspectant tes liens, directement depuis un navigateur, google lit les liens, exactement de cette façon.
 
WRInaute accro
pour mon cas, il lui arrive de suivre des url virtuelles, qui ne servent qu'au tracking GA et n'ont aucune réelle existence. J'ai essayé de renvoyer un 410, que gg prenait en compte, sauf que ces erreurs 410 se retrouvaient avec les 404 empêchant ainsi de distinguer les vraies 404 accidentelles qui se retrouvent noyées dans les 4xx
J'avais bloqué ces url virtuelles avec robots.txt et je me retrouvait donc avec toutes ces url qui apparaissaient dans les serp suivies de "aucun conetnu ne peut être affiché à cause de restriction dans robots.txt" !
finalement, j'ai fait des 301 vers des pages approchantes, histoire que gg arrête d'afficher ces url dans ses serp
 
Olivier Duffez (admin)
Membre du personnel
Leonick a dit:
pour mon cas, il lui arrive de suivre des url virtuelles, qui ne servent qu'au tracking GA et n'ont aucune réelle existence.
idem ! c'est ridicule je trouve dans ce cas. J'ai été obligé de bloquer ces URL virtuelles dans le robots.txt
 
WRInaute accro
c'est ce que je faisais jusqu'à ce que je m'aperçoive qu'afin d'avoir le maximum d'url dans son index, ces url apparaissaient dans les serp avec la traditionnelle phrase (bloqué par robots.txt)
avant, il n'y avait que yahoo qui s'amusait à ça !
 
Nouveau WRInaute
J'ai peut être oublié de préciser mais les urls de mon site contiennent des virgules et à chaque fois la séparation de la nouvelle url générée se fait à l'endroit de la virgule... Etrange...

J'ai un site avec des urls de ce type : http://www.nomdusite.fr/nom-du-produit,PARAMETRE1,PARAMETRE2.html

Depuis quelques mois seulement, Google Webmaster Tools me remonte des erreurs 404 de ce type :

http://www.nomdusite.fr/nom-du-produit
http://www.nomdusite.fr/nom-du-produit,PARAMETRE1PARAMETRE2.html
http://www.nomdusite.fr/nom-du-produit/nom-autre-produit/
etc...
 
WRInaute accro
Sur de nombreux CMS de forum, l'ajout d'un lien utilisant la virgule comme séparateur "tronque" l'url, ce qui génère donc une url erronée.
 
Discussions similaires
Haut