Pourquoi Google invente des pages ???

lambi521 · 30 Juin 2011

Bonjour à tous,

J'aimerais quelques infos parce que Google commence sérieusement à me gonfler. Je m'explique. Dans l'admin de mon site j'ai une interface qui me permet de voir quelles URL sont visitées et Google est là 24h/24 mais le problème c'est qu'il passe son temps à crawler des URLs qui n'existent même pas. Je veux bien qu'ils nous parlent de "rendre notre site rapide pour économiser de l'électricité serveurs" mais si ils commençaient déjà par crawler les liens d'un site sans en inventer d'autres ils gagneraient du temps.

Par exemple, ça fait 15 jour que Google passe son temps sur ma page panier en ajoutant "?page=xxx" à l'URL (en ce moment il en est à la page 484... sauf qu'il n'y a JAMAIS eu AUCUN paramètre GET pour cette page !!! J'ai donc mis en place une redirection en cas de paramètre dans l'URL pour lui éviter de perdre son temps. Idem pour les fiches produits, il n'y a jamais eu aucun paramètre dans l'URL de mes fiches produits et pourtant il s'amuse en en coller de toutes les sortes et parfois n'importe comment ! Du genre produit.html?page=xxx?nimportequoi=xxx (oui oui avec deux "?"). J'ai donc fais comme mon panier, si mon URL est pas correcte, je redirige.

Et il fait ça sur tout mon site. Le probleme c'est que sur mes pages catégories je dois garder le numéro de page qui se trouve parmis les autres!! Donc les redirections sont très compliquées à mettre en place d'autant plus qu'il me rajoute/supprime des n° de catégories qui n'existent pas !! Par exemple cartouche-encre-0_21_52.html. Hors ce 0 n'apparaît nul part, dans aucun lien, ce n'est pas une catégorie, et ça fait du duplicate content !

Pourquoi Google ne se contente pas de suivre les liens internes du site qui sont tous OK (j'ai vérifié) Pourquoi il va inventer des URLs à la mords-moi le n***d sans qu'on lui demande ??? Si quelqu'un peut m'aider ça serait cool parce que j'en ai marre de me casser la tête sur des HTTP header qui ne servent que pour lui et qui en plus ralentissent mon site (c'est un comble...)

:twisted: :twisted: :twisted: :twisted: :twisted: :twisted: :twisted: :twisted: :twisted:

zeb · 30 Juin 2011

Black SEO ? cherche voir si il y a pas un petit plaisantin qui aurait linké des pages bidons sur ton domaine pour générer des tonnes de 404 et te faire plonger par hasard ...

adviser · 30 Juin 2011

zeb a dit:
Black SEO ? cherche voir si il y a pas un petit plaisantin qui aurait linké des pages bidons sur ton domaine pour générer des tonnes de 404 et te faire plonger par hasard ...

C'est presque sûr si tu es convaincu que tu n'as jamais écrit de mauvaises URLs sur ton site.

lambi521 · 30 Juin 2011

Merci pour ta réponse,

Je ne pense pas que ce soit ça d'autant plus que ça ne génère pas de 404 vu que ce sont des paramètres GET et que le "0" dans l'URL dans catégories passe lors de l'URL rewriting ! Aucun 404, juste une infinité de pages inexistantes...

Est-ce que quelqu'un a déjà vu ça ?

zeb · 30 Juin 2011

lambi521 a dit:
d'autant plus que ça ne génère pas de 404

1/ le gars qui fait ça (si c'est le cas) ne le sais pas forcement.
2/ si c'est pas des 404 que ça génère ça donne peut être une page quand même et ça peut faire du DC (encore pire qu'une 404 je pense)
3/ j'ai Jamais vue ou entendu parler de Google qui crawle des pages inexistantes donc au lieu de chercher la faute chez google tu devrais remettre en question ta position vis a vis d'eux (que j'aime pas plus que toi mais ce ne sont tout de même pas des billes)
4/ est de de ton www don tu parle?

lambi521 · 30 Juin 2011

tu devrais remettre en question ta position vis a vis d'eux (que j'aime pas plus que toi mais ce ne sont tout de même pas des billes

J'ai rien contre eux, je fais tout pour être le mieux placé possible dans leur index mais si ils me mettent des bâtons dans les roues ça va pas le faire... (d'autant plus qu'on leur lâche pas mal dans adwords :lol

Pour répondre aux questions:
_ je ne pense pas à du black seo car je n'ai pas de backlinks de site inconnu
_ ça ne génère pas de 404 dans la plupart des cas sauf si le .php n'existe pas, c'est pour ça que je traite les URLs au maximum via HTTP headers (mes fiches produits sont toutes traitées mais pour les catégories c'est plus difficile)
_ oui c'est mon site en www

Merci encore pour vos réponses

zeb · 30 Juin 2011

lambi521 a dit:
sauf qu'il n'y a JAMAIS eu AUCUN paramètre GET pour cette page !!!
Du genre produit.html?page=xxx?nimportequoi=xxx (oui oui avec deux "?").

https://www.webrankinfo.com/forum/t/redirection-301-durls-reecrites.134630/
Un peu contradictoire tes deux sujet regarde aussi si tu n'a pas un peu merdoyé dans tes règles de réécriture d'url avant cette histoire.

lambi521 · 30 Juin 2011

Non le sujet linké parle des pages catégories qui affichent un tableau avec les produits donc pagination et possibilité trier par prix, nom, etc...

Là il s'amuse sur la page panier, les fiches produits etc. En gros il fout des paramètres n'importe où n'importe comment sur toutes mes pages. Tu peux te ballader son mon www et regarder les URLs tu ne verras jamais ce genre d'abération ! Tous mes liens sont OK

zeb · 30 Juin 2011

lambi521 a dit:
je ne pense pas à du black seo car je n'ai pas de backlinks de site inconnu

ça ne prouve malheureusement rien, imagine deux minutes que je place des liens pourri vers chez toi sur une page a moi qui ne soit pas visitée ou tous simple cloaké de façon a ce que seulement google puisse voir les liens. Donc liens pas clikés = liens pas repérés = crawl des pages ciblées (et je ne serais pas obligé de les laisser longtemps pour qu'ils soit pris en compte).

Mais bref, ce n'est qu'une piste et depuis que j'ai vue ta modif de réécriture je chercherais personnellement ailleurs.

Le truc c'est que je ne pense pas que google crawl quelque chose qui n'est pas explicitement écrit. Je sais de plus par expérience qu'il crawl des url visibles uniquement dans du code javascript (il m'a crawlé un script d'auto-complétion ajax (le script qui renvoie les possibilités) et lui n'est linké nulle part hormis la mention javascript)

zeb · 30 Juin 2011

contenu cloaké ici par exemple :
-http://webcache.googleusercontent.com/search?q=cache:dpbYAga4zW0J:www.gnoztik.com/30036-cartouche-encre-toner-imprimante+%22www.imprimantes.fr/index.php%3Fmanufacturers_id%3D%22&hl=fr&client=firefox-a&gl=fr&strip=1

lien encore actif ici :
-https://www.webrankinfo.com/forum/url-rewriting-oscommerce-t132966.html

url présente (mais pas active) sur cette page :
-http://webcache.googleusercontent.com/search?q=cache:jD7oLzHenA0J:www.webrankchecker.com/357551-kit-de-transfert.html+%22www.imprimantes.fr/index.php%3FcPath%3D%22&cd=2&hl=fr&ct=clnk&gl=fr&client=firefox-a&source=www.google.fr

je ne dis pas que c'est la source mais si tu as encore des urls qui sont visibles quelque par t ça peut aussi être la source de ton problème de crawl.

Bon courage en tous cas

lambi521 · 30 Juin 2011

Les URLs que tu me montres sont des liens corrects avant réécriture d'URL, en suivant ce lien tu as un 301 vers l'URL réécrite donc aucun problème. Pour faire simple, Google crawle des URLs qui n'ont jamais existé, qui ne sont linkées nul part et vers lesquelles aucun lien interne ou externe ne renvoie.

Comment je m'en sors ?

zeb · 30 Juin 2011

lambi521 a dit:
Google crawle des URLs qui n'ont jamais existé

C'est ça qui me faisait penser au Black SEO. Sinon concrètement mis a par les gérer via htaccess je ne voie pas quoi faire

lambi521 · 30 Juin 2011

J'ai peut-être fait une erreur à ce niveau là, c'est mon point faible le .htaccess

Voilà ce que j'ai pour le rewriting:

Code:

RewriteCond %{HTTP_HOST} ^imprimantes.fr
RewriteRule (.*) http://www.imprimantes.fr/$1 [R=301]
RewriteRule ^(.*)-p-(.*).htm product_info.php?products_id=$2&%{QUERY_STRING} [L]
RewriteRule ^(.*)-c-(.*).html index.php?cPath=$2&%{QUERY_STRING} [L]
RewriteRule ^(.*)-m-(.*).html index.php?manufacturers_id=$2&%{QUERY_STRING} [L]

Le 1er est la fiche produit, le 2eme la page d'index pour les catégories et le 3eme la page d'index pour les fabricants.

nza2k · 30 Juin 2011

Hello,

As-tu consulté Google Webmaster Tools ? Tu y trouveras une rubrique qui liste des backlinks reçus pour certaines pages indexées par Google. Ca pourrait t'aider à comprendre où Google a trouvé ces url farfelues. Même en travaillant consciencieusement, on découvre régulièrement des mauvaises surprises...

nickargall · 30 Juin 2011

Et, à ma connaissance, Google ne s'est jamais amusé à questionner des URL qu'il "inventerait", il a déjà assez de problème avec la surcharge de ses index avec les vraies pages pour s'inventer des problèmes. Si une URL a été crawlée par Google, c'est qu'un lien l'y amené ou qu'une redirection 301 mal ficelée l'a renvoyé vers cette URL .

lambi521 · 30 Juin 2011

Et, à ma connaissance, Google ne s'est jamais amusé à questionner des URL qu'il "inventerait"

Justement au début je croyais qu'il le faisait exprès pour voir si on gérais les redirections, les 404 etc mais là je me rends compte qu'il y a un problème...

Je vais regarder dans webmaster tools mais je surveille de temps en temps et je n'ai jamais vu de backlinks "foireu". Je pense plutôt à un mauvais rewriting bien que je l'ai testé et vérifié, j'ai même empêché les URL "impropables" avec des HTTP header 301.

Par exemple, pour ma page panier, elle n'est pas rewritée, il n'y a jamais eu de pagination sur cette page alors je ne vois pas pourquoi et d'où Google me sortirait des centaines d'url avec un numéro de page...

C'est peut-être un concurrent malveillant, car le site est refait depuis un an et prend de + en + d'importance dans le domaine, j'en ai grillé beaucoup avec pas mal d'effort tout de même. Par exemple je suis 4ème sur "cart0uche imprim@nte" (j'ai changé le o et le a pour ne pas me concurrencer :lol

. Comment puis-je identifier le site malveillant ?

Merci encore pour votre aide c'est super

jcaron · 30 Juin 2011

J'ai tendance à penser aussi qu'il ne les invente pas, les URLs, elles sont quelque part, probablement un bout de code qui génère des URLs pas tout à fait au format que tu penses.

Perso je commencerais par un bon grep page * sur les sources pour voir où je génèrerais des URLs avec page dedans...

Jacques.

sarah1 · 4 Juillet 2011

Coucou à tous !
Je vais me permettre de réagir à ce sujet.
J'ai le même souci, google me crée de pages qui n'existent pas, et pas qu'un peu ! Alors je bloque avec le robot.txt, mais des nouvelles pages avec url farfelues apparaissent à chaque fois qu'il en suppriment... C'est sans fin, donc non tu n'es pas seul.
A mes souvenirs il me semble avoir lu pas mal d'articles sur ce genre de problème qui concernait joomla, et plus précisement la page search.php qui générait des urls inexistantes.
De mon côté, j'ai revu mes variables get il y a 2 mois, mais je ne vois aucun changement.
Courage !

UsagiYojimbo · 4 Juillet 2011

Si tu utilises Xenu Link Sleuth pour crawler ton site, trouve-t'il ces fameuses pages ?

lambi521 · 5 Juillet 2011

Merci pour ta réponse sarah, comment t'en es-tu sortie finalement ? Et comment t'en es-tu rendu compte ? Moi c'est sur l'admin de mon site, je peux voir les URL demandées. Pour l'instant comme je l'ai dit je redirige avec des headers en PHP mais je ne vais pas m'amuser à surveiller éternellement ! J'ai encore vérifié, aucun de mes liens ne bug, j'ai vérifier toutes les parties du site ils sont tous OK.

Pour les URLs réécrites je veux bien croire qu'il y ait certains liens bizarres quelque part mais quand je vois google qui visite -shopping_cart.php?page=1?page=1 je me pose des questions !

Si tu utilises Xenu Link Sleuth pour crawler ton site, trouve-t'il ces fameuses pages ?

Je n'ai pas ce logiciel je vais regarder et je te donne la réponse

lambi521 · 5 Juillet 2011

J'ai testé ton logiciel, sympa ! J'en cherchais un comme ça justement et je n'avais jamais trouvé, il est vraiment simple et efficace, merci !

Après avoir testé, tous mes liens sont OK. J'ai juste réglé un petit problème de pagination quand y'a plusieurs produits lors d'une recherche ou dans les catégories, le bouton [Préc] mettais page=1 quand on étais sur la page 2, je l'ai enlevé pour ne pas qu'il y ait de duplicate content (mais je le traitais déjà avant, mais par HTTP header, je redirigeais sur l'URL sans $_get['page'] si page == 1)

Le '0' que Google mettais dans mes URL venait en fait d'un lien d'imprimante à cause du rewriting. J'explique:
_ les catégories sont identifiées par le -c- dans l'URL
_ une imprimante s'appelle Optra C Pro ce qui donnait comme lien réécrit /cartouches-lexmark-optra-c-pro.html
_ le rewriting redirigeait ce lien vers une catégorie qui n'existe pas vu qu'il trouve -c- sans rien derriere donc vers la catégorie 0

J'ai donc supprimer cette imprimante et tous mes liens sont 100% ok

sarah1 · 5 Juillet 2011

héhé ! J'm'en suis pas sortie ! lol
Je l'ai remarqué également avec mes stats en temps réel. Google me sort des urls à pages négatives, à variables qui n'existent pas... Donc je bloque au fur et à mesure avec le robot (il est long mon fichier !). Google les enlève petit à petit mais m'en crée d'autres, avec de nouvelles variables jusqu'alors inconnues. Bazarre bizarre...
J'ai également ajouter ds le gwt les paramètres à ignorer, et cela il y a au moins 6-8mois : aucun changement, il n'en tient pas compte.
Avec Xenu aussi, ttes mes urls sont ok. Si google pouvait se contenter du sitemap...

UsagiYojimbo · 5 Juillet 2011

Dans GWT, normalement tu as la liste des url qui ont donné lieu à des erreurs 404, et les pages qui linkent vers ces 404, si tant est qu'elles sont in-site.

zeb · 5 Juillet 2011

UsagiYojimbo a dit:
Dans GWT, normalement tu as la liste des url qui ont donné lieu à des erreurs 404, et les pages qui linkent vers ces 404, si tant est qu'elles sont in-site.

sauf que je suis pas certains que le CMS ne gère pas ces URL du coup il est fort probable qu'il n'y ai pas de 404.

Le piste du CMS foireux est asse bonne, celle du moteur de recherche en particulier ... D'une façon générale il est possible que le CMS fabrique des urls qui elle ne sont pas repensées donc ...

sarah1 · 5 Juillet 2011

Ca vient forcément du CMS...
Pour ma part, 0 erreur 404 ds le gwt...

Zodiaque · 5 Juillet 2011

sarah1 a dit:
A mes souvenirs il me semble avoir lu pas mal d'articles sur ce genre de problème qui concernait joomla, et plus précisement la page search.php qui générait des urls inexistantes.

J'utilise search.php, j'ai également des pages qui sortent de nulle part

Tu as des URLs que je puisse regarder tout ça de plus près stp ?

Leonick · 5 Juillet 2011

Zodiaque a dit:
plus précisement la page search.php qui générait des urls inexistantes.

cette page n'est-elle pas sensée ne pas être indexée ?

sarah1 · 6 Juillet 2011

Zodiaque a dit:
J'utilise search.php, j'ai également des pages qui sortent de nulle part Tu as des URLs que je puisse regarder tout ça de plus près stp ?

Je n'utilise pas joomla, mais ayant fait des recherches sur ce sujet, j'étais tombée sur pas mal d'articles qui parlaient de ce problème et qui concernaient joomla. Le cms que j'utilise est peu répandu, par précaution j'ai bloqué ma page de recherche sur le site, mais je doute que cela vienne de là pour ma part.

Zodiaque · 6 Juillet 2011

Leonick a dit:
cette page n'est-elle pas sensée ne pas être indexée ?

Rien n'est indexé, pas même les pages de réponses aux requêtes demandées. Pourtant j'ai une quantité phénoménale de pages qui ne sont pas censées exister et qui apparaissent sur GWT. Et c'est mon CMS qui les génère.

sarah1 a dit:
j'étais tombée sur pas mal d'articles qui parlaient de ce problème et qui concernaient joomla.

As-tu gardé une trace de ces articles, ça m'intéresse !!

Leonick · 6 Juillet 2011

Zodiaque a dit:
Et c'est mon CMS qui les génère.

es-tu sur que ça vient de ton CMS ?
comme évoqué au dessus, ça peut être du blackhat ou des sites qui indexent leurs tentatives de hacking ou encore un bug de gg
J'ai, depuis 2-3 semaines, moi aussi des 404 sur des url qui n'existent pas

/index.php?option=com_virtuemart&page=shop.pdf_output&showpage=shop.product_details&pop=1&output=pdf&product_id=3328&category_id=794&Itemid=65&vmcchk=1&tpl_color=blue
/index.php?option=com_virtuemart&page=shop.pdf_output&showpage=shop.product_details&pop=1&output=pdf&product_id=3328&category_id=794&Itemid=65&vmcchk=1&tpl_width=w-1024x768

alors que, sur aucun de mes sites, je n'ai de solution e-commerce.

sarah1 · 7 Juillet 2011

Zodiaque a dit:
As-tu gardé une trace de ces articles, ça m'intéresse !!

Non dsl, je viens de refaire une recherche, je ne trouve plus l'article qui m'avait interpelé. Si je retombe dessus, je mettrai le lien. Après d'autres articles étaient en anglais.

rikew · 7 Juillet 2011

J’ai eu le problème sur un site et je me suis rendu compte que Google tentait de construire de nouvelles url grâce aux JavaScripts présent sur les pages. Un de mes codes JS contenait url et des bouts d’url (chemin relatif avec variables) qui interprétaient correctement en js par le navigateur aboutissait sur des url existantes mais qui assemblées a l’arrache sans suivre le code js donnait des url inexistantes.

J’ai simplement supprimé le code pour régler la situation.

Donc je te recommande de regarder dans le js de ta page (ce n’était pas un js externe) si tu ne vois pas des choses qui commence par http:// ou des choses qui commence par /url?var=xxx ou simplement ?var=xxx … ça peut être l’origine du problème.

lambi521 · 7 Juillet 2011

Merci à tous pour vos réponses,

Donc pour vous répondre mon site est sur base OsCommerce et non Joomla. Ma page de recherche n'est bien évidement pas indexée. J'ai rajouté une contrib qui s'appelle Ultimate Seo URLs afin de réécrire les liens et les URLs mais comme je l'ai dit à UsagiYojimbo tous mes liens sont OK sur mon site après avoir testé avec son logiciel. (j'ai mis mon .htaccess plus haut dans le topic)

Il n'y a pas de JS qui crée des URLs donc ce n'est pas ça le problème. Le site a été en ligne pendant 5 ans et n'était pas du tout optimisé (très mal référencé) avant que je ne le refasse complètement. Je redirige correctement les anciennes URLs vers les nouvelles réécrites (plus aucune ancienne URL indexée) et 95% de mes pages sont indexées dans Google (via sitemap GWT).

Je ne sais donc toujours pas d'où viennent ces URLs qu'il teste, peut-être des anciennes adresses qu'il continue de tester ? Peut-être qu'à un moment donné l'ancien site buguait, que ça a généré de fausses URLs et que Google continue de les tester ?

Dans mon GWT il me signale une erreur 404 vers une URL, en regardant les pages qui la link (10 pages) je m'aperçois que les URL sont non réécrites (pour des URLs de mon site) et les "dates de la découverte" sont entre 2008, 2009 et 2010. Sur ces 10 URLs qui sont cencé la linké, la moitié des ndd externes n'existent même plus. Qu'en pensez-vous ? Combien de temps Google continue de tester des URLs qui n'existent plus ?

Je pense donc que mon site actuel est bien construit mais qu'il souffre d'une mauvaise indexation passée. Ce qu'il faudrait c'est que Google "purge" sa mémoire et ce qu'il connait de mon ndd parce 5 ans voir 6 ans après ça fait long :lol:

Marie-Aude · 7 Juillet 2011

Ce n'est pas que Google "teste" des urls qui n'existent plus, c'est qu'il ne met pas à jour sa base d'urls qui n'existent plus. Quand il repassera sur les pages qui te font ces urls ils s'apercevra qu'elles n'existent plus / ou que tu as redirigé et les erreurs disparaitront

Leonick · 7 Juillet 2011

Marie-Aude a dit:
Ce n'est pas que Google "teste" des urls qui n'existent plus, c'est qu'il ne met pas à jour sa base d'urls qui n'existent plus.

pour mon cas, les url n'ont jamais existé, vu que je n'ai jamais eu de ecommerce

Marie-Aude · 7 Juillet 2011

Quelle est la source indiquée dans GWT ?

lambi521 · 7 Juillet 2011

Ce n'est pas que Google "teste" des urls qui n'existent plus, c'est qu'il ne met pas à jour sa base d'urls qui n'existent plus. Quand il repassera sur les pages qui te font ces urls ils s'apercevra qu'elles n'existent plus / ou que tu as redirigé et les erreurs disparaitront

Moi non plus la plupart n'ont jamais existées, et depuis 2008 ça serais bien qu'il se mette à jour...

Leonick · 7 Juillet 2011

Marie-Aude a dit:
Quelle est la source indiquée dans GWT ?

si la question était pour moi, comme dans ces url là on trouve pdf, les url contenant *.pdf sont bloquées par robots.txt

Marie-Aude · 7 Juillet 2011

Donc tu bloques les sources des urls erronnées, donc GWT ne peut plus y accéder pour vérifier qu'elle ne s'y trouve plus -> ta seule solution est la suppression via GWT

Leonick · 7 Juillet 2011

je viens de débloquer dans le robots.txt, histoire de voir d'où elles peuvent provenir

FINIELS · 10 Juillet 2011

Et un petit rel canonical ?

fredfan · 10 Juillet 2011

FINIELS a dit:
Et un petit rel canonical ?

Comment mettre un canonical dans une page qui n'existe pas ?

Zodiaque · 12 Juillet 2011

fredfan a dit:
FINIELS a dit:

Et un petit rel canonical ?

Cliquez pour agrandir...

Comment mettre un canonical dans une page qui n'existe pas ?

Effectivement, j'ai le même souci