Bonjour,
j'ai découvert avec stupeur que depuis moins d'un mois, Google a réindexé des dizaines de milliers d'url d'un même répertoire que j'ai pourtant bloqué avec le robots.txt
(Sans rentrer dans les détails, il est trop compliqué d'ajouter à ces pages des meta noindex, c'est pourquoi je suis passé par le fichier robots...)
Je pense que ceci est certainement dû à des BL malheureux, mais impossible d'en trouver la source (GWT ne me donne plus aucun liens internes ou externes dans la console alors que j'en avais des milliers il y a encore une semaine, et yahoo site explorer ne connait pas ces url, il a su les ignorer lui...)
Bref, passons sur le pourquoi de l'indexation, je cherche désormais à réparer le mal fait.
Ce phénomène étant arrivé il y a 6 mois, j'avais alors utilisé l'option "url à supprimer" de Google Webmaster Tools; tout s'était bien déroulé, en quelques jours, l'index a été nettoyé.
Maintenant qu'elles sont revenues, je veux faire la même manip' et là GWT me répond "Refusé" avec pour détails un lien vers le centre d'aide GWT, chapitre robots.txt
Je ne comprends rien à rien, j'ai scrupuleusement suivi la même procédure qu'il y a 6 mois:
1/ blocage du répertoire dans robots.txt (le robots.txt est le même qu'il y a 6 mois)
2/ demande de suppression url
Ce qui est fou c'est que googlebot a chargé mon robots.txt aujourd'hui, renvoie bien un code d'état 200, quand je teste une url dans GWT, il me répond "url bloquée".
or quand j'utilise la commande site:www.example.com/repertoire-a-bloquer avec l'option date "depuis 24h", il me renvoie 280 nouvelles url. "depuis 31 jours", il m'en renvoie + 50000....
:arrow: Googlebot se fout donc à la fois de mon robots.txt et de ma demande de suppression!
plusieurs choses m'inquiètent donc:
- ces nouvelles url indexées qui ne font que polluer l'index, ah et j'ai oublié de dire, elles sont toutes en duplicates, elles ne diffèrent que par un sid... j'en ai + de 50 000 aujourd'hui donc...
- impossible de les virer de l'index
- je n'ai plus aucune donnée dans la rubrique Liens de GWT : liens externes ou internes, et "ce que voit googlebot"
- mais mes mots clés principaux n'ont pas bougé dans les SERP. Je pense avoir perdu sur la longue traine mais c'est extrêmement dur de le vérifier, j'ai + de 80000 requêtes différentes qui mènent à mon site
- mes pages indexées sont stables sur tous les datas avec la commande site: (sauf si je la précise avec mon répertoire dans l'url)
- et surtout surtout mon audience en provenance de GG a perdu 30% depuis 2 jours (d'où toutes ces analyses)
J'ai pu lire que la commande site: fait le yoyo depuis une semaine, c'est donc aussi le cas pour moi, mais le + inquiétant c'est que depuis 1 mois au moins, googlebot semble faire n'importe quoi et celà commence à me pénaliser sans que je puisse réparer le mal fait.
Qu'en pensez-vous? Avez-vous observé ce même phénomène sur des url bloquées par le robots.txt?
Que puis-je faire à part re-demander des suppressions d'url? (nb je ne peux faire du rewriting pour ces url car le sid qu'elles contiennent est important, et quand bien même je souhaite de toute façon qu'elles virent de l'index)
j'ai découvert avec stupeur que depuis moins d'un mois, Google a réindexé des dizaines de milliers d'url d'un même répertoire que j'ai pourtant bloqué avec le robots.txt
(Sans rentrer dans les détails, il est trop compliqué d'ajouter à ces pages des meta noindex, c'est pourquoi je suis passé par le fichier robots...)
Je pense que ceci est certainement dû à des BL malheureux, mais impossible d'en trouver la source (GWT ne me donne plus aucun liens internes ou externes dans la console alors que j'en avais des milliers il y a encore une semaine, et yahoo site explorer ne connait pas ces url, il a su les ignorer lui...)
Bref, passons sur le pourquoi de l'indexation, je cherche désormais à réparer le mal fait.
Ce phénomène étant arrivé il y a 6 mois, j'avais alors utilisé l'option "url à supprimer" de Google Webmaster Tools; tout s'était bien déroulé, en quelques jours, l'index a été nettoyé.
Maintenant qu'elles sont revenues, je veux faire la même manip' et là GWT me répond "Refusé" avec pour détails un lien vers le centre d'aide GWT, chapitre robots.txt
Je ne comprends rien à rien, j'ai scrupuleusement suivi la même procédure qu'il y a 6 mois:
1/ blocage du répertoire dans robots.txt (le robots.txt est le même qu'il y a 6 mois)
2/ demande de suppression url
Ce qui est fou c'est que googlebot a chargé mon robots.txt aujourd'hui, renvoie bien un code d'état 200, quand je teste une url dans GWT, il me répond "url bloquée".
or quand j'utilise la commande site:www.example.com/repertoire-a-bloquer avec l'option date "depuis 24h", il me renvoie 280 nouvelles url. "depuis 31 jours", il m'en renvoie + 50000....
:arrow: Googlebot se fout donc à la fois de mon robots.txt et de ma demande de suppression!
plusieurs choses m'inquiètent donc:
- ces nouvelles url indexées qui ne font que polluer l'index, ah et j'ai oublié de dire, elles sont toutes en duplicates, elles ne diffèrent que par un sid... j'en ai + de 50 000 aujourd'hui donc...
- impossible de les virer de l'index
- je n'ai plus aucune donnée dans la rubrique Liens de GWT : liens externes ou internes, et "ce que voit googlebot"
- mais mes mots clés principaux n'ont pas bougé dans les SERP. Je pense avoir perdu sur la longue traine mais c'est extrêmement dur de le vérifier, j'ai + de 80000 requêtes différentes qui mènent à mon site
- mes pages indexées sont stables sur tous les datas avec la commande site: (sauf si je la précise avec mon répertoire dans l'url)
- et surtout surtout mon audience en provenance de GG a perdu 30% depuis 2 jours (d'où toutes ces analyses)
J'ai pu lire que la commande site: fait le yoyo depuis une semaine, c'est donc aussi le cas pour moi, mais le + inquiétant c'est que depuis 1 mois au moins, googlebot semble faire n'importe quoi et celà commence à me pénaliser sans que je puisse réparer le mal fait.
Qu'en pensez-vous? Avez-vous observé ce même phénomène sur des url bloquées par le robots.txt?
Que puis-je faire à part re-demander des suppressions d'url? (nb je ne peux faire du rewriting pour ces url car le sid qu'elles contiennent est important, et quand bien même je souhaite de toute façon qu'elles virent de l'index)