Empêcher google d'utiliser mon formulaire de filtre d'articles ?

noren · 11 Mars 2016

Bonsoir

J'ai un formulaire de filtre d'articles dans certaines pages index de catégories. Ce formulaire est de la forme suivante :

Code:

<form method="get" role="form"">
    <select>...</select>
    <select>...</select>
   <select>...</select>
<button type="submit">Valider</button>
</form>

Ce formulaire génère donc des pages du style :

site.com/page-categorie?select1=val1&select2=val2&select3=val3

je viens de voir dans mes logs que google valide se formulaire de trie. Il explore les pages générées par ce formulaire.
Résultat, étant donné les nombreuses pages que ce formulaire peut générer, c'est des pages visitées pour rien et de l'utilisation de bande passante inutile.
Je les met en "noindex,nofollow", mais j'aimerais qu'il ne perde pas son temps à les visiter.

Depuis quand google valide les formulaires et comment l’empêcher de le faire?
Comment faire pour éviter qu'il explore ces pages ?

madri2 · 11 Mars 2016

passe en post

noren · 11 Mars 2016

Pour des questions techniques je ne peux pas.

Les formulaires en post ne sont pas visitées par google ?

spout · 11 Mars 2016

noren a dit:
Pour des questions techniques je ne peux pas.

:?:

noren · 12 Mars 2016

bah ça devient plus complexe pour gérer la pagination dans mon modele mvc
Je peux toujours essayer de trouver une solution pour mettre en post, mais est-ce qu'en post google arrête de suivre le formulaire ?

Si je laisse en get il n'y aucune solution ?

spout · 12 Mars 2016

Ah ben pour la pagination c'est très courant, la solution: Post-Redirect-Get: https://fr.wikipedia.org/wiki/Post-Redirect-Get

noren · 12 Mars 2016

Donc si je comprend bien mon formulaire serait en post mais lorsque je clic sur submit du formulaire j’accède d'abord à une page intermédiaire qui elle fait une redirection sur ma page de catégorie en get c’est bien ça ?

Donc sur ma page intermédiaire je redirige vers mes urls de la forme : site.com/page-categorie?select1=val1&select2=val2&select3=val3, aisni ma pagination conservera ces valeurs ?

Mais google ne pourra pas les voir car il ne valide pas les formulaires en post, j'ai bien compris ?

spout · 12 Mars 2016

T'as tout compris

NB: ta page intermédiaire c'est la même hein

noren · 12 Mars 2016

oui oui effectivement je peux faire la redirection sur la même page

Cool si j'ai bien compris merci.

Bon bin j’espère que google n'a pas conserver en mémoire trop de pages du filtres pfff. j'avais vraiment pas imaginé ce problème. heureusement que je m'en suis rendu compte....
Comment faire en sorte qu'il ne revisite plus ces pages maintenant qu'il doit les avoir quelque part en mémoire ?

La j'ai provisoirement virer mon filtre et je m'en occupe dès demain

Merci à vous.

spout · 12 Mars 2016

PHP:

<span class="syntaxdefault"><?php&nbsp;</span><span class="syntaxkeyword">if(isset(</span><span class="syntaxdefault">$_GET</span><span class="syntaxkeyword">[</span><span class="syntaxstring">'select1'</span><span class="syntaxkeyword">])&nbsp;||&nbsp;...):&nbsp;</span><span class="syntaxdefault">?><br /></span>&nbsp;&nbsp;&nbsp;&nbsp;<meta&nbsp;name="robots"&nbsp;content="noindex"><br /><span class="syntaxdefault"><?php&nbsp;</span><span class="syntaxkeyword">endif;&nbsp;</span><span class="syntaxdefault">?></span>

Marie-Aude · 12 Mars 2016

Sinon tu peux aussi bloquer les urls dans le robots.txt

noren · 12 Mars 2016

En bloquant ce type d'url dans robots.txt, si j'ai des BL externe avec ces url ne vais-je pas perdre du jus? Surtout que je pouvais éventuellement ajouter la balise canonical

J'imagine que je dois ajouter ceci dans le fichier :

Code:

User-agent: *
Disallow: /*?select1=*&select2=*&select3=*

est-ce que ceci suffirait ?

Code:

User-agent: *
Disallow: /*?select1=*

Est-ce que je peux afficher de la pub adsense sur des pages bloquées dans le robots.txt ?

noren · 12 Mars 2016

Bon j'ai fait ceci :

Code:

$querystring = "?";
if(isset($_POST) && !empty($_POST))
	{
	    //je prepare le query_string
	    
	    header("HTTP/1.1 303 See Other");
	    header('Location: '.$url.$querystring);	    
	}

resultat le formulaire est bien en post mais quand on clique sur submit on atterit sur une url du type :

Code:

site.com/page-categorie?select1=val1&select2=val2&select3=val3

C'est correct ?

J'aimerais une réponse clair la dessus ( :mrgreen: ) : Google ne suit pas les formulaires en POST ? , il ne simule pas le submit sur un formulaire en POST ?

Il semblerait que dans l'article suivant, Olivier parle bien de crawle des formulaire en POST :

https://www.webrankinfo.com/dossiers/indexation/crawl-javascript-post

Si c’est le cas ça pourrait vite devenir un gros merdié :?

noren · 13 Mars 2016

Sur internet une personne proposait de tester l'user-agent et de retirer le bouton submit pour les robots, qu'en pensez vous ?
Est-ce que ca pourrait être considéré comme du Cloaking ou autre technique dépréciée ?

Car si Google est aussi capable de valider des formulaires post, ça peut vite devenir très embêtant!

madri2 · 13 Mars 2016

"We take precautions to avoid performing any task on a site that could result in executing an unintended user action. Our POSTs are primarily for crawling resources that a page requests automatically, mimicking what a typical user would see when they open the URL in their browser. This will evolve over time as we find better heuristics, but that’s our current approach."

donc a priori si le formulaire POST n'est pas envoyé automatiquement lors de l'affichage de la page, mais juste lors d'un clic, google ne devrait pas remplir les formulaires

noren · 13 Mars 2016

Le GET n'était pas envoyé automatiquement lorsqu'on arrivait sur mes pages de catégories, ça n'a pourtant pas empêché GG de remplir les select et de les valider... :? Et à moins de valider le formulaire mes pages du type site.ext?categorie?select1=?&... n'étaient visibles nulle part sur le site.
D’ailleurs à quel moment un post pourrait être envoyé automatiquement lors de l'affichage de la page ?

Et d'après cet article https://www.webrankinfo.com/dossiers/indexation/crawl-javascript-post G suit maintenant les formulaires POST selon des conditions difficiles à déterminer.
Résultat je suis à priori pas à l'abri de pb si GG suit mes formulaire POST de filtres, d'autant plus que j'utilise mnt le pattern post-redirect-get et que je ne sais pas comment GG interpréterait ce bordel si il valide le formulaire. D'autant plus que je bloque ces pages ?select1=... avec le robots.txt

Marie-Aude · 13 Mars 2016

noren a dit:
En bloquant ce type d'url dans robots.txt, si j'ai des BL externe avec ces url ne vais-je pas perdre du jus?

Oui. Mais bon, ce genre de page n'a pas vocation à être indexée.

noren a dit:
Surtout que je pouvais éventuellement ajouter la balise canonical

Aussi.
Ou transformer tes ? en # ^^

J'imagine que je dois ajouter ceci dans le fichier :

noren a dit:
Code:

User-agent: * Disallow: /*?select1=*

Oui

noren a dit:
Est-ce que je peux afficher de la pub adsense sur des pages bloquées dans le robots.txt ?

Oui, tant que la page est accessible. Ce ne sont pas les mêmes bots, celui d'adsense n'a rien à voir avec celui de l'indexation.

noren · 13 Mars 2016

Marie-Aude a dit:
Oui. Mais bon, ce genre de page n'a pas vocation à être indexée.

Justement je met a la base soit la balise canonical ou noindex
De cette facon si quelqu'un mettait un de ces liens j'obtenais quand même du jus sur la page canonique (page de catégorie)
Chose qui n’est donc plus possible avec le blocage du robots.txt

j'avais mis en place la balise canonocal ou noindex, avant de constater que google crawlait toutes les pages possibles de filtres. Autant dire que ca peut vite atteindre plusieurs milliers voir dizaines de milliers de pages crawlées inutilement.
Et je ne sais pas si ca a un impact sur la fameuse "masse noire". En tout cas ca en a un sur ma bande passante et mon serveur.
Par contre si GG ne validait pas mon formulaire, ça aurait été bien moins gênant d'avoir quelques BL sur ce types de pages et j'aurais eu du jus.

Marie-Aude a dit:
Ou transformer tes ? en # ^^

Ca se fait en ajax? comment ça s'appelle la gestion du query_string avec # pour que je puisse faire des recherche la dessus ? Et peut on lorsqu'on à un formulaire GET forcer le remplacement de "?" par "#" ? (surement en javascript ?)

Marie-Aude a dit:
Oui, tant que la page est accessible. Ce ne sont pas les mêmes bots, celui d'adsense n'a rien à voir avec celui de l'indexation.

Ok donc je peux aussi mettre de la pub adsense sur mes pages de recherche ? site.ext?recherche?s=val

Penses tu aussi que le passage en POST du formulaire avec utilisation du pattern post-redirect-get suffit ? ou GG risque aussi de suivre ce formulaire ? car si il ne le suit pas, je peux donc virer le blocage dans le robots.txt et ajouter la balise canonical en cas de BL. Et la ca serait quasi parfait

spout · 13 Mars 2016

noren a dit:
Ca se fait en ajax? comment ça s'appelle la gestion du query_string avec # pour que je puisse faire des recherche la dessus ? Et peut on lorsqu'on à un formulaire GET forcer le remplacement de "?" par "#" ? (surement en javascript ?)

https://developer.mozilla.org/fr/docs/Web/API/WindowEventHandlers/onhashchange
Puis parser le location.hash

noren · 13 Mars 2016

Merci mais ça m'a l'air bien compliqué juste pour un fichu formulaire que google ne devrait même pas valider à la base !!

Gg a conscience que dans nos formulaire on peut faire des traitements : update, insert etc. ? et que les validés de la sorte ca peut avoir un impact sur notre bdd ? :evil:

spout · 13 Mars 2016

Oui c'est plus simple de mettre le meta robots noindex ou canonical

madri2 · 13 Mars 2016

noren a dit:
Le GET n'était pas envoyé automatiquement lorsqu'on arrivait sur mes pages de catégories, ça n'a pourtant pas empêché GG de remplir les select et de les valider... :? Et à moins de valider le formulaire mes pages du type site.ext?categorie?select1=?&... n'étaient visibles nulle part sur le site.
D’ailleurs à quel moment un post pourrait être envoyé automatiquement lors de l'affichage de la page ?

Et d'après cet article https://www.webrankinfo.com/dossiers/indexation/crawl-javascript-post G suit maintenant les formulaires POST selon des conditions difficiles à déterminer.
Résultat je suis à priori pas à l'abri de pb si GG suit mes formulaire POST de filtres, d'autant plus que j'utilise mnt le pattern post-redirect-get et que je ne sais pas comment GG interpréterait ce bordel si il valide le formulaire. D'autant plus que je bloque ces pages ?select1=... avec le robots.txt

sauf que tu parle de GET et moi de POST.

noren · 13 Mars 2016

Ca m’amène à une autre question dans le pattern je fais donc ceci lorsqu'on clic sur le formulaire post :

Code:

header("HTTP/1.1 303 See Other");
header('Location: '.$url.$querystring);

Ce qui redirige donc sur la page du style :

Code:

site.ext/categorie?select1=val1&select2=val2&select3=val3

Et dans cette page je met le lien canonique suivant :

Code:

site.ext/categorie

est-ce que la j'ai tout bon ?

Le fait de faire une redirection juste avant ne risque pas d'indexer la page site.ext/categorie?select1=val1&select2=val2&select3=val3 avant que le lien canonique soit pris en compte ?

Si c'est ok, Je pourrais donc éventuellement virer le blocage robots.txt

Autre solution :

je pourrais détecter l'user-agent au moment du post (dans l'eventualité ou google valide le formulare post) et si il s'agit d'un robot je redirige dans tous les cas vers :

Code:

site.ext/categorie

ici on ne serait pas sur du cloaking ou je ne sais quoi dans la mesure ou GG n'a pas a cliquer sur ce formulaire...
Bonne solution ?

noren · 18 Mars 2016

Bon ça devient vraiment gonflant cette histoire.

Etant donné que Google a toujours en cache mes pages de catégories avec le formulaire GET (malgré mon passage en POST et des tentatives pour qu'il explore a nouveau ces pages) il semblerait qu'il continue d'essayer de crawler les pages de type site.ext/categorie?select1=val1&select2=val2&select3=val3

Mais vu que je les bloques dans le robots.txt , il trouve rien de mieux que de les indexer quand même de cette façon :

Code:

www.site.ext/categorie?select1=val1&select2=val2&select3=val3...
La description de ce résultat n'est pas accessible à cause du fichier robots.txt de ce site. En savoir plus

La je vois vraiment pas comment faire.

Qu'elle impact cela peut-il avoir si il indexe de cette façon des milliers de pages ?

une vrai galère, tout ça parce qu'il n'a rien trouvé de mieux que de valider mon formulaire GET!
je ne vois vraiment plus comment corriger définitivement ce problème :
- éviter qu'il crawl ses pages
- et éviter qu'il les indexes.

Peut-on avec le robots.txt faire en sorte qu'il ne les crawle pas mais ne les indexe pas non plus ??

spout · 18 Mars 2016

Pour empêcher d'indexer: robots.txt
Pour empêcher d'indexer ET désindexer (comme dans ton cas, qd le mal est fait): meta robots.

D'où le snippet que j'ai donné avant.

noren · 18 Mars 2016

Bon si je comprend bien je ne bloque plus dans le robots.txt et j'ajoute uniquement sur toutes ces pages soit la balise canonical soit le meta robot : noindex, nofollow c’est ca ?

le probleme c'est qu'il garde définitivement en memoire toutes les pages qu'il a deja crawlé du site, ce qui signifie que maintenant les centaines de pages qu'il a deja visitée de cette forme : "www.site.ext/categorie?select1=val1&select2=val2&select3=val3..." continueront d'être explorée même si elles sont en noindex. certainement pour vérifier si elles sont toujours en noindex...
Resultat ca sera du temps perdu d'exploration de pages inutiles qu'il pourrait passer a visiter mes pages utiles et indexables...

Sans compter qu'il a donc en cache des centaines de pages "www.site.ext/categorie?select1=val1&select2=val2&select3=val3..." et que toutes ces pages dans son cache contiennent encore le formulaire en GET (Il faudra du temps avant que Google mette a jour son cache). Résultat il va continuer d'utiliser le formulaire get de ses pages et ça va encore augmenter le nombre de pages pourries crawlées !
un bon bordel et même en ajoutant noindex,nofollow je ne vois pas de solution propre qui permettrait tous crawl et indexation de pages inutiles. j'ai l'impression que le mal est fait et que ca va etre difficile d'en sortir!

je vais quand même pas changer de NDD !!

la solution serait de dire qu'il n'indexe pas (ou désindexe si elle est déjà indexée) et ne crawl pas les pages bloquées dans le robots.txt, même si une autre page fait un lien vers ces liens bloquées. Hors actuellement cette solution ne semble pas exister.

madri2 · 18 Mars 2016

faut remplir le formulaire de désindexation

noren · 18 Mars 2016

dans ce cas mieux vaut laisser le blocage dans le robots.txt ? Et nettoyer au fur et a me sure les mauvaises pages qu'il a indexées de ce type :

Code:

www.site.ext/categorie?select1=val1&select2=val2&select3=val3...
La description de ce résultat n'est pas accessible à cause du fichier robots.txt de ce site. En savoir plus

?

Ca risque d’être laborieux et très long. pfff, j'avais vraiment pas prévu qu'il suive de la sorte mon formulaire GET

pour une lancée de nouveau site, bonjour le bordel ! :?

J'ai vraiment du mal a voir comment m'y prendre proprement pour stopper une bonne fois l'hémorragie. Surtout que google garde malgré tout, tout en mémoire. Il m'arrive sur d'autres sites de le voir encore crawlé des pages supprimées depuis des années et pourtant accessibles nulle part.

madri2 · 18 Mars 2016

oui tu bloque et tu désindexe

noren · 18 Mars 2016

Bon merci je vais voir ce que ça donne sur du plus long terme. Ca va Etre bien chiant je sens :?

UsagiYojimbo · 19 Mars 2016

En bloquant ces url avec le robots.txt, tu empêches en effet le robot d'y retourner. Si tu veux supprimer ces pages, il faut passer uniquement par la meta robots, comme indiqué plus haut.

noren · 19 Mars 2016

En fait pour vraiment savoir si je dois virer le blocage du robots.txt j'ai des questions.

Les pages indiquées en noindex, sont-elles quand même conservées par google en cache ?

J'ai l'impression que Google visite parfois d'autres pages de notre site en partant des pages qu'il a déjà dans son cache est-ce exact ? Et peut être même si ces pages ont pourtant été bloquées dans le robots.txt, après leur mise en cache.

Si c’est bien le cas, robots.txt ou non, ca semble vraiment difficile de se sortir de cette m*rde, sans finir soit par des tonnes de pages qui finissent indexées avec ceci :

Code:

www.site.ext/categorie?select1=val1&select2=val2&select3=val3...
La description de ce résultat n'est pas accessible à cause du fichier robots.txt de ce site. En savoir plus

soit avec des tonnes de pages noindex (probleme de masse noir, non ?) et qu'il crawlera régulièrement inutilement.

Et ça parait difficile de nettoyer la cache de tous les pages que google a déjà crawlé, même en passant par URL à supprimer du WGT. Surtout qu'il a deja crawlé plusieurs centaines de pages qui avaient encore le formulaire GET pour le filtre.

je ne sais pas si je suis assez clair :/

D'ailleurs comment voir toutes les pages indexées sachant que la commande site:site.ext ne semble pas très fiable...
y a t-il un moyen de voir toutes les pages indexées (mais bloquées par le robots.txt) et qui sont de la forme :

Code:

site.ext/categorie?select1=val1&select2=val2&select3=val3

noren · 19 Mars 2016

Bon

je vais faire comme ca :

1) J'ai viré le blocage : robots.txt
2) Les pages avec query_string sont en noindex ou cannonical
et
3) Je me crée un log lorsque google visite une page avec query_string afin d’étudier son comportement et supprimer ces pages de sa cache.

Petit à petit je vais peut être arriver à nettoyer tout ce merdier

Si je gardais le robots.txt, sachant que la commande site:nom.ext ne donne pas forcément toutes les pages indexées, ca ne serait pas pratique pour effectuer un bon nettoyage...

Et si je constate également dans mes logs que google suit le formulaire de filtre même en POST, je ferais un contrôle du USER agent lors de la validation du formulaire et je l'enverrais se faire f... sur une page dédiée :evil:

noren · 30 Mars 2016

je vais péter un plomb.

Je viens de voir dans mes logs que google continu de crawler mes pages de filtres :

site.ext/categorie?select1=val1&select2=val2&select3=val3

je ne comprend vraiment pas comment il trouve ces pages sachant que j'ai passé mes formulaires de filtre en post (post-redirect-get) ! Pourtant il crawl ces pages en GET alors que GG dans sa cache a bien la derniere version de ma page avec le formulaire en POST !
De plus dans mes logs je ne vois aucun POST effectué par googlebot! mais ca ne l'empeche pas de crawler ces pages en GET
Comment il fait bordel !!

il me fait vraiment chier!

Et si je bloque via le robots.txt, il m'indexe les pages et ajoute qu'elles sont bloquées par le robots.txt.

Je ne vois vraiment plus comment sortir de cette merde ! J'ai mis mis noindex ou canonical, mais je n'ai pas envie qu'il crawl les dizaines de milliers de pages que ces filtres créées !

madri2 · 30 Mars 2016

as tu fait le formulaire de désindexation ?

noren · 30 Mars 2016

a chaque fois que dans mes logs je vois qu'il crawl ce type de lien (site.ext/categorie?select1=val1&select2=val2&select3=val3 ) je les supprimes via URL a supprimer
Mais de toute facon ces pages ne sont pas indexées car je met un noindex ou un lien canonique.
Je veux juste qu'il arrete de crawler toutes ces pages inutilement

Mais que faut-il que je desindexe exactement ? Faut-il que je desindexe toutes mes pages de catégories ?

site.ext/categorie

Pas certain que ça change grand chose.

Ce qui me rend encore plus fou c’est qu'il crawl ce type de page :

site.ext/categorieA?select1=val1&select2=val2&select3=val3

Alors que dans le webcache de google je vois bien que la page site.ext/categorieA est bien à jour avec le formulaire de filtre en POST
Comme si quelque part sur ses serveurs il gardait de vielles versions (avec encore le formulaire en GET) de mes pages de catégories et qu'il s'en servait pour crawler mes pages en GET

noren · 7 Avril 2016

Google continue de crawler ce type de pages alors que j'ai passé mes formulaires de filtres en POST :

site.ext/categorie?select1=val1&select2=val2&select3=val3

ca me rend fou, je ne vois vraiment plus comment le stopper

J'ai moins de 100 vrais pages sur mon site, et Google m'en a crawler 800 il y a 2 jours. Evidememnt le 3/4 sont ces pages avec query string qu'il ne devrait plus voir depuis le passage en POST du formulaire de filtre.

je ne sais plus comment arrêter ça. J'ai fait l'erreur de ne pas savoir que Google suivrait mes formulaires de filtre en GET, et maintenant même en repassant en POST, on dirait que c'est trop tard !

Comment pourrir la sortie de son nouveau site ! Merci GG!

3ul3r · 7 Avril 2016

Juste pour que ce soit bien clair :

- Le fichier robots.txt permet de contrôler le crawl.
- La balise meta noindex permet de contrôler l'indexation.

Donc, dans ton cas ça me parait assez simple, dans l'ordre :
1) Tu ne bloques RIEN avec robots.txt.
2) Tu mets une balise meta noindex sur les pages que tu ne veux pas voir indexé.
3) Tu attends quelques jours/semaines que Google repasse sur les pages déjà indexées, qu'il se rende compte de la balise meta noindex et donc qu'il dé-indexe ces pages.
4) Une fois que toutes les pages sont désindexées, tu interdis le crawl de ces pages avec le robots.txt afin d'éviter la consommation inutile de bande passante.

noren · 7 Avril 2016

Je n'ai peut être pas été suffisamment clair. :|

Mon soucis ce n'est pas qu'il les indexe, vu que je met bien ces pages en noindex, mais c'est qu'il vienne les crawler. Des pages en get avec mon formulaire de filtre il peut y en avoir des milliers. Donc des crawl inutiles, qui font perdre du temps a GG l’empêchant surement de crawler les pages utiles, et qui en même temps utilisent ma bande passante et mes ressources serveur inutilement.

Le truc c’est qu'il semble garder dans ses serveurs des versions de mes pages qui contenaient les formulaires en GET et non en POST, et qu'il se sert de ces vielles versions pour continuer de crawler ces pages de filtres.
car j'ai pas l'impression qu'il n'utilise pas mon formulaire en POST. Dans mes logs je ne vois aucun POST de googlebot

Et je suis évidement incapable de savoir qu'elles pages sur ses serveurs ne sont pas à jour et contiennent encore le formulaire GET. Sachant que toutes les pages avec GET qu'il a crawlé avant mon passage en POST, contenaient elles aussi le formulaire de tri en GET (logique).

Le soucis c'est qu'en bloquant avec robots.txt, vu qu'il continu par je ne sais quelle raison par utiliser mes formulaires en GET, c’est qu'il les indexes en indiquant pour chacune d'elle qu'elles ont été bloquées. Avec le robots.txt c’est donc pire.

Lorsqu'il voit une page en noindex, revient-il quand même la crawler régulièrement, une fois qu'il sait qu'elle existe ?

3ul3r · 7 Avril 2016

Je comprends pas ton problème de GET et POST. C'est un problème serveur et je pense que tu te focalises trop la-dessus alors que Google s'en fout.

Considère simplement que si Google tombe sur une URL qui renvoi un code HTTP valide et sans balise META noindex, l'URL sera indexée. Que l'URL provienne d'un lien interne, d'un lien externe, d'un formulaire POST/GET, d'un lien javascript, whatever, elle sera quand même indexée.

Si tu as un système qui génère des URL à l'infini que tu ne souhaites pas faire indexer, il faut empêcher le crawl avec le fichier robots.txt AVANT de mettre le système en ligne.
Dans ton cas c'est trop tard puisque les URL ont déjà été explorées. Donc la seule solution est de mettre des balises META noindex et d'attendre la dé-indexation progressive. Une fois que tout est dé-indexé, tu empêches le crawl avec le robots.txt pour éviter la consommation inutile de bande passante. Mais tu es obligé d'attendre d'abord la dé-indexation des pages avant de bloquer le crawl.

C'est assez simple : Il est impossible de faire dé-indexer une page si Google n'a pas le droit de la crawler. Il FAUT laisser à Google l'autorisation de crawler la page afin qu'il voit la balise Meta noindex.

Pour ta dernière question : oui. La balise META noindex permet de contrôler l'indexation uniquement. Donc Google continuera de venir la crawler régulièrement. Si tu veux contrôler le crawl, c'est le fichier robots.txt.

Pour résumer, suit mes 4 étapes dans mon précédents messages et tout devrait bien se passer. Mais n'essaie pas de bruler les étapes. Tu es obligé d'attendre la dé-indexation avant de bloquer le crawl. Ca sera le bordel pendant quelques jours/semaines mais tu n'as pas le choix.

noren · 7 Avril 2016

Sauf, comme indiqué, qu'avec le robots.txt, google indexe la page en indiquant ceci :

www.site.ext/categorie?select1=val1&select2=val2&select3=val3...
La description de ce résultat n'est pas accessible à cause du fichier robots.txt de ce site. En savoir plus

car tant qu'il aura accès quelque part sur son serveur a mes formulaires en get il continuera d'essayer de le valider et vu qu'il tombera sur mon robots.txt il indexera la page en indiquant qu'il n'a pas pu y accéder. Il est là le problème.

Et toutes les pages qu'il a deja crawlé et qu'il connait (même si elles sont en noindex) il continuera indéfiniment de les crawler. résultat même si je met le robots.txt je vais me retrouver ensuite avec des tonnes de pages indexées avec le même message indiqué ci-dessus. Et j'aurais beau les virer dans le WGT en faisant "url à supprimer" elles reviendront toujours.

Concernant les pages en noindex, je vais poser ma question autrement. Admettons que ces pages ne sont plus linkées nulle part sur mon site. Plus aucun BL interne vers ces pages. Google continuera quand même de les crawler, uniquement par ce qu'il connait maintenant ces url ?
car si c’est le cas, c’est donc trop tard, et google m'a foutu dans une belle merde !

la solution aurait été que le robots.txt soit également associé à du "noindex", ce qui n’est pas le cas. donc du moment qu'il essaye de crawler ce type de pages, le robots.txt ne changera rien car il indexera des pages qu'il ne devrait pas.

Le soucis c’est qu’effectivement il aurait fallut utiliser le robots.txt avant la mise en ligne du site. mais pour cela il aurait fallu que je sache que Google valide les formulaires GET et crawl les pages générées par ce formulaire...

Maintenant j'ai l'impression que la seule chose que je puisse faire c’est mettre en noindex ce type de page, et le laisser malheureusement les crawler...

3ul3r · 7 Avril 2016

noren a dit:
Sauf, comme indiqué, qu'avec le robots.txt, google indexe la page en indiquant ceci :

Mais je vais pas répéter le truc 36 fois. Arrête de confondre "indexer" et "crawler".

Le robots.txt empêche le crawl, pas l'indexation. Donc il est normal que Google indexe des pages même si elles sont bloqués par le robots.txt.

J'ai pas lu la suite. J'abandonne ...

noren · 7 Avril 2016

je confond pas, je te dis juste que dans mon cas mettre le robots.txt engendrerait des tonnes de pages indexées avec le message indiqué plus haut. Et pour la bonne et simple raison qu'il n'a pas pu les crawler donc qu'il n'a pas pu savoir si elles sont en noindex.

Et ceci même si la dernière fois ou il a crawler ces pages (avant la mise en place du robots.txt), javais bien indiqué qu'elle soit en noindex. car du moment qu'il connait ces pages, il viendra essayer de les crawler, et c’est donc trop tard pour le robots.txt.

une page qu'il connait et qu'il essaye de crawler. si elles est bloqué dans le robots.txt, elle est indexée.

je vois pas comment je peux etre plus clair :/

3ul3r · 7 Avril 2016

Non, si tu fais bien les choses dans l'ordre et rigoureusement, cette situation n'est pas sensée arriver.

Google ne va pas indexer une page bloquée dans robots.txt qui avait en plus une balise META noindex lors du dernier crawl autorisé.
Cela peut éventuellement se produire si l'URL a des backlinks.

Les instructions d'un fichier robots.txt ne peuvent pas empêcher les références à vos URL sur d'autres sites
Même si nous n'explorons pas ni n'indexons le contenu bloqué par le fichier robots.txt, nous pouvons détecter et indexer des URL bloquées ailleurs sur le Web. Par conséquent, l'adresse URL et, potentiellement, d'autres informations accessibles au public, comme le texte d'ancrage dans les liens qui redirigent vers le site, peuvent s'afficher dans les résultats de recherche Google. Vous pouvez empêcher complètement l'apparition de votre URL dans les résultats de recherche Google à l'aide d'autres méthodes de blocage d'URL, telles que la protection par mot de passe des fichiers sur votre serveur, ou l'insertion de la balise Meta noindex ou d'un en-tête de réponse.

https://support.google.com/webmasters/answer/6062608?hl=fr

Je rajoute que tu peux aussi utiliser les META canonical pour que les URL avec filtres ne soient pas indexés (mais les pages seront tout de même crawlées).

noren · 7 Avril 2016

3ul3r a dit:
Google ne va pas indexer une page bloquée dans robots.txt qui avait en plus une balise META noindex lors du dernier crawl autorisé.

même si il connait dorénavant l'url de cette page ? et qu'il va forcément venir vérifier si elle est toujours en noindex ?

Ou meme si admettons, pour faire simple (et ne pas rentrer a nouveau dans cette histoire de formulaire), j'ai des liens internes qui pointent vers ces pages ? ou du moins que google a toujours en memoire des pages de mon site qui contiennent des liens vers ces mauvaises pages ?

Important : Pour que la balise Meta noindex soit efficace, la page ne doit pas être bloquée par un fichier robots.txt. Si la page est bloquée par un fichier robots.txt, la balise noindex n'est pas détectée par le robot d'exploration, et la page peut encore s'afficher dans les résultats de recherche, par exemple si d'autres pages contiennent des liens vers celle-ci.

Vu que Google ici ne stipule pas si il s'agit de liens externes ou interne, si google a en memoire des pages avec mon formulaire get (l'équivalent de lien interne sur mon site vers ces mauvaises pages), il continuera d'essayer de les crawler, mais comme il sera bloqué par le robots.txt il indexera ces pages avec ce message :
La description de ce résultat n'est pas accessible à cause du fichier robots.txt de ce site. En savoir plus

Sachant que depuis le début de la mise en ligne du site ces mauvaises pages ont toujours eu la balise noindex ou un lien canonique!
j'avais déjà essayé le robots.txt et je me retrouvais avec de plus en plus de ces pages indexées. Au début je faisais petit a petit "URL a supprimer" dans le WGT pour les retirer, mais j'ai abandonné.

noren · 7 Avril 2016

Bon j'ai peut etre une piste qui pourrait régler mon probleme de crawl et sans passer par le robots.txt

Je suis allé dans le WGT
Puis Exploration
Puis Paramètres d'URL

La, sur un des paramtres (inutile de le faire sur tous je pense), j'ai cliqué sur modifier

A la question "Ce paramètre modifie-t-il le contenu de la page affichée par l'internaute ?"
J'ai choisi "oui le contenu de la page est modifié, restreint.."

A la question "Comment ce paramètre affecte-t-il le contenu de la page ?"
J'ai choisi "restreint'

A la question "Parmi les URL contenant ce paramètre, lesquelles doivent être explorées par Googlebot ?"
J'ai choisi "Aucune URL"

j'espère qu'il arrêtera donc d'essayer de crawler ses pages et qu'en meme temps il ne les indexera pas en mettant "La description de ce résultat n'est pas accessible à cause du fichier robots.txt de ce site. En savoir plus".

Qu'en pensez vous? Est-ce une bonne solution?

noren · 10 Avril 2016

A priori paramètres d'URL dans le WGT ne sert strictement à rien. Une honte de mettre cet outil à disposition, alors qu'ils ne le prennent pas en compte !

Y a pas a dire mais GG me fera ch*er jusqu'au bout !

Il persiste à utiliser mon formulaire de tri en GET, certainement à partir d'anciennes caches (sur ces serveurs) de mes pages pfff. Alors que mes formulaires sont en POST depuis un mois

Donc paramètres d'url ne fonctionne pas et si je bloque via le robots.txt il m'indexe les pages bloquées (vu qu'il ne peut pas voir qu'elles sont en noindex voir ici : https://www.webrankinfo.com/dossiers/indexation/crawl-respect-robots-txt ). la seule solution est de le laisser crawler toutes ces pages de filtres (soit plusieurs milliers) inutilement en laissant le meta noindex,nofollow ! Pathétique !
Du temps perdu et des ressources utilisées inutilement

Autre solution que je pourrais essayer c’est le noindex dans le robots.txt. Le soucis c’est que cette instruction n’est pas officielle et si jamais GG décide de la retirer ou de modifier sont comportement ça pourrait avoir un impact négatif non négligeable.

Tout est encore loin d'être parfait chez notre ami GG !

PS : et autres délire de GG. Il m'avait même référencé quelques pages qui utilisaient des liens canoniques ! J'ai cru comprendre que GG pouvait parfois prendre en compte ce lien canonique seulement après 2-3 passage sur la page 8O
Et qu'il pouvait même dans certain cas ne pas le prendre en compte du tout. hallucinant.

spout · 10 Avril 2016

Tu te fais bcp de soucis pr rien, allez pete un coup ça ira mieux :mrgreen:
Ça aurait été plus malin si tu avais donné tt l'énergie de ce topic à écrire du nouveau contenu

noren · 10 Avril 2016

:mrgreen: bah c’est quand même agaçant de voir tous ces crawl inutiles. Résultat google va comptabiliser des milliers de pages en noindex, alors que mon site ne contient pour le moment pas plus d'une centaine de pages indexables.

je ne sais pas si dans le cas présent on peut parler de masse noire, et d'un effet négatif pour le référencement. Surtout pour un site qui a à peine 1 mois :wink:

De toute façon j'ai l'impression que je ne peux rien faire de plus. Ce que GG veut Dieu veut... J'aime généralement tout contrôler mais là ça ne semble plus à ma porté

zeperfs · 4 Mai 2016

Le paramètre URL de webmaster tools ou le robot.txt c'est effectivement à mettre en place avant pour ne pas voir apparaître le pages dans l'index (à combiner avec les balises noindex) ou éviter leur accès par le googlebot

Dans ton cas si tu as une liste de pages à ne plus indexer : tu fais une page de résumé (en noindex,follow) de toutes ces url à désindexer (pages en noindex, nofollow avec tant qu'à faire une rel=canonical) que tu sers au bot google en plus de ton questionnaire (uniquement pour lui et pas pour tes visiteurs). Bien entendu tu ne bloques pas la page de resumé ni celles à désindexer dans robots.txt.
Après quelque temps tu devrais voir disparaitre les pages en question de l'index google et tu pourras mettre à jour ta page de résumé en conséquence (si tu surveilles les pages crawlées et indexées) : après plusieurs itérations tu devrais avoir réduit à presque rien la liste des urls à sortir de l'index. Il sera alors temps de mettre dans le robot.txt les pages issues du formulaire pour qu'il n'y accède plus.

T'embêtes pas avec les liens en post ou javascript au lieu de get car le bot de google y accéderas certainement quand même au bout d'un moment (ce n'est donc pas efficace pour éviter le crawl) -> pire il essaie parfois des urls par analogie (sans qu'elles ne soient référencées nul part).

noren · 4 Mai 2016

Mon problème n'était pas qu'il indexait ces pages (vu qu'elles étaient déjà en noindex) mais qu'il les crawlait, vu que ca faisait des milliers voir dizaines de milliers de pages (avec les filtres on a vite de nombreuses combinaisons). Et lorsque je bloquais le crawl avec le robots.txt a ce moment la il me les indexait vu qu'il ne voyait pas qu'elles étaient en noindex.
Donc je voulais qu'il arrête de les crawler et qu'il ne les indexe pas.

A priori il s’est calmé et ne semble plus les crawler. la combinaison entre la meta "noindex, nofollow", le passage de mon formulaire de filtre en post, et la gestion des paramètres d'URL dans le GWT a surement été efficace. Mais je surveille, je ne suis pas à l'abri qu'il me refasse une grosse vague de crawl...

je connais très bien le fonctionnement et l’intérêt de chaque outil : lien canonique, meta noindex, robots.txt, mais j'avais l'impression que quoi que je fasse soit il continuait de crawler mes pages soit il les indexait. :wink:

je ne pouvais pas utiliser "paramètres d'url" avant car il m'était pas venu à l'esprit qu'il allait suivre mes formulaires de filtres