URL avec noindex, bloquée par le robots.txt mais dans l'index google !

WRInaute discret
Bonsoir,

Pour que les pages de faible qualité de mon site ne soit pas indexées par Google ; j'ai mis en place la balise <meta name="robots" content="noindex, follow"> et j'ai bloqué l'url dans le fichier robots.txt. L'url est bien bloquée par ce fichier lorsque j'effectue un test dans le GWT.

Pourtant, en faisant une recherche dans Google avec inurl, l'url apparait bien.

Aurai-je loupé quelque chose ? Car là, je ne comprends vraiment pas pourquoi cette url est indexée.
 
WRInaute discret
Oui, plusieurs dizaines... Et comme je n'ai pas envie de toutes les taper dans l'outil de suppression d'URL du GWT, quelle est maintenant la meilleure solution ?

Est-ce que le fait de bloquer l'url dans le robots.txt l'empêche de lire la balise meta noindex ?

Une page indexée avec la balise meta noindex sera-t-elle automatiquement désindexée dans le temps par Google ?
 
WRInaute discret
Au départ, je n'avais que la meta no index en place et je m'amusais à supprimer plusieurs dizaines d'url via le GWT.

En fait c'est la même forme d'url avec simplement une variable qui change.

J'avais modifié ce week-end mon robots.txt pour bloquer cette forme d'url, ayant au préalable supprimé manuellement via le GWT toutes les urls indexées.

Comme par hasard, après de nouvelles publications sur mon site et la modification du robots.txt, les urls associées à ces nouvelles publications se retrouvent indexées.

je viens de remettre mon robots.txt comme à l'origine pour ne pas générer de conflit avec la meta noindex.
 
WRInaute discret
Sauf que la majorité mes urls avec variable sont réécrites. Du coup, Google ne semble pas les reconnaitre.
Il me propose simplement comme paramètres les variables et bien distinctes dans les url non réécrites.
 
WRInaute discret
Leonick a dit:
le contenu des url non indexables n'est pas inclus dans l'index, mais les url si, elles apparaissent avec rien en dessous
Tu veux dire le contenu des url non crawlables. :mrgreen:

Petit résumé :

- Utilisation du meta robots noindex SEUL (sans robots.txt) => Google crawl le fichier, voit le noindex et n'affiche pas cette page dans ses résultats de recherche, le fichier n'est pas indexé.

- Utilisation du fichier robots.txt SEUL (sans le meta noindex) => Google ne peut pas crawler le fichier, donc le lire. En revanche rien ne l'empêche de l'indexer, donc s'il arrive à ce fichier par un lien quelconque, il le met dans son index. Puisqu'il ne peut pas lire le contenu du fichier, il n'affichera rien dessous sur ses SERP (pas de title, pas de description, rien).

- Utilisation du fichier robots.txt AVEC meta noindex => il se passe la même chose qu'avec le fichier robots.txt seul, puisque le meta noindex est invisible au robot. Fichier indexé, mais qui n'affiche ni title ni description dans les résultats de google.

Voilà j'espère que ça peut aider

Johann
 
WRInaute accro
Tigerfou a dit:
Tu veux dire le contenu des url non crawlables. :mrgreen:
oui, quoique, j'ai des doutes :wink:
Tigerfou a dit:
Puisqu'il ne peut pas lire le contenu du fichier, il n'affichera rien dessous sur ses SERP (pas de title, pas de description, rien).
ça dépend, des fois il peut afficher l'ancre trouvé sur un lien vers cette page
 
WRInaute discret
Samedi dernier, j'ai modifié les paramètres d'url dans le GWT pour "Qu'aucune URL ne soit explorée". Résultat : des dizaines de pages apparaissent malgré la présence du noindex dans le code des pages concernées.

J'ai comme l'impression que cela a eu le même effet que de bloquer les urls via le robots.txt combiné à la meta noindex : quelqu'un peut-il confirmer ?
 
Discussions similaires
Haut