Google ne respecte pas mon robots.txt!

WRInaute passionné
La syntaxe du robots.txt à l'air correcte.

J'ai l'impression que Google n'indexe pas la page viewtopic.php, mais les pages viewtopic.php?id=xx

Il me semble que les expressions régulières ne sont pas autorisées dans un fichier robots.txt. A faire confirmer par le forum.
 
WRInaute accro
regarde ton interface Sitemaps sur google, tu verra la rubrique "URL restreintes par le fichier robots.txt" et au bout d'un moment les pages indexées disparaitront de l'index et apparaitront dans cette rubrique.
 
WRInaute occasionnel
Voir dans les "autres sujets de discussion", j'y ai trouvé ce lien :
http://googleguy-fr.blogspot.com/2004/0 ... e-msn.html

"Si une page est dans robots.txt, nous n'allons pas la crawler, mais nous pouvons l'afficher dans les résultats de recherche si nous avons des raisons de penser qu'elle est pertinente par rapport à la requête. Dans ce cas, nous n'afficherons que l'URL (pas de titre, pas de description et pas de cache).
Voici un bon exemple : pendant longtemps, le California Department of Motor Vehicles (DMV) avait un robots.txt qui ne laissait pas les moteurs crawler les pages. Seulement, pour une recherche comme "california dmv" nous pouvions retourner une URL, même si nous ne pouvions crawler la page.
Si tu ne veux pas que la page apparaissent du tout, tu peux le garantir en laissant Google voir la meta tag "noindex" lors du crawl.
Pour les curieux, nous avons réussi à convaincre DMV de laisser les moteurs crawler leur site, mais nous avons du prendre un rendez-vous et nous avons fait la queue pendant un moment. ;-)
 
WRInaute passionné
ouais bah je le merde Mister google!

J'ai rewrité mes pages, et depuis le début je lui dis de pas les crawler!

Alors non seulement il me les crawl, et en plus il me les ajoute a son index!!!

Et apres il va pas etre content car il va dire que je fais du "duplicate content" naméo

En fait les pages qu'il m'index alors qu'il devrais pas si il suivait mon robots.txt sont en lien sur la page d'accueil (j'ai la fleme de rewriter les liens vers les last poste du forum)...

Bref, méchant le google, je boude!
 
WRInaute accro
zimounet a dit:
En fait les pages qu'il m'index alors qu'il devrais pas si il suivait mon robots.txt sont en lien sur la page d'accueil
Je crois que tu n'as pas lu la réponse que jerome347 a donnée à ta question et qui confirmait ma réponse... :wink:

Jean-Luc
 
Discussions similaires
Haut