Google ne respecte pas les robots.txt ?

bielle64 · 8 Septembre 2003

Je viens de me rendre combte que Google a indexé un grand nombre de pages de mon site avec des liens php du type :
www.ossau.net/ossau/viewtopic.php?p=975
alors que j'ai bien mis dans mon robots.txt : Disallow: /ossau/viewtopic.php

Google ne respecte pas les robots.txt ??

mahefarivony · 8 Septembre 2003

bizarre

https://www.webrankinfo.com/dossiers/indexation/20-ans-robots-txt peut etre ?

Mirgolth · 8 Septembre 2003

bielle64 a dit:
Google ne respecte pas les robots.txt ??

Salut,

Ta syntaxe n'est pas bonne. Retire la ligne vide entre User-agent: et Disallow: et cela ira mieux.

Mirgolth

WebRankInfo · 8 Septembre 2003

je ne savais pas que les lignes vides pouvaient poser problème ! c'est dans le standard du robots.txt ?

Mirgolth · 8 Septembre 2003

WebRankInfo a dit:
je ne savais pas que les lignes vides pouvaient poser problème ! c'est dans le standard du robots.txt ?

Oui, les lignes vides servent à séparer les enregistrements ( records) composés de lignes User-agents et Disallow. Voilà les lignes correspondantes dans A Standard for Robot Exclusion vers lequel Google pointe :

The file consists of one or more records separated by one or more blank lines (terminated by CR,CR/NL, or NL). Each record contains lines of the form "<field>:<optionalspace><value><optionalspace>". The field name is case insensitive.

The record starts with one or more User-agent lines, followed by one or more Disallow lines, as detailed below. Unrecognised headers are ignored.

Donc après une ligne vide on doit avoir une ligne User-agent.

Mirgolth

bielle64 · 22 Septembre 2003

Merci Mirgolth, je corrige illico mon robots.txt

bielle64 · 23 Septembre 2003

Je ne sais pas encore si Google respecte mon nouveau robots.txt mais je viens de me rendre d'un truc assez étrange : mon robots.txt fait partie des pages indexées par Google.
https://www.google.fr/search?q=cache:OIk ... r&ie=UTF-8

C'est normal docteur ?

mahefarivony · 23 Septembre 2003

bin pourquoi pas

bielle64 · 23 Septembre 2003

Ben je pensais qu'un fichier robots.txt n'avait qu'une valeur informative à l'usage des spiders. Donc, à mon sens, s'il est indexé c'est qu'il est pris pour une page web et donc pas exécuté.