Robots.txt et URL Rewriting

WRInaute discret
Comment se comportent les spiders par rapport à l'URL-Rewriting (UR) ?
Par exemple, si j'ai fait un UR qui appelle "index.php?rub=mapage" par l'URL "mapage.htm"

Si je ne suis pas sûr d'avoir viré tous les liens "index.php?rub=mapage", puis-je mettre dans un robots.txt "Disallow : index.php?rub=mapage" pour éviter les doublons de page indexées ?

Ou cela risque-t-il d'interdire complètement l'accès à la page, même si elle est appelée par "mapage.htm" :?: :?:
 
WRInaute discret
Ben j'ai vraiment un gros doute la dessus. J'avais mis en place l'url rewriting sur mon forum phpBB et ggole la indexé nixkel. Mais voyant qu'il prenait plein de page en double (avec et sans url rewriting car je n'avais pas bien fait les modifs partout, je me suis dit que j'allais mettre mes pages php dans le robots.txt en disallow. Et bien google n'est pas du tout passé sur mon forum lors du précédent full crawll :(

Mais je ne garantie pas que ce soit ça. C'est pour ça que j'aimerais aussi une fonfirmation claire. Par exemple le full crawll est il bien passé sur ton forum WRI (j'ai oublié ton prénom :oops: ) ? Et ce avec ton robots.txt ?
 
WRInaute passionné
Bonne question
Pour les pages ou les url ont été mises en html, pas de problèmes.
Pour les pages qui ne l'ont pas été, pas de problème non plus, google arrive toujours à les lire.
Il y a une url physique et une url virtuelle, l'url physique fonctionne toujours.
 
WRInaute discret
BDGest a dit:
Mais je ne garantie pas que ce soit ça. C'est pour ça que j'aimerais aussi une fonfirmation claire. Par exemple le full crawll est il bien passé sur ton forum WRI (j'ai oublié ton prénom :oops: ) ? Et ce avec ton robots.txt ?

Mon prénom c'est Michel, c'est écrit dans ma signature :P
Je croyais avoir lu un sujet de ta part où tu disais que que tu lockais ton forum pour qu'il ne soit lisible que par les abonnés à cause de la bande passante bouffée par les bots. Du coup ce serait normal que tes paes ne soient plus indexées. Mais ça ne doit pas être toi, c'est stupide. Du coup j'hésite à faire cette manip du robots.txt :roll:
 
WRInaute discret
Kmacleod a dit:
Bonne question
Pour les pages ou les url ont été mises en html, pas de problèmes.
Pour les pages qui ne l'ont pas été, pas de problème non plus, google arrive toujours à les lire.
Il y a une url physique et une url virtuelle, l'url physique fonctionne toujours.

Donc, pour toi, si j'interdis la page physique dans le robots.txt ça n'empêchera pas sont référencement si elle est appelée par son faux nom url-rewrité.

Tu es sûr de ça ?
 
WRInaute occasionnel
Donc, pour toi, si j'interdis la page physique dans le robots.txt ça n'empêchera pas sont référencement si elle est appelée par son faux nom url-rewrité.
Pour moi aucun problème de ce coté la, par contre la question est comment sont traitées les url avec paramètre dans le fichier robots.txt.
Si la page /index.php toute seul doit être référencé ca pourrait peut-être poser pb...A voir
Si ce n'est pas le cas pour toi c'est bon je pense
 
WRInaute discret
BDGest a dit:
C'est pour ça que j'aimerais aussi une fonfirmation claire. Par exemple le full crawll est il bien passé sur ton forum WRI (j'ai oublié ton prénom :oops: ) ? Et ce avec ton robots.txt ?
Je confirme, j'ai mis
Disallow: /ossau/viewtopic.php
dans mon .htaccess et ça n'empêche pas pas l'indexation des pages URL-Rewritées utilisant le fichier viewtopic.php
Donc, dans le cas d'UR d'un forum phpbb on peut mettre cette interdiction pour éviter la double indexation à cause des liens qui amènent directement sur le dernier post du type :
http://www.ossau.net/ossau/viewtopic.php?p=260#260
Pas besoin de les UR ni de les supprimer donc :)
 
WRInaute discret
Gros doute sur Scooter

Heu, j'ai quand même un doute sur ce que je viens de dire précédemment dans la mesure ou je me basais sur le passage du bot Scooter. Hors, celui-ci vient d'indexer ma memberlist.php alors que je l'ai interdit dans mon robots.txt 8O
Donc s'il s'avère qu'il ne respecte pas ces interdictions ma confirmation n'a plus de raison d'être pour le moment...
 
WRInaute discret
Are you sure ?

J'attaque le fichier robots.txt en ce moment meme ?

Je pensais come bielle64 mais bon faut etre sur. Je peux sans probleme interdir l'acces à toutes mes pages php sans toutefois empecher l'aces en url rexrités en html ?
 
WRInaute discret
Soooo sure !

Tchinkatchuk a dit:
Je pensais come bielle64 mais bon faut etre sur. Je peux sans probleme interdir l'acces à toutes mes pages php sans toutefois empecher l'aces en url rexrités en html ?
Oui, je confirme "TKT", tu peux interdire l'accès php sans problème, plusieurs moteurs indexent mes pages HTML malgrès cette interdiction sur mon forum phpbb www.ossau.net
Google a toujours du mal à venir chez moi mais pompos ou fast ont indexé toutes les pages.
 
WRInaute discret
google est passé ces derniers jours et il n'a rien pris parmi les url rewritées

pas de changement dans mes adresse physiques (PHP) et pas de nouvelles pages rexritées dans l'index !!! En gros, aucun changement !!!!

dois enlever mon interdiction dans le robots.txt ==> risque de spam

OLA LA LA, la galere :?
 
WRInaute discret
Hypothèse qui flotte

C'est très bizarre, mais je ne pense pas que G ait trouvé le moyen de détecter l'UR.
Mon site sur le Village de Bielle a aussi été url-rewrité et toutes ses pages sont régulièrement visitées par G.
Alors je ne vois pas ce qui bloque.

Hypothèse en bois : G a détecté qu'il s'agit d pages d'un forum phpBB (c'est facile, il y a le copyright phpBB partout) et comme mon PR est toujours de zéro, il n'indexe pas...
 
WRInaute discret
c ca qu'est drole !! je suis quasiment sur de ce que j'ai fait, c tout con!

Code:
h**p://www.antiquites-en-france.com/antiquites/Bibliotheques_6.html 
utilise en fait la page
h**p://www.antiquites-en-france.com/pages/objets/liste.php

avec le robots.txt suivant

Code:
User-agent:  *
Disallow: /admin/ 
Disallow: /pages/annuaire/index.php
Disallow: /pages/annuaire/liste.php
Disallow: /pages/annuaire/departement.php
Disallow: /pages/abonnes/index.php
Disallow: /pages/abonnes/liste.php
Disallow: /pages/objets/index.php
Disallow: /pages/objets/liste.php
Disallow: /pages/objets/fiche.php
Disallow: /pages/agenda/liste.php

Ca doit fonctionner, c po sorcier.

PAR CONTRE : MON PR est de 0 sur ces pages alors qu'avant il était de trois, donc ...
le robots.txt l'a-t-il empecher de tout voir ?
 
WRInaute discret
Ben... si tu as un doute, fais come moi, vide ton robots.txt
Je ne crois pas qu'il y ait risque de spam, un forum comme WRI comporte de nombreuses pages identiques avec une URL différente et ça ne le pénalise pas. Alors ce sont pas nos petits sites qui vont être pénalisés !
Soyons simplement patients.

En tout cas, Fast, AllTheWeb ou dir.com ont été largement plus efficaces que Google depuis 3 mois que mes sites sont nés. Du coup je me demande s'ils ne sont tout simplement pas meilleurs que Google pour toute recherche... Attention M. Google...
 
WRInaute discret
Vide c'est mieux qu'absent

ça y est, maintenant c'est moi qui vait trinquer :)
Par contre il vaut mieux vider ton robots.txt plutôt que de le supprimer. C'est plus sympa pour les robots.
 
Discussions similaires
Haut