Robots et la balise..."Robots"CONTENT="index,

beri · 4 Juin 2005

Bonjour

Par destination de son objet, les robots indexent toutes les pages dés lors que les attributs spécifient "index,follow" (ou all selon).
Mais ce que je n'arrive pas à comprendre, c'est comment un robot peut justement indexer des pages "réécrites" dans un fichier .htaccess.

Ma première question :
Un robot, avant d'indexer quoique ce soit, est-il paramétré pour analyser automatiquement le contenu d'un fichier .htaccess ?

Ma seconde question:
J'aimerais savoir si certains d'entre vous ont déjà conçu des générateurs perso d'url à réécrire, notemment pour des sites pouvant générer des milliers de liens, du fait de la multitude d'articles ou variables à gérer.

Merci à vous pour vos réponses éventuelles.
Cordialement

beri · 5 Juin 2005

up!

Pas de réponse pour la seconde question ?

En fait, il est posible, voire enfantin de générer des url réecrites en utilisant sql pour les créer.A condition d'avoir quelques notions bien sûr.
Mais quel gain de temps !

Nota :Il faut des jours et des jours pour élaborer un fichier .htaccess lorsq'on dispose d'une liste "infinie" de produits ou thémes.

J'ai pu générer plus de 4000 urls différentes en une demi-journée, et au demeurant en partie testées.(m'en reste 2 fois autant) arfff !
Je reste persuadé que cette solution mérite d'être développée un peu plus en profondeur, d'où ma question sur le sujet.

julio38 · 5 Juin 2005

moi pas comprendre la 1ere question !?

le crawler se comporte comme un etre humain: il suit les liens (internes et externes)
si toutes tes urls sont réécrites : il ne connait que cette ci.
par exemple : si tu fais un lien /monproduit-2-3.html
(qui à l'origine est produit.php?cat=2&p=3 )
le crawler ne voit que /monproduit-2-3.html.
il a pas besoin de lire le htaccess et ne sait d'ailleur pas que n'est une url rewrité

beri · 5 Juin 2005

julio38 a dit:
moi pas comprendre la 1ere question !?

le crawler se comporte comme un etre humain: il suit les liens (internes et externes)
si toutes tes urls sont réécrites : il ne connait que cette ci.
par exemple : si tu fais un lien /monproduit-2-3.html
(qui à l'origine est produit.php?cat=2&p=3 )
le crawler ne voit que /monproduit-2-3.html.
il a pas besoin de lire le htaccess et ne sait d'ailleur pas que n'est une url rewrité

Justement, la réécriture du lien "produit.php?cat=2&p=3" vers "monproduit-2-3.html" se fait dans le fichier htaccess non ?
Par conséquent, comment le crawler peut le connaitre s'il ne lit pas ce fichier ?

julio38 · 5 Juin 2005

décidement ... je comprend pas non plus la réponse !

et tes utilisateurs ? ils font comment ?

soit ils cliquent sur un lien "produit.php?cat=2&p=3"
et dans ce cas ton url rewriting ne sert à rien

soit ils cliquent sur "monproduit-2-3.html" (et arrive sur la bonne page)
et c'est pas pour autant qu'ils ont regardé dans le htaccess !!