Désactiver des urls créées dynamiquement

WRInaute discret
salut,

j'ai passé un des mes sites à l'urlrewriting, j'ai maitenant des urls du style :

--http://www.monsiteamoi.com/Annuaire_broken_xxx.html
(avec xxx = nombre)

Je voudrais désactiver (qu'elle soient ignorées par google) ces urls car c'est la meme page derriere et google risque de prendre ça comme des "doubles"

est-ce quil possible de faire ça ?

merci
a+nico
 
WRInaute discret
Tu voudrais en fait que google n'indexe plus tes .php mais uniquement tes .html, c'est ça ?

Si je prends l'exemple de mon forum phpBB, les anciennes adresse php sont toujours valides et donc j'ai toujours 2 adresses qui pointent vers une même page (.php et celle en .html avec url rewriting). Je ne crois pas que ce soit trés grave en fait.

Par contre, peut être qu'un
Code:
Disallow: /repertoire_cible/*.php
dans le robots.txt permettrait ça. Mais dans ce cas, si google demande mapage_50.html (qui est rewrité en mapage.php?x=50) cela fonctionnera-t-il ? je pense que oui, car le robots.txt dit juste à google de ne pas prendre les fichiers *.php, mais il demandera les .html (il ne sait pas a priori que ces url sont rewritées). Ensuite, ben c'est le serveur apache qui traduira ces .html en .php.

Donc je pense que cette ligne dans ton robots.txt résoud ton pb (mais attention, il faut que tu ais fait de l'url rewriting sur TOUTES les pages php.
 
WRInaute discret
Quelqu'un pourrait-il confirmezr ou infirmer mes propos ci-dessus. Je le mettrais bien en place dans mon forum pour eviter que google ne demande plusieurs fois les mêmes pages sous plus url différentes ?
 
WRInaute discret
Bgest, merci

non, Je voudrais que google n'indexe plus les sites --www.monsite.com/Annuaire_broken_xxx.html

avec xxx representant un nombre entre 1 et 999999

sinon j'ai des .php et .html donc je peux pas faire comme tu dis...

a+nico
 
WRInaute discret
Bon ben mon *.php ne peut pas fonctionner de toute façon, je viens de trouver ça sur le fichier robots.txt :
L'étoile (*) n'est acceptée que dans le champ User-agent.
Elle ne peut servir de joker (ou d'opérateur de troncature) comme dans l'exemple : Disallow: /entravaux/*.
Je vais donc mettre tous les fichiers .php du forum phpBB en disallow (un peu comme ce qui est fait sur le site WRI). Enfin, sauf le index.php bien sur :D
 
WRInaute passionné
Je ne suis pas un pro de l'url rewrtiing, mais d'après ce que j'en comprends, la page en .html est virtuelle, seule la page en .php a du contenu conprehensible par google et les autres.

Si vous supprimez la page en .php, qu'est ce que liront les moteurs et les visiteurs.

D'ailleurs sur qu'elles pages faites vous les modifications quand un faute d'ortographe est à corriger, sur les .html ou les .php
 
WRInaute discret
Non tu ne supprimes pas le fichier .php, tu dis juste aux moteurs de ne pas l'indexer ouisqu'il le fait déjà en passant par le .html
 
WRInaute occasionnel
Kmacleod a dit:
Je ne suis pas un pro de l'url rewrtiing, mais d'après ce que j'en comprends, la page en .html est virtuelle, seule la page en .php a du contenu conprehensible par google et les autres.

C'est pas vraiment ca .. Google ne voit que le lien html.
La requete sur le lien Html est convertie au niveau du serveur en page php lui correspondant.

Si on a une page php avec 1, 2 variables ou plus encodées URL, la technique consiste a appeler l'exécution de ce script php a partir d'une adresse html en récurpéant les variables dans la chaine de l'url HTML.

Pour cela, il faut utiliser le mode rewrite Apache. Ensuite, il y a plusieurs facon d'arriver au meme résultat.
Soit on utilise les fonctionalités avancées du module rewrite avec les expressions UNIX et on récupre automatiqement les variables utiles dans PHP.

Soit ,on se contente de la redirection sur le script php des uRL HTML et on traite la chaine de caractères de l'adresse html pour récupèrer en début de script les variables qui la carctérisent.
 
WRInaute occasionnel
Après avoir modifié mon URL rewriting 4 ou 5 fois en moins d'un mois, je me suis aperçu que dans certains moteurs (AlltheWeb), certaines de mes pages figuraient en plusieurs exemplaires puisqu'accessibles par plusieurs URL successives.

Ce que je fais, à la fois pour éviter les contenus en double dans les moteurs, et surtout pour éviter que mes visiteurs rencontrent plein de pages 404, c'est :
Code:
Redirect permanent /ancienne_page http://monsiteamoi/nouvelle_page
(le code doit être placé dans le fichier .htaccess)
Le mot-clé permanent peut être remplacé par temp, ça dépend ce que vous voulez faire.

Résultat : ça marche très bien, j'ai en ce moment un fort pourcentage de codes 301 et 302 pour les requêtes sur mon site, mais aucune erreur 404 :)
 
WRInaute passionné
Jocelyn,

Si je me souviens bien, j'ai vu quelque part que la syntaxe "Redirect permanent" est obsolète ...
Il est conseillé de la remplacer par "RedirectPermanent" en un seul mot, tout le reste demeurant identique.

Dan
 
Discussions similaires
Haut