GoogleBot perd la boule ?

Nouveau WRInaute
Alors là je ne comprends pas !!

Depuis quand le GoogleBot référence TOUTES les URL qu'il trouve sur une page alors que celles-ci ne sont pas accessibles "humainement" ? (cad qu'aucun lien ne renvoi vers ces URL !) 8O

Je pensais jusqu'ici qu'il ne répertoriait que les URL qui apparaissaient dans des balises A (avec l'attribut HREF) car il est censé suivre le comportement d'une personne et répertorier les pages qui sont visitables !

En tapant sur google "site:www.exemple.com", je peux voir dans les résultats : que :
- example.com/flash/truc.swf (cette URL se trouve dans une balise EMBED que j'utilise pour faire apparaitre mon anim flash)
- example.com/inscription/ajax_traitement (cette URL apparait dans mon bouton (qui est une image) dans l'appel javascript "onClick" )

Essayez la manip' "site:votre site" sur Google et jeter un oeil a certaines URL, vous risquez d'etre aussi surpris .... :lol:

Comment empêcher ça ? :(
Y-a-t-il une technique avec les META ou le fichiers "robots.txt" ?
(actuellement, ma balise META est classique : <meta name="Robots" content="index,follow" />
et je n'ai pas de fichier "robots.txt")

Merci à tous ceux qui peuvent apporter une solution a ce gros probleme !
 
Nouveau WRInaute
Apparement, le fait que google affiche dans ses résultats des pages qui ne sont pas accessibles "normalement" ne vous choque pas ... 8O

Le problème est que mes titres de pages affichées par ses URL est "erreur" car ce sont des pages (ou des fichiers) qui ont besoin de parametres PHP ... donc forcément un clic sur ce résultat renvoie sur une page d'erreur ...

Quoiqu'il en soit, ce n'est pas propre et pour, des raisons de sécurité également, j'aimerais que Google n'affiche jamais ces pages ... :evil:

Pouvez-vous me dire précisément qu'est-ce que je dois mettre dans mon "robots.txt" ou "htaccess" pour empecher Google d'afficher uniquement les liens qui sont dans des balises "<a href=...>" :?:
 
WRInaute occasionnel
kaizersoze10 a dit:
Apparement, le fait que google affiche dans ses résultats des pages qui ne sont pas accessibles "normalement" ne vous choque pas ... 8O
Non Google fait ce qu'il veut c'est sa vie.

Le problème est que mes titres de pages affichées par ses URL est "erreur" car ce sont des pages (ou des fichiers) qui ont besoin de parametres PHP ... donc forcément un clic sur ce résultat renvoie sur une page d'erreur ...
Si c'est un site dynamique et ces liens n'ont pas à être affichés, tu ne peux pas mettre une condition pour les afficher dans le code ?


Pouvez-vous me dire précisément qu'est-ce que je dois mettre dans mon "robots.txt" ou "htaccess" pour empecher Google d'afficher uniquement les liens qui sont dans des balises "<a href=...>" :?:

Cherche "disallow htaccess" dans google
Mais il n'existe pas une règle qui dit "ne prends pas les non a href" mais plutôt ne prends pas "cette url" apparemment l'url que tu ne veux pas voir indexée doit être indexée avec des paramètres, donc à toi de faire comme j'ai dis plus haut, une condition pour les afficher dans le code.
 
Nouveau WRInaute
Si c'est un site dynamique et ces liens n'ont pas à être affichés, tu ne peux pas mettre une condition pour les afficher dans le code ?

Qu'est-ce que vous entendez par là ?

Je suis obligé d'indiquer dans mon code source le répertoire où se trouve mon animation flash pour qu'il puisse l'afficher sur ma page ...
<embed src="../flash/counter.swf" ...
Cela ne veut pas dire pour autant que je veux que l'URL "www.exemple.com/flash/counter.swf" puisse être affichée dans les résultats Google !! 8O
 
Nouveau WRInaute
Soit ...
Ca devrait aller avec le fichier "robots.txt" qui devrait bien m'aider à résoudre mon problème :)

Par contre je reste stupéfait par l'action du GoogleBot qui, pour moi, agissait comme un humain et affichait uniquement dans ses résultats les adresses des pages accessibles par clique sur des liens ... 8O

Merci pour votre aide ;)
 
WRInaute accro
Le craw des sites effectué par Google n'est (heureusement pour eux) pas effectué par des être humains, mais par des robots qui parcourent le web de liens en liens.

Pour faire simple, si des liens sont affichés clairement dans ton code source, alors Google est en mesure d'indexer ce qu'il y a derrière.
 
WRInaute impliqué
puis indéxé ca ne veux pas dire que ca va ressortir dans les résultats de google.
et comme il n'y a a mon avis que toi qui utilise la commande site: pour ton url, ca risque pas grand chose ;)
 
Nouveau WRInaute
Euh ...
Je vais quand même faire les choses proprement histoire d'éviter tous risques de piratage ou autre ...
Des concurrents pourraient très bien essayer la commande "site:" !
Ne serait-ce qu'en terme d'image ça fait pas sérieux ... :oops:

Et, vu que c'est indexé, on ne sait jamais !
ces résultats aberrants pourraient très bien sortir sur je ne sais quelle requête !
Les voies de Google sont impénétrables ... :lol:
 
WRInaute discret
Bonjour,

Pour éviter les piratage "blinder" le .swf afin qu'il ne puisse pas être lu ailleurs que sur ton site est certainement la meilleure chose à faire.

Quand à l'indexation de ces .swf un petit robots.txt n'est pas très compliqué à faire.

Aussi je ne vois pas pourquoi ceux-ci ressortiraient en aberration sur des requètes fantaisistes...
 
Discussions similaires
Haut