indéxé par google avant la mise en ligne?

  • Auteur de la discussion Auteur de la discussion JJdoreau
  • Date de début Date de début
Nouveau WRInaute
Depuis quelques jours en regardant les stats, je viens de m'apercevoir
que googlebot scanne des url qui ne sont pas encore en ligne.
Ce sont des pages d'essai qui me permettent de tester l'affichage,
de corriger mon script (fait sans logiciel), sa conformité avant la mise en ligne.
"crawl-66-249-65-186.googlebot.com - - [05/Apr/2010:14:53:33 +0200] "GET /plan.php?url=actu-..."
En plus l'url comporte plusieurs inexactitudes, mais ce que j'aimerai savoir
c'est comment google a t-il eu accès à ces url ?
D'avance merci pour vos réponses.
 
Nouveau WRInaute
non, pas de google bar et l'url n'a été utilisé que sur mon ordinateur
et mon serveur n'a pas de système d'annuaire...
 
WRInaute accro
des url qui ne sont pas encore en ligne.
A moins que Google n'habite chez toi (bonjour la facture d'électricité :D) il faut bien que les url soient accessibles de l'extérieur.
Si tu fais des tests quelqu'un les regarde de l'extérieur ?
 
Nouveau WRInaute
non pas de pub adsence...
elles ont bien été mises en ligne par ftp
mais à part moi, personne ne les a consulté
et ces url un peu compliqués ne figurent nulle part...
 
Nouveau WRInaute
C'est mon cas aussi j'ai souvent des sites qui commencent à être indexé avant même la sortie du site.
La cause ? A priori l'hébergeur ou ton fournisseur de DNS. Eh oui visiblement google ne se contente plus seulement de suivre des liens ou d'attendre que tu lui soumette un site. Ils indexent semble t'il les fournisseurs de DNS. J'ai ainsi 4 domaines sans même le moindre lien ni la moindre page sur un quelconque serveur qui en font référence qui sont déjà référencé chez eux.

Et je peux vous dire que c'est galère quand vous mettez enfin du contenu en ligne sur ce domaine car ça peut rester pendant plus d'un an pour le plus long constaté avec un cache du registar X ou Y, qui indique que ce domaine est enregistré chez machin ou bidule au lieu de mettre les beaux liens de ton site et le résumé de ton contenu.

Ma solution pour tout domaine, créer une page vierge dés que tu l'achètes + éventuellement résumé du futur contenu pour anticiper le cache + différents systèmes bloquant l'accès aux pages qui serons construites après derrière ce système. Ton domaine sera référencé. Tes pages non. Du coup lorsque tu enlèvera les restrictions d'accès ton site ne sera pas pollué par des url pourries. Et surtout surtout ! Interdire le cache de tes pages en configurant tes balises meta correctement le temps de faire la maquette.

Certes ça pourra prendre du temps pour que google ou autre passe par là mais au moins tu aura pas xxxxx.xom site hébergé sur machin truc comme seul et unique descriptif.

Ps les robot txt ou le non suivis d'url n'a jamais empêché google d'être intrusif sur mes pages. Ils sont vraiment Big Brother.
Ps 2 si tes pages sont sur un domaine type FAI, dyndns référencé ou sur sous domaine déjà enregistré le bot s'en donnera encore plus a coeur joie pour référencer en tout cas de mon expérience.
 
Nouveau WRInaute
Merci...Effectivement ce serait une explication...
Surtout que j'ai activé la mise en cache pour tester la rapidité de chargement des nouvelles pages
avec des extensions firefox comme Yslow et Pagespeed (fourni par google ).
Y aurait il un lien entre des tests effectués avec pagespeed et l'envoi d'un robot (crawl-66-249-65-186.googlebot.com )
pour indexer ces pages. Avec d'ailleurs beaucoup d'inexactitude, les urls comportent des inversions et des variables absentes.
 
Nouveau WRInaute
je fais effectivement les premiers tests sous serveur local
mais quand il s'agit de contrôler tous les liens existants
je charge ces pages sur le serveur distant pour vérifier...
Quant au robots.txt la solution est effectivement de tout bloquer
bien que j'ai vu de nombreux bots passer outre cette interdiction
et se balader allégrement sur le site...
 
Nouveau WRInaute
Je viens de trouver en cherchant sur GG une de ces pages non encore mises en ligne sous la forme d'un résultat de validation W3C, que je pratique régulièrement, quand je tape des lignes de code, histoire de savoir si j'ai pas oublié un petit truc...
GG référencerait ces pages de validation?
 
WRInaute accro
JJdoreau a dit:
Je viens de trouver en cherchant sur GG une de ces pages non encore mises en ligne sous la forme d'un résultat de validation W3C, que je pratique régulièrement, quand je tape des lignes de code, histoire de savoir si j'ai pas oublié un petit truc...
GG référencerait ces pages de validation?
ta validation, tu ne l'as pas faite sur w3.org mais sur un site tiers, c'est bien ça ?
Pourquoi crois-tu qu'il y ait tant de sites qui proposent de tels services, si ce n'est pour obtenir des pages dans les serp
 
Nouveau WRInaute
Le mieux restera toujours de bloquer l'ensemble à tout le monde, y compris les bots, par un couple login/mdp tant qu'un site n'est pas fini et que l'on ne souhaite pas le voir référencé.
 
Nouveau WRInaute
Non, la validation est faite à partir de la barre Web developer sous firefox, donc w3.org. Je ne fais appel à aucun site extérieur, justement pour éviter cela.
 
Discussions similaires
Haut