indéxé par google avant la mise en ligne?

JJdoreau · 5 Avril 2010

Depuis quelques jours en regardant les stats, je viens de m'apercevoir
que googlebot scanne des url qui ne sont pas encore en ligne.
Ce sont des pages d'essai qui me permettent de tester l'affichage,
de corriger mon script (fait sans logiciel), sa conformité avant la mise en ligne.
"crawl-66-249-65-186.googlebot.com - - [05/Apr/2010:14:53:33 +0200] "GET /plan.php?url=actu-..."
En plus l'url comporte plusieurs inexactitudes, mais ce que j'aimerai savoir
c'est comment google a t-il eu accès à ces url ?
D'avance merci pour vos réponses.

fredfan · 5 Avril 2010

-googlebar
-url déjà utilisée par le passé
-inscription automatique par l'annuaire du serveur.

JJdoreau · 5 Avril 2010

non, pas de google bar et l'url n'a été utilisé que sur mon ordinateur
et mon serveur n'a pas de système d'annuaire...

cthierry · 5 Avril 2010

Pubs Adsense ?

fredfan · 5 Avril 2010

des url qui ne sont pas encore en ligne.

A moins que Google n'habite chez toi (bonjour la facture d'électricité

) il faut bien que les url soient accessibles de l'extérieur.
Si tu fais des tests quelqu'un les regarde de l'extérieur ?

JJdoreau · 5 Avril 2010

non pas de pub adsence...
elles ont bien été mises en ligne par ftp
mais à part moi, personne ne les a consulté
et ces url un peu compliqués ne figurent nulle part...

finstreet · 5 Avril 2010

Analytics ? Ces pages contiennent des liens et dans ce cas là referer

tuffraud · 5 Avril 2010

C'est mon cas aussi j'ai souvent des sites qui commencent à être indexé avant même la sortie du site.
La cause ? A priori l'hébergeur ou ton fournisseur de DNS. Eh oui visiblement google ne se contente plus seulement de suivre des liens ou d'attendre que tu lui soumette un site. Ils indexent semble t'il les fournisseurs de DNS. J'ai ainsi 4 domaines sans même le moindre lien ni la moindre page sur un quelconque serveur qui en font référence qui sont déjà référencé chez eux.

Et je peux vous dire que c'est galère quand vous mettez enfin du contenu en ligne sur ce domaine car ça peut rester pendant plus d'un an pour le plus long constaté avec un cache du registar X ou Y, qui indique que ce domaine est enregistré chez machin ou bidule au lieu de mettre les beaux liens de ton site et le résumé de ton contenu.

Ma solution pour tout domaine, créer une page vierge dés que tu l'achètes + éventuellement résumé du futur contenu pour anticiper le cache + différents systèmes bloquant l'accès aux pages qui serons construites après derrière ce système. Ton domaine sera référencé. Tes pages non. Du coup lorsque tu enlèvera les restrictions d'accès ton site ne sera pas pollué par des url pourries. Et surtout surtout ! Interdire le cache de tes pages en configurant tes balises meta correctement le temps de faire la maquette.

Certes ça pourra prendre du temps pour que google ou autre passe par là mais au moins tu aura pas xxxxx.xom site hébergé sur machin truc comme seul et unique descriptif.

Ps les robot txt ou le non suivis d'url n'a jamais empêché google d'être intrusif sur mes pages. Ils sont vraiment Big Brother.
Ps 2 si tes pages sont sur un domaine type FAI, dyndns référencé ou sur sous domaine déjà enregistré le bot s'en donnera encore plus a coeur joie pour référencer en tout cas de mon expérience.

JJdoreau · 5 Avril 2010

Merci...Effectivement ce serait une explication...
Surtout que j'ai activé la mise en cache pour tester la rapidité de chargement des nouvelles pages
avec des extensions firefox comme Yslow et Pagespeed (fourni par google ).
Y aurait il un lien entre des tests effectués avec pagespeed et l'envoi d'un robot (crawl-66-249-65-186.googlebot.com )
pour indexer ces pages. Avec d'ailleurs beaucoup d'inexactitude, les urls comportent des inversions et des variables absentes.

Leonick · 6 Avril 2010

site en test : serveur de test local
site en pré prod : robots.txt qui bloque tout

JJdoreau · 6 Avril 2010

je fais effectivement les premiers tests sous serveur local
mais quand il s'agit de contrôler tous les liens existants
je charge ces pages sur le serveur distant pour vérifier...
Quant au robots.txt la solution est effectivement de tout bloquer
bien que j'ai vu de nombreux bots passer outre cette interdiction
et se balader allégrement sur le site...

Leonick · 6 Avril 2010

JJdoreau a dit:
bien que j'ai vu de nombreux bots passer outre cette interdiction
et se balader allégrement sur le site...

faut les bloquer ces bots qui ne respectent pas le robots.txt

PatouSD · 7 Avril 2010

Oui si on ne bloque pas les bots par quelque chose de solide cela arrive fatalement !!

JJdoreau · 13 Avril 2010

Je viens de trouver en cherchant sur GG une de ces pages non encore mises en ligne sous la forme d'un résultat de validation W3C, que je pratique régulièrement, quand je tape des lignes de code, histoire de savoir si j'ai pas oublié un petit truc...
GG référencerait ces pages de validation?

Leonick · 13 Avril 2010

JJdoreau a dit:
Je viens de trouver en cherchant sur GG une de ces pages non encore mises en ligne sous la forme d'un résultat de validation W3C, que je pratique régulièrement, quand je tape des lignes de code, histoire de savoir si j'ai pas oublié un petit truc...
GG référencerait ces pages de validation?

ta validation, tu ne l'as pas faite sur w3.org mais sur un site tiers, c'est bien ça ?
Pourquoi crois-tu qu'il y ait tant de sites qui proposent de tels services, si ce n'est pour obtenir des pages dans les serp

PatouSD · 13 Avril 2010

Le mieux restera toujours de bloquer l'ensemble à tout le monde, y compris les bots, par un couple login/mdp tant qu'un site n'est pas fini et que l'on ne souhaite pas le voir référencé.

JJdoreau · 14 Avril 2010

Non, la validation est faite à partir de la barre Web developer sous firefox, donc w3.org. Je ne fais appel à aucun site extérieur, justement pour éviter cela.