Googlebot et changement d'adresse IP pendant le full crawl

WRInaute occasionnel
Hello


Je viens de constater une chose assez bizarre avec GoogleBot : si un site change d'adresse IP pendant le full crawl, GoogleBot conserve la première IP visitée pour aller chercher les pages et suivre les liens...

Bien evidemment l'adresse IP1 n'est pas forcément censée répondre aux requetes, puisque le site ne se trouve plus dessus mais sur IP2. Pourquoi google ne réinterroge pas les serveurs DNS avant d'essayer de chercher la page, ou du moins quand il ne trouve plus le site sur IP1 ?

Quelqu'un a-t-il déjà rencontré ce genre de problème et si oui quelles ont été les conséquences ? Y a-t-il des solutions pour l'éviter ?

Fred
 
WRInaute passionné
ben je pense que c'est comme pour le robot.txt
les robots vont pas le lire avant d'aller cherche chaque page.. mais de tps en tps...

ca doit etre pareil avec les ip
 
WRInaute impliqué
J'ai lu récemment un article (une réponse de Google.fr sur la lettre d'avril d'Abondance) qui explique que :

1°) Pour aller plus vite, Google stocke les ip correspondant aux adresses url qu'il doit visiter
2°) Cette base n'est pas remise à jour en permanence
3°) Google met à jour les DNS juste avant la Googledance

Donc, pour changer d'IP, il faut savoir viser le bon moment... C'est à dire entre un full crawl et la dance suivante. Sinon problème... :wink:
 
WRInaute occasionnel
Info intéressante effectivement... c'est vrai que le fait de retenir une seule adresse IP avant le full crawl doit faire économiser une certaine bande passante en évitant la résolution DNS (une requete DNS ne représente rien en terme de BP, mais multiplié par le nombre de sites et de pages que google indexe...)

Sinon pour ce qui est du moment de la détermination de cette adresse IP, j'aurais plutot tendance a penser que c'est réalisé au moment du premier passage du robot Full Crawl... j'ai pu le constater parce que je me suis fait avoir pour un site mais un autre est OK (alors que les deux IP ont changé)

En bref, c'est pas une bonne nouvelle pour ceux qui hébergent sur une ligne ADSL avec un DNS dynamique... reste a savoir si qq1 a déjà mesuré les conséquences d'un tel changement... Google remet peut etre à jour les IP des sites en cours de Full Crawl, en tout cas je vous tiendrai au courant...

Fred
 
Discussions similaires
Haut