Premiers passages du Deep Crawler - C'est parti !

WRInaute passionné
Salut à tous,

Première trace chez moi cette nuit à 2H40 d'un crawler 216.239.46.102
Une seule page, mais c'est le signe que le deep crawl a commencé.:wink:

Dans les minute qui suivaient...
...chez mon pote, http://www.cadrissimo.fr, indexation totale cette nuit par les deepcrawlers :!:

Je ne sais pas si les deepcrawlers suivent les liens sortant prioritairement, mais on dirait vraiment qu'il a indexé ma page d'accueil, suivi le seul lien sortant sur celle-ci et atterri chez le copain :wink:
L' IP chez moi est la même que celle qui a débuté chez lui, 2 minutes plus tard...

Dan
 
WRInaute passionné
Salut Olivier,

Le crawler a visité la page vers laquelle je fais un lien vers WRI à 7H07 ce matin.
Sur cette même page, j'ai deux autres liens externes non javascript vers les agences immo (mes clients) qui ont vu débarquer le Crawler quelques minutes plus tard.
J'ai aussi sur cette même page quelques liens javascript vers les différents moteurs avec des exemples de requêtes.

Pour info, GoogleBot a atterri à quelle heure chez toi ?

Il a visité la page vers laquelle j'ai un lien vers le site "tour du monde" de luckyluk à 7H08.
Ce serait bien d'avoir les heures de passage chez Luckyluk aussi, car pour l'instant, c'est troublant!

Dan
 
WRInaute discret
ca y est moi aussi c'est parti :D
Par contre, ce qui est bizarre c'est qu'il vient indexer les pages deja connu apparemment il ne suit pas les nouveaux liens mais garde les anciens liens en place, je m'explique
j'ai mis en place l'url Rewriting et la il vient indexer les pages ma_page.php?toto=1 alors que mes liens sont du type ma_page_1.html depuis + d'une semaine!!!! Or le fresh bot est passé indexe mes pages ma_page_1.html !!!
 
WRInaute discret
J'ai exactement l même chose que toi. Le deep crawl continue a visiter mes anciens liens mais ne suit absolument pas les nouvexu mis en palce avec l'url rewriting depuis un mois :? Je desespere là ....

Mes sites comptent plus de 8000 pages chacun, et il n'en a visiter qu'une dizaine ce matin. Exemple des pages qu'il a visiter ce matin :

1 / 01:51:00 2
2 /faq.php 09:28:00 1
3 /forum/login.php?redirect=profile.php&mode=editprofile 09:12:00 1
4 /forum/profile.php?mode=register 04:58:00 1
5 /forum/viewforum.php?f=13 07:04:00 1
6 /forum/viewforum.php?f=2 04:31:00 1
7 /index.php?SRC=forum 05:29:00 1
8 /robots.txt 01:51:00 1

Comment expliqué vous ça ??? D'autant plus que le lien vers la page mis en gras ci dessus (/index.php?SRC=forum) n'existe plus nul part ????
 
WRInaute impliqué
Enfin !!!!

Le googlebot est passé aussi sur mon site. Etant donné que les fresh bots n'étaient jamais passés, je m'inquiètais de ne pas avoir celui du full crawl, mais il est bien venu, mais seulement une seule fois à 7h44 ce matin. :D
 
WRInaute passionné
Salut à tous,

C'est normal que GoogleBot visite les anciens liens qui existaient avant l'URL rewriting, comme il les connaît.
Avec l'URL rewriting, les deux liens sont bons (l'ancien et le nouveau) et le seul risque est d'avoir les anciens ET les nouveaux dans la base, en tout cas pour une ou 2 dances :wink:

Dan
 
WRInaute discret
Oui mais le problème c'est qu'il ne va PAS DU TOUT visiter les nouveaux liens. Il fait comme si il n'analysait pas les pages. J'ai l'impression qu'il ne suit pas les liens sur les pages qu'il trouve. Il y a une limite en nombre de liens par page qu'ils visitent (notamment un forum phpbb qui contient pas mal de liens) ?

Je ne comprends plus rien. J'avais même mis certains liens en absolu pour eviter le phpsesid, etc... :cry: :cry: :cry:
 
WRInaute discret
Salut a tous!

J'ai EXACTEMENT le meme problemes que les amis BDgest et Sglasson.
Moi aussi j'ai mis en place l'url rewriting ce mois ci.

Je pense qu'avec de la patience, ca passera... espérons :)

Bonne chance pour votre crawl a tous ;)
Sepang
 
WRInaute discret
salut,

comme le mois dernier il n'est pas du tout passé sur mon site :-(((((

j'ai encore une chance ou le fullcrawl est deja fini ?
merci

a+nico
 
WRInaute passionné
SGlasson, BDGest, Sepang, Bshop,

Restez cool, le crawl dure environ une semaine.... 8) Chez moi il a visité une vingtaine de pages sur 1000. On a bien le temps parce qu'on arrivera tous en même temps à la prochaine Dance, non ?

C'est logique qu'il valide d'abord les URL qu'il connaît, vire celles qui donnent un 404 et rajoute les nouvelles après...
Je pense que n'importe quel informaticien un peu sensé aurait programmé cela de cette manière, alors vu le nombre de PhD qu'il y a chez Google...

En plus, ce n'est pas parce qu'il a VU un lien qu'il va le VISITER tout de suite... une gestion de file d'attente, vous connaissez bien le principe ?

Dan
 
WRInaute discret
C'est juste qu'on est inquiets :wink:
Un mois de boulot pour reecrire un site, et on arrive à l'heure de vérité, donc on est impatients :D
 
WRInaute discret
j'avoue Dan tes conseils sont bien ;)
En ce qui me concerne, je suis juste impatient de voir si l'url rewriting mit en place grace a tes conseils (merci!!) a marché!

Mais c'est vrai que c'est long et qu'on a le temps ;)
A+!!
 
WRInaute discret
Disons que pour mon cas, il n'est meme pas venu voir une seule page!

par contre en Deep crawl, il vient regulierement maj mon index.

a+nico
 
WRInaute passionné
BDGest,

Au mois de Novembre, j'avais "foiré" à cause de mes sessions PHP et je suis descendu de 80 pages indexées à ... une seule (la page d'accueil).
J'en ai profité pour implémenter l'URL rewriting en me disant que je ne risquais de toute manière plus grand chose. :?

Lors du full crawl suivant, Googlebot est venu voir ma page d'accueil et ne s'est plus montré pendant 24 ou 48 heures... je ne sais plus mais je me souviens avoir eu l'impression que cela durait un siècle (au minimum ! :wink: )
Après cette éternité (de max 48H) je l'ai vu débouler comme un furieux et il n'a plus quitté le site pendant 3 jours.. pour m'indexer la totalité des pages (environ 1000).

Reste confiant, détend-toi, va skier, va au ciné, au resto.... la bonne surprise est pour bientôt. Je suis sûr que tous ceux qui ont suivi l'article sur l'URL rewriting vont se cotiser pour m'offir une bouffe très bientôt... Economisez bien, parce qu'il vaut mieux m'avoir en photo qu'en pension ! :lol:

Dan
 
WRInaute discret
OUAISSSSSSSSSSSSSS le deep crawl vient de trouver la PERMIERE page en URL rewriting : /forum/viewforum_9.html. Content je suis :D Bon c'est qu'une page sur 10000 mais c'est un début hien !!!! J'espère maintenant qu'il descendra dans en suivant tous les liens (il a du boulot là) :D
 
WRInaute discret
hetzeld a dit:
Economisez bien, parce qu'il vaut mieux m'avoir en photo qu'en pension ! :lol:
Dan

On peut faire un concours si tu veux, je me défends pas mal :D En tout cas ce serait avec plaisir (enfin seulement si google index mon site en entier hein :wink: )
 
WRInaute passionné
BDGest a dit:
OUAISSSSSSSSSSSSSS le deep crawl vient de trouver la PERMIERE page en URL rewriting : /forum/viewforum_9.html. Content je suis :D Bon c'est qu'une page sur 10000 mais c'est un début hien !!!! J'espère maintenant qu'il descendra dans en suivant tous les liens (il a du boulot là) :D
Cool! en voila un !

Comme je disais juste avant, commence à économiser :lol:

Dan
 
WRInaute discret
Mince je vais de me rendre compte d'un grosse bourde. Lorsque j'ai mis en place l'url rewriting sur bedetheque.com j'ai "oublié" de fermer quasiment TOUTES mes balsises <A HREF ...> (il manque le </A>). :cry:

Non mais quel C..... !!!!!! :evil:

Je viens de corriger, mais ca va etre trop tard pour ce full crawl je pense :evil: :evil: :evil: Et moi qiui comprenais pas pourquoi il ne suivait pas mes liens, bouhhhhhhhhhhhhhhhhhh :cry:
 
WRInaute passionné
Ce n'est pas trop tard, je suis sûr qu'il reviendra comme il verra que tes pages ont été modifiées. Essaye de rajouter un lien sur ta page d'accueil, comme c'est celle qu'il revient voir le plus souvent.

Dan
 
WRInaute passionné
Salut bshop,

Avec les paramétrages par défaut des visiteurs, si un bot passe et prend plusieurs pages avec la même IP, tu ne le sauras pas... Ce sera la surprise en analysant tes logs.

Dan
 
WRInaute discret
Pour les visiteurs, si tu connais un peu PHP, tu peux le modifier un peu pour voir la page ou il est, moi personnellement ca m'a pris 10 minutes à faire (il est tellement bien programmé a la base)

Si tu butes, écris moi un mail je te filerais la partie du code mais c basique: tu rajoute une colonne "currentpage" a la fin de ta table, tu updates le fichier ou y'a le insert into pour qu'il rajoute le request_uri, et tu modifie la page d'affichage et le tour est joué ;)

A+!
sepang
 
WRInaute discret
bonjour hetzeld,
je suis Zen, t'inquietes pas :D
Ce qui me surprenait plus c'etait le fait qu'il est bien visité les bons liens lors du Fresh bot et la il prend a nouveau les anciens. J'essaye de voir un peu comment il focntionne l'animal :roll:
Mais sinon, c'est pas bien grave, il s'agit bien des meme pages :D
 
WRInaute passionné
Salut Stéphane,

Cela rejoint exactement ce que je disais, il commence par les anciens liens (du précédent deep crawl) alors que le fresh bot est en chasse pour les nouveaux.

Dan
 
WRInaute discret
salut Dan,

salut , sepang
si ca ne te dérange pas tu pourrais me donner les modifs à faire ? par email par exemple !

merci d'avance

PS:Googlebot vient de passer sur 5 pages...il suffisait de demander

a+nico
 
Olivier Duffez (admin)
Membre du personnel
c'est génial, on sait à quelle minute GoogleBot est venu sur chacune de vos pages :wink:
finalement le Full Crawl semble stresser encore plus les webmasters que la Google Dance !
 
WRInaute discret
salut WRI,

disons que Google se lève tard pour passer sur ma page ;-) j'étais donc inquiet, à juste titre je pense.

a+nico
 
Nouveau WRInaute
Vous ne trouvez pas qu'il a mis beaucoup de temps entre la Dance et le Full Crawl ce mois-ci ?

en tout cas chez moi, il a mis du temps à venir, mais il s'y plait bien 8) et il trouve aussi bien les anciennes que les nouvelles pages :lol:
 
WRInaute discret
C'est marrant chez moi il passe exactement une page par minute pil poil depuis 1 demi heure. Si il doit indexer comme ça les 70000 msgs du forum, il est pas rendu :D :D :D
 
WRInaute discret
Whouou ! Le full crawl est enfin repassé chez moi (pas de traces le mois dernier...). Surtout que mon site était mal parti : frames, javascript, sessions etc... Alors que maintenant : frames (c'est ok !), sessions spéciales détectées automatiquement si le cookie envoyé à l'utilisateur est bien présent sur la page suivant... Et en cas de problème, un peu "noindex" si l'identifiant n'est pas bon, pour remettre les moteurs de recherche tout fous (Inktomi pour pas le citer) dans le droit chemin (il comptait référencé tous mes identifiants, autrement dit 36^6 possibilités...).
Et le voilà qui passe le Google ce matin : une page à 2h du mat, 2 à 8h, 2 à 9h et une dernière à 10h. Que du bonheur, y'a pas à dire.

Merci WRI pour ton info sur l'utilisation des cookies pour éviter l'identifiant de session ! Je crois que tu m'as sauvé la vie sur ce coup-là :D

Et vive le Full Crawl !

Yvan.
 
WRInaute discret
Pourquoi tu dis ça ??? Tu trouves que ce n'est pas interessant que google indexe les forums ? C'est pourtant là qu'on trouve le plus d'infos ??

je comprends pas bien là 8O
 
WRInaute discret
C'est bien vrai cela, je cherchais un driver pour un appareil photo numérique taiwanais sorti il y a 5 ans. La boite avait fait faillite, modèle vendu à 300 exemplaires au moins, et bien c'est sur un forum que j'ai trouvé le lien !

Vive les forums !
 
WRInaute discret
Les visiteurs

Alors, pour les visiteurs et pour tous ceux que ca intéresse:

voici la nouvelle structure de la table:

*+-------------+--------------+------+-----+---------+----------------+
| Field | Type | Null | Key | Default | Extra |
+-------------+--------------+------+-----+---------+----------------+
| AGENT | varchar(100) | YES | | NULL | |
| REFERER | varchar(200) | YES | | NULL | |
| ADDR | varchar(50) | | MUL | | |
| DATE | varchar(20) | YES | | NULL | |
| HOST | varchar(100) | YES | | NULL | |
| CODE | int(11) | | PRI | NULL | auto_increment |
| REF_HOST | varchar(100) | YES | | NULL | |
| CURRENTPAGE | varchar(255) | | | | |
+-------------+--------------+------+-----+---------+----------------+

(en gros on rajoute currentpage, varchar de 255)

Dans new_visitor.inc.php (vous l'avez sans doute renommé)
vous avez
Code:
            $values_list  = "'" . date('Y/m/d H:i')                 . "',"; // DATE
            $values_list .= "'" . $REMOTE_ADDR                      . "',"; // ADDR
            $values_list .= "'" . gethostbyaddr( $REMOTE_ADDR )     . "',"; // HOST
            $values_list .= "'" . $agent                            . "',"; // AGENT
            $values_list .= "'" . AddSlashes(strip_tags($referer))  . "',"; // REFERER
            $values_list .= "'" . AddSlashes(strip_tags($ref_host)) ;  // REF_HOST

et bien maintenant vous avez:

Code:
            $values_list  = "'" . date('Y/m/d H:i')                 . "',"; // DATE
            $values_list .= "'" . $REMOTE_ADDR                      . "',"; // ADDR
            $values_list .= "'" . gethostbyaddr( $REMOTE_ADDR )     . "',"; // HOST
            $values_list .= "'" . $agent                            . "',"; // AGENT
            $values_list .= "'" . AddSlashes(strip_tags($referer))  . "',"; // REFERER
            $values_list .= "'" . AddSlashes(strip_tags($ref_host)) . "',";  // REF_HOST
			$values_list .= "'http://".$_SERVER["SERVER_NAME"].$_SERVER["REQUEST_URI"]."'"; // CURENT PAGE

et enfin, dans le script last_visitors.php du répertoires modules, cherchez ca

Code:
            $row[$cnt]['agent']    = $record['AGENT'];
            $row[$cnt]['addr']     = $record['ADDR'];
            $row[$cnt]['host']     = $record['HOST'];
            $row[$cnt]['date']     = $record['DATE'];
            $row[$cnt]['referer']  = $record['REFERER'];
            $row[$cnt]['ref_host'] = $record['REF_HOST'];

et rajoutez cette ligne

Code:
$row[$cnt]['currentpage'] = $record['CURRENTPAGE'];

et la pour l'afficher vous faites comme vous voulez mais moi j'ai fait ca (en commentaire la disposition par défaut)

Code:
            //$buffer .= "<TD CLASS='vis'>&[<A HREF='http://".extract_server($row[$cnt]['host'])."/' CLASS='server' TARGET='_blank'>Srv</A>]&";
			$buffer .= "<TD CLASS='vis'>&[<A HREF=\"".$row[$cnt]['currentpage']."\" CLASS='server' target='_blank'>Page</A>]&";

En gros je vire l'info "serveur" parce que personnellement j'en ai rien a faire et je pense pas etre le seul a trouvé cette fonctionnalité ridicule :) (mais ca reste un des meilleurs programme que je connaisse héhé)

"Hope this helps" comme disent les anglophones :)
Sepang
 
WRInaute impliqué
Googlebot devient fou ???!!!

Vendredi 7 Février 2003

Visites : 2362
Pages: 1702
Visites / jour : 2362.0
Adresses IP :
216.239.46.100
216.239.46.101
216.239.46.102
216.239.46.104
...

Je vais pas m'en pleindre, mais mon hebergeur... :roll:
 
WRInaute impliqué
non, mon hebergeur ne l'accepte pas :/

Googlebot ne s'arrete plus :lol:

Visites : 2636
Pages: 1898
Visites / jour : 2636.0
 
WRInaute impliqué
Je croyais que googlebot n'était pas un bot 'bourrin', un peu quand même :twisted: :

Vendredi 07 Février 2003

Visites : 3474
Pages: 2459
Visites / jour : 3474.0
Adresses IP :
216.239.46.100
216.239.46.101
216.239.46.102
216.239.46.104
216.239.46.105
...
 
WRInaute passionné
C'est surprenant, car en général il espace ses requêtes. De plus, à en croire les ricains qui surveillent aussi leurs logs, il est beaucoup plus lent que d'habitude.

Tu vas avor peur pour le mois prochain :lol:

Dan
 
Nouveau WRInaute
Salut à tous,

je suis nouveau mais ça fait un moment que je scrute toutes les infos qui transitent sur ce site vraiment top au niveau de l'info.
Je pense avoir suivi toutes les consignes pour un bon référencement .

Google fait fait un carton sur mes pages depuis trois jours, il les prends toutes :lol:

Je voudrais juste avoir l'avis d'un expert concernant mon site et les chances d'obtenir un bon classement, c'est une boutique en ligne réalisée avec Oscommerce, si qqun connaît.

Voilà, si vous voulez bien jeter un coup d'oeil ça serait super
Merci à vous
jeanmarie, newbie

http://www.e-novstore.com
 
WRInaute discret
Bon ben ça y est google est lancé à pleine vitesse sur un de mes sites (bedetheque). Il a fait 85 pages hier :( et il en est à 987 pages aujourd'hui :D .L'url rewrinting, les url en absolu pour eviter les id de sessions, les balise noframe etc... ont donc portée leur fruits :D :D :D pour info, il fait des pointes à 20 pages par minutes quand même :D Je pensais pas qu'il passait si vite. d'un autre coté, il a près de 13000 pages differentes à voir, faut donc pas qu'il traine trop :D

Par contre, pour mon forum phpBB sur l'autre site, il a un peu du mal. en fait il y a trop de liens sur les pages dans un forum phpBB et donc ca lui donne carrement trop de boulot. Je me demande si je ne vais pas reecrire en partie le code pour qu'il mette les liens en javascript pour cetains d'entre et eviter ainsi que google les suive. par exemple, tous les liens sur les profils, repondre, citer, etc... ne servent à rien, et egare plutot google qu'autre chose.

Bon ben vivement la prochaine GD maintenant :D :D :D
Content je suis :D
Merci encore à tous pour votre aide et vos conseils. j'ai appris beaucoup depuis un mois et j'espere pouvoir a mon tour aider quelques debutants comme moi :D
 
WRInaute discret
Voilà un petit point sur le passage de google depuis samedi :
Samedi :
Visites : 3270
Pages: 3261

Dimanche :
Visites : 1239
Pages: 1236

Aujourd'hui : à 10h15
Visites : 2571
Pages: 2560

Bref, il s'en donne à coeur joie. Et visiblement il passe bien partout. D'autres ont des passages aussi massif de google ? Je me demande également comment fais google à chaque full crawl ? Dans un mois, il revisitera TOUTES ces pages ? Comment fait-il pour les trés gros sites qui ont plusieurs dizaines de milliers de pages différentes ? Le full crawl dure plus longtemps chez eux dans ces cas là ? Il visite TOUT à chaque fois ?
 
WRInaute passionné
C'est cool!
En toute logique, il devrait repasser sur ces mêmes pages (+ les nouvelles) le mois prochain. Tout le monde n'a pas plusieurs milliers de pages sur son site, mais j'ai une connaissance chez qui il a indexé 150 000 pages le mois dernier, et Googlebot est en train de les revisiter maintenant à la cadence de 30 pages/minute...

Il vaut mieux avoir un hébergement à la hauteur parce que cela fait tout de même un peu de trafic supplémentaire. :wink:

Dan
 
WRInaute discret
hetzeld a dit:
C'est cool!
En toute logique, il devrait repasser sur ces mêmes pages (+ les nouvelles) le mois prochain.
Dan
A ton avis, quel va être l'impact sur mon PR ? J'ai actuellement un PR5 et 18 !!! pages dans google pour ce site. Je vais passer à 10000 pages (chacune ayant un lien vers la page d'accueil). Ca va changer beaucoup ?
 
WRInaute occasionnel
J'ai fait plus de 2x le nombre de hits max autorisé !

Je ne pense pas que cela va influencer le PR de ta home page. En tout cas moi cela a rien changé (6000 puis 20000 puis 31 000 pages).
 
Discussions similaires
Haut