MSNBOT, le robot du futur MSN Search

  • Auteur de la discussion Auteur de la discussion Digit
  • Date de début Date de début
WRInaute occasionnel
Toujours la tête dans les logs, voici ce que je découvre aujourd'hui (ça bouge en ce moment chez les moteurs de recherche) :
Code:
131.107.137.47 - - [16/Jun/2003:19:29:43 +0200] "GET /robots.txt HTTP/1.1" 200 809 "-" "MSNBOT/0.1 (http://search.msn.com/msnbot.htm)"
L'IP résoud sur le réseau de Microsoft.
Si on revient un peu en arrière (fin avril), rappelons-nous que cette même adresse IP avait fait parler d'elle lorsque le bot microsoftPrototypeCrawler avait fait son apparition.
Les labs de Microsoft sont donc en train de frémir...
L'URL mentionnée par le bot est très intéressante (un peu de lecture). Elle dit grosso-modo : c'est pour bientôt, ce sera à terme dans les résultats de MSN, en attendant on continue à travailler avec looksmart.
Comme c'est un bot beta, ils n'ont pas l'air de s'être embêtés en développement : "MSNBOT will look at the first line of the robots.txt file" ce n'est pas très standard, normalement un bot lit tout le fichier.

Donc si quelqu'un veut en savoir plus, un petit mail à MSNBOT@microsoft.com ;)

Olivier, il va falloir mettre ce bot dans googlestat !
 
Olivier Duffez (admin)
Membre du personnel
OK je vais le rajouter...
après enquête il semblerait qu'ils aient la plage 131.107.0.0 - 131.107.255.255
on en reparlera !!!
 
Nouveau WRInaute
Re

Apparement Micr$oft à créer un groupe d'ingénieur pour créer un moteur de recherche.

Je sais pas si c'est une impression mais depuis quelques temps les résultats de recherche sur msn.com sont différent tout les jours.

La base semble bougé aussi et pourtant, msn utilise toujours Inktomi ?

qu'en pensez-vous ?
 
Olivier Duffez (admin)
Membre du personnel
sur le site WRI, MSNBot est passé 140 fois aujourd'hui : il augmente sa cadence.
j'ai pu constater également qu'il fait des erreurs et cherche à lire des pages dont l'URL est écorchée (et on le voit tout de suite dans RobotStats !)
il est parti lire la FAQ avant le forum : bien éduqué ce robot :-)
 
WRInaute impliqué
MSN utilisera plus Inktomi depuis qu'ils veulent concurrencer Google et consors ;) qu'on aime ou pas, à ne pas délaisser.
Espérons seulement que MSN n'instaure pas de critères à la gomme ...
 
WRInaute discret
Re: Re

str a dit:
Je sais pas si c'est une impression mais depuis quelques temps les résultats de recherche sur msn.com sont différent tout les jours.
Je te confirme ton impression moi j'utilise la fonction link : (vers mon site) et je vois les résultats évoluer tous les jours
 
WRInaute discret
Petit question :

Comment faites vous pour savoir quelles sont les pages de votre site indexées sur MSN

Sur GG c'est: " site:www.... ", mais pour MSN :?:
 
Olivier Duffez (admin)
Membre du personnel
pour ceux que ça intéresse, j'ai publié un mini article en page d'accueil pour faire le point sur l'actualité de Microsoft à propos de MSN Search.
Au fait, vous la regardez de temps en temps la page d'accueil ? :wink:
 
WRInaute passionné
WebRankInfo a dit:
pour ceux que ça intéresse, j'ai publié un mini article en page d'accueil pour faire le point sur l'actualité de Microsoft à propos de MSN Search.
Au fait, vous la regardez de temps en temps la page d'accueil ? :wink:

Bah oui, vu comment on s'est fait engueuler la dernière fois qu'on a dit non...

François
 
WRInaute occasionnel
Microsoft a ouvert récemment un groupe de discussion où il espère analyser les avis et commentaires au sujet des moteurs de recherche et plus particulièrement du sien : microsoft.public.msn.search
(pour le moment il n'y a pas foule et rien d'intéressant, mais ça risque d'être bien dès que MSNBot frémira)
 
WRInaute accro
mouais.. il a fallu 5 ans (happy birthday hier au fait) au google pour arriver la ou ils en sont actuellement.. vous me direz, avec de l'argent (beaucoup d'argent) on peut y mettre les bouchées quadruples n'est ce pas ? :-)
 
WRInaute occasionnel
Pour ceux qui suivent l'histoire de ce moteur, voici la dernière trace. Avis aux amateurs de signatures de robots :
Code:
131.107.137.165 - - [07/Oct/2003:23:00:00 +0200] "GET /robots.txt HTTP/1.1" 200 1049 "-" "msnbot/0.11 (+http://search.msn.com/msnbot.htm)"
131.107.137.165 - - [07/Oct/2003:23:00:02 +0200] "GET / HTTP/1.1" 200 25376 "-" "msnbot/0.11 (+http://search.msn.com/msnbot.htm)"
Le bot de MSN peut crawler des URL contenant 1 paramètre (je n'ai pas encore constaté plus)
 
WRInaute occasionnel
Il semblerait que l'IP du bot ait évolué :

Code:
204.95.98.253 - - [23/Oct/2003:14:24:16 +0200] "GET /?l=1 HTTP/1.0" 200 27484 "-" "msnbot/0.11 (+http://search.msn.com/msnbot.htm)"

C'est toujours une IP de Microsoft, toujours basée du côté de Seattle
 
WRInaute accro
Ils ont encore du travail avant d'arriver à la version 1.0

Je l'ai vu passer 5 fois sur mon site ajd et il s'engouffre dans mon piege à robots en suivant un lien sans ancre

Mais je ne le bloque pas, il respecte les meta noindex, nofollow (enfin pour l'instant)
 
WRInaute occasionnel
Encore une nouvelle IP opur le bot microsoft :
il a parcouru toutes mes pages en 2 jours
65.54.188.40

NetRange: 65.52.0.0 - 65.55.255.255
CIDR: 65.52.0.0/14
NetName: MICROSOFT-1BLK
NetHandle: NET-65-52-0-0-1
Parent: NET-65-0-0-0-0
 
WRInaute passionné
WebRankInfo a dit:
Au fait, vous la regardez de temps en temps la page d'accueil ? :wink:

Heu... Je dois avouer que j'ai une fenêtre du navigateur toujours ouverte sur les forums de WRI en fait... Donc je n'ai pas besoin de revenir sur le site... Donc la page d'accueil... (pas taper, pas taper !) :oops: ;)
 
Olivier Duffez (admin)
Membre du personnel
sietjp a dit:
Encore une nouvelle IP opur le bot microsoft :
il a parcouru toutes mes pages en 2 jours
65.54.188.40

NetRange: 65.52.0.0 - 65.55.255.255
CIDR: 65.52.0.0/14
NetName: MICROSOFT-1BLK
NetHandle: NET-65-52-0-0-1
Parent: NET-65-0-0-0-0
quel était son nom de user agent ?
 
WRInaute occasionnel
Il m'a crawlé 282 pages en 7 heures aujourd'hui, depuis une IP semblable : 65.54.188.20.
Le user-agent reste "msnbot/0.11 (+http://search.msn.com/msnbot.htm)"
Contrairement à Google qui utilise plusieurs bots sur des serveurs différents, il semblerait que MSN assigne un crawl à un serveur, ce qui simplifie probablement le calcul de la fréquence du crawl.
A noter :
- un crawl MSN démarre toujours par la lecture du robots.txt
- Deux pages crawlées sont toujours espacées d'au moins 10 secondes, ce qui plaira aux webmasters
 
Discussions similaires
Haut