WRInaute discret
Je ne pense pas que le plus difficile soir de crawler des milliards de pages un peu de bande passante et le tour est joué en quelques jours. Par contre, là ou c'est beaucoup plus compliqué c'est de faire rapidement les recherches dans la base de donnée et d'avoir des indexes très efficaces et ça le fait d'avoir un réseaux de clients distribués n'y change rien...Gautier_Girard a dit:D'après pas mal de professionnels, si Grub plaît à un nombre non négligeable d'utilisateurs-crawlers, il est capable de surpasser la capacité d'indexation de Google himself.
Perso, j'ai peur qu'on analyse le protocole entre le client et l'index pour référencer des pages comme ayant tous les mots du dictionnaires ou des trucs de ce genre... Le fait qu'on puisse crawler soi même son site très fréquement n'est pas un soit un gros problème pour le spamdexing.Webrankinfo a dit:Je pense aussi que la grosse difficulté est de mettre au point un algorithme pertinent résistant au spamdexing
Mirgolth a dit:Je ne pense pas que le plus difficile soir de crawler des milliards de pages
[...] de faire rapidement les recherches dans la base de donnée et d'avoir des indexes très efficaces et ça le fait d'avoir un réseaux de clients distribués n'y change rien...
[...] Le fait qu'on puisse crawler soi même son site très fréquement n'est pas un soit un gros problème pour le spamdexing.
C'est même une insulte, à moins qu'on y gagne quelque chose de concret :roll:vanillefraise a dit:on fait tourner sa machine à l'oeil pour que looksmart améliore son index et se fasse des sous ! C'est un peu fort !
Eservice a dit:Bonsoir, pour que la recherche soit satisfaisante il faut qu'elle soit pertinente et rapide.
Plusieurs critères entrent en jeu : la capacité d'indexation, la lutte contre le spamdexing et autres sélections, la finesse des algorithmes de classement et de recherche, la taille de la base et la puissance machine.
La taille de la base est le problème le plus difficile : même les algo les plus fins finissent par être dépassés à partir d'une certaine valeur, la taille critique du système. On peut ajouter de la puissance matérielle mais c'est reporter le problème à plus tard.
A quoi bon sortir 5.000.000 de résultats quand les internautes ne visitent au maximum que les 30 premiers ?
La forte indexation des moteurs sur les annuaires n'est jamais réellement utilisée en pratique : un cas typique de sur-spécification en somme.
Gilbert Wayenborgh a dit:La bande passante, est primordiale pour l'indexation, par contre moins importante pour la recherche.
Si on part du principe que le spectre de requêtes servies sera 10 fois plus large, je suis d'accord.Gilbert Wayenborgh a dit:Une base de 500.000 sites n'est pas pertinente par rapport à une base de 5.000.000 sites.
je vois le genre ;-)Gilbert Wayenborgh a dit:je vais retourner de ce pas sur mon index, et lui dire d'afficher 4.000.000.000 de pages... de toute manière qui peut vérifier... ;-) je blague.