Vous utilisez un navigateur non à jour ou ancien. Il ne peut pas afficher ce site ou d'autres sites correctement. Vous devez le mettre à jour ou utiliser un navigateur alternatif.
Pourquoi ? D'abord parce que le web ne croit pas si vite que ça, et qu'en fait, la puissance de calcul des machines et les capacités de stockage croissent plus vite que le www.
Aujourd'hui, IBM propose des outils qui indexent 2 milliards de pages en quatre heures, li'ndex tenant dans un volume de la taille d'une commode !
L'autre approche (celle de Google) qui consiste à créer des gros clusters de machines bon marché, marche aussi. Gmail en est la preuve : on peut aujourd'hui créer un service de mail gratuit avec une capacité de stockage de 1 Go, avec un modèle économique viable (du moins selon Google).
Dans le domaine de l'indexation, le calcul distribué n'apporte aucun avantage concurrentiel notable... Au contraire. Cela entraînerait plutôt une dégradation des performances.
Par ailleurs, il me semble aujourd'hui que les enjeux portent sur autre chose. Il ne s'agit pas d'indexer plus, mais d'indexer mieux.
Alors il y a d'après toi des éléments objectifs qui peuvent faire penser que l'accroissement de la toile se fasse sur un mode différent de celui du "hardware" et que globalement la taille du réseau puisse toujours être encadrée par les moyens mis en oeuvre pour la comprendre (cad la traiter, la classifier, l'indexer, de manière à la rendre utile ou utilisable). Va-t-on vers une utilisation plus intensive de moteurs plus intelligents, capable d'intégrer à la manière d'un être humain les données contenues dans les pages web, ceci en plus des sempiternelles listes de mots clefs, indispensables certes à n'importe quel langage peut-être mais notoirement insuffisantes quand il s'agit de 'découvrir la quintessence', l'intelligence d'un texte. Ceci nécessite d'autres facultés liées à ces robots. Celles-ci s'appellent analyse sémantique, etude des dépendances conceptuelles, interfaces en langage naturel; ceci rejoint les travaux de traduction automatique et la conceptualisation du langage. S'il est certain que la voie est dans ce sens, je n'ai pas aperçu ces dernières années d'acquisitions et d'avancées véritables dans ce domaine. Dans les années 85/90 il existait à cette époque une revue qui s'appelait microsystème qui abordait régulièrement ces problèmes, moteurs d'inférences, structuration des langages informatiques, prémisses à l'époque des objets structurés tels qu'on peut les voir utilisés maitenant dans des langage comme JAVA, théorie des acteurs , réseau neuronaux.. Malheureusement je n'ai jamais retrouvé un tel abord de ces problèmes dans aucune autre revue et c'est regrettable car si, véritablement un progrès doit être fait, il devra nécessairement être fait dans ce sens, cad dans le sens de la comprehension de l'intelligence du réseau. Le réseau est-il un 'être' vivant? Génère-t-il lui même ses propres outils lui permettant de se comprendre lui même? Seule une approche et une compréhension globale avec d'autres outils de pensée que les outils habituels me paraît susceptible d'intérêt. Quand je vois avec quel cynisme on dévoye le mot cybernétique en le réduisant à son seul rapport avec la technologie je constate qu'il y a encore un long chemin à faire...
Disons que si l'on parle d'index classiques, oui la capacité d'indexation croit plus vite que la taille des pages à indexer... Si on cherche à stocker d'autres types d'info, là, c'est une autre histoire...
Je suis d'accord avec toi pour dire que l'évolution naturelle va plus vers une amélioration de la pertinence des résultats que vers une augmentation du nombre de pages indexées. La taille de l'index augmente les chances d'avoir une réponse sur des requêtes pointues, mais cela n'améliore pas forcément la pertinence des réponses sur des requêtes plus courantes (si on a 2 000 000 de pages en réponses au lieu de 200 000, la belle affaire ! L'important c'est que les pages pertinentes sortent dans les premières réponses, celles que l'on regarde).
Tu as remarqué très justement que, pour l'instant, on utilise peu certaines techniques connues depuis longtemps comme l'analyse sémantique. Les technologies utilisées par les moteurs de recherche grand public actuels datent de 1997/98... Mais la concurrence entre Yahoo/Google/MSN change la donne. Et on ressort en ce moment ces techniques des labos dans lesquels elles étaient étudiées.
Pourquoi ne les a-t'on pas utilisés plus tôt ? Uniquement pour des raisons économiques ... Pourquoi faire compliqué et cher alors que l'on peut faire simple et pas cher...