1000 milliards de pages web connues de Google !

Olivier Duffez (admin)
Membre du personnel

Google a répertorié 1000 milliards de pages sur le web !​

1 trillion, c'est-à-dire mille milliards (1.000.000.000.000) : voilà le nombre de pages web distinctes que Google a répertorié ! Jesse Alpert et Nissan Hajaj (2 ingénieurs de Google de l'équipe en charge de l'infrastructure de la recherche) donnent quelques chiffres qui donnent le tournis...

Depuis le premier index de Google en 1998, qui comptait 26 millions de pages, le leader des moteurs de recherche a bien progressé. La barre du 1er milliard de pages indexées a été franchie en 2000. Pendant les années qui ont suivi, Google et Yahoo se sont livrés à une petite guerre de communication sur le thème C'est moi qui ai le plus gros index... Quand ils ont décidé d'arrêter ce petit jeu et de ne plus communiquer, on en était resté aux environs de 20 milliards de pages.

Aujourd'hui, la barre des 1000 milliards aurait donc été franchie. Aurait, car qui peut vérifier ce qu'avancent ces ingénieurs de Google ? D'après eux, leur système a détecté plus d'un trillion d'URL mais en a retenu seulement 1 trillion d'uniques (après détection de contenus dupliqués). Toutes ces pages ne sont pas forcément indexées ; on imagine d'ailleurs assez bien qu'il existe quantité de pages sur le web qui ne sont que des contenus dupliqués ou des pages vides (les ingénieurs donnent l'exemple des liens jour suivant que l'on trouve sur des calendriers, qui mènent à des pages construites automatiquement mais sans forcément de contenu).

Au sujet de ce fameux PageRank, les ingénieurs nous donnent quelques chiffres assez étonnants. Avec le 1er index de 26 millions de pages, le PageRank pouvait être recalculé en quelques heures par un seul serveur, ce qui peut se comprendre. Mais ils prétendent qu'ils ont encore aujourd'hui la capacité à traiter les calculs plusieurs fois par jour, avec une matrice de 1000 milliards de colonnes ! Quand on sait qu'en plus de l'augmentation considérable du nombre de pages, l'algorithme est lui aussi largement plus complexe, on réalise à quel point l'infrastructure de serveurs de Google est un bijou de technologies unique au monde ! Avis aux concurrents qui aimeraient rattraper Google...

Remarque : le terme anglais trillion utilisé dans le blog de Google peut être ambigu à traduire : en anglais il signifie 1000 milliards (10^12) et en français 1 milliard de milliards (10^18).
 
WRInaute accro
Bigre ... ca commence a dépasser ce que l'on arrive à se représenter mentalement :roll: Comme tu dis ... impressionnant, jusqu'à l'inquiétant ...

En même temps quand tu vois la flopée de megaflops de la moindre becanne de nos jours ... et le nombre de "boites à megaflop" detenues par Google ...
 
Olivier Duffez (admin)
Membre du personnel
je faisais des recherches et je vois que l'article que je viens de publier est indexé et trouvable dans Google... avec l'indication "Il y a 4 minutes". Je sais, cette rapidité date de l'été dernier, mais c'est toujours bluffant.
 
WRInaute passionné
Mille milliards de sabords !
Ce chiffre est tout aussi impressionnant que la capacité qu'ils ont à manipuler un tel volume d'information 8O
 
WRInaute accro
WebRankInfo a dit:
Zecat a dit:
Tu l'as mis en ligne a quelle heure ?
21h32 heure de mon serveur
Brrrrr hallucinant cette puissance de feu ...

En tout cas ca confirme que la "détumescence de ton bout ... vert" n'est que de façade ... le jus est toujours là ! (non non c'est pas cochon, je parle du "juice du site wri" :D )

Bon maintenant on compte donc en minute ... je te file mon tiket que d'ici quelques mois on va finir par compter en secondes entre mise en ligne et indexation ... ca devient ... heu je trouve pas le mot ... Ouhhh plus que ca encore :D
 
WRInaute accro
Il me semble qu'on a quelques screenshots d'indexations en secondes.
Je me demande si c'est pas sur Zorgloob...

TOMHTML, ramène ta fraise... ;)
 
WRInaute accro
HawkEye a dit:
Il me semble qu'on a quelques screenshots d'indexations en secondes.
Je me demande si c'est pas sur Zorgloob...

TOMHTML, ramène ta fraise... ;)
On arrete plus le progres :lol: Pas le temps de penser a un truc que ca a deja eu lieu :lol: Bon il va lui rester quoi a google comme challenge ? Indexer les pages putatives :wink:
 
WRInaute passionné
attention pour ceux qui confonde, google a detécté 1000 milliards d'url, c'est pas pour cela qu'il les references toutes et qu'elle sont encore disponible ;) (liens mort)

Mais bon, maintenant avec tous les flux xml des affiliations, il est facile de generer des milliers, voir des millions de pages pour les plus corriaces pour un seul site.
 
WRInaute accro
Tout à fait forummp3. D'ailleurs il suffit de bien moins: j'ai une db sous la main qui -avec un petit script pas trop idiot derrière- me permettrait techniquement de générer à peu près 50 millions de pages, toutes véritablement différentes ;)

Bon c'est hyper-méga-spam et ça restera dans mon grenier à rêves maudits hein, mais... c'est tout de même à la portée du premier pélaud non écervelé venu :)
 
WRInaute passionné
WebRankInfo a dit:
Wow, merci pour l'info, ce chiffre est difficile à concevoir, mais il parvient tout de même à faire tourner la tête.

Maintenant j'aimerai bien savoir combien ce chiffre représente par rapport à la totalité des pages existantes sur le web, car oui, il existe des pages qui ne sont pas indexées (inaccessibles aux bots, pas encore trouvées etc.)


Sur le même sujet : Google comparé à des grains de riz... sur ZorGloob.





OTP a dit:
Super, je représente 0,000003% de l'index de GG...
Haha ! :lol:
J'ose même pas calculer ma part moi... mais ça doit pas être très différent j'imagine.
 
WRInaute passionné
pour un certain ordre de grandeur:

1 trillion = 1 000 000^3 = 10^18 (soit un 1 avec 18 zéros derrière).

on considère qu'un cerveau humain adulte comporte une centaine de milliards de neurones soit 10^11 env. interconnectés entre eux par env. 10^15 liaisons (synapses).

donc, en simplifiant, google connaît autant de pages qu'il y a de connexions nerveuses dans 1 000 cerveaux humains.
 
WRInaute accro
On est bien peu de choses, ma p'tite dame..."

Ce qui est fou, c'est qu'ils ont aussi un pouvoir analytique énorme sur ces données... donc "un pouvoir énorme" tout court...
 
Olivier Duffez (admin)
Membre du personnel
carole heinz a dit:
pour un certain ordre de grandeur:

1 trillion = 1 000 000^3 = 10^18 (soit un 1 avec 18 zéros derrière).
j'ai utilisé le mot trillion tel qu'il est utilisé dans le monde scientifique : 10^12 (voir ici ou par ex)
désolé pour ces incohérences/ambigüités
 
WRInaute passionné
Super, je représente 0,000003% de l'index de GG...

tu as 30 000 pages???

carole heinz

1 trillion = 1 000 000^3 = 10^18 (soit un 1 avec 18 zéros derrière).

Un trillon = 10^12 il me semble...

Mais meme 1000 milliards me semble beaucoup. Il y a 160 000 000 de sites, je ne pense pas qu'il y a 1600 pages/site en moyenne
 
WRInaute passionné
SpeedAirMan a dit:
WebRankInfo a dit:
Wow, merci pour l'info, ce chiffre est difficile à concevoir, mais il parvient tout de même à faire tourner la tête.

Maintenant j'aimerai bien savoir combien ce chiffre représente par rapport à la totalité des pages existantes sur le web, car oui, il existe des pages qui ne sont pas indexées (inaccessibles aux bots, pas encore trouvées etc.)


Sur le même sujet : Google comparé à des grains de riz... sur ZorGloob.

+1 recommandation.

Superbe article ! J'adore. Et même si on lit, surf et mange du Google tous les jours en étant webmaster, se poser et prendre conscience de leur capacité reste toujours aussi bluffant.
 
WRInaute passionné
Si Google a 1000 milliards de pages, je ne représente que

0,0000001% de son index, environ

sinon sympa l'article sur le riz...
 
WRInaute impliqué
En novembre 2004, Google a réactualisé pour la dernière fois le nombre de pages que contient son index sur sa page d'accueil.On était à 8 Milliards. Cet affichage a ensuite été supprimé et j'ai pas souvenir que Google ait communqiué sur 20 milliards de pages ..
 
WRInaute passionné
non à priori il y a un malentendu, un trillion "anglais" = 1 000 milliards = 10^12

google connaît donc autant de pages qu'il y a de connexions nerveuses dans... 0.001 cerveau humain!

personnellement ça ne m'impressionne pas tant que ça. d'autre part il ne faut pas confondre nombre de pages connues et puissance de calcul, on parle ici uniquement de puissance d'indexation et de stockage, même si, évidemment, google connaît la plupart des interactions entre ces pages ce qui fait beaucoup, beaucoup plus de données:
théoriquement si toutes ces pages étaient reliées entre elles ça ferait (10^12)! de connexions (le signe "!"= factorielle) càd un nombre complètement astronomique.

si on file la métaphore avec le cerveau humain:

- pages connues = capacités mnésiques

- opérations et traitements sur ces pages = capacités cognitives en général: là on n'a pas de données pour comparer avec un cerveau humain mais nul doute que cette capacité d'IA de Google est encore loin d'être "inquiétante", quand on voit que les programmes sont encore incapables ne serait-ce que de reconnaître efficacement un visage humain par ex. (voir pb rencontrés par GG street views).

ce qui est inquiétant ce n'est pas la capacité technique de Google, mais les êtres humains et les philosophies qui sont derrière.
 
Olivier Duffez (admin)
Membre du personnel
je pense pourtant que la puissance de calcul (et les connaissances des experts qui font tourner les data centers) doit faire fantasmer un certain nombre d'autres entreprises et même des ministères de la Défense
 
WRInaute occasionnel
Mais le vrai vrai test serait de noter chaque pages d'un numéro unique genre c'est la 1234567891234 ième pages et ainsi on voit si elle est vraiment indexé.

Je crois que Google ignore beaucoup de page et beaucoup de mots.

alors je suis certain que si WRI notait d'un code uniques toute ses pages il s'appercevrait que https://www.google.ca/search?q=site%3Awe ... =firefox-a 186 000 pages indexé serait plus 30 000 qui sont vraiment dans le serp.

Bref 186 000 pages crawlés et analyser mais pas conserver.

Google n'a besoin que de 1000 résultats par requête, et même là beaucoup de requêtes ne les ont même pas ces 1000 résultats

ICI ca dit 11 millions de résultats sur juju : MAIS À QUOI BON si seulement 868 résultats sont affichés

https://www.google.ca/search?num=100&hl= ... cher&meta=

https://www.google.ca/search?num=100&hl= ... t=900&sa=N


Pour ce qui est des indexé il y a 4 minutes, ça ce n'est qu'un FRACTION des sites qui peuvent jouir de ça, et à chaque minutes dans le monde il doit pas y avoir plus que 1000 pages qui se créer et qui sont ainsi indexé car du VRAIE contenu pour google.

Donc indexé 1000 pages à la minutes avec des milliards de budget...
 
WRInaute passionné
darkjukka a dit:
HawkEye a dit:
Il me semble qu'on a quelques screenshots d'indexations en secondes.
Je me demande si c'est pas sur Zorgloob...

TOMHTML, ramène ta fraise... ;)

J'en avais posté un aussi qui m'avais tout bonnement mis sur le cul : https://www.webrankinfo.com/forum/topic ... htm#914881

C'est la seule fois que j'ai eu si rapide ^^ Mais maintenant je tourne de 5 à 20 minutes environ :)
c'est "couillon" ce que tu dis, par definition, toutes les pages sont passé par "indexé il y a 0 secondes", c'est juste toi qui l'a vu un peu en retard.
 
WRInaute discret
carole heinz a dit:
pour un certain ordre de grandeur:

1 trillion = 1 000 000^3 = 10^18 (soit un 1 avec 18 zéros derrière).

on considère qu'un cerveau humain adulte comporte une centaine de milliards de neurones soit 10^11 env. interconnectés entre eux par env. 10^15 liaisons (synapses).

donc, en simplifiant, google connaît autant de pages qu'il y a de connexions nerveuses dans 1 000 cerveaux humains.
milles cerveaux conséquents car on en connaît tous avec un seul neurone en surchauffe :D
 
WRInaute impliqué
forummp3 a dit:
toutes les pages sont passé par "indexé il y a 0 secondes", c'est juste toi qui l'a vu un peu en retard.
Certes mais il me semble avoir fais cette recherche 2 à 3 minutes après avoir posté cette news, justement pour voir la vitesse a laquelle google l'indexerai donc cela a été tout de même très rapide ;)

Et c'est toujours plus crédible que les -1855501626 secondes du post au dessus du mien :D
 
WRInaute passionné
Pandore a dit:
WebRankInfo a dit:
et inquiétant comme puissance de calcul
Pourquoi inquiétant ???
quand il y a trop de puissance/pouvoir pour une entreprise privé, c'est inquietant en general :)

Ca peut faire des degats cette puissance si ca tombe dans de mauvaise main, par exemple, mettre en rade un site/serveur de quelqu'un qu'on aime pas.
Si un pirate, prend le controle de google, il peut facilement mettre en rade ebay, et chaque journée down pour ebay, c'est des millions d'euro par jour par exemple.

Si on fait ca sur plusieurs sites commerciaux, ca peut faire mal economiquement.
 
WRInaute impliqué
C'est beau la jeunesse qui s'émerveille et son enthousiasme :D. Qu'est-ce que 10^12? Un chiffre.

Mais la puissance que cela suppose, elle, est réelle : on en est tous complices. On sacrifie au Dieu Google tous les jours. Mais je me demande si ce n'est pas plus le Démon argent qui en est le moteur (oui j'ose ça :lol:) et non pas malheureusement les Anges de la communication, de la participation et de la connaissance.
Sorry :arrow:
 
Nouveau WRInaute
Effet de communication :

Savez pourquoi Google a annoncé ce chiffre concernant son Index ? A cause Cuil.com, le nouveau moteur de recherche qui s'est donné comme objectif de détrôner Google. Ce nouveau moteur dont les fondateurs sont presque tous des ingénieurs issus de chez google ont annoncé avoir indexé la quasi totalité du web.
d'où la communication de Google qui est pourtant très avare habituellement en chiffres ...
 
Membre Honoré
Re: Effet de communication :

arobase95 a dit:
Savez pourquoi Google a annoncé ce chiffre concernant son Index ? A cause Cuil.com, le nouveau moteur de recherche qui s'est donné comme objectif de détrôner Google. Ce nouveau moteur dont les fondateurs sont presque tous des ingénieurs issus de chez google ont annoncé avoir indexé la quasi totalité du web.
d'où la communication de Google qui est pourtant très avare habituellement en chiffres ...
Intéressant comme information merci. ;)
 
Discussions similaires
Haut