5 interviews de Google (octobre 2009)

WebRankInfo · 5 Octobre 2009

5 interviews qui pourraient vous intéresser :
Udi Manber, Amit Singhal et Scott Huffman sur l'évaluation de la qualité des résultats
Matt Cutts sur la question du spam (voir sa fiche ici)
et Eric Schmidt sur le journalisme

Fonctionnement de l’équipe qualité chez Google Search
Savez-vous combien de fois Google cherche à améliorer ses algorithmes chaque année ? Comment Google mesure la qualité de ses résultats de recherche ? Qui sont les évaluateurs humains, à quoi servent-ils ? Voici quelques explications sur ces mystères de Google…

Cet article reprend seulement quelques éléments publiés par Business Week dans une série d’interviews d’ingénieurs de Google (Udi Manber, Amit Singhal, Scott Huffman). Il n’en reste pas moins que ça m’a pris pas mal de temps à lire et à vous le résumer !

En 2008, Google a effectué entre 5000 et 6000 expériences visant à améliorer le moteur de recherche. Celles-ci aboutissent à environ 100 à 120 modifications dans l’algorithme chaque trimestre.

Chaque jour, environ un tiers des requêtes effectuées sur Google n’avaient jamais été effectuées auparavant ! Un grand nombre d’entre elles ne seront sans doute jamais refaites…

Parmi les éléments surveillés, Google cherche à analyser les requêtes pour lesquelles l’internaute n’a cliqué sur aucun résultat, car c’est en général signe d’une mauvaise qualité de résultats. Il y a des contre-exemples, par exemple les internautes qui utilisent Google pour vérifier l’orthographe : ils tapent quelque chose et regardent la suggestion de Google puis repartent sans rien cliquer. Autre exemple : parfois l’internaute trouve ce qu’il cherchait directement dans le texte du snippet (le petit descriptif sous chaque résultat).

Pour vérifier l’intérêt d’une modification de l’algorithme, Google utilise des évaluateurs humains et effectue des expériences :

En ce qui concerne les évaluateurs humains (Google Quality Raters) : il y en a partout dans le monde (on ne sait pas combien…). Ces beta-testeurs de Google sont des indépendants recrutés via des petites annonces, payés par Google (autour de 16$ de l’heure pour les USA). Ils ont accès à un outil leur permettant de réaliser des tâches bien précises qui servent à analyser la qualité des résultats. Par exemple ils doivent indiquer si une URL répond vraiment bien à une requête donnée.
En ce qui concerne les expériences : un échantillon d’utilisateurs voient les résultats du nouvel algorithme (sans le savoir) tandis que d’autres voient l’ancien : par comparaison de nombreux indicateurs (pas seulement les clics), Google évalue les performances du nouvel algorithme. 1% des utilisateurs de Google est déjà un échantillon suffisamment représentatif.

Chaque résultat se voit attribuer un score de qualité, calculé par l’algorithme à partir de plusieurs centaines de critères. Il est très fréquent qu’un changement dans l’algorithme modifie très légèrement le score d’un des résultats, passant par exemple de 5,000 à 5,001 et par conséquent passer devant d’autres résultats.

Tous les ingénieurs qui travaillent à améliorer l’algo ont à leur disposition une plateforme de tests très efficace, qui leur permet de valider une hypothèse en une seule journée, en mesurant des données réelles. Si les chiffres sont bons, la modification peut être approuvée en 5 minutes !

Un très très bon ingénieur met environ 2 ans à vraiment bien comprendre comment fonctionne la recherche chez Google.

Un grand nombre d’adaptations sont faites sur l’algorithme pour tenir compte des spécificités de chaque pays (en plus des langues).

Souvent, quand un ingénieur Google remarquait un problème avec des résultats de mauvaise qualité, il avait du mal à le montrer car les résultats changent sans arrêt. Alors, pour régler ce problème, une équipe a développé un système appelé Replay : c’est une sorte de « magnétoscope de Google » qui permet en quelque sorte de figer l’index. Ainsi, il devient possible de lancer une requête pour analyser les résultats qui auraient été renvoyés par Google à un autre moment dans le passé !

nervusdm · 6 Octobre 2009

Re: 3 interviews de Google (octobre 2009)

( je n'ai pas tout lut ).
Cependant, l'interview de Scott Huffman est particulièrement intéressante, je ne savais pas que l'importance de "l'humain" était aussi sérieuse et utilisée à ce niveau là.

WebRankInfo · 6 Octobre 2009

interviews sur l'équipe qualité de Google Search

Voilà j'ai eu le temps de vous écrire un résumé en français pour ce qui concerne l'équipe qualité de Google. Bonne lecture ! N'hésitez pas à RT l'article

Mountain Magazin · 6 Octobre 2009

Re: 4 interviews de Google (octobre 2009)

C'est impressionnant quand même les moyens qu'ils déploient, et le niveau de complexité !

Pas étonnant qu'ils soient autant en avance. Et il faut avoir à l'esprit qu'ensuite, ils doivent recouper tout ça avec des données adsense, adwords, analytics...............................

Enfin bref, une sacré usine à gaz. Le plus fort, c'est sans doute leur capacité à stocker, à compiler et interprêter des millions de Go de données, le tout à une vitesse impressionnante.

Google, on aime ou on aime pas pour des raisons éthiques, mais on peut dire chapeau !

anemone-clown · 6 Octobre 2009

Re: 4 interviews de Google (octobre 2009)

Mountain Magazin a dit:
Google, on aime ou on aime pas pour des raisons éthiques, mais on peut dire chapeau !

Il est vrai qu'il ne semble pas exister un tel déploiement de forces vives chez les concurrents les plus sérieux de GG!

Merci Olivier pour ce résumé qui évite de se coltiner la lecture complète de l'original.

jardintropical · 6 Octobre 2009

Re: 4 interviews de Google (octobre 2009)

Chaque jour, environ un tiers des requêtes effectuées sur Google n'avaient jamais été effectuées auparavant ! Un grand nombre d'entre elles ne seront sans doute jamais refaites…

Cette information me parait très intéressante et confirme qu'il n'est pas nécessaire de se focaliser sur des mots clés, comme on est souvent tenté de le faire. On savait déjà avec le phénomène de longue traine qu'une grosse partie du trafic moteur était généré par de nombreuses chaines de mots clés. On sait maintenant qu'un tiers de ces chaines de mots clé susceptibles de générer du trafic sont nouvelles et créées en permanence par les internautes.

jardintropical · 6 Octobre 2009

Re: 4 interviews de Google (octobre 2009)

Toujours à propos de cette information:

Chaque jour, environ un tiers des requêtes effectuées sur Google n'avaient jamais été effectuées auparavant ! Un grand nombre d'entre elles ne seront sans doute jamais refaites…

Ça doit être 1/3 des requêtes sans tenir compte de leur fréquence. Je veux dire par là que la recherche "référencement" est probablement bien plus fréquente que "référencement de site Internet" ou "référencement sites e-commerce". La proportion 1/3 mentionnée plus haut doit certainement s'appliquer à la liste brute des mots et chaines de mots, non pondérée par les effectifs.

Leonick · 6 Octobre 2009

Re: 4 interviews de Google (octobre 2009)

je pense aussi

nervusdm · 6 Octobre 2009

Re: 4 interviews de Google (octobre 2009)

En même temps c'est tout à fait crédible, même si exagéré ( j'y reviens ).
Imaginons rien qu'avec l'actualité ;

"Jojo le clodo" tue une personne. Personne ne tappait "JOjo le clodo" sur Google, mais avec une telle actualité, cela serait modifi immédiatement.
Après, je pense sincèrement que 1/3 est trop élevé.. 1/5 m'aurait paru plus réaliste, maintenant, c'est que mon opinion toute bête !

WebRankInfo · 7 Octobre 2009

j'ai rajouté le lien vers l'interview de Matt Cutts (businessweek a fait fort cette semaine)

ybet · 7 Octobre 2009

JE VEUX AUSSI L'OUTIL REPLAY .... pour revenir à des anciens positionnements (forcément uniquement ceux en ma faveur :mrgreen: ). Sinon, et on s'emm*merde à mettre en place des tests pensant des mois avant d'essayer de comprendre plusieurs mois durant quand un très très très bon ingénieur de Google met deux ans

Mountain Magazin a dit:
Le plus fort, c'est sans doute leur capacité à stocker, à compiler et interprêter des millions de Go de données, le tout à une vitesse impressionnante.

C'est là le véritable point fort de Google, la gestion multiserveur. Microsoft parle de mode cloud avec 10 ans de retard :wink: . Si je me souviens, Google utilise une multitude de petits serveurs low cost avec un sytème d'exploitation personnel dérivé de Linux.

Et je parle pas de gestion de bases de données qui sont réparties sur des multitudes de serveurs. Comme informaticien, je travaillerais bien pour Google (même avec un petit salaire standard) uniquement pour gérer ces petits serveurs (comme technicien, pas comme référenceur). C'est peut-être finalement là le problème des concurrents, la gestion des serveurs et des bases de données.

Mountain Magazin · 7 Octobre 2009

Ouais, ils utilisent des millions de PC en série

dadovb · 8 Octobre 2009

Un très très bon ingénieur met environ 2 ans à vraiment bien comprendre comment fonctionne la recherche chez Google.

Je trouve cette information très intéressante, un ingénieur chez Google avec tous les éléments à portée, met 2 ans minimum à comprendre le fonctionnement. Quand est-il donc de nous, qui sommes à l'extérieur de la boite noire ?

boutdepapier · 10 Octobre 2009

Hello !

Post intéressant et qui du coup me fait me demander : dans le cas où (et oui j'ai un exemple) l'on sait qu'un résultat manque de pertinence, y a-t-il moyen de faire une suggestion ?

L'exemple qui en plus est dans l'air du temps (ça ne se démode pas) : la sexualité ! J'ai fait le site qui est en www, qui traite de la sexualité chez les femmes : interview, témoignages, échanges autour de la sexualité. L'idée était de faire une plateforme féminine sans tabou pour aider à décomplexer, dire (contrairement aux journaux féminins) que il n'y a pas de mode d'emploi, de normes, mais pousser à l'épanouissent personnel.

Bref tout ça pour dire : que cette thématique implique un franc parlé et donc un champ lexical tendancieux. Là Google intervient et classe le site comme porno, conséquence : aucune requête mainstream ne ramène à nous. Deuxième conséquence, on n'arrive chez nous via google que en cherchant du porno et là c'est le drame : visiteurs non adaptés au contenus, taux de rebond violent etc...

Pourtant à notre époque je peux citer rue89 et rue69 qui traitent de l'actualité de la sexualité, les 400 culs chez libération et le blog de Peggy Sastre sur le nouvel Obs... Du coup, on aimerait bien faire bouger les choses sur Google, parce que référencer un site sexo est un sacré défit... Comment peut-on procéder ? A qui de faire le travail (référenceur, association, Google ?) de faire évoluer la "censure" et la visibilité de l'information ?

Car finalement est-ce normal que le seul aspect de la sexualité que l'on puisse trouver (sans chercher du porno) soit les modes d'emplois, la vision médicale... Et le plaisir merde !

D'ailleurs c'est une problématique abordé dans les médias ex : Google, coincé entre les lobbys de protection de l'enfance et Rue69

KOogar · 13 Octobre 2009

dadovb a dit:
Un très très bon ingénieur met environ 2 ans à vraiment bien comprendre comment fonctionne la recherche chez Google.

Cliquez pour agrandir...

Je trouve cette information très intéressante, un ingénieur chez Google avec tous les éléments à portée, met 2 ans minimum à comprendre le fonctionnement. Quand est-il donc de nous, qui sommes à l'extérieur de la boite noire ?

ils construisent des bolides et nous on les conduit, passe ton permis référencement