Intelligence artificielle : Google résume des contenus pour ses Featured Snippets
Pour améliorer les Featured Snippets (bloc avant le 1er résultat naturel), Google utilise l'intelligence artificielle pour résumer des contenus trouvés sur le web... Heureusement, la source d'information est encore indiquée !L'avez-vous remarqué ? Google devient de plus en plus un service qui fournit une réponse, plutôt que des liens vers des pages web qui pourraient répondre à la demande de l'internaute. A ce sujet, prévoyez d'aller consulter mon dossier sur les SERP de Google, c'est assez impressionnant.
Dans cette optique, il y a de plus en plus de cas où une réponse concise est apportée au-dessus des résultats naturels, sous forme de texte et parfois d'une image. On appelle ça le Featured Snippet ou le résultat au rang zéro (Google l'a traduit "extrait optimisé" en français).
Généralement, il s'agit d'une réponse succincte à une question directe et précise, comme une définition ou des questions du type "comment", "quel est", etc., mais parfois c'est plus complexe.

Google a recours à des algorithmes d'intelligence artificielle pour rédiger les Featured Snippets en haut de ses résultats de recherches
On apprend par le magazine Wired que Google a mis en place (sur résultats ordinateur, pas encore mobile) une amélioration de ces Featured Snippets, utilisant des techniques d'IA (Intelligence Artificielle). En gros, au lieu d'afficher dans le snippet un extrait exact d'un contenu trouvé sur le web, l'algorithme est capable de choisir des bouts pour former la réponse qui sera affichée en "position zéro".
Avant de détailler la méthode, je vous ai choisi un exemple : la requête "quels sont les plus beaux chateaux de la loire" (tapée telle quelle avec l'aide de Google Suggest). Voici le haut des résultats :

Le texte affiché pour l'extrait optimisé (Featured Snippet) est généré automatiquement par Google
Vous remarquez que :
- ce "résultat" est extrêmement visible, tout en haut de page
- la réponse est fournie sous forme de liste, avec un lien pour avoir la liste complète (il pointe vers la page à l'origine du contenu)
- dans ce cas, le résultat 1 correspond à la même URL que celle indiquée en source d'information (c'est souvent le cas mais pas systématique)

L'algo de Google extrait seulement les bouts de texte utiles pour les Featured Snippets
J'ai noté que :
- la page contient bien plus d'informations que l'extrait affiché dans les résultats de Google
- Google a récupéré les noms des châteaux, en enlevant le reste
- les noms sont affichés sur Google par ordre d'importance décroissante, ce qui correspond bien à la demande de l'internaute, alors que dans la page web source ils sont listés dans l'ordre inverse
- dans cet exemple les éléments extraits sont des balises de titres (h4 ici, ce qui n'est pas correct au passage, lisez mes explications détaillées) mais j'ai trouvé plein d'autres cas où le texte récupéré n'avait pas de formatage particulier
Concrètement, Google s'est basé sur le travail d'une équipe d'une centaine d'experts en linguistique, couvrant actuellement 20 à 30 langues. Ces experts, dirigés par David Orr (de Google) ont "appris" à un algorithme à trouver les bons extraits de mots, expressions ou phrases dans un corpus potentiellement long. Leur équipe a été baptisée Pygmalion.
Il s'agit d'un algorithme de Deep Learning, une branche de l'intelligence artificielle. Ce système utilise des réseaux de neurones convolutifs afin de reconnaître des modèles pendant une phase d'apprentissage supervisé, pour renforcer la justesse de la reconnaissance faite ensuite pendant un mode non-supervisé.
Comme tous les algos de deep learning, le système a besoin d'une énorme masse de données. Celles produites par l'équipe des 100 PhD sont les plus efficaces mais les plus difficiles à obtenir. Ils utilisent donc aussi des données de moins bonne qualité, mais disponibles en plus gros volumes, comme les titres des articles de presse.
La technique utilisée s'appelle "sentence compression algorithm", c'est-à-dire littéralement un algorithme de compression de phrase. C'est une sorte de paraphrase améliorée, l'objectif étant de comprendre la question de l'internaute afin de sélectionner dans le texte uniquement les éléments les plus intéressants.
Pour ma part, ça m'inquiète un peu : dans peu de temps (même pas plusieurs années), Google saura-t-il répondre entièrement aux questions des internautes, en produisant un texte directement par son algo, lequel aura digéré toutes sortes d'informations récupérées sur Internet ? Mais alors, à quoi servirons-nous, éditeurs de sites web ?