Latent Dirichlet Allocation (LDA) et référencement Google

Olivier Duffez (admin)
Membre du personnel
D'après une étude de SEOmoz, il est possible que Google utilise dans son algo une analyse du type de LDA (Latent Dirichlet Allocation). Je vous suggère de lire son article et de tester son outil afin de pouvoir en débattre ici.

En tout cas cela risque de renforcer l'intérêt pour ce qu'on appelle parfois le référencement éditorial, ou disons l'optimisation du référencement naturel par un bon rédactionnel.

PS: pour les "nuls", une explication en français
 
WRInaute discret
Bonjour Olivier,

Je compte réagir à votre message concernant le LDA. Encore est-il normal que Google recherche des mots clés en rapport avec le mot que vous souhaitez positionner afin de vérifier si le sens est le bon. Ainsi, si votre site parle de cheval, le fait d'utiliser les mots "chevaux" ou encore "écurie" va rassurer le moteur de recherche dans le sens de vos phrases voir de votre site.

Ainsi on peut distinguer plusieurs formes du LDA : sur une phrase (recherche de mots coïncidents) ou encore à travers un ou plusieurs paragraphes.

Cette information n'est pas nouvelle, mais la révélation par SEOmoz a fait grand bruit !

Certains qui utilisent l'outil gratuit Gnoztik s'en sont déjà rendus compte. Le logiciel propose en effet dans ses rapports de rajouter des mots clés non présents sur votre site et qui pourraient vous permettre d'augmenter vos positions sur le mot clé voulu, ce grâce à une analyse des autres sites.

J'utilise en partie cette technique pour référencer mes sites internet depuis un certain temps maintenant, et c'est vrai que cela marche bien, mais il ne faut pas oublier le reste, c'est à dire du bon contenu, des liens et de la popularité. Peut-être en parliez-vous déjà dans vos formations à l'écriture web ?
 
Olivier Duffez (admin)
Membre du personnel
euh oui en effet ça fait pas mal d'années qu'on explique qu'il faut ajouter des mots "connexes" en rapport avec le mot-clé principal. J'en ai parlé par exemple avec la LSI il y a 5 ANS :-) Et effectivement on l'explique aussi en formation à l'écriture web.

Mais là c'est plus crédible je pense, car la LSI ne me semble pas "scalable", adaptable aux volumes traités par Google. Cela dit j'aimerais bien l'avis de spécialistes de LDA.
 
WRInaute passionné
WebRankInfo a dit:
Mais là c'est plus crédible je pense, car la LSI ne me semble pas "scalable", adaptable aux volumes traités par Google. Cela dit j'aimerais bien l'avis de spécialistes de LDA.
Complètement d'accord avec ça.
J'ai pas encore approfondi la mécanique du test de SEOmoz, mais c'est encourageant.
 
WRInaute discret
Par contre, j'ai envie d'aller plus loin et de vous demander si on ne peut pas appliquer ce principe aux backlinks ?

Est-ce que en gros par exemple si on veut se placer sur "cheval", des backlinks avec le mot "chevaux" va-t-il nous aider ? Je pense que cela joue un peu, après je n'ai pas fait de test pour le démontrer.
 
WRInaute accro
Est-ce qu'il y a un risque de sur-optimisation sémantique ?
S'il est normal d'utiliser des termes de même environnement fréquemment dans une page, il apparaît aussi des mots sans aucun rapport avec le sujet quand on écrit sans arrière-pensée SEO. Et on n'écrit jamais avec tous les mots liés au sujet, sauf si un logiciel nous incite à le faire. Est-ce que quelqu'un a constaté que la présence de ce type de hors-sujet ou l'absence de quelques mots importants liés au sujet pourraient rassurer Google sur les intentions de l'auteur ?
 
WRInaute accro
personnellement, je pense qu'il doit y avoir une liaison avec l'énorme base de livres que gg a scanné. Même si on n'écrit pas de la même façon en ligne que IRL (il faut que les contenus soient plus concis, plus percutants, rien que pour accaparer l'attention de l'internaute, sans même penser SEO), mais il a ainsi de grosses bases de documents dans pas mal de domaines. Et s'ils ont étudié la dispersion de la représentativité des mots employés IRL et comparé sur cette même dispersion sur internet, ils doivent pouvoir en établir des correspondances.
 
WRInaute discret
J'ai lu les 2/3 de l'article tout de suite et il y a une question qui me vient :
La LDA permet de séparer des thématiques sur les bases de probabilités. Ok, mais sur un texte typique de spam avancé, avec une syntaxe correcte mais aucun sens, est-ce que les outils sortent :
- Aucune thématique ?
- Plusieurs thématiques non reliées ?

Si l'on ressort plusieurs thématiques non reliées entre elles, considère-t-on toujours que l'on est en présence de spam ?
Enfin, même là, je sais que des générateur produisent du texte dégueulasse dont on peut retirer, malheureusement, une thématique.

En bref, je suis pas sûr de la valeur et de l'utilisation qu'on peut attribuer au traitement de documents avec cette méthode (si utilisée seule).
 
WRInaute occasionnel
Enfin, même là, je sais que des générateur produisent du texte dégueulasse dont on peut retirer, malheureusement, une thématique.

Un générateur markovien de base génère des textes qui sont tous dans la même thématique si le corpus d'apprentissage ne contient que des textes d'une même thématique.
Globalement, on ne peut pas vraiment utiliser la LDA en même temps pour detecter le spam et pour inférer les topics. D'autant plus que la première tâche (detecter le spam) n'a pas de sens en tant que telle car il y a plusieurs types de spam qui nécessitent des méthodes tout à fait différentes de detection. Si on veut detecter des textes générés aléatoirement, il y a des méthodes de pré-filtrages très efficaces et beaucoup plus simple à utiliser que la LDA (batterie de filtres statistiques par exemple).

J'édite pour donner mon sentiment sur la bonne manière de faire un moteur : à mon sens la tâche de détection du spam doit se faire à l'indexation des pages. Lors du calcul de popularité/similarité on peut faire du déclassement de spam avec des méthodes adaptées, mais sans le detecter (oui, c'est possible).
 
Haut