balisage <article> <aside>

indigene · 7 Août 2019

Pour déterminer la pertinence d'un document html par rapport au sujet, jusqu'à quel point Google utilise-t-il le balisage sémantique ?

Est-ce qu'il prend en compte le header, le footer et le aside et jusqu'à quel point ? Des tests ont-ils été effectués ?
Est-ce qu'il ne prend pas ces balises en compte et analyse la page dans son ensemble avec le contenu se trouvant entre ces balises qui va venir diluer les mots clés importants contenus exclusivement entre les balises <article></article> ?

Je pose cette question car sur certaines des pages de mon site qui ne rankent pas, en analysant les occurrences de mots sur l'ensemble de la page, ce n'est pas du tout pertinent par rapport au sujet. Je comprend mieux pourquoi ça ne ranke pas. Depuis quelques semaines j'ai cependant ajouté le balisage sémantique avec <article> et <aside> en plus de <header> et <footer>. Mais ça ne semble pas avoir de résultat sur les positionnements (même après 3 semaines).

A partir de là une autre question se pose :
Si on ajoute des occurrences de mots pour pallier à la dilution due aux aside, header et footer, ne risque-t-on pas de créer une suroptimisation dans la partie <article> ? Ce qui serait simple c'est que Google ne prenne en compte que la partie <article> + title pour juger de la pertinence d'une page. On pourrait donc optimiser cette partie en évitant toutefois la suroptimisation. Mais j'ai dans l'idée que ce n'est pas aussi simple et qu'il faut :
- gonfler la page avec les mots clés principaux et leurs synonymes pour éviter la dilution due aux parties hors <article>
- s'assurer qu'il n'y a pas de suroptimisation dans la partie <article>

Ce dosage devient très compliqué à faire sans connaître l'importance de chaque partie de la page au niveau de l'évaluation finale et on peut très vite perdre des positions pour les raisons suivantes :
- problème de manque de pertinence (manque d'optimisation)
- problème de suroptimisation

C'est comme marcher sur un fil en évitant de tomber d'un côté ou d'un autre.

Vous en pensez quoi ?

Furtif · 8 Août 2019

CatWoman a dit:
Vous en pensez quoi ?

A ton avis quel plan te parle le plus :

Celui la ? sans indication de la finalité des pieces :

Ou celui la ?

La balisage structurel html5, c'est la meme chose....
Dans ton exemple tu as oublié la balise <main> la plus importante, qui contient article, aside, section...

Simple question de bon sens et de logique... si le html5 existe ce n'est pas par hasard

CatWoman a dit:
Ce dosage devient très compliqué à faire sans connaître l'importance de chaque partie de la page au niveau de l'évaluation finale

Si toi tu ne comprends pas, Gogole lui, comprend... Pour déclarer "LE" contenu important d’une page HTML, la balise <main> ne peut donc être utilisée qu’une fois par page

et si tu as des lacunes (ce qui semble etre le cas) concernant l'utilité et/ou la fonction des balises HTML5, un peu de revision :
https://jaetheme.com/balises-html5/

Maintenant sans aucune de ces balises, tu peux aussi faire un site....mais si tu les utilises, utilises-les toutes, correctement et pas a moitié

indigene · 8 Août 2019

c'est vrai que j'ai oublié la balise main et que j'ai tendance à penser qu'elle fait double emploi avec body puisque le header et le footer peuvent se trouver dans main.

Mais ça n'explique pas ce que google utilise réellement pour déterminer l'idée principale d'une page. J'ai l'impression qu'il utilise la whole page et que le balisage n'a en fait qu'une très très faible importance (ou alors c'est important pour les liens sortants mais pas pour la sémantique).

Furtif · 8 Août 2019

indigene a dit:
que le balisage n'a en fait qu'une très très faible importance

Quand tu as plein de points de faible importance, ca fait beaucoup....

Ta bagnole peut rouler sans essuies glaces, sans enjoliveurs, sans portes etc...mais au final tu remporteras pas un concours de beauté...

rick38 · 8 Août 2019

C'est une bonne pratique du HTML5 à faire, mais je ne pense pas que Google utilise ça, il sait se débrouiller tout seul sans avoir à attendre qu'un développeur lui dise que le haut c'est le header, le gros texte du milieu c'est un article, etc...

indigene · 8 Août 2019

Mais dans ce cas l'idée c'est de faire comprendre à google que c'est une voiture, que c'est un vélo, que c'est un camion

Et si j'ai trop peu d'occurrences du mot voiture ou bagnole dans ma page entière (problème de densité) il comprend pas que c'est une voiture, même si dans la partie "article" c'est ce qui ressort le plus.

Furtif · 8 Août 2019

rick38 a dit:
il sait se débrouiller tout seul sans avoir à attendre qu'un développeur lui dise que le haut c'est le header, le gros texte du milieu c'est un article, etc...

avec un studio ou un 2 pieces peut-etre... mais avec 7 ou 8 pieces ou plus, c'est plus la meme chose... A ton avis elle sert a quoi la balise "aside"... fait la meme chose, sans, sur une page..
Mais c'est vrai, pourquoi se casser le trognon a vouloir faire les choses dans les regles, c'est tellement plus chiant...

CatWoman a dit:
Et si j'ai trop peu d'occurrences du mot voiture ou bagnole dans ma page entière (problème de densité) il comprend pas que c'est une voiture, même si dans la partie "article" c'est ce qui ressort le plus.

Indigene je t'aime bien, mais tu as l'esprit tordu et tu melanges tout...

Plutot que de vous trouver 10 000 raisons de ne pas le faire... trouvez 1 bonne raison de le faire

colonies · 8 Août 2019

Furtif a dit:
Plutot que de vous trouver 10 000 raisons de ne pas le faire... trouvez 1 bonne raison de le faire

La bonne raison de le faire, c'est l'accessibilité. Les synthèses vocales type VoiceOver font la distinction entre ces balises à l'oral.

Pour avoir un code explicite... ça aide un peu, mais pas tant que ça non plus. Tu peux aussi te créer tes propres balises, et là, oui, ton code devient explicite (et tu peux ajouter des attributs role= pour avoir l'équivalent des rôles préattribués aux balises HTML). Ceci dit, personne ou presque ne le fait.

KOogar · 8 Août 2019

rick38 a dit:
C'est une bonne pratique du HTML5 à faire, mais je ne pense pas que Google utilise ça, il sait se débrouiller tout seul sans avoir à attendre qu'un développeur lui dise que le haut c'est le header, le gros texte du milieu c'est un article, etc...

+1 000

@indigene
si tes pages ne rank pas, c'est peut etre parce qu'elles manquent avant tout de jus / ou ce sont des pages zombies, c'est rarement (voir jamais) un problème de balisage.

indigene · 8 Août 2019

Non, le problème il n'est pas là.
Le mieux est de parler concret avec un exemple.
J'ai une page qui ranke bien : -http://www.dramatic.fr/faire-shour-p349.html
Quand je la passe à la moulinette de mon outil qui en extrait les mots et le nombre d'occurrence sur l'ensemble de la page j'obtiens ceci :
Liste des mots clés triés par nombre d'occurrence

27 magie
26 shour
14 marocaine
12 dramatic
12 sorcellerie
10 femmes
8 maroc
7 facebook
7 sorcières
6 marocain
6 recettes
6 sihr
6 symptômes
5 arabe
4 homme
4 talebs
4 très

Maintenant si je fais les recherches suivantes dans google (sans les points milieu entre les lettres) :
m·a·g·i·e···s·h·o·u·r
m·a·g·i·e···m·a·r·o·c·a·i·n·e
s·h·o·u·r···m·a·r·o·c·a·i·n
[j'ai ajouté des points milieu pour pas que ce fil ne vienne interférer dans les résultats de recherche ;-)]

comme par hasard j'arrive 1er dans les trois recherches qui sont des combinaisons des mots qui sont le plus présents dans la page.

Prenons maintenant le cas d'une page qui ne ranke pas : -http://www.dramatic.fr/homo-sapiens-p832.html
En visualisant brièvement la page, sans même utiliser l'ascenseur, un humain comprend que la page va parler de paléontologie et de l'origine de l'humanité, des neandertaliens et cro-magnon, etc...
Mais mon outils d'analyse des mots clés fait ressortir ceci :
Liste des mots clés triés par nombre d'occurrence

12 dramatic
12 été
10 homme
9 extraterrestres
8 anciens
7 anunnaki
7 dieux
7 facebook
7 sommes
6 000
6 ans
6 jour
6 magie
6 sapiens
5 astronautes
5 avons
5 fossiles
5 homo
5 humains
5 paranormal
5 qu'ils
5 sitchin
5 théories
5 venus
5 époque
4 2019
4 ADN
4 ancienne
4 espèce
4 extraterrestre
4 grâce
4 manipulation
4 nouvelles
4 panspermie
4 pierre
4 pourquoi
4 premiers
4 site
4 sumer
4 tablettes
4 technologie
4 textes
4 évolution

C'est clair qu'en lisant cette liste de mots clés on ne comprend pas du tout de quoi va parler la page.
Donc je comprend tout à fait que google ne fasse pas ranker une page comme celle-ci. Avec la première page, par contre, on comprend aisément de quoi elle va parler en lisant la liste les occurrences de mots et sans même visualiser la page.

Maintenant je vais me livrer à un autre examen de ces mêmes pages mais en supprimant le header, le aside et le footer pour ne conserver que la partie <article> </article>

Voici le résultat pour la première page :
Liste des mots clés triés par nombre d'occurrence

25 shour
15 magie
11 marocaine
10 femmes
10 sorcellerie
9 dramatic
8 maroc
7 sorcières
6 marocain
6 recettes
6 sihr
6 symptômes
4 talebs
4 très

Ca n'a pas changé pour les 3 mots principaux. Que ce soit la page complète ou seulement la partie "article", la page est toujours optimisée pour ces 3 mots précis.

Voici maintenant le résultat pour la seconde page :
Liste des mots clés triés par nombre d'occurrence

11 été
9 dramatic
9 homme
8 anciens
8 extraterrestres
7 anunnaki
7 dieux
7 sommes
6 000
6 ans
6 sapiens
5 astronautes
5 avons
5 fossiles
5 homo
5 humains
5 qu'ils
5 sitchin
5 venus
5 époque
4 ADN
4 ancienne
4 espèce
4 extraterrestre
4 jour
4 manipulation
4 pierre
4 pourquoi
4 sumer
4 tablettes
4 technologie
4 textes

Bon, c'est toujours aussi pourri comme optimisation. Et cette page ne rankera jamais. Nous sommes bien d'accord.

Mais si maintenant j'optimise cette seconde page en y ajoutant un grand nombre d'occurrence des mots sur lesquels je voudrais qu'elle ranke et qui tournent autour de "l'origine de l'homme" (le H1) et "l'origine extraterrestre de l'homo-sapien" (le title) ─ car c'est bien ça qu'on parle ─ je risque de dépasser le seuil de suroptimisation pour la partie "article" alors qu'en y ajoutant le header et le footer les occurrences de chaque mot (ou chaque notion sémantique) sont bien plus dilués.

Voilà, c'est pour cette raison que j'ai besoin de comprendre si google catégorise dans ses bases de données les pages en tenant compte de seulement :
- title
- h1
- article
ou bien s'il prend en compte toute la page dans son ensemble (ce qui dilue beaucoup plus les notions sémantiques abordées). Le risque étant qu'en cherchant à optimiser une page on en arrive à une surop qui serait encore pire.

Mais ma seconde page, c'est clair qu'il faut que je l'optimise grave, avec ou sans balisage <article> <aside>, je m'en fou un peu. Elle n'est pas du tout optimisée.

Mais si certains ont connaissance de tests qui ont été réalisés et qui démontrent que google ne classifie les pages qu'en fonction du vrai contenu (itemprop="articleBody" du schema.org) alors il faudrait que je songe à modifier mon outil pour faire la même chose et ne plus travailler sur la whole page quand je détecte la présence de <header> <footer> et <aside>
Le <main> j'en ai rien à battre en fait.

Le sujet de ce fil porte sur l'optimisation des contenus et non sur l'utilité ou non des balises sémantiques du html5.

indigene · 8 Août 2019

Furtif a dit:
Indigene je t'aime bien, mais tu as l'esprit tordu et tu melanges tout...
Plutot que de vous trouver 10 000 raisons de ne pas le faire... trouvez 1 bonne raison de le faire

@Furtif C'est toi qui mélanges car je n'ai jamais évoqué le problème de l'utilité ou non d'un tel balisage et tu t'es engouffré dans cette fausse idée en faisant dévier le véritable sujet du fil qui concerne l'optimisation du contenu

indigene · 8 Août 2019

Je repose donc la question différemment :

Pour optimiser un contenu, faut-il prendre en compte la page entière ou seulement le itemprop="articleBody" en éludant tout ce qui se trouve autour (header, aside, footer) ?

WebRankInfo · 8 Août 2019

Google est devenu un moteur de recherche sémantique. Je doute qu'il se base sur des analyses aussi simples que les occurrences de mots.

Pour répondre à ta dernière question, je dirais qu'il faut se concentrer essentiellement sur la zone principale de contenu. Ce n'est pas l'algo, mais les consignes pour les search quality raters en parlent, ainsi que du "contenu complémentaire" de la page.

indigene · 8 Août 2019

Merci pour cette réponse. C'est un peu ce que je supputais.
Je vais mettre à jour mon script que j'avais écris il y a au moins 15 ans et à l'époque le balisage sémantique n'existait pas.

Furtif · 8 Août 2019

CatWoman a dit:
@Furtif C'est toi qui mélanges car je n'ai jamais évoqué le problème de l'utilité ou non d'un tel balisage et tu t'es engouffré dans cette fausse idée en faisant dévier le véritable sujet du fil qui concerne l'optimisation du contenu

Si tu le dis... tu te contredis en permanence...

CatWoman a dit:
Est-ce qu'il prend en compte le header, le footer et le aside et jusqu'à quel point ? Des tests ont-ils été effectués ?
Est-ce qu'il ne prend pas ces balises en compte et analyse la page dans son ensemble avec le contenu se trouvant entre ces balises qui va venir diluer les mots clés importants contenus exclusivement entre les balises <article></article> ?

Si tu parles pas des balises structurelles... que tu confonds allegrement avec des balises "semantiques".... je vais aller me faire bronzer hein....

WebRankInfo · 8 Août 2019

indigene a dit:
à l'époque le balisage sémantique n'existait pas

quand je dis que Google est un moteur de recherche sémantique, je ne fais pas référence aux quelques balises HTML5 dont il est question ici, mais plutôt aux notions d'entités, de knowledge graph, sans parler de toute l'analyse du sens caché des simples mots. Bref "things, not strings", très très loin de voir les mots comme des suites de lettres.

indigene · 9 Août 2019

Furtif a dit:
Si tu parles pas des balises structurelles... que tu confonds allegrement avec des balises "semantiques".... je vais aller me faire bronzer hein....

Pour être plus clair on va alors parler de balisage HTML5 sémantique structurel.
Pour moi c'est bien sémantique car on peut les remplacer par des <div role=""> en précisant le rôle de chaque division, donc son sens (est-ce du décor lié à l'ergonomie ou la navigation, ou bien du contenu, ou encore du contenu complémentaire, ...).
Les meta-données c'est encore autre chose et je te l'accorde elles n'ont rien de structurel mais sont uniquement descriptives. Par exemple expliquer qu'une date est une date de publication et non une date de mise à jour, etc...

Mais l'aspect structurel n'est pas le sujet du post car j'ai annoncé la couleur en disant dès le début "Pour déterminer la pertinence d'un document". Si je voulais parler structure j'aurai sans doute écrit "Pour déterminer la structure d'un document".

Mais comme l'a souligné Rick38, Google n'a pas besoin de ça pour comprendre la structure d'un document.

Furtif · 9 Août 2019

indigene a dit:
our déterminer la pertinence d'un document"

Bah, la pertience d'un document est liée a sa structure.... sinon met ton contenu dans ton footer...

Ou mieux vire les balises header, menu, main, aside, article, section, foorter, etc..

... Gogole se debrouillera tout seul...

indigene a dit:
Mais comme l'a souligné Rick38, Google n'a pas besoin de ça pour comprendre la structure d'un document.

Le but est de simplifier la tache des bots, avec des marqueurs specifiques.....ceux du html5 et du W3C...qui sont la norme....

Un contenu que qualité, sera toujours mieux valorisé avec un contenant approprié.

Tu peux toujours savourer un Romanée-Conti dans un verre en plastique, perso je prefere avoir le verre à vin...

Apres evidemment cela ne suffit pas a te propulser dans le top 5 des serps, mais c'est l'un des ingredients de la recette... Apres tu peux faire ta propre declinaison de la dite recette... chacun est libre

KOogar · 9 Août 2019

Furtif a dit:
Un contenu que qualité, sera toujours mieux valorisé avec un contenant approprié.

+1

Cela concerne surtout les pages avec beaucoup de références comme des pages produits, maintenant sur un blog, comme le dit si bien @rick38 : 1 titre + le gros texte du milieu c'est l'article, gg sait se débrouiller tout seul.