Avec robots-nocontent, Yahoo prend l'initiative et permet aux webmasters de faire ignorer certaines zones de leurs pages. En voici la description !
La classe CSS robots-nocontent avec Yahoo
Jusqu’à présent il n’était pas vraiment possible d’empêcher les moteurs de recherche d’indexer une ou plusieurs parties d’une page web. On pouvait éventuellement se débrouiller pour générer une partie de la page avec du JavaScript, ce langage étant (pour l’instant) ignoré des moteurs. Yahoointroduit aujourd’hui la possibilité d’indiquer à son robot Slurp des zones de pages à ignorer, grâce à une classe CSS intitulée robots-nocontent.
Exemples de code avec class robots-nocontent
Attention il ne s’agit ni d’une balise robots-nocontent, ni d’une balise meta, ni d’un attribut (comme rel=nofollow) mais d’une classe CSS. Pour utiliser cette classe, faites donc comme d’habitude ! Il suffit d’attribuer cette classe à la balise qui englobe le contenu que vous souhaitez voir ignoré, par exemple ici une balise DIV :
<div class="robots-nocontent">Tout ce qui est dans ce div sera ignoré par Yahoo, y compris les balises incluses à l'intérieur comme le paragraphe qui suit.<p>Ce paragraphe sera également ignoré</p></div>
Vous pouvez aussi faire ignorer un ou plusieurs (gros) mots au milieu d’une phrase
par exemple <p>Ici ça va mais <span class="robots-nocontent">là c'est ignoré !</span></p>.
Si vous avez déjà donné un nom de classe à une balise, aucun problème, il suffit de cumuler plusieurs classes en les séparant par un espace :
<div class="publicite robots-nocontent">Ici un bloc destiné à la publicité, qui sera ignoré par Yahoo</div>
Fonctionnement du blocage par robots nocontent
Yahoo précise bien que dans son index, toute la page est référencée, avec tous les mots. Par contre, les mots situés dans les blocs robots-nocontent ne sont pas exploités pour la recherche et ne peuvent pas non plus être utilisés (par Yahoo) pour créer le descriptif de la page dans les résultats de recherche (snippet). C’est donc bien différent de la balise meta robots noindex qui indique aux moteurs qu’ils doivent ignorer l’intégralité de la page.
Selon Yahoo, cette nouvelle fonctionnalité permet aux créateurs de site de mieux mettre en valeur leur contenu, en excluant de l’indexation d’une page tout ce qui n’est pas utile (entêtes, navigation, pied de page, publicité…). Même s’il est indéniable que c’est effectivement un outil utile au webmaster dans certains cas, j’observe qu’une nouvelle fois un moteur de recherche demande aux webmasters de l’aider à faire son travail, à savoir déterminer de façon précise de quoi parle une page (je fais ici référence à l’attribut rel=nofollow qui indique aux moteurs d’ignorer certains liens).
En fait la classe robots-nocontent me fait penser au ciblage par section de Google AdSense qui permet d’indiquer au robot soit des zones d’intérêt (qui sont censées contenir l’information utile de la page), soit des zones à ignorer (comme avec ce robots no content).
A première vue cela revient à dire que les blocs concernés ne sont pas indexés, mais je trouve qu’il faudrait quelques précisions pour savoir par exemple si les liens situés dans ces blocs seront eux aussi ignorés (même si j’avoue que la réponse a été donnée par Priyank Garg dans les commentaires : Yahoo tient compte des liens situés dans ces zones, ce que je ne trouve pas vraiment logique mais bon…).
Une chose est sûre : les webmasters ont désormais une arme supplémentaire pour lutter contre les spammeurs, par exemple dans les blogs, les forums ou les wikis. En effet, il est possible de faire ignorer les commentaires ou les liens qu’ils postent… Evidemment cela va compliquer encore un peu plus les partenariats puisqu’il va falloir vérifier que le partenaire ne fasse pas ignorer la zone de la page où l’on est cité ;-)
Nous allons suivre avec attention comment cette fonctionnalité sera acceptée par la communauté. Les autres moteurs vont-ils suivre Yahoo et supporter eux aussi cette nouvelle classe ?
Pour en savoir plus sur robots-nocontent :
La classe CSS robots-nocontent avec Yahoo
Jusqu’à présent il n’était pas vraiment possible d’empêcher les moteurs de recherche d’indexer une ou plusieurs parties d’une page web. On pouvait éventuellement se débrouiller pour générer une partie de la page avec du JavaScript, ce langage étant (pour l’instant) ignoré des moteurs. Yahoointroduit aujourd’hui la possibilité d’indiquer à son robot Slurp des zones de pages à ignorer, grâce à une classe CSS intitulée robots-nocontent.
Exemples de code avec class robots-nocontent
Attention il ne s’agit ni d’une balise robots-nocontent, ni d’une balise meta, ni d’un attribut (comme rel=nofollow) mais d’une classe CSS. Pour utiliser cette classe, faites donc comme d’habitude ! Il suffit d’attribuer cette classe à la balise qui englobe le contenu que vous souhaitez voir ignoré, par exemple ici une balise DIV :
<div class="robots-nocontent">Tout ce qui est dans ce div sera ignoré par Yahoo, y compris les balises incluses à l'intérieur comme le paragraphe qui suit.<p>Ce paragraphe sera également ignoré</p></div>
Vous pouvez aussi faire ignorer un ou plusieurs (gros) mots au milieu d’une phrase

Si vous avez déjà donné un nom de classe à une balise, aucun problème, il suffit de cumuler plusieurs classes en les séparant par un espace :
<div class="publicite robots-nocontent">Ici un bloc destiné à la publicité, qui sera ignoré par Yahoo</div>
Fonctionnement du blocage par robots nocontent
Yahoo précise bien que dans son index, toute la page est référencée, avec tous les mots. Par contre, les mots situés dans les blocs robots-nocontent ne sont pas exploités pour la recherche et ne peuvent pas non plus être utilisés (par Yahoo) pour créer le descriptif de la page dans les résultats de recherche (snippet). C’est donc bien différent de la balise meta robots noindex qui indique aux moteurs qu’ils doivent ignorer l’intégralité de la page.
Selon Yahoo, cette nouvelle fonctionnalité permet aux créateurs de site de mieux mettre en valeur leur contenu, en excluant de l’indexation d’une page tout ce qui n’est pas utile (entêtes, navigation, pied de page, publicité…). Même s’il est indéniable que c’est effectivement un outil utile au webmaster dans certains cas, j’observe qu’une nouvelle fois un moteur de recherche demande aux webmasters de l’aider à faire son travail, à savoir déterminer de façon précise de quoi parle une page (je fais ici référence à l’attribut rel=nofollow qui indique aux moteurs d’ignorer certains liens).
En fait la classe robots-nocontent me fait penser au ciblage par section de Google AdSense qui permet d’indiquer au robot soit des zones d’intérêt (qui sont censées contenir l’information utile de la page), soit des zones à ignorer (comme avec ce robots no content).
A première vue cela revient à dire que les blocs concernés ne sont pas indexés, mais je trouve qu’il faudrait quelques précisions pour savoir par exemple si les liens situés dans ces blocs seront eux aussi ignorés (même si j’avoue que la réponse a été donnée par Priyank Garg dans les commentaires : Yahoo tient compte des liens situés dans ces zones, ce que je ne trouve pas vraiment logique mais bon…).
Une chose est sûre : les webmasters ont désormais une arme supplémentaire pour lutter contre les spammeurs, par exemple dans les blogs, les forums ou les wikis. En effet, il est possible de faire ignorer les commentaires ou les liens qu’ils postent… Evidemment cela va compliquer encore un peu plus les partenariats puisqu’il va falloir vérifier que le partenaire ne fasse pas ignorer la zone de la page où l’on est cité ;-)
Nous allons suivre avec attention comment cette fonctionnalité sera acceptée par la communauté. Les autres moteurs vont-ils suivre Yahoo et supporter eux aussi cette nouvelle classe ?
Pour en savoir plus sur robots-nocontent :
- l’annonce officielle par Yahoo : Introducing Robots-Nocontent for Page Sections
- la documentation officielle de Yahoo : How do I mark web page content that is extraneous to the main unique content on the page?