Masse noire sur Indexation - Bloquée par le fichier robots.txt

alexandre · Mardi à 10:57

Bonjour,

C'est mon premier message sur ce forum et je tiens avant tout à remercier toutes les personnes qui pourront m'aider.

Dans la Search Console, avec le filtre "Pages non envoyées uniquement" d'un site nouveau, j'ai 7 000 URL "Bloquées par le fichier robots.txt" et 5 000 URL avec le statut "Autre page avec balise canonique correcte".

Par exemple : https://alicante-immobilier.fr/pt/imobiliario-em-espanha-7.htm?order=product.reference.desc

La plupart de ces URL contiennent des paramètres, liés à la navigation à facettes ou au tri des produits dans les catégories.

Question 1 : J'ai lu sur un blog que la "masse noire" pouvait consommer beaucoup de ressources de crawl inutiles. Ai-je mal interprété cette information ?

Question 2 : Dois-je utiliser des techniques d'obfuscation dans mes filtres ?

emualliug · Mardi à 11:36

La "masse noire" désigne les pages dont l'indexation n'est pas nécessaire, voir néfaste. Sur ce forum, le terme de "pages zombies" est régulièrement utilisé, les concepts sont proches.

Ce n'est pas exactement ton cas, ici ce ne sont pas les pages qui ne sont pas pertinentes, mais des URL distinctes qui donnent accès à des pages dont le contenu est identique (du moins sur le fond). On est donc plus proche d'un problème de duplicate content.

Les deux, la masse noire comme les URL à foison, peuvent consommer du budget de crawl.

Cependant, puisque l'indexation est bloquée par robots.txt, le budget de crawl ne devrait pas être entamé, puisque les pages, précisément, ne sont pas explorée. En outre, les pages ayant une adresse canonique correcte, il n'y a pas de risque de duplicate.

Suivant les infos, je ne vois pas de soucis.

Je suis globalement réticent aux techniques d'obfuscation.

WebRankInfo · Mardi à 16:08

que les URL soient indexées ou pas (selon GSC), alors qu'elles ne devraient pas l'être, c'est généralement parce qu'il existe bcp (trop) de liens internes vers elles. C'est mieux de trouver des moyens pour que Google ne trouve plus ces liens.

si tu ne l'as pas encore lu, je te conseille mon dossier pour comprendre le rapport d'indexation de la Search Console.

alexandre · Mardi à 18:00

Merci Olivier, j'ai bien lu ton article. Du coup, est-ce que le fait de mettre une balise <meta name="robots" content="noindex"> sur les URLs avec des paramètres que je ne veux pas voir crawlés ou indexés est pertinent ?

WebRankInfo · Mardi à 18:36

ça ne changera rien tant que ces URL seront crawlées ;-) cette fois-ci ton devoir à la maison est "Quelle différence entre noindex et disallow ?"

on est d'accord que ces 2 points sont assez différents :
"Bloquées par le fichier robots.txt"
"Autre page avec balise canonique correcte"

au fait, on est d'accord que GSC indique dans ces 2 cas que les URL ne sont pas indexées ?

emualliug · Mercredi à 10:08

Je ne prendrai pas le risque de mettre <meta name="robots" content="noindex">sur une page qui a une canonique qui, elle, doit être indexée. Certes, l'instruction de noindex ne devrait en principe pas être prise en compte sur la page non canonique, mais c'est un coup à faire des erreurs et à la faire figurer sur la canonique. Et de toute façon ça ne sert pas à grand chose : si l'élément meta relatif à la canonique est pris en compte la page ne sera pas indexée.

À la limite, on peut prévoir un attribut rel="nofollow" sur les liens de navigation à facette, au moins ces URL ne seront pas explorées.

Je le dis de temps en temps, je ne pense pas qu'il faille se focaliser sur la question du crawl budget comme étant prioritaire. Oui, il y a un budget de crawl, mais les sites concernés sont ceux de l'ordre du million de pages. Si toutes tes pages sont indexées, il n'y a pas de problème de crawl. Si toutes les pages sont explorées (et pas forcément indexées), il n'y a toujours pas de problème de crawl. Si toutes les pages ne sont pas explorées, il peut y avoir un problème de crawl, mais pas nécessairement de budget de crawl (mauvais temps de réponse du serveur, mauvais maillage, mauvais signaux pour le crawl prédictif, etc.).

Bref, avant de chercher une solution, il faut d'abord se demander quel est le problème.