Nombre de pages indexés trop élevé

Nouveau WRInaute
Bonjour à tous.
Je me permets de vous demander de l'aide concernant mon site. Le problème est le suivant. Lorsque je tape la commande site:www.example.com j'ai environ 540 résultats (ce qui correspond à ce qui est écrit dans WMT). Or, le nombre de page sur mon site n'est que d'environ 200. Lorsque je parcours les pages des résultats de google, au bout de la 20ème page j'ai le message :Afin d'afficher les résultats les plus pertinents, nous avons omis quelques entrées qui sont très similaires aux 198 entrées actuelles.Si vous le souhaitez, vous pouvez relancer la recherche pour inclure les résultats omis. " Je relance donc la recherche avec les résultats omis et là je me retrouve avec des url du type :
http://www.example.com/categorie/articles/feed
La description de ce résultat n'est pas accessible à cause du fichier robots.txt de ce site.

Et quand je clique dessus je me retrouve sur une page de flux rss tont le title est : "commentaire sur : nom_article"

Mais encore plus bizarre, quand je clique sur la dernière page de recherche google, il ne me met plus 540 résultat mais 216 ...

Ma question est la suivante :
1. est ce que ces urls en trop peuvent nuir à mon référencement malgré qu'ils soient bloqué par le fichier robot.txt ?
2. Est-il possible de supprimer ces urls ?

Merci de vos réponses
 
Membre Honoré
Bonjour,

Vous pouvez indiquer l'URL du site pour que les membres de la communauté d'entraide puissent vérifier l'indexation des pages.

Cordialement.
 
Nouveau WRInaute
Le "Too many connections" vient du fait que le site que tu as conçu ouvre trop de connexion à la base MySQL en même temps (beaucoup de visites en même temps et/ou scripts nécessitant de l'optimisation). Le nombre max de connexions simultanées est de 30 sur les mutus pro.
 
Nouveau WRInaute
Merci de votre retour. Où voyez-vous ce "Too many connections" ? Est-ce que ça a un rapport avec le nombre trop important de pages indexées ?
 
Membre Honoré
Bonjour,

Vous laissez des pages inutiles s'indexer, c'est pour ça.

N'hésitez pas à vous présenter au forum : ici et entre deux messages présenter vos avis aussi sur les sujets : ici.

Cordialement.
 
Nouveau WRInaute
Bonjour, en effet il y a des pages inutiles qui s'indexent mais je ne vois pas pourquoi. J'ai pourtant pris soin de bien configurer le htacess et le fichier robots mais rien n'y fait.
PS : je me suis déjà présenté :)
 
Nouveau WRInaute
WebRankInfo a dit:
tu trouveras des réponses dans cet article
Merci, donc si j'ai bien compris j'ajoute Noindex: /feed dans le fichier robot.txt
et je dois supprimer manuellement et un par un toutes les urls des flux rss des commentaires ?
ou est-ce que la directive Noindex: /feed empêche également l'indexation et le crawl des flux de commentaires ?
merci :)
 
Olivier Duffez (admin)
Membre du personnel
La directive Noindex: /feed correspond à un répertoire /feed à la racine, ce n'est pas ton cas
essaie Noindex: /*/feed
mais teste dans l'outil de test du robots.txt dans la Search Console (ex GWT)
 
Nouveau WRInaute
WebRankInfo a dit:
La directive Noindex: /feed correspond à un répertoire /feed à la racine, ce n'est pas ton cas
essaie Noindex: /*/feed
mais teste dans l'outil de test du robots.txt dans la Search Console (ex GWT)

Avec l'outil de test lorsque je met : "Noindex: /*/feed" ça me met " autorisé ", quand je met Noindex: /feed ça me met " bloqué " même chose avec disalow. Je crois qu'il ne comprend pas les /* ...

Du coup je laisse bien Noindex: /*/feed ?
Dois-je également metre disallow: /*/feed ?

est-ce que cela va me bloqué également les fux rss des commentaires ?

Mon ficher robot pour le moment :

Noindex: /feed
Noindex: /*/feed
Disallow: /feed
Disallow: /comments/feed
Disallow: /feed/
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /comments
Disallow: /*/comments

Pensez-vous qu'il y a des lignes à supprimer, d'autres à ajouter ou à modifier ?
Merci :)
 
Olivier Duffez (admin)
Membre du personnel
en effet, le * ne semble pas bien être pris en compte (il faut dire qu'il ne fait pas partie officiellement du standard robots.txt)
il faudrait certainement simplifier ton fichier robots.txt, faut faire des tests !
 
Nouveau WRInaute
WebRankInfo a dit:
en effet, le * ne semble pas bien être pris en compte (il faut dire qu'il ne fait pas partie officiellement du standard robots.txt)
il faudrait certainement simplifier ton fichier robots.txt, faut faire des tests !

Ok :) Mais de toute façon c'est pas préjudiciable de mettre trop de lignes que pas assez, si ?
Je ne m'y connais pas trop en écriture de fichier robots. Tous se contredisent sur le net alors c'est un peu compliqué de discerner le vrai du faux.
 
Olivier Duffez (admin)
Membre du personnel
si jamais ça bloque des pages qui ne devraient pas l'être, c'est préjudiciable ! sinon pas de pb à part rendre compliqué quelque chose qui devrait rester simpler
 
Discussions similaires
Haut