GWT : un nouveau menu dévoile l'état d'indexation de votre site

WRInaute accro
Menu :
État de santé => État de l'indexation
La section avancée montre non seulement les totaux de pages indexées, mais aussi le nombre total de pages analysées, le nombre de pages que nous connaissons qui ne sont pas analysées, car bloquées par un fichier robots.txt, et aussi le nombre de pages qui n'ont pas été sélectionnées pour inclusion dans nos résultats.
Source
 
WRInaute passionné
Bonjour, je me permets de reposer ma question ici vu qu'on m'a fermé mon topic
https://www.webrankinfo.com/forum/t/gwt-nouvel-onglet-etat-de-lindexation.156858/

Bonjour à tous,

Avez-vous remarqué le nouvel onglet dans Google Webmaster Tools > Etat de santé > Etat de l'indexation

On y découvre le nombre de page indéxées, et si on clique sur "Avancé" nous avons le nombre de "Pages non sélectionnées", qui redirigent vers d'autres pages ou qui ont un contenu proche à d'autre pages.

Pensez-vous que la similarité soit interne au site ou plutôt qu'il s'agisse de duplicate content externe ?
 
WRInaute passionné
Je me pose également beaucoup de questions sur ses pages "non-sélectionnées". Quelqu'un a des hypothèses à avancer ?
 
WRInaute discret
super intéressant pour voir les désindexations voulue (par exemple)

je pense que les non sélectionnées sont les urls pas prisent en compte par GG, sans intérêt pour lui !
 
WRInaute discret
Intéressant aussi de constater que le nombre de pages explorées a augmenté à fin avril (avec Pinguin ?), ainsi que le nombre de pages non sélectionnées, qui était stable notamment sur certains de mes sites depuis plusieurs semaines pour augmenter à partir du 29 avril en suivant la courbe des pages indexées.

Quelles conclusions ? Une modification de l'exploration des pages ? Peut-on supposer que les pages non indexées aient un effet négatif sur le référencement (pages correspondant à des réponses forum par exemple) ?
 
WRInaute accro
les pages non sélectionnées peuvent aussi être des pages où l'on met un noindex, sans qu'elles ne soient bloquées par robots.txt
par exemple, j'ai des milliers de pages de liens virtuels : qui n'existent que pour tracker les onclick (de pdf,...) avec GA mais n'ont aucune existence réelle
 
WRInaute passionné
@Leonick : D'accord avec toi, d'ailleurs en bas il est précisé "Il est possible que les chiffres indiqués dans le graphique ne tiennent pas compte de certains filtres pouvant empêcher les URL indexées de figurer dans les résultats de recherche." donc je pense que les URLs avec un id de session par exemple sont incluses dans les "non sélectionnées" bien qu'elles ne doivent pas être "sélectionnées" de toute façon

Concernant le DC il est écrit : URLs from your site that redirect to other pages or URLs whose contents are substantially similar to other pages.
 
Olivier Duffez (admin)
Membre du personnel
d'ailleurs je trouve ça ultra pénible que le robot de Google cherche à crawler les URL virtuelles indiquées dans le code JS dédié à Analytics
ça pollue les messages d'erreur de GWT
 
WRInaute accro
WebRankInfo a dit:
d'ailleurs je trouve ça ultra pénible que le robot de Google cherche à crawler les URL virtuelles indiquées dans le code JS dédié à Analytics
ça pollue les messages d'erreur de GWT
en fait, quand j'avais vu les erreurs engendrées, j'avais ajouté ce lien de tracking dans robots.txt, mais je me trouvais avec plusieurs dizaines de milliers d'url bloquées par robots.txt et pour retrouver ceux qui n'auraient pas du être bloqués ça devenait impossible. Ce qui fait que j'ai du créer un vrai lien correspondant à ces url virtuelles sur lequel j'envoie un noindex
 
WRInaute impliqué
kmenslow a dit:
C'est dommage qu'ils ne nous donnent pas la liste des pages "non-sélectionnées"


Clair ! Ce serait tellement instructif, mais peut-être trop justement ? Je pense notamment à ceux qui créent des milliers de pages plus ou moins similaires pour se positionner sur la longue traine.
 
WRInaute passionné
+ 1
Effectivement, connaître les pages non indexées serait de la plus grande utilité. Par ex savoir les pages non "no follow" qui ne seraient pas indexées. Alors vraiment cela me serait utile. Sinon, cette fameuse statistique n'apporte que ce que je sais déjà.


Par ailleurs, cet état d'indexation, tel que donné dans GWT, se rapporte uniquement au domaine dans sa globalité.

Dès lors, des dossiers (par ex. linguistiques) qui ont leur propre dossier GWT ne bénéficient pas du renseignement propre alors que si le webmaster avait opté pour des sites distincts ou des sous-domaines, il aurait eu le renseignement pour chacun d'entre eux. Et c'est ainsi aussi pour d'autres stats de GWT

.
 
WRInaute occasionnel
Willgoto a dit:
Effectivement, connaître les pages non indexées serait de la plus grande utilité. Par ex savoir les pages non "no follow" qui ne seraient pas indexées. Alors vraiment cela me serait utile.
Il y a d'autres logiciels d'analyses qui peuvent vous sortir ça, pas besoin de GWT :D
 
WRInaute passionné
Bon

J'ai été voir ça... sur plusieurs "comptes".
Gadget totalement inintéressant.

Un graph, qui va créer plus de question que de réponse et apporter plus d'inquiétude que de tranquillité.

Rod
 
WRInaute passionné
Ce qui intéresse les webmasters, c'est qu'elles pages GG connait, mais que GG ignore et pourquoi.
Mais GG ne communiquera jamais là dessus.

Les graph, tout le monde sait les faire.

Rod
 
WRInaute occasionnel
Koxin-L.fr a dit:
Les graph, tout le monde sait les faire.
Espérons que cette fonction évoluera dans le bon sens pour le bien de tous. Dans le cas contraire, il est vrai que la fonction n'aura alors pas beaucoup (voir pas du tout) d'intérêt.
 
WRInaute accro
seolius a dit:
Willgoto a dit:
Effectivement, connaître les pages non indexées serait de la plus grande utilité. Par ex savoir les pages non "no follow" qui ne seraient pas indexées. Alors vraiment cela me serait utile.
Il y a d'autres logiciels d'analyses qui peuvent vous sortir ça, pas besoin de GWT :D
ça me fait toujours parrer de voir des "va voir sur yahoo pour connaitre le nombre de pages indexées par gg" :roll:
et les outils externes ont encore moins d'infos à leur disposition. Comment pourraient-il connaitre les bl que gg ne prend pas en compte car le site est dévalorisé ou pénalisé ?
 
WRInaute passionné
Il y a d'autres logiciels d'analyses qui peuvent vous sortir ça, pas besoin de GWT :D
Moi ma technique consiste à faire un sitemap par section de mon site, comme ça je sais à peu près ce qui est bien indexé et ce qui ne l'est pas. Imaginez, un sitemap par URL = on connait les URLs indexées et celles qui ne le sont pas, c'est un peu le principe.

Par contre je veux bien un exemple d'outil qui ferait ça mais je doute de leur fiabilité
 
WRInaute passionné
D'un autre coté, qu'est-ce qui est le plus important ?
Connaitre les pages indexés ou savoir si elle ressortent ?

Je connais des sites avec 1 millions de pages indexées et 200vu/mois...

Rod
 
WRInaute passionné
D'où, l'intérêt de savoir quelles pages ressortent.
Le fait que GG les aient avalées est une choses satisfaisante au lancement du site ou à l'ajout de la page, mais au final, c'est pas le but.

Rod
 
WRInaute occasionnel
Disons que la première étape consiste en effet à s'assurer qu'elle soit indexée.
Une fois indexée, il faut la positionner dans les SERPs.
Une fois positionnée, il faut s'assurer qu'elle reste en bonne position de manière stable.
Une fois stable, il faut analyser le ROI pour chaque expression clés positionnée faisant référence à sa page
...
 
WRInaute impliqué
Je n'ai pas trop compris les explications sur les pages non sélectionnées. Cela comprend-il les redirections 301 ?

De même la semaine du 08/07 et du 15/07 je suis passé (d'après ce graph à 4000 pages référencées) alors que je n'en ai que 2500 environ et 20% en noindex. Là cette semaine mon bon nombre de pages est indiqué. Je précise que sur le tableau de bord GWT j'ai toujours eut le bon chiffre et non ce fameux 4000.

Bref encore un gadget de plus qui ne sert à rien. Plutôt que de sortir des trucs colorés et des calculatrices scientifiques GG ferait mieux de se concentrer sur son coeur de métier et d'arrêter de prendre les gens pour des cons.
 
WRInaute passionné
Il y a quand même un truc intéressant avec cet outil, il est noté dans l'aide google :

Comparez les données :
Pour connaître la proportion de pages perçues comme étant constituées de contenu unique sur votre site, comparez le nombre de pages indexées au nombre de pages non sélectionnées.

Pour moi, les pages non-sélectionnées sont :
- Les pages en 301
- Les pages en DC
- Les pages ayant un faible contenu
- Les pages sanctionnées par Penguin
- ... etc.

L'évolution de la courbe des pages non-sélectionnées est, à mon avis, un bon indicateur.
 
WRInaute passionné
Bah moi j'ai un outils maison qui me récupère mes pages indexés sur GG et le compare à mon total de page.
La différence me donne les pages que GG n'aimes pas, à savoir, les DC les faibles contenu, etc.

Bref, il file un truc qui ne sert à rien vu que tout bon webmaster sait que les pages à faible contenu et/ou en DC sont souvent susceptible de ne pas être indexées.

Bref, GG, il a 14 ans, et il commence déjà à catouiller comme un vieux...

Rod
 
WRInaute impliqué
lambi521 > Oui et quand on est courageux et que l'on clique sur Learn More, on tombe sur une page contenant :

Pages non sélectionnées : il s'agit des pages qui n'ont pas été indexées, car leur contenu est très similaire à celui d'autres pages, ou parce qu'elles font l'objet d'une redirection vers une autre URL. En savoir plus

Si on clique sur savoir plus (oui c'était important de savoir si les "redirections" comme ils disent incluent les 301) on te donne des solutions pour ne pas avoir de contenu dupliqué. Donc ça prête à confusion mais ça n'entache absolument ma capacité de compréhension d'un texte.
Quoiqu'il en soit je ne vois pas l'intérêt de mettre les 301 dans cette rubrique.
 
WRInaute passionné
D'ailleurs ils disent aussi en bas de l'article que le duplicate interne n'influe que dans de très rare cas sur le classement d'un site, donc Matt Cuts avait raison quand il disait que le DC interne était une paranoïa française.

Par contre je vois pas non plus l'intérêt de mettre absolument TOUTES les pages plutôt que d'enlever déjà celles en noindex + celles dont les paramètres d'URLs sont exclu dans l'onglet "paramètres d'URLs", on y verrais déjà + clair
 
WRInaute impliqué
Je rejoints ton avis. Cet outil finalement ne nous apporte pas une grande aide. La partie "non sélectionnées" aurait pu être vraiment utile mais on nous embrouille encore une fois.
 
WRInaute passionné
Moi je suis bien content, je viens d'apprendre au moins une chose : Google me pique énormément de ressources du serveur pour ... rien! :lol:

PS: dans les pages non-sélectionnées, il faut inclure les pages "non-canonical" que GG découvre lui-même, des fois, on se demande par quel trou, y compris (quelqu'un en parlait déjà) avec les paramètres qu'on a exclu du crawl! Avec les forums un peu anciens, je te raconte pas les chiffres !

Encore un truc inexploitable et sur lequel on va perdre du temps en curiosité.
 
Discussions similaires
Haut