Indexation + priorité + sitemap + google + digg = ?

Nouveau WRInaute
Une petite question pour les professionnels de Google et du sitemap.


Imaginez un site comme Digg.

Il y a des news, et celles-ci peuvent être classées sur les 24 dernières heures, la dernière semaine, le dernier mois et sur toute l’année.
Du coup, on a une page (et donc une url) pour chaque news, et une liste pour chaque type de classement (ça fait 4 listes en tout).
Si on associe chaque news à une catégorie, et qu’on a 10 catégories en tout, on aurait également 4 listes par catégorie, soit 40 listes possibles en tout et pour tout.
Vu qu’il y a beaucoup de news, chaque liste est normalement décomposée en plusieurs pages.

Au final, ça fait un bon paquet d’urls que Google va devoir regarder tous les jours (c-a-d nombre de news + nombre de classements possibles x nombre de catégories x nombre de pages).

Donc ma question est : « comment donner des priorités à toutes ces urls pour que Google regarde en priorité les pages des news ? »

Attention, je ne parle pas d'indexation, mais juste de parcours des pages web. Ce que Google fait avec le contenu qu'il a parcouru est un autre problème pour moi.

Comme ça, à première vue, je dirais d’utiliser le sitemap.

Si je liste toutes les urls des pages de news dans le sitemap, Google devrait les parcourir en premier…
Brrrrriinn (<= son très mal imité d’un strident buzzer) : ça ne marche pas. Google s’enfonce dans les méandres des pages des listes, sans jamais parcourir les dernières news.

Ma deuxième idée serait d’interdire le parcours de ces listes dans le fichier « robots.txt », mais ça va donner un fichier d’une taille monstrueuse qu’il faudra très souvent mettre à jour (car chaque nouveau lot de news ajoute une page dans les listes).

Ma troisième idée revient vers le sitemap : peut-être qu’il faut indiquer clairement à Google que les listes existent mais leur donner une priorité toute petite pour qu’il parcourt d’abord les news (qui, elles, auront, bien sûr, une priorité beaucoup plus grande).

Quatrième possibilité : je me plante complètement car je ne suis qu’un débutant, et on va gentiment m’expliquer qu’on ne peut rien faire, et que c’est comme ça la vie. ;o)

Si une âme charitable pouvait me mettre sur la voie, je la remercie chaleureusement d’avance.

En tout cas, merci de m’avoir lu jusqu’au bout.
 
WRInaute occasionnel
je pense que l'indexation se base en partie en fonction de l'actualité, des requetes les plus tapés pour donner une priorité aux pages
 
Nouveau WRInaute
Je me suis mal exprimé en parlant d'indexation : il fallait lire « comment donner des priorités à toutes ces urls pour que Google parcourt en priorité les pages des news ? » à la place de "Google indexe".

Car dans mon problème, je ne parle pas du résultat du parcours du site web par GG..
L'indexation et la position de mes pages de news dans les résultats de Google m'importent peu (à ce niveau de la discussion, bien sûr :wink: ).

Je voudrais juste éviter que Google perde tout son temps à parcourir des milliers de pages web secondaires (c-a-d les pages des listes) au détriment des principales (c-a-d les pages de news).

@touftouf : comme Google ne connaît pas encore le contenu de ces pages, on ne peut pas parler d'un parcours en fonction de l'actualité ou des requêtes les plus tapées.
 
WRInaute accro
Je pense que l'erreur à la base est de faire un lien entre sitemap XML et indexation.

A l'heure actuelle, il n'est aucunement question de lien entre Sitemap XML et indexation par GoogleBot, si ce n'est dans le sens opposé à celui que tu imagines, à savoir qu'en fournissant une liste d'URLs à Google, il te dit si oui ou non elles sont indexées.

Pour le reste, <a href=""></a> est ton seul ami ;)
 
Nouveau WRInaute
Damned, ma confusion entre indexation et parcours, dans mon message initial, est en train de fausser complètement la discussion.

@HawkEye : ok, il n'y a pas de lien entre le sitemap et l'indexation.
Mais il y a bien une corrélation entre le parcours de Google dans le site et le sitemap, non ?
Sinon, à quoi sert le sitemap ? (en plus de ce que tu as dit sur la possibilité de vérifier si une url est indexée ou non)

J'ai fait un petit test cette semaine pour voir l'impact des priorités sur le sitemap.

Jusqu'à maintenant, mon sitemap ne contenait que les pages de news avec une priorité de 5 (pas d'urls sur mes différentes listes), et Google passait malheureusement plus de temps à parcourir mes listes que mes news.
Pire, ça faisait plusieurs semaines que GG ne parcourait pratiquement plus les news.

Alors, j'ai mis une priorité de 9 aux 24 dernières news dans le sitemap (normal vu qu'elles sont plus fraiches que les anciennes). Et hop, comme par magie, GG parcourt enfin ces news (et je parle de parcours et pas d'indexation, soyons clair).

Il y a donc bien une corrélation entre les informations du sitemap et le parcours de Google.

Donc, si le concept de priorité dans le sitemap est bien réel, quelle est la priorité des pages ne figurant pas dans le sitemap ?
 
Discussions similaires
Haut