3.000.000 URL sitemap - soucis Search Console

Nouveau WRInaute
Bonjour,

Je suis développeur d'un site web e-commerce sous Prestashop 1.6.1.23.

Je suis en phase de développement pour une migration vers une nouvelle version de Prestashop, mais là n'est pas le sujet ! :)

J'ai généré à l'aide d'un script fait maison en PHP 70 fichiers en .txt correspondant au sitemap.

Chaque fichier .txt correspond à un sitemap qui contient 29999 URL dans chacun des fichiers.

Les fichiers .txt ont été généré en même temps, à l'aide du même script, sauf que lors de l'import des sitemap sur la Google Search Console, certains sont acceptés, d'autres non.

Pour donner un ordre d'idée, une petite dizaine de fichiers en .txt ont été acceptés sur les 70.

1737553990205.png

Les URL sont accessible, si je fais une requête CURL j'ai bien une réponse HTTP 200 qui me confirme que c'est ok.

J'ai ajouté il y a une semaine l'intégralité des 70 sitemap sur la Search Console.

Auriez-vous une idée / astuce pour que ce soit accepté quasi instantanément ?

Merci ! ;)
 
WRInaute occasionnel
Dernière édition:
WRInaute discret
Bonjour,

Prestashop intègre un module natif appelé Google Sitemap, qui génère automatiquement des fichiers sitemaps au format XML, compatibles avec Google Search Console. Ce module extrait les URLs de vos produits, catégories et pages, les met à jour dynamiquement, et gère les limites de Google (50 000 URLs ou 50 MB par fichier).

Pour l’activer, rendez-vous dans l’onglet Modules de votre back-office, recherchez "Google Sitemap", installez-le, configurez les options (pages à inclure, fréquence, etc.) et générez votre sitemap. Une fois créé, vous pouvez soumettre l’URL du sitemap (souvent https://votresite.com/sitemap.xml) dans Google Search Console.

Mais si vous voulez le faire à la main, chaque fichier sitemap doit impérativement respecter la limite de 50 000 URLs ou 50 MB non compressé, avec un encodage en UTF-8 pour éviter les problèmes de caractères spéciaux ou incompatibles.

Plutôt que de continuer avec des fichiers au format .txt, qui restent limités et ne permettent pas de fournir des informations supplémentaires sur les URLs, optez pour le format .xml. Ce dernier est mieux pris en charge par Google et vous offre la possibilité d'ajouter des données comme la date de dernière modification de chaque page.

Voici à quoi pourrait ressembler un fichier sitemap XML très basique :
XML:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://example.com/page1</loc>
    <lastmod>2025-01-25</lastmod>
  </url>
</urlset>

Ensuite, divisez vos URLs en plusieurs fichiers en les regroupant logiquement, par exemple par catégories de produits ou sections de votre site. Pour une meilleure gestion, utilisez un fichier d'index qui répertorie l'ensemble de vos sitemaps. Voici un exemple simple :
XML:
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <sitemap>
    <loc>https://example.com/sitemap1.xml</loc>
  </sitemap>
  <sitemap>
    <loc>https://example.com/sitemap2.xml</loc>
  </sitemap>
</sitemapindex>

Cela permettra à Google d’explorer votre site de manière plus efficace et organisée.

De plus, les URLs incluses doivent être absolues, c’est-à-dire contenir l’intégralité du chemin, y compris le protocole (https://) et le domaine (exemple.com), pour garantir une accessibilité directe par Googlebot. Assurez-vous également que chaque URL retourne un code HTTP 200 et évitez d’inclure des redirections (301/302) ou des erreurs (404/500), car ces anomalies peuvent invalider le sitemap ou ralentir son traitement.

La stratégie doit inclure une division des sitemaps par logique fonctionnelle ou structurelle, par exemple, regrouper les URLs par types de produits, catégories, régions ou langues. Chaque groupe de sitemaps doit ensuite être centralisé dans un fichier d’index de sitemaps. Ce fichier agit comme un "meta-sitemap" et est structuré en XML pour référencer tous les sous-sitemaps avec leurs emplacements exacts. Par exemple :
XML:
<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <sitemap>
    <loc>https://example.com/sitemap-products-1.xml</loc>
    <lastmod>2025-01-25</lastmod>
  </sitemap>
  <sitemap>
    <loc>https://example.com/sitemap-products-2.xml</loc>
    <lastmod>2025-01-25</lastmod>
  </sitemap>
</sitemapindex>

Pour la soumission, il est fortement recommandé de limiter le nombre de fichiers envoyés simultanément à Google Search Console (pas plus de 10 fichiers à la fois) afin de prévenir toute surcharge ou ralentissement de traitement. L’utilisation de l’API Google Search Console permet d’automatiser ce processus, de monitorer les statuts de soumission et de recevoir des diagnostics précis sur les erreurs potentielles. En cas de rejet d’un fichier, inspectez les détails via les logs d’accès serveur ou les outils d’analyse comme Screaming Frog, qui permettent de vérifier les temps de réponse et les codes HTTP de chaque URL.

Enfin, pour faciliter la découverte par Googlebot, ajoutez une référence explicite aux sitemaps dans votre fichier robots.txt à la racine du site :
Code:
Sitemap: https://example.com/sitemap-index.xml

Veillez également à intégrer une stratégie de mise à jour dynamique pour vos sitemaps, en utilisant les balises <lastmod> pour signaler les modifications importantes et en purgeant régulièrement les URLs obsolètes.
 
Dernière édition:

➡️ Offre MyRankingMetrics ⬅️

pré-audit SEO gratuit avec RM Tech (+ avis d'expert)
coaching offert aux clients (avec Olivier Duffez ou Fabien Faceries)

Voir les détails ici

coaching SEO
Discussions similaires
Haut