Virgule dans les sitemaps entrainant des urls tronquées

WRInaute discret
Bonjour,
Je me suis aperçu récemment (oh horreur :o ) que nos sitemaps étaient restés au schéma 0.84.
Je l'ai donc fait changé par notre programmeur et il commence désormais comme ça :
Code:
<?xml version='1.0' encoding='UTF-8'?>
<urlset xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9 http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd"
xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

Mais, du coup sont apparues des erreurs dans la page de détection des erreurs 404 dans GWT telles que http://www.example.fr/opel-sintra (url n'existant pas car tronquée par la virgule voir un exemple de la vraie url ci-dessous) référencée sur http://www.example.fr/sitemap-opel-voiture-occasion.xml

Effectivement dans ce sitemap l'url déclarée est de ce type (c'est-à-dire avec une virgule) :
Code:
<url>
<loc>http://www.example.fr/opel-sintra,essence-occasion-e-0.html</loc>
<priority>0.5</priority>
<changefreq>monthly</changefreq>
</url>

Y a-t-il une erreur de syntaxe ? Un moyen de corriger le pb ?
Faut-il revenir en version 0.84 ?
Car je me vois mal réécrire et faire des 301 sur les milliers d'url écrites comme ça.
Merci d'avance pour vos conseils
 
WRInaute accro
Les virgules dans les url, je ne pense pas que cela soit une bonne idée sinon tous les gros sites les auraient :-D
Pourquoi ne pas remplacer ta virgule par un "-" en réécriture.

Sinon se servir de %C2 à la place de la virgule <= je sais pas si cela va fonctionner :-D
 
Olivier Duffez (admin)
Membre du personnel
je confirme que la virgule dans l'URL n'est pas une super idée (notamment quand on exploite un fichier CSV avec séparateur virgule)
pourquoi ce pb viendrait-il de la version du standard sitemap utilisé ? si tu encodais bien en UTF8, ça devrait marcher
au passage, pourquoi s'embêter avec du XML ?

PS : lecture conseillée : SEO : bons et mauvais séparateurs dans les URL
 
WRInaute discret
Merci pour vos réponses.
Comment ça si j'encodais bien en UTF8 ? Si le fichier n'était pas en UTF8 Google ne le prendrait pas non ?
Et xml est bien le format normal du sitemap non ? Y en a un autre ?
 
WRInaute discret
Google prendrait en compte un fichier qui ne serait pas en UTF8 ? Je pense qu'il le refuserait ou me le signalerait non ?
Sinon je ne vois pas comment le vérifier sur le serveur. Quand je fais la commande file et le nom du sitemap il m'indique text.
Si je l'édite avec Notepad il est bien en UTF8 sans BOM
 
WRInaute accro
pour l'avoir fait, dans le temps, les virgules sont une très mauvaise idée : ça me permettait de séparer les paramètres pouvant contenir des "-" à l'intérieur, sauf que FB, par exemple, introduisait une espace après la virgule. Et je m'étais ainsi retrouvé avec des milliers de 404 quand gg, mais surtout bing, tentait de suivre les url présentes dan les pages fb
 
WRInaute discret
Merci pour vos réponses
J'ai aussi des cas ou il y a des parenthèses dans l'url.
Google les indexe mais elle ne sont pas bien placées (c'est peut-être aussi à cause d'autre chose).
Je suppose qu'il faut que les enlève aussi hein ?
 
Discussions similaires
Haut