URL étranges dans GSC - 1,85 k pages inconnues dans Autre page avec balise canonique correcte

Nouveau WRInaute
Bonjour,

Je fais appel à vous car j'ai un problème que je n'arrive pas à solutionner! J'ai fais énormément de recherches sur les forums anglo-saxons sans vraiment trouver de solution. l'URL du site concerné est https://www.central-manuels.com

Comme énoncé dans le titre, je me retrouve dans la Search Console Google avec 1850 pages avec balise canonique correcte du style: avec https://www devant les url (pas trouvé comment ne pas faire de lien sur ce forum)

central-manuels.com/notice_manuel_mode_emploi_montre_connectee/manuel_notice_mode_emploi_drone/manuel_notice_mode_emploi_montre_connectee/manuel_notice_mode_emploi_montre_connectee/sony.php

ou

central-manuels.com/notice_manuel_mode_emploi_marque.php/manuel_notice_mode_emploi_tablette_ebook/manuel_notice_mode_emploi_tablette_ebook/notice_manuel_mode_emploi_GPS.php

ou

central-manuels.com/notice_manuel_mode_emploi_montre_connectee/manuel_notice_mode_emploi_montre_connectee/jawbone.php

Ce ne sont absolument pas les chemins d'accès aux pages de mon site et même si ça n'a pas l'air d'impacter le référencement (quoi que), cela crée du crawl inutile pour les moteurs de recherche

- Je n'utilise aucun CMS ni Plugin, je code tout moi même en HTML et un peu de JS pour les menus avec Dreamweaver. Je redirige la version http vers la version https via htaccess et la version central-manuels.com vers www.central-manuels.com toujours via htaccess
- J'ai fais une demande de vérification de mon hébergement à OVH et tout est normal
- J'ai controlé mon répertoire www pour voir si je n'avais pas uploader un double de mon site dans un des dossiers, tout est clean de ce côté là aussi
- Je bloque via robot.txt tous les fichiers et dossiers que Dreamweaver crée en arrière plan
- J'utilise une url absolu pour revenir à l'accueil du site et pas index.php
- J'ai testé une des url concernée dans Screming Frog pour vérifier le chemin d'accès. L'arborescence va encore plus loin avec fichiers et dossiers enchevêtrés les uns dans les autres

La seule chose à laquelle je pense pourrait être une boucle de redirection 301 dans le htaccess ???

D'avance, merci pour vos réponses. Bonne journée
 
Dernière édition:
Olivier Duffez (admin)
Membre du personnel
si tu ne vois pas ces URL dans un crawl du site, peut-être qu'il y a eu une erreur à une époque, corrigée depuis
ou bien ces URL erronées ont été fabriquées par des outils/sites externes que Google a crawlé

quand tu inspectes une des ces URL dans GSC, il t'indique une URL source ?
 
WRInaute accro
Quand tu renvoies un code 200 avec un canonical derrière pour une page moisie comme celle-ci :

central-manuels.com/notice_manuel_mode_emploi_montre_connectee.php/manuel_notice_mode_emploi_de-ma-montre-connecte-mi-band-qui-marche-bien/je-mets-ce-que-je-veux-dans-l-url-et-elle-est-canonical-avec-un-code-200.php

Tu peux tester ici et ensuite faire une vraie règle pour éviter de te faire polluer tes url par certains... :
https://www.webrankinfo.com/outils/header.php

Au passage, on dirait que la 404 ne fait pas tout le temps son job !
 
Olivier Duffez (admin)
Membre du personnel
en effet ! l'URL canonique indiquée dans une page doit être maitrisée, ça doit vraiment être l'URL officielle sous laquelle on souhaite indexer le contenu.
et si l'URL n'est pas censé exister, il faut renvoyer un code 404

concernant la 404, je conseille qu'elle reprenne le template global du site
 
Nouveau WRInaute
si tu ne vois pas ces URL dans un crawl du site, peut-être qu'il y a eu une erreur à une époque, corrigée depuis
ou bien ces URL erronées ont été fabriquées par des outils/sites externes que Google a crawlé

quand tu inspectes une des ces URL dans GSC, il t'indique une URL source ?
Merci Olivier. Sympa de t'occuper de mon cas

Quand j'inspecte une url dans GSC exemple pour :

central-manuels.com/notice_manuel_mode_emploi_montre_connectee/forms/forms/manuel_notice_mode_emploi_drone/notice_manuel_mode_emploi_dictaphone.php

La page d'origine est :

central-manuels.com/notice_manuel_mode_emploi_montre_connectee/forms/forms/manuel_notice_mode_emploi_drone/parrot.php

parrot.php est une page que j'ai crée il y a deux semaines

Je sens mal mon dossier forms (formulaire de contact), c'est un truc que j'ai implanté il y 13 ans et que je n'ai jamais changé par flemme. C'est complètement obsolète.

Pour ce qui est du crawl, j'avais fais plusieurs audit via ton outil (le dernier date du 3 janvier 2021), aucune url bizarre n'était sortie
 
Nouveau WRInaute
Quand tu renvoies un code 200 avec un canonical derrière pour une page moisie comme celle-ci :

central-manuels.com/notice_manuel_mode_emploi_montre_connectee.php/manuel_notice_mode_emploi_de-ma-montre-connecte-mi-band-qui-marche-bien/je-mets-ce-que-je-veux-dans-l-url-et-elle-est-canonical-avec-un-code-200.php

Tu peux tester ici et ensuite faire une vraie règle pour éviter de te faire polluer tes url par certains... :
https://www.webrankinfo.com/outils/header.php

Au passage, on dirait que la 404 ne fait pas tout le temps son job !

Salut cthierry

Bravo! Tu as raison, j'avais pas testé ça! Quand à la règle à appliquer, je ne suis pas trop familier de ce genre de choses. Dans mon htaccess, j'ai ça comme règles:

Code:
RewriteEngine On
RewriteCond %{SERVER_PORT} 80
RewriteRule ^(.*)$ https://www.central-manuels.com/$1 [R,L]

RewriteCond %{HTTP_HOST} ^central-manuels.com$
RewriteRule ^(.*) https://www.central-manuels.com/$1 [QSA,L,R=301]

J'ai essayé de trouver des règles en 301 qui prendraient plusieurs url pour la même règle mais ce n'est pas concluant. En fin de compte, il reste toujours un petit quelque chose des url redirigées (si l'on redirige un répertoire, la fin de l'url xxx.php est toujours accessible par exemple). D'après ce que j'ai compris, il faudrait faire une 301 pour chaque url.

Quand à la possibilité que ces url aient été générés par d'autres sites, c'est une option bien sur. Comme je le disais à Olivier, les dernières pages que j'ai crée il y a deux semaines apparaissent aujourd'hui dans GSC avec des url bizarres

Merci à toi
 
Dernière édition:
Discussions similaires
Haut