Envahissement de l'index google

annd · 25 Juillet 2024

Bonjour,

je me suis aperçu que des pages que j'avais publiées récemment n'étaient pas référencé dans google.

Je suis allé voir dans la google search console. Et là c'est l'horreur. Depuis avril des pages avec des paramètres chelous (ex: ?1198906982.shtml, ?Azspg2wrGB.doc, ?pjh5cgfyx.xml) ont progressivement envahi l'index google. Le site contient environ 90 000 pages mais voilà ce qu'affiche la console:

Ces pages parasites ont généré des erreurs 504.

Et google a fini par arrêter l'indexation le premier juillet.

Comment me débarrasser de toutes ces pages parasites?

Dans un premier temps, j'ai modifié l'htaccess pour ne plus avoir d'erreurs 504 et j'ai indiqué à la console que le problème était corrigé.

# Redirection des URL contenant des paramètres se terminant par .shtml, .xml ou .doc
RewriteCond %{QUERY_STRING} (.*)\.shtml$ [NC,OR]
RewriteCond %{QUERY_STRING} (.*)\.xml$ [NC,OR]
RewriteCond %{QUERY_STRING} (.*)\.doc$ [NC]
RewriteRule ^(.*)$ /$1? [R=301,L]

J'ai mis à jour et renvoyé les sitemaps.
A propos des sitempas, j'ai constaté que le bouton "voir l'indexation des pages" est inactivé.
D'où cela peut-il venir? C'est des sitemaps .txt avec la liste des urls. Vaut-il mieux un sitemap .xml (sur un autre site j'ai un sitemap .xml et pas ce problème).

Vos conseils sont les bienvenus.
Merci d'éviter les jugements.

Fred · 28 Juillet 2024

Tu devrais aller jeter un coup d’œil dans les log de ton serveur pour voir ce qui génère ces url bizarre. Est-ce que tu utilises un CMS (Wordpress, Dupral...) ?

annd · 28 Juillet 2024

Merci pour ta réponse Fred.

Je n'utilise pas de CMS.

Je ne sais pas d'où viennent ces urls bizarres et comment elles sont arrivées dans l'index google.
Cela semble être un acte malveillant.
Dans les logs je vois que googlebot tente d'y accéder et tombe en erreur 500.

Avec htaccess, j'ai supprimé les paramètres terminant par .xml, .doc et .shtml.
Les pages du type page.php?ehduyqdz.xml sont bien redirigées vers page.php et il n'y a pas d'erreur quand j'y accède depuis mon browser.
Dans les logs je vois que googlebot fait bien la redirection mais tombe quand même en erreur 500 sur page.php.
Je ne comprend pas pourquoi j'accède bien aux pages et pas googlebot.

Je viens de modifier le robots.txt pour demander aux moteurs de recherche de ne pas explorer les pages se terminant par .xml, .doc et .shtml.
Je vais voir ce que ça donne.

Fred · 28 Juillet 2024

Donc si tu n'utilises pas de CMS tu es maitre de toutes tes URL. Donc c'est vraisemblablement sur un autre site que des backlink bizarres sont créés et ensuite Gogole tente d'y accéder et de les suivre .je ne vois pas d'autre explication.

Quand il y a un point d'interrogation, c'est que tu cherches à passer un paramètres au serveur. Ça peut être simplement quelqu'un qui cherche a hacker ton site, ou test des failles. Par exemple il réussit à hacker un site sur lequel il met des backlink vers le tient. En injectant du code grace au "?" il peut utiliser une faille dans une extension si tu as un CMS ou simplement une faille connue de PHP.

Ce que je ne comprend pas c'est pourquoi tes pages se terminent par "php" si tu n'as pas de CMS ? Elles sont générés en dynamique, pourquoi ne pas avoir les pages en html pur ?

annd · 28 Juillet 2024

Les programmes sont en PHP.

Les pages générées dynamiquement sont généralement .html mais il y en a aussi .php (faut pas me demander pourquoi, je ne sais pas...).

Dans les pages pirates de l'index google (avec les paramètres .xml, .doc, .shtml), on retrouve aussi bien des pages html que des pages php.

WebRankInfo · 29 Juillet 2024

soit le site lui-même a été piraté, soit c'est uniquement des backlinks vers ces URL qui ont été créés, puis suivis par Google
il faut toujours protéger son site en gérant bien les URL qui ne sont pas censé exister.

je vois que tu as généré des redirections 301 en masse, ce que je déconseille. Ces URL ne doivent pas exister, il faut plutôt renvoyer un 410 ici. Je testerais bien d'envoyer du noindex dans un entête HTTP, c'est ce qui est le plus rapide pour désindexer tout ça

annd · 29 Juillet 2024

Merci pour ton aide Olivier.

Le site a bien été piraté. En passant en revue les différents répertoires, j'ai trouvé les modules php qui ont été modifiés. Je les ai remplacés et j'ai modifié les mots de passe.

Au niveau des logs, cela semble être revenu à la normal (il n'y a plus d'erreur 500/504, les redirections se font normalement).

Comment envoyer du noindex dans un entête HTTP... concrètement et proprement?

Nb: j'avais aussi modifié le robots.txt:
User-agent: *
Disallow: /*.xml$
Disallow: /*.doc$
Disallow: /*.shtml$

WebRankInfo · 29 Juillet 2024

J'ai un dossier qui explique comment envoyer du noindex dans un entête HTTP.

annd a dit:
j'avais aussi modifié le robots.txt

si ces URL sont interdites de crawl, les directives pour le noindex seront ignorées. Il faut d'abord retirer ces lignes du robots.txt afin de faire désindexer les URL. Et seulement plus tard envisager le blocage du crawl (si ça consomme trop de budget de crawl)

annd · 29 Juillet 2024

Un grand merci.
Je vais essayer ça.

anemone-clown · 30 Juillet 2024

Il y aurait aussi la possibilité d'interdire l'accès à ces URL depuis le htaccess: RewriteRule %{QUERY_STRING} (.*)\.(shtml|xml|doc)$ - [F]
Mais il faut préalablement faire comprendre à GG que ces url ne sont pas indexables, comme Olivier l'a expliqué.