Si parmi vous certains y comprennent quelque chose, ou auraient des débuts de rudiments d'explication, je leur serai totalement reconnaissante.
C'est un peu longuet, je vous demande par avance votre indulgence, mais ça relate 3 mois de sueurs froides.
il s'agit de [modéré OTP] , blog d'un studio de production français alimenté quotidiennement par quelques employés passionnés, et propulsé par le classique Wordpress.
fin mai: google cesse de proposer de nouvelles dates de mise en cache quand on fait la commande "site:", et indique perpetuellement "23 mai" durant les semaines qui suivent, alors qu'auparavant la date changeait quotidiennement.
(dans les fait, des tests indiquent au contraire qu'il prenait correctement en compte les nouvelles pages publiées depuis cette date, mais sans toutefois en faire état dans ses mises en cache.)
Pendant ce temps, google webmaster tools me dit que 872 pages sont indexées.
google me dit lui 616, 672 ou 600 selon les interrogations. Ceci dit on a tous l'habitude de cette variation entre google et WT, ce n'est donc pas forcément bizarre en soi.
26 aout : perdant tout espoir que la situation change naturellement, je fais une demande de réexamen à google, en leur disant que je ne comprends pas pourquoi le site ne semble plus mis en cache alors que du contenu frais est publié chaque jour, et que donc la home est modifiée très fréquemment. (elle a d'ailleurs la variable changefreq mise à "daily" dans le sitemap).
Je les invite aussi à m'indiquer les éventuelles infractions commises par le site (en sachant que je me suis employée depuis mon arrivée dans la société à nettoyer tous les trucs "louches" ou maladroits du site pouvant pourrir le ref nat, excepté le problème du nb de liens par page, dû entre autres à un nb ridiculement élevé de catégories. On prépare la nvelle version du site, en attendant on a laissé tel quel et j'ai demandé à mes collègues de ne surtout pas créer de nouvelles catégories... je sais que ça nuit à la qualité du ref nat mais je ne crois pas que ça soit un élément que google puisse "sanctionner".)
le 27 aout en journée, la home du blog est purement et simplement jartée de l'index google !
par contre de nombreuses autres pages obtiennent une date de mise en cache plus récente (genre 24/25/26 aout)
Par contre, certaines de ces pages contiennent aussi, d'après la version cache de google, des parties planquées dans des div à - 2500 px à gauche , avec des listes de liens dégueulasses , par dizaines, vers des sites de viagra et de medocs bizarres qui sont tous en .edu !
Des parties qu'on ne retrouve absolument pas quand on regarde la source de la page réelle.
Donc j'en conclus que c'est une action pas très sympa de piratage wordpress qui, non contente d'injecter du code, vient en plus le retirer une fois la page indexée par google. (!?!)
A noter que certaines autres pages n'ont, elles, plus de lien "en cache" , mais uniquement le lien "pages similaires".
D'autres ont bien ce lien "en cache", mais quand on clique dessus on tombe sur une erreur google (version en cache non disponible) !
et bien sur, je n'ai aucune nouvelle de google.
j'ai fait des recherches dans les forums d'utilisateurs wordpress, et je n'ai pas trouvé de cas semblable.
et, laissez-moi vous dire, je transpire :s ...
En gros mes questions sont :
- y a t'il un rapport de cause à effet entre ces piratages et les problèmes de mise en cache?
- comment expliquer la différence de traitement entre ces pages en cache, ces pages sans cache, et ces pages soi-disant en cache mais en fait quand on clique, nan?
- comment expliquer que la home d'un site se retrouve virée de l'index suite à ma demande de réexamen?
- comment expliquer que, pendant que cette home est virée, les autres pages retrouvent une date de mise en cache plus logique, mais bizarrement corrélée à la date de ma demande de rééxamen ?
- pour finir, quelqu'un en sait-il plus sur ce type de piratage?
Voilà !
Merci d'avance à ceux qui prendront déjà la peine de lire ce pavé, et plus encore à ceux qui apporteront quelques éléments de réponse.
edit : je poursuis mes recherches et je soupçonne un bout de code présent dans le header.php d'avoir un rapport avec tout ça .
Ca contient un "base64_decode" et puis tout un tas de choses cryptées, à l'intention de googlebot, slurp, mybot et msn.
Je pense essayer de le virer pour voir.
C'est un peu longuet, je vous demande par avance votre indulgence, mais ça relate 3 mois de sueurs froides.
il s'agit de [modéré OTP] , blog d'un studio de production français alimenté quotidiennement par quelques employés passionnés, et propulsé par le classique Wordpress.
fin mai: google cesse de proposer de nouvelles dates de mise en cache quand on fait la commande "site:", et indique perpetuellement "23 mai" durant les semaines qui suivent, alors qu'auparavant la date changeait quotidiennement.
(dans les fait, des tests indiquent au contraire qu'il prenait correctement en compte les nouvelles pages publiées depuis cette date, mais sans toutefois en faire état dans ses mises en cache.)
Pendant ce temps, google webmaster tools me dit que 872 pages sont indexées.
google me dit lui 616, 672 ou 600 selon les interrogations. Ceci dit on a tous l'habitude de cette variation entre google et WT, ce n'est donc pas forcément bizarre en soi.
26 aout : perdant tout espoir que la situation change naturellement, je fais une demande de réexamen à google, en leur disant que je ne comprends pas pourquoi le site ne semble plus mis en cache alors que du contenu frais est publié chaque jour, et que donc la home est modifiée très fréquemment. (elle a d'ailleurs la variable changefreq mise à "daily" dans le sitemap).
Je les invite aussi à m'indiquer les éventuelles infractions commises par le site (en sachant que je me suis employée depuis mon arrivée dans la société à nettoyer tous les trucs "louches" ou maladroits du site pouvant pourrir le ref nat, excepté le problème du nb de liens par page, dû entre autres à un nb ridiculement élevé de catégories. On prépare la nvelle version du site, en attendant on a laissé tel quel et j'ai demandé à mes collègues de ne surtout pas créer de nouvelles catégories... je sais que ça nuit à la qualité du ref nat mais je ne crois pas que ça soit un élément que google puisse "sanctionner".)
le 27 aout en journée, la home du blog est purement et simplement jartée de l'index google !
par contre de nombreuses autres pages obtiennent une date de mise en cache plus récente (genre 24/25/26 aout)
Par contre, certaines de ces pages contiennent aussi, d'après la version cache de google, des parties planquées dans des div à - 2500 px à gauche , avec des listes de liens dégueulasses , par dizaines, vers des sites de viagra et de medocs bizarres qui sont tous en .edu !
Des parties qu'on ne retrouve absolument pas quand on regarde la source de la page réelle.
Donc j'en conclus que c'est une action pas très sympa de piratage wordpress qui, non contente d'injecter du code, vient en plus le retirer une fois la page indexée par google. (!?!)
A noter que certaines autres pages n'ont, elles, plus de lien "en cache" , mais uniquement le lien "pages similaires".
D'autres ont bien ce lien "en cache", mais quand on clique dessus on tombe sur une erreur google (version en cache non disponible) !
et bien sur, je n'ai aucune nouvelle de google.
j'ai fait des recherches dans les forums d'utilisateurs wordpress, et je n'ai pas trouvé de cas semblable.
et, laissez-moi vous dire, je transpire :s ...
En gros mes questions sont :
- y a t'il un rapport de cause à effet entre ces piratages et les problèmes de mise en cache?
- comment expliquer la différence de traitement entre ces pages en cache, ces pages sans cache, et ces pages soi-disant en cache mais en fait quand on clique, nan?
- comment expliquer que la home d'un site se retrouve virée de l'index suite à ma demande de réexamen?
- comment expliquer que, pendant que cette home est virée, les autres pages retrouvent une date de mise en cache plus logique, mais bizarrement corrélée à la date de ma demande de rééxamen ?
- pour finir, quelqu'un en sait-il plus sur ce type de piratage?
Voilà !
Merci d'avance à ceux qui prendront déjà la peine de lire ce pavé, et plus encore à ceux qui apporteront quelques éléments de réponse.
edit : je poursuis mes recherches et je soupçonne un bout de code présent dans le header.php d'avoir un rapport avec tout ça .
Ca contient un "base64_decode" et puis tout un tas de choses cryptées, à l'intention de googlebot, slurp, mybot et msn.
Je pense essayer de le virer pour voir.