Duplication de site très étrange.

nabouill · 21 Avril 2017

Bonjour,

Il m'arrive un drôle de sale problème,
Pour résumer rapidement, j'ai conçu un site il y en environ 2 ans, il fonctionnait de mieux en mieux avec de plus en plus de passage dessus avec des stats en constante augmentation au mois le mois avec un mois d'octobre 2016 monté à 3 300 000 pages vues dans le mois.

Puis mi-Novembre, la dégringolade en moins de 2 jours, sans aucune raison apparente. descendu à 700 000 pages vues sur le mois de décembre 2016.

J'ai donc tout essayé depuis (suppression de tous les backlink depuis le mois d'aout que me semblait étrange, optimisation SEO, compression html....) rien à faire, il n'est jamais remonté. Les outils Google webmaster, n'affiche rien de spécial.

Puis hier soir, je pense avoir trouvé le poteau rose (tout à fait par hasard) un nom de domaine avec un nom complètement bidon (du genre toto10.com) est la réplique exacte de mon site. Et c'est même plus fort que ça, car ça en est la réplique parfaite et en temps réel. Et même par exemple, si je laisse un commentaire sur ce site, il apparaît direct dans ma DB.
J'ai alors changé les mots de passe des DB, mais idem.
Le plus étrange, c'est que j'ai quelques bannières publicitaires sur mon site, et elles sont bien entendues aussi présente sur l'autre, avec mon compte et tout, donc ce n'est pas juste un mec qui copie le site pour mettre ses régies à lui pour essayer de se gagner 2-3 piécettes, J'ai juste l'impression que l'on a essayer de me faire une crasse pour tuer le nombre de visite.

Après avoir fait quelques recherches sur ce nom de domaine étrange, il s'avère qu'il a été enregistré en chine en septembre 2016 et qu'il est protégé par un CDN (cloudflare)

Est-ce que ce genre de chose est déjà arrivé à l'un de vous ?
Quelque conseil pourriez-vous me donner pour pallier à ça ?

(j'avais pour idée de créer une redirection 301 en php pour que en gros, quand quelqu'un ou Google arrive sur la page "http://toto10.com/page1" ça redirige automatiquement vers "http://monsite.fr/page1" mais je ne suis pas sûr que ce soit la meilleurs solution.)

Par avance, merci pour vos réponses.

spout · 21 Avril 2017

nabouill a dit:
Et même par exemple, si je laisse un commentaire sur ce site, il apparaît direct dans ma DB.
J'ai alors changé les mots de passe des DB, mais idem.

Heu alors c'est ton site avec un autre nom de domaine non ?
Tu peux lire le $_SERVER['HTTP_HOST'] et s'il est différent de ton site, faire une redirection ou renvoyer une 404, etc etc.

nabouill · 21 Avril 2017

spout a dit:
Heu alors c'est ton site avec un autre nom de domaine non ?

Oui c'est exactement ça (c'est vrai que j'avais oublié de préciser), c'est exactement le même au poil de fesse prêt (image, stylesheet, liens, code source des pages...)
La seul différence qu'il y a c'est qu'il rajoute un javascript à le fin de chaque page:

Code:

<script type="text/javascript"><!--
	document.write("<a href='http://www.liveinternet.ru/click' "+
	"target=_blank><img src='//counter.yadro.ru/hit?t12.11;r"+
	escape(document.referrer)+((typeof(screen)=="undefined")?"":
	";s"+screen.width+"*"+screen.height+"*"+(screen.colorDepth?
	screen.colorDepth:screen.pixelDepth))+";u"+escape(document.URL)+
	";"+Math.random()+
	"' alt='' title='LiveInternet: показано число просмотров за 24"+
	" часа, посетителей за 24 часа и за сегодня' "+
	"border='0' width='88' height='31'><\/a>")
	//--></script><!--/LiveInternet-->

Mais il semble que ce n'est rien d'autre qu'un truc de stat.

Et je ne sais même pas si une redirection php va fonctionner car j'ai l'impression qu'il ne fait que récupérer le code de mes pages mais il faut que je test quand même pour voir. Et selon vous, que serait le plus judicieux:
redirection 301 ou erreur 404 ?

ps: si quelqu'un veux checker un peu, je peux filer les liens des 2 sites en mp.

fran6 · 21 Avril 2017

salut, peut-être des pistes là ? https://github.com/JonasCz/How-To-Prevent-Scraping/blob/master/README.md

elji · 21 Avril 2017

nabouill a dit:
ça en est la réplique parfaite et en temps réel. Et même par exemple, si je laisse un commentaire sur ce site, il apparaît direct dans ma DB.
J'ai alors changé les mots de passe des DB, mais idem.

Alors ça, c'est pas normal !
Si c'était mon site, j'en ferais un audit complet (de tous les fichiers) pour vérifier qu'il n'y ait pas un fichier qui ait été vérolé. Où sont stockés ces mots de passe ? Ne sont-ils pas dans un fichier à part, non accessible, caché et appelé par un include ?

fran6 · 21 Avril 2017

en outre côté google tu peux faire un signalement https://support.google.com/legal/troubleshooter/1114905 et implémenter des canonicals vers ton domaine.

noren · 21 Avril 2017

@elji : le problème ne vient pas de son site. Son site n'ets pas vérolé. Ce genre de copie peut toucher n'importe qui, fran6 a donné la réponse, il s'agit a priori de scraping. Il y en a bcp et c'est de plus en plus fréquent. Il y avait déjà eu un topic sur WRI

Dans un premier temps il peut toujours essayé de détecter la plage IP du copieur pour la bloquer dans le .htaccess

noren · 21 Avril 2017

Google aurait mis à disposition en 2014 un formulaire anti-scraper :

https://www.abondance.com/actualites/20140228-13686-google-met-en-plac ... raper.html
https://docs.google.com/forms/d/1Pw1KVOVRyr4a7ezj_6SHghnX1Y6bp1SOVmy60 ... closedform

Mais leformulaire ne semble plus accessible, pour une raison inconnue.
Le plus pathétique c'est de voir encore des sites souffrir par ce type de copie qui devrait être facilement détecté et dégagé par GG !
Soit disant GG sait tout ! C'est pourtant pas compliqué de savoir qui est a l'origine du contenu ! surtout quand le site est parfois en ligne depuis des années

nabouill · 22 Avril 2017

Bonjour a tous et merci pour vos réponses.

j'ai réalisé un redirection 301 de cette manière:

Code:

<?php
if($_SERVER['HTTP_HOST'] != 'www.mondomaine.fr') {
$new = $_SERVER['REQUEST_URI'];
	header("HTTP/1.1 301 Moved Permanently");
	header("Location: http://www.mondomaine.fr" . $new);
	exit();
	}
?>

Ceci fonctionne parfaitement en local sur mon pc, quand je tape l'url http://127.0.0.1/toto/page1 ça me redirige bien vers http://www.mondomaine.fr/toto/page1
L'avantage, c'est que ça pourrait marché pour toutes sortes de domaine bidon qui voudrait tenter la même chose. Et désindexer directement les liens du site dupliqué au profit de mon site.

Mais ça n'a aucun effet sur le domaine qui duplique mon site, je pense qu'il récupère direct le code source de la page sur mon domaine et donc mon code ne s'exécute pas sur son serveur.

J'ai réussis a récupérer son ip dans mes logs, je peux donc facilement bloquer son ip dans mon fichier .htaccess
Le problème c'est qu'il ne faut surtout pas qu'il change d'ip, sinon ça marche plus, ou même pire, qu'une fois qu'il voit qu'il a été bloqué, il recommence avec un autre nom de domaine.

A part ça je pense passer tous mes sites sur cloudflare, ce qui pourrait sans doute éviter ce genre de cas (bien que je ne suis pas fan de cloudflare, car j'ai déjà eu 2-3 problèmes de référencement sur un site avec eux car il n'avait refilé une ip qui avait eu mauvaise réputation, donc si je pouvait m'en passer, je préfèrerait)

Sinon la demande de suppression de contenu de ce site chez Google est réalisable, sauf qu'il faut ce le faire url par url, et vue que j'en ai environ 20000 avec une centaine de plus par jour, ça risque d'être assez contraignant quand même.

Si quelqu'un à une meilleurs idée, je suis preneur.
Encore merci.

madri2 · 22 Avril 2017

https://www.webrankinfo.com/forum/t/copie-live-de-mon-site.189674/#p1557749

nabouill · 22 Avril 2017

noren a dit:
Le plus pathétique c'est de voir encore des sites souffrir par ce type de copie qui devrait être facilement détecté et dégagé par GG !
Soit disant GG sait tout ! C'est pourtant pas compliqué de savoir qui est a l'origine du contenu ! surtout quand le site est parfois en ligne depuis des années

Je suis entièrement d'accord, alors qu'il se prennent pour les rois du monde et font la pluie et le beau temps sur le net, je trouve ça vraiment....

madri2 a dit:
https://www.webrankinfo.com/forum/t/copie-live-de-mon-site.189674/#p1557749

Effectivement, c'est exactement le même problème, et en investiguant un peu plus, je viens de remarquer que ce n'est pas 1, mais au moins 5 sites qui me font cette blague là. (je suis dépité)

Et en relisant le topic que tu m'a envoyé, si j'ai bien compris, le top est de blacklister les ip de ces domaines là (en récupérant la vrai ip, pas celle de cloudflare)
Ce que je peux faire sans trop de problème, c'est juste qu'il va me falloir checker quasi quotidiennement si il n'y en a pas un nouveau, donc c'est quand même pénible à la longue.
Aussi, contrairement à l'autre topic, moi les types ne sont font pas passer pour googlebot, donc le script a la fin du topic ne marche pas dans mon cas.

Dans un premier temps, je vais bien entendu blocker toutes ces ip dans mon fichier htaccess, mais si quelqu'un a une autre solution à proposer qui marcherait sur le long terme.... je suis toujours preneur.
Merci.

bogey · 23 Avril 2017

J'ai eu le même problème il y a trois semaines. Un utilisateur de mon site me fait remarquer qu'il a trouvé un lien vers son site sur une copie du mien.
Pages identique, css, images... juste le texte avec des remplacements dans le texte (des expressions sur le théme de la rencontre...)

J'ai immédiatement pensé à un pb de sécurité, fait pas mal de vérifications dans le code, cherché des fichiers qui n'auraient rien à y faire... rien du tout
Je remarque qu'une modification sur mon site est immédiatement reportée sur le leur.
Et en consultant les logs je vois une ip qui à chaque demande de page sur LEUR site vient scrapper le mien pour l'afficher.

Du coup je leur ai affiché un petit message perso : w.w.w.flzoristadesign.cf/sorties/3603/soiree-jeux-de-societe-tournoi-7-wonders

J'ai juste modifié ma config apache pour leur afficher le message quand l'appel vient de leur ip. Depuis je surveille un peu mais rien remarqué de plus, on dirait qu'ils n'ont pas remarqué que ça ne fonctionne plus...

nabouill · 23 Avril 2017

bogey a dit:
Du coup je leur ai affiché un petit message perso : w.w.w.flzoristadesign.cf/sorties/3603/soiree-jeux-de-societe-tournoi-7-wonders

Yes pas mal. Mais je pense que les mecs ne vérifie même pas, ils montent le truc pour te démonter ton référencement et se casse.

Du coup j'ai blacklisté les 5 sites, dont un qui faisait comme celui de Bogey, il avait renommé tous les liens en truc de rencontre (renommé seulement mais redirigeait vers les vrais pages, du coup je ne vois vraiment pas l'intérêt)

Les 5 sont sur Cloudflare, ce qui ne fait que renforcer ce que je pensais, Cloudflare ne fait que renforcer la sécurité des .... ! et n'en a rien a fiche de qui utilise leurs services, pour des gens qui se vendent comme les leaders de la sécurité, ils valent pas un clou enfaite, il ferait mieux de déjà jeter un œil aux sites qui passe par leurs services plutôt que de donner des conseils aux autres.

Du coup il va falloir que je contrôle ça de très près, car il y en a d'autre qui vont réapparaitre très prochainement (sans aucun doute)

Si quelqu'un a une solution efficace qui évite de checker tous les matins si il n'y en a pas un nouveau qui a apparus, je suis toujours preneur.

nabouill · 23 Avril 2017

Si ça peu aider quelqu'un, comment facilement détecter ce genre de problème:

il faut tout d'abord sur son site avoir un lien vers lui même (moi j'en ai un dans mon footer par exemple)
Se rendre Google webmaster Tools => liens vers votre site:
il suffit de passer sa souris sur tous les liens, un aperçu du site s'affiche, donc on voit tout de suite si c'est une copie du siens.

si on en trouve un, on va dessus et on essayer d'afficher un page bidon, exemple http://domaine.fr/toto
Puis dans les logs apache on voit qu'elle ip a essayer d'accéder à cette page.

suffit ensuite de rajouter dans le fichier .htaccess

Code:

#blacklist des salopards
order allow,deny
allow from all
deny from 37.1.201.95
deny from 185.32.189.38
deny from 176.99.4.11
deny from 176.99.4.10
deny from 185.162.9.147
deny from 37.1.205.200

madri2 · 23 Avril 2017

ça devrait pas être order deny,allow ?

noren · 24 Avril 2017

C'est la technique que j'utilise également, mais je suis toujours à la recherche d'une technique automatique qui empêche ce type de copies à la volée.

nabouill · 24 Avril 2017

madri2 a dit:
ça devrait pas être order deny,allow ?

J'aurais pensé ça moi aussi au début, mais non, ça marche très bien comme ça.

Sinon, je passe mon site sur un CDN qui se vante de bloquer ce genre de scrapping, c'est un service payant mais il y a une période de test de 15 jours, j'essaye et je vous tiens au courant si ça marche.

nabouill · 27 Avril 2017

Bonsoir a tous,

Je suis passé sur le CDN en question et j'ai déblacklisté les IP de mon fichier .htaccess et attendu de voir ce que ça donnait (ça fait au moins 8 mois que ça dur donc je ne suis plus à 3 jours prêt)

Sur ce CDN, comme je le disait dans mon post précédent, ils se ventent dans sa version pro de bloquer le web scrapping, je pense qu'il m'ont dit de passer sur la version pro car elle est payante (mais version d'éval de 15 jours) le module qui est censé faire ça n'en a rien fait.

Par contre, l'option "sécurity" (inclus dans la version gratuite) permet de détecter les bots, et même une option qui envoi du captcha en cas de doute. 24H après 3 sites sur les 5 était inaccessible :wink:
Les 2 autre sites était plus coriace, je les voyait en journée demander le captcha, puis un type qui passait pas là devait le taper car il redevenait accessible, puis rebloqué peu de temps après...
Au bout de 48H j'en avait marre d'attendre,Il y a une option sur ce CDN qui permet de bloquer des pays ou des continents entier, j'ai banni toutes l'Asie, la Russie, une partie de l'Amérique du sud plus deux ou trois autres pays (soit environ 1% du traffic sur la derniere année selon Google Analytic). Depuis Impeccable

Ils sont tous down !

Il y a plus qu'a attendre que Google se rendre compte qu'il n'y a plus de copie du site et ça devrait aller (et je sens que ça par contre ça risque d'être très très très long)

En attendant,je suis pas du genre a faire de la pub, donc je n'afficherais pas le nom de ce CDN publiquement (sauf si un admin m'y encourage) donc si quelqu'un rencontre le même genre de problème, je peu lui filer le nom du CDN en MP si ça peu aider.