Quoi pour détecter les méchants Bots ?

  • Auteur de la discussion Auteur de la discussion 1-sponsor
  • Date de début Date de début
WRInaute passionné
le forum de débutants fera l'affaire... :D

salut à tous,

Je vois quelques membres ici causes des méchants bots qu'ils détectent sur leur site... je me suis mis à bloquer les bots connus avec un htaccess, ce qui me semble carrément indispensable.

Ma question est : quel sont les meilleurs solutions dispo. pour détecter facilement les bots qui parcours nos sites ? Je pense qu'il y a autre chose que la lecture des logs du serveur, mais quoi ?

Merci au pro qui saura m'instruire :wink: :!:
 
WRInaute accro
Si c'est un bot "propre" qui respecte robots.txt (et qui dont le lit), tu renvoies le robots.txt vers un script qui va logger les IPs et User-Agents de bots en question.

Mais tu peux nous donner un exemple d'un "méchant" bot qu'il y aurait un intérêt à bloquer?

Jacques.
 
WRInaute accro
le bot JAVA par exemple, si non y a des listes et puis BaiDuSpider si tu ne risque pas d'avoir de client en chine, parce que faut pas déconner il vient 40 000 fois par jour tous les jours alors que le site n'a pas changer, alors je veux bien parce que j'ai la bande passante illimité chez 1AND1 sur mon packpro performance, m'enfin tout de même.
 
WRInaute passionné
Le but est de bloquer les méchants, bien sûr, qui se foutent du robots.txt... J'ai pas d'exemple en tête, sinon je ne chercherais pas la solution pour détecter-traquer les bot :D

Je bloque déjà Java...

En fait sur certains serveurs et à certains moments, j'ai des consommations de malades et je sais que c'est à cause de bots, je voudrais bien pouvoir lire d'un simple coup d'œil lesquels sont en cause, et pouvoir le refaire à l'avenir :) Franchement pour moi, toute économie de mon serveur est bonne à prendre, surtout dans ces temps ou google prend comme critère la vitesse d'affichage du site :)
 
WRInaute discret
c'est un pb récurrent ... je me demandais si on ne pouvait pas récupérer leur ip ou autre chose qui les caractérise et les virer. je n'ai pas encore trouvé la solution ... :cry:
 
WRInaute passionné
Pas de solution pour détecter facilement les bot qui visite notre serveur... en fait je pensais à un truc style "google analytics" qui donne la liste des bots ou du genre...
 
WRInaute accro
1-sponsor a dit:
Pas de solution pour détecter facilement les bot qui visite notre serveur... en fait je pensais à un truc style "google analytics" qui donne la liste des bots ou du genre...


y avait un truc en PHP qui utilisait google analytics, mais je l'ai retiré car j'ai eut l'impression que ça introduisais un HACK de mes FICHIER HTML qui semblait être modifier, donc j'évite se genre de truc, tant que j'y connais rien au PHP.
 
WRInaute accro
Il y a (au moins) deux types de bots dont on parle ici:
- les "bons" bots, qui même s'ils abusent ou ne sont pas très uriles, respectent robots.txt (ça doit être le cas de Baidu je suppose)
- les "méchants" bots, qui sont plus souvent des tentatives de hack et autres choses du genre, qui ne respectent rien

Dans les deux cas, ils ne sont pas visibles par Analytics (pour être visible dans GA, il faut que le client exécute le code JS...).

Les premiers peuvent être éliminés via robots.txt, autant passer par là.

Les deuxièmes, par définition, ne sont pas forcément très faciles à repérer: ils n'ont pas forcément un user-agent bien défini, leurs adresses IP peuvent changer (surtout dans le cas de worms et autres botnets). Là, pas de miracle, à part un IDS qui va automatiquement alimenter les règles d'un firewall, pas grand chose d'automatique à faire...

Jacques.
 
WRInaute passionné
À en voir vos (rares) réponses, je commence à croire que ce que je cherche n'existe pas.

En creusant j'ai trouvé quelques posts. Je les mets en compléments (pas encore eu le temps de tout lire).

https://www.webrankinfo.com/forum/t/bot-de-spam-que-je-ne-parviens-pas-a-bloquer.93544/
https://www.webrankinfo.com/forum/t/descriminer-les-bots-spam-etc.46343/
https://www.webrankinfo.com/forum/frequence-passage-des-robots-bon-script-i ... t5153.html
https://www.webrankinfo.com/forum/t/comment-detecter-google-bot-en-php.78298/
https://www.webrankinfo.com/forum/t/creation-dun-bot-analyseur.31826/

Au final et après réflexion, je crois que je vais devoir mettre en place un script + une BDD avec une table composée d'un champ unique : User-agent
et y enregistrer tout ce qui passe dedans. :o
 
WRInaute accro
La liste des User-Agents unique est très, très longue. J'en ai une liste de plus de 20 millions...

Jacques.
 
WRInaute passionné
gloups... :o

merci pour l'info jacques... je tenterais de trouver une parade...

par exemple :

- logger les user-agent, avec un timestamp et donc une durée de vie en base de donnée avant une futur suppression ...
- si le user-agent a été detecté, par exemple, pour 100 hits en 10 minutes (avant sa supression, expiration de durée de vie) => hop transfert dans une deuxième base de donnée "useragent_grostrafic"... quelque chose du genre...

bon. je vois que tu as creuser la question et que tu n'as pas de solution toute prête :D mais bon moi, ce qui serait bien, c'est déjà d'identifier les bots les plus pourris qui trainent chez moi... les pires ! je ne cherche pas vraiment de solution permettant de bloquer "tous" les bots inutiles.

merci pour tes interventions jacques
 
WRInaute accro
Je pense que tu vas vite te rendre compte que ceux qui posent problème (les botnets, worms et compagnie) ne sont souvent pas identifiables par leur User-Agent. Ils ne viennent pas chez toi en disant "bonjour je suis botnet/1.0"... Enfin il doit y en avoir quelques-uns quand même, les script-kiddies ne sont pas très futés.

Jacques.
 
WRInaute passionné
Bah, je cherche à identifier les bots, quand même, relativement honnêtes... C'est sûr qu'il y a encore pire que les méchants bots, les bots de hackeurs etc...

Pour donner un exemple de bot que j'ai pu identifier sur mon serveur, c'est celui de yandex... bon je m'en fout qu'il consomme ma BP celui là. J'ai aussi un bot nommé "Mxbot". Je sais pas trop à quoi il sert celui là, le site d'infos anglais officiel du bot semble honnête.
J'ai pas à cherché l'utilité... je le connais pas, je le bloque.

En gros... Si je pouvais gagner quelques millièmes de secondes de temps de réponse lors des heures de pointe sur mes sites, je serais content :) :) j'imagine que tu as étudié le problème pour un projet bien plus conséquent qu'un site unique (régie pub...) :)

edit : je confonds, c'est pas mxbot, c'est "spinn3r (indexing the blogoshpere)" dont je parlais...
 
WRInaute accro
Ben pour des bots comme ça, le plus simple: tu rediriges ton robots.txt vers un script qui loggue les user-agents et les IPs avant de renvoyer son contenu. Ensuite tu peux décider ceux qui te plaisent ou pas et les ajouter au robots.txt renvoyé (tu peux même automatiser ça en générant le contenu du robots.txt à partir de la liste des user-agents en base avec un flag qui dit si tu le veux ou pas).

Jacques.
 
WRInaute accro
et un robots.txt de ce genre ?
Code:
User-agent: *
Disallow: /

User-agent: Googlebot
User-agent: Mediapartners-Google
User-agent: Googlebot-Mobile
User-agent: googlebot-Image
User-agent: ng
User-agent: exabot
User-agent: msnbot
User-agent: Teoma
User-agent: voila
User-agent: Slurp
Disallow:
comme ça on n'autorise qu'un tout petit nombre de robots. Les "bons" bots sans intérêt pour notre coeur de cible respecteront ce fichier et les mauvais, on bloque leurs ip & UA dans le htaccess
 
WRInaute accro
à mon avis une blacklist des IP dans un .HTACCESS serai plus utile, parce que certains respecter les règles édicté par le robots.txt, et les plus méchants des BOT s'en cogne comme de leurs première impulsion binaire.
 
WRInaute accro
mipc a dit:
à mon avis une blacklist des IP dans un .HTACCESS serai plus utile
si tu avais lu correctement mon message du dessus, tu aurais vu que c'était la solution que je préconisais (robots.txt + .htaccess)
 
Nouveau WRInaute
Perso, j'utilise CrawlProtect et à côté j'y ai créé un piège à bots avec un lien bidon non accessible pour les utilisateurs normaux, mais que les bots se permettent de suivre et se font directement blaclistés par l'ajout de l'IP au htaccess ou envoi par mail des informations concernant celui qui a visité la page.
http://www.crawlprotect.com/fr/
 
Nouveau WRInaute
Pour ma part j'utilise blockerip.com , ça filtre un bon nombre de bots (via user-agent) et dispose d'une bonne base de données d'adresses IP de bots. Ca a résolu mon problème à ce niveau là ...
 
WRInaute accro
bulle972 a dit:
à côté j'y ai créé un piège à bots avec un lien bidon non accessible pour les utilisateurs normaux, mais que les bots se permettent de suivre et se font directement blaclistés
Idem avec 4 variantes :

1 - J'ai caché non pas 1 mais 6 pieges a mechant bot dans chaque page et ils changent de place en permanence
2 - Au passage ils changent aussi de nom en permanence
3 - Je ne fais pas un blacklistage hard par ht access mais un blacklistage soft "stockage des ip bannies" et lorsque l ip en question revient, un header vers une page "va te faire voir chez les ploucs" :wink:
4 - memo dans un journal pour garder un historiques des blacklistages et des tentatives échouées de relecture d'autres pages ... (et c ets la qu'on voit que la plupart des aspi, c'est con comme des poubelles sans poignées ... ca revient et ca revient inlassablement se vautrer sur le "va te faire voir chez les ploucs" ! :mrgreen: )

Ca m'en colle entre 3 et 10 par jour ssur le ruban a mouche !
 
WRInaute accro
jcaron a dit:
L'expression consacrée est "pot de miel" (honeypot), mais ruban à mouches ça le fait aussi :-)

Jacques.
je voulais pas gacher du bon miel pour ces parasites ... un ruban de glue c'est tout ce qu'ils méritent :mrgreen:

Tiens le dernier qui s'y est collé (4 Ips de concert via proxy collées en même temps) :

188.165.16.155 (pologne)
188.165.23.26 (pologne)
87.98.234.186 (pologne)
94.23.211.138 (france)

:wink:

Illustration dans mes logs :

Code:
08:46:58*pl*188.165.23.26**=== IP BAN (***)
08:46:58*fr*94.23.211.138**=== IP BAN (***)
08:46:58*pl*188.165.16.155**=== IP BAN (***) 
08:46:59*fr*94.23.211.138**=== IP BAN (***) 
08:46:59*fr*94.23.211.138**=== IP BAN (***) 
08:47:00*pl*188.165.23.26**=== IP BAN (***) 
08:47:00*fr*94.23.211.138**=== IP BAN (***) 
08:47:00*fr*94.23.211.138**=== IP BAN (***) 
08:47:01*pl*188.165.16.155**=== IP BAN (***) 
08:47:01*fr*94.23.211.138**=== IP BAN (***) 
08:47:02*pl*87.98.234.186**=== IP BAN (***) 
08:47:03*fr*94.23.211.138**=== IP BAN (***) 
08:47:03*fr*94.23.211.138**=== IP BAN (***) 
08:47:03*pl*188.165.23.26**=== IP BAN (***) 
08:47:04*pl*188.165.16.155**=== IP BAN (***) 
08:47:04*pl*188.165.16.155**=== IP BAN (***) 
08:47:05*pl*87.98.234.186**=== IP BAN (***) 
08:47:05*pl*87.98.234.186**=== IP BAN (***) 
08:47:06*fr*94.23.211.138**=== IP BAN (***) 
08:47:06*pl*188.165.23.26**=== IP BAN (***) 
08:47:07*pl*188.165.23.26**=== IP BAN (***) 
08:47:07*fr*94.23.211.138**=== IP BAN (***) 
08:47:08*pl*87.98.234.186**=== IP BAN (***) 
08:47:08*pl*87.98.234.186**=== IP BAN (***) 
08:47:08*fr*94.23.211.138**=== IP BAN (***) 
08:47:09*pl*188.165.16.155**=== IP BAN (***) 
08:47:09*pl*87.98.234.186**=== IP BAN (***) 
08:47:10*pl*188.165.23.26**=== IP BAN (***) 
08:47:10*pl*188.165.23.26**=== IP BAN (***) 
08:47:10*fr*94.23.211.138**=== IP BAN (***) 
08:47:11*fr*94.23.211.138**=== IP BAN (***) 
08:47:11*fr*94.23.211.138**=== IP BAN (***) 
08:47:11*pl*188.165.23.26**=== IP BAN (***) 
08:47:12*pl*188.165.23.26**=== IP BAN (***) 
08:47:12*pl*188.165.16.155**=== IP BAN (***) 
08:47:12*pl*188.165.23.26**=== IP BAN (***) 
08:47:13*pl*87.98.234.186**=== IP BAN (***) 
08:47:13*pl*188.165.16.155**=== IP BAN (***) 
08:47:13*pl*87.98.234.186**=== IP BAN (***) 
08:47:14*pl*87.98.234.186**=== IP BAN (***) 
08:47:14*pl*188.165.23.26**=== IP BAN (***) 
08:47:15*pl*87.98.234.186**=== IP BAN (***) 
08:47:15*pl*188.165.23.26**=== IP BAN (***) 
08:47:16*pl*188.165.23.26**=== IP BAN (***) 
08:47:16*pl*87.98.234.186**=== IP BAN (***) 
08:47:16*fr*94.23.211.138**=== IP BAN (***) 
08:47:17*fr*94.23.211.138**=== IP BAN (***)

(***) c'est en fait la page que le bot a voulu visité ... Bon cette "fine equipe" j'ai fini par la coller aussi en htaccess parce que la ils insistaient un peu trop ... :!:
 
Discussions similaires
Haut