Une problematique ou je tourne en rond ...

  • Auteur de la discussion Auteur de la discussion Zecat
  • Date de début Date de début
WRInaute accro
A ma droite une liste de nom de domaines en vrac total (pas de rubrique les classant etc). Un nombre trop important pour un traitement manuel bien sur.

A ma gauche cette même liste en deux paquets : les sites adultes d'un coté, les sites non adultes de l'autre ...

Problematique : comment passer de droite à gauche ?

Pour le moment j'en suis a une solution qui ne me satisfait que moyen moyen :

a) Une liste de mots clefs adultes dans un coin (deja premier bleme, fait la constituer)
b) un petit algo de recherche si presence d'un mot adulte dans url et on tri.

Si quelqu'un a déjà eu cette problématique et/ou a d'autres pistes plus pertinentes à proposer.
 
WRInaute accro
Zecat a dit:
Problematique : comment passer de droite à gauche ?

Je comprends pas, tu peux être plus clair ? C'est la même chose exactement à droite et à gauche sauf les 2 groupes ? Pourquoi vouloir passer de droite à gauche si tu as déjà la gauche alors ?
 
WRInaute accro
bon manifestement j'ai pas causé clair :mrgreen: je recapépéte :

j'ai une liste d'url :

-www.toto.com
-www.titi.com
-www.QQ.com
-www.tata.com

et je veux automatiquement identifier les sites "potentiellement" pour adultes pour les sortir de la liste ...
 
WRInaute impliqué
Zecat a dit:
Pour le moment j'en suis a une solution qui ne me satisfait que moyen moyen :

a) Une liste de mots clefs adultes dans un coin (deja premier bleme, fait la constituer)
b) un petit algo de recherche si presence d'un mot adulte dans url et on tri.

Si quelqu'un a déjà eu cette problématique et/ou a d'autres pistes plus pertinentes à proposer.

A part cette solution c'est pas évident.

Tu peux utiliser un algo qui fait un screenshot de la page d'accueil et qui calcul la couleur moyenne des pixels : si la dominante est rose alors c'est un site porno :mrgreen:
 
Nouveau WRInaute
Le mieux serait de récupérer (ou constituer) une liste d'url de sites pour Adultes, et comparer tes urls avec ces dernières afin de les bloquer ou non.
 
WRInaute accro
gg00xiv a dit:
Le mieux serait de récupérer (ou constituer) une liste d'url de sites pour Adultes, et comparer tes urls avec ces dernières afin de les bloquer ou non.
Heu ... oui ... c'est justement l'objet de ce tri !
 
WRInaute accro
YoyoS a dit:
C'est une liste mise à jour en continu j'imagine ? Avec bcp de ndd adultes j'imagines ? :P
oui c'est une liste qui bouge
non pas avec beaucoup de sites adultes (disons la meme proportion probablementq ue dans le web mondial).

A vue de truffe, je dirais que sur 100 sites, dans le tas il doit y en avoir 3 à 5 adultes que je dois identifier.
 
Nouveau WRInaute
Tu pourrais créer cette liste assez facilement.

1. Tu te rends sur un site qui a un bon pagerank, tu lances un algo de récupération de liens sur ce site, tu fonctionnes par récursions sur les sites enfants.

2. Tu vas répéter cette procédure sur quelques sites.

3. Tu merge les bases d'url (juste le http://xxxx.ext) et tu enregistres le tout dans un fichier plat.

Voilà, tu as ta base.

PS : De nombreux aspirateurs web permettent également de faire ce travail, mais pour être précis, ce serait mieux un simple algo, voir ce lien pour l'extraction d'url : http://codeunivers.com/codes/php/extract_urls_from_page
 
WRInaute accro
heu ... c'est sur le "quelques" que je coince ... :roll:

parce que en prenant le probleme dans ce sens faut que je scan tout le web mondial pour avoir une liste de 30 millions de sites adultes (au pif) qui vont me permettre de sortir les quelues centaines de sites adultes de mes listes ...
 
WRInaute occasionnel
Hello.

Et en comparant avec les résultats de recherches par requêtes spécialisés ; avec une ou deux dizaines d'expressions clé on doit avoir fait un tour raisonnable du sujet. Au besoin, compléter les résultats en interrogeant gogol, yahhouuu, bingue ...

Bien entendu, cela n'est pas une parade absolue mais cela permet de dégrossir pas mal avec les plus fréquentés.

Ensuite, un scan des mots de la page principale des sites restants devrait enlever encore une grosse couche, avec un contrôle final des sites douteux à la patoune.

Pas génial, mais voici des pistes de travail. :wink:

Bonne soirée, Éric.
 
WRInaute occasionnel
Bonjour.

Alors supprime la première étape.

Les sites concernés ont tous dans leur page d'accueil des mots clé comme "réservé aux adultes" ou "XXX" ...

Si un scan de la page ne donne rien de ce genre, tu es probablement tranquille. Pour finir, contrôle manuel des quelques sites repérés comme suspects. L'un d'eux peut avoir un mot clé filtré bien qu'étant tout à fait familial, mais quelques secondes suffisent pour lever l'ambiguïté.

Bon, il y a sans doute des cas avec tout en flash, par exemple, qui pourraient passer à travers, mais dans ce cas c'est un filtre particulier à développer (si flash > suspect).

On est dans le "semi-automatique" mais ce genre de filtre devrait être raisonnable (quelques % de suspects).

Sauf bien entendu s'il s'agit de reprendre un ancien annuaire de 100000 sites ! :mrgreen:

Pas mieux pour le moment, désolé, Éric.
 
Nouveau WRInaute
Ce type de scan, ne fonctionne que très rarement car la plupart des messages "Réservé aux adultes" ou autres du genre sont écrits dans des images...

Ils sont filou ces webmasters hots ^^
 
WRInaute accro
Bon finalement j'ai gardé le principe de la liste de mots et je l'applique par passe successives :

une premiere serie de 30 ou 40 mots, je flag les sites dont l'url contient un des mots
je tombe sur des sites passés au travers, j'ajoute les mots dans la liste et je refaits un passage ...

et au final ca filtre plutot pas mal (si quelqu'un entre dans mon bureau et tombe sur ma liste de mots ... il va me prendre pour un gros pervers :mrgreen: )
 
Discussions similaires
Haut