Catégorisation de contenu text

  • Auteur de la discussion Auteur de la discussion roufa
  • Date de début Date de début
WRInaute discret
Bonjour,

je travaille sur un portail d’information qui fouille dans les sites de presse pour proposer les dernières actualités. je récupère les derniers articles (url, titre, description) via les flux RSS. Les articles seront repartis sur des catégories (politique, économie...)

Comment procéder pour affecter automatiquement chaque article à la catégorie appropriée ?

Merci
 
WRInaute occasionnel
Peut etre en faisant une base de donnée de mots qui serait comparé aux titres qui ferait alors la relation avec une catégorie
Je suis peut être pas tres clair :)

Ex:

Srakosssssssi (on sais tout de qui il s'agit ;)) -> politique
banque -> économie
eolienne -> ecologie
...

Ensuite tu fait une recherche de mots clé sur ton titre avec un truc du genre

Si $string_titre contient $mot_clé[0] alors catégorie X

Je ne vois pas trop d'autre moyen, surtout que ca, ca risque d'être juste, par exemple si on a un mot comme "les verts", ca peut être politique ou écologie...

Bonne chance en tout cas
 
WRInaute accro
portail d'information qui ne comporte bien évidemment pas de publicité, car 99% des sites de presse refusent qu'on leur récupère leur flux RSS pour des raisons commerciales via leur CGU... mais je suppose que tu les as décortiqué
 
WRInaute accro
les flux rss, sauf autorisation explicite contraire, ne sont autorisés que pour une utilisation personnelle. En aucun cas ne doivent être repris sur un site, surtout s'il contient de la pub
 
WRInaute discret
Bonjour,

C'est marrant, j'ai le même projet que toi mais c'était à la base pour mettre aussi en avant les articles de certains sites d'informations alternatives peu ou pas du tout relayés. Je ne comptais pas mettre de pub à la base, par contre je ne pensais pas qu'il était possible que cela pose problème, même sans publicité.

Et concernant ce problème je me le suis également posé il y a quelques jours (le projet est encore en réfléxion / définition), s'il n'y a pas de catégorie par défaut, il sera par défaut placé dans une catégorie particulière selon des critères, puis il pourra éventuellement être déplacé par les visiteurs si la catégorie n'est pas la bonne.
 
WRInaute accro
HS ON

ericdebra a dit:
Bonjour,
C'est marrant, j'ai le même projet que toi mais c'était à la base pour mettre aussi en avant les articles de certains sites d'informations alternatives peu ou pas du tout relayés. Je ne comptais pas mettre de pub à la base, par contre je ne pensais pas qu'il était possible que cela pose problème, même sans publicité.

Ce qu'il faut comprendre, c'est qu'un rédacteur qui passe 2h à faire des recherches biblio puis 1h à rédiger un texte peut avoir les boules de voir son travail purement copié sur un autre site (même en citant la source, ça ne donne pas tous les droits). Et ce, même sous un prétexte d'aider, d'informer, ou de sauver la planète.

Dans le cas où l'on trouve un article intéressant et que l'on veut absolument le faire connaitre, on pose 3 lignes "voici un article intéressant sur ......" et le lien vers cet article. Pas de ctrl c/v, que ce soit de l'article entier ou des 50 premières lignes...

;)

HS OFF
 
WRInaute discret
@Padadam22 : Justement, je ne compte pas mettre tout l'article sur mon site mais seulement les premières lignes. En tout cas en visible. Cependant, peut-être que pour les recherches je stockerai quand même les articles afin de les ressortir plus facilement, si le site source me le permet.

Copier l'article d'un autre c'est normal que ça soit interdit, et en prime ça fait du duplicate content, aucun intérêt quoi..
 
WRInaute accro
ericdebra a dit:
@Padadam22 : Justement, je ne compte pas mettre tout l'article sur mon site mais seulement les premières lignes.
Et pourquoi pas la balise description ? Ce n'est pas le texte de l'article, et c'est ce que le webmaster a envie de voir s'afficher dans les moteurs de recherche.

ericdebra a dit:
Cependant, peut-être que pour les recherches je stockerai quand même les articles afin de les ressortir plus facilement, si le site source me le permet.
Très casse gueule, c'est comme ça qu'on se trompe ensuite... a partir du moment où tu as l'url tu peux retrouver l'article :)

ericdebra a dit:
Copier l'article d'un autre c'est normal que ça soit interdit, et en prime ça fait du duplicate content, aucun intérêt quoi..
Même quelques lignes suffisent parfois.
 
WRInaute discret
Je ne me suis encore jamais servi de RSS niveau programmation, je ne sais donc rien à ce sujet. Déjà à la base je pensais qu'en général les RSS ne contenait pas l'article en entier. Mais comme tu l'as dit : Une balise description, puis titre, lien, date et voilou.

Enfin bref mon objectif premier c'est faire connaître les sites d'informations alternatifs, parce que les informations "de caniveaux" comme on dit qu'on nous fourni tous les jours dans la plupart des médias que les gens lisent / regardent, c'est affligeant.

Bref, j'ai encore le temps de voir tout ça, c'est pas une priorité atm. Et pour reprendre le sujet, intéressant les liens fournis. Il y a de quoi faire avec.
 

➡️ Offre MyRankingMetrics ⬅️

pré-audit SEO gratuit avec RM Tech (+ avis d'expert)
coaching offert aux clients (avec Olivier Duffez ou Fabien Faceries)

Voir les détails ici

coaching SEO
Discussions similaires
Haut