Outil de veille d'un site complet

  • Auteur de la discussion Auteur de la discussion Axiso
  • Date de début Date de début
WRInaute passionné
Bonjour,

Un partenaire dont je gère le contenu du site français dispose d'une équipe technique à l'étranger qui travaille aussi sur la version internationale du même site.
Souci : cette équipe ne cesse de publier mécaniquement sur le site français des modifications ou des ajouts réalisés sur la version anglaise. Nous constatons donc sans cesse des défauts ou des textes non traduits.
Cette équipe refuse de donner accès à leur système de ticket ou leur outil de travail collaboratif. Ces gens communiquent peu et ils sont les seuls à pouvoir modifier le site français. Il n'est pas prévu de séparer totalement les deux sites.

Voilà, c'est gai :)

Donc j'en viens à mettre en place de quoi détecter quotidiennement les ajouts et modifications de contenus et de nouvelles pages.
Et là je ne sais pas quel outil utiliser.
Beaucoup (Copernic) permettent de surveiller une URL précise mais j'ai besoin que ce soit le site complet. Il me faudrait un outil automatisé positionné entre l'analyse de site et la veille de page. Google Alerts ne me semble pas assez précis pour cela, il ne faudrait pas qu'il manque une page.

En connaissez-vous ?
En local ou hébergé. Le prix importe peu.

Merci.
 
WRInaute passionné
zeb a dit:
t'as pas moyen de mettre une fonction mail sur le dispositif de publication ?
Ca nécessiterait un développement pour éviter les doublons multiples si la publication a lieu plusieurs fois durant une même journée avec plein de petites corrections. Et puis au point où on en est je ne veux pas leur demander d'ajouter quoi que ce soit à leur système, en plus ils refuseraient sans doute.

_Soul a dit:
Le flux RSS & google reader?
Le RSS du site ne liste que les ajouts majeurs destinés au public, pas les modifications sur des pages existantes.

Je pensais à un outil comme Httrack qui copierait le code de tout le site, avec une navigation restreinte au domaine concerné afin de ne pas s'éparpiller vers les liens externes, et qui comparerait ensuite les pages avec leur version de la veille. Le tout avec une gestion d'exclusions et un gros bouton "Fais le travail !" :)
 
WRInaute accro
Sauf qu'en fonction de la taille du site, ça peut être super long HTTRACKS. Mais oui, la solution du pis aller serait de coupler HTTRACKS + Winmerge sur les fichiers du site.
 
WRInaute passionné
Surtout que le serveur ramasse à chaque fois...
Enfin si ils ne veulent pas te donner l'accès c'est leur problème aussi
 
WRInaute passionné
Voilà, j'avais pensé à ça : récupérer les pages et les comparer ensuite. Mais c'est fastidieux si y'a pas un automatisme. Et je ne veux pas passer trop de temps à préparer le truc.
Cela dit ça pourrait être intéressant : après quelques recherches il semble qu'un tel service n'existe pas. En l'orientant SEO ça pourrait se vendre sous la forme d'un "Observez chaque jour les moindres optimisations des sites de vos concurrents".

patapon87 a dit:
Surtout que le serveur ramasse à chaque fois...
Enfin si ils ne veulent pas te donner l'accès c'est leur problème aussi
Ce ne serait pas pour me déplaire :D
 
WRInaute accro
Axiso a dit:
Voilà, j'avais pensé à ça : récupérer les pages et les comparer ensuite. Mais c'est fastidieux si y'a pas un automatisme. Et je ne veux pas passer trop de temps à préparer le truc.
Dans tous les cas tu va devoir coder et puis aspirer le site pour comparer c'est simple si t'as 10 pages mais plus c'est mortel pour le serveur.
pour éviter les doublons multiples si la publication a lieu plusieurs fois durant une même journée avec plein de petites corrections.
un truc genre ping qui appel une url sur un serveur a toi avec une base et une petite interface pour valider une prise en compte c'est a peine une journée de code et 4/5 lignes a ajouter chez eux côté serveur
Axiso a dit:
Cela dit ça pourrait être intéressant : après quelques recherches il semble qu'un tel service n'existe pas. En l'orientant SEO ça pourrait se vendre sous la forme d'un "Observez chaque jour les moindres optimisations des sites de vos concurrents".
+1 mais t'as intérêt à être discret si tu veux pas te faire cloaker ou ban.
 
Discussions similaires
Haut