Bonjour tout le monde je sui sesepérement à la recherche d'un script ou d'une librairie phpsous licence GNU qui me permettrait de faire la chose suivant=>
1) Crawl d'un site internet integral ou partiel.
2) Extraction nom de pages, des liens y conduisant et du titre du lien.
3) Generation de l'arborescence en flux XML ou dans une base SQL.
4)Refonte des crawl partiels avec les résultats précédents.
(Ou cas ou je devrait faire tout moi même En dehors de la norme sitemap de chez google existe t'il un autre moyen de représenter l'arborescence d'un site en concervant la page de provenance ?).
Bon j suis dans le truc à Eplucher un peux tout c possible que je sois pas très clair mais si quelqu'un avait des pistes ou des script même différents de crawl (sans indexation des fichiers) je suis préneur.
++
1) Crawl d'un site internet integral ou partiel.
2) Extraction nom de pages, des liens y conduisant et du titre du lien.
3) Generation de l'arborescence en flux XML ou dans une base SQL.
4)Refonte des crawl partiels avec les résultats précédents.
(Ou cas ou je devrait faire tout moi même En dehors de la norme sitemap de chez google existe t'il un autre moyen de représenter l'arborescence d'un site en concervant la page de provenance ?).
Bon j suis dans le truc à Eplucher un peux tout c possible que je sois pas très clair mais si quelqu'un avait des pistes ou des script même différents de crawl (sans indexation des fichiers) je suis préneur.
++