Bonjour à tous,
Je suis actuellement en train de réaliser une thèse de doctorat portant sur le domaine du référencement. Pour avancer sur mes travaux de recherche, j'aurai besoin de mettre en place un moteur de recherche expérimental. Ce moteur de recherche serait à utilisation purement locale. C'est à dire qu'il se contentera d'analyser et de référencer des pages HTML stockées sur ma propre machine (et non des pages sur Internet).
Au fur et à mesure de mes expériences, j'aimerai définir mes "propres" critères de positionnement afin de dissocier complétement ce moteur de recherche expérimental de l’algorithme de Google. En effet, je veux maitriser à 100% la méthode de classement de mes pages.
Voici quelques exemples de critères que je pourrai définir :
- Les pages HTML ayant une balise Title comprise entre 30-35 caractères seront mieux positionnés
- Les pages HTML ayant une balise Meta Description compris entre 60-65 caractères seront mieux positionnés
- Les pages HTML ayant un couleur de police rouge seront mieux positionnés
- ...
- ...
Bref vous avez compris le principe. Le but est d'avoir un environnement de recherche maitrisable en évitant les fluctuations ou les mises à jour d'algorithme (si l'on prend le cas de Google par exemple).
J'ai trouvé ce chapitre intéressant (http://bit.ly/1hSYJpJ). L'auteur essaye de créer son propre moteur de recherche en utilisant le langage Python, mais le crawler est fait pour fonctionner sur Internet, c'est à dire avec de vrais sites Internet et non des documents HTML locaux.
Avez-vous des idées ou des remarques pour que je puisse attaquer ce projet ?
Merci ! :wink:
Je suis actuellement en train de réaliser une thèse de doctorat portant sur le domaine du référencement. Pour avancer sur mes travaux de recherche, j'aurai besoin de mettre en place un moteur de recherche expérimental. Ce moteur de recherche serait à utilisation purement locale. C'est à dire qu'il se contentera d'analyser et de référencer des pages HTML stockées sur ma propre machine (et non des pages sur Internet).
Au fur et à mesure de mes expériences, j'aimerai définir mes "propres" critères de positionnement afin de dissocier complétement ce moteur de recherche expérimental de l’algorithme de Google. En effet, je veux maitriser à 100% la méthode de classement de mes pages.
Voici quelques exemples de critères que je pourrai définir :
- Les pages HTML ayant une balise Title comprise entre 30-35 caractères seront mieux positionnés
- Les pages HTML ayant une balise Meta Description compris entre 60-65 caractères seront mieux positionnés
- Les pages HTML ayant un couleur de police rouge seront mieux positionnés
- ...
- ...
Bref vous avez compris le principe. Le but est d'avoir un environnement de recherche maitrisable en évitant les fluctuations ou les mises à jour d'algorithme (si l'on prend le cas de Google par exemple).
J'ai trouvé ce chapitre intéressant (http://bit.ly/1hSYJpJ). L'auteur essaye de créer son propre moteur de recherche en utilisant le langage Python, mais le crawler est fait pour fonctionner sur Internet, c'est à dire avec de vrais sites Internet et non des documents HTML locaux.
Avez-vous des idées ou des remarques pour que je puisse attaquer ce projet ?
Merci ! :wink: