Fin du Yahoo Site Explorer... solutions alternatives ?

WRInaute occasionnel
Bonjour à tous,
Cela fait un an que Bing et Yahoo ont signé un accord et même si je fermais les yeux jusqu'à présent sur un éventuel arrêt
des certains outils Yahoo, je me pose de plus en plus la question :
Que va-t-il advenir du Yahoo Site Explorer ?
:(

Rien d'encourageant pour l'avenir.... :?
Pour moi, c'était presque un automatisme d'aller le consulter, pour de la veille concurrentielle, pour avoir des pistes sur l'état de référencement des sites de mes clients et autres fins plus ou moins utiles...

Parlons peu, parlons bien, connaissez-vous d'autres outils de ce type, gratuits ?

Seriez-vous intéressés par la création d'un site explorer communautaire, fait par une communauté issue du SEO pour tous ?
 
Membre Honoré
Bienvenue au forum.

Pour votre site vous pouvez utiliser Google Webmaster Tools.
Concernant Yahoo Site Explorer, il serait étonnant avec autant de trafic que Bing (Microsoft) ne propose pas un outil similaire.
Djibou_Te@M a dit:
Seriez-vous intéressés par la création d'un site explorer communautaire, fait par une communauté issue du SEO pour tous ?
C'est une définition un peu vague, vous pouvez préciser un peu plus pour les webmasters qui pourraient être intéressés par votre possible outil.

Vous pouvez aussi vous présenter : [Forum] Comment vous présenter.

N'hésitez pas à participer sur le forum en répondant aussi à d'autres topics.
 
WRInaute occasionnel
Djibou_Te@M a dit:
Seriez-vous intéressés par la création d'un site explorer communautaire, fait par une communauté issue du SEO pour tous ?

De ce que je lit dans l'article tu veux dire faire une base de données avec l'ensemble des backlink, car pour l'indexation on ne peux inventer les donner si elle ne sont plus donnée.

Le problème c'est que pour faire cela il faut crawler le web... Ce qui demande beaucoup de ressource, humaine et surtout financière. Car ce n'est pas 50000 pages d'un gros site que l'on doit analyser, mais des centaine de milliards de pages (j'ai vue que l'on parler de 1000 milliard en 2008). Si tu traite 10 pages à la seconde il te faudra 30 ans pour traiter 10 milliards de pages...
 
WRInaute passionné
Il restera encore actif 1 an ou 2 ans le temps que la migration vers Bing soit achevée dans l'ensemble du monde, puis sera intégré dans les outils Bing. Dans l'immédiat donc pas de panique.
 
WRInaute occasionnel
Bonjour,
C'est vrai je ne me suis pas présenté,
je travaille dans une Web Agency de la région toulousaine, plus spécifiquement sur le référencement et autres techniques de E-marketing pour permettre à mes clients de vendre mieux et plus.

Pour mon idée, et pour répondre à jv2759 ainsi qu'à Madrileno, c'est un crawler de site avec (bien evidemment) stockage en BDD.
Si tu traite 10 pages à la seconde il te faudra 30 ans pour traiter 10 milliards de pages
c'est vrai, d'ou l'intérêt d'une communauté, on n'est plus seul, mais plusieurs.
Admettons, nous sommes à trois, il ne faut plus que 10 ans :lol:
nous sommes 30, plus qu'un an
300, ....
Oui j'ai arrondi plus que grossièrement les chiffres, mais l'idée est là.
Utilisation BDD mère + BDD esclaves, installées chez chacun, et en avant la musique, bien sûr il faut poser ça sur papier, ou du moins sur écran afin de pas s'éparpiller.

Mettre en place un tel système (serveurs gratuits vivement recommandés pour les fonds de départ) prendra surement du temps, mais ne croyez vous pas que c'est une aventure à tenter ?
J'attend vos retours (bons ou mauvais, insultes du type gros ... interdites, je suis soupe au lait :wink: )

En même temps, comme le dit Madrileno, il serait étonnant que Bing se prive d'un tel outil, donc peut être Wait and See
 
WRInaute occasionnel
Djibou_Te@M a dit:
d'ou l'intérêt d'une communauté, on n'est plus seul, mais plusieurs.
Admettons, nous sommes à trois, il ne faut plus que 10 ans :lol:
nous sommes 30, plus qu'un an
300, ....

Il faut pouvoir trouver 300 personne capable de louer une machine avec connexion internet illimitée dédier uniquement à cela... Dans mon calcul je le faisait sur 10, mais si c'est 100, cela veux dire 3000 personnes Ou alors 300 personne avec 10 serveur... Et je ne ferais même pas le calcul pour 1000. Ensuite il faut une personne pour coder et optimiser le crawler, car cela ne ce fait pas comme un plugin wordpress, entre un crawler non optimiser et un optimiser les ressource nécessaire peuvent doubler voir énormément plus... Faire des règle de filtre, de priorité, car pas question de scanner 5000 fois la même pages à cause d'un id de session non identifier...


Djibou_Te@M a dit:
Utilisation BDD mère + BDD esclaves
Qui vas avoir la bdd mère? Car ce sont des donnée qui on une vrais valeur. Impossible à stocker intégralement chez tout les monde. Cela peux faire des quantité énorme de donnée à stocker. Donc on doit tout donnée a une personne de confiance qui vas devoir mettre en place un système pour que chacun puisse récupérer ce d'on il a besoin.



Djibou_Te@M a dit:
une aventure à tenter ?
A mon avis difficile sans une structure capable d'apporter une bonne base. Sauf que ce type de structure le fait pour elle et revend par la suite. Et justement je crois que cela existe déjà des service payant de ce type. Service qui coute surement moins chère que de devoir soit même avoir 10 serveur de crawl.
 
WRInaute occasionnel
C'est vrai que cela engendre un cout important niveau ressources.
Pour le code, si l'on part sur un système communautaire, c'est pour que tout ne soit pas fait par une seule personne
et avoir un code plus objectif, de même pour les filtres de recherche et de crawl.

Reste le souci de la base Mère qui doit se trouver à un endroit, du coup, oui trouver une personne de confiance, trouver les fonds, etc.

Mais bon, la fondation Mozilla a du se poser les mêmes questions au début, de même que les différentes branches de UNIX, pourtant ils sont bien là...

Après c'est vrai que je suis parfois un doux rêveur...
 
WRInaute accro
il y a des solutions beaucoup moins couteuses que cela ... personnellement j'ai payé un soft de veille concurentielle 400 euros, et j'ai toutes les infos qu'il me faut.
 
WRInaute occasionnel
Djibou_Te@M a dit:
Pour le code, si l'on part sur un système communautaire, c'est pour que tout ne soit pas fait par une seule personne
et avoir un code plus objectif, de même pour les filtres de recherche et de crawl.

Il ne faut pas plein de programmeur moyen, mais quelque très bon. En sachant que ce qui sont intéresser ne sont pas les très bon programmeur.

Reste le souci de la base Mère qui doit se trouver à un endroit, du coup, oui trouver une personne de confiance, trouver les fonds, etc.

Djibou_Te@M a dit:
Mais bon, la fondation Mozilla a du se poser les mêmes questions au début, de même que les différentes branches de UNIX, pourtant ils sont bien là...
Mozilla à commencer avec 1 million, une bonne partie de code déjà crée, une unité dans les développeur, pas non plus de problème de confiance, tout le monde peux avoir tout les sources, et personne ne peux vraiment les vendre directement, ce qui peux ce vendre c'est l'expérience, donc celui qui triche ce retrouve moins bien positionner que les autres.

Mais surtout la différence tien dans la nature des ressources. Pour crée un logiciel open source, quasiment tout les ressources son lier au temps. Pour un crawler, les ressources sont beaucoup plus matériel.
 
Nouveau WRInaute
Djibou_Te@M a dit:
Bonjour à tous,
Cela fait un an que Bing et Yahoo ont signé un accord et même si je fermais les yeux jusqu'à présent sur un éventuel arrêt
des certains outils Yahoo, je me pose de plus en plus la question :
Que va-t-il advenir du Yahoo Site Explorer ?
:(

Rien d'encourageant pour l'avenir.... :?
Pour moi, c'était presque un automatisme d'aller le consulter, pour de la veille concurrentielle, pour avoir des pistes sur l'état de référencement des sites de mes clients et autres fins plus ou moins utiles...

Parlons peu, parlons bien, connaissez-vous d'autres outils de ce type, gratuits ?

Seriez-vous intéressés par la création d'un site explorer communautaire, fait par une communauté issue du SEO pour tous ?
On explore une piste actuellement en cours de développement :
http://wikiwix.com/index.php?lang=fr&disp=article&action=site%3Afrance.fr
La démo est à titre expérimentale, pas encore totalement fini mais on y travaille en ce moment.
 
WRInaute accro
pm27 a dit:
On explore une piste actuellement en cours de développement
heu, ça n'a aucun rapport avec les fonctionnalités de Yahoo Site Explorer, c'est juste une recherche à l'intérieur de wikipedia, à ce qu'il me semble
 
Nouveau WRInaute
Leonick a dit:
pm27 a dit:
On explore une piste actuellement en cours de développement
heu, ça n'a aucun rapport avec les fonctionnalités de Yahoo Site Explorer, c'est juste une recherche à l'intérieur de wikipedia, à ce qu'il me semble
En fait, la requête que j'ai envoyé site:france.fr renvoie les informations que nous avons collecté de notre crawleur sur le site france.fr ( nombre de pages, heure du dernier crawl, heure du prochain crawl ). Après si il vous faut plus d'infos, c'est le moment.
 
Nouveau WRInaute
jv2759 a dit:
pm27 a dit:
Après si il vous faut plus d'infos, c'est le moment.

On parler plutôt de la commande :

link:france.fr
Certes mais c'est une fonctionnalité qu'on peut facilement rajouter, c'est pour récupérer les liens entrants, j'ai environ une dizaine de serveurs qui peuvent faire çà à raison de 5 pages / secondes. Cordialement
 
WRInaute passionné
Marie-Aude a dit:
il y a des solutions beaucoup moins couteuses que cela ... personnellement j'ai payé un soft de veille concurentielle 400 euros, et j'ai toutes les infos qu'il me faut.
Peux tu nous donner le nom du soft en question stp?
 
WRInaute impliqué
A je ne sais pas si ça fonctionne à tous les coups mais en tout cas ça marche mieux en mettant une extension d'une url (.com, .net etc..) :wink:
 
WRInaute accro
GUITEL a dit:
A je ne sais pas si ça fonctionne à tous les coups mais en tout cas ça marche mieux en mettant une extension d'une url (.com, .net etc..) :wink:
et .pro ce n'est pas une extension, par hasard ? :roll:
 
WRInaute impliqué
etant donnée que le site bourse.pro n'a pas l'air d'être indéxé dans gg ça ne risque pas de fonctionner

La commande considere que tu mets des mots et non pas une extension
 
WRInaute occasionnel
Du coup, cette solution de GG parait assez intéressante et même pertinente dans le sens ou l'on peut faire via un applicatif web :
nom du site -> vérifier s'il est indexé chez google
si oui
-> on fait la recherche "www.URL.com" et via snoopy, on compte le nb de résultats, on extrait les url,etc.
sinon, ça envoie bouler...

A approfondir sérieusement je pense
 
WRInaute accro
GUITEL a dit:
Plus sérieusement, en tapant bourse.pro chez moi GG ne trouve pas et me suggère de taper bourse.fr
je crois qu'il faut arrêter d'extrapoler à partir d'un cas particulier.
Un 2° exemple, en plus, le .pro existe https://www.google.fr/search?q="annuaire.pro" dans la 1) page, on voit les http://www.pagesjaunes.fr et fr.kompass.com
Otto aurait donc réussi à obtenir des BL depuis ces sites ? il est vraiment trop fort :mrgreen:
 
WRInaute occasionnel
pm27 a dit:
Certes mais c'est une fonctionnalité qu'on peut facilement rajouter, c'est pour récupérer les liens entrants, j'ai environ une dizaine de serveurs qui peuvent faire çà à raison de 5 pages / secondes. Cordialement

Donc environs 4 million de pages par jour... 120 millions par mois. C'est pas encore cela mais si vous pouvez le faire, cela peux en interesser certain...
 
WRInaute accro
pm27 a dit:
Certes mais c'est une fonctionnalité qu'on peut facilement rajouter, c'est pour récupérer les liens entrants, j'ai environ une dizaine de serveurs qui peuvent faire çà à raison de 5 pages / secondes. Cordialement
à supposer que tous les sites vous laissent crawler leurs sites (si toutefois vous respectez le robots.txt). Perso, je n'autorise que les gros moteurs francophones. Mes sites n'étant pas internationaux, de me retrouver dans baidu ou yandex ne m'est d'aucune utilité et les autres "moteurs" ne m'amènent aucun visiteur. Déjà que exalead a du mal à m'en envoyer plus de 10 par trimestre :mrgreen:
 
WRInaute impliqué
@leonick

il est vraiment trop fort

oui effectivement ton deuxième exemple est plus parlant.

par contre dans ta requête tu mets (seulement) annuaire.pro alors que si tu peaufines ta recherche et que tu mets avec les w devant le résultat change et semble plus cohérent.

Cette commande semble fonctionner comme le recherche/remplacer d'un éditeur de texte qui recherche un groupe de mot dans la toile.
 
WRInaute accro
GUITEL a dit:
par contre dans ta requête tu mets (seulement) annuaire.pro alors que si tu peaufines ta recherche et que tu mets avec les w devant le résultat change et semble plus cohérent.
même pas https://www.google.fr/search?hl=fr&q="www.annuaire.pro" dès le 2° site on ne trouve pas de lien. Et ne surtout pas se fier au
Ces termes apparaissent uniquement dans les liens pointant sur cette page :
de google, qu'il affiche dès qu'une page apparait dans ses serp sans que les mots cherchés ne s'y trouve, pour plein de raisons : synonymes, acronymes, ou encore parce qu'il ne trouve rien de mieux et "oublie" volontairement certains critères de la recherche...
 
WRInaute passionné
A propos de "brider", connaissez vous un moyen de restreindre l'accès d'une URL dans Yahoo Site Explorer par mot de passe comme dans les GWT (connexion à son compte nécessaire) ?
 
WRInaute impliqué
detectimmobilier a dit:
A propos de "brider", connaissez vous un moyen de restreindre l'accès d'une URL dans Yahoo Site Explorer par mot de passe comme dans les GWT (connexion à son compte nécessaire) ?
Ca n'existe pas :).

De toute façon, y'a tellement de logiciels (je recommande rank tracker de seopower) qu'on trouvera de toute façon les bl d'un site donné.
 
WRInaute discret
Leur manière de communiquer (chez Yahoo) est peu professionnelle : annoncer qu'un service va fermer fin 2010, puis en mars 2011 pour le voir fonctionner à ce jour.

C'est le problème des services gratuits : comme le client ne paye pas, il n'est pas un client et n'a pas à être pris en compte. Un beau jour, l'API disparaît sans fleur ni couronnes !

C'est d'autant plus surprenant que Yahoo Site Explorer a des données beaucoup plus complètes que Open Site Explorer ou Majestic SEO (ces derniers sont vraiment faibles sur les petits sites non US), lesquels ont en plus une tarification pusillanime. Je pense que cela va perdurer, avec éventuellement une évolution vers un mode payant pour l'API.

La solution que j'ai trouvé à ce problème de services non fiables, c'est d'acheter les données à des spécialistes du scraping massif et brutal et me construire mon petit service à moi : pas de limitation d'api calls, pas de changement intempestif sur l'interface, pas de serveur surchargé, pas de disparition possible du service, etc.

Dans le cas de Yahoo Site Explorer, une telle base n'existe pas à ma connaissance, mais si ces %$+^$\\\ de Yahoo décident de fermer le service, je pense qu'une telle base va apparaître à la vente rapidement. Elle ne portera pas sur 100% des données, car cela n'a aucun intérêt, mais basé sur le résultats de Google obtenus sur les quelques centaines de millions de requêtes les plus importantes sur Google (marché US + Europe). En prenant une moyenne de 10 résultats par requête, on obtient quelques milliards de pages à télécharger, et à raison de 100 par seconde, cela fait une centaine de jours par tranche de 100 millions de requête. C'est du boulot et quelques débours, mais certainement pas le bout du monde !
 
WRInaute accro
French Dread a dit:
Il restera encore actif 1 an ou 2 ans le temps que la migration vers Bing soit achevée dans l'ensemble du monde, puis sera intégré dans les outils Bing. Dans l'immédiat donc pas de panique.
 
Olivier Duffez (admin)
Membre du personnel
mobernard a dit:
Yahoo Site Explorer a des données beaucoup plus complètes que Majestic SEO
je suis assez surpris de lire ceci... car pour pas mal de sites je vois vraiment le contraire. Ca doit dépendre de la taille des sites sans doute.

Si j'ai bien compris, tu as créé ton propre crawler ? Comment fais-tu pour qu'il soit exhaustif ?
 
Discussions similaires
Haut