Connaître son positionnement sur ses mots-clés

YvesB · 25 Décembre 2004

J'ai bricolé un petit script php pour connaitre son positionnement dans GG. Il n'utilise pas l'api donc ces résultats sont cohérant avec le moteur.

Si ce programme intéresse des gens, je pourrait essayer de faire ca avec des stats dans le temps par exemple, les resultats par mail...
enfin bon plein d'options quoi

http://www.afterdreams.com/gg-keys-words/

Bon il faut que j'aille dormir si je veux que le père noel puisse passer !

JeunZ · 25 Décembre 2004

Ca fait peur la page qui charge longtemps... faudrait un truc pour faire attendre, genre les positions qui defilent ^^.

mrik · 25 Décembre 2004

bin ça peut m'intéresser, mais pourquoi il est cohérent puisqu'il utilise pas l'api ? si jamais gg change son formulaire le programme risque de ne plus fonctionner.

allez, pour noël, je donne l'adresse de mon annuaire h**p://annuaire.level141.com pour ceux qui seront inscrits il y aura aussi un prog (qui fonctionne avec l'api) pour connaître le positionnement.

@+ et Noyeux Joël

YvesB · 25 Décembre 2004

Si gg change, jadapte

la mise a jour et pas difficile vu que c'est sur le site. Pour le tps de chargement, c'est vrai qu'il peut etre long si l'on n'est pas présent dans les premieres pages

Photoshop user · 25 Décembre 2004

j'aime bien

bookmark !

moktoipas · 25 Décembre 2004

J'ai beaucoup aussi.

moktoipas · 25 Décembre 2004

YvesB > Je m'apelle aussi Yves et mon nom de famille commence pas un B: tu est moi ou je suis toi ?

YvesB · 25 Décembre 2004

Moi je suis moi et toit t toi !

moktoipas · 25 Décembre 2004

loooooooooool

Madrileño · 25 Décembre 2004

Ajouter aux Favoris c'est sympa tout ces outils :lol:

YvesB · 25 Décembre 2004

Pour ceux qui on testé, il y avait un petit bug sur les résultats mais ca doit etre ok maintenant !

sietjp · 25 Décembre 2004

c sympa mais attention à ne pas trop faire de pub car c'est interdit...

MagicienHumoriste · 25 Décembre 2004

mrik

Très bien bien votre annuaire, avez-vous fait la programmation vous même?
Je suis à la recherche d'un bon script, présentement j'utilise Biz Directory, mais je trouve le vôtre intéressant.

YvesB · 25 Décembre 2004

Il y a des logiciels payants, qui semble faire la meme chose : yooda
Comment font t'ils pour etre legal?

MagicienHumoriste >> merci de ne pas devier mon sujet

Tu devrais lui envoyer un mp pour ce genre de question...

sietjp · 25 Décembre 2004

Oui tu as raison, mais la différence réside dans le fait que yooda fait ses requêtes google une fois pour toutes, enregistre les infos qui l'intéressent dans sa propore BDD et les mets à disposition pour les utilisateurs.
Alors que ta fonctionnalité fait une requête google à chaque utilisation. Tu utilises leur base de données avec ta propore mise en page.

varioflux · 25 Décembre 2004

Salut,

comment tu manipule la page (en php) pour en déduire le numéro de la place ? (si c'est pas trop indiscret !) sur quoi tu discrimine ? (ça me fera gagner du temps !) :roll:

YvesB · 25 Décembre 2004

Sietjp >> Ils la font une fois pour toute, mais sur 40 000 mots et 3 pages,
ce qui fs pour eux aussi beaucoup de requetes

Si il veulent etre pertinent il faut réactualiser cette "base" tout les jours ou tt les deux jours, donc je pense que aussi prennent bcp de ressources ...
Comme eux, je resort juste un positionnement, pas de données style url ou autre...

varioflux >>> Sur quoi ca te fera gagner du temps?

varioflux · 25 Décembre 2004

Ben, sur ton idée j'ai passé ma journée à me bricoler un petit outil similaire. A titre documentaire, ça m'oblige à apprendre...

Je récupère bien les pages. Je m'amuse à aller récupérer le nombre de résultats sur un mot-clef, par exemple, directement dans une variable INT pour des éventuels calculs, mais je vois pas trop comment je pourrais "simplement" déduire la position d'un site au sein de la page résultat, vu qu'il y a des variantes de présentation, des décalages.

Mais je dis ça, je n'ai pas regardé le sourcé envoyé par Google...

Mon idée, c'est d'enregistrer les requetes générées dans une table MySql, puis les résultats dans une autre, afin de me faire un petit système de stats perso pour mes sites, avec courbe de positionnement, par exemple, ou bien tout ce que l'on peut imaginer de déduire des divers résultats...

Mais ça commence par correctement extraire les résultats de positionnement de la page annuaire.

YvesB · 25 Décembre 2004

Et bien voit la source renvoyer par google, reperer les liens a linterieur est un jeu d'enfant

Sinon les stats jours apres jour c'est aussi ce que je veux faire pour mon script...

varioflux · 25 Décembre 2004

<p class=g> ?

Nutspower · 25 Décembre 2004

personellemnent mon programme ce base sur les lien ecrit en vert

dc je repere tout les lien ecrit en vert , les ajoute ds un ptit txt , et test chak ligne pour savoir si c le text recherche

en gros c sa ^^ YvesB fait pareil je supose ? y a plus simple ?

YvesB · 25 Décembre 2004

Oui c le meme principe

varioflux · 25 Décembre 2004

Et il existe une liste des paramètres possibles ?
Tel que "&sa=N" ?

Nutspower · 25 Décembre 2004

alors tout droit sortie de ma source :

https://www.google.fr/search?q='+TARECHE ... =1&start=' + LENUMERODEPAGE+ '&sa=N'

TARECHERCHE = c explicit je pense
LALANGUE =
_ Web => RiEN => ""
_ francophone => lang_fr
_ france => &cr=countryFR

LENUMERODEPAGE =
0 => Page 1
10 => Page 2
30 => Page 3

J hespere sa t aidera

varioflux · 25 Décembre 2004

Merci, je les avait vu pour la plupart.

Reste le "&sa=N"
et "&c2coff=1" que personnellement je n'ai pas chez moi !

Bon WE

Nutspower · 25 Décembre 2004

c normal que tu ne les ai pas

clic sur page 2 ou page 1 et tu aura un lien comme sa

varioflux · 26 Décembre 2004

Il n'y a pas toujours le résultat en vert. Exemple :
h--p://www.google.fr/search?q=dressage+chien&hl=fr&lr=&newwindow=1&start=90&sa=N

Où une ligne apparait tel quel :
"www.l-internet-facile.com/moteur.php?z=lorraine%20animaux%20chien%20dressage&action=annuaire&cmh=0&cmot=1Pages similaires"
sans rien de plus...

YvesB · 26 Décembre 2004

j'ai retiré le programme, en effet, il semble que GG modifit légerement les résultats par cette methode rendant le classement inexploitable. Je prefere verifier cela. Si quelqu'un a deja eu un probleme dans ce genre ca serait cool de m'eclairer ...

++

YvesB · 26 Décembre 2004

Apres verifications, je suis désormai sur : Google change ses résultats si on lui ouvrent les pages en fopen().

il ne nous empeche pas de l'ouvrir, il ne bannis pas notre ip, non, répond juste faux !

Décidément, le grand G m'etonnera toujours !

Nutspower · 26 Décembre 2004

probleme qu'il n y a pas chez mon programme

YvesB · 26 Décembre 2004

Etonnant ... Et bien donc c a toi que reviens le tache de creer un prog qui verifie chaque jour le positionnement de nos mots clés !

De mon coté, je suis bien decu davoir passé autant de temps a faire ce script ...

Enfin je serais toi je verifirais bien la pertinence des résultats car j'ai mi du temps a m'en apercevoir

florianb · 26 Décembre 2004

Bonjour,

Préviens nous lorsque le programme sera de nouveau en ligne, si tu trouves une solution au problème évoqué.

Florian

varioflux · 26 Décembre 2004

Ben moi, pour l'instant, je ne pense pas que GG change les résultats : il changent d'eux même tout seul à chaque instant... C'est la méthode de pioche dans les pages qui doit être affinée... par des boucles for ou while, selon les cas.

Voilà où j'en suis :
1) Chercher <div>
2) pour le nombre de type de requetes (web/franco/france)
3) pour le nombre de pages
4) isoler les paragraphes commençant par <p class=g> et se terminant par </table>...
5) isoler les champs interessants

Je n'ai pas encore trouvé de page me permettant d'infirmer ceci...
Mais je charge tout dans des tables en mémoire, je n'écris pas au fur et à mesure dans un txt, ce qui me permet de ne pas oublier les itérations précédentes...

varioflux · 26 Décembre 2004

1) Chercher <div>
2) pour le nombre de type de requetes (web/franco/france)
3) pour le nombre de pages

le 1) est à mettre en 3) bien sûr... désolé !

varioflux · 26 Décembre 2004

D'autant qu'il y a les [PDF] et autres https qui viennent se méler à tout ça...

varioflux · 26 Décembre 2004

Et d'autant que la position est directement dans :
return clk(this,'res',XX)

XX étant le numéro de la position par rapport à la requete !
Bien la peine de réinventer la roue !

chmouc · 27 Décembre 2004

Il faudrait travailler sur les ips et pas sur l'adresse www.google.fr
Essayez avec 216.239.57.104

++

varioflux · 27 Décembre 2004

return clk(this,'res',XX)

Je ne comprenais pas pourquoi je n'arrivais pas à retrouver ces liens dans mes pages chargées alors qu'ils y sont dans les pages visibles...

Google ne manipule pas les résultats à cause du fopen (je ne pense pas qu'il puisse voir la différence avec un accès autre, c'est du http) mais il envoie des résultats qui tiennent compte des caractéristiques du brouteur utilisé.

Après tout : nous faisons tous de même, pas d'envoi de flash si support non détecté (par exemple), et Google n'envoie pas les liens javascript si le brouteur n'en semble pas capable... Ce qui explique les subtiles différences...

Quelqu'un sait comment manipuler ces caractéristiques ?
Il doit forcément y avoir un moyen de se faire passer pour un simple explorateur, non ?

caro · 27 Décembre 2004

de toute manière google déconseille dans ses règles de chercher dans les résultats avec des taches automatisées.
pour cela il a mis à disposition l'api justement.
attention à ne pas se faire sanctionner en employant des taches qui demandent trop de ressources au moteur.

chmouc · 27 Décembre 2004

Oui mais il y a un truc que j'ai toujours pas compris c'est pourquoi l'api de google ne donne pas les même résultats que www.google.fr

YvesB · 28 Décembre 2004

Caro le prob de l'api est que les resultats sont differents, donc inexpoiltable. sinon on ne ce casserait pas la tete a faire des fopen sur le google !

Guy Hoquet Yerres · 28 Décembre 2004

Se casser la tete ? Bah avec quelques lignes de perl, on fait ca sans probleme en 2 mn avec Mechanize par exemple. Mais bon, comme dit caro, c'est interdit...

YvesB · 28 Décembre 2004

si la version "legal" de recuperation d'info etait suffisante, on se "casserait pas la tete" a passer par le site de google.

Guy Hoquet Yerres · 28 Décembre 2004

Arrete de te casser la tete alors.
Voila une piste. ;-)

Code:

    $url = "https://www.google.fr/";
		$myUserAgent->get($url);
		$myUserAgent->follow_link( url_regex => qr/preferences/i );

    $myUserAgent->submit_form(
        fields      => {
            num    => '100',
        }
    );

		
		@forms=$myUserAgent->forms();
    $myUserAgent->submit_form(
        fields      => {
            q    => $keyword,
            meta    => 'Pages francophones',
            
        }
    );

		$content = $myUserAgent->content();
		$root    = HTML::TreeBuilder->new_from_content($content);

		# recherche des resultats <p class="g">
    my @results_p = $root->look_down( '_tag', 'p', 'class', 'g' );
    
    
    $counter=0;
    foreach $result (@results_p) 
    {
    	$counter++;
    	$node_link=$result->look_down( '_tag', 'a');
    	$url= $node_link->attr('href');
      if ( index( $url,$site ) >=0 )
      {
      	last;
      }
    }
    
    if ( $counter !=0 && $counter !=100)
    {
 		    print "Le site $site a ete trouvé pour la recherche $keyword à la position $counter \navec l'url : $url\n";
		}

caro · 29 Décembre 2004

ce n'était qu'un conseil :cry:
on a déjà vu des sites se faire blacklister par google pour avoir mis des taches automatisés et pris trop de ressources sur les serveur.

Pouzy · 29 Décembre 2004

Page devenue 404 :/

Guy Hoquet Yerres · 29 Décembre 2004

caro a dit:
ce n'était qu'un conseil :cry:
on a déjà vu des sites se faire blacklister par google pour avoir mis des taches automatisés et pris trop de ressources sur les serveur.

J'en suis persuadé et c'est pour ca que je me contente du service digital point qui utilise l'api google et qu'il manque la premiere ligne au script ci-dessus pour etre fonctionnel ;-).
Pour le "fun" vu cette discussion, j'ai complete neanmoins ce script perl en stockant l'historique des resultats dans une base sqlite. Ca va tout de meme beaucoup plus vite que par l'API et genere beaucoup moins de "requetes" que d'appels soap à Google.
Pour un usage perso en restant en dessous des 50 requetes par jour, je ne pense pas qu'il y aurait de soucis. Pour un site web offrant ce service, par contre, c'est clair que son sort serait le blacklistage tres vite...

Boeing · 2 Janvier 2005

arf le site est down

dommage ..
ça serait bien de voir l'evolution suite à la nouvelle GD

blueshit · 2 Janvier 2005

Pouzy a dit:
Page devenue 404 :/

J'ai meme pas pu essayer :?

varioflux · 2 Janvier 2005

ce n'était qu'un conseil
on a déjà vu des sites se faire blacklister par google pour avoir mis des taches automatisés et pris trop de ressources sur les serveur.

Pas vraiment... Ce genre de script d'usage régulier (puisque l'objet est de se faire des stats perso) n'est pas destiné à être mis en ligne...

Moi je le lance de chez moi, avec easyphp, et mon ip wanadoo change toutes les 24 heures... Alors qu'est-ce qu'ils peuvent bien blacklister ?

Je pense que cette limitation n'est valable que pour les sites en ligne, par définition !