Un peu plus qu'un analyseur de densité

WRInaute discret
Bonjour,
J'ai créé un système qui analyse les mots clés présents sur une page. Je teste ce service depuis quelque temps sur un autre de mes sites (scapture.com), mais je viens de créer un site digne de ce nom tout en changeant pas mal de trucs : http://alyze.info/

A la base, c'est un analyseur (avancé) de mots-clés dont je me sers à titre perso, mais au fil des développements c'est devenu beaucoup plus que ça. Et je me suis dit que ça pouvait servir à d'autres... et voilà alyze.info !

Dans les idées que j'ai en tête et sur lesquels j'aimerais votre avis :
  • Faire des pages d'aide à la conception sur lequel le webmaster serait invité à se rendre, par exemple si son site renvoie un entête HTTP incorrect, proposer une page d'explication sur les entêtes HTTP, le fonctionnement avec Apache, PHP, etc.
  • Analyser les liens internes et externes sur la page.
  • Faire un moteur de recherche à partir de ces analyses (je rêve un peu !).
  • À partir des analyses déjà réalisées, suggérer des mots-clés présents sur les pages traitant du même sujet.

Critiques et idées sont les bienvenues.

Edit : Les
recommander.gif
sont également bienvenues. ;)
 
WRInaute passionné
j'ai un soucis en analysant le site lamogere.fr : le mot "château" n'est pas détecté mais il y a "ch" et "teau"
=> le â pose donc problème

sinon l'outil est bien fait => une reco
 
WRInaute discret
Merci !

webmasterlamogere a dit:
j'ai un soucis en analysant le site lamogere.fr : le mot "château" n'est pas détecté mais il y a "ch" et "teau"
=> le â pose donc problème
C'est corrigé (il s'agissait d'un oubli dans une expression régulière).
 
Nouveau WRInaute
Super :-) Je débute dans le référencement et ca donne un très bon aperçu du visuel que peut avoir le moteur de recherche sur sa page d'acceuil (et autres).
Merci.
 
WRInaute passionné
Reco + marque-page.
Bel outil, il serait effectivement pertinent d'avoir accès à la formule de densité, et mieux, de pouvoir la définir soi-même, personne n'étant sûr des critères appliqués par les moteurs.

J'extrapole mais tu pourrais imaginer du coup un mini-classement des formules de pondération les plus utilisées, ça pourrait être intéressant.

Edit : y'a une extension FF qui propose ce principe : https://addons.mozilla.org/fr/firefox/addon/4788
 
WRInaute occasionnel
kalex a dit:
Critiques et idées sont les bienvenues.

Très bon outil (+1 reco)

Une option que je trouverais plus qu'utile c'est la possibilité également d'analyser les expressions en plus des mots clefs (2 mots, 3 mots, etc.)

sinon c'est un très bon KGen online !
 
WRInaute discret
Que de bons commentaires ! Ca fait vraiment plaisir.

En plus, vous avez de bonnes idées. ;)

Tilt > C'est vrai que je devrais faire quelque chose pour les redirections. Je pense à signaler clairement qu'il s'agit d'une page de redirection et faire un lien vers l'analyse de la page pointée, comme ça les utilisateurs resteront informés que l'URL qu'ils entrent n'est pas une "vraie page".

ADIDASman & dadovb > Très bonne idée ! Il faudrait non seulement détailler la formule (une trentaine de variables), mais aussi permettre de la personnaliser. A priori, ça ne devrait pas être trop compliqué à faire vu mon code, mais le diable est dans le détail.

sr > Bien sur, tu peux ajouter alyze sur ton site. Par contre, il se peut que je change quelques trucs au formulaire pour soumettre les pages.

pierre_jean > Pour les expressions de 2 ou 3 mots, c'est pas prévu, mais pourquoi pas, ça peut être utile.

Je vous tiens au courant ici même de mes travaux. Pour l'instant, je vais me pencher sur un système antispam, car mon hébergeur risque de ne pas apprécier si ce site se popularise avant que ce soit en place. :lol:
 
WRInaute accro
Bien sympa...

On a un outil à usage essentiellement interne (pour le moment) qui fait le même genre de choses:

http://www.oxado.com/bin/checkpage

Son objectif initial était surtout de tester notre algo de détection de langue, mais il fait aussi une analyse de mots-clefs à notre sauce. Avantages par rapport au tien:
- il détecte donc la langue (dans la plupart des cas), avec un certain nombre d'informations de la façon dont il est arrivé à cette conclusion, et des avertissements sur les incohérences
- il élimine les mots peu importants ("et", "le", "la" etc...), en fonction de la langue (avec plus ou moins de succès suivant les langues): c'est la l'une des motivations sur la détection de la langue en fait
- il gère des N-grammes (avec N de 1 à 3)
- il affiche les liens, frames, etc.
- il est possible (même si ce n'est pas dans l'interface) d'indiquer la langue "voulue" (pour les pages qui varient avec la langue) en changeant le &language=xx dans l'URL
- il gère les redirections

Inconvénients:
- il est nettement plus "cryptique"

La pondération semble aussi assez différente entre nos outils, et les "unités" ne sont pas forcément les mêmes non plus

Feedback welcome évidemment...

Jacques.
 
WRInaute discret
Je viens d'ajouter deux fonctions :
  • La détection des redirections, mais ça ne se fait pas automatiquement (vous êtes invités à soumettre la page visée), car il peut être utile de savoir qu'une URL n'est qu'une page de redirection (par ex. pour vérifier s'il s'agit d'une redirection permanente ou temporaire).
  • Un onglet "Liens" différenciant les liens internes et les liens externes, donnant le texte affiché, le nombre de lien pour une URL, etc.
    Je pense que ça peut être utile pour vérifier le linking d'une page (je me suis rendu compte de certaines insuffisances sur mes propres sites avec cette fonction !).
Le reste ? A suivre... :lol:

jcaron > Attention, tout ton design est filtré par Adblock avec EasyList. Sinon, bravo pour ton service, qui ne semble toutefois pas avoir le même but qu'alyze (aide au webmaster).
 
WRInaute discret
Pour ceux qui m'avaient demandé de rendre publiques les pondérations effectuées, je commence avec cette petite page où je pense avoir listé les variables les plus importantes : http://alyze.info/InternalVars
Permettre aux utilisateurs de les modifier serait surement intéressant...

C'est la deuxième "fonctionnalité" que je crée grâce à vos suggestions. Merci. ;)
 
WRInaute passionné
kalex a dit:
Pour ceux qui m'avaient demandé de rendre publiques les pondérations effectuées, je commence avec cette petite page où je pense avoir listé les variables les plus importantes : http://alyze.info/InternalVars
Permettre aux utilisateurs de les modifier serait surement intéressant...

C'est la deuxième "fonctionnalité" que je crée grâce à vos suggestions. Merci. ;)

bien vu.

Poids du titre (par défaut) : 13
Ca correspond à la balise title ?
 
WRInaute discret
Oui, c'est bien le <title>.

Là j'avais plusieurs choix, soit pondérer le titre et les métas comme des balises ordinaires, soit leur attribuer un poids par rapport au body. J'obtiens de meilleurs résultats avec cette dernière technique, mais ça pourra éventuellement faire l'objet d'une option lorsque les utilisateurs pourront définir eux-mêmes leurs critères (j'ai parlé au futur ? merde maintenant, il faut que je le code :lol:).
 
WRInaute passionné
As-tu essayé de faire une corrélation entre ton outil et des classements présent sur Google (notamment pour la pondération) ? Où c'est plutôt à la louche ?

Je demande ça, parce que je ne vois pas l'intérêt d'un tel outil. Ou plutôt, je vois difficilement comment appliquer une telle méthode à chaque page d'un site, à moins d'avoir vraiment beaucoup de temps sur chaque page créé. Sachant qu'en plus, personne ne peut dire ce qui est optimal.
 
WRInaute discret
Tout est sur le site : "Ce classement ne vise pas à reproduire le comportement de tel ou tel moteur de recherche. Il s'agit plutôt d'une analyse (forcément subjective) produite avec un grand souci de rigueur et de bon sens."
 
WRInaute discret
Pour ce qui est de classer les termes par deux ou trois, après avoir travaillé sur la question pendant quelques heures, je pense que classer des mots clés composés de plusieurs mots clés n'a pas de sens, du moins avant la recherche.

Je sais, c'est surprenant, mais prenons un exemple, c'est assez simple. Le blog de Maître Eolas s'intitule "journal d'un avocat". Ce qui est important, c'est "journal" et "avocat", mais ces deux termes sont quand même séparés par deux mots. De plus, "journal" et "droit" serait tout aussi approprié pour une recherche, mais ces deux termes n'apparaissent pas cote à cote. De même pour "avocat" et "blog", "justice" et "droit", etc.

Si je veux classer les mots clés par deux ou trois, il me faut absolument des statistiques de recherche. Et je n'en ai malheureusement pas (Google si tu me lis, j'ai 120 Go de libres sur mon disque ;) ).

Sinon, une fonction intéressante serait de permettre d'entrer plusieurs mots clés puis que le système dise pourquoi ils sont ou ne sont pas adaptés à la page.
 
WRInaute passionné
Bonjour Kalex,

Merci de ton "autorisation" pour mettre ton service sur SEOrapido,

par contre, si tu mets un capcha, cela ne pourra pas fonctionner.
Peux tu me valider le fait que tu va en mettre un ou bien as tu abandonné cette idée ?

A+
 
Olivier Duffez (admin)
Membre du personnel
bravo kalex c'est intéressant (j'ai aussi un outil interne de ce type). Je ne vois pas bien pourquoi tu te limites aux mots simples (expressions de 1 mot) vu que ce ne sont pas toujours les requêtes qui nous intéressent le plus à travailler en référencement.
Sinon, tu t'es basé sur quoi pour la pondération ?
 
WRInaute accro
kalex a dit:
Pour ce qui est de classer les termes par deux ou trois, après avoir travaillé sur la question pendant quelques heures, je pense que classer des mots clés composés de plusieurs mots clés n'a pas de sens, du moins avant la recherche.

Je sais, c'est surprenant, mais prenons un exemple, c'est assez simple. Le blog de Maître Eolas s'intitule "journal d'un avocat". Ce qui est important, c'est "journal" et "avocat", mais ces deux termes sont quand même séparés par deux mots. De plus, "journal" et "droit" serait tout aussi approprié pour une recherche, mais ces deux termes n'apparaissent pas cote à cote. De même pour "avocat" et "blog", "justice" et "droit", etc.

Il y a là deux problématiques différentes: repérer les séquences de mots (donc "journal avocat" par exemple ici) et repérer les combinaisons de mots (donc "blog avocat" par exemple). La deuxième est implicite quand on a la liste des mots individuels, il suffit de faire un produit cartésien de la liste avec elle-même, et de trouver une opération de combinaison du score de chaque (addition ou multiplication a priori). Bref, rien de bien utile en soi, on comprend bien que la combinaison des deux mots les plus "forts" sera plus forte que la combinaison du 100e et du 200e...

Pour la première, je pense que les moteurs font effectivement la différence entre les mots pris de façon isolée dans le texte, et ceux qui se suivent, et c'est pour ça que c'est important (si tu tapes "blog avocat", il va chercher les pages qui contiennent "blog" et "avocat", mais je pense que ceux qui contiennent la séquence "blog avocat" seront privilégiés). En fait j'ai un vague souvenir d'un vieux papier de Google sur le fonctionnement de tout ça (la thèse des deux larrons peut-être?) qui incluait une notion de "proximité" plutôt que de séquence en fait. Pour faire simple, il faut donc repérer les N-grammes, en éliminant évidemment les mots non significatifs ("de", "un"...).

C'est d'ailleurs ce qu'on fait nous:

http://www.oxado.com/bin/checkpage?url= ... -eolas.fr/

Où on constate que les séquences de mots arrivent assez tardivement dans le classement ici (sur d'autres sites ils arrivent beaucoup plus tôt), et que "journal avocat" arrive assez loin.

Clairement on n'a pas du tout la même pondération que toi (d'ailleurs sur un autre exemple je suis arrivé à la conclusion que tu ignores les alt et autres title sur les images... volontaire ou oubli?). Clairement je crois que tout le monde peut être d'accord pour dire que ce n'est pas facile de trouver les "bonnes", aussi bien pour "reproduire" ce que font les moteurs que pour les moteurs eux-mêmes qui doivent fonctionner avec tous les sites, qui ont des structures très différentes :-( Les "alt" sur les images sont l'exemple typique: sur certains sites il est indispensable de les utiliser pour avoir un tantinet de contenu intéressant, sur d'autres ils n'introduisent que de la pollution...

Jacques.
 
WRInaute discret
jcaron > Merci pour tes conseils ! En fait, j'arrive à peu près aux mêmes conclusions que toi, c'est-à-dire que la proximité de deux termes est importante, mais pas déterminante. Je continue à travailler sur la présentation de plusieurs termes, mais je ne publierais ça que lorsque ça sera satisfaisant.
Je précise tout de même que le but n'est pas d'interpréter toutes les pages, même mal conçues, de façon optimale. Ca, c'est un boulot de moteur de recherche. Le but c'est de déterminer si une page est bien conçue, justement pour faciliter le boulot des moteurs.

Un autre merci pour l'attribut atl des images, la fonction n'était tout simplement pas activée ! Maintenant, ça fonctionne.

WebRankInfo > Pour la pondération, je me suis basé à la fois sur ce que dit le W3C de ses balises et sur l'expérience. Sur une sélection de pages bien référencées et bien conçues, j'ai essayé de faire en sorte que les mots décrivant le mieux la page apparaissent en premier.

sr > Non pas de capcha, plutôt un système de cache de quelques secondes. :)
 
Nouveau WRInaute
J'utilise le module SEO Quake pour la densité. Quand j'ai vu ton outil, je me suis dit super, il fait la différence entre la pondération d'un malheureux alt et un mot placé dans l'url.
Parcontre les combinaisons de mots n'y sont pas.
Les outils sont donc complémentaires!
 
WRInaute discret
Merci pour la liste des valeurs que tu utilises pour la pondération.
Ca donne encore plus de valeur à l'outil de comprendre son fonctionnement !
 
WRInaute discret
Je viens d'ajouter le classement des mots clés par paires (je ne vais pas au-delà pour le moment). Je pense être arriver à un résultat correct, même si je ne crois toujours pas que c'est la fonctionnalité du siècle. C'est d'ailleurs plus dur de décrire la méthode utilisée puisqu'il ne s'agit plus simplement de pondération ; il faut aussi prendre en compte la proximité et la nature des mots.
En tout cas, ça bouffe pas mal de ressources ! J'espère que mon hébergeur va tenir. :wink:
 
WRInaute discret
Encore une fois, c'est vraiment un bon outil.
J'en profite pour ajouter que j'aime beaucoup le design light et pro.

Concernant l'utilisation de ressources, j'imagine que ça doit être pas mal effectivement ;)

En tout cas félicitations et merci de partager cet outil avec nous.
 
WRInaute passionné
kalex, pour info, sur ton WWW, les liens se trouvant dans le header (Captue / analyse etc.) ne sont pas cliquables sous FF 3 ce qui rend la navigation impossible du coup. (sous IE 7 ça fonctionne par contre)
 
WRInaute discret
Après quelques tests supplémentaires, je trouve ma fonction de classement de mots-clés par paires pas si mal foutue que ça. Heureusement que certains ont insisté pour que je me penche vraiment sur le sujet. ;)

Pour vérifier, j'essaye de toujours prendre des sites bien référencés sur google, par exemple :
webrankinfo.com : 1ère paire trouvée "référencement google", ce site est premier sur la même recherche sur google !
De même pour :
openweb.eu.org avec "standards web"
boursorama.com avec "bourse paris".
maitre-eolas.fr avec "journal avocat".
developpez.com avec "club développeurs"
hardware.fr avec "hardware guide" (enfin, seconde place sur google ;)).
hoaxbuster.com : avec "hoax francophone".

Bon, je n'ai pas encore percé les mystères de l'algorithme de google, car je ne parle évidemment pas de tous les sites où la première paire est débile. :o

Mais même lorsque je trouve une première paire, a priori, nullissime comme "service précédent" pour societe.com, une recherche sur google sur "service précédent" place societe.com en premier !

<hs>
tonguide > Merci ! Je répare un bug avec IE et il en apparaît un sur Firefox. Scapture.com est décidément maudit en ce moment.
</hs>
 
WRInaute discret
Cette nuit, après une bonne soirée, j'ai seulement eu le temps de mettre en place un petit système de cache.

Ce système a deux facettes :
  • Pour prévenir le flood, une nouvelle analyse pour une même page ne peut être générée que 20 secondes après la première (20 secondes, je crois que ça ne gênera personne).
  • Il est possible de lier directement une analyse, par exemple : http://alyze.info/?url=https://www.webrankinfo.com
    Là, la page reste en cache pendant 6 heures (ce qui n'empêche pas d'obtenir une nouvelle analyse en cliquant sur le bouton).
 
WRInaute discret
kalex a dit:
j'ai seulement eu le temps de mettre en place un petit système de cache.
Je trouve au contraire que tu avances à grands pas.

kalex a dit:
Il est possible de lier directement une analyse, par exemple : http://alyze.info/?url=https://www.webrankinfo.com
Maintenant que tu as mis en place ce système, ce serait très pratique si on pouvait avoir un lien (ou bouton) vers http://alyze.info/?url=une-page-liée dans l'onglet Liens après avoir analysé une page.
 
WRInaute discret
kalex, je vous tire mon chapeau
hat.gif

Vos développements sont superbes ! L'analyse est très bonne et la fonctionnelle impeccable.
Du travail de grand pro. :D
 
WRInaute discret
De coup, je viens d'ajouter la gestion des frames et des iframes. Je ne les inclus pas automatiquement, car les moteurs de recherche ne le font pas, mais j'affiche un avertissement avec des liens pour analyser séparément chaque frame.
 
WRInaute discret
kalex a dit:
Après quelques tests supplémentaires, je trouve ma fonction de classement de mots-clés par paires pas si mal foutue que ça. Heureusement que certains ont insisté pour que je me penche vraiment sur le sujet. ;)
et ils ont très bien fait !
kalex, ça devient vraiment brillant ton truc !
 
WRInaute discret
Ces derniers jours, je n'ai pas eu le temps de faire beaucoup de chose sur l'analyseur lui-même. J'ai juste créer un "mini blog" (VRAIMENT mini pour l'instant) pour faire ce que j'ai fait jusqu'à présent sur ce topic : informer sur le développement d'Alyze.
http://alyze.info/Blog/
 
WRInaute impliqué
Super un outil qui calcule aussi bien la densité des mots clés pour une page...

Une idée d'évolution serait de faire le même qui calculerait la densité de mots clés pour tout un site... Un peu comme doit le faire Google.

Au final c'est sûr qu'on optimise des pages une par une, c'est l'unité que référence au final le moteur de recherche, mais un tout est supérieur à la somme de ses parties, et dans une campagne de référencement globale, l'idéal serait de pouvoir connaître la moyenne des termes les plus utilisés sur tout le site.

Enfin, je rêve bien sûr ! J'imagine qu'un tel outil serait difficile à concevoir et lourd à utiliser...
 
WRInaute discret
C'est une bonne idée, mais qui demande de grosses ressources. Si je me lance là-dedans, mon outil sera très proche d'un véritable moteur de recherche. Il ne me restera plus qu'a enregistrer les résultats des analyses puis à ajouter une variable de pondération en fonction du nombre de liens vers une page et de la qualité de ces liens.
Bon, j'y pense, mais pour l'instant, j'ai rien de concret...
 
WRInaute impliqué
Merci Kalex, c'est facile à dire pour moi il faudrait faire ceci cela ;-)

j'imagine que ce genre d'outil demande des heures de travail, de la ressource en machine, hébergement... etc

En tous cas l'outil existant est vraiment super !
 
WRInaute passionné
Pourquoi toujours insister sur l'analyse de la densité d'une page ?
Les moteurs ne raisonnent pas en termes de densité, mais plutôt d'occurrence.
Je n'ai jamais compris cette fascination pour un critère qui ne correspond à rien de tangible par rapport aux principes du référencement.
 
WRInaute passionné
C'est ce que je disais plus haut, mais il faut croire que ça aide quand même, si il y a tant de monde intéressé ?
 
WRInaute discret
thickparasite a dit:
Pourquoi toujours insister sur l'analyse de la densité d'une page ?
Les moteurs ne raisonnent pas en termes de densité, mais plutôt d'occurrence.
On ne peut parler d'occurrence sans parler de densité. Si tu comptes le nombre d'occurrences de chaque mot-clé présent sur une page, tu fais déjà un calcul de densité.

Par exemple, si tu trouves sur une page 35 fois le mot "vacances" et 2 fois le mot "voiture", on peut déjà dire que la densité de "vacances" est plus importante que celle de voiture. Basique !

Il est évident que les moteurs de recherche, et encore plus les bots comme Mediapartners, font la même chose (de manière beaucoup plus évolué) afin de déterminer le sujet d'une page.
 
WRInaute passionné
La densité prend en compte le nombre total de mots, tandis que les occurrences ne prennent pas en compte ce paramètre.
Subtile, mais ô combien importante différence !
Il est donc tout à fait possible de parler d'occurrence sans mentionner la densité.
Je sais bien que certains pensent comme toi, mais je n'ai pas du tout cette vision.
De plus, l'analyse d'une page me semble bien maigre hors de son contexte (le reste du site, la thématique, la concurrence).
Le véritable outil dont j'ai besoin n'existe pas car il faut prendre en compte beaucoup plus de paramètres qu'une simple division du nombre d'occurrences par le nombre total de mots.
En se basant sur le critère de densité, c'est comme si vous partiez à la guerre armé d'un cure-dent contre les bombes thermo-nucléaires de Google.
 
WRInaute discret
Le nombre total de mots est forcément pris en compte. Une page de 3000 mots où apparait 4 fois le terme voiture ne va pas afficher des pubs pour des voitures ou répondre correctement pour ce terme lors d'une recherche. Ce qui ne sera pas le cas d'une page de 400 mots ou ce terme apparait 3 fois dont l'une dans le titre. Fait le test !

Et si tu utilises alyze.info, tu te rendras compte que ça fait "un peu plus" que diviser le nombre d'occurrences par le nombre total de mots.
 
WRInaute impliqué
Ce qui compte en définitive, c'est d'optimiser une page pour une expression.
Il faut donc à mon avis que cette expression soit la plus utilisée de la page non ?
Et pour cela on utilise le calcul de la densité.

Pareil pour un site en général, on va calculer l'expression qui a la plus forte densité sur le site, dans les textes, les title, les h1, la page d'accueil, surtout les ancres des liens... etc.
 
WRInaute discret
luxe-campagne a dit:
Ce qui compte en définitive, c'est d'optimiser une page pour une expression.
Il faut donc à mon avis que cette expression soit la plus utilisée de la page non ?
Il faut tout de même faire attention à la suroptimisation. Sur Alyze, j'ai un filtre qui tente de détecter ce genre de choses, mais c'est sûr que Google a des moyens beaucoup plus efficaces pour détecter qu'une page n'est pas naturelle (quoi que j'ai déjà vue des pages sans texte cohérent très bien placées sur Google !).

Par ailleurs, j'ai créé un nouvel onglet sur Alyze. Il permet de vérifier les images trouvées sur la page.
 
WRInaute passionné
Vous oubliez de prendre en compte la concurrence. Google ne voit pas une page sans la comparer aux autres. Pour établir les critères de suroptimisation, il faut voir comment se comporte la requête et surtout les concurrents.
Sur ces paramètres, toutes les thématiques ne se réagissent pas de la même manière et cela va même jusqu'à s'étendre requête par requête.
Encore une fois, l'outil que j'ai en tête n'existe pas.
 
WRInaute discret
thickparasite a dit:
Vous oubliez de prendre en compte la concurrence. Google ne voit pas une page sans la comparer aux autres. Pour établir les critères de suroptimisation, il faut voir comment se comporte la requête et surtout les concurrents.
Sur ces paramètres, toutes les thématiques ne se réagissent pas de la même manière et cela va même jusqu'à s'étendre requête par requête.
C'est vrai, mais à la marge. Google n'a pas le fonctionnement mystérieusement intelligent et quasi magique que certains lui prêtent. C'est même un outil assez naïf (voir par exemple la pratique du Google Bombing).

Prenons ta page en www (7-dragons.com). La première paire que je trouve sur Alyze, c'est "google référencement" , sur cette recherche tu es second sur Google (juste dernière WRI).
C'est surement dû à la qualité de ton travail, ok. Mais je ne crois pas que ce soit un hasard qu'un outil comme Alyze, qui se base sur le calcul de la densité, arrive à déterminer très souvent les expressions sur lesquelles la page testée répond le mieux. Le calcul "intelligent" de la densité est forcément un critère fondamental pour les moteurs de recherche, mais eux se chargent de contextualiser cette information.
 
Olivier Duffez (admin)
Membre du personnel
thickparasite a sans doute en tête des notions de cooccurrences qu'il est utile de connaître. Si je vulgarise rapidement, en imaginant qu'il existe un indice de densité idéal (non non : ne me tapez pas !), cet indice serait différent selon les secteurs d'activité, dépendant de l'utilisation des mots-clés concernés sur les autres pages du web. Voilà pourquoi il est illusoire de vouloir calculer un indice de densité pour expliquer le fonctionnement de Google (ou alors il faudrait disposer de l'index de Google sur son serveur).
 
WRInaute passionné
@ kalex : Ben moi je dis que Title + BL font déjà des miracles.
Je n'ai jamais pris en compte le critère de densité, et pourtant ça marche.
Les tests que j'avais effectué n'ont jamais rien prouvé non plus. J'ai beau changer la densité, ça ne bouge pas.

Et si tu crois que Google n'est pas capable d'analyser la requête dans sa globalité plutôt que page par page, j'affirme que tu te trompes lourdement. Le moteur n'est pas sémantique, mais il sait très bien calculer.
 
WRInaute discret
Il ne faut pas tout mélanger. Alyze est un outil qui détecte les mots-clés les plus pertinents pour une page donnée. J'ai jamais dit que Google s'y prenait de la même manière. Je n'ai d'ailleurs jamais essayé d'imiter son comportement. C'est un outil que j'ai développé au départ pour moi-même avec mes propres critères. Et objectivement, je trouve que les résultats sont plutôt bons. :o
 
WRInaute discret
<hs>
Je viens de me rendre compte que je suis déjà dans dmoz. Alyze a à peine 15 jours et je ne l'ai pas soumis immédiatement ! Je me souviens avoir attendu des mois et des mois pour d'autres sites.
C'est plus rapide qu'autrefois ou j'ai simplement du bol ?
</hs>

Sinon, nouvelle petite fonctionnalité : les mots présents dans l'URL sont pris en compte (vous n'avez pas rewrité votre site pour rien ;) ).
 
WRInaute impliqué
Je trouve cet outil très utile et bien fait.

La densité n'est pas tout pour le positionnement, mais je crois fortement que la sur-densité est un facteur conduisant à des pénalités GG.

J'ai d'ailleurs déjà eu la même intuition que Thickparasite : j'avais tendance à avoir une densité trop forte sur des pages principales de mon site, j'ai regardé quel indice avaient les concurrents dans les premiers résultats de Google et j'ai rapproché mon chiffre du leur. (Pour ma page d'accueil sur "campagne" par exemple)

Je viens de calculer les indices de co-occurrence pour les recherches associées que propose Google sur "campagne" :
"campagne photos" + "presidentielle"
Cet indice n'est vraiment pas élevé, sauf l'indice EF pour "campagne présidentielle".
 
WRInaute discret
Oui, la densité n'est pas tout, je suis le premier à le dire. D'ailleurs, si on veut se fier qu'au nombre d'occurrences (comme le suggère thickparasite), il suffit de regarder la colonne "Occ." sur Alyze. Mais par comparaison, on va TOUJOURS finir par faire une sorte de calcul de densité, c'est inévitable.
 
WRInaute passionné
Pourquoi tu dois obligatoirement te baser sur la densité ?
Olivier nous montre un outil de calcul de co-occurence qui me va bien mieux que le calcul de densité.
C'est faux de vouloir véhiculer l'idée que la densité est inévitable.
Encore une fois, les moteurs ne calculent pas du tout en termes de densité. Ce paramètre est une extrapolation de référenceurs qui ne reflète pas la réalité.
 
WRInaute discret
Que tu me parles de cooccurrences, je comprends très bien : c'est une notion importante qu'Alyze ne gère pas pour l'instant.
Je suis ouvert aux critiques !

Par contre, nier l'importance de la densité est aberrant. Restons très très très basiques : un site qui a une densité de 3% pour le mot Linux et 0,1% pour le mot Windows ressortira mieux pour la requête "Linux" que pour la requête "Windows". Je peux parler en terme d'occurrences, ça revient au même : Linux à 30 occurrences, Windows en a une, la page fait 1000 mots.

De même, un site avec 10% de densité sur "Gratuit" va paraitre louche.
 
WRInaute discret
Merci, pour les recos et les encouragements. C'est super de voir cette discussion dans les meilleures discussions de WRI !

Sinon, en ce moment, j'ai pas trop le temps de coder. Deux nouveautés tout de même :
1. Alyze accepte désormais les pages compressées et fournit des informations à ce propos (taille compressée et décompressée).
2. Possibilité de déguiser Alyze en googlebot, slurp, msnbot, etc.
 
WRInaute passionné
Encore assez novice dans certains domaines pour le référencement, je viens de me rendre compte que le mot "Aujourd'hui"*** parasitait ma page d'accueil (et certainement toutes celles du forum...). Je viens de passer plus d'une heure à tester divers scénari et j'ai modifié ma page d'accueil!

Merci encore.

***Le mot seul "Aujourd" était ma 3ème entrée sur mon site via GG... je ne comprenais pas pourquoi! :lol: Autant dire que c'était de la visite passante qui ne servait à rien.
 
WRInaute discret
Très bon outil, ça permet de corriger quelques petites erreurs.

Peut-être que des conseils supplémentaires pourraient être ajoutés. Comme la longueur qu'un titre peut faire, nombre de mots clés, ...
 
Nouveau WRInaute
Sympa l'outil!

Concernant ton analyse des liens internes et sortants, je connaissais cet outil : http://linkcounter.submitexpress.com

Ce dernier met en avant les liens dupliqués. Les moteurs attachent certainement plus d'importance au lien le plus haut sur la page qu'à ses doublons ayant la même URL de destination (avec des libellés parfois différents).

Tu pourrais également afficher le nombre de liens internes et externes sur une page ainsi que le nombre de liens uniques.

Bonne continuation.
 
WRInaute discret
stini > Bonne suggestion ! Je viens d'intégrer certaines des idées que tu m'as données. Sur l'onglet "Liens", le nombre total de liens est affiché, le nombre de liens internes, externes, etc.
Le plus utile est, je pense, l'arrivée d'une nouvelle colonne indiquant où se situe le lien sur la page. "H" pour haut de page (15 premiers pour cent du texte), "C" pour corps de page et "B" pour bas de page (22 derniers pour cent du texte).

J'ai dû légèrement modifier le coeur de mon programme pour faire ça, j'espère donc qu'il n'y a pas d'effet de bord (comprendre : des bugs ;) ).

El-Cherubin > Le champ texte, j'y réfléchis depuis un moment. Est-ce que vous pensez qu'il vaut mieux laisser un champ texte ou permettre l'upload d'une pages HTML ?

Druidefou > Les conseils supplémentaires, c'est sur ma todo list. :D
 
WRInaute discret
Hello,
J'ai enfin eu le temps de programmer une fonctionnalité que l'on m'avait suggérée sur ce topic il y a quelques semaines. Il s'agit de la possibilité de modifier les variables de configuration !

Pour cela, j'ai créé un système d'inscription. Une fois connecté, vous pourrez modifier à votre guise les variables disponibles sur cette page : http://alyze.info/InternalVars/
C'est tout récent, je vous demande donc de me signaler les éventuels bugs (comme d'hab' ;) ).

Plus généralement, j'ai beaucoup d'idées pour Alyze, dont certaines que je pense très intéressantes, ce qui me manque le plus, c'est le temps.
 
Nouveau WRInaute
Félicitation pour cet outil, très utile !!!

Un bémol toute fois : Il semblerai que pour les pages pourvu d'anti-aspirteur, l'analyse génère un trop grand nombre requête à la mn. De ce fait elle n'aboutit pas.

En désactivant l'anti-aspirteur, j'ai pu analyser ma page d'accueil sans problème.

En tout cas merci pour cet outil d'analyse...
 
Nouveau WRInaute
On pourrait imaginer d'exclure les mots vides et les chiffres seuls non ?
Genre de, du, la, le, et, etc...

Sinon c'est superbe !
 
Nouveau WRInaute
yes

Disons que le risque, c'était l'utilisation de ton site par des vilains spammeurs. :twisted:
Quoi ? Moi ? Pourquoi j'ai testé ? Oh par simple curiosité ! :roll:

:lol:
 
WRInaute discret
Je m'interroge sur la pertinence des résultats

Expérience 1 :
Je viens de faire une expérience : le simple ajout du mot TEST, sur ma page à 670 mots, a fait chuter la densité pondérée de 122 et des poussières à 107% et des poussières !

Expérience 2 :
J'analyse la page sans le mot "test" ajouté. Je suis à 107 et des poussières. Ensuite, je ferme la fenêtre, je vide le cache, et je refais l'analyse avec la même page, sans avoir modifier ne serait-ce qu'une virgule. Je retombe à mes 122 et quelques.

Comment ça se fait ? Dans l'algorithme, il doit y avoir un bug qui provoque, aléatoirement, des grosses variations dans le résultat.
 
WRInaute discret
Bon outil mais pourquoi proposé la fonction avancée : "S'identifier comme : ..." cela n'incitera-t-il pas les gens à mettre un contenu différent si c'est un moteur de recherche qui visite la page ?
 
WRInaute accro
et hop dans les favoris ;)
super outil.

Par contre, maintenant, il manque une partie "conseils" pour savoir ce qu'on doit améliorer !
 
WRInaute passionné
milkiway a dit:
et hop dans les favoris ;)
super outil.

Par contre, maintenant, il manque une partie "conseils" pour savoir ce qu'on doit améliorer !
Exact, Milkyway, cet outil ferait des millions d'adeptes
En favori et reco :wink:
 
Nouveau WRInaute
Bien bel outil en effet !

Félicitations ! (Suis-je obligé de préciser l'ajout de ce dernier dans mes favoris ? Oui, c'est chose faite :mrgreen: )
 
WRInaute accro
question stupide, c'est quoi un densité pondérer, parce que passer de 2.96% à 60.97% ça fait vraiment Zarbi !!!!?
 
WRInaute occasionnel
Je viens de découvrir ton outil
Félicitations et plus encore
bravo pour ton enthousiasme, ta qualité de développement et ton partage.
Merci
alain78france
 
WRInaute occasionnel
mipc a dit:
question stupide, c'est quoi un densité pondérer, parce que passer de 2.96% à 60.97% ça fait vraiment Zarbi !!!!?
La densité pondérée tient compte du contexte du mot. Un mot situé entre des balises h1 a plus d'importance qu'un mot dans le texte de la page. La pondération augmente la "valeur" (ou poids) du mot situé dans la balise h1.
 
Discussions similaires
Haut