Référenceurs & Spamdexing sur Google US:le cas Traffic-P

turulillo · 12 Juillet 2004

Certains d’entre vous l’avaient déjà remarqué, il n’est pas bon de vouloir cacher de texte ou des liens à Google, particulièrement ces jours-ci.
Il y a 3 principaux moyens pour montrer un contenu à l’internaute et un autre au moteur : le cloaking (revoyez vos définitions, s’il vous plaît, pas de questions inutiles), la page de redirection (le moteur voit la 1ère page, l’internaute voit la seconde) et le texte ou liens cachés dans la page.
1/ Face au cloaking, l’attitude des moteurs varie, avec une tendance pour la répression, avec pour justification que le robot ne voit pas la même chose que l’internaute :
https://www.google.com/webmasters/faq.html#cloaking
En fait ce n’est pas tellement la technique qui pose le problème, comme souvent, c’est bien l’utilisation qu’en font les référenceurs et les webmasters, car c’est la solution idéale pour expliquer à un robot ce que l’animation Flash qu’il ne peut comprendre signifie.
C’est une technique qui est utilisée par la National Public Radio aux US pour référencer des….extraits d’émission radio.
Google « indexe » une page qui contient une transcription textuelle du contenu de l’extrait de l’émission de radio, et lorsque l’internaute trouve cette page dans Google, il arrive directement sur une page ne contenant pas de texte, mais juste le fichier son :
http://searchenginewatch.com/sereport/a ... hp/3360681

2/ Pour ce qui est de la redirection, on trouve des dizaines de techniques différentes, allant de la redirection la plus basique, en passant par une fausse détection du navigateur (si la version du navigateur est supérieure à Netscape 2, alors l’internaute est redirigé sur une autre page…ce qui est toujours le cas, mais le résultat voulu est que Google lui voit la 1ère page alors que l’internaute sera redirigé vers la 2nde) et jusqu’au désormais tristement célèbre OnMouseOver JavaScript.
En quoi cela consiste t’il ?
Il s’agit, en gros, de placer une page intermédiaire, comme toujours, dans laquelle on place un OnMouseOver JavaScript qui spécifie que si le curseur se trouve sur la page (ou s’il bouge), la redirection intervient.
Normalement, cette commande est utilisée pour rendre « actives » des zones dans une page afin qu’une action se produise si l’internaute y dirige son curseur.
Ici, cette fonction est détournée afin de servir de condition entraînant systématiquement une redirection.
Pourquoi ?
Pour que ça n’ait pas l’air d’une redirection aux yeux de Google (qu’il risquerait de sanctionner) mais plutôt d’une banale commande.
Vous trouverez de nombreuses pages de ce type en tapant la requête suivante dans Google :
"information appearing at" avec guillemets
Un référenceur US et une grande partie de ses clients ont payé très cher l’utilisation de cette technique, Google ayant considéré les clients comme responsable d’avoir suivi les conseils du référenceur et d’avoir implémenté ce code sur leur propre site dont ils avaient les droits d’administration.
Ils ont été purement et simplement blacklistés manuellement (ainsi que le site du référenceur www.traffic-power.com ).
GoogleGuy a dit qu’ils ne réintègreront les sites des clients que lorsque tous les codes de ce type auront été enlevés de toutes les pages du site, et à la demande du client via une procédure spécifique (pour le référenceur, je pense que c’est râpé, il a des dizaines de client qui sont en train de lui faire un procès).
Vous trouverez toutes les infos relatives à ce sujet sur l’excellent Serountable et en tapant « Traffic Power » sans guillemets dans Google (le nom du référenceur):
http://www.seroundtable.com/archives/00 ... l#comments
Mais comme vous le verrez un peu plus tard, ça n’arrive pas qu’aux US...

3/ Concernant le texte et les liens cachés, la aussi les technique sont nombreuses.
Dans la préhistoire de l’Internet, on utilisait du texte de la même (ou quasiment) couleur que le fond, comme dans l’exemple donné dans ce thread (qui combine en plus avec la page de redirection, il faut donc bloquer l’exécution du javascript dans votre navigateur pour voir la page en question OUTIL / OPTION INTERNET et niveau de Sécurité au maximum) :
https://www.webrankinfo.com/forum/t/est-ce-bien-legal.13190/
On utilisait aussi les balises NOFRAME ou pire NOSCRIPT (la technique la plus ringarde après le texte de la même couleur que le fond…si, si, je vous assure) avec les conséquences néfastes que ça peut avoir en ce moment, comme on le voit sur ce thread :
https://www.webrankinfo.com/forum/t/limite-aux-nombre-de-pages-indexees.13108/
Sinon, d’autres petits malins cachent leur texte et liens avec des LAYER ou d’autres technique encore plus évoluées (je n’expliquerais pas les techniques en question, je ne vais quand même pas vous donner des cours de spamdexing….ne me contactez pas par MP je ne répondrais pas à ce genre de demandes….non accompagnées de promesse de rétribution substantielle ;-)).
Or Google nous le dit et nous le répète depuis des mois, il n’aime pas toutes ces techniques et il se dote des moyens nécessaires pour les repérer…Tenez vous le pour dit, bande de spamdexeurs éhontés.
Et comme vous l’aviez peut être constaté depuis la dernière Google Dance, il y a eu un sacré ménage de fait dans les pages de résultats de Google, et parmi les sites punis on en trouve beaucoup qui utilisaient la technique du NOSCRIPT, car c’est la plus facile à repérer (surtout quand il n’y a pas de script dans la page).
Vous vous imaginez donc quelle a été ma surprise de constater qu’un grand site comme celui de [MERCI DE NE PAS CITER DE NOM DE SOCIETE] n’avait plus aucune page d’indexée dans Google depuis la semaine dernière.
En analysant le code source de sa page d’accueil, à première vue, on ne trouve rien à redire, mais cela n’est pas probant car ils auraient pu « faire le ménage » après s’être rendu compte de la Googlesque sanction.
On ne peut pas utiliser la fonction CACHE de Google pour voir le code source des pages du site avant le blacklistage puisque le site n’est plus dans la base.
Heureusement, Google n’est pas le seul à garder des copies des sites du Web.
Le site Archive.org et sa fameuse WayBack Machine permet de faire la même chose et même bien mieux puisqu’on peut consulter des archives du sites à différentes dates.
On aura, de toutes façons, pas accès à un cache récent car ce site utilise la balise NO-CACHE depuis environ 1 an (date de sortire de Google News) qui demande aux moteurs de ne pas garder de copie de leurs pages (c’est pour cela qu’on ne trouvera pas de cache de la home du site sur Yahoo), le plus récent date du 23 juin 2003.
Si on demande un cache de la home page à cette date, on y remarque immédiatement un groupe d’une dizaine de lignes absentes de la page actuelle :

<noscript>
[liens vers pages internes, liens supprimés par WRI]
</noscript>

Effectivement, il s’agit du fameux NOSCRIPT et de sa ribambelle de liens cachés vers des pages satellites (9 copies en frameset 100% des 9 principales pages du site).
De plus, chacune de ces pages satellites reprend le bloc de la dizaine de liens, dans un NOFRAME cette fois ci, comme par exemple la page suivante :
[...] (voir le code source) qui est une copie de celle-ci : [...]

Ce n’est peut être pas la raison (ou pas la seule) qui a poussé Google a blacklister ce site, mais il est clair qu’aux vues de ce qui s’est passé aux US avec les clients de Traffic Power, c’est largement suffisant pour justifier une telle sanction.

[Message édité par WebRankInfo : merci de bien vouloir respecter les règles du forum et en particulier de ne pas citer de nom de société]

patotoche65 · 12 Juillet 2004

Superbe post turulillo

Erazor · 12 Juillet 2004

patotoche65 a dit:
Superbe post turulillo

je suis pas sur il parait, et c'est normal , qu'il est interdit de citer des noms ici ..
sinon oui l'explication dans le post est bonne a lire :lol:

boussole · 12 Juillet 2004

Comme ca je pense que le post est assez clair pour que certains se calment avec les techniques de spam. Bravo pour les explications

marsupilami · 13 Juillet 2004

Re: Référenceurs & Spamdexing sur Google US:le cas Traff

turulillo a dit:
Or Google nous le dit et nous le répète depuis des mois, il n’aime pas toutes ces techniques et il se dote des moyens nécessaires pour les repérer…Tenez vous le pour dit, bande de spamdexeurs éhontés.
....
Vous vous imaginez donc quelle a été ma surprise de constater qu’un grand site comme celui de [MERCI DE NE PAS CITER DE NOM DE SOCIETE] n’avait plus aucune page d’indexée dans Google depuis la semaine dernière.

Oui j'ai remarqué un sacré déménagement aussi, petits moyens gros, ça valse !
Petite remarque : tout de même, les recommandations des référenceurs qui ont publié des bouquins à l'époque antique du web (2 ans) étaient bien d'utiliser les balises noframes pour optimiser les pages dans l'opération séduction GG ? Ringard, oui, mais triche, sur l'échelle de Richter du spamdexing, il y a bien plus pernicieux. Le grand ménage devrait commencer par là. Sinon il y a des petits malins qui vont porter plainte contre les éditeurs et les auteurs d'ouvrages de référencement, ça frise la politique du "je te tiens tu me tiens par la barbichette" et on n'en finit plus.

MERCI POUR CETTE INFO TURULILLO

pim · 13 Juillet 2004

Limpides explications efectivement.
En espérant que çà dissuadera les plus fourbes ;-).
Pim

WebRankInfo · 13 Juillet 2004

NB : une version plus complète de cet article se trouve sur http://referencement.blogspot.com/2004_ ... chive.html

marsupilami · 13 Juillet 2004

WebRankInfo a dit:
NB : une version plus complète de cet article se trouve sur http://referencement.blogspot.com/2004_ ... chive.html

Ou la la, impressionnant !

niceunef · 13 Juillet 2004

A noter que le journal BIP en question est par contre toujours dans Google News, vu en cherchant site:BIP.fr (quoique la derniere page est "publiée depuis 15 heures" donc date de 1h du mat' - dernier article, ou dernier avant blacklistage?).
Avoir du contenu pertinent ne suffit donc pas pour éviter un blacklistage en bonne et due forme 8O On peut aussi penser a des services de pages perso, soit des milliers de sites...
[edit]ifrance a pu redresser la barre on dirait, fin du blacklistage... :roll:

turulillo · 13 Juillet 2004

Juste une précision pour les personnes concernées par le blacklistage de leur site dans Google.
Une procédure de réintégration existe, elle a été donné par GoogleGuy dans le post cité déja plus haut dans WebMasterWorld (3ème lien vers Seroundtable car le post en question est dans la partie payante de WMW):
http://www.seroundtable.com/archives/000596.html
Il suffit d'enlever TOUS les codes succeptibles d'aller à l'encontre des règles de Google, voir (pages de redirection, liens et texte cachés, etc...):
https://www.google.com/webmasters/seo.html
https://www.google.com/webmasters/faq.html
Ensuite, il faut envoyer un mail à l'adresse suivante webmaster [at] google.com en mettant comme sujet "reinclusion request".
Vous y expliquerez en détail ce qui est arrivé : URL du ou des sites, des pages concernées, codes incriminés et enlevés, date à laquelle vous les avez mis sur vos pages et pourquoi pas, le nom de la société de référencement si c'est elle qui vous a recommandé d'utiliser ces techniques.

boussole · 13 Juillet 2004

J'ai trouve un nouveau metier sur le net : reréférenceur, celui qui passe apres un blacklistage. :lol:

adrien · 15 Juillet 2004

Mais encore...

Je me permets simplement la réflexion suivante:

Si l'idée n'est pas de tromper l'internaute, mais uniquement de faire valoir son contenu aux yeux de Google, la création de pages satellites ou l'utilisation d'autres techniques associées au spamindexing sont essentielles pour être correctement référencé.

C'est la conception même de l'algorithme de Google qui pose problème. Google est simple d'esprit, en effet, il n'est capable de lire que du texte écrit en noir caractère 18 sur un fond blanc. De ce fait, n'importe quel amateur un peu malin peu aujourd'hui supplenter une multi nationale dans le top 10 de Google ! Il suffit de créer une page bien optimisée, avec du h1, des liens, des tag alt, une bonne densité etc. de signer une centaine de guestbook et forum avec un pagerank élevé (il en existe des milliers, jusqu'à 8/10) on attend quelques jours et hop, on est 3ème / 1'685'000 résultats.

C'est testé et approuvé, et je trouve ça triste. Mais c'est la loi de la jungle, tant que Google n'aura pas fini son CM2

Je ne crois pas trop à la répression de Google envers le spamindexing,à moins que ce ne soit vraiement flagrant et trompeur. Google devrait virer les 3/4 de ses pages, ce serait l'effondrement du web et du nasdaq.

Imaginez ce qui se passerait si je voulais me débarrasser d'un concurrent génant... Je créé des pages satellites "hardcore" en utilisant sa marque et en redirigeant vers son URL... ensuite je le dénonce à Google, et ciao.

Bref, je m'arrête là. Je dis juste que si on est pas trop con et un peu patient, c'est vraiment pas difficile de bien se positionner sur Google et que ce qu'on appelle parfois a tort du spamindexing est en fait indispensable dans la logique actuelle, du moment qu'on est un minimum honnête.

marsupilami · 15 Juillet 2004

Re: Mais encore...

adrien a dit:
... et que ce qu'on appelle parfois a tort du spamindexing est en fait indispensable dans la logique actuelle, du moment qu'on est un minimum honnête.

Je serais un peu d'accord avec ce raisonnement en soulignant en gras le "PARFOIS". Dans cette période de terreur, de guillotine et de délation, on a un peu tendance à voir ressurgir Robespierre du fin fond de nos imaginaires virtuellement stimulés.

Si l'on évoque par exemple les bibliothèques universitaires qui adoptent des systèmes communs de fouille documentaire (catégories d'ouvrages, thématiques, auteurs etc). Une fois mises en ligne pour consultation, GG va t-il considérer cela comme du spamdexing si la bibliothèqe universiatire de Paris 8 et Paris 10 et Lyon proposent à leurs étudiants respectifs les mêmes listes de liens, de pages, de description/résumé d'oeuvres (bonjour le travail s'il fallait réécrire les descriptions à chaque fois, histoire de ne pas se faire blacklsiter). Voilà encore une difficulté à contourner pour la censure GG (Google Guillotine) il me semble ?

Pour reprendre la réflexion d'Adrien,"...être un minimum honnête", perso je m'efforce de penser comme ça, ça limite la casse (en sachant que le concept de l'honnêteté est aussi tout relatif). Par ailleurs, la toile évolue sans arrêt, ce qui rend encore plus diffilcile d'être irréprochable. Et si l'on aborde le sujet de la compétitivité, vous voyez ce que je veux dire ? :arrow: :arrow:

wap · 15 Juillet 2004

Re: Mais encore...

marsupilami a dit:
Et si l'on aborde le sujet de la compétitivité, vous voyez ce que je veux dire ? :arrow: :arrow:

;-)

Je pense tout de même que sur le moyen/long terme, l'honnêteté (ou disons une certaine éthique, c'est vrai qu'on marche un peu sur des oeufs dès qu'on aborde ce genre de questions...) paye bien souvent. Mais peut-être suis-je encore bercé d'illusions... Je n'y peux rien, Internet est une passion