Certains d’entre vous l’avaient déjà remarqué, il n’est pas bon de vouloir cacher de texte ou des liens à Google, particulièrement ces jours-ci.
Il y a 3 principaux moyens pour montrer un contenu à l’internaute et un autre au moteur : le cloaking (revoyez vos définitions, s’il vous plaît, pas de questions inutiles), la page de redirection (le moteur voit la 1ère page, l’internaute voit la seconde) et le texte ou liens cachés dans la page.
1/ Face au cloaking, l’attitude des moteurs varie, avec une tendance pour la répression, avec pour justification que le robot ne voit pas la même chose que l’internaute :
https://www.google.com/webmasters/faq.html#cloaking
En fait ce n’est pas tellement la technique qui pose le problème, comme souvent, c’est bien l’utilisation qu’en font les référenceurs et les webmasters, car c’est la solution idéale pour expliquer à un robot ce que l’animation Flash qu’il ne peut comprendre signifie.
C’est une technique qui est utilisée par la National Public Radio aux US pour référencer des….extraits d’émission radio.
Google « indexe » une page qui contient une transcription textuelle du contenu de l’extrait de l’émission de radio, et lorsque l’internaute trouve cette page dans Google, il arrive directement sur une page ne contenant pas de texte, mais juste le fichier son :
http://searchenginewatch.com/sereport/a ... hp/3360681
2/ Pour ce qui est de la redirection, on trouve des dizaines de techniques différentes, allant de la redirection la plus basique, en passant par une fausse détection du navigateur (si la version du navigateur est supérieure à Netscape 2, alors l’internaute est redirigé sur une autre page…ce qui est toujours le cas, mais le résultat voulu est que Google lui voit la 1ère page alors que l’internaute sera redirigé vers la 2nde) et jusqu’au désormais tristement célèbre OnMouseOver JavaScript.
En quoi cela consiste t’il ?
Il s’agit, en gros, de placer une page intermédiaire, comme toujours, dans laquelle on place un OnMouseOver JavaScript qui spécifie que si le curseur se trouve sur la page (ou s’il bouge), la redirection intervient.
Normalement, cette commande est utilisée pour rendre « actives » des zones dans une page afin qu’une action se produise si l’internaute y dirige son curseur.
Ici, cette fonction est détournée afin de servir de condition entraînant systématiquement une redirection.
Pourquoi ?
Pour que ça n’ait pas l’air d’une redirection aux yeux de Google (qu’il risquerait de sanctionner) mais plutôt d’une banale commande.
Vous trouverez de nombreuses pages de ce type en tapant la requête suivante dans Google :
"information appearing at" avec guillemets
Un référenceur US et une grande partie de ses clients ont payé très cher l’utilisation de cette technique, Google ayant considéré les clients comme responsable d’avoir suivi les conseils du référenceur et d’avoir implémenté ce code sur leur propre site dont ils avaient les droits d’administration.
Ils ont été purement et simplement blacklistés manuellement (ainsi que le site du référenceur www.traffic-power.com ).
GoogleGuy a dit qu’ils ne réintègreront les sites des clients que lorsque tous les codes de ce type auront été enlevés de toutes les pages du site, et à la demande du client via une procédure spécifique (pour le référenceur, je pense que c’est râpé, il a des dizaines de client qui sont en train de lui faire un procès).
Vous trouverez toutes les infos relatives à ce sujet sur l’excellent Serountable et en tapant « Traffic Power » sans guillemets dans Google (le nom du référenceur):
http://www.seroundtable.com/archives/00 ... l#comments
Mais comme vous le verrez un peu plus tard, ça n’arrive pas qu’aux US...
3/ Concernant le texte et les liens cachés, la aussi les technique sont nombreuses.
Dans la préhistoire de l’Internet, on utilisait du texte de la même (ou quasiment) couleur que le fond, comme dans l’exemple donné dans ce thread (qui combine en plus avec la page de redirection, il faut donc bloquer l’exécution du javascript dans votre navigateur pour voir la page en question OUTIL / OPTION INTERNET et niveau de Sécurité au maximum) :
https://www.webrankinfo.com/forum/t/est-ce-bien-legal.13190/
On utilisait aussi les balises NOFRAME ou pire NOSCRIPT (la technique la plus ringarde après le texte de la même couleur que le fond…si, si, je vous assure) avec les conséquences néfastes que ça peut avoir en ce moment, comme on le voit sur ce thread :
https://www.webrankinfo.com/forum/t/limite-aux-nombre-de-pages-indexees.13108/
Sinon, d’autres petits malins cachent leur texte et liens avec des LAYER ou d’autres technique encore plus évoluées (je n’expliquerais pas les techniques en question, je ne vais quand même pas vous donner des cours de spamdexing….ne me contactez pas par MP je ne répondrais pas à ce genre de demandes….non accompagnées de promesse de rétribution substantielle ;-)).
Or Google nous le dit et nous le répète depuis des mois, il n’aime pas toutes ces techniques et il se dote des moyens nécessaires pour les repérer…Tenez vous le pour dit, bande de spamdexeurs éhontés.
Et comme vous l’aviez peut être constaté depuis la dernière Google Dance, il y a eu un sacré ménage de fait dans les pages de résultats de Google, et parmi les sites punis on en trouve beaucoup qui utilisaient la technique du NOSCRIPT, car c’est la plus facile à repérer (surtout quand il n’y a pas de script dans la page).
Vous vous imaginez donc quelle a été ma surprise de constater qu’un grand site comme celui de [MERCI DE NE PAS CITER DE NOM DE SOCIETE] n’avait plus aucune page d’indexée dans Google depuis la semaine dernière.
En analysant le code source de sa page d’accueil, à première vue, on ne trouve rien à redire, mais cela n’est pas probant car ils auraient pu « faire le ménage » après s’être rendu compte de la Googlesque sanction.
On ne peut pas utiliser la fonction CACHE de Google pour voir le code source des pages du site avant le blacklistage puisque le site n’est plus dans la base.
Heureusement, Google n’est pas le seul à garder des copies des sites du Web.
Le site Archive.org et sa fameuse WayBack Machine permet de faire la même chose et même bien mieux puisqu’on peut consulter des archives du sites à différentes dates.
On aura, de toutes façons, pas accès à un cache récent car ce site utilise la balise NO-CACHE depuis environ 1 an (date de sortire de Google News) qui demande aux moteurs de ne pas garder de copie de leurs pages (c’est pour cela qu’on ne trouvera pas de cache de la home du site sur Yahoo), le plus récent date du 23 juin 2003.
Si on demande un cache de la home page à cette date, on y remarque immédiatement un groupe d’une dizaine de lignes absentes de la page actuelle :
De plus, chacune de ces pages satellites reprend le bloc de la dizaine de liens, dans un NOFRAME cette fois ci, comme par exemple la page suivante :
[...] (voir le code source) qui est une copie de celle-ci : [...]
Ce n’est peut être pas la raison (ou pas la seule) qui a poussé Google a blacklister ce site, mais il est clair qu’aux vues de ce qui s’est passé aux US avec les clients de Traffic Power, c’est largement suffisant pour justifier une telle sanction.
[Message édité par WebRankInfo : merci de bien vouloir respecter les règles du forum et en particulier de ne pas citer de nom de société]
Il y a 3 principaux moyens pour montrer un contenu à l’internaute et un autre au moteur : le cloaking (revoyez vos définitions, s’il vous plaît, pas de questions inutiles), la page de redirection (le moteur voit la 1ère page, l’internaute voit la seconde) et le texte ou liens cachés dans la page.
1/ Face au cloaking, l’attitude des moteurs varie, avec une tendance pour la répression, avec pour justification que le robot ne voit pas la même chose que l’internaute :
https://www.google.com/webmasters/faq.html#cloaking
En fait ce n’est pas tellement la technique qui pose le problème, comme souvent, c’est bien l’utilisation qu’en font les référenceurs et les webmasters, car c’est la solution idéale pour expliquer à un robot ce que l’animation Flash qu’il ne peut comprendre signifie.
C’est une technique qui est utilisée par la National Public Radio aux US pour référencer des….extraits d’émission radio.
Google « indexe » une page qui contient une transcription textuelle du contenu de l’extrait de l’émission de radio, et lorsque l’internaute trouve cette page dans Google, il arrive directement sur une page ne contenant pas de texte, mais juste le fichier son :
http://searchenginewatch.com/sereport/a ... hp/3360681
2/ Pour ce qui est de la redirection, on trouve des dizaines de techniques différentes, allant de la redirection la plus basique, en passant par une fausse détection du navigateur (si la version du navigateur est supérieure à Netscape 2, alors l’internaute est redirigé sur une autre page…ce qui est toujours le cas, mais le résultat voulu est que Google lui voit la 1ère page alors que l’internaute sera redirigé vers la 2nde) et jusqu’au désormais tristement célèbre OnMouseOver JavaScript.
En quoi cela consiste t’il ?
Il s’agit, en gros, de placer une page intermédiaire, comme toujours, dans laquelle on place un OnMouseOver JavaScript qui spécifie que si le curseur se trouve sur la page (ou s’il bouge), la redirection intervient.
Normalement, cette commande est utilisée pour rendre « actives » des zones dans une page afin qu’une action se produise si l’internaute y dirige son curseur.
Ici, cette fonction est détournée afin de servir de condition entraînant systématiquement une redirection.
Pourquoi ?
Pour que ça n’ait pas l’air d’une redirection aux yeux de Google (qu’il risquerait de sanctionner) mais plutôt d’une banale commande.
Vous trouverez de nombreuses pages de ce type en tapant la requête suivante dans Google :
"information appearing at" avec guillemets
Un référenceur US et une grande partie de ses clients ont payé très cher l’utilisation de cette technique, Google ayant considéré les clients comme responsable d’avoir suivi les conseils du référenceur et d’avoir implémenté ce code sur leur propre site dont ils avaient les droits d’administration.
Ils ont été purement et simplement blacklistés manuellement (ainsi que le site du référenceur www.traffic-power.com ).
GoogleGuy a dit qu’ils ne réintègreront les sites des clients que lorsque tous les codes de ce type auront été enlevés de toutes les pages du site, et à la demande du client via une procédure spécifique (pour le référenceur, je pense que c’est râpé, il a des dizaines de client qui sont en train de lui faire un procès).
Vous trouverez toutes les infos relatives à ce sujet sur l’excellent Serountable et en tapant « Traffic Power » sans guillemets dans Google (le nom du référenceur):
http://www.seroundtable.com/archives/00 ... l#comments
Mais comme vous le verrez un peu plus tard, ça n’arrive pas qu’aux US...
3/ Concernant le texte et les liens cachés, la aussi les technique sont nombreuses.
Dans la préhistoire de l’Internet, on utilisait du texte de la même (ou quasiment) couleur que le fond, comme dans l’exemple donné dans ce thread (qui combine en plus avec la page de redirection, il faut donc bloquer l’exécution du javascript dans votre navigateur pour voir la page en question OUTIL / OPTION INTERNET et niveau de Sécurité au maximum) :
https://www.webrankinfo.com/forum/t/est-ce-bien-legal.13190/
On utilisait aussi les balises NOFRAME ou pire NOSCRIPT (la technique la plus ringarde après le texte de la même couleur que le fond…si, si, je vous assure) avec les conséquences néfastes que ça peut avoir en ce moment, comme on le voit sur ce thread :
https://www.webrankinfo.com/forum/t/limite-aux-nombre-de-pages-indexees.13108/
Sinon, d’autres petits malins cachent leur texte et liens avec des LAYER ou d’autres technique encore plus évoluées (je n’expliquerais pas les techniques en question, je ne vais quand même pas vous donner des cours de spamdexing….ne me contactez pas par MP je ne répondrais pas à ce genre de demandes….non accompagnées de promesse de rétribution substantielle ;-)).
Or Google nous le dit et nous le répète depuis des mois, il n’aime pas toutes ces techniques et il se dote des moyens nécessaires pour les repérer…Tenez vous le pour dit, bande de spamdexeurs éhontés.
Et comme vous l’aviez peut être constaté depuis la dernière Google Dance, il y a eu un sacré ménage de fait dans les pages de résultats de Google, et parmi les sites punis on en trouve beaucoup qui utilisaient la technique du NOSCRIPT, car c’est la plus facile à repérer (surtout quand il n’y a pas de script dans la page).
Vous vous imaginez donc quelle a été ma surprise de constater qu’un grand site comme celui de [MERCI DE NE PAS CITER DE NOM DE SOCIETE] n’avait plus aucune page d’indexée dans Google depuis la semaine dernière.
En analysant le code source de sa page d’accueil, à première vue, on ne trouve rien à redire, mais cela n’est pas probant car ils auraient pu « faire le ménage » après s’être rendu compte de la Googlesque sanction.
On ne peut pas utiliser la fonction CACHE de Google pour voir le code source des pages du site avant le blacklistage puisque le site n’est plus dans la base.
Heureusement, Google n’est pas le seul à garder des copies des sites du Web.
Le site Archive.org et sa fameuse WayBack Machine permet de faire la même chose et même bien mieux puisqu’on peut consulter des archives du sites à différentes dates.
On aura, de toutes façons, pas accès à un cache récent car ce site utilise la balise NO-CACHE depuis environ 1 an (date de sortire de Google News) qui demande aux moteurs de ne pas garder de copie de leurs pages (c’est pour cela qu’on ne trouvera pas de cache de la home du site sur Yahoo), le plus récent date du 23 juin 2003.
Si on demande un cache de la home page à cette date, on y remarque immédiatement un groupe d’une dizaine de lignes absentes de la page actuelle :
Effectivement, il s’agit du fameux NOSCRIPT et de sa ribambelle de liens cachés vers des pages satellites (9 copies en frameset 100% des 9 principales pages du site).<noscript>
[liens vers pages internes, liens supprimés par WRI]
</noscript>
De plus, chacune de ces pages satellites reprend le bloc de la dizaine de liens, dans un NOFRAME cette fois ci, comme par exemple la page suivante :
[...] (voir le code source) qui est une copie de celle-ci : [...]
Ce n’est peut être pas la raison (ou pas la seule) qui a poussé Google a blacklister ce site, mais il est clair qu’aux vues de ce qui s’est passé aux US avec les clients de Traffic Power, c’est largement suffisant pour justifier une telle sanction.
[Message édité par WebRankInfo : merci de bien vouloir respecter les règles du forum et en particulier de ne pas citer de nom de société]