Probleme : Page bidon indexée chez google, malveillance ?

  • Auteur de la discussion Auteur de la discussion frenot
  • Date de début Date de début
WRInaute discret
Salut à tous,

Voici un probleme que je rencontre depuis quelques temps et qui me pose certainement un probleme d'indexation (en particulier avec google) :

Le site que je gère est bebloom.com

Quand je lance la fonction site:http://www.example.com dans une recherche google, j'obtiens une liste de 1550 pages référencées, jusque là, rien de choquant.

Sur mon site, j'ai un mini moteur de recherche simple qui permet, en passant un paramêtre en url, de trouver un produit. Il s'agit de la page :
www.example.com/recherche.asp et si on passe en parametre "chocolat", on a une page qui donne tous nos produits parlant de chocolat : www.example.com/recherche.asp?recherche=chocolat

Probleme : dans mes pages indexées (cf la fonction site:http:/), je retrouve une mutlitude de pages indexées avec cette page recherche et des parametre totallement bidon, que biensur je n'ai pas sur mon site et encore moins demandé en indexation :
www.example.com/recherche.asp?recherche=ribouler
www.example.com/recherche.asp?recherche=zwinglianisme
www.example.com/recherche.asp?recherche=hachich
.... Ces pages ne sont pas pertinentes, mais arrivent sur ma page recherche qui ne donne biensur aucun résultat (pas d'erreur 404). NB : pour éviter un BL sur ces pages, j'ai enlevé mon nom de domaine des urls ci-dessus. *

Est-ce que c'est dommageable?
Comment est-ce possible ? action malveillante ?
n'importe qui peut-il indexer n'importe quelle page de n'importe quel site ?
avez-vous déjà eut ce type de probleme ?

merci pour votre aide

* Edit HawkEye: j'ai mis example.com, qui sert à ça ;)
 
WRInaute accro
Il y'a un risque de duplicate content sur toutes les pages qui ne retournent pas de résultat. Donc oui, c'est dommageable.

Note: permettre l'indexation de ses résultats de recherche internes de la sorte, ça s'apparente fort à du spamdexing. Je me doute que c'est involontaire, mais celà peut (à grande échelle...) te faire courrir un risque important.

Par simple précaution, tu devrais faire un test du style (en php, sorry asp je ne connais pas):

Code:
if($_GET['recherche']) { echo '<meta name="robots" content="none">; }

(dans le <head> de tes pages).

@++
 
WRInaute discret
HawkEye a dit:
Note: permettre l'indexation de ses résultats de recherche internes de la sorte, ça s'apparente fort à du spamdexing.

Ce qui est etonnant, c'est de trouver des parametres bizarres en fin d'url... à croire que des tiers s'amusent à référencer des pages bidons. C'est fait avec ma page recherche, mais ça peut etre fait avec n'importe qu'elle page dans l'absolu, tu prends une page, tu lui passe un parametre bidon. Ca ressemble quand meme à un acte de malveillance, mais je comprends pas comment ça peut se produire...

HawkEye a dit:
Par simple précaution, tu devrais faire un test du style (en php, sorry asp je ne connais pas):
Code:
if($_GET['recherche']) { echo '<meta name="robots" content="none">; }
(dans le <head> de tes pages).

Pas de probleme pour traduire ça en asp, mais je ne suis pas certain que le moteur en tienne compte lors de l'indexation... je vais dans un premier temps retirer manuellement toutes ces pages.
 
WRInaute accro
Ouah, tu gère le site bebloom. J'aurais quelques questions à te poser si un jour tu es dispo sur le chat WRI...

Bon, sinon, ne t'inquiète pas trop... Je ne pense pas que ce soit trop dramatique

Tu peux déjà essayer d'identifier d'où proviennent les liens en utilisant la commande link: sur altavista. Si tu ne trouve rien, essaye de trouver les sites qui font ces liens en faisant des recherches sur Google.

Si vraiment, le phénomène s'est généralisé, effectivement, tu pourrais avoir un petit problème de duplicate content.
 
WRInaute discret
Messieurs s'il vous plait :

----------------------------------------------------------------
<meta name="robots" content="none" />
----------------------------------------------------------------

C'était juste une petite précision ;)
 
WRInaute passionné
Si tu savais ce que les gens recherchent sur un site sur la suède. Ca va de vacances au maroc à des choses aussi inatendue. La meilleure solution est de ne pas referencer les résultats de tes recherches.
 
WRInaute accro
nickargall a dit:
HawkEye a dit:
Note: permettre l'indexation de ses résultats de recherche internes de la sorte, ça s'apparente fort à du spamdexing.

En quoi ça s'apparente à du spamdexing ??

ça dépend si c'est utilisé à outrance ou pas... Sur un annuaire (comme beaucoup le font), oui, ça peut s'y apparenté. Sur une boutique, je sais pas.

La mode des nuages de tags (tag cloud) qui génère un lien automatique vers une page, n'est-ce pas du spamdexing, alors ?
 
WRInaute accro
blman a dit:
nickargall a dit:
HawkEye a dit:
Note: permettre l'indexation de ses résultats de recherche internes de la sorte, ça s'apparente fort à du spamdexing.

En quoi ça s'apparente à du spamdexing ??

ça dépend si c'est utilisé à outrance ou pas... Sur un annuaire (comme beaucoup le font), oui, ça peut s'y apparenté. Sur une boutique, je sais pas.

La mode des nuages de tags (tag cloud) qui génère un lien automatique vers une page, n'est-ce pas du spamdexing, alors ?

+1
Quand je propose un accès directs aux résultats des requêtes les plus fréquentes effectuées sur mon site, je propose des regroupements de contenu aux internautes, je pense pas que ça puisse choquer les moteurs de recherche ... bon je l'admets j'ai mis ça ça en place en pensant également au référencement mais je vois pas ou pourraît être l'abus.
 
WRInaute accro
L'abus, c'est quand tu fais indexés toutes tes recherches. Vous souvenez vous de ces sites qui avaient des millions de pages indexées par ce procédé ? (j'ai pas le droit de citer de noms sous peine d'enfreindre les règles de la charte WRI)
 
WRInaute accro
Excatement, blman ;)

L'abus c'est...

Code:
"SELECT * FROM searches";
(...)

for($i=0; $i<$nb_searches; $i++)
 { echo '<a href=".../search?q=$search[0]....';}
 
WRInaute discret
blman a dit:
L'abus, c'est quand tu fais indexés toutes tes recherches. Vous souvenez vous de ces sites qui avaient des millions de pages indexées par ce procédé ? (j'ai pas le droit de citer de noms sous peine d'enfreindre les règles de la charte WRI)

Notre mini moteur de recherche ne rentre pas dans ce cadre, c'est un moteur simple, recherche textuel, les recherches courantes sont limitées à une 30/40 pages de résultats tout au plus, l'objectif est vraiment pas de multiplier nos pages à outrance. Sur le principe, je ne pense pas que ce type de page puisse être considéré comme du spamindexing, sauf que si google indexe ma page en collant des parametres bidons, il peut en créer des millions... et je ne comprends pas pourquoi. Seule option qui me vient en tête : une personne malveillante s'est amusé à créer ces pages, ou a faire des liens vers ces pages (genre : www.example.com/recherche.asp?recherche=ribouler avec mon domaine bebloom.com) et à les référencer dans l'index google, mais bon, c'est bien étrange...
 
WRInaute accro
Ok donc à vous suivre, si je limite mon espece de tag cloud aux , je sais pas moi, 50 recherches les plus effectuées, c'est pas de l'abus, mais si je liste toutes les recherches effectuées, c'est de l'abus ??
 
WRInaute discret
blman a dit:
frenot a dit:
Seule option qui me vient en tête : une personne malveillante s'est amusé à créer ces pages, ou a faire des liens vers ces pages (genre : www.example.com/recherche.asp?recherche=ribouler avec mon domaine bebloom.com) et à les référencer dans l'index google, mais bon, c'est bien étrange...

Tu a essayé d'identifier qui pouvait te faire ce genre de liens bidons comme j'avais dis plus haut ?

J'ai fais des recherches, avec link, mes pages sont indexés chez yahoo et altavista (en plus de google) mais aucun lien sur des domaines qui auraient pu être à l'origine du probleme, mais j'imagine que si un malveillant est passé par là, il aura certainement éviter de laisser des traces en laissant les liens sur son domaine...

A mon avis, retrouver l'auteur, c'est chercher une aiguille dans une botte de foin ! Mais on arrive sur l'un des problemes majeurs actuels des moteurs et de leur définition de "spamindexing" : n'importe qui peut aujourd'hui, avec fourberie et malhonnéteté, faire du spamindexing sur un site qui ne lui appartient pas, et le site en question a ses yeux pour pleurer, subit les conséquences et n'a aucun retour rapide et efficace auprès des moteurs (et je pense essentiellement à google) pour rétablir une situation normale. Bref, ça devient un véritable outil de sabotage industriel et comme il y aura toujours des gens malhonnête...
 
WRInaute accro
frenot a dit:
A mon avis, retrouver l'auteur, c'est chercher une aiguille dans une botte de foin ! Mais on arrive sur l'un des problemes majeurs actuels des moteurs et de leur définition de "spamindexing" : n'importe qui peut aujourd'hui, avec fourberie et malhonnéteté, faire du spamindexing sur un site qui ne lui appartient pas, et le site en question a ses yeux pour pleurer, subit les conséquences et n'a aucun retour rapide et efficace auprès des moteurs (et je pense essentiellement à google) pour rétablir une situation normale. Bref, ça devient un véritable outil de sabotage industriel et comme il y aura toujours des gens malhonnête...

Non ! Il faut juste trouver les solutions techniques à ce problème : des jolis métas pour ne pas indéxées les pages ou un robots.txt. Il y a aussi une option au niveau de Google (je ne sais plus où mais je sais qu'elle existe) pour supprimer des pages indexées malencontreuseument (alors là, je suis pas sûr de l'orthographe :wink: )

Sinon, tu peux modifié le nom de la variable qui contient le texte de recherche et redirigé vers une 404 pour toute autre variable non autorisée.

Si il n'y a plus de liens qui pointent vers ces pages, elles seront naturellement désindexées par les moteurs. Il faut juste laisser le temps au temps.

Et puis, dans ton cas, je ne pense pas qu'on puisse parler de spamdexing.
 
WRInaute accro
Dans son cas, certes non, mais c'est une porte ouverte pour d'éventuels esprits malveillants.

NB: Pourquoi ne pas passer par POST plutôt que par GET ?
 
WRInaute discret
blman a dit:
Non ! Il faut juste trouver les solutions techniques à ce problème : des jolis métas pour ne pas indéxées les pages ou un robots.txt. Il y a aussi une option au niveau de Google (je ne sais plus où mais je sais qu'elle existe) pour supprimer des pages indexées malencontreuseument (alors là, je suis pas sûr de l'orthographe :wink: )

Pour la dexindexation, j'utile robots.txt, c'est la meilleure méthode et google le prend assez vite en compte, mais bon imagine que demain un "malveillant" reindexe de nouveau des pages avec de nouveaux parametres : toto, titi, tata,... j'ai pas finit !
Et si il peut le faire avec ma page recherche, il peut le faire avec n'importe quelle page de n'importe quel site, puisqu'il suffit de rajouter un paramettre derriere une url pour créer une nouvelle url.
 
WRInaute discret
HawkEye a dit:
Dans son cas, certes non, mais c'est une porte ouverte pour d'éventuels esprits malveillants.

NB: Pourquoi ne pas passer par POST plutôt que par GET ?


La méthode GET me permet d'avoir une liste de pages de résultats de recherche fréquente, sans avoir à passer par un formulaire. le passage de parametre est ultra fréquent sur un site asp, j'ai le probleme là sur la page recherche, mais ça pourrait être avec une autre page...

Tu prends une page toto.Asp d'un site internet, tu lui colles un parametre bidon toto.asp?param=tata et tu l'indexes sur un moteur... si les moteurs acceptent de référencer n'importe quoi, de n'importe qui, la porte est en effet grande ouverte !
 
WRInaute accro
On est bien d'accord.

Ce qu'il est possible de faire dans ce cas, c'est d'effectuer ta recherche dans la db avant de générer ton <head>, et s'il n'y a pas de résultats, d'ajouter <meta name="robots" content="none"> dans le <head> :D
 
WRInaute accro
frenot a dit:
HawkEye a dit:
Dans son cas, certes non, mais c'est une porte ouverte pour d'éventuels esprits malveillants.

NB: Pourquoi ne pas passer par POST plutôt que par GET ?


La méthode GET me permet d'avoir une liste de pages de résultats de recherche fréquente, sans avoir à passer par un formulaire. le passage de parametre est ultra fréquent sur un site asp, j'ai le probleme là sur la page recherche, mais ça pourrait être avec une autre page...

Sur mon moteur de recherche, je passe tout en POST et j'enregistre les requêtes, quelle soit en POST ou en GET dans ma BDD.

Bien sûr, un webmaster pourra très bien indexer des pages avec des paramètres farfelu. Mais ça filtre déjà pas mal de novices qui copie/colle le lien sur des forums ou sur leur blog perso.
D'un autre côté, les urls de mon moteur ne sont pas URL Friendly (mais c'est un choix).
Et puis, mon moteur n'est pas forcément à prendre en exemple...
 
WRInaute passionné
mais ta fonction search effectue une requête externe pour affichier le resultat

pourquoi ne fais tu pas une requête interne ?

rog
 
WRInaute accro
rog a dit:
mais ta fonction search effectue une requête externe pour affichier le resultat

pourquoi ne fais tu pas une requête interne ?

rog

Juste pour ma culture générale personnelle, qu'appelle tuu "requête externe" et "requête interne" ?
 
WRInaute passionné
si j'ai bien compris :

il integre dans le site un input qui va effectuer une requete sur un moteur pour en afficher les résultats

moi je pensais à intégrer un input qui va effectuer une requete dans le propre contenu de son site pour en afficher les résultats

rog
 
WRInaute accro
rog a dit:
si j'ai bien compris :

il integre dans le site un input qui va effectuer une requete sur un moteur pour en afficher les résultats

moi je pensais à intégrer un input qui va effectuer une requete dans le propre contenu de son site pour en afficher les résultats

rog

Tu parle d'une recherche sur le poste client, sans passer par le serveur ? C'est à dire, sans rechercher dans la base de données. Recherche en javascript et non en ASP ?
 
WRInaute passionné
bah non

je parle bien d'un input qui va actionner un search.php

je parle d'une recherche exaustive dans l'intégralité du site

rog
 
WRInaute discret
rog a dit:
bah non
je parle bien d'un input qui va actionner un search.php
je parle d'une recherche exaustive dans l'intégralité du site
rog

Je ne comprends pas franchement ce que tu veux dire, certainement un probleme de terme. Mais quoi qu'il en soit, je ne pense pas que ce soit en réponse à ma question. Mon moteur de recherche va juste chercher dans ma base de données des infos et les affiches dans un template.

Je ne cherche pas à modifier mon moteur, ni à faire une recherche intégrale sur le site, mon probleme est exclusivement un probleme de référencement et de page parasite indexée par google avec des parametres bidons que je n'ai jamais créé, et encore moins indexés personnellement. mon probleme se limite à ça.
 
WRInaute accro
Ca serait tellement facile de nuire à un concurrent en indexant des liens bidons vers son site que je ne pense pas que GG pénalise les sites pour ça ..
 
WRInaute accro
nickargall a dit:
Ca serait tellement facile de nuire à un concurrent en indexant des liens bidons vers son site que je ne pense pas que GG pénalise les sites pour ça ..

+ 1, j'suis assez d'accord avec toi nickargall.

PS : moi non plus, j'ai toujours pas compris ce que rog voulait dire... J'abandonne.
 
WRInaute discret
nickargall a dit:
Ca serait tellement facile de nuire à un concurrent en indexant des liens bidons vers son site que je ne pense pas que GG pénalise les sites pour ça ..

Malheureusement, je crains que ce soit nuisible...

2 cas de figure :

j'indexe des pages bidons de ton site, qui pointe vers des 404 : ça que ce soit google ou d'autres, il n'aime pas et c'est assez nuisible.

j'indexe la meme page avec des parametres bidons, le rendu de la page de retour est donc le meme, et ça c'est typiquement du spamindexing si c'est fait à grande échelle : X url pointe sur 1 page identique.

Donc malheureusement, ces pratiques sont nuisibles et je pense qu'elles ont un réel impact sur le référencement sur les moteurs... c'est bien là tout le probleme.

Mais j'ai retenu la solution donné précédement : faire ma recherche en amont de l'affichage, et si pas de résultat, je met à jour le meta pour que le moteur ne l'indexe pas. J'espere que ca marchera et que tous les crawler le prendront bien en compte.
 
WRInaute accro
frenot a dit:
j'indexe des pages bidons de ton site, qui pointe vers des 404 : ça que ce soit google ou d'autres, il n'aime pas et c'est assez nuisible.
Oui, mais je pense que c'est nuisible pour le site qui a mis en place des liens cassés, pas pour le site visé, sinon on n'en sortirait pas !
frenot a dit:
j'indexe la meme page avec des parametres bidons, le rendu de la page de retour est donc le meme, et ça c'est typiquement du spamindexing si c'est fait à grande échelle : X url pointe sur 1 page identique.
Justement, à savoir si le duplicate content est pénalisant, ce qui est loin d'être sûr ... que des URL en doubles soient ignorées d'accord, mais que le site entier soit pénalisé, j'en suis beaucoup moins sûr.
frenot a dit:
Donc malheureusement, ces pratiques sont nuisibles et je pense qu'elles ont un réel impact sur le référencement sur les moteurs... c'est bien là tout le probleme.
Bon ben je ne suis toujours pas convaincu :)
frenot a dit:
Mais j'ai retenu la solution donné précédement : faire ma recherche en amont de l'affichage, et si pas de résultat, je met à jour le meta pour que le moteur ne l'indexe pas. J'espere que ca marchera et que tous les crawler le prendront bien en compte.
Bonne solution à mon sens
 
WRInaute discret
nickargall a dit:
Oui, mais je pense que c'est nuisible pour le site qui a mis en place des liens cassés, pas pour le site visé, sinon on n'en sortirait pas !
L'outil de google permet de vérifier les erreurs 404 (et donc de les corriger), à mon avis un site blindé d'erreur 404 a certainement une note qualité plus faible qui peut intervenir dans le classement des moteurs (google ou un autre), en tout cas ce serait assez logique (de la part des moteurs) de 'pénaliser' les sites ayant de multiples pages 404.

nickargall a dit:
Justement, à savoir si le duplicate content est pénalisant, ce qui est loin d'être sûr ... que des URL en doubles soient ignorées d'accord, mais que le site entier soit pénalisé, j'en suis beaucoup moins sûr.

Pour ce point là, je peux te l'affirmer, le duplicate content n'est pas que interdit sur google (cf leur condition générale), il est aussi pénalisé, pas mal de sites ont connu des périodes de thrustbox de 30 jours à cause de ça, et pas mal de site sont actuellement desindexés pour cette raison... j'ai pas mal d'exemple (que je ne peux citer).

Ce qui me gène vraiment c'est de savoir comment une tiers personne peut demander à un acteur comme google, l'indexation d'une page de mon site alors qu'elle n'est pas liée, qu'elle n'existe pas, qu'elle n'est pas présente dans mon sitemap... si il suffit juste d'utiliser le formulaire de référencement en indiquant l'url, je trouve ça assez facile.
 
WRInaute accro
Encore plus facile, sur mon site, je génère une suite de paramètres aléatoires, je combine avec l'URL de mon concurrent, je lui sors en 10 mn 15 millions de fausses URL, et mon concurrent coule une fois ces liens indexés ??? Je ne pense pas les Google men assez bête pour ne pas avoir prévu ce cas de figure.
Tiens et si j'essayais ? :twisted: :twisted: :twisted:
 
WRInaute discret
nickargall a dit:
Encore plus facile, sur mon site, je génère une suite de paramètres aléatoires, je combine avec l'URL de mon concurrent, je lui sors en 10 mn 15 millions de fausses URL, et mon concurrent coule une fois ces liens indexés ??? Je ne pense pas les Google men assez bête pour ne pas avoir prévu ce cas de figure.
Tiens et si j'essayais ? :twisted: :twisted: :twisted:

1. Faut il encore indexé chez google 15 millions de pages avec l'url de ton concurrent, c'est pas par ce que tu fais un lien vers une url qu'elle est indexée...

2. Si tu arrives à les indexer, je pense en effet qu'il y a préjudice pour le site concurrent...

C'est bien toute la dérive dont j'essaye de comprendre l'origine sur ce post et dans mes recherches.
 
WRInaute accro
frenot a dit:
1. Faut il encore indexé chez google 15 millions de pages avec l'url de ton concurrent, c'est pas par ce que tu fais un lien vers une url qu'elle est indexée...
Non, j'indexe une page avec, allez disons, 3000 liens vers example.com dessus , avec le temps ça viendra
frenot a dit:
2. Si tu arrives à les indexer, je pense en effet qu'il y a préjudice pour le site concurrent...
On va révolutionner les classements Google en deux coups de cuiller à pot ! :)
 
WRInaute discret
nickargall a dit:
Non, j'indexe une page avec, allez disons, 3000 liens vers example.com dessus , avec le temps ça viendra

Si tu penses que ça suffit, alors c'est certainement ainsi que j'ai eut des pages bidons indexées sur google... pas bon ça car trop simple!
 
WRInaute discret
nickargall a dit:
La question est : Ces pages bidons nuisent-elles à ton référencement ?

Difficile de répondre à cette question avec certitude, mais à mon avis, oui (à 90%), il est jamais bon quand tu tappes ton nom de marque dans un moteur de voir remonter dans les premieres pages de résultats, une majorité de page bidons... c'est ce qui se passe quand je fais site:www.example.com

En parallele, même si je ne fais plus trop attention au pagerank, j'ai perdu 1pt de PR lors du nouveau calcul du 30/09 et je suis pourtant toujours autant présent et n'ai pas baissé mes efforts de référencement, de là à penser que ces pages bidons m'ont couté 1pt en PR, c'est pas à exclure...

Quoi qu'il en soit, ça n'apporte rien de bon.
 
WRInaute accro
La commande site:www.example.com, a priori, montre en premier la home puis les pages les plus récentes ( a priori)
Les pages bidons n'ont à mon avis aucun autre moyen de sortir pour les internautes.
honnêtement, si c'était aussi facile de plomber un site concurrent, beaucoup de monde l'aurait déja testé, et Google aurait déjà réagi je pense. Ils ne sont pas que bêtes chez Google.
 
WRInaute discret
nickargall a dit:
honnêtement, si c'était aussi facile de plomber un site concurrent, beaucoup de monde l'aurait déja testé, et Google aurait déjà réagi je pense. Ils ne sont pas que bêtes chez Google.

(rem : je ne parle pas que de google)

Ok, mais dans ce cas, comment traitent-ils le duplicate content ?
Comment font-ils la distinction entre des pages dupliquées volontairement par un webmaster avide de référencement quelquesoit la méthode et les pages bidons indexées suite à une action d'une tiers personne ?
car au final, le résultat est le même, tu te retrouves avec un lot de pages indexées au contenu identique dans l'index du moteur...

Dès lors :
- soit, il n'y a aucune mesure contre le duplicate content (mais ça, pas mal de webmaster pourront attester qu'il y a des mesures prises contre ces pratiques)
- soit tu te retrouves dans une situation où tu risques d'être mal vu par le moteur, voir exclu de l'index pour une période plus ou moins longue (30j chez google), à cause de pages que tu n'as pas indexées.
 
WRInaute discret
nickargall a dit:
frenot a dit:
Ca m'intéresserait de connaître des cas précis ou tu penses que des mesures ont été prises.

Il me semble avoir déjà lu des webmasters s'en plaignant, mais j'espère que je me trompe. Si qq1 a eut une sandbox pour duplicate content, ou a entendu parler, j'espere qu'il temoignera.

Donc d'après toi, avoir 50 pages bidons référencées sur google n'a aucun effet nefaste sur mon référencement ?
 
WRInaute accro
Je ne pense pas, non, mais je peux me tromper.
Il faudrait pour bien faire risquer de sacrifier un nom de domaine inutile et bien référencé en le bombardant de liens bions, pour voir :) mais je n'en ai pas sous la main ..
 
Discussions similaires
Haut