Solution "Intelligente" 'formulaire obligatoire'

WRInaute discret
Bonjour à vous,

Comme mon sujet l'indique, je cherche une solution "intelligente" pour avoir un référencement efficace sur Google et Yahoo (2 moteurs principaux) en tenant compte d'un restriction que je me dois IMPÉRATIVEMENT de mettre en place, contexte légale obligeant (inutile d'entrer dans les détails de cet aspect)...

Disons simplement que la page d'avertissement en question SE DOIT d'être affiché SANS possibilité d'être contourné par des petits malins...

Mon problème est que cette page se doit d'être AU DÉBUT et ne donne pas de marge pour le contenu pouvant être référencé puisqu'il se trouve APRÈS la page d'avertissement et qu'il faire une recherche pour afficher le résultat (MySQL)...

J'ai donc pensé utilisé ma page index pour:
1. afficher le reste du site selon la langue avec un $http_accept_language 0, 2
2. utiliser le $user_agent pour donner aux robots le contenu qu'ils ne peuvent avoir accès

mais il est probable que le $user_agent soit considéré comme un "leurre" et ignoré par les robots pensant que c'est de la "triche"

Alors la question est toute entière, comme permettre l'accès aux robots au contenu et lui permettre exclusivement de outrepasser les restrictions destinés aux utilisateurs ??? :roll:

On doit prendre comme acquis que le robot "accepte" les conditions pour lui permettre de continuer son indexation... Je ne crois pas que le robot soit un "bandit" par défaut :idea:

Merci si vous avez une idée géniale...
 
WRInaute discret
Ta qua mettre dans ton site ad*lte,une popup javascript avec ton disclamer mais d'exclure les ip des bot (crawler) dans robotstats tu en a une bonne liste
8)
 
WRInaute occasionnel
Si tu detecte le user-agent avec PHP (ou tout autre script cote serveur), le robot n'y verra rien du tout! ca ne peut donc pas etre considere comme de la triche, tant que c'est pour faire acceder le robot a tes veritables pages. Par contre, les internautes risquent de ne pas arriver forcementsur ta page d'accueil ou il y a l'avertissement, ca serait bien que qq soit l'URL ils tombent sur cet avertissement a chaque premiere visite du site.
 
WRInaute discret
Ce que je fais pour mes sites du même type c'est que je laisse l'avertissement sur l'index et sur les autres pages, je mets un avertissement javascript (qui n'est en théorie pas lu par les bots). Si le surfeur ne souhaite pas continuer sur le site, il annule et est redirigé vers un autre site (GG je crois).
En pratique ça marche bien : toutes les pages sont indexées par GG et l'avertissement est placé sur toutes les pages.
 
WRInaute discret
Si tu detecte le user-agent avec PHP... le robot n'y verra rien du tout!

Enh bien, je ne veux pas contredire un "grand Googler", mais je suis persuadé que Google tient compte du User_Agent...

Pour en être certain j'ai 5 sites commerciaux et un seul n'utilise pas de frame ni de User_Agent et c'est le seul site qui est référencé sans aucun délai... un site XXX en plus !!! sans disclaimer obligatoire comme le site où ije cherche une solution...

Google ne s'est semble-t-il pas présenté sur la page expressément parce que il y a une condition User-Agent qui le mène à un endroit différent... alors que les autres robots suivent la condition...

Ta qua mettre dans ton site ad*lte

le site que je cherche une solution n'est PAS un site pour adulte !

Mon site à une page index qui contient uniquement une condition User_Agent ensuite je vérifie la langue pour diriger sur le site franco ou anglo... Les robots sont dirigés vers un index spécial pour y référencé le contenu et contourner l'avertissement autrement affiché aux utilisateurs/visiteurs

Je serais bien heureux de constater que le USER_AGENT ne soit pas considéré comme un restrictif de référencement... mais il semble au contraire que ce soit assez restrictif...

Ce matin j'ai changé la condition User_Agent & Langue par le contraire de manière à ce que Google avance dans ma page et qu'ensuite la condition User_Agent soit appliquée pour rediriger ce qui n'est pas un robot vers mon avertissement...

ca serait bien que qq soit l'URL ils tombent sur cet avertissement a chaque premiere visite du site
==> Le site auquel je cherche une solution est effectivement bâtit comme cela...

Google passe sur mes sites à tous les jours vers 00:30 heure de Montréal (EST) je serai donc fixé demain à mon réveil à savoir si cette façon de faire change qq chose ou pas pour Google...

Sinon, il faudra faire comme mon site XXX et afficher tout d'un coup avec seule une condition de langue et le lien d'avertissment sera là, mais je sais très bien qu'on ne le lira pas... d'où pourquoi il doit s'afficher sans être contourné... cliquez sur j'accepte pour pouvoir continuer...

Si les robots seraient tous momogène avec un seul formulaire général pour être référencé et une réponse d'acceptation ou refus d'inclusion et les raisons le motivant, il n'y aurait pas à se casser la tête comme cela... La popularité des moteurs ne changerait rien... c'est la présentation qui fait que l'on choisit un moteur ou un autre... pas sa méthode de référencement...

Surtout quand un robot est comme Bill Gates avec tout le monopole... il se permet de faire ce qu'il veut, comme il veut, quand il veut...

dommage...
 
WRInaute occasionnel
zonemaster a dit:
Enh bien, je ne veux pas contredire un "grand Googler", mais je suis persuadé que Google tient compte du User_Agent...

Pour en être certain j'ai 5 sites commerciaux et un seul n'utilise pas de frame ni de User_Agent et c'est le seul site qui est référencé sans aucun délai... un site XXX en plus !!! sans disclaimer obligatoire comme le site où ije cherche une solution...

Tu peux me contredire autant que tu veux, du momment que tu argumentes :-) Et je pourrais tres bien dire des betises (si si ca m'arrive parfois....).

A mon avis le pb vient des frames, Google deteste ca! d'aillerus c'est pas el seul bot a deteste ca.

Mais je maintient mon idee, pour que google detecte la "supercherie" il faudrait aussi qu'il te visite avec un autre user-agent (celui d'un navigateur p.e) et qu'il constate le changement de comportement. Je crois pas qu'il s'amuse a ca,surtout dans que dans ton cas, c'est plutot pour l'aider.

David
 
WRInaute discret
Je trouve quand même curieux que le seul site sur les 5 que j'ai ce n'est que celui qui n'a pas de condition User_Agent qui obtient le référencement...

Sur un autre Forum dont je suis membre [commentcamarche.com] dont voici la référence et l'extrait:

http://www.commentcamarche.net/web/cloaking.php3

En effet il est possible de repérer les robots des moteurs de recherche par la présence d'un champ User-Agent spécifique dans les requêtes HTTP qu'ils envoient, il est donc facile de les reconnaître et de leur fournir un contenu différent, comportant des mots clés en surnombre, non affichés aux visiteurs.

Pour autant si l'utilisation de cette technique est constaté par un moteur de recherche (cela leur est facile), le site risque tout simplement de ne pas être indexée, voire d'être banni pendant plusieurs mois.
Il est probable que je sois victime de cela simplement pour essayer de donner à Google le contenu de mon site qu'il ne pourrait avoir autrement...

Pour la Frame, c'est la meilleure façon trouver pour décourager les petits malins de contourner ma page d'avertissement. Le frame cache l'url et le php par la suite s'occupe de refuser l'entée autre que par l'index...

Mais au pire le 01 Septembre prochain, il n'y aura plus de frame ni de condition user_agent, pour remplacer pour un site comme celui XXX que Google rééférence très bien... même si cela ne fait pas l'affaire de la firme d'avocats qui représentent mon entreprise... j'ai le choix suivant, je suis bien référencé et je vends mes produits ou je suis étanche légalement, mais je ne vends rien du tout...

Vous quel choix prendriez-vous ?

@suivre
 
WRInaute discret
Et si j'utilisais ma page index pour utiliser mon $User_agent de manière que si c'est un robot il aura le contenu direct et dans le cas contraire il aura la page d'avertissement :D

je pourrais même peut-être supprimer la frame pour tous les robots puisque celle-ci ne sera effective que pour ceux qui ne réponde pas à la liste User_Agent

Des possibilités il y en a, c'est l'application et l'analyse qu'en fait Google qui me préoccupe...

Théoriquement, c'est faisable et acceptable comme choix et façon de faire ?
 
WRInaute accro
A mon avis le pb vient des frames, Google deteste ca! d'aillerus c'est pas el seul bot a deteste ca.

David@site ---> je ne te refais pas le coup du "je ne voudrais pas ...un grand Googler", mais je t'assure que l'on peux très bien référencer des sites à frames, et j'irai même jusqu'à dire que je considère que cela peut être un avantage ... d'ailleurs certain encapsulent leurs pages dans des frames 100% rien que pour ça ... :wink:

pour en revenir à nos moutons ... pourquoi ne pas gérer ton disclamer exclusivement en javascript (google ne s'en occupera pas), en l'intégrant sur toutes tes pages (comme ça tu es tranquille) et en gérant un cookie pour ne le demander qu'une fois par cession (tu met un "time life" réglé sur la durée moyenne ou maxi sur ton site relevée sur tes stats) ?
 
WRInaute discret
Je ne crois pas que le problème soit la frame, mais bon, si il n'y en a pas c'est surement encore mieux je suppose...

Je persiste à croire que User_Agent est interprété par du "cloaking" dès qu'il est en utilisation sur un site... Et si on utilise User_Agent c'est bien souvent pour permetre ou ne pas permettre un accès à un user_agent... La grosse farce c'est qu'un robot ne peut pas voir la logique d'un humain... il se contente se suivre une programmation qui ne peut pas être parfaite... loin de là...

Pour le moment, j'ai supprimé la frame sur index et me fiant sur le fait que Google cesse son indexation au moment ou est utilisé User_agent... par cons.quent j'utilise User_Agent mais dans l'option où la liste est vide il envoit la page de langue au client et l'avertissement suit dans la langue de ce dernier... Autrement, Google (et les autres robots) ont droit au contenu sans tenir compte de la langue...

Comme j'ai mis un exit(); après la condition user_agent != '' ma crainte est que Google ferme les yeux complètement sur le contenu comme si la page était blanche !!!

Pour le javascript, oubliez ça, la plupart (90% +) des visiteurs désasctivent le javascript et le rend inopérant, inutile... De plus, javascript est lourd et pas fiable puisque manipulable côté client...

Il n'y a que Google qui fait la grosse tête... je finirai bien par trouver dans quel ordre il préfère référencer... ca marchait bien il y a 3 mois...
 
WRInaute impliqué
C'est vrai que certains le désactivent, mais je pense pas que cela concerne 90% des gens ! Pense déjà aux novices (représententant une bonne part des internautes) qui ne connaissent même pas le javascript, ils ne risquent pas de le désactiver !
 
WRInaute accro
et puis beaucoup de site ne peuvent fonctionner correctement sans javascript (je pense notament aux sitex d'e-commerce très consultés me semble t'il) ...

mais enfin : pas de javasript, c'est ton choix ... pas de pb ... :cry:
 
WRInaute discret
Ma nouvelle approche semble fonctionner...

2 jours après les changements, Google accepte l'inclusion que je lui donne...
Pour le moment seul un retour de mon espion démontre que Google a bien accepté l'inclusion... Il est encore trop tôt pour savoir si et quand l'amélioration sera perceptible dans sa base de classement...

J'utuilise:

- un frameset (crypté javascript pour éviter accès direct)
- pas de balise <noframe> mais un body en dessous avec le contenu normal
- un inclusion selon la langue du navigateur

résultat:

les robots ont le contenu parce que le javascript y comprenne pas pour la plupart ou sinon si il comprenne ils ont un frame que la plupart ne prenne pas en charge...

les visiteurs ont la page d'avertissement souhaité dans la langue de préférence de leur navigateur

Le php par la suite ne permet pas d'entrer URL direct ni de contourner ma page d'avertissement... il faut impérativement accepter les termes et conditions pour poursuivre...

J'en ai profité pour améliorer mes 4 autres sites en tenant compte de ce succès...

Je continue de dire que l'utuilisation de User_Agent est à proscrire, surtout dans le cas précis de Google qui ne fait pas la différence entre du cloacking un accès au contenu...

Les autres robots accepte le user_agent, mais ne représentent que peut d'intérêt à côté de Google et ce dernier le sait TRÈS BIEN !!!

Je peux donc presque confirmer que ma solution "intelligente" a été trouvée...

@suivre
 
WRInaute discret
La solution énoncée dans mon message précédent se confirme !

Google à indexé mon site en date du 27 Août 2004

La solution est donc fonctionnelle et mon problème est donc réglé...
Pour ceux qui en arrache avec Google, il faut arrêter de s'appitoyer sur son sort et faire travailler ses cellules grises...

À tout problème il y a une solution et ce n'est pas en gémissant que l'on s'en sort... Ce n'est pas Google certainement qui viendra faire le travail pour vous, mais à vous de faire le travail pour que Google vienne à vous...

Heye c'est tu pas bien dit ça :wink:

Merci à tous les intervenants(es) qui ont participé à ce post et contribué à germer ma solution fonctionnelle...

Je cesse donc de suivre le sujet car j'ai 4 autres sites qui demandent mon attention...


@++
 
Discussions similaires
Haut