Indexation d'un site en construction

Nouveau WRInaute
Bonjour à tous,

Tout d'abord merci pour le contenu de ce site et les échanges qui m'ont aidé dans plusieurs cas.

Je suis actuellement en train de construire un site sous wordpress pour ma future entreprise. Dès l'obtention de l'hébergement, j'ai verrouillé l'accès au site par un mot de passe (.htaccess + .htpasswd), principalement pour éviter que le site soit indexé par les moteurs de recherches. J'ai enlevé la protection par mot de passe pendant une dizaine de minutes afin de tester un plugin qui ne fonctionnait pas (WP Super Cache).

Avec la fonction inurl:monsite.fr, je viens de voir que la page d'accueil de mon site est indexée sur google, ainsi que quelques autres pages (dont certaines totalement "random" avec du texte en anglais et latin). Avec la fonction cache:monsite.fr, je vois que l'heure de l'indexation correspond au créneau d'une dizaine de minutes où mon site était accessible sans mot de passe.

Je me pose donc les questions suivantes:

1) Comment google a-t-il eu connaissance de mon site, sachant qu'il n'y a en principe aucun lien externe pointant vers celui-ci? Cela peut-il être via une carte google maps que j'ai insérée dans mon site, par exemple?
2) Y-a-t-il une raison expliquant que mon site ait été "crawlé" justement pendant l'intervalle de 10 minutes sans mot de passe? Ou c'est simplement que le robot est passé au mauvais endroit au mauvais moment... (pas de chance) ?
3) En attendant que mon site soit terminé et publié, que me recommandez-vous pour faire désindexer ces pages?
- attendre: les pages seront-elles désindexées naturellement, étant donné que leur accès est verrouillé?
- demander la désindexation via la Search Console: mais cela sera-t-il préjudiciable pour l'indexation à l'avenir?
- autre...?

Je vous remercie!
 
Nouveau WRInaute
Alors, je pense que d'autres te donneront leur avis mais voici le mien :

1) As-tu coché la case qui demande de ne pas indexer ton site dans les réglages wordpress ? (réglages => lecture). Je ne sais pas exactement comment ça fonctionne mais c'est une piste.

2) Voir 1)

3) Ça va dépendre du temps qui sera mis avant que tu publies ton site ? Si cela va prendre encore un peu de temps, tu peux éventuellement faire une 302 de toutes les pages indexées vers une page qui dit que ton site est en construction ou tu peux aussi essayer de mettre toutes tes pages en 410.
 
Nouveau WRInaute
Alors, je pense que d'autres te donneront leur avis mais voici le mien :

1) As-tu coché la case qui demande de ne pas indexer ton site dans les réglages wordpress ? (réglages => lecture). Je ne sais pas exactement comment ça fonctionne mais c'est une piste.

2) Voir 1)

3) Ça va dépendre du temps qui sera mis avant que tu publies ton site ? Si cela va prendre encore un peu de temps, tu peux éventuellement faire une 302 de toutes les pages indexées vers une page qui dit que ton site est en construction ou tu peux aussi essayer de mettre toutes tes pages en 410.
Bonjour,

Non, je n'ai pas coché l'option dans Wordpress car j'ai lu que ce n'était pas forcément efficace. J'ai préféré le choix plus radical de mettre un mot de passe via le .htaccess, ce qui en principe est infaillible. Mais je ne pensais pas qu'en l'enlevant 10 minutes je risquais d'être indexé!

Le site sera prêt d'ici un mois au plus tôt. Je me demande comment réagit Google quand il tente de visiter à nouveau une page bloquée par .htaccess: sera-t-elle désindexée, ou alors il n'y aura aucun changement?

Merci
 
Nouveau WRInaute
WRInaute occasionnel
Tu as regardé quand les archives du net si ton domaine n'existait pas auparavant ? Ce qui pourrait expliquer pourquoi les bots ont crawlés.

Mais si tu ne voulais pas qu'il soit en ligne, pourquoi ne pas avoir fait la prod en local ?

En attendant, là tu perds ta prime de fraîcheur.
Et pour les pages ben je serais d'avis de conserver l'accueil et de mettre un genre de compte a rebours et en profiter pour attirer du monde sur ton futur projet (en passant pas les réseaux sociaux), avec pourquoi pas un petit formulaire pour rappeler à l'ouverture (ça dépend de ton site en fait).Quitte à perdre la fraîcheur autant en profiter pour en tirer quelque chose.
Les autres pages, tu les passes en noindex, nofollow. ou en 302 vers la home, comme l'a suggéré une autre personne au dessus.
 
WRInaute accro
1) Comment google a-t-il eu connaissance de mon site, sachant qu'il n'y a en principe aucun lien externe pointant vers celui-ci? Cela peut-il être via une carte google maps que j'ai insérée dans mon site, par exemple?

Bien sur ca peu, donc soit avec google map, ou avec les fonts google... ou avec ton navigateur tout simplement... Tu as été activé :) :) :)

En attendant, là tu perds ta prime de fraîcheur.
Tu crois que le critère "prime fraicheur" est bourrin a ce point? Le site a été en ligne 10 minutes...
 
WRInaute occasionnel
Je crois que la prime de fraîcheur démarre au moment où le site est indexé pour la première fois. o_O

C'est peut-être dix minutes, mais il a été indexé, donc elle est en cours...
 
WRInaute accro
J'avais compris ton raisonnement. Tu dis bien "Je crois"... ca reste une supposition. Je sais j'suis ch..
 
Nouveau WRInaute
Bonjour à tous,

Mon site étant maintenant en ligne, je reviens faire un point sur ce sujet et pour avoir votre avis sur une possible pénalité de google.

Rappel des faits:
- le 30/07/19: mon site en construction, normalement protégé par htaccess/htpasswd, est mis en ligne pendant 10 minutes. Pendant ce laps de temps Google l'a crawlé et a indexé des pages de test n'ayant rien à voir avec le sujet du site. Après ces 10 minutes, la protection par htaccess/htpasswd est à nouveau mise en place.
- 04/10/19: mise en ligne de la version finale du site, levée de la protection htaccess/htpasswd. Dans la foulée, création des comptes Google Search Console et Google Analytics. Suppression manuelle des pages obsolètes crawlées en juillet.
- 31/10/19: aujourd'hui, l’intégralité du contenu final est indexé par Google, et tout le contenu obsolète a bien été exclu.

Je compare mon positionnement sur bing et google et j'ai les résultats suivants pour 4 principales requêtes de recherche:

Bing : 1 / 4 / 21 / 11
Google : 25 / 48 / >300 / >300

Je sais bien que les 2 moteurs n'ont pas le même fonctionnement, mais ces différences m'interpellent quand même. Concernant google, pensez-vous que cela est dû à la jeunesse du site (<1 mois), ou peut-on penser que la fuite du site en construction me pénalise aujourd'hui? Je n'ai rien dans les actions manuelles de la GSC.

Merci!
 
WRInaute accro
Arrête de te prendre la tête !
Du moment que tu as fait le nécessaire pour virer les pages tests de ton site et qu'elles ont été désindexées proprement (R301), maintenant travailles ton site. T'occupes pas de GG. Plus tu travailleras ton site (contenus, backlinks...) et plus son robot viendra t'apporter du crédit à ses crawls.
Sors la tête du guidon ;)
 
Nouveau WRInaute
Merci pour cet avis positif ;)
Je précise juste que les pages tests ont seulement été supprimées du site, et celles qui apparaissaient encore dans les SERP ont été déclarées dans l'outil de suppression manuelle. Pas de redirection 301 donc.
Maintenant ces pages ont le statut "Exclues: Explorée, actuellement non indexée"
 
WRInaute occasionnel
juste pour mettre de l'eau au oulin
le web / http, c'est un protocole applicatif à un niveau très haut dans ce qu'on appelle la pile réseau,
du coup il y a énormément d'autres lieux pour découvrir l'existence d'un nouveau site.
Donc sans tomber dans la paranoia, les outils sont plus rapides que nous pour aller chercher des nouveaux contenus. ils ont l'information très tôt sur la création de nouveau sites, mouvement d’hébergement...
 
WRInaute accro
Merci pour cet avis positif ;)
Je précise juste que les pages tests ont seulement été supprimées du site, et celles qui apparaissaient encore dans les SERP ont été déclarées dans l'outil de suppression manuelle. Pas de redirection 301 donc.
Maintenant ces pages ont le statut "Exclues: Explorée, actuellement non indexée"
Ce n'est pas la bonne solution car tu agis seulement en fonction de google et il existe d'autres moteurs qui peuvent avoir connaissance de ces pages.
La solution est que si tu vois dans google search console une page qui n'existe plus où qui n'a pas lieu d'être, il faut systématiquement lui faire une redirection 301.
et si tu supprimes une page du site, faire une redirection 301 également, à partir du moment où elle a existé et qu'elle était indexable.
Tu peux aussi demander à la search console de supprimer la page de l'index, mais cette page peut revenir si tu as un lien quelque part vers cette page. Peut-être qu'un autre site a fait un lien, tu ne peux pas le contrôler. Donc 301 pour être certain qu'elle disparaisse.
 
WRInaute occasionnel
La réponse est dans la question.
Tu dis avoir testé WP Super Cache, tu a donc mis ton site en cache (donc indexé) voilà la source.
Après comme dit @passion travaille ton contenu et sort la tête du guidon sur ces détails.
Tu semble bien placé sur Bing sur certaines recherches, ne te focalise pas sur GG, si ton contenue est pertinent tu remontera petit a petit sur GG en travaillant les backlinks, le maillage interne ...
 
WRInaute occasionnel
Surtout que sur un nouveau site, il faut bien six mois, de façon naturelle, pour commencer a avoir de bons résultats... donc au boulot :D
 
Discussions similaires
Haut