Portrait Olivier Duffez

Olivier Duffez

Créateur de WebRankInfo,
consultant en référencement

SEO : top 12 des erreurs de duplicate content interne à éviter !

Qui n'a pas été confronté à un problème de duplicate content (contenu dupliqué) sur son site ? Après un bref rappel de la définition du duplicate content, cet article présente les erreurs les plus répandues et bien entendu la façon de les corriger.

Article mis à jour le 22/07/2016, publié initialement le 13/03/2007

Contenus dupliqués internes
Contenus dupliqués internes au site : les erreurs les plus courantes et les meilleures solutions
Si vous n'arrivez pas à résoudre vos problèmes de contenus dupliqués à l'aide de ce dossier, inscrivez-vous à ma formation Référencement naturel. Vous aurez des explications plus détaillées et surtout des réponses adaptées à votre cas particulier. Plus d'infos sur le site de Ranking Metrics (organisme de formation).

Le contenu dupliqué, un problème pour le référencement ?

On parle de contenu dupliqué dès lors qu'un même contenu est accessible à plusieurs endroits sur le web. L'unité de base des documents étant la page, définie précisément par son URL, on parle de contenu dupliqué quand une même page est accessible à plusieurs URL. Dans la majorité des cas, le webmaster n'est même pas au courant qu'il génère du contenu dupliqué. Voici pourquoi je vous liste ici des erreurs bêtes à ne pas commettre... accompagnées des solutions !

Google déclare qu'il n'applique aucune pénalité aux sites ayant du contenu dupliqué, alors est-ce vraiment un problème pour le SEO ? Oui bien sûr, car votre site sera moins efficace. Voici quelques raisons, mais je vous conseille de lire tout mon dossier sur le duplicate content :

  • Si vous faites indexer le même contenu plusieurs fois, vous faites crawler à Google plus de pages que nécessaire. Votre quota de pages crawlées (par jour) étant limité, il vaut mieux lui faire crawler que le nécessaire.
  • Si un contenu est indexé plusieurs fois, parfois Google ne sélectionnera pas le bon pour l'afficher dans les résultats. L'expérience utilisateur sera donc moins bonne, ce qui est mauvais pour le référencement (détails).
  • Si un contenu est accessible à plusieurs URL, parmi les internautes qui veulent lui faire un lien, certains utiliseront une URL et d'autres une autre URL. Chacune aura peu de backlinks, ce qui est moins efficace en SEO que de concentrer les efforts au même endroit. Idem pour les partages sur les réseaux sociaux.
Avant de poursuivre, sachez que si vous ne vous en sortez pas tout seul, je peux vous aider ! Contactez-moi pour obtenir un devis adapté à votre site et les problèmes que vous rencontrez.
Pandas dupliqués
Une bonne raison de corriger vos problèmes de contenus dupliqués : l'algorithme Google Panda !

Les 12 erreurs les plus courantes

Erreur n°1 : indexer son site avec et sans www

Avez-vous testé ce qui se passe si on ne tape pas www dans votre URL ? C'est-à-dire qu'on accède à votre site en tapant http://example.com au lieu de http://www.example.com. Si votre site reste accessible sans que l'on soit redirigé vers la version officielle (dans mon exemple, celle qui contient www dans l'URL), alors votre site risque d'être indexé 2 fois par les moteurs, et vous aurez des problèmes de contenus dupliqués.

Le remède (déjà indiqué en octobre 2005) : éviter le duplicate content avec et sans www.

Remarquez que j'aurais pu prendre l'exemple inverse, c'est-à-dire s'assurer que seul le site sans www est indexable, cela revient au même.

Vous pouvez également définir une URL canonique en faisant bien attention d'inclure (ou pas, selon votre cas) le sous-domaine www.

Erreur n°2 : avoir 2 URL pour sa page d'accueil

Presque tous les sites sont conçus avec un lien sur chaque page pour retourner à la page d'accueil (en général ce lien est situé sur le logo du site). Avez-vous vérifié que ce lien pointe bien vers l'URL précise de votre nom de domaine et non pas autre chose ? Si physiquement votre page d'accueil est index.php, tous les liens internes doivent pointer vers http://www.example.com/ et pas vers http://www.example.com/index.php, sinon il y a encore un problème de contenu dupliqué (et notamment une dilution du PageRank et des autres effets liés aux backlinks).

Vous aurez beau avoir fait attention à bien faire pointer tous vos liens internes vers la bonne URL, vous ne serez jamais à l'abri de liens erronés issus d'autres sites. Si vous voulez optimiser votre site à fond, il faut tester sur chaque page (importante) si l'URL demandée est bien l'URL officielle, et dans le cas contraire rediriger (en code 301) vers l'URL officielle. On peut faire ça par exemple dans le fichier .htaccess ou bien avec quelques lignes de  PHP.

Voici un exemple de fonction :

function redirection_301_si_besoin($uri_attendue)
{
  if ($_SERVER['REQUEST_URI'] != $uri_attendue)
  {
    header("Status: 301 Moved Permanently", false, 301);
    header("Location: https://www.example.com".$uri_attendue);
    exit;
  }
}

A vous de personnaliser ce bout de code avec votre nom de domaine. Dans mon exemple je l'enregistre dans fonctions.php. Pour l'utiliser, il suffit de placer ceci tout en haut de votre page à vérifier (ici sur ma page d'accueil) :

<?php include('fonctions.php'); redirection_301_si_besoin("/"); ?>

Attention ce code doit absolument être au tout début de votre fichier, avant toute ligne HTML.

Bien entendu ceux qui ont accès au fichier .htaccess peuvent également l'utiliser pour régler ce problème.

Remarque : Ici je parle de la page d'accueil mais vous aurez compris que ça concerne en fait toutes les pages du site...

Erreur n°3 : avoir 2 URL pour la page 1 (pagination)

Imaginons que vous ayez un forum et que dans pour chaque discussion vous listiez les messages en limitant à 15 messages par page. Vous avez également un système de pagination pour voir les messages des pages 2 et suivantes. Ces pages-là ont certainement dans leur URL un paramètre qui indique le numéro de la page. Avez-vous vérifié que sur les pages 2 et suivantes, le lien vers la page 1 pointe bien vers la même URL que la page par défaut de la discussion ? Exemple :

  • la page par défaut de la discussion est www.example.com/topic.php?t=456
  • la page 2 de la discussion est www.example.com/topic.php?t=456&p=2
  • le lien depuis la page 2 vers la page 1 doit pointer vers www.example.com/topic.php?t=456 et surtout pas vers www.example.com/topic.php?t=456&p=1

Evidemment, cela ne change rien si vous avez de la réécriture d'URL, le problème reste le même.

Pour les détails : les erreurs courantes sur la pagination

Erreur n°4 : avoir 2 types d'URL indexables (réécrites et classiques)

Imaginons que vous veniez de mettre en place la réécriture d'URL (URL Rewriting) sur votre forum. Pour reprendre l'exemple précédent, les URL de pages de discussion sont passées de www.example.com/topic.php?t=456 à www.example.com/topic-456.html. Avez-vous vérifié que vous interdisez l'indexation des pages avec l'ancien format d'URL ? D'ailleurs la meilleure solution dans ce cas est même de rediriger de façon permanente (code 301) chaque page à l'ancien format vers la page équivalente avec le nouveau format. Pour ceux que ça intéresse, je présente régulièrement au cours de mes formations la méthodologie de mise en place de l'URL Rewriting, avec l'optimisation du référencement associée.

Erreur n°5 : ne pas toujours passer les paramètres d'URL dans le même ordre

Si vous avez un site dynamique et que vous n'avez pas encore mis en place la réécriture d'URL, vous avez peut-être des URL qui contiennent plusieurs paramètres  comme viewtopic.php?t=2534&postdays=0&postorder=asc&start=15. Le problème est que cette page est accessible également sans aucun problème aux URL suivantes : viewtopic.php?t=2534&postorder=asc&postdays=0&start=15 ou viewtopic.php?postdays=0&postorder=asc&start=15&t=2534.

Ceux qui utilisent la réécriture d'URL ont en général bien compris que dans le code, il faut centraliser la gestion de l'URL d'une page dans une fonction. Ainsi partout dans le code, pour générer un lien vers une page, on utilise la fonction qui formate l'URL, et de cette façon les URL ont toujours le même format (paramètres passés dans le même ordre). Cette bonne pratique peut bien entendu être appliquée dans tous les cas, avec ou sans réécriture d'URL.

Erreur n°6 : inclure seulement parfois des paramètres dans les URL

Prenons l'exemple d'un site multilingue disponible en français (langue par défaut) et en anglais, avec le paramètre de langue passé dans l'URL comme par exemple article.php?p=2534&lg=fr (pour la version française) et article.php?p=2534&lg=en (pour la version anglaise).

L'erreur à ne pas faire est de faire des liens sans préciser le paramètre lg , pensant qu'il est facultatif pour le cas des pages en français. Vous vous retrouvez alors avec des URL comme article.php?p=2534 qui génère du contenu dupliqué.

Conclusion : il faut toujours inclure ce paramètre dans l'URL, même si sa valeur est celle par défaut.

Erreur n°7 : indexer la version imprimable

Prenons l'exemple d'un site affichant des articles comme  article.php?p=2534 et qui propose une version imprimable sur  article.php?p=2534&print=1. La majorité du contenu sera identique entre ces 2 URL, ce qui pose problème.

La meilleure solution est certainement d'utiliser les CSS en définissant une feuille de styles dédiée à l'impression. Ainsi, vous ne générez aucune nouvelle URL.

Erreur n°8 : indexer la version PDF

Prenons l'exemple d'un site proposant des articles au format HTML sur article.php?p=2534 et au format PDF sur article-pdf.php?p=2534. Comme pour le cas de la version imprimable, la majorité du contenu sera identique entre ces 2 URL, ce qui pose problème. Surtout que Google indexe parfaitement bien les documents PDF !

Si en plus vous êtes dans le cas d'un site affichant des publicités (absentes dans la version PDF), cela peut se traduire en baisse importante de revenus.

En règle générale, il ne faut pas faire indexer la version PDF. Si c'est déjà le cas, lisez la fin de cet article rubrique Solutions et une fois que les PDF sont désindexés, essayez de bloquer le crawl à Google.

Pour désindexer du PDF, étant donné que vous ne pouvez pas y inclure de balise meta robots noindex, passez par la solution de l'entête HTTP avec X-Robots-Tag.

Remarque : il existe des cas où la version PDF contient bien plus d'informations que la version HTML, ou bien d'autres où seul le format PDF permet de représenter des schémas complexes. Dans ces cas, laissez-les indexés...

Le saviez-vous ? On peut chercher des PDF dans Google avec la commande filetype:pdf.

Erreur n°9 : inclure la catégorie dans l'URL d'une fiche produit ou d'un article

Cette erreur est encore très courante et pourtant dramatique... Lisez donc attentivement !

Si vous êtes persuadé qu'avoir des mots-clés dans l'URL (le maximum !) est un des éléments les plus importants du référencement, vous vous trompez. Mais surtout, cela vous incite souvent à reproduire dans l'URL la structure de l'arborescence de vos contenus.

Si vous avez choisi ce format d'URL, alors vous aurez des problèmes de contenus dupliqués quand vous voudrez affecter un article ou un produit à plusieurs catégories (car vous aurez des URL différentes pour ces différents cas de figure).

En plus des problèmes de contenus dupliqués, vous aurez à gérer les cas inévitables suivants :

  • une catégorie change de nom, ce qui change son URL... et dans votre cas également de nombreuses URL "dessous" dans l'arborescence
  • une catégorie disparait
  • une catégorie fusionne avec une autre
  • une catégorie est découpée en 2

Que ce soit pour de l'éditorial ou un site ecommerce, retenez ceci : l'URL d'un article ne doit contenir aucune référence à l'arborescence (niveaux de catégories). Cela ne vous empêche pas d'avoir quelque chose dans l'URL qui permette de distinguer les fiches produits d'un côté, des catégories de l'autre (par exemple /p/ et /c/).

Remarque : il existe des cas où vous savez qu'un contenu ne peut être associé qu'à une seule catégorie et qu'il n'y a pas de raison pour qu'ils changent. Dans ce cas, vous pouvez envisager de faire apparaître la catégorie dans l'URL, comme je l'ai fait ici dans mes dossiers.

Erreur n°10 : avoir plusieurs noms de domaine indexés pour un même site

Sans doute avez-vous acheté plusieurs noms de domaine pour votre site (il y a plusieurs bonnes raisons d'avoir un hébergement en nom de domaine : par prévention pour éviter que d'autres achètent des noms de domaine très proches du vôtre, par souci pratique pour les internautes qui tapent directement l'adresse en inversant .fr et .com par exemple, etc.).

Peut-être avez-vous mis en place des redirections (permanentes, code 301) vers le nom de domaine officiel (si vous ne l'avez pas fait, vous savez ce qu'il vous reste à faire). Mais avez-vous regardé si ces noms de domaine secondaires sont indexés ? Il ne faut surtout pas que votre site soit indexé plusieurs fois, pour chaque nom de domaine. Si par hasard c'est le cas, c'est sans doute que vous n'avez pas mis en place les bonnes redirections, donc vérifiez que tous les domaines secondaires sont redirigés en 301 vers le domaine principal.

Erreur n°11 : faire indexer le site en HTTP et en HTTPS

Si vous migrez de HTTP à HTTPS, assurez-vous de le faire comme il faut et de ne plus avoir aucun contenu accessible aussi bien en HTTP qu'en HTTPS : tout doit être redirigé vers le HTTPS. A ce sujet, lisez mes conseils pour migrer de HTTP à HTTPS et récupérez le code à mettre dans le fichier .htaccess.

Au fait, savez-vous qu'il arrive parfois qu'un site soit accessible en HTTPS sans que son propriétaire le sache ? Il s'agit alors d'une mauvaise configuration du serveur, qu'il faut corriger. Pour vérifier si cela vous concerne, faites une requête spéciale en reprenant l'exemple ci-dessous :

site:example.com inurl:https

la commande site: restreint à votre site et la commande inurl: restreint la recherche à certains caractères présents dans l'URL. Malheureusement, vous pourrez avoir des pages en HTTP dans les résultats : il suffit qu'elles aient le mot https ailleurs dans l'URL. Dommage que Google ne propose pas de commande liée au protocole (http, https, etc.). J'en ai parlé à Google en direct, ils m'ont dit qu'il y réfléchissaient ! Voir les tweets ici et .

Au fait, si vous ne les connaissez pas, consultez ma liste des commandes Google pour devenir un expert des requêtes !

Je ne saurais trop vous recommander de vérifier qu'en interne sur votre propre site, vous ne faites pas de lien vers le mauvais protocole ! Si par exemple votre site est en HTTP, vous ne devriez avoir aucun lien vers une URL en HTTPS. Pour le vérifier, faites un audit RM Tech, mon outil d'audit technique SEO sur My Ranking Metrics.

Erreur n°12 : faire indexer en desktop des URL du site mobile

Vous avez peut-être choisi d'avoir un site mobile à part de votre site pour ordinateur (par exemple en mettant la version mobile sur un sous-domaine du genre m.example.com). Pourquoi pas, ça fait partie des possibilités pour rendre son site compatible mobile.

Mais dans ce cas, vérifiez que dans chaque URL mobile, vous indiquez bien l'URL équivalente sur le site pour ordinateurs. Google recommande pour cela d'utiliser une URL canonique.

Autres erreurs

Si vous avez d'autres exemples d'erreurs classiques de contenus dupliqués, merci de les indiquer en commentaires ! Je me permettrai de les intégrer dans cet article pour le mettre à jour.

Les solutions aux contenus dupliqués internes

La meilleure solution : redirection 301

Si vous avez fait une des erreurs précédentes et que certaines URL sont indexées alors qu'elles n'auraient pas dû l'être, la meilleure solution est de les rediriger de façon définitive (code HTTP 301) vers la bonne URL.

Par exemple (version imprimable) il faut rediriger  article.php?p=2534&print=1 vers article.php?p=2534.

Il existe des cas où ce n'est pas possible, par exemple car l'internaute doit pouvoir consulter l'URL "dupliquée". Dans ce cas il faut se rabattre sur l'URL canonique décrite ci-après.

A ne pas oublier de faire...

En plus de ces redirections, n'oubliez pas de mettre à jour votre site pour ne plus faire de liens vers ces mauvaises URL ! Pour automatiser cette vérification, utilisez RM Tech, vous saurez tout de suite s'il reste en interne des mauvais liens.

Si vous êtes capable de lister toutes les URL dupliquées pour lesquelles une redirection 301 est en place, listez-les dans un fichier sitemap. Cela incitera Google à aller les crawler et donc à les désindexer. En plus, vous aurez dans Google Search Console un décompte du nombre d'URL qu'il reste à faire désindexer.

Solution universelle : l'URL canonique

Depuis février 2009, Google gère l'URL canonique. C'est une bonne solution alternative, même si je l'estime moins efficace qu'une redirection 301 (Matt Cutts dit la même chose d'ailleurs).

Cet article vous a-t-il plu ?

Note : 4.4 (14 votes)
Cliquez pour voter !

Si vous avez des questions, posez-les dans le forum WebRankInfo.

Si vous préférez du consulting, j'en propose sur mon site WebRankExpert.

75 commentaires

Slave 2.0

Comme d'habitude, tout est dit de manière concise et pertinente ! Un grand merci !

Edouard

Bonjour ! Merci merci merci Olivier !
Top top top !

J'ai cependant une question à laquelle je n'arrive pas à répondre ...

J'ai un wordpress; j'ai écris plusieurs articles qui respectent les contraintes SEO (utilisateurs et googlebots) etc..
J'ai cette fameuses case : "tags" pour chaque article que je rempli de mots clés (je n'en abuse pas, mais une 10aine par article).

En suivant le référencement des articles, certains remontent très bien grâce à ces fameux tags :

Quand on clique sur une de mes META dans les SERP, on tombe sur une page de mon wordpress qui contient un visuel de l'article et le TAG concerné.
Puis on doit cliquer sur le visuel pour voir l'article.
On a donc environ 10 tags = 10 pages contenant ce fameux visuel et résumé d'article / articles soit aujourd'hui 150 pages pour 8 articles...

Question : Cela influence t-il sur le référencement ? est-ce considéré comme du duplicate content ?

D'avance merci, je ne trouve pas la solution..
Je peux vous envoyer 2 liens par email qui résument très bien ma question.

Cordialement,

Edouard

Olivier Duffez

désolé Edouard, sans exemple concret (URL) je n'arrive pas à comprendre. Dans la plupart des cas, je déconseille d'utiliser les tags.

Roby

Bonjour,

Merci pour toutes ces infos !

Pour faire référence à l'erreur n°11 (https), Google commence à indexer mon site en https alors que je souhaite rester en http.

J'ai donc ajouté les lignes suivantes dans mon htaccess

# BEGIN BLOCK HTTPS
RewriteCond %{SERVER_PORT} 443 [NC]
RewriteRule ^(.*)$ http://%{HTTP_HOST}/$1 [R=301,L]
# END BLOCK HTTPS

Le redirect ne fonctionnait pas, mon host a alors installé un certificat ssl auto-signé.

Les pages en https sont désormais bien redirigées vers la version http, cependant, je constate en utilisant la commande site:example.com inurl:https que Google continue d'indexer de plus en plus de pages en https.

Pensez-vous que la redirection 301 via htaccess soit suffisante ?

Comment s'assurer que Google ne continue plus l'indexation des nouvelles pages en https ?

Merci d'avance pour votre aide !

Bien cordialement.

Olivier Duffez

Désolé Roby, j'avais oublié ce commentaire... Le mieux est d'aller voir l'article dédié aux redirections entre HTTP et HTTPS

Béat

Bonjour et merci pour toutes vos explications,

Je suis webdesigner et je m'apprête à mettre en ligne plusieurs modèles de sites internet. Ces modèles sont des sites types (réalisés à partir de mes framework) que je publie pour que mes futurs clients puissent les voir à l'oeuvre et choisir le type de site que je personnaliserai ensuite pour eux.

Chacun de ces sites sera installé dans un sous-domaine du site principal. Tous reproduiront à peu de choses près les mêmes contenus, avec quelques fois des «lorem ipsum». J'ai donc un gros problème de contenus dupliqués…

Je pense que le plus sûr est de rendre les modèles entièrement non indexables avec un noindex et nofollow dans le head et un Disallow: / dans le robots.txt

Question subsidiaire: comment seront «jugés» les liens entre les modèles et le site principal (qui lui, sera dûment indexé)?

Merci pour vos lumières.

Olivier Duffez

@Béat : ces sites n'ont pas à être crawlés (et indexés) je pense, donc un Disallow: / dans le robots.txt de chacun sera suffisant et sans impact pour le reste du site.

Alyana

Bonjour,

Merci pour cet article qui est une mine d'or !

J'ai une question : une cliente a recopié le contenu d'un service sur le site de l'organisme de formation suite à la demande de cette dernière. En effet, elle demande aux personnes certifiées d'ajouter sur leur site tout le détail du service/de la formation. Comment faire dans ce cas pour éviter le duplicate content tout en gardant le texte préconisé par l'organisme ?
Merci d'avance de m'éclairer !

Adrien Legoff

Bonjour,

Merci pour cet article. Afin de faire bénéficier aux internautes d'un complément d'information exclusif, je vous propose une autre source que nous venons de publier, qui donne notamment des précisions afin d'éviter d'avoir du contenu dupliqué sur son site e-commerce : http://www.lafabriquedunet.fr/seo/articles/eviter-duplicate-content-site-ecommerce/

Encore merci et à bientôt,

Adrien.

Bruce

Pour ceux que ça pourrais aider nous venons de créer un petit outil d'aide à la recherche de duplicate content sur le web. Il est à la fois simple et efficace. Vous pourrez le retrouver à l'adresse suivante http://duplicate.primaweb.fr . N'hésitez pas à nous laisser des commentaires pour que nous puissions l'améliorer.

Caroff

Bonjour Olivier,
Tout d'abord, merci pour tes articles très enrichissants!

Le site de locations de vacances pour lequel je travaille va bientôt sortir son nouveau site. Mais j'ai un gros doute par rapport au duplicate content qui pourrait nous pénaliser pour le SEO et j'avoue n'avoir trouvé aucune réponse claire à mon problème (les gens donnent des réponses différentes même sur le forum Google..).

Comme notre site possède plusieurs catégories et qu'une annonce peut se retrouver dans plusieurs catégories et arborescences (exemple : l'annonce d'une villa à Saint-Tropez se retrouve dans les listes "France" -> "Provence-Alpes-Cote d'Azur" -> "Var" et "Villa"), s'agit-il de contenu dupliqué?

Sachant que le contenu d'une annonce visible sur la liste d'une catégorie est assez maigre (juste photo, titre, 2-3 infos, le tout renvoyant à une URL unique de l'annonce)...

Autre interrogation par rapport à ton Erreur n°9: inclure la catégorie dans l'URL d'une fiche produit ou d'un article...

Disons qu'on n'affiche pas la catégorie mais le titre d'une annonce écrite par la personne qui nous soumet cette annonce... S'il décide de changer de titre par la suite, l'URL devrait donc soit s'y adapter (et donc il faudrait créer des redirections 301 par crainte de contenu dupliqué) ou rester statique (mais dans ce cas, ne plus correspondre au nouveau titre)...

Nos concurrents ont eux choisi de n'afficher que le numéro d'annonce dans l'URL de leur fiche.
Quelle est donc la meilleure décision, référencement parlant?

Merci d'avance à celui ou celle qui pourrait m'éclairer ! :)

Olivier Duffez

@Caroff : si une annonce est dans plusieurs catégories et que l'URL inclut la catégorie, alors ça génère des pb de contenus dupliqués. D'où ma recommandation n°9 !
L'URL ne doit pas changer quand le titre de l'annonce change, sinon ça génère trop de problèmes. Donc ce n'est pas idiot d'utiliser uniquement l'ID numérique de l'annonce dans son URL.

Elmig

Merci, pour l'article mais si on prend l'erreur 9, c'est pas ce que je vois dans l'URL de cette page: un article qui est en arborescence.

Olivier Duffez

@Elmig : j'ai expliqué ce cas justement dans le point n°9 : "il existe des cas où vous savez qu'un contenu ne peut être associé qu'à une seule catégorie et qu'il n'y a pas de raison pour qu'ils changent. Dans ce cas, vous pouvez envisager de faire apparaître la catégorie dans l'URL, comme je l'ai fait ici dans mes dossiers."

Loulou

Excellent, vivement que vous repreniez vos bonnes habitudes, sources d’inspirations pour mon propre blog
Louis

Olivier Duffez

Merci Loulou !

Olivier Duffez

@sojahu : c'est pourtant bien considéré par Google comme 2 URL distinctes. Par exemple, elles n'ont pas les mêmes backlinks et pas le même PageRank. Mais c'est vrai que ça reste une erreur mineure.

biber

Bonjour, je rencontre le probleme de « duplicate » (l’adresse http://www.example.com et l’adresse http://www.example.com/index.php)
est il possible d'avoir le modele du code en .htaccess ?
je trouve pas grand chose qui fonctionne.
Merci d'avance,

Landry

Bonjour Olivier,
Ah oui bien sûr si le site est en https il ne faut rien bloquer.

Mon exemple concerne uniquement le cas où ces pages sont involontairement existantes.
J'ai vu à la requête site:www.monsite qu'il apparaissait des pages en https dans les résultats. En cherchant un peu je me suis aperçu que je n'était pas le seul.
D'autant que comme ces pages ne sont pas souhaitées je n'ai bien sûr pas de certificat SSL, d'où l'apparition d'une fenêtre d'avertissement lorsqu'un internaute tente d'ouvrir ces liens.
Mieux vaut qu'elles ne soient pas indexées dans mon cas.

Il existe un article à ce sujet ici : -http://www.yapasdequoi.com/astuces/2532-attention-au-duplicate-content-http-vs-https.html

Landry

Il faut aussi empêcher l'indexation des pages en SSL.

Personnellement j'utilise le .htaccess et un robots-https.txt

Dans le htaccess :
# Empecher l'indexation des pages en https, duplicate
RewriteCond %{SERVER_PORT} ^443$
RewriteRule ^robots\.txt$ robots-https.txt [L]

Dans le robots-https.txt
User-agent: *
Disallow: /

Olivier Duffez

@Landry : pourquoi bloquer l'indexation des pages SSL ? ça dépend des cas. Parfois, tout le site est en HTTPS et on ne bloque rien du tout (surtout pas).

Boni

Que ce passe-t-il si l'on a plusieurs terminaisons de noms de domaine par rapport à la localisation des clients.
Exemple, un .ch pour les suisses, et un .com pour les Européens.
La raison est que vu la monnaie, et la problématique de la douane, j'ai deux sites avec deux sociétés afin de livrer depuis la Suisse les clients suisses et depuis la France pour les Européens.
Derrière cela il y a aussi une problématique de TVA et autres...

D'après ce que j'ai lu, ceci est possible pour google, a partir du moment ou il y a bien une distinction géographique. .ch = clients suisses & .com = clients autres que suisses.

Est-ce juste?

Boni

Olivier Duffez

@boni : dans ce cas il vaut mieux utiliser les balises link alternate hreflang (cherche la doc de Google)

Noren

Bonjour

Olivier tu peux en ajouter 2 autres qui sont également assez fréquents :

Les url de ce type : http://ip/

ou encore les URl liés a nos hébergeurs (sans NDD), exemple : http://240plan.ovh.net/~site

Rick

Que pensez-vous des tags ?
Quand un article de blog est taggé avec plusieurs mots, et quand on clique sur l'un d'eux s'affiche une liste de résultats avec les liens vers tous les articles ayant ce tag ?
Indexer ou ne pas indexer ? Merci

Yvan

Sur les dernière versions de WordPress la redirection de ce fais automatiquement mais par contre le index.php ne se redirige pas : /index.php c'est embêtant pour le SEO ? si oui comment peut on résoudre le problème sans pour autant alourdir le site avec un plugin supplémentaire ?

Olivier Duffez

@Yvan : le pb ne vient pas de WordPress mais de sa configuration ou du template utilisé. Il faut vérifier que l'URL du site indiquée à WordPress ne contient pas le /index.php, tout comme les templates.

lipki

C'est n'importe quoi ! Cassement tout les points sont stupide, ce n'est pas à nous de régler des problèmes d'interprétation des moteurs de recherche.
On développe des sites pour les utilisateurs, pas pour les panda.

Un modification quel quel soit qui est destiné à palier au déficience des moteurs de recherche et non pas à améliorer l'expérience utilisateur, n'a pas de raison d'être.

Olivier Duffez

@lipki : à chacun de voir, mais si on cumule les erreurs mentionnées ici, le référencement sera vraiment pénalisé, c'est certain

Kitto

Bonjour,
Mais site est accessible par la racine et par la page index.php, ce qui donne une duplication !
J'ai essayé la méthode mentionnée, mais ça fonctionne pas sur mon site.
Y a t il un simple code à insérer dans le htaccess pour rediriger la page index.php vers -www.monsite.com ?

Merci

djanahana

Bonjour

vous avez dit "vérifiez que tous les domaines secondaires sont redirigés en 301 vers le domaine principal." ,je ne sais pas qu'est ce que ça veut dire??je suis débutante de se domaine de référencement

merci

Olivier Duffez

@djanahana : si votre site est accessible via d'autres noms de domaine que le nom de domaine officiel, par exemple avec d'autres extensions du nom de domaine, ou des versions avec/sans tirets, alors attention si ces versions se font indexer car cela crée du duplicate content.

Karim

En effet c'est peu de contenu comparé au reste de la page sur ce site.
Dans mon cas, la partie dupliquée sera au moins équivalente au contenu de la page voir plus conséquente. Ça risque de poser problème... Merci !

Karim

Bonjour,

Le cadre "A propos de l'auteur" que l'on retrouve sous tous les articles d'Olivier Duffez n'est il pas considéré par google comme du contenu dupliqué ?
De même pour certaines zones de textes du même genre que l'on retrouve sur plusieurs pages (zone A propos, de la publicité, des indications d'utilisation etc...)

Merci d'avance pour votre retour, cette question m'est toujours restée sans réponse.

Olivier Duffez

Non je ne pense pas qu'il gène, car il représente peu de l'ensemble du contenu de la page.

Jean-Baptiste

@jh
Pourquoi ne pas passer les monnaies en variables de sessions ?

jh

Ok mais alors le .htaccess risque d'être énorme, déjà qu'il y a une ligne par recette + une pour les monnaies, une pour le nombre de convives etc...

Ou alors je fais fausse route sur la façon de faire ?

Olivier Duffez

dans ce cas de figure, il ne faut pas faire la redirection dans le .htaccess mais dans le fichier PHP

jh

Bonjour,

J'ai mis en place une redirection d'URL, via un .htaccess, pour mon site de cuisine, au lieu de on a maintenant desserts/recette-bananes-flambees-legeres.html ça marche bien.

Mais il y a un effet de bord : outre l'id de la recette je transmettais parfois dans l'url d'autres paramètres comme par exemple recette.php?id=12&monnaie=USD et maintenant ne fonctionne plus...

Y a t'il un moyen de passer un paramètre quand même ou une solution pour contourner ce problème ?

D'avance merci de vos infos ?

jh

Olivier Duffez

Il faut définir d'autres règles de réécriture et d'autres règles de redirection
par exemple on pourrait définir /desserts/recette-bananes-flambees-legeres-USD.html comme nouveau format des URL avec monnaie, et mettre en place la redirection de recette.php?id=12&monnaie=USD vers recette-bananes-flambees-legeres-USD.html

Par contre je me demande si ça ne peut pas générer des problèmes de duplicate content ces monnaies ? (je ne suis pas allé voir le site)

Rémi Brandini

Une autre source de duplicate est de posséder plusieurs IPs pour un seul et même domaine (DNS Round-Robin par exemple).

sanfoura

Bonjour;
J'indique le canonical URL au fichier index.php de la template; mais encore existe la problème de duplication
Je dois faire quoi dans ce cas?????????
SVP me repends c' très ergent

Olivier Duffez

@sanfoura : le plus efficace serait de poser la question dans le forum, en donnant des détails (notamment l'adresse du site) sinon on ne peut pas vraiment aider

Olivier Duffez

@sajoo : Google joue sur les mots... "Il n'y a pas de pénalité mais cela va affecter [de nombreux critères]"

Astrid

Hello,
j'utilise wordpress et pour les archives les liens vers mes articles vienne avec les dates !

Je trouvais cela logique mais j'ai vu que c'était déconseiller !
es ce grave ?

Merci pour vos articles !

@ plus

Olivier Duffez

Pour ma part je conseille en effet de simplifier les URL en ne mettant pas les dates, mais uniquement pour les nouveaux sites ou nouvelles rubriques.
Pour un site déjà en place, inutile de changer.

Matt

Tiens, je viens de rajouteer cela au .htaccess :
RewriteCond %{THE_REQUEST} ^[A-Z]{3,9} /index.php HTTP/
RewriteRule ^index.php$ [R=301,L]

Maintenant j'ai ce que je voulais mais je perds la fonction "autocomplétion" de ma barre de recherche !!!! Zut!

Matt

Bonjour,
J'ai réglé le cas N°1 mais pas le N°2.
Voilà ce que j'ai dans le .htaccess :

RewriteEngine On
RewriteCond %{HTTP_HOST} !^www.crabzy.com [NC]
RewriteRule (.*) [QSA,R=301,L]

RewriteCond %{THE_REQUEST} ^[A-Z]{3,9} /index.htm HTTP/
RewriteRule ^index.htm$ [R=301,L]

Order Allow,Deny
Deny from All

Order Allow,Deny
Deny from All

Si j'y rajoute : dans .htacess et cela dans functions.php (noté que j'ai le fichier functions.php et non fonctions.php !! normal ????) le site plante :
function redirection_301_si_besoin($url_envoyee,$url_attendue)
{
if ($_SERVER['REQUEST_URI'] == $url_envoyee)
{
header("Status: 301 Moved Permanently", false, 301);
header("Location: ".$url_attendue);
exit;
}
}

Val, développeur CMS

Bonjour,
Concernant la question "A partir de quel pourcentage le duplicate content devient detectable par Google ?", personnellement je la comprends ainsi :

Je gère un site de cours de photos, cours-de-photo.be
J'ai une page par salle de cours : exemple : cours-de-photo.be/stage-photo-a/liege-sclessin.htm avec la liste des dates pour Liège et une page par type de stage : exemple : cours-de-photo.be/cours-de-photo-pour/progresser-en-photo.htm dans lequel j'ai aussi une liste de dates.

Bien entendu, cette liste est encodée une seule fois et chaque bloc est appelé dans la page de la salle de cours et dans la page du stage. Donc chaque bloc se retrouve à plusieurs endroits dans le site.
Est-ce du duplicate content ?
Si oui, il constitue en certain pourcentage de contenu par rapport à la page dans son entièreté. Est-ce suffisant pour que le site soit pénalisé ?

Merci en tout cas pour ce bel article qui tombe à pic. Bonne journée !

Chris

Bonjour,

J'ai justement le cas n°5 qui se pose avec différents noms de domaines réservés chez Orange et un seul compte FTP.
Ainsi quelque soit l'url que je tape j'ai le même contenu (seule le ndd change). J'ai demandé à Orange de rediriger tous les noms de domaine vers le principal mais ils ne savent pas comment faire à part créer un autre hébergement sur lequel pointeraient tous les NDD sauf le principal et où je pourrais enfin placer un .htaccess avec des règles de redirection vers le compte principal.
Est ce la meilleure solution ou y a t il mieux ? (si ce n'est changer d'hébergeur !!)
Merci d'avance

M'baye

Bonjour,

A partir de quel pourcentage le duplicate content devient detectable par Google ?

Cordialmement

Hamet

Olivier Duffez

Même si quelqu'un donnait une valeur de ce pourcentage, est-ce que ça vous avancerait ? Car avec quel outil le calculeriez-vous ? Google utilise une combinaison de plusieurs algorithmes connus dans la littérature sur ce sujet, si bien qu'il est impossible de répondre à votre question...
Déjà, il faut éviter de créer du contenu dupliqué, c'est-à-dire un même contenu accessible à plusieurs URL.

Maxdz

Bonjour,
merci pour ce précieux article ;)
Concernant les redirections j'ai apporté une petite modif' permettant d'appeler plusieurs fois cette fonction dans la même page dans le cas de sites dynamiques.

function redirection_301_si_besoin($url_envoyee,$url_attendue)
{
  if ($_SERVER['REQUEST_URI'] == $url_envoyee)
  {
    header("Status: 301 Moved Permanently", false, 301);
    header("Location: ".$url_attendue);
    exit;
  }
}

Ainsi on peut faire la comparaison entre l'url envoyée et l'url attendue :) .

Voyage indonésie

A ajouter aussi les urls de page d'impression ou de l'article sous un autre format word, pdf

Reprise aussi parfois des articles sur une page commentaire.

JJhalin

Salut woof! merci pour l'info

Malheureusement j'ai testé ce code, et ca ne fait rien du tout! g pris soin de modifier le htm en php pour mes pages, mais rien n'a changé. on accede toujours a index.php sans etre redirigé.

a+

ogunsplace

Ou en effet , j'etait en index.html mais j'ai un index.php maintenant, j'ai effacé le index.html mais il me redirige sur une autre page en .html sur la racine du site, donc tans pis maintenant j'ai remis l'index.html qui fait une redirection sur le l'index.php, bof on verra bien !!!

Sam

Et quelles sont les conséquences en termes de réferencement pour un contenu dupliqué ?

ogunsplace

et ben il y a du pain sur la planche !!
et hop au boulot!
bravo et merci

SuperPJ

excellent article

woof

JJhalin, j'ai effectivement rencontré ce problème de boucle: une redirection simple ne suffit pas.
Il faut écrire les lignes suivantes dans le fichier .htaccess pour Apache:

 RewriteCond %{THE_REQUEST} ^[A-Z]{3,9} /index.htm HTTP/
RewriteRule ^index.htm$ www.example.com/ [R=301,L]

Sinon, je rencontre un autre cas de duplicate content dans le cas d'un site multilingue avec détection automatique de la langue: voir mon post sur d'autres problèmes de duplicate content

jona

D'abord merci pour tous ces conseils.

Concernant le point numéro deux. Je me demande une chose.
Ce genre d'erreur ne se limite probablement pas à la page d'accueil.

J'ai par exemple des pages de langues étrangères ou deux Urls sont référencées pour le même contenu

et

En fait il me semble qu'à chaque fois qu'on créé une page sur un index (accueil ou pas) il faut ensuite faire très attention à ne pas se planter autant dans les lien internes que dans les liens externes.

Eric

Merci pour l'info. Je pense que cela est bien sur aussi valable pour ce qui pointe directement sur un sous-répertoire ayant une page d'entrée à index.htm ou php.

JJhalin

Salut,

perso j'essaie de resoudre le n°2 en htaccess j'ai que des problèmes! ca ne crée pas une sorte de boucle infinie?

généralement un htaccess c'est: nompage1.html nompage2.html [parametres]

mais comme il s'agit de la racine, que mettre en nompage2?

merci

Mona

Merci pour l'info. Reste à faire un article sur la gestion des sous-domaines... encore floue pour moi !

Nico

Excellent article. Pour le N.2 je ne savais pas.

Yazerty

Artemia > Si :).

Artemia

Pour l'erreur N°2 ne peut-elle pas être solutionnée dans le .htaccess ?

Grand-Pas

Ce problème de duplicate content mérite effectivement de plus amples informations. Une question récurrente étant de savoir si un site internet ayant plusieurs noms de domaines pointant vers une seule url peut être victime de duplicate content... Toujours pas trouvé de réponse claire à cette question...

Location vacances

C'est vrai que le duplicate content peu être un réel problème en terme de référencement.
Merci pour cet article clair et précis.

Guillaume

Effectivement, à avoir sur toute bonne check-list ;)

le furet

Merci, je m'en vais de ce pas faire quelques corrections ;-)

TOMHTML

Félicitations pour l'article. ça a le mérite d'être clair et efficace :)

Les commentaires sont fermés