8 façons de régler vos problèmes de duplication de contenus

La duplication de contenus : en voilà un problème qui est récurrent sur les sites web. Pour bien démarrer l’année 2011, quoi de mieux que de prendre comme résolution de faire le ménage sur son site, que ce soit sur son serveur ou alors vis à vis des moteurs.

Si la duplication de contenus ne génère pas de pénalisation de la part des moteurs, elle n’apporte en revanche aucune performance seo à votre site puisqu’elle peut engendrer la désorientation des robots concernant l’indexation et le positionnement des pages de votre site dans les résultats de recherche.

Vous trouverez ci-dessous 10 façons de régler vos problèmes de duplication de contenus :

  • Rediriger la version non www vers la www de votre domaine : erreur très fréquente et bien connue des référenceurs, la plupart des sites sont souvents accessibles par défaut en www.nomdusite.com ou http://nomdusite.com. Cela génère une duplication totale de votre site web pour les moteurs, ce qui n’apporte rien de bon. Il est de votre devoir de définir un seul et unique chemin d’entrée vers la racine du site et généralement, préferez la version avec le www (sauf s’il s’agit d’un sous-domaine). Pour cela, effectuez une redirection 301 du non-www vers la version www de votre domaine. Pour savoir comment implanter ce genre de redirection selon la plateforme de votre site, rendez-vous sur cette page.
  • Supprimer les liens vers les /index.xxx : même problème que précédemment. Il peut arriver que votre homepage soit accessible en tapant www.nomdusite.com/index.php ou /index.html. On a toujours affaire à un problème de duplication de contenu, d’autant plus que les internautes peuvent très bien faire des liens entrants vers ces adresses là, gaspillant les performances accumulées vers la bonne adresse du domaine. Là encore, une bonne redirection 301 est à établir.
  • Effacer les fichiers inutiles sur votre serveur : vieilles pages html obsolètes, vieille version du site, faire directement le ménage peut être aussi une bonne solution pour éviter tout risque d’accès vers du vieux contenu, du contenus dupliqués, voire peu pertinent. Attention cependant, il faut s’assurer que ces vieilles pages sont correctement redirigées, toujours avec un code http 301, afin de conserver une partie des performance et de l’historique. Si une vieille version de la page est toujours dans l’index du moteur et qu’une nouvelle version a été crée depuis, on assiste à un problème de duplication bête et méchant :). A vous de rediriger l’URL indexée puis ensuite supprimer cette vieille page.
  • Réparer les liens cassés : suite logique du point précédent, il est important de réparer les liens cassés vers les anciens contenus qui ont, par exemple, oublié d’être redirigé correctement. Afin d’éviter tout risque de duplication potentiel, il faut modifier vos liens de manière de manière à les faire pointer vers les bonnes version de vos pages. C’est le genre de boulot qui peut prendre des heures mais qui, au final, reste nécessaire (moins de pages 404, moins de frustration, moins le foutoir pour Google lors du passage du robot sur votre site).
  • Utiliser le tag canonical : si pour X raison, vous êtes obligé d’avoir le même contenu à différentes URL sur votre site (ce que je déconseille fortement et ce qui semble d’ailleurs étrange), il y a toujours l’option de l’URL canonique. Ce tag permet d’indiquer à Google que le contenu original (et donc celui à prendre vraiment en compte) se trouve à une autre adresse. Le tag s’écrit de la façon suivante : <link rel=”canonical” href=”http://www.example.com/la-vraie-page-a-prendre-en-compte” />. Pour info, l’application de ce tag fonctionne aussi bien au sein d’un même domaine qu’entre plusieurs domaines différents.
  • Utiliser le fichier robots.txt ou la meta robot : vieux comme le monde, le fichier robots.txt est toujours aussi efficace et bien pris en compte par tous les grands moteurs. Le fichier robots.txt doit se trouver à la racine de votre site et doit être soigneusement rempli. Mal utilisé, vous pouvez tuer en un clin d’oeil le seo de votre site. Juste pour le fun, j’avais testé sur l’un de mes blogs. La perte de position des pages s’était faite en deux semaines, divisant par 4 mon trafic provenant depuis le SEO. En rectifiant le fichier, j’avais récupérer l’intégralité de mon trafic en un peu plus de 3 semaines. Il existe une balise d’en-tête meta robots que vous pouvez insérer dans vos pages et qui fonctionne avec le même principe que le fichier. Là encore, il faut savoir ce que vous souhaitez indexer ou non. N’hésitez pas à passer un petit Xenu pour vous aider à trouver les fichiers inutiles à indexer :).
  • Citer la page source : autre alternative au canonical ou robots, notamment sur un site externe, c’est de citer simplement la source en appliquant un beau lien html vers la page de l’article original. Pour que cela soit plus ou moins efficace, il faut évidemment éviter de copier intégralement l’article sur un autre domaine et faire en sorte que ce lien soit un lien direct, sans nofollow ou redirection quelconque.
  • Maîtriser les contenus crées en masse : si vous êtes sur le point de générer du contenu en très grande quantité, attention également à ne pas tout indexer n’importe comment. Mal conçu, votre système peut se retrouver avec des pages de contenus très (trop ?) similaires, ce qui aura pour conséquence d’avoir un grand nombre de pages ignorées par les moteurs de recherche. Si la tâche ne semble pas aisée pour le premier venu, ce travail est important… Et c’est aussi ce pourquoi les référenceurs sont là :).

Note : ha oui et bonne et heureuse année à toutes et à tous au passage ;) !

13 réflexions au sujet de “8 façons de régler vos problèmes de duplication de contenus”

  1. Pour les liens cassés, je recommande broken link checker sous wordpress, très simple d’utilisation avec check automatique et alerte par mail.

  2. Bonjour,

    merci pour l’article.

    Une précision importante “citer la page source” peut être une façon d’indiquer la source à Google effectivement, mais ça n’autorise absolument pas à copier le contenu d’une page externe. La copie d’un article qui n’est pas autorisée reste du plagiait si elle dépasse le droit de citation ‘quelques mots, quelques phrases, pour appuyer ou illustrer un propos original” autrement dit pas plus de quelques pourcents du texte (en jurisprudence, généralement ça tousse au delà de 5%), et dans ce cas on n’a évidemment pas de problèmes de duplication de contenu :)

  3. De bonnes règles toujours intéressantes à rappeler.
    En revanche, je le savais déjà mais je trouve ça assez fou que le rel canonical est pris en compte entre différents domaines. Ca pousse quasiment à l’intégrer automatiquement sur chaque nouvelle page de contenu que l’on crée, non ?

  4. @Kilroy : grosse coincidence effectivement, je n’avais pas vu cet article sur ton blog :)

    @Marie-Aude : je suis entièrement d’accord avec toi, d’où la copie du premier quart de l’article par exemple avec un lien propre pour lire l’intégralité sur le blog source (à condition qu’il y ait une entente entre les différents blogs).

    @Nicolas : oui le canonical peut s’appliquer entre des domaines différents (c’est d’ailleurs dans ce cas qu’il me sert le plus souvent).

  5. @Marie-Aude @ramenos Quand est-il de la reformulation d’un article ? Je pense notamment aux domaines tellement vastes comme la cuisine, ou même pour le management. Si je “synonymise” un article en entier, suis-je responsable de quelque chose légalement ?

  6. Que conseillé quand on a un site avec un nom de domaine en .fr, un autre en .be et un autre en .ch (suisse francophone) et que les produits sont exactement les mêmes puisque tous gérés sur la même base de données pour gagner en simplicité de gestion ?

  7. Des bonnes règles,le contenu doit être unique et non présent sur d’autres sites même avec une adresse différente pour la visibilité du site et mieux positionner sur les moteurs de recherche

  8. Bonjour,

    pourquoi ne pas placer des balises rel canonical sur chaque posts ? Cela a(-t-il une mauvaise influence sur le référencement ?

    Merci.

  9. Hey !

    Pour le robots.txt, Google (Matt) disais récemment qu’il était déconseillé de l’utiliser, car il bloquer les possibles sources de contenus ou un truc du genre.

    Pourtant, il déconseille aussi les variables dans les urls et le robots.txt est le seul moyen (avec le Rewriting) d’éviter l’indexation de ces éléments

    … M’enfin… ^^

  10. Cela ne règle pas le problème dont les données sont acquises sous licence, sans exclusivité.

Les commentaires sont fermés.