La duplication de contenus : en voilà un problème qui est récurrent sur les sites web. Pour bien démarrer l’année 2011, quoi de mieux que de prendre comme résolution de faire le ménage sur son site, que ce soit sur son serveur ou alors vis à vis des moteurs.

Si la duplication de contenus ne génère pas de pénalisation de la part des moteurs, elle n’apporte en revanche aucune performance seo à votre site puisqu’elle peut engendrer la désorientation des robots concernant l’indexation et le positionnement des pages de votre site dans les résultats de recherche.

Vous trouverez ci-dessous 10 façons de régler vos problèmes de duplication de contenus :

  • Rediriger la version non www vers la www de votre domaine : erreur très fréquente et bien connue des référenceurs, la plupart des sites sont souvents accessibles par défaut en www.nomdusite.com ou http://nomdusite.com. Cela génère une duplication totale de votre site web pour les moteurs, ce qui n’apporte rien de bon. Il est de votre devoir de définir un seul et unique chemin d’entrée vers la racine du site et généralement, préferez la version avec le www (sauf s’il s’agit d’un sous-domaine). Pour cela, effectuez une redirection 301 du non-www vers la version www de votre domaine. Pour savoir comment implanter ce genre de redirection selon la plateforme de votre site, rendez-vous sur cette page.
  • Supprimer les liens vers les /index.xxx : même problème que précédemment. Il peut arriver que votre homepage soit accessible en tapant www.nomdusite.com/index.php ou /index.html. On a toujours affaire à un problème de duplication de contenu, d’autant plus que les internautes peuvent très bien faire des liens entrants vers ces adresses là, gaspillant les performances accumulées vers la bonne adresse du domaine. Là encore, une bonne redirection 301 est à établir.
  • Effacer les fichiers inutiles sur votre serveur : vieilles pages html obsolètes, vieille version du site, faire directement le ménage peut être aussi une bonne solution pour éviter tout risque d’accès vers du vieux contenu, du contenus dupliqués, voire peu pertinent. Attention cependant, il faut s’assurer que ces vieilles pages sont correctement redirigées, toujours avec un code http 301, afin de conserver une partie des performance et de l’historique. Si une vieille version de la page est toujours dans l’index du moteur et qu’une nouvelle version a été crée depuis, on assiste à un problème de duplication bête et méchant :). A vous de rediriger l’URL indexée puis ensuite supprimer cette vieille page.
  • Réparer les liens cassés : suite logique du point précédent, il est important de réparer les liens cassés vers les anciens contenus qui ont, par exemple, oublié d’être redirigé correctement. Afin d’éviter tout risque de duplication potentiel, il faut modifier vos liens de manière de manière à les faire pointer vers les bonnes version de vos pages. C’est le genre de boulot qui peut prendre des heures mais qui, au final, reste nécessaire (moins de pages 404, moins de frustration, moins le foutoir pour Google lors du passage du robot sur votre site).
  • Utiliser le tag canonical : si pour X raison, vous êtes obligé d’avoir le même contenu à différentes URL sur votre site (ce que je déconseille fortement et ce qui semble d’ailleurs étrange), il y a toujours l’option de l’URL canonique. Ce tag permet d’indiquer à Google que le contenu original (et donc celui à prendre vraiment en compte) se trouve à une autre adresse. Le tag s’écrit de la façon suivante : <link rel= »canonical » href= »http://www.example.com/la-vraie-page-a-prendre-en-compte » />. Pour info, l’application de ce tag fonctionne aussi bien au sein d’un même domaine qu’entre plusieurs domaines différents.
  • Utiliser le fichier robots.txt ou la meta robot : vieux comme le monde, le fichier robots.txt est toujours aussi efficace et bien pris en compte par tous les grands moteurs. Le fichier robots.txt doit se trouver à la racine de votre site et doit être soigneusement rempli. Mal utilisé, vous pouvez tuer en un clin d’oeil le seo de votre site. Juste pour le fun, j’avais testé sur l’un de mes blogs. La perte de position des pages s’était faite en deux semaines, divisant par 4 mon trafic provenant depuis le SEO. En rectifiant le fichier, j’avais récupérer l’intégralité de mon trafic en un peu plus de 3 semaines. Il existe une balise d’en-tête meta robots que vous pouvez insérer dans vos pages et qui fonctionne avec le même principe que le fichier. Là encore, il faut savoir ce que vous souhaitez indexer ou non. N’hésitez pas à passer un petit Xenu pour vous aider à trouver les fichiers inutiles à indexer :).
  • Citer la page source : autre alternative au canonical ou robots, notamment sur un site externe, c’est de citer simplement la source en appliquant un beau lien html vers la page de l’article original. Pour que cela soit plus ou moins efficace, il faut évidemment éviter de copier intégralement l’article sur un autre domaine et faire en sorte que ce lien soit un lien direct, sans nofollow ou redirection quelconque.
  • Maîtriser les contenus crées en masse : si vous êtes sur le point de générer du contenu en très grande quantité, attention également à ne pas tout indexer n’importe comment. Mal conçu, votre système peut se retrouver avec des pages de contenus très (trop ?) similaires, ce qui aura pour conséquence d’avoir un grand nombre de pages ignorées par les moteurs de recherche. Si la tâche ne semble pas aisée pour le premier venu, ce travail est important… Et c’est aussi ce pourquoi les référenceurs sont là :).

Note : ha oui et bonne et heureuse année à toutes et à tous au passage ;) !