Savoir restreindre proprement l’accès à ses contenus pour les moteurs

Avec la dernière mise à jour de son algorithme, Google a frappé un peu plus fort que d’habitude dans son index en faisant un beau ménage. S’il a toujours été important de savoir maîtriser l’indexation et la duplication de ses contenus (à l’intérieur et à l’extérieur) de son site, un petit récapitulatif ne peut pas faire de mal, surtout à cette période.

Pourquoi dois-je donc tant que ça savoir restreindre l’accès à mes contenus ?

Éviter la duplication de contenu au sein de son propre site (Google n’aime ni les fermes de contenus, ni la génération massive de pages dupliquées).
Éviter la duplication de contenu sur un autre site et en subir les conséquences seo (meilleur positionnement, prise en compte des changements seo d’abord sur le site externe…).
Centraliser les performances SEO vers les bonnes versions des contenus.
Partager sans mettre en danger la visibilité organique de mon site web.

Je vais partir du principe que vous travaillez pour une entreprise qui crée du contenu pour ses propres sites mais qui propose également de le dupliquer ou le vendre à l’extérieur. A partir de là, il est nécessaire de prendre certaines précautions, à moins que vous vous fichiez de faire parti du génocide généré par Google Farmer Panda (un peu violent mais ça sonne bien).

1) Le tag canonical

Si pour X raisons, vous devez dupliquer des pages de contenus sur votre site à un autre endroit (par exemple, faire un dossier spécial ou une sous-catégorie particulière qui pioche du contenu un peu partout sur le site) et que les URL sont différentes (sauf le nom de l’article évidemment), rien de mieux que d’appliquer un bon tag canonical dans le head de ces articles en leur mettant l’URL des articles sources comme page à prendre en compte par les moteurs. Ainsi, Google va être en mesure de déterminer quel article est à considérer.

Cette solution s’applique également si les contenus sont partagés à l’extérieur. Ca ajoute une garantie supplémentaire quant à la préservation de la visibilité organique du site source sur ses propres contenus. Ca ne plaira peut-être pas forcément à l’acheteur mais on ne peut pas avoir le beurre, l’argent du beurre et la crémaillère !

Je recommande également de ne pas reformuler les articles car ça risque de créer un effet ferme de contenus. Dans le genre cochonnerie et arnaque pour Google et vos utilisateurs, c’est parfait ! Quitte à copier, dupliquez vos contenus à l’identique et indiquer à Google qu’ils ne sont pas l’oeuvre d’une nouvelle création. Le contenu étant strictement le même, ça garantit que le signal du canonical passera bien.

Avantages :

Implantation assez simple dans le template de vos pages. Ne nécessite “normalement” pas trop de développement.
Pratique pour aider Google à se focaliser sur une seule source si l’article est dupliqués à plusieurs endroits, plusieurs domaines.

Inconvénients :

Pas aussi efficace qu’une redirection 301 (en même temps c’est normal, son utilisation est différente et c’est un signal, pas une commande http).
Ne garantit pas l’indexation du contenu dupliqué (même à un niveau inférieur que l’article source, ce qui est un peu dommage lorsqu’on fait du business mais ça se comprend d’un point de vue purement recherche).
Peut tuer votre seo si mal implanté !

2) L’attribut noindex du robots.txt

Si cela ne suffit pas à vous rassurer, à ce moment là, rien ne vous empêche d’ajouter un attribut de désindexation sur toute la catégorie spécifique de votre site qui repompe les contenus. Comme Matt Cutts l’a dit, il vaut mieux “appliquer un bon noindex sur les pages à faible contenu éditorial, afin que Google ne les prenne pas en compte dans son algorithme qualitatif plutôt que de laisser le tout tel quel et voir le domaine “pénalisé” à cause de ça” (lire mon compte-rendu sur le SMX de mars pour en savoir plus). Rien ne vous empêche de faire pareil pour le contenu dupliqué. Un noindex n’empêchera pas Google d’aller crawler vos contenus et de voir en outre un tag canonical lui indiquant que la source se situe ailleurs…

Avantages :

Ultra simple à implanter sur un site !
Permet de se prémunir facilement contre le contenu dupliqué sur son site et les pages à faible à valeur ajoutée.
“Forcer” les moteurs à se concentrer sur les contenus business (ceci étant dit, un robot ira quand même crawler les pages interdites :) ).

Inconvénients :

Mal rempli, vous pouvez désindexer toutes les pages de votre site en quelques jours (j’ai déjà fait le test, ça fait mal mais après correction, on a un retour rapide à la normale, généralement en 2-3 semaines max).
Peut réduire les performances du “link juice” au sein de vos différentes pages (perso, je ne trouve pas ça si problématique dans le sens où c’est à vous de négocier l’accès aux fameuses pages qui apportent 0 valeur ajoutée pour l’utilisateur provenant des moteurs).

3) Meta Robots

Même principe que le fichier robots.txt, cette balise a pour objectif de définir des règles concernant l’indexation d’une ou plusieurs pages pour les moteurs. Perso, utiliser un ou l’autre ne me pose pas de problème. L’avantage du fichier est qu’on est sur d’oublier aucune page à désindexer. L’avantage de la balise est de pouvoir définir si oui ou non, on autorise les robots à suivre les liens dans les pages désindexés, ce qui n’est pas négligeable.

Avantages :

Peut être utilisé plus finement…
… En omettant d’inclure le nofollow pour permettre aux moteurs de crawler les pages à faible importance.
Utile si le title ou le descriptif de vos pages ne correspondent pas à ce qui est entré (utilisez le noodp et nodir).

Inconvénients :

Sans être dur à intégrer, il faut s’assurer de l’intégrer dans tous les templates d’un même pattern d’URL pour que ça soit efficace…
… Et ne pas oublier d’appliquer des règles sur une partie de vos pages.
Si vous êtes bourrin et ajoutez un nofollow à chaque fois sans aucune raison, vous perdez l’avantage à utiliser cette balise car les performances seo ne seront alors pas redistribuées via les pages à faible valeur.

4) Le X-robots tag

Je ne vous ai jamais parlé de ce tag, et pour cause, je le trouve pas d’une grande utilité dans le monde seo actuel. Ce robot un peu spécifique permet de controler l’accès moteur aux documents de type PDF, DOC, PPT et autres. De mon point de vue, il est inutile de s’attarder dessus pour les raisons suivantes :

Référencer un contenu pratique sous forme de document est toujours apprécié par la communauté de lecteurs.
Accéder à des contenus privés se fait généralement via une page qui nécessite un login/pass donc pas d’inquiétude côté référencement.
Si malgré tout vous souhaitez améliorer le positionnement du contenu de ces documents… Et bien pourquoi ne pas les réécrire en html ? C’est d’autant plus utile, surtout si vous partagez ce même document à travers plusieurs domaines. Autant garder une source au format html, bien plus exploitable qu’un simple PDF.

J’ai tendance à favoriser peu à peu le canonical car cette solution me paraît propre d’un point de vue éditorial. Une redirection 301 n’a rien à voir et un gros noindex est généralement mal accepté, voire trop bourrin.

Et vous ? Qu’en pensez-vous ? Quelle règle appliquez-vous lorsque vous partagez et dupliquez du contenu ?

4 réflexions au sujet de “Savoir restreindre proprement l’accès à ses contenus pour les moteurs”

Christophe

23 mars 2011 à 18:35

Bonsoir,

et merci pour cet article.
Cependant pour les directives “x-robots-tag”, je pensais qu’elles s’adressaient à tout type de document, voire à des pages d’un site internet comme expliqué par Joost de Valk dans cet article (http://yoast.com/x-robots-tag-play/) par exemple.
Fred

24 mars 2011 à 05:49

Merci pour l’article.
Car l’un des sujets majeurs pour les sites e-commerce car avec les CMS comme Magento, Prestashop… on retrouve des tonnes de pages dupliquées entre elles avec les paramétrages de base.
J’ai aussi remarqué de mon côté que le tag canonical n’était pas bien pris en compte par Yahoo et bing. Mais Google l’utilise bien et ça marche.
Force Referencement (Xavier)

25 mars 2011 à 06:31

Personnellement, j’évite au maximum robot.txt Surtout que GWT n’a pas l’air content quand il en trouve un.
Je préfère faire une condition dans mon header qui va générer ou non un meta robot. D’ailleurs en passant, ce serait peut être bien de préciser que pour Google il vaut mieux utiliser : <meta name="googlebot" ;)
Yak

6 mai 2011 à 20:42

Excellent billet (et excellent blogue… merci Ramenos) qui me conduit à me poser cette question : WP indique un par défaut pour chaque nouveau billet. Si on diffuse un même billet sur plusieurs site WP, tous ces billets seront donc indiqués comme canonical de chacun de ces sites. Comment éviter que WP n’inscrive le tag canonical ?
Quelqu’un a-t-il une réponse ?

Les commentaires sont fermés.