Ce qui est cool avec Google, c’est qu’il propose plusieurs façons de gérer la duplication de contenus. En revanche, par expérience, ce qui est moins cool, c’est que les 3 principales méthodes de traitement peuvent se comparer aux 3 personnages du film de Sergio Léone. Il ne reste plus qu’à faire les associations…

Le BON – La meta robot

Si vous ne souhaitez pas indexer une page, peu importe la raison, la balise meta robot constitue à ce jour la solution la plus efficace selon moi. Pour rappel, voici à quoi elle ressemble :

<meta name= »robots » content= »noindex,follow »>

Cette balise est, à ce jour, la plus radicale vis à vis de l’indexation Google car de mon côté, les pages qui possèdent cette balise n’apparaissent tout simplement pas dans l’index. Je l’ai utilisé sur un de mes sites clients. Il s’agit d’un site d’avis de décès classés selon différentes règles et bien évidemment, les listes de résultats sont à plusieurs pages. A partir de la page 5, j’ai fini par ajouter une meta robot noindex,follow. Vous pouvez voir les conséquences sur l’indexation.

Bref, de ce que je peux voir, la meta robot est clairement la balise la plus efficace sans être la plus brutale puisque vous pouvez intéragir avec le follow/nofollow également. Après tout, rien ne vous empêche d’autoriser Google à suivre ces pages, afin d’augmenter les chemins d’accès aux pages clés de votre site. L’inconvénient de cette balise est qu’elle s’applique page par page, ce qui la rend un peu plus longue à implanter qu’un simple fichier robots.txt.

La BRUTE – Le fichier robots.txt

Le fichier robots.txt est un fichier texte qui contient un ensemble de règle sur les restrictions d’indexation des pages par les spiders des moteurs. On peut appliquer des règles différentes selon les moteurs mais quoiqu’il en soit, la commande la plus important à retenir est le Disallow: /.

L’avantage de passer par le fichier robots.txt est qu’il est très facile de définir plusieurs règles de restriction d’interdiction à la chaine. On indique au spider d’exclure le répertoire A, B, C et les URL qui commencent par xyz. Tout cela peut se faire assez aisément.

Néanmoins, malgré ces règles, Google indexe quand même ces pages dans son index. Bien sur, elles ne ressortent jamais et les moteurs font bien la part des choses mais tout de même. De plus, en passant par ce fichier, vous n’aurez pas la main sur l’attribut follow/nofollow. Ici, c’est de l’exclusion pure et dure… Ce qui peut être un peu dommage dans certains cas !

Prenons un exemple : sur l’un des sites de recettes de mon entreprise, j’ai appliqué différentes règles d’exclusions au sein du fichier robots.txt. Ainsi, toute la partie recherche ne doit pas être considérée par les moteurs. Certes, le fichier robots.txt est un bon moyen pour faire le ménage rapidement dans les duplications de contenus ou alors pour indiquer aux spiders les contenus qui sont clairement à exclure… Et pourtant !

Bref, l’exclusion fonctionne mais le contenu apparaît quand même dans l’index Google.

Le TRUAND – La balise canonical

La balise d’en-tête canonical de Google sert à indiquer au spider la bonne version d’un contenu à considérer lorsque celui-ci est dupliqué à travers d’autres URL… Bah oui le duplicate content, c’est moche mais tout le monde ne peut pas forcément faire du 301… Le seul souci, c’est que j’ai pu constater par ma dernière expérience que cette balise était en fait une grosse imposture, un super bullshit… Bref de la « scrap en boîte » comme j’entends dire au Québec !

Pour en savoir davantage, je vous invite à lire mon cas pratique sur le mix microformats et canonical tag. Mais ce que vous pouvez retenir, c’est que Google n’en fait de toute façon qu’à sa tête et malheureusement, il fait mal son boulot de temps en temps, voire très mal !