Le bon, la brute et le truand

Ce qui est cool avec Google, c’est qu’il propose plusieurs façons de gérer la duplication de contenus. En revanche, par expérience, ce qui est moins cool, c’est que les 3 principales méthodes de traitement peuvent se comparer aux 3 personnages du film de Sergio Léone. Il ne reste plus qu’à faire les associations…

Le BON – La meta robot

Si vous ne souhaitez pas indexer une page, peu importe la raison, la balise meta robot constitue à ce jour la solution la plus efficace selon moi. Pour rappel, voici à quoi elle ressemble :

<meta name=”robots” content=”noindex,follow”>

Cette balise est, à ce jour, la plus radicale vis à vis de l’indexation Google car de mon côté, les pages qui possèdent cette balise n’apparaissent tout simplement pas dans l’index. Je l’ai utilisé sur un de mes sites clients. Il s’agit d’un site d’avis de décès classés selon différentes règles et bien évidemment, les listes de résultats sont à plusieurs pages. A partir de la page 5, j’ai fini par ajouter une meta robot noindex,follow. Vous pouvez voir les conséquences sur l’indexation.

Bref, de ce que je peux voir, la meta robot est clairement la balise la plus efficace sans être la plus brutale puisque vous pouvez intéragir avec le follow/nofollow également. Après tout, rien ne vous empêche d’autoriser Google à suivre ces pages, afin d’augmenter les chemins d’accès aux pages clés de votre site. L’inconvénient de cette balise est qu’elle s’applique page par page, ce qui la rend un peu plus longue à implanter qu’un simple fichier robots.txt.

La BRUTE – Le fichier robots.txt

Le fichier robots.txt est un fichier texte qui contient un ensemble de règle sur les restrictions d’indexation des pages par les spiders des moteurs. On peut appliquer des règles différentes selon les moteurs mais quoiqu’il en soit, la commande la plus important à retenir est le Disallow: /.

L’avantage de passer par le fichier robots.txt est qu’il est très facile de définir plusieurs règles de restriction d’interdiction à la chaine. On indique au spider d’exclure le répertoire A, B, C et les URL qui commencent par xyz. Tout cela peut se faire assez aisément.

Néanmoins, malgré ces règles, Google indexe quand même ces pages dans son index. Bien sur, elles ne ressortent jamais et les moteurs font bien la part des choses mais tout de même. De plus, en passant par ce fichier, vous n’aurez pas la main sur l’attribut follow/nofollow. Ici, c’est de l’exclusion pure et dure… Ce qui peut être un peu dommage dans certains cas !

Prenons un exemple : sur l’un des sites de recettes de mon entreprise, j’ai appliqué différentes règles d’exclusions au sein du fichier robots.txt. Ainsi, toute la partie recherche ne doit pas être considérée par les moteurs. Certes, le fichier robots.txt est un bon moyen pour faire le ménage rapidement dans les duplications de contenus ou alors pour indiquer aux spiders les contenus qui sont clairement à exclure… Et pourtant !

Bref, l’exclusion fonctionne mais le contenu apparaît quand même dans l’index Google.

Le TRUAND – La balise canonical

La balise d’en-tête canonical de Google sert à indiquer au spider la bonne version d’un contenu à considérer lorsque celui-ci est dupliqué à travers d’autres URL… Bah oui le duplicate content, c’est moche mais tout le monde ne peut pas forcément faire du 301… Le seul souci, c’est que j’ai pu constater par ma dernière expérience que cette balise était en fait une grosse imposture, un super bullshit… Bref de la “scrap en boîte” comme j’entends dire au Québec !

Pour en savoir davantage, je vous invite à lire mon cas pratique sur le mix microformats et canonical tag. Mais ce que vous pouvez retenir, c’est que Google n’en fait de toute façon qu’à sa tête et malheureusement, il fait mal son boulot de temps en temps, voire très mal !

6 réflexions au sujet de “Le bon, la brute et le truand”

  1. Merci pour cet article intéressant.
    Le gros problème avec DC, c’est qu’il est facile à le gérer chez soit (lorsqu’on a réfléchi un peu à la structure du site), mais il n’y a toujours pas de solution fiable pour montrer à GG que l’on a pondu le contenu original, et ça c’est beaucoup plus problématique.

  2. Salut Ramenos,

    Merci pour ces bons rappels. C’est vrai que ces trois méthodes sont vraiment très différentes. La dernière méthode est quand même un peu plus “bourrine”. Par contre, une question, dans la balise méta, si tu indiques noindex, follow, tu lui indique de prendre en compte la page mais de ne pas l’indexer ? quelle aurait été la différence avec noindex, nofollow ?

  3. @yvan
    normalement avec nofollow il ne transmettre le jus des liens mais vu qu’il n’indexe pas la page, j’avous que je ne comprends pas la différence non plus.

  4. L’indexation des pages par GG est vraiment un des enjeux de la création et de la prise en compte de problèmatiques SEO dés le setup.

    Je suis assez d’accord avec Yvan, quel est l’intérêt de follow les pages que l’on ne souhaite pas indexées.
    Pour un site qui proposent des millions de pages (ex: catalogue de produits en ligne avec recherche multicritères), pourquoi faudrait il permettre à Googlebot de crawler des pages qui sont inutiles à l’utilisateur et au moteur?

  5. @Yvan : le fait de mettre noindex,follow dans la page signifie que tu choisis de ne pas faire indexer cette page par Google pour X raison mais qu’en revanche tu proposes au moteur de la suivre, ce qui aura pour conséquence d’ajouter un chemin entrant vers un de tes contenus clé ;).

Les commentaires sont fermés.