Contenus dupliqués entre HTML et PDF ? Ce n’est pas trop grave…

Une discussion intéressante sur le forum Webmaster Central revenait sur les effets de la duplication de contenus entre des pages HTML et des fichiers PDF.

Une personne Google a directement répondu à cette interrogation. On s’en doutait mais Google attache davantage d’importance à la version (X)HTML du contenu. Reste que s’il s’agit d’une situation spécifique ou une bonne partie du site est dupliquée dans plusieurs fichiers PDF, rien ne vous empêche d’ajouter une ligne à votre fichier robots.txt :

Disallow: *.pdf

Quoiqu’il en soit, PDF ou pas, la règle reste la même : choisissez de référencer les bonnes versions des contenus. De toute façon, avec le choix de l’URL canonique et les règles du robots.txt, ça vous laisse pas mal de souplesse. Après, si pour une raison ou une autre les PDF sont complémentaires à votre page, n’empêchez pas leur indexation.

1 réflexion au sujet de « Contenus dupliqués entre HTML et PDF ? Ce n’est pas trop grave… »

  1. Bonjour, merci pour cette info “Disallow: *.pdf”

    Dois je aussi empêché l’indexation des pages en mode imprimable ?

Les commentaires sont fermés.