robots-txt-evolution

Fichier robots.txt : kesako ?

Le fichier robots.txt est un fichier texte qui se trouve à la racine de votre site. Il n’est pas indispensable au bon fonctionnement de votre site web.

En revanche, c’est à travers ce fichier que vous allez pouvoir inclure des directives que les moteurs de recherche devront suivre (même si certains moteurs locaux l’ignorent mais je n’insisterai pas sur ce fait). Google, Yahoo, Bing, Yandex ou encore Baidu l’utilisent, c’est l’essentiel !

Savoir exploiter le fichier en SEO

Rentrons sans trop tarder dans le vif du sujet. Le fichier robots.txt a de multiples utilisations :

  • Améliorer l’efficacité du crawl des moteurs à travers votre site web…
  • … En demandant aux moteurs de ne pas crawler régulièrement des patterns d’URL spécifiques (même s’ils les crawlerons de temps à autres)
  • Réduire l’importance de certaines pages à travers les résultats de recherche (notamment lorsque le descriptif « A description for this result is not available because of this site’s robots.txt » s’affiche)
  • Proposer un accès rapide au sitemap.xml du site (inutile si vous l’avez déjà soumis à travers Google Search Console)
  • Aider les moteurs à se focaliser sur les contenus clés de votre site d’un point de vue « budget de crawl »

Les choses à savoir pour bien s’en servir

  • Tout ce que vous écrirez à l’intérieur sera considéré comme une consigne et non une règle absolue
  • Les caractères employés sont sensibles à la casse (« /dossier/ » est différent de « /Dossier/ »)
  • User-agent et non « User-Agent »
  • Les directives peuvent être appliquées à un répertoire complet ou un simple fichier (html, jpeg,etc…)
  • * équivaut à n’importe quel caractère dans n’importe quelle quantité (ex : disallow /*/dossier/) où * représente n’importe quoi présent le path de l’URL
  • Tous les autres commentaires indiqués dans le fichier sont ignorés et utilisés à titre informatique seulement
  • Le texte du fichier robots.txt doit être encodé en UTF-8
  • Pensez à inclure la version du robots.txt en commentaire (pratique pour savoir si vous l’avez mis à jour récemment)
  • 1 seul fichier robots.txt doit exister et à la racine du site
  • Assurez-vous de ne pas avoir une ligne avec la règle suivante: « Disallow: / » (sinon c’est votre domaine entier que vous ne souhaitez plus crawler)

Savoir comment Google exploite le fichier robots.txt

  • Premier élément crawlé sur le domaine (source : John Mueller vidéo)
  • Le fichier robots.txt est crawlé au moins 1 fois/jour
  • Il n’est pas crawlé si le serveur renvoie un timeout ou autre erreur de type 500 ou 403
  • Le moteur exploite du mieux possible le contenu indiqué pour le user-agent et les lignes en allow et disallow
  • « crawl-delay » est une directive ignorée par Google
  • Si vous avez fait une erreur de syntaxe, la consigne sera purement et simplement ignorée
  • Commencer par « Interdire » puis « Autoriser » dans l’ordre de déclaration des consignes

Le contenu (très simple) du fichier robots.txt de ce blog :

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /author/ramenos/

Eradiquer les mythes

En revanche, comme il s’agit d’un simple fichier texte, on peut lire tout et n’importe quoi à son sujet. Les faits suivants sont des mythes à éradiquer de votre esprit au plus vite :

  • Empêcher les usagers d’accéder à du contenu
  • Réduire les chances de se faire hacker
  • Interdire l’indexation des URL avec le disallow (pour ça, utiliser une meta robots avec l’attribut noindex ou le x-robots-tag dans l’en-tête html)
  • Empêcher le crawl des pages par les moteurs (très important)
  • Utiliser plusieurs robots.txt pour différents moteurs (ne riez pas, j’ai déjà vu un site avec 4 fichier robots.txt différents)
  • L’usage du fichier robots.txt est obligatoire pour un bon SEO (mais on s’en sert quand même pour implanter facilement des directives ou fournir un accès secondaire au sitemap)

Ressources complémentaires