#3 Savoir exploiter les codes d’erreur HTTP

http-codes-d-erreurs-seo

Codes d’erreur HTTP ?

Les codes de statut HTTP permettent d’indiquer au client les résultats d’une requête menée ou tout simplement une erreur. Alors, bien évidemment, lorsqu’on parle de code HTTP, on pense aux codes d’erreurs mais aussi aux codes de redirections. L’intégralité de ce post couvrira les premiers uniquement, pour une question de simplification et lisibilité.

L’importance des codes d’erreurs HTTP vient du fait qu’en les maîtrisant et en les corrigeant de façon permanente (lorsque cela est possible), vous réduirez le volume de visites perdues sur votre domaine et vous éliminerez les données polluantes.

Usage des codes d’erreur http

Ci-dessous les codes HTTP liés aux erreurs que vous devez connaître :

  • 404 Not Found : le code d’erreur le plus connu. Assurez-vous toujours d’avoir un gabarit de page 404 sur votre site qui renvoie bien une code HTTP 404 (je vois encore des sites qui contiennent des pages d’erreurs renvoyant un code 200). Personnalisez cette page de façon à ce qu’elle s’intègre parfaitement dans la charte graphique de votre site et qu’elle ne frustre pas davantage l’usager par sa laideur et son inutilité. Par exemple, la page 404 du site Moz, sans être parfaite, a le mérite d’avoir été travaillée. Les bonnes pratiques pour cette page n’ont pas changé depuis des années donc pas d’inquiétude.
  • 403 Forbidden : signifie que les droits d’accès du client ne permettent pas d’accéder à la page. Si une page est concernée par cette problématique, pensez à intégrer le bon code d’erreur qui sera interprété correctement par les moteurs en créant également un gabarit de page propre à ce code.
  • 410 Gone : lorsque vous avez plusieurs pages d’erreurs qui n’existent plus volontairement, utilisez plutôt un code 410 que 404. En effet, le code HTTP 410 signifie que la page a définitivement disparu (volontairement) alors que la 404 annonce un contenu introuvable… Pour le moment.
  • 418 I am a tea pot : ne vous servira à rien d’un point de vue SEO mais la raison même de son existence est plutôt fun :).
  • 451 Unavailable for legal reasons : ce code d’erreur permet de rendre une page inaccessible pour des raisons d’ordre légal. Bien utilisé, ce code HTTP devrait permettre une désindexation plus rapide des pages ciblées dans la SERP.
  • 500 Internal Server error : on ne l’aime pas, mais vous devez la connaître, ne serait-ce que pour savoir ou chercher la cause si cette erreur vous saute à la face (500, 501, 502, 504 et 505).
  • 503 Service Unavailable : ce code d’erreur est appliqué lorsque l’on souhaite rendre son site web temporairement indisponible pour différentes raisons (hack, mise à jour, etc…). Je vous recommande grandement de l’utiliser s’il s’applique à votre cas.

Mythes et réalités sur les erreurs HTTP

  • Avoir plein d’erreurs 404 ne pénalise pas un site web : vous pouvez avoir 10, 100 ou 50 000 pages 404 sur votre site, Google ne va pas décider de vous pénaliser à cause de ça. En revanche, avoir beaucoup d’erreurs sur son site peut générer des pertes de visite, un budget de crawl moins efficace côté bots et de la frustration usager. Se retrouver avec des milliers de 404 du jour au lendemain peut également être le résultat d’une tentative de hack.
  • Utiliser le code d’erreur 410 accélère la désindexation : je l’avais personnellement testé à 2 reprises sur deux gros sites clients en 2009 et en 2013 et dans les 2 cas, les pages disparaissent définitivement de l’index Google, ce qui était plutôt pratique.
  • Utiliser le code HTTP 503 est bien interprété par Google: lorsque votre site est temporairement indisponible pour différentes raisons, pensez à utiliser systématiquement un code HTTP 503, afin que les moteurs puissent comprendre qu’il s’agit d’une interruption temporaire.
  • Ne cherchez pas nécessairement à rediriger toutes vos 404 : en prenant le temps d’analyser les pattern d’erreurs, il est parfois préférable de ne pas rediriger des URLs 404 car elles peuvent – par exemple – être le résultat de tentatives de hack. Pensez surtout à corriger la source qui produit ces erreurs, si elle se trouve en interne, puis ensuite les pages pourries qui ont été générées et/où à mettre ces URL dangereuses en 410.
  • Lorsque vous avez défini l’ensemble des URL 404 à rediriger : ajoutez les (leur pattern) dans le fichier robots.txt puis préparer un plan de redirections 301 vers les bonnes pages de destinations. Assurez-vous de ne pas rediriger des 404 qui faisaient déjà l’objet d’une ancienne règle de redirections sinon vous allez enchaîner les règles de redirects, ce qui n’est pas super ni pour le SEO, ni pour votre serveur.

Des outils pour vous aider (il en existe des centaines mais j’ai fait une petite sélection) :

  • Screaming Frog : sans doute le logiciel de crawl le plus populaire chez les référenceurs. Très pratique pour trouver vos pages d’erreurs et les analyser. L’outil offre des possibilités d’affinage de crawls très variées.
  • Xenu : le papi du crawl ! Très peu d’options mais il est gratuit et crawle très bien un site web.
  • Les logs : l’analyse de logs est très riche en informations, il faut juste prendre le temps de les décortiquer et extraire ce qui vous intéresse. Si vous avez envie de mettre quelques sous pour avoir un service qui va bien vous épauler, Splunk ou Botify sont pas mal du tout, surtout si vous avez un site énorme car les logiciels tels que Screaming Frog ou Xenu rendront l’âme si vous avez des millions de pages à explorer.
  • Google Search Console : gratuit, correct pour voir l’évolution de vos pages 404 sur le temps, mais il manque quand même des fonctionnalités et les infos affichées ne sont pas tout le temps à jour.
  • HTTP Status Code Checker : très simple d’usage pour quelques pages à analyser.
  • HTTPfox pour Firefox: extension bien pratique qu’il m’arrive d’utiliser de temps à autre.

Anciens articles du blog sur le même sujet :