Une 404, c'est comme la route 66 sans auto

Les pages 404, on en a souvent sur un site, très souvent… Parfois trop souvent ! Certes, Google n’aime pas ça mais ce n’est pas un facteur pénalisant pour votre positionnement, ni pour l’indexation des pages de votre site. Vous ne serez pas pénalisé car vous avez plus de 1000 pages 404 sur votre site par exemple, ou même 10 000… Autant éradiquer ce mythe de votre tête tout de suite.

Par contre, un site n’est pas censé avoir « naturellement » de 404… Du moins dans l’idéal car ce sont soit des visites, soit des passages de crawls qui partent un peu à la poubelle !

Envie de partir en chasse de vos 404 ?

2 outils simples : Google Webmaster Tools et Screaming Frog. Le premier va vous donner la tendance de l’évolution des 404 détectées par le crawler alors que le 2ème vous permettra d’aller récupérer toutes vos URL qui sont en 404, ce qui sera plutôt pratique. En effet, Webmaster Tools est limité dans l’export à 1000 pages 404 « seulement ».

Il existe d’autres alternatives à ces outils mais ce sont les 2 que j’utilise régulièrement. Le but est que vous trouviez un moyen de récupérer les URL concernées pour les analyser.

J’en fais quoi de mes 404 maintenant ?

1. Lister les erreurs par pattern d’URL

La première chose à faire, que vous ayez 200 pages d’erreur ou 5000, c’est de lister le tout dans un fichier et de les regrouper par pattern d’URL. Cette étape est importante car il se peut que certains patterns ne doivent pas faire l’objet de redirection… Oui, oui, vous avez bien lu, on ne redirige pas forcément tout.

Les raisons peuvent être multiples mais il y en a deux que je recroise très souvent :

  • Les URL en 404 sont issues d’une ou plusieurs tentatives de hack :  toutes vos URL avec un vilain /bin/cgidir*, /login (alors qu’il n’y a pas d’espace utilisateur public) ou encore par exemple les /default.html qui n’existent pas dans votre système, ça sent « généralement » le hack à plein nez. Pour ma part, je ne redirigerai pas ces pattern d’URL tout simplement parce qu’on ignore quel genre de lien pointe vers ces vilaines pages mais on sait parfaitement qu’elles n’ont aucun apport positif sur le référencement du site. Et évidemment, la question ne se pose pas si vous voyez des URL avec des mots douteux à l’intérieur…
  • Les pattern d’URL qui peuvent entrer en conflit avec d’autres patterns : lorsque l’on travaille sur un site qui possède plus de 10 000 000 d’URL (ça a déjà été le cas pour ma part), on est pas forcément au courant de TOUT ce qui se passe derrière. A ce moment-là, on regarde avec les équipes techniques si la création de certaines règles de risques pas d’entrer en conflit avec d’autres patterns d’URL du site. Ça peut sembler stupide mais on ne sait jamais tout à 100% sur l’historique d’un site.

2. Séparer les pattern d’URL et proposer des règles de redirections

Lorsque vous travaillez pour un client, il y a de forte chance que ça ne soit pas vous qui mettiez en ligne les règles de redirections. Plutôt que de tout balancer à l’équipe technique, facilitez-leur le travail. Généralement, ce que j’essaie de faire si je vois qu’ils sont débordés, c’est de regrouper dans différents tickets chaque pattern de 404 en mettant des exemples et en proposant une règle de redirections 301 à appliquer.

En procédant ainsi, cela va permettre aux personnes en charge d’y aller tâche par tâche (ce qui est très pratique lorsque l’on bosse en agile) et d’éviter de rediriger accidentellement un pattern qui n’a pas lieu d’être redirigé et leur donner un énorme travail à faire d’un coup.

Enfin, il restera forcément un ensemble d’URL isolées qui, indépendamment, ne corresponde pas à un pattern défini. Si vous en avez un nombre raisonnable, la question ne se pose pas, vous allez les rediriger. Mais s’il vous en reste une grosse quantité, il va falloir prioriser. Plutôt que de passer votre vie à regarder une par une quel genre de backlinks pointe vers ces 404, vous pouvez toujours faire un premier ménage en utilisant un outil de type URL Profiler, pour peu que vous ayez un accès aux services connexes nécessaires ;).

3. Mettre en place les redirections 301 et procéder à l’assurance qualité

Une fois les redirections mises en ligne, il reste une dernière étape, tout simple mais qui va engendrer un sourire OU une grimace de votre côté : l’assurance qualité. Maintenant que les pattern d’URL sont en ligne, il faut tester le tout.

Pour cela, vous pouvez regrouper toutes vos occurrences d’URL dans un fichier texte et les balancer dans un outil de type Screaming Frog pour s’assurer que tout ce qui doit être redirigé l’est, avec le bon code et vers les bonnes URL de destination.

Des URL ne sont pas redirigées mais génèrent encore des 404 ou 410 ? Pas de panique, souvenez-vous du point un. Si malgré tout c’est un oubli, il suffit de rouvrir la demande concernant le pattern d’URL associé.