Lorsqu’on parle d’améliorer les performances de son site, on pense souvent à améliorer ses templates HTML, simplifier les fichiers CSS, réduire le poids des images et optimiser les fonctions Javascript.

Néanmoins, en parallèle, vous pouvez effectuer un autre travail loin d’être inutile : analyser les robots qui viennent envahir vos serveurs et gaspiller de la bande passante, tout en ayant un impact non-négligeable sur les performances serveurs. En effet, ces robots génèrent des requêtes sur le(s) serveur(s) de votre site web, générant un impact parfois non-négligeable dans les performances.

Bien sûr, à moins de ne pas vouloir être référencé, on ne touchera pas aux crawlers Google, Yahoo et MSN… Mais on pourra sans problème interdire l’accès à nos serveurs pour des crawlers provenant d’un organisme dont on se fiche royalement.

Comment faire ?

Pour bien démarrer, le mieux est de travailler directement avec vos administrateurs systèmes. Ils devraient être en mesure d’établir un historique de consommation de la bande passante par des crawlers sur 1 ou plusieurs mois. A partir de là, vous allez être en mesure de voir qui vous consomme le plus de bande passante et surtout, qui en consomme sans que ça vous rapporte quoique ce soit.

Quels sont les user-agents à exclure ?

Libre à vous de choisir ! Les choix vont dépendre de beaucoup de facteurs. Pareil pour les procédures d’élimination, il y a plusieurs méthodologies possibles.

Par exemple, listez les crawlers par consommation de bande passante (autant s’attaquer à ceux qui vous bouffent le plus de ressources). A partir de là, analysez ceux qui vous paraissent inconnus et décidez si oui ou non vous pouvez les exclure. Il existe un site aux allures antique mais tout à fait fonctionnel qui liste un bon 90% des user-agents : User-Agent.org.

Partez aussi du principe qu’un crawler envahissant d’origine japonaise, chinoise ou russe ne sera d’aucune utilité si l’intégralité de votre contenu est en français par exemple. Au préalable, regardez tout de même la provenance de votre trafic, on ne sait jamais…

Sogou Spider... Ca sent le crawler inutile à plein nez ! :)

Néanmoins, au Québec, je n’ai pas de site clients qui génèrent des visites de Russie ou en provenance de Yandex alors que le user-agent du moteur me bouffe pas mal de bande passante… Je le bloque ? Je pense que oui !

Bref, à vous de voir, les situations diffèrent selon les sites mais quoiqu’il en soit, je pense qu’il est important de jeter un œil au monde des crawlers, ne serait-ce que pour renforcer votre amitié avec les développeurs et les administrateurs.