Combattre l’invasion des crawlers pour améliorer la performance de ses serveurs

Lorsqu’on parle d’améliorer les performances de son site, on pense souvent à améliorer ses templates HTML, simplifier les fichiers CSS, réduire le poids des images et optimiser les fonctions Javascript.

Néanmoins, en parallèle, vous pouvez effectuer un autre travail loin d’être inutile : analyser les robots qui viennent envahir vos serveurs et gaspiller de la bande passante, tout en ayant un impact non-négligeable sur les performances serveurs. En effet, ces robots génèrent des requêtes sur le(s) serveur(s) de votre site web, générant un impact parfois non-négligeable dans les performances.

Bien sûr, à moins de ne pas vouloir être référencé, on ne touchera pas aux crawlers Google, Yahoo et MSN… Mais on pourra sans problème interdire l’accès à nos serveurs pour des crawlers provenant d’un organisme dont on se fiche royalement.

Comment faire ?

Pour bien démarrer, le mieux est de travailler directement avec vos administrateurs systèmes. Ils devraient être en mesure d’établir un historique de consommation de la bande passante par des crawlers sur 1 ou plusieurs mois. A partir de là, vous allez être en mesure de voir qui vous consomme le plus de bande passante et surtout, qui en consomme sans que ça vous rapporte quoique ce soit.

Quels sont les user-agents à exclure ?

Libre à vous de choisir ! Les choix vont dépendre de beaucoup de facteurs. Pareil pour les procédures d’élimination, il y a plusieurs méthodologies possibles.

Par exemple, listez les crawlers par consommation de bande passante (autant s’attaquer à ceux qui vous bouffent le plus de ressources). A partir de là, analysez ceux qui vous paraissent inconnus et décidez si oui ou non vous pouvez les exclure. Il existe un site aux allures antique mais tout à fait fonctionnel qui liste un bon 90% des user-agents : User-Agent.org.

Partez aussi du principe qu’un crawler envahissant d’origine japonaise, chinoise ou russe ne sera d’aucune utilité si l’intégralité de votre contenu est en français par exemple. Au préalable, regardez tout de même la provenance de votre trafic, on ne sait jamais…

Sogou Spider... Ca sent le crawler inutile à plein nez ! :)

Néanmoins, au Québec, je n’ai pas de site clients qui génèrent des visites de Russie ou en provenance de Yandex alors que le user-agent du moteur me bouffe pas mal de bande passante… Je le bloque ? Je pense que oui !

Bref, à vous de voir, les situations diffèrent selon les sites mais quoiqu’il en soit, je pense qu’il est important de jeter un œil au monde des crawlers, ne serait-ce que pour renforcer votre amitié avec les développeurs et les administrateurs.

 

8 réflexions au sujet de “Combattre l’invasion des crawlers pour améliorer la performance de ses serveurs”

  1. Précisons que tous les vilains robots ne suivent pas les recommandations du robots.txt, et qu’un blocage au niveau apache ou équivalent est préférable.

  2. Oui, tout à fait d’accord. Le fichier robots.txt, ça suffit pour la plupart des crawlers des moteurs connus. Pour les autres par contre…

  3. Merci pour l’article ;)
    J’avais jamais fais gaff à la BP que pouvait bouffer ces p’tites bêtes.
    Je vais de ce pas m’intéresser à cela.

  4. Le genre de combat qu’il va falloir que je gagne !
    Certains moteurs me faussent mes stats et c’est très stressant de sauter de joie en voyant un pic de trafic … gonflé par un moteur exotique :(

  5. Ok mais ce n’est pas compliqué de prendre le user agent google pour se faire passer pour lui. Je me trompe ?

  6. Une astuce à laquelle on ne pense pas souvent. A utiliser avec précaution toutefois, une mauvaise manip’ et on peut se priver des crawls les plus intéressants.

  7. Je n’ai pas une telle fréquentation de robots sur mon site mais, on ne sait jamais, je vais quand même vérifier pendant une petite semaine mes logs. Mon site est hébergé sur un petit hébergement mutualisé, cela a peut-être déjà un impact.

  8. Je suis sur qu’un outil listant les différents crawlers parcourant le net, avec des infos sur le service, les fréquances moyennes d ecrawl, et un générateur permettant en dexu clics de créer un .htaccess rencontrerait un beau succès. Avis aux amateurs :)

Les commentaires sont fermés.