Savoir lire un fichier Log pour le SEO

C’est le genre de fichier qui fait peur au premier abord. Pas très joli, pas très ergonomique et bourré d’informations en tout genre, on aimerait l’oublier rapidement pour se focaliser sur son outil d’analyse statistiques par tags. Et pourtant, il y a pas mal d’avantages à savoir lire ce fichier.

Le fichier log présente des avantages non-négligeables pour le SEO :

  • A moins d’éteindre le serveur qui stocke ce fichier, il est toujours accessible (combien de fois j’ai eu le droit à des problèmes de lenteur ou de retard dans la génération de mes statistiques Xiti Expert).
  • Le fichier log garde la trace de tout type de bot et autre spider de moteurs. On peut ainsi savoir qui a tracké quoi.
  • On peut savoir quel type de réponse HTTP a eu lieu via x requêtes sur x pages.
  • A moins de s’y connaître un minimum en langage terminal, c’est difficile d’effacer par inadvertance un fichier log.
  • D’une manière globale, on sait tout ce qui se passe sur le site avec ce fichier :) .

Lecture d’un fichier log :

  • Date : date à laquelle la requête a été effectuée.
  • Heure : l’heure a laquelle la requête a démarré.
  • CS-Method : la méthode utilisée pour la requête (GET, POST, HEAD).
  • CS-uri-stem : l’adresse de la page requêtée (sans les attributs supplémentaires).
  • CS-uri-query : tous les attributs supplémentaires de l’URL.
  • C-ip : l’adresse IP du navigateur qui fait la requête.
  • CS(User-Agent) : Le nom et la version du navigateur.
  • CS(Cookie) : les données cookies dans le navigateur qui fait la requête.
  • ES(Referer) : le site web d’où provient le navigateur.
  • SC-status : la réponse délivrée par le serveur lors de la requête (code HTTP).
  • Time-taken : le temps nécessaire au serveur pour répondre à la requête émise. Pratique pour voir s’il y a un souci lors du crawl de votre site par exemple ou si le site était inaccessible à un moment donné.

5 réflexions au sujet de “Savoir lire un fichier Log pour le SEO”

  1. Plusieurs remarques :
    – Le format de fichier que tu présentes (du moins au niveau de la copie d’écran) n’est pas le format le plus rencontré pour un fichier log car il s’agit d’un serveur IIS (je te laisse jeter un coup d’oeil sur le taux de pénétration d’Apache :-) ). De ce fait, les entêtes de colonne ne sont pas identiques.
    – Il est possible de récupérer d’autres informations (http://httpd.apache.org/docs/2.2/logs.html)

  2. Note pour les développeurs :
    un petit tool gratuit existe pour analyser (trier, filtrer, …) ce type de logs (IIS) :

    Logparser.

    Une petite recherche dans Google vous offrira les liens utiles.

  3. Bonjour
    Bonjour, connaissez vous un outil open source robuste et facile à utiliser permettant l’analyse de logs pour détecter le passage des crawlers ? Sinon, pouvez vous me donner les différents noms que l’on peut renconter pour Google, il ya des robots différents je crois et pour finir si vous pouviez me communiquer de l’info sur ls rôles (différents ?) de ces robots. Merci à tous.

  4. @Matthieu : Awstats lit très bien les logs http://awstats.sourceforge.net/

    @Specialty Chemicals : Google Analytics, ces lourds (Code JavaScript), autant travaillé sur des données déjà existante.
    Ces plus complet. En a t’on toujours besoin ?

Les commentaires sont fermés.