7 raisons qui font que Google n’indexe pas votre site web

Lors du référencement d’un site web, il est vital de voir si celui-ci est bien pris en compte par les moteurs de recherche. De ce fait, il arrive parfois qu’aucune page d’un site n’apparaisse dans l’index Google. Avant de penser au blacklistage, il est important de vérifier quelques points :

Vous avez bloqué le spider dans votre fichier robots.txt :

Une erreur fréquente, qui se corrige rapidement mais dont l’impact est immédiat sur les moteurs de recherche. Si vous avez par erreur défini une règle de non-indexation de votre site dans ce fichier, n’espérez pas apparaître dans l’index de n’importe quel moteur de recherche. Si vous avez un fichier robots.txt dont le contenu ressemble à ce qui suit, vous risquez fortement de ne jamais voir votre site dans l’index Google.

user-agent : *
disallow : /

Votre serveur est beaucoup trop lent :

Google ne va pas pénaliser directement votre site dans ce cas. En fait, le problème va se poser si votre serveur ne peut répondre aux requêtes effectuées par le robot, afin que ce dernier puisse accéder à l’information. Si Google n’arrive pas à accéder à vos différentes pages, il ne va pas se mettre en pause et attendre que le serveur puisse lui réponde. Il va continuer sa route et aller crawler les autres sites concurrents alors que seules quelques pages de votre site auront été indexées. La faute ne revient pas ici à Google. Pour corriger cela, faites en sorte que votre serveur tienne la route, soit solide et puisse supporter les requêtes émises par les robots.

La navigation sur le site est problématique pour le moteur :

La navigation de votre site web est en flash ? 80% de vos liens sont cassés ? 90% des liens sont encodés dans une fonction javascript interminable ? Il va falloir penser à remettre à plat l’arborescence de votre site, toute en la rendant accessible pour le moteur. Vive le lien a href !

Vous êtes un spammeur :

Etes-vous le vilain canard ? Avez-vous un comportement vis-à-vis de votre site allant à l’encontre du professeur Google ? Vous cultivez les fermes de liens ou encore le contenu caché ? Il y a des chances pour Google s’en soit aperçu et ait décidé de classer votre site dans la rubrique des spammeurs. La solution ? Soyez honnête envers le moteur, effacez toutes les techniques pour le duper et faite auprès de Google une demande reconsidération (Google Webmastertools dispose du formulaire de contact). Encore une fois, il est possible de mixer design/validité w3C/recommandations référencement.

Votre site plante et vous êtes abonné aux erreurs 500 :

Si votre site repose sur un serveur instable, fabriqué avec des restes informatiques, il y a des chances pour que vous soyez un abonné des erreurs 500. Malheureusement, Google n’est pas trop fan de l’erreur 500. Si le problème revient très souvent, il finira par ne plus considérer votre site à cause de son état trop instable.

Vous avez un script javascript empoisonné :

Il s’agit d’un cas rare mais existant. Vous avez fait un magnifique site en prenant soin de suivre la plupart des recommandations en référencement (url rewriting, netlinking, balises des pages, titles différentes…) mais étrangement, aucune page de votre site n’est indexée sur les moteurs de recherche. Il se peut que vous ayez installé pour une quelconque raison un javascript en haut de votre page d’accueil (comme par exemple pour afficher le site dans la langue de votre navigateur). Malheureusement, les moteurs de recherche peinent à lire le javascript et lorsqu’ils sont bloqués, il s’arrêtent. De ce fait, impossible de crawler tout ce qui se situe après votre script (à savoir la page, le menu, les autres pages…).

Vous avez récupéré un nom de domaine avec un passé lourd :

Enfin ! Le nom de domaine que vous attendiez depuis des mois est disponibles, l’ancien propriétaire ne l’ayant pas racheté. Vous vous jetez dessus et mettez en ligne votre site web. Ce que le registar a oublié de vous dire, c’est que ce nom de domaine a été sujet de blacklistage avant votre rachat et Google ne souhaite plus jamais en entendre parler. Dans ce cas, la situation est plus compliquée. Vous devez être capable de déterminer ce qui a pu provoquer la pénalisation, en essayant par exemple de rentrer en contact avec l’ancien propriétaire… Dans tous les cas, il va y avoir du boulot car les vices cachés sont nombreux lors d’un blacklistage. Bien entendu, une fois les erreurs réparées, il faudra penser à faire une demande auprès de Google pour reconsidérer votre site.

Edit : dès la mise en ligne de votre nouveau site, il est nécessaire d’avoir au moins un lien pointant vers ce dernier afin que Google et les autres moteurs puissent le détecter naturellement. Sinon, vous resterez orphelin sur le web et aucune page ne sera indexée. Quant à la soumission manuelle Google, cette dernière n’est pas la solution que je recommande. Demandez à vos ami(e)s d’écrire un article sur votre site ou plus simple, de faire un lien. Les “sans amis” pourront toujours se rabbattre sur les annuaires de type Dmoz (sans en abuser).

20 réflexions au sujet de “7 raisons qui font que Google n’indexe pas votre site web”

  1. Bonjour,
    les spiders utilisent un système de masque pour analyser les pages, donc ne prennent pas en compte le JavaScript et ne peuvent être bloqué par cette technologie.

  2. Ils ne le prennent pas en compte certes, mais ils n’arrivent pas à le parcourir et à passer outre si celui-ci est complexe. J’ai eu un cas de site de ce style.

  3. Hello,
    A partir de combien de secondes (ou minutes) Google juge-t-il un serveur lent? Personne ne sait vraiment. Matt Cutts a même dit sur ce billet que ça n’avait pas vraiment d’importance http://www.mattcutts.com/blog/myth-busting-delays-in-page-loading/

    Et concernant le JavaScript, je ne vois pas trop ce que tu veux dire, s’il s’agit d’un JS externe, Google n’ira même pas le lire. Pour les JS internes, qu’il les lisent ou pas, ça n’aura aucune influence sur leur parcours du site.
    As tu un exemple de site avec un JS qui a posé un problème d’indexation ? Je serai curieux de voir.

  4. J’ai effectivement eu à traiter un site dans ce cas là : artesia.eu.

    Il y avait un javascript en haut de page (interne) qui bloquait le parcours du moteur. De ce fait, le site n’était pas indexé. J’ai retiré le javascript et 7 jours après, les pages étaient indexées. Aucun changement sur le site n’a eu lieu avant ou après le retirement de ce script.

  5. Quant à la lenteur du serveur, il n’y a pas de minutes définites mais dans la pratique, ça se remarque. Un serveur qui ne peut répondre aux requêtes d’un moteur va forcément créer quelques dysfonctionnements dans son indexation. :)

  6. Salut Professeur Ramenos,

    Le JS n’est pas bloquant dans le cas de figure présenté, je ne vois pas non plus le rapport avec le sujet de ce billet… As-tu un exemple précis de JS bloquant ?

    Peut-être eût-il fallu évoquer l’effet sandbox ?…

  7. L’exemple : sur le site, j’avais à l’époque un script java en haut de page d’accueil qui avait pour but de définir l’affichage de la version linguistique du site en fonction de la langue du navigateur. Google n’arrivait pas à indexer le site à cause de ce script. Il n’arrivait pas à passer outre car il était tout en haut de page dans le code.

    Bien evidemment, j’ai réparé le souci et donc je n’ai plus l’exemple sous la main. Je précise également que cela remonte à mars 2007. Le moteur a sans doute évolué depuis… Quoiqu’il en soit, c’est mieux d’externaliser le javascript quand on le peut…

  8. Il ne faut pas non plus oublier d’inviter les spider à visiter votre site ! Soit en créant un lien vers votre site à partir d’une page web que l’on sait crawlée, soit en s’inscrivant directement sur les moteurs et annuaires connus comme par exemple http://www.dmoz.org/add.html.

    Cela semble certainement “couler de source” pour la majorité d’entres vous, mais il me semble important de le noter ;)

  9. Une autre bonne raison : le site vient d’être lancé sur un nom de domaine tout nouveau.
    Google va indexer la home et mettra un certain temps à descendre dans l’arbo. Et MSN mettra encore plus de temps, sauf si ses problèmes de crawl sont réglés.

    Pour le JS, je suis aussi un peu dubitatif. Les cas que j’ai vus sont des pages d’entrée du site qui redirigent les internautes (version Flash, pas Flash, langue) et qui bloqueront les moteurs, ou des pages dont le contenu est généré avec un JS, mais pas de script “killer”.

    Sinon, il y a quelques autres cas hautement improbables : site où on demande un code postal à l’entrée (pour géolocaliser l’internaute), site avec les changements de langues passés dans un cookie (seule la version linguistique principale sera crawlée).
    En plus du robots.txt, il y a le meta robots tag. Un développeur (qui voulait certainement me discréditer) m’en avait mis un en douce sur la home d’un site dont je m’occupais. J’ai mis du temps à voir d’où ça venait !

  10. > Oscarbone : tu as parfaitement raison, j’ai totalement oublié de mettre ce cas là (je mets ça à jour)

    > Kilroy : le script dont je parlais redirigeait bien entendu l’internaute. Les pages du site étaient propres, et il n’y avait pas d’autres éléments bloquants. Mis à part cela, le développeur que tu as fréquenté me semble bien vilain… :)

  11. En ce qui concerne le serveur, j’ai pu observé une vraie évolution grâce à un changement d’os (le premier n’était pas du tout optimisé). Une semaine plus tard, les sites apparaissaient sur les requêtes intéressantes.

  12. Bonjour à tous,

    Juste une petite question basique mais à laquelle j’ai du mal à trouver une réponse sur google…

    Au bout de combien de temps doit-on s’inquiéter de ne pas voir son site indexé par Google ? quelques jours ? une ou deux ou trois semaines ? un mois ?

    Je commence un peu à m’impatienter d’exister sur Google…
    mais je tiens quand même à préciser que je n’ai pas soumis mon site, je préfère attendre qu'”ils”me trouvent, puisque apparemment Google recense tous les jours de nouvelles adresses ip qui fleurissent sur le net.

    Merci d’avance à ceux qui sauront m’éclairer !

  13. Si au bout de 3 semaines tu n’as toujours rien, vérifie que rien ne bloque l’indexation dans ton site.

  14. Merci Ramenos pour ta réponse…

    Je ne comprends pas ce qui pourrait bloquer…

    – j’ai bien quelques lignes de javascript mais sans plus.
    – je viens juste de réaliser la redirection de monsite.com vers http://www.monsite.com (peut-être que c’est ça qui bloquait ? possible ou pas ?)

    depuis que j’ai réussi cette redirection j’ai pu voir dans les stats que goolglebot me fait des visites quotidiennes, est-ce que c’est bon signe ?

  15. Oui, il faudrait juste s’assurer qu’il arrive bien à dépasser la homepage tout de même :)

Laisser un commentaire