Google va-t-il crawler le web invisible ?

Découvert sur Google Webmaster blog, ce post revient sur la façon dont Google pourrait crawler davantage de contenus sur le web et plus particulièrement les formulaires HTML :

Specifically, when we encounter a FORM element on a high-quality site, we might choose to do a small number of queries using the form. For text boxes, our computers automatically choose words from the site that has the form; for select menus, check boxes, and radio buttons on the form, we choose from among the values of the HTML. Having chosen the values for each input, we generate and then try to crawl URLs that correspond to a possible query a user may have made. If we ascertain that the web page resulting from our query is valid, interesting, and includes content not in our index, we may include it in our index much as we would include any other web page.

Google à la recherche du web invisible

Qui dit formulaire HTML dit contenu caché à la suite. Beaucoup de sites cachent du contenus derrière un formulaire HTML, parfois seulement utile pour l’internaute (formulaire d’inscription), parfois pour le moteur (liste de résultats). A ma connaissance, les moteurs de recherches ont toujours ignoré les formulaires HTML. Derrière ces formulaires se cachent ainsi une partie du web que le commun des mortels nomme “web invisible” ou alors “web caché”.

Attention aux conséquences

Cette optimisation du crawl n’est pas sans conséquence pour votre site web. Tout d’abord, le nombre de pages indexées risque d’augmenter, dans le sens ou le robots va accéder à de nouveaux contenus. Le second problème concerne la confidentialité des informations. Crawler davantage de pages n’est pas forcément une bonne idée si l’on ne souhaite pas rendre certaines informations visibles dans les résultats de recherche.
Par ailleurs, le fait de pouvoir crawler le contenu qui se situe derrière les formulaires HTML peut avoir aussi un impact sur tout ce qui concerne la duplication de contenus (par exemple, pour un site e-commerce ou l’on pourrait retrouver de la duplication dans les listes de résultats).

Finalement, bonne ou mauvaise nouvelle ?

Quoiqu’il en soit, si pour une raison ou une autre, vous ne souhaitez pas que le moteur indexe ce qui est derrière vos formulaires HTML, le mieux est de l’indiquer dans le fichier robots.txt, fichier qui est rigoureusement respecté par Google et les autres moteurs de recherche.

J’admets que ce post a plutôt une tournure négative alors que certains se réjouissent peut-être de la nouvelle mais est-ce vraiment nécessaire d’indexer ce type de contenus depuis les résultats des moteurs de recherche…? Ne risque-t-on pas de polluer davantage les résultats lors d’une recherche ?

4 réflexions au sujet de “Google va-t-il crawler le web invisible ?”

  1. Je suppose qu’un bon noindex voire pour les plus bourrins un menus en frame devrait bien freiner les ardeurs du robot pour les contenus que l’on voudrait garder pour les seuls internautes.

  2. Je trouve que c’est une nouvelle fonctionnalité intéressante … par contre il est judicieux d’insister sur le fait que nous devrons être de plus en plus attentif à l’utilisation du fichier robots.txt ainsi que des attributs NOFOLLOW et NOINDEX ;)

    PS : les frames n’a pas d’impact sur le crawl, les robots suivent les liens et indexe le contenu des frames. On a souvent entendu parler des frames et de référencement car elles nécessites la mise en place d’un script de “reconstruction de frames” … mais elles n’ont jamais gênées l’indexation !

  3. Les frames sont indexées, par contre le contenu est du coup décorellé du reste de la page, ce qui n’est pas tip top :/

Laisser un commentaire