Découvert sur Google Webmaster blog, ce post revient sur la façon dont Google pourrait crawler davantage de contenus sur le web et plus particulièrement les formulaires HTML :

Specifically, when we encounter a FORM element on a high-quality site, we might choose to do a small number of queries using the form. For text boxes, our computers automatically choose words from the site that has the form; for select menus, check boxes, and radio buttons on the form, we choose from among the values of the HTML. Having chosen the values for each input, we generate and then try to crawl URLs that correspond to a possible query a user may have made. If we ascertain that the web page resulting from our query is valid, interesting, and includes content not in our index, we may include it in our index much as we would include any other web page.

Google à la recherche du web invisible

Qui dit formulaire HTML dit contenu caché à la suite. Beaucoup de sites cachent du contenus derrière un formulaire HTML, parfois seulement utile pour l’internaute (formulaire d’inscription), parfois pour le moteur (liste de résultats). A ma connaissance, les moteurs de recherches ont toujours ignoré les formulaires HTML. Derrière ces formulaires se cachent ainsi une partie du web que le commun des mortels nomme « web invisible » ou alors « web caché ».

Attention aux conséquences

Cette optimisation du crawl n’est pas sans conséquence pour votre site web. Tout d’abord, le nombre de pages indexées risque d’augmenter, dans le sens ou le robots va accéder à de nouveaux contenus. Le second problème concerne la confidentialité des informations. Crawler davantage de pages n’est pas forcément une bonne idée si l’on ne souhaite pas rendre certaines informations visibles dans les résultats de recherche.
Par ailleurs, le fait de pouvoir crawler le contenu qui se situe derrière les formulaires HTML peut avoir aussi un impact sur tout ce qui concerne la duplication de contenus (par exemple, pour un site e-commerce ou l’on pourrait retrouver de la duplication dans les listes de résultats).

Finalement, bonne ou mauvaise nouvelle ?

Quoiqu’il en soit, si pour une raison ou une autre, vous ne souhaitez pas que le moteur indexe ce qui est derrière vos formulaires HTML, le mieux est de l’indiquer dans le fichier robots.txt, fichier qui est rigoureusement respecté par Google et les autres moteurs de recherche.

J’admets que ce post a plutôt une tournure négative alors que certains se réjouissent peut-être de la nouvelle mais est-ce vraiment nécessaire d’indexer ce type de contenus depuis les résultats des moteurs de recherche…? Ne risque-t-on pas de polluer davantage les résultats lors d’une recherche ?