Ramenos Blog

Référencement naturel, Outils de recherche, Web 2.0

Archives 'Outils de recherche' Category

Google Page Rank pour les images : synthèse (1/2)

En lisant plus en détails le document officiel fournit par Google concernant la mise en ligne de son prochain Page Rank pour les images, j’ai souhaité souligner quelques points importants, qui à mon sens, méritent d’être mis en avant.

2 nouveaux challenges pour Google :

  • Trouver les points communs aux images stockées sur le web pour pouvoir créer un algorithme universel.
  • Appliquer un mécanisme à ces points communs.

L’objectif est donc de trouver différentes méthodes qui consistent à appliquer un “ranking” à des visuels. La tâche est complexe, surtout lorsque l’on sait qu’un mot-clé tapé peut renvoyer non seulement des images totalement différentes mais aussi des thèmes d’images différents. Pour mieux comprendre, taper par exemple la requête “japon” dans Google Images. Vous verrez rapidement ce que je veux dire…

Mesurer la performance des visuels :

  • Etudier le comportement des internaute
  • Faire le lien entre la requête et les images les plus cliquées
  • Etudier la similarité entre les différents visuels (exemple les photos d’une voiture)
  • Analyser le linking entre les différentes images

Différencier et regrouper les visuels :

  • Analyser l’angle de vue
  • Analyser la localisation globale des images…
  • …pour les rassembler dans une famille similaire
  • Prendre en compte les meta date et le texte
  • Distinguer une image originale d’une (ou plusieurs) copies retouchées (un exemple bien parlant :) )

L’objectif d’un moteur de recherche est, rappelons le, de fournir les résultats les plus adéquat possible par rapport à une requête tapée. Je continuerai la synthèse du document très bientôt.

No comments

Search Hacker : télécharger des fichiers mp3, torrent, avi, xml, iso, pdf…

Search Hacker FSE est un moteur de recherche de fichiers. Actuellement en version bêta, l’outil semble très prometteur. Si l’interface est déjà plutôt agréable à utiliser, les fonctionnalités sont déjà exhaustives pour une simple bêta.

Ainsi, lors de la recherche d’un “élément”, il est possible de lancer une recherche en sélectionnant des filtres qui s’avèrent, pour la plupart, fortement utiles (en gras les filtres qui me semblent les plus intéressants à utiliser) :

  • Torrent : torrent
  • Audio : mp3, wma, wav, oog, aac, ope.
  • Video : avi, wmv, mov, flv, mpeg, divx, rm, srt, mp4.
  • Document : txt, doc, pdf, xls, ppt, rtf, xml, chm.
  • Image CD : iso, bin, nrg, cue, dmg.
  • Archive : zip, rar, ace, rpm, exe, deb, bz2.
  • Police : ttf.
  • Image : jpeg, gif, png, psd, ai, fla, swf.
  • Base de données : sql, mdb, db.
  • Roms jeux vidéo : nes, nds, n64, rom, gba, ngp

Si je ne peux que prôner la mise en ligne d’un tel moteur de recherche, j’espère que Search Hacker aura un dossier béton d’un point de vue juridique. Bien que le moteur n’héberge pas de fichiers, les résultats de recherche affichent des accès directs au téléchargement des réponses proposées… Un peu limite pour certains filtres :-)

A noter également que le moteur a prévu de proposer les filtres suivants dans sa prochaine version :

  • Mot de passe
  • Emissions de télévision
  • Actualités
  • Shopping
  • Livres en ligne
No comments

Google instaure un Page Rank pour les images

Lors d’une conférence au WWW2008 de Beijing, Google a présenté son modèle de Page Rank qui s’appliquerait à Google Images. L’objectif étant bien sur d’améliorer les résultats de recherche des images. Avec ce nouvel algorithme, Google devrait ainsi proposer de meilleurs résultats lors de la recherche d’images (ce n’est pas du luxe vu les mauaises surprises que l’on peut parfois rencontrer).

D’après un article du NYtimes qui aurait étudier la chose, nous aurions bien de nouveau un chiffre qui serait attribué à l’image en fonction de son “efficacité”.

Pour ceux qui veulent en savoir davantage sur cet algorithme, vous pouvez télécharger le rapport détaillé de Google sur l’algorithme du Page Rank Google Images.

1 comment

Bryns Brain : moteur de recherche visuel en flash

Bryns Brain est, à l’instar de Redzee, un moteur de recherche visuel en version beta dont la base repose sur du Flash.

L’interface est réduite au minimum. Pas de recherche avancée, pas d’écran d’aides, pas d’exemples, vous êtes tout seul face à votre champ de saisie. Après avoir entré une expression, les résultats vont s’afficher sous la forme de 9 petites miniatures dont l’ensemble formera un carré. Le fait de bouger la souris dans l’interface des résultats d’affichage modifiera l’angle d’affichage (amusant bien qu’inutile).

En s’intéressant de plus près aux résultats affichés, il est possible d’agrandir une miniature en cliquant dessus. Une fois le clic réalisé, il est possible de cliquer sur un petit pictogramme en bas à droite de la miniature pour retourner la miniature et obtenir les informations suivantes : la Meta Title de la page et la Meta Description. Un lien “Visit Website” est également cliquable.

Le concept de deux clics pour accéder à un résultat semble ici intéressant. Plutôt que de cliquer n’importe où, l’utilisateur prend davantage le temps de visualiser la “pré visualisation d’un résultat” avant de se rendre sur le site de destination. Envie de voir les autres résultats ? Cliquez sur la miniature et vous reviendrez à la liste des résultats.

Deux clics pour visualiser le détail d’un résultat = Visite plus quali ? Peut-être bien, ou peut-être pas.

En effet, au niveau des inconvénients, l’interface reste lente, surtout lors de la première recherche. Par ailleurs, il y a des bugs d’affichages si l’on passe de la page 2 à la page 1. Le nombre de résultats est souvent limité à une dizaine, et encore, ce nombre est aléatoire selon la requête. Malgré mon effroi, je garde en tête que le moteur est toujours en version beta. Wait & see…

No comments

Google va-t-il crawler le web invisible ?

Découvert sur Google Webmaster blog, ce post revient sur la façon dont Google pourrait crawler davantage de contenus sur le web et plus particulièrement les formulaires HTML :

Specifically, when we encounter a FORM element on a high-quality site, we might choose to do a small number of queries using the form. For text boxes, our computers automatically choose words from the site that has the form; for select menus, check boxes, and radio buttons on the form, we choose from among the values of the HTML. Having chosen the values for each input, we generate and then try to crawl URLs that correspond to a possible query a user may have made. If we ascertain that the web page resulting from our query is valid, interesting, and includes content not in our index, we may include it in our index much as we would include any other web page.

Google à la recherche du web invisible

Qui dit formulaire HTML dit contenu caché à la suite. Beaucoup de sites cachent du contenus derrière un formulaire HTML, parfois seulement utile pour l’internaute (formulaire d’inscription), parfois pour le moteur (liste de résultats). A ma connaissance, les moteurs de recherches ont toujours ignoré les formulaires HTML. Derrière ces formulaires se cachent ainsi une partie du web que le commun des mortels nomme “web invisible” ou alors “web caché”.

Attention aux conséquences

Cette optimisation du crawl n’est pas sans conséquence pour votre site web. Tout d’abord, le nombre de pages indexées risque d’augmenter, dans le sens ou le robots va accéder à de nouveaux contenus. Le second problème concerne la confidentialité des informations. Crawler davantage de pages n’est pas forcément une bonne idée si l’on ne souhaite pas rendre certaines informations visibles dans les résultats de recherche.
Par ailleurs, le fait de pouvoir crawler le contenu qui se situe derrière les formulaires HTML peut avoir aussi un impact sur tout ce qui concerne la duplication de contenus (par exemple, pour un site e-commerce ou l’on pourrait retrouver de la duplication dans les listes de résultats).

Finalement, bonne ou mauvaise nouvelle ?

Quoiqu’il en soit, si pour une raison ou une autre, vous ne souhaitez pas que le moteur indexe ce qui est derrière vos formulaires HTML, le mieux est de l’indiquer dans le fichier robots.txt, fichier qui est rigoureusement respecté par Google et les autres moteurs de recherche.

J’admets que ce post a plutôt une tournure négative alors que certains se réjouissent peut-être de la nouvelle mais est-ce vraiment nécessaire d’indexer ce type de contenus depuis les résultats des moteurs de recherche…? Ne risque-t-on pas de polluer davantage les résultats lors d’une recherche ?

4 comments

Next Page »