Ramenos Blog

Référencement naturel, Outils de recherche, Web 2.0

Archives 'Outils de recherche' Category

Google Page Rank pour les images : synthèse (1/2)

En lisant plus en détails le document officiel fournit par Google concernant la mise en ligne de son prochain Page Rank pour les images, j’ai souhaité souligner quelques points importants, qui à mon sens, méritent d’être mis en avant.

2 nouveaux challenges pour Google :

  • Trouver les points communs aux images stockées sur le web pour pouvoir créer un algorithme universel.
  • Appliquer un mécanisme à ces points communs.

L’objectif est donc de trouver différentes méthodes qui consistent à appliquer un “ranking” à des visuels. La tâche est complexe, surtout lorsque l’on sait qu’un mot-clé tapé peut renvoyer non seulement des images totalement différentes mais aussi des thèmes d’images différents. Pour mieux comprendre, taper par exemple la requête “japon” dans Google Images. Vous verrez rapidement ce que je veux dire…

Mesurer la performance des visuels :

  • Etudier le comportement des internaute
  • Faire le lien entre la requête et les images les plus cliquées
  • Etudier la similarité entre les différents visuels (exemple les photos d’une voiture)
  • Analyser le linking entre les différentes images

Différencier et regrouper les visuels :

  • Analyser l’angle de vue
  • Analyser la localisation globale des images…
  • …pour les rassembler dans une famille similaire
  • Prendre en compte les meta date et le texte
  • Distinguer une image originale d’une (ou plusieurs) copies retouchées (un exemple bien parlant :) )

L’objectif d’un moteur de recherche est, rappelons le, de fournir les résultats les plus adéquat possible par rapport à une requête tapée. Je continuerai la synthèse du document très bientôt.

No comments

Search Hacker : télécharger des fichiers mp3, torrent, avi, xml, iso, pdf…

Search Hacker FSE est un moteur de recherche de fichiers. Actuellement en version bêta, l’outil semble très prometteur. Si l’interface est déjà plutôt agréable à utiliser, les fonctionnalités sont déjà exhaustives pour une simple bêta.

Ainsi, lors de la recherche d’un “élément”, il est possible de lancer une recherche en sélectionnant des filtres qui s’avèrent, pour la plupart, fortement utiles (en gras les filtres qui me semblent les plus intéressants à utiliser) :

  • Torrent : torrent
  • Audio : mp3, wma, wav, oog, aac, ope.
  • Video : avi, wmv, mov, flv, mpeg, divx, rm, srt, mp4.
  • Document : txt, doc, pdf, xls, ppt, rtf, xml, chm.
  • Image CD : iso, bin, nrg, cue, dmg.
  • Archive : zip, rar, ace, rpm, exe, deb, bz2.
  • Police : ttf.
  • Image : jpeg, gif, png, psd, ai, fla, swf.
  • Base de données : sql, mdb, db.
  • Roms jeux vidéo : nes, nds, n64, rom, gba, ngp

Si je ne peux que prôner la mise en ligne d’un tel moteur de recherche, j’espère que Search Hacker aura un dossier béton d’un point de vue juridique. Bien que le moteur n’héberge pas de fichiers, les résultats de recherche affichent des accès directs au téléchargement des réponses proposées… Un peu limite pour certains filtres :-)

A noter également que le moteur a prévu de proposer les filtres suivants dans sa prochaine version :

  • Mot de passe
  • Emissions de télévision
  • Actualités
  • Shopping
  • Livres en ligne
1 comment

Google instaure un Page Rank pour les images

Lors d’une conférence au WWW2008 de Beijing, Google a présenté son modèle de Page Rank qui s’appliquerait à Google Images. L’objectif étant bien sur d’améliorer les résultats de recherche des images. Avec ce nouvel algorithme, Google devrait ainsi proposer de meilleurs résultats lors de la recherche d’images (ce n’est pas du luxe vu les mauaises surprises que l’on peut parfois rencontrer).

D’après un article du NYtimes qui aurait étudier la chose, nous aurions bien de nouveau un chiffre qui serait attribué à l’image en fonction de son “efficacité”.

Pour ceux qui veulent en savoir davantage sur cet algorithme, vous pouvez télécharger le rapport détaillé de Google sur l’algorithme du Page Rank Google Images.

1 comment

Bryns Brain : moteur de recherche visuel en flash

Bryns Brain est, à l’instar de Redzee, un moteur de recherche visuel en version beta dont la base repose sur du Flash.

L’interface est réduite au minimum. Pas de recherche avancée, pas d’écran d’aides, pas d’exemples, vous êtes tout seul face à votre champ de saisie. Après avoir entré une expression, les résultats vont s’afficher sous la forme de 9 petites miniatures dont l’ensemble formera un carré. Le fait de bouger la souris dans l’interface des résultats d’affichage modifiera l’angle d’affichage (amusant bien qu’inutile).

En s’intéressant de plus près aux résultats affichés, il est possible d’agrandir une miniature en cliquant dessus. Une fois le clic réalisé, il est possible de cliquer sur un petit pictogramme en bas à droite de la miniature pour retourner la miniature et obtenir les informations suivantes : la Meta Title de la page et la Meta Description. Un lien “Visit Website” est également cliquable.

Le concept de deux clics pour accéder à un résultat semble ici intéressant. Plutôt que de cliquer n’importe où, l’utilisateur prend davantage le temps de visualiser la “pré visualisation d’un résultat” avant de se rendre sur le site de destination. Envie de voir les autres résultats ? Cliquez sur la miniature et vous reviendrez à la liste des résultats.

Deux clics pour visualiser le détail d’un résultat = Visite plus quali ? Peut-être bien, ou peut-être pas.

En effet, au niveau des inconvénients, l’interface reste lente, surtout lors de la première recherche. Par ailleurs, il y a des bugs d’affichages si l’on passe de la page 2 à la page 1. Le nombre de résultats est souvent limité à une dizaine, et encore, ce nombre est aléatoire selon la requête. Malgré mon effroi, je garde en tête que le moteur est toujours en version beta. Wait & see…

No comments

Google va-t-il crawler le web invisible ?

Découvert sur Google Webmaster blog, ce post revient sur la façon dont Google pourrait crawler davantage de contenus sur le web et plus particulièrement les formulaires HTML :

Specifically, when we encounter a FORM element on a high-quality site, we might choose to do a small number of queries using the form. For text boxes, our computers automatically choose words from the site that has the form; for select menus, check boxes, and radio buttons on the form, we choose from among the values of the HTML. Having chosen the values for each input, we generate and then try to crawl URLs that correspond to a possible query a user may have made. If we ascertain that the web page resulting from our query is valid, interesting, and includes content not in our index, we may include it in our index much as we would include any other web page.

Google à la recherche du web invisible

Qui dit formulaire HTML dit contenu caché à la suite. Beaucoup de sites cachent du contenus derrière un formulaire HTML, parfois seulement utile pour l’internaute (formulaire d’inscription), parfois pour le moteur (liste de résultats). A ma connaissance, les moteurs de recherches ont toujours ignoré les formulaires HTML. Derrière ces formulaires se cachent ainsi une partie du web que le commun des mortels nomme “web invisible” ou alors “web caché”.

Attention aux conséquences

Cette optimisation du crawl n’est pas sans conséquence pour votre site web. Tout d’abord, le nombre de pages indexées risque d’augmenter, dans le sens ou le robots va accéder à de nouveaux contenus. Le second problème concerne la confidentialité des informations. Crawler davantage de pages n’est pas forcément une bonne idée si l’on ne souhaite pas rendre certaines informations visibles dans les résultats de recherche.
Par ailleurs, le fait de pouvoir crawler le contenu qui se situe derrière les formulaires HTML peut avoir aussi un impact sur tout ce qui concerne la duplication de contenus (par exemple, pour un site e-commerce ou l’on pourrait retrouver de la duplication dans les listes de résultats).

Finalement, bonne ou mauvaise nouvelle ?

Quoiqu’il en soit, si pour une raison ou une autre, vous ne souhaitez pas que le moteur indexe ce qui est derrière vos formulaires HTML, le mieux est de l’indiquer dans le fichier robots.txt, fichier qui est rigoureusement respecté par Google et les autres moteurs de recherche.

J’admets que ce post a plutôt une tournure négative alors que certains se réjouissent peut-être de la nouvelle mais est-ce vraiment nécessaire d’indexer ce type de contenus depuis les résultats des moteurs de recherche…? Ne risque-t-on pas de polluer davantage les résultats lors d’une recherche ?

4 comments

Stumpedia : l’autre moteur de recherche humain

Stumpedia fait parti de cette nouvelle génération de moteur de recherche que l’on nomme “moteur de recherche social” ou encore “moteur de recherche humain”. En clair, cela signifie que l’indexation des contenus du moteur de recherche dépend du comportement des internautes.

Basé sur le concept d’obtenir un moteur de recherche objectif, Stumpedia repose sur 3 principaux fondamentaux :

L’accès à une communauté d’internautes et en devenir un membre unique, afin de contribuer à un but commun : améliorer la recherche pour les internautes. Dans la pratique, cela se traduit par une inscription obligatoire mais très rapide et une page profil très succincte (sexe, date de naissance, localisation, description, photo). Un blog et un forum sont également accessibles.

L’ajustement et l’optimisation des résultats indexés via un système de vote ultra simple nécessitant un clic sur un “pour” ou un “contre”. Pour éviter le spam ou l’accentuation de l’individualisme, il n’est possible de voter qu’une seule fois. Faites bien vos choix… :-)

L’enrichissement de l’index en soumettant un site par rapport à une ou plusieurs requêtes clés. Bien que très fastidieux, l’idée est bonne et cela permet d’améliorer davantage l’affichage des résultats par rapport à une requête précise.

Cependant, sous cette ambition totalement positive se cache un lourd rival qui se prénomme Google. Toutefois, Stumpedia a le mérite d’être simple à utiliser et de foncer à l’essentiel, à savoir l’affichage de résultats pertinents pour différentes requêtes. Un moteur de plus qui pourra s’ajouter à la bonne initiative The Search Race, un excellent site dans le monde de la recherche alternative. Ne reste plus qu’à changer les habitudes des internautes, ce qui est plus facile à dire qu’à faire…

No comments

The Search Race :le meilleur des moteurs de recherche alternatifs

The Search Race est un projet lancé par Alt Search Engines sous la forme d’un digg like concernant les moteurs de recherche alternatifs. Le principe est simple. En vous inscrivant, vous pouvez, si vous le souhaitez, ajouter des moteurs de recherche alternatifs à la longue liste existante tout en votant pour vos préférés.

Ces derniers, s’ils sont populaires, apparaîtront dans le Top 100 ou Top 10. En faisant un “pick” sur vos moteurs préférés, ils apparaîtront dans votre liste personnalisée. Pratique pour y accéder rapidement.

Avec déjà près de 110 moteurs inscrits à son actif, la “course à la recherche” a plutôt bien gérée son départ. Autre avantage : c’est un excellent moyen pour découvrir les alernatives à Google, au moins en terme d’innovation et ergonomie. On retrouve entre autre dans le top 10 l’excellent Chacha que j’avais déjà évoqué dans un de mes billet précédent. :)

2 comments

HowDoYa : moteur pour apprendre à faire quelque chose !

Howdoya - Comment faire...

Si vous avez besoin d’apprendre à faire quelque chose, le moteur HowDoYa pourrait bien vous être utile. Il s’agit d’un moteur de recherche, fondé à partir d’Exalead. Assez intéressant, il vous suffit de demander ce que vous souhaiteriez savoir faire en tapant l’expression clé adéquat, en anglais.

A partir de ce mot, le moteur va vous renvoyer un grand nombre de résultats mais pas de panique. Pour mieux vous y retrouver, vous pouvez ensuite parcourir les résultats en suivant l’un des quatre chemins proposés :

  • What do you need ?
  • Who can help ?
  • Why do it ?
  • Where should I go ?

Dans ces chemins se trouvent des tags qui vous renverront à des listes de résultats affinées. Bien qu’en version beta et lancé officiellement ce 1er avril (une date courageuse ^^), ce moteur est plutôt une bonne surprise. A tester !

No comments

« Previous PageNext Page »