Archives mensuelles : mars 2011

Savoir restreindre proprement l’accès à ses contenus pour les moteurs

Avec la dernière mise à jour de son algorithme, Google a frappé un peu plus fort que d’habitude dans son index en faisant un beau ménage. S’il a toujours été important de savoir maîtriser l’indexation et la duplication de ses contenus (à l’intérieur et à l’extérieur) de son site, un petit récapitulatif ne peut pas faire de mal, surtout à cette période.

Pourquoi dois-je donc tant que ça savoir restreindre l’accès à mes contenus ?

  • Éviter la duplication de contenu au sein de son propre site (Google n’aime ni les fermes de contenus, ni la génération massive de pages dupliquées).
  • Éviter la duplication de contenu sur un autre site et en subir les conséquences seo (meilleur positionnement, prise en compte des changements seo d’abord sur le site externe…).
  • Centraliser les performances SEO vers les bonnes versions des contenus.
  • Partager sans mettre en danger la visibilité organique de mon site web.

Je vais partir du principe que vous travaillez pour une entreprise qui crée du contenu pour ses propres sites mais qui propose également de le dupliquer ou le vendre à l’extérieur. A partir de là, il est nécessaire de prendre certaines précautions, à moins que vous vous fichiez de faire parti du génocide généré par Google Farmer Panda (un peu violent mais ça sonne bien).

1) Le tag canonical

Si pour X raisons, vous devez dupliquer des pages de contenus sur votre site à un autre endroit (par exemple, faire un dossier spécial ou une sous-catégorie particulière qui pioche du contenu un peu partout sur le site) et que les URL sont différentes (sauf le nom de l’article évidemment), rien de mieux que d’appliquer un bon tag canonical dans le head de ces articles en leur mettant l’URL des articles sources comme page à prendre en compte par les moteurs. Ainsi, Google va être en mesure de déterminer quel article est à considérer.

Cette solution s’applique également si les contenus sont partagés à l’extérieur. Ca ajoute une garantie supplémentaire quant à la préservation de la visibilité organique du site source sur ses propres contenus. Ca ne plaira peut-être pas forcément à l’acheteur mais on ne peut pas avoir le beurre, l’argent du beurre et la crémaillère !

Je recommande également de ne pas reformuler les articles car ça risque de créer un effet ferme de contenus. Dans le genre cochonnerie et arnaque pour Google et vos utilisateurs, c’est parfait ! Quitte à copier, dupliquez vos contenus à l’identique et indiquer à Google qu’ils ne sont pas l’oeuvre d’une nouvelle création. Le contenu étant strictement le même, ça garantit que le signal du canonical passera bien.

Avantages :

  • Implantation assez simple dans le template de vos pages. Ne nécessite « normalement » pas trop de développement.
  • Pratique pour aider Google à se focaliser sur une seule source si l’article est dupliqués à plusieurs endroits, plusieurs domaines.

Inconvénients :

  • Pas aussi efficace qu’une redirection 301 (en même temps c’est normal, son utilisation est différente et c’est un signal, pas une commande http).
  • Ne garantit pas l’indexation du contenu dupliqué (même à un niveau inférieur que l’article source, ce qui est un peu dommage lorsqu’on fait du business mais ça se comprend d’un point de vue purement recherche).
  • Peut tuer votre seo si mal implanté !

2) L’attribut noindex du robots.txt

Si cela ne suffit pas à vous rassurer, à ce moment là, rien ne vous empêche d’ajouter un attribut de désindexation sur toute la catégorie spécifique de votre site qui repompe les contenus. Comme Matt Cutts l’a dit, il vaut mieux « appliquer un bon noindex sur les pages à faible contenu éditorial, afin que Google ne les prenne pas en compte dans son algorithme qualitatif plutôt que de laisser le tout tel quel et voir le domaine « pénalisé » à cause de ça » (lire mon compte-rendu sur le SMX de mars pour en savoir plus). Rien ne vous empêche de faire pareil pour le contenu dupliqué. Un noindex n’empêchera pas Google d’aller crawler vos contenus et de voir en outre un tag canonical lui indiquant que la source se situe ailleurs…

Avantages :

  • Ultra simple à implanter sur un site !
  • Permet de se prémunir facilement contre le contenu dupliqué sur son site et les pages à faible à valeur ajoutée.
  • « Forcer » les moteurs à se concentrer sur les contenus business (ceci étant dit, un robot ira quand même crawler les pages interdites :) ).

Inconvénients :

  • Mal rempli, vous pouvez désindexer toutes les pages de votre site en quelques jours (j’ai déjà fait le test, ça fait mal mais après correction, on a un retour rapide à la normale, généralement en 2-3 semaines max).
  • Peut réduire les performances du « link juice » au sein de vos différentes pages (perso, je ne trouve pas ça si problématique dans le sens où c’est à vous de négocier l’accès aux fameuses pages qui apportent 0 valeur ajoutée pour l’utilisateur provenant des moteurs).

3) Meta Robots

Même principe que le fichier robots.txt, cette balise a pour objectif de définir des règles concernant l’indexation d’une ou plusieurs pages pour les moteurs. Perso, utiliser un ou l’autre ne me pose pas de problème. L’avantage du fichier est qu’on est sur d’oublier aucune page à désindexer. L’avantage de la balise est de pouvoir définir si oui ou non, on autorise les robots à suivre les liens dans les pages désindexés, ce qui n’est pas négligeable.

Avantages :

  • Peut être utilisé plus finement…
  • … En omettant d’inclure le nofollow pour permettre aux moteurs de crawler les pages à faible importance.
  • Utile si le title ou le descriptif de vos pages ne correspondent pas à ce qui est entré (utilisez le noodp et nodir).

Inconvénients :

  • Sans être dur à intégrer, il faut s’assurer de l’intégrer dans tous les templates d’un même pattern d’URL pour que ça soit efficace…
  • … Et ne pas oublier d’appliquer des règles sur une partie de vos pages.
  • Si vous êtes bourrin et ajoutez un nofollow à chaque fois sans aucune raison, vous perdez l’avantage à utiliser cette balise car les performances seo ne seront alors pas redistribuées via les pages à faible valeur.

4) Le X-robots tag

Je ne vous ai jamais parlé de ce tag, et pour cause, je le trouve pas d’une grande utilité dans le monde seo actuel. Ce robot un peu spécifique permet de controler l’accès moteur aux documents de type PDF, DOC, PPT et autres. De mon point de vue, il est inutile de s’attarder dessus pour les raisons suivantes :

  • Référencer un contenu pratique sous forme de document est toujours apprécié par la communauté de lecteurs.
  • Accéder à des contenus privés se fait généralement via une page qui nécessite un login/pass donc pas d’inquiétude côté référencement.
  • Si malgré tout vous souhaitez améliorer le positionnement du contenu de ces documents… Et bien pourquoi ne pas les réécrire en html ? C’est d’autant plus utile, surtout si vous partagez ce même document à travers plusieurs domaines. Autant garder une source au format html, bien plus exploitable qu’un simple PDF.

J’ai tendance à favoriser peu à peu le canonical car cette solution me paraît propre d’un point de vue éditorial. Une redirection 301 n’a rien à voir et un gros noindex est généralement mal accepté, voire trop bourrin.

Et vous ? Qu’en pensez-vous ? Quelle règle appliquez-vous lorsque vous partagez et dupliquez du contenu ?

La blague du jour SEO : attention les outils d’analyses ne peuvent plus fournir de statistiques !

Je viens de recevoir un message sur ma boîte mail. Je vous le partage car son contenu mérite le détour :

Bonjour,

Comme vous le savez, depuis maintenant plusieurs jours, la plupart des outils d’analyse de positionnement ne peuvent plus donner de résultats temporairement. Cela est apparemment du à un changement de politique de Google sur différents points.

Pour palier ce problème, je vous invite à découvrir ce nouvel outil :

http://www.allorank.com

Utilisation gratuite et sans inscription : cet outil est fonctionnel et vous ne serez pas dépaysé par rapport aux outils que vous avez l’habitude d’utiliser.

Cordialement,

Je crois que c’est la meilleure du top 50 celle-là depuis le début 2011.

Je ne sais pas si vous aussi vous avez reçu cet email là, mais je serai bien curieux de savoir qui et comment a bloqué les statistiques des outils d’analyses comme ça du jour au lendemain… Quoiqu’il en soit, ça m’a bien fait rire… Et pourtant, on est pas encore le premier avril !

>> La preuve en image

Compte-rendu en français du SMX West mars 2011 : les 10 points Google à retenir

J’ai pu lire hier un très bon article résumant les points essentiels à retenir du SMX West. Vous trouverez ci-dessous un résumé en français des points évoqués avec mon opinion sur chaque point abordé.

Comme on a pu le voir récemment, la mise à jour Panda de l’algorithme Google a commencé à faire un sérieux ménage au niveau des résultats indexés.

1) Bloquer le contenu de mauvaise qualité

Je suis d’accord sur le principe. Entre les sites MFA, les spammeurs et les sites qui regorgent de contenus sans grand intérêt, le ménage doit continuer. Par contre, je ne suis pas d’accord sur le fait qu’il faille appliquer du NOINDEX, NOFOLLOW sur les pages à faible contenu, dans le cas où un site vient d’être lancé…

Depuis quand Google est-il devenu pingre dans son système de crawl ? C’est justement l’évolution du contenu d’un site qui contribue à l’évolution de son propre référencement. Se faire « pénaliser » parce qu’on remplit un site au fur et à mesure, je trouve ça plutôt stupide. En gros, si je fais un petit site vitrine ou portefolio, j’ai intérêt à mettre en ligne avec les contenus finaux.

Des exceptions seront faites pour certains gros sites… Encore une fois, tout tourne autour du fric… On le sait, c’est la réalité, mais c’est moche !

2) Ratio contenu/publicité en ligne

La publicité présente sur un site ne fait pas baisser la qualité du contenu. En revanche, il est possible d’avoir un trop plein (je m’adresse en particulier aux spammeurs qui aiment faire des MFA). Reste que de mon point de vue, il est vital d’avoir un bon ratio liens/contenus/publicité sur les pages clés de son site web. J’exclue bien sur les pages de listes qui comprendront plus de liens que la moyenne…

3) Ralentissement du crawl

Matt Cutt a également mentionné que Googlebot allait diminuer la fréquence de crawl d’un site s’il trouvait celui-ci non pertinent. Je partage également l’avis de l’auteur en vous suggérant de vérifier la fréquence de crawl des pages les plus visitées de votre site et voir si cela change lorsque Panda sera implanté en Europe et Canada. Reste que dans certains cas, notamment un site vitrine, la fréquence de crawl est déjà naturellement basse… Donc pas d’inquiétude ! D’ailleurs en parlant date, le nouvel algorithme devrait arriver dans les autre pays d’ici les prochaines semaines.

4) White Hat cloacking

Le white hat cloacking consite à faire un site pour les utilisateurs et un site pour les moteurs pour des raisons non liées au spams. Par exemple, il peut exister une version flash d’un site et son équivalent en HTML. Google condamne ce genre de pratique, même si l’intention de départ est louable. Mon avis ? Continuez de le faire en vous assurant de bien désindexer la version inaccessible au moteur (flash). Quoiqu’il en soit, Google vous assure qu’il n’y a pas d’exception faite pour ce genre de choses, peu importe la raison donc gare ! Ce qui veut dire ? Faites un site en flash et dites bye bye au SEO.

5) Stop à la duplication de contenus

Entre le cloacking d’URL, la duplication de contenus au sein d’un même sites ou entre plusieurs domaine, Google en a tout simplement marre devoir crawler la même chose. De toute façon, il existe plusieurs façons pour maîtriser le contenu dupliqué (j’en ferai l’objet d’un prochain billet). Pour les impatients, allez voir du côté du tag canonical.

6) Considérer Google comme un nouveau visiteur sur le site

Si la question du contenu différent est revenue sur le tapis (notamment pour un visiteur qui revient sur le site et voit un contenu différent), le plus important est bien comprendre qu’un bot n’exploite pas les cookies. De ce fait, le plus simple pour vous est de vous dire que Google voit votre site web comme le voit un visiteur lors de sa première visite. Si vous doutez encore de cela, n’hésitez pas à exploiter les fonctionnalités Web Developer (extension Firefox) pour désactiver les CSS, les images et le JS de vos pages web.

7) Linkbuilding

J’espérais en apprendre un peu plus mais les bases sont les mêmes depuis plusieurs années. Fais un beau site super intéressant et les gens t’aimeront et te linkeront… Voili voilou !

8) Les liens depuis un communiqué de presse

Voilà ce que j’ai pu lire :

Matt clarified that the links in the press releases themselves don’t count for PageRank value, but if a journalist reads the release and then writes about the site, any links in that news article will then count.

… J’ai rien compris ! Un lien dans un communiqué de presse ne sera pas pris en compte dans la valeur du Page Rank mais si un journaliste lit l’article et écrit quelque chose à partir de cet article, alors ça sera pris en compte. En clair, ça veut dire que si un journaliste exprime son avis sur un communiqué de presse en mettant un lien vers celui-ci, à ce moment là seulement le lien du communiqué de presse sera pris en compte dans le Page Rank du site cible ?

9) Un retweet ou un lien : le mieux ?

Si les tweet sont considérés comme « un signal » dans le ranking seo (merci Google pour la précision), un lien dans un tweet ne compte pas dans l’amélioration du Page rank final d’un site. En revanche, cela peut avoir une incidence sur la recherche en temps réel… La réponse est encore trop floue et je pense que quelques tests supplémentaires s’imposent avant d’assurer quoique ce soit.

De mon côté, je vous recommande d’utiliser un raccourcisseur d’URL qui fait des redirections 301 vers les vraies URL du site (histoire qu’une éventuelle performance puisse passer). Ensuite, si vous souhaitez vous servir de vos réseaux sociaux comme d’un tremplin de visibilité, rendez-le public.

10) Le spam report et la demande de réexamen

« Le spam report manuel (entré par l’utilisateur) a 4 fois plus de poids qu’un spam report automatique »… Bien et en même temps pas bien ! A moins que les concurrents aient un comportement d’adultes, Google risque de recevoir pas mal de spam reports absurdes après cette déclaration… Même si la plupart peuvent très bien concernés des sites évidemment catastrophiques.

Google promet d’être de plus en plus transparent dans tout ce qui touches aux violations des guidelines. Ca fait déjà 2 bonnes années que Google est de plus en plus clair sur ce qu’on a pas le droit de faire. J’ai pu suivre l’évolution du Google Webmaster Help et autant être honnête, il a bien changé durant ces 3 dernières années. Plus de détails, points bien organisés, c’est parfait pour faire un rappel ou annoncer à votre client par A+B qu’il ne faut pas faire certaines choses…

Concernant les pénalités infligées, si c’est fait au niveau de l’algorithme, vous n’avez pas d’autre choix que de corriger vos cochonneries et attendre. Si un ami vous a balancé via le spam report, vous pouvez faire une demande de réexamen. J’ai déjà vécu ce souci sur mon blog et 3 jours après la demande de réexamen, j’ai retrouve toutes mes positions organiques.

BlackMelon – Lancement de la beta

Blackmelon – C’est le nom d’un nouveau projet d’aide à l’achat de produits high tech que je lance avec mon ami Spamy. Après plusieurs mois de développement et de réflexions, Black-Melon sort la tête de l’eau pour s’afficher comme un site ayant pour objectif de vous aider à choisir rapidement et facilement vos produits technologiques.

Si nous vous proposons cette première version du site (appelons là v0.5), un petit historique s’impose sur Black-Melon.

A l’origine, j’avais imaginé le nom Black-Melon il y a près de 6 ans pour lancer un petit blog de musique électronique. Puis, au fil du temps et en parlant avec mes connaissances, amis et famille, j’ai fini par déboucher sur une problématique bien connue de tout enfant « geek » ou « technophile » : « comment faire pour aider facilement et rapidement ses amis, sa famille et les amis de sa famille à choisir leur matos technologique ? »

A ce jour, il existe énormément de sites comparatifs de matériel technologique, tous plus complets les uns que les autres. Sauf que nos familles et amis n’ont généralement pas le temps de :

  • S’intéresser en détail aux nouvelles technologies.
  • Lire les tests de produits.
  • Comparer  un produit aux autres de sa catégorie et donc prendre une décision sans se faire influencer par un vendeur de grandes surfaces qui ne vous proposera pas forcément ce qui se fait mieux dans le domaine.
  • D’aller regarder un par un les modèles dans un magasin spécialisé (Fnac ou autres…).

Nous avons donc travaillé sur cette problématique pour au final :

  • Proposer une solution simple pour tout internaute.
  • Limiter la perte de temps au minimum pour l’utilisateur.
  • Partager notre intérêt pour les nouvelles technologies…
  • … Et en faire profiter le public.
  • Proposer une solution facilement partageable (RSS, Facebook, Twitter…).
  • Aider le consommateur a trouvé la place la moins cher pour acheter son produit (à venir).
  • Eviter de lui faire perdre son temps dans la lecture de tests et comparatifs.
  • Faire vivre un projet issu d’un ressenti personnel.

Si nous sommes 2 à travailler sur le projet, je tiens à remercier Chloé qui s’est chargée de la réalisation du design du site.

Ainsi, cette première version du site, encore imparfaite, vous propose donc un choix de catégories de produits avec pour chacune d’elle un et un seul produit recommandé.

Selon le type de produit, nous avons choisi de proposer des appareils et gadgets que nous qualifions comme très fiables et répondant parfaitement aux besoins. La partie Lifestyle est peut-être un peu « too much » mais ça nous faisait plaisir de partager notre avis sur les produits de cette catégorie également :).

Nous avons hésité à sortir Lifestyle car elle touche à un domaine très personnel...

Bien sur, avec le temps, d’autres produits viendront remplacer ceux qui sont en ligne mais un historique des produits choisis est conservé. En effet, on considère que la plupart des utilisateurs auront envie de s’acheter un excellent produit d’occasion… De ce fait, pourquoi ne pas taper dans les anciens produits sélectionnés. Avec le temps, ils seront ainsi tous conservés dans une liste de résultats, là aussi, facilement accessible et lisible.

Quoiqu’il en soit, comme vous l’aurez compris, notre objectif principal est que les utilisateurs passent par le site pour trouver rapidement quel produit acheter pour tel catégorie. Pas d’inquiétude à avoir sur les produits sélectionnés, ils sont strictement affichés à partir de nos choix personnels :).

Ainsi, si vous même ou votre entourage cherchez un site référent pour savoir quel produit acheter dans tel catégorie sans passer des heures à comparer, lire, évaluer, nous espérons que vous leur recommanderez Black Melon. Le site étant encore en version beta, certaines fonctionnalités sont manquantes et arriveront prochainement.

On aurait pu choisir d’attendre d’avoir une version finale pour parler de ce projet mais il m’a semblé plus intéressant de vous le présenter, bloc par bloc. Nous sommes ouverts à toute remarque ou suggestion, n’hésitez pas à communiquer via le formulaire de contact dédié.

 

Trier vos mots-clés avec les expressions régulières sous Google Analytics

Je m’amuse bien souvent à filtrer les mots-clés organiques dans mon Google Analytics. De plus, mes collègues me demandent souvent de filtrer les mots-clés organiques selon différents critères. Vu que j’ai partagé avec eux les principales commandes de bases pour créer des expressions régulières, autant le partager avec vous aussi. 5 signes sont à retenir dans le filtrage des expressions organiques :

  • Le pipe |

Le pipe est le symbole que j’utilise le plus souvent dans mon étude de mots-clés organiques. Pour faire simple, il signifie « ou » dans le sens « où bien ». Par exemple, si je souhaite regarder le nombre de visites organiques qui ont été générées à partir des mots « referencement » ou « seo », je vais taper referencement|seo dans le filtre Google.

Seules les expressions qui contiennent "referencement" ou "seo" s'affichent...

  • L’accent circonflexe ^

L’accent circonflexe devant un mot indique à Analytics de rechercher et afficher toutes les expressions organiques qui commencent par ce « mot » ou « groupe de lettres ». Attention, les mots-clés qui contiennent l’expression inscrite mais qui ne démarrent pas par celle-ci ne s’afficheront pas. Prenons l’exemple avec « google »

Seuls les expressions commençant par google s'affichent dans mon rapport.

 

  • Le dollar $

Le signe du dollar, placé à la fin du mot-clé, a pour objectif d’afficher uniquement toutes les expressions qui se terminent par ce « groupe de caractères ». Ainsi, si j’entre par exemple bond$, voici ce que me retournera Google Analytics (notez bien que par exemple, taux de rebond google n’apparaît pas dans la liste).

Je peux voir uniquement les expressions se terminant par le groupe de caractères "bond".

 

  • Le plus +

Le signe + à la fin d’un groupe de caractères signifie que l’on peut afficher les mots-clés qui contiennent ce groupe de caractères, mais aussi les mots-clés qui contiennent le groupe de caractères avec la répétition du dernier caractère de celui-ci. Par exemple, si j’ai plusieurs articles qui parlent de la « wii », et que je veux avoir les mots-clés ayant engendrés des visites organiques, j’entrerai wi+, afin d’avoir les mots-clés qui contiennent « wi » et « wii ». Au final, j’utilise souvent le signe + notamment pour voir les mots-clés avec leur équivalent mal orthographiés.

Désolé, je n'avais pas de meilleur exemple... Notez le persso en haut de liste.

 

  • Le point d’interrogation ?

Le point d’interrogation, juste après un caractère, signifie que l’on peut afficher les mots-clés en ignorant les caractères précédents le point d’interrogation. Dans la pratique, je trouve çe très pratique par exemple pour voir les visites entrantes à partir de mots-clés sans espaces.

Pratique pour affiner les visites depuis une même expression par exemple...

Il s’agit là de la base des expressions régulières que vous pouvez utiliser dans Google Analytics. Bien sur, rien ne vous empêche de mixer toutes ces règles pour obtenir des informations bien spécifiques. Bien utilisé, les expressions régulières m’ont énormément aidé dans l’analyse de mes statistiques de visites organiques.

Par exemple, pour connaître le trafic généré par la long tail, une expression régulière peut répondre à votre besoin : ^(\W*\w+\b\W*){4,}$. Sans trop entrer dans les détails, entrer cette commande va m’afficher toutes les visites organiques entrantes engendrées par des expressions de 4 mots-clés ou +.

Si vous souhaitez vous mettre aux expression régulières, il y a un tutoriel que je recommande : Regular Expressions for Google Analytics de Lunametrics. Quoiqu’il en soit, rien qu’avec les bases, vous allez pouvoir affiner vos statistiques et segmenter plus facilement vos visites organiques.