Duplicate content : le détecter et supprimer

Est-ce que votre site souffre de duplicate content (ou contenu dupliqué) ?

Cet article vous explique comment détecter et remédier au problème du duplicate content.

Le duplicate content est vraiment néfaste au bon référencement de votre site. Si vous avez du duplicate content dans votre site, Google ne sait pas quelle page prendre en compte.

Tout d’abord, qu’est-ce que le duplicate content ?

Tout contenu dupliqué ou identique à un autre autre site, ou bien son même site

Exemples:

  • Le contenu de votre blog est clairement copié par un autre site (phrases identiques)
  • Si votre page d’accueil a plusieurs URLs qui redirige vers le meme contenu. Par exemple : http://votresite.com, http://www.votresite.com et http://www.votresite.com/index.htm.
  • Les pages qui sont dupliquées en prenant en compte une variable de session en paramètre dans l’URL. Par exemple :  http://votresite.com/product et http://votresite.com/product?sessionid=5486481.
  • Les pages qui sont dupliquées en prenant en compte une variable dans l’URL. Par exemple :  le fait de trier une page selon la date, la couleur, la pagination, des codes de tracking … peut produire du duplicate content. Par exemple : http://votresite.com/category et http://votresite.com/category?=sort=medium ou http://votresite.com/page1. A noter que si vous avez un site eCommerce, et que par exemple, vous vendez un pull en bleu, rouge, noir,.. il arrive souvent que le CMS utilisé crée une nouvelle page pour chaque couleur, et donc cela crée un contenu dupliqué.
  • Page avec le http ET https (fonction des pages)

Qu’est ce qui n’est pas du duplicate content (ou contenu dupliqué)

Par exemple :

  • Des citations : vous pouvez copier le contenu d’un autre site si vous l’insérez entre guillemets, ainsi qu’un lien vers la source
  • Des infographies intégrées dans l’article (via embed codes)

Il est plusieurs moyens d’être affecté par Google à cause du duplicate content :

  • Le contenu original est déclassé dans les résultats de recherche: Si certains de votre contenu ont été utilisé par d’autres sites, il n’est pas sur que votre propre contenu sera retourné en premier dans les premiers résultats. En l’occurrence, si un autre site vous a « volé » votre contenu, et a meilleur PageRank, de meilleurs backlinks, ou une meilleure influence générale, son contenu (qui n’est en fait que le votre) ressortira en premier dans les résultats Google
  • Perte de temps d’indexation par les bots.  Pendant l’indexation de votre site, les robots crawlers des moteurs de recherches traitent chaque page comme unique, et associe le contenu à chaque page. Si vous avez du contenu dupliqué à cause des mauvaises URL (avec id de session, ou d’autres paramétres), le robot va perdre du temps à indexer car il devra répéter l’indexation avec plusieurs pages alors que c’est le même contenu. A propos des robots crawler, je vous invite fortement à installer le plugin Bots Crawlers Analytics pour savoir si les robots arrivent bien sur votre site et trackent toutes les pages.
  • Perte de traffic :  C’est évident que si le concurrent qui vous a « volé » votre contenu apparait en premier dans les résultats Google, vous perdrez du trafic vers votre propre site

Comment détecter du duplicate content dans votre site ?

Le moyen le plus simple est de copier votre contenu dans Google, et voir le résultat. Vous pourrez ainsi trouver les autres sites qui ont peut-etre dupliqué votre contenu. Ceci étant, il y a d’autres moyens (plus rapides).

Voici 3 moyens pour détecter du duplicate content dans votre site :

1) Google Webmaster tools

Vous pouvez trouver facilement le contenu dupliqué avec l’outil gratuit Google Webmaster Tools (sous  Optimization > HTML Improvements)

detecter-contenu-dupliqué-Google-Webmaster-Tools

2) Outil externe

Vous pouvez utiliser l’excellent outil gratuit fourni par Copyscape pour trouver le contenu dupliqué dans votre site. C’est un outil gratuit disponible sur Max et PC

3) L’opérateur de recherche Google « Site: »

Allez sur google, et entrez dans la barre de recherche : site:www.votresite.com [une partie de votre contenu copié]

Si vous voyez dans la page des résultats Google un message d’alerte disant que certains résultats similaires n’ont pas été affichés, c’est une indication que votre contenu est présent dans un autre site, voire même dans votre propre site

contenu-duplique-alerte-google

Si vous souhaitez rechercher un mot en particulier, rajouter  intitle: »VOTRE_MOT »  : site:votresite.com intitle: »VOTRE_MOT »

Votre contenu est dupliqué, comment y remédier ?

Supprimer le duplicate content / contenu dupliqué

Supprimer le contenu dupliqué est possible, mais demande beaucoup d’effort. Si votre contenu a été « volé » par d’autres sites, vous devrez envoyer un mail poli à chaque auteur pour lui demander de supprimer votre contenu. Ou à défaut, de rajouter un lien vers votre contenu original. Aussi, vous pouvez poster en commentaire qu’ils peuvent trouver l’article original vers votre page (et insérer le lien vers votre page).

Si votre site lui-même est affecté par le duplicate content, voici quelques solutions :

1. Rel= »canonical »

Si vous avez plusieurs pages (et donc des URLs différentes) avec le même contenu, choisissez l’URL que vous préférez afficher dans les résultats de Google. Ce sera votre URL dit canonique.  Dans toutes les autres pages, dans la section <head></head>, vous devez ajouter la balise  rel=“canonical”.

Par exemple : vous souhaitez que la page A soit indexé, et le contenu dupliqué se trouve en page B, vous devez ajouter dans la page B, entre les balises <head></head>

<link href=“URL de la page A” rel=“canonical”/>

Ainsi, les robots crawlers vont comprendre le message et n’affiché que la page A dans les résultats

2. Redirections 301

Vous pouvez utiliser la redirection 301 de vos pages dupliquées.

Ajouter dans vos pages dupliqués le tag  rel= »canonical » laissent les pages visibles pour vos utilisateurs. Tandis qu’une redirection 301 redirige complétement la page vers votre page A que vous souhaitez indexer.
Utilisez cette solution pour rediriger vos pages de www vers non-www (ou vice-versa). A noter que la redirection 301 est permanente, alors réfléchissez bien avant de le faire

3. Meta Robots Tag

Un peu similaire que la solution 1 en ajoutant la base rel, vous pouvez ajouter la balises suivantes dan les pages qui ont du contenu dupliqué et que vous ne souhaitez pas indexer

<meta name= »robots » content= »noindex »>

La encore, les robots vont comprendre le message et ne pas indexer cette page.

4. Google Webmaster Tools

Vous pouvez configurer votre urls avec des paramètres dans Google Webmaster Tools

Commencez par configurer votre URL principale (sous Configuration> Sitelink> Preferred Domain)

Puis, aller à la page Configuration > URL Parameters pour configurer vos urls avec paramètres.

Attention, n’utilisez cette solution que si vous la maitrisez car cela peut faire l’effet inverse et désindexer beaucoup de vos pages si c’est mal configuré.

5. Cas de la pagination

Si vous avez un site qui utilise le système de pagination pour naviguer entre vos pages (ou commentaires), utilisez les attributs rel= »next » et  rel= »prev »  pour indiquer ces pages aux moteurs de recherche.

Pour en savoir plus, lisez cet article sur le blog Google Webmaster concernant la pagination avec rel= »next » et rel= »prev ».

 

A noter : si vous avez utilisez l’une des solutions décrites précédemment, pensez à mettre à jour votre Sitemap XML (en supprimant les URLs dupliqués), et soumettez ce nouveau sitemap sur Google Webmaster Tools.

Pour créer un Sitemap XML facilement, utilisez cet excellent outil : A1 Sitemap Generator 5