Contenu dupliqué : définition et impact pour le SEO
Internet est riche parce que les contenus disponibles sont uniques. C'est du moins ce que veulent les moteurs de recherche, et ils perfectionnent les techniques pour chasser le duplicate content.
Qu'est-ce que le contenu dupliqué sur le Web ?
Le contenu dupliqué ou duplicate content en anglais, désigne dans l'univers du Web le fait de retrouver un contenu similaire, voire identique, sur des URLs distinctes. Il définit, de façon plus simple, une forme de copier/coller d'un site Web à un autre, ou d'une page Internet à une autre. Il peut alors s'agir d'un simple paragraphe repris sur plusieurs pages Web ou d'une page entièrement dupliquée.
Aux yeux des moteurs de recherche, le contenu dupliqué pose des problèmes d'indexation. Bien souvent, le contenu dupliqué est le fruit d'erreurs humaines ou techniques, mais il peut être volontaire, ce qui pose des problèmes juridiques, en plus d'être contre-indiqué pour le référencement naturel. Le repérer et le corriger fait partie des priorités lors d'un audit SEO.
Quels sont les deux types de contenu dupliqué ?
Bien que les moteurs de recherche désapprouvent catégoriquement tout type de contenu dupliqué, on peut dissocier deux situations bien définies, avec des conséquences SEO différentes :
- Le duplicate content sur un même site : ce n'est pas le plus grave aux yeux des moteurs de recherche, mais il reste préjudiciable, surtout s'il est fréquent. Il peut s'agir d'une erreur humaine ou technique lorsqu'un CMS permet de publier deux pages avec des URLs différentes mais un contenu identique, par exemples entre la version desktop et mobile d'un site. La refonte de l'arborescence du site est également un moment risqué, car les nouvelles URLs peuvent entrer en compétition avec les anciennes. Il faut être prudent et installer des balises "rel=cannonical" ou des redirections pour indiquer aux robots de crawl quel contenu indexer. Enfin, les e-commerçants sont souvent sujets au contenu dupliqué sur les fiches produits. Photos ou descriptions peuvent être identiques d'un produit à l'autre, ou au fil de la gestion des stocks.
- Le duplicate content sur des sites extérieurs : plus problématique en termes de SEO. L'origine peut être accidentelle, si deux sites ont réalisé des fiches de description de produit trop proches, ou bien si le même fournisseur de contenu envoie des textes similaires à deux sites, parce qu'ils traitent du même sujet. Dans ce cas, assez fréquent, ce sont des extraits de contenus qui se répètent entre les sites que le publient. Il peut s'agir aussi d'une erreur technique lorsque des flux RSS, agrégés au format XML sont redistribués sur d'autres sites Internet. Mais le cas le plus grave est celui du plagiat, c'est-à-dire de la copie volontaire d'un contenu déjà existant et dont on n'est pas propriétaire. Les moteurs de recherche traquent et punissent prioritairement ce type de contenu dupliqué, la difficulté étant, pour eux, de trouver le site propriétaire, et donc légitime, pour pénaliser l'autre.
Quels sont les risques du contenu dupliqué pour le SEO ?
Le contenu dupliqué peut avoir des conséquences négatives à deux niveaux :
- Moteur de recherche et expérience utilisateur : un moteur de recherche a pour objectif de répondre aux requêtes des internautes. Chaque contenu, unique, est indexé pour correspondre à une intention de recherche bien précise. Lorsqu'il trouve deux contenus identiques, le moteur ne sait plus lequel présenter à l'internaute. En plus de compliquer son travail, et lui coûter plus cher en ressources, le contenu dupliqué risque de détériorer l'expérience des utilisateurs.
- Le référencement naturel des sites Internet : le moteur de recherche américain est en effet capable de déceler les contenus dupliqués de plus en plus précisément. Lorsqu'il détecte un contenu dupliqué, le moteur de recherche tente de déterminer quel est le site copieur pour reléguer son contenu plus profondément dans les résultats de recherche. Les pages contenant des extraits dupliqués risquent de se retrouver beaucoup plus loin dans les SERPs et donc de perdre beaucoup de trafic. Dans les cas les plus graves, c'est l'ensemble du site qui peut être pénalisé et disparaître purement et simplement des résultats. Autrement dit, le site n'est plus indexé. Bien que rares, ce type de pénalité continue à menacer les sites peu vertueux, obligeant les référenceurs à rester vigilants.
Qu'est-ce que la mise à jour Panda de Google a changé sur le contenu dupliqué ?
Entre février et juin 2011, Google a déployé sur les sites Internet du monde entier un filtre évaluant la qualité générale du contenu sur le site. Cette mise à jour a beaucoup nui au référencement des agrégateurs de contenu, annuaires, comparatifs et autres gros consommateurs de contenu dupliqué. Le précédent filtre "duplicate content" comparait les contenus phrase par phrase, se laissant facilement tromper par quelques modifications. Ce n'est plus le cas de Panda. Le site analyse et éventuellement rétrograde l'ensemble du site, même si certaines pages sont uniques et de meilleure qualité.
Comment éviter le contenu dupliqué sur son site ?
S'assurer régulièrement de l'absence de contenu dupliqué au sein d'un site et sur web est une bonne habitude à prendre. Voici quelques actions pour éviter l'accumulation de duplicate content sur son propre site :
- examiner régulièrement ses pages pour détecter d'éventuelles erreurs humaines ou commises par le CMS lui-même
- consulter le rapport d'erreurs de Google Search Console dans l'onglet "couverture" de l'outil
- lors d'une restructuration de l'arborescence du site, installer des redirections 301 (permanentes) pour indiquer aux robots de crawl quelle page doit être indexée
- si deux pages de contenu similaire ou identiques doivent rester visibles sur le site, installer une balise rel=cannonical pour indiquer au robot quelle page indexer.
Pour éviter le contenu dupliqué de son site vers d'autres sites, quelques bonnes pratiques peuvent également être utiles :
- se montrer pointilleux lors de l'achat de contenu à un prestataire. Le contrat doit spécifier clairement que le contenu créé pour son site ne sera en aucun cas utilisé pour d'autres sites et qu'il est original au moment de la vente.
- vérifier régulièrement sur le web que son contenu n'a pas été plagié. Pour ce faire, une recherche sur un moteur de recherche comme Google suffit. Il faut mettre dans la barre de recherche un extrait de son contenu entre guillemets et observer ce qui apparaît dans la SERP.
Traduction du mot Duplicate content en français
- Contenu dupliqué
- Un contenu dupliqué se résume à la reproduction sur un site Web, de façon partielle ou totale, d'un contenu déjà présent sur un autre site Web.
- A duplicate content amounts to the partial or total reproduction on a website of contents already present on another website.