Accueil > Blog > Duplicate content : définition, outils et solutions

Duplicate content : définition, outils et solutions

Création site web

Mis en ligne le 23/09/2015

Je suis souvent confronté à devoir expliquer à certains de mes contacts ou client, le concept et l'importance du duplicate content. Cette discussion arrive souvent lorsque l'on évoque la création des contenus à fournir par le client par exemple, ou lors de la refonte d'un site web. Ce billet est l'occasion de faire un point sur ce qu'il représente ou implique en proposant les manières de le déceler et de le guérir. Pour cet article, je vais faire une entorse à ma ligne de rédaction et serait, surtout en fin de billet, un peu moins pédagogue que d'habitudes. duplication de contenu

Définitions

La première chose à comprendre, c'est le terme en lui-même. Pour les non-anglophones, le duplicate content signifie "duplication de contenu". La règle à suivre est dictée par les moteurs de recherche via leurs algorithmes qui définiront la place à attribuer aux pages de votre site. Le principe est le suivant. Chaque page sur internet doit être constitué d'un contenu unique, accessible depuis une seule et même URL. Rien de bien compliqué à comprendre. Si l'une ou l'autre de ces règles n'est pas respecté, on peut parler de DC. Il me semble important d'ajouter qu'il va de soi qu'il sera considéré comme contenu en double, que ce soit le sur des pages internes de votre site ou sur un site extérieur.

Dans l'idée de contenu dupliqué, comprenez qu'un texte, mais aussi une portion de texte, entre en considération. Ajoutez à cela, qu'un rédactionnel modifié, pour essayer de faire croire qu'il est unique, de quelques mots ou en changeant quelques expressions ou tournures, ne suffit pas. Les moteurs de recherche, comme Google par exemple, peuvent détecter ces méthodes de triches et il sera probablement toujours considérés qu'il s'agit du même contenu. Dans le cas de ce que l'on nomme le content spinning ou autres méthodes de génération de textes à partir d'un contenu original, je vous le déconseille vivement. La maitrise de ces outils et techniques, souvent considérés blackhat, est un métier à part entière ! De plus, la dégradation de la qualité des textes est souvent présente. Concernant le contenu, on entend souvent que le contenu est roi, mais pas seulement. C'est le bon contenu qui est roi. Donc, ce que l'on retenir de cette première partie sur le DC, c'est un contenu unique par URL.

Maintenant que vous avez compris la définition du duplicate content et de ses différents cas de figure, il me paraît judicieux de le diviser en deux catégories.

La duplication externe

La première catégorie concerne ce que l'on peut considérer comme du plagiat ou du vol de propriété intellectuelle, mais pas seulement au sens juridique. Vous créer une page web et vous allez pomper le texte d'une page sur une autre. Que ce contenu provienne de votre domaine ou d'un autre site extérieur au vôtre est la même chose pour les moteurs de recherches.

Certains diront qu'il paraît logique de ne pas pomper le texte d'un autre. Détrompez-vous ! Pas pour tout le monde ! J'ai vu un cas de figure, ou un client devait me fournir des contenus pour son site. Le copier/coller sauvage qu'il m'a fait parvenir par mail était clair, pas besoin d'outils pour voir que cela provenait d'une page web, alors qu'il n'avait pas encore de site ! Mon premier réflexe a été de le contacter pour lui expliquer la problématique technique, mais aussi que juridiquement, il s'agit de vol !
Je vous donne cet exemple, car il me semble important, même pour un cas aussi évident que celui-ci, de souligner aux clients l'importance de la duplication contenu mais aussi la notion de propriété intellectuelle, et de ce que cela peut impliquer. Et ce n'est apparemment pas évident pour tout le monde !

Mais voyons un autre cas de figure de duplication externe, différent du précédent, que l'on retrouve souvent dans le e-commerce. Elaborer une fiche produit, avec une description unique est bien sûr conseillée. Pourtant, beaucoup de sites proposant des produits très populaires comme un Smartphone, par exemple, reprennent la description de la fiche fournisseur. Donc concrètement, l'auteur, qui est le fournisseur, se voit plagié son texte des dizaines, centaines ou milliers de fois par différent revendeur. Mais ce n'est pas du plagiat au sens juridique. Cela dessert les deux parties. Le revendeur n'a pas de contenus à écrire, et le fabricant de Smartphones offre la possibilité de mettre un produit en ligne à son client en un minimum de temps. Ceci est un exemple, mais beaucoup de descriptions produits sont identiques sur le web. C'est un classique ! Mais vous verrez plus bas que justement, dans ce cas, il existe des solutions.

La duplication technique

Pour cette deuxième catégorie, il s'agit d'un problématique essentiellement lié à l'environnement du projet web par lui-même. Elle est interne au site, ce que l'on nomme également Dust(Duplicate Url Same Text). Comme nous le verrons plus bas, certains cas de figure peuvent amener la duplication de page sur votre site.

Cela est souvent lié aux méthodes actuelles, qui implique que lors de la création d'un site internet, on utilise de plus en plus de méthodes qui permettent d'automatiser certaines tâches, pré mâché le travail ou d'en faciliter l'organisation. Je pense par exemple aux CMS, Framework ou autre méthodologie de production pour développer un site web. Par oubli ou manque de maîtrise, ces méthodes peuvent provoquer, entre autres, une mauvaise génération d'URL, dupliquer certaines balises...Etc. En général, involontaire, elle peut intervenir aussi à travers des structures web pour générer des pages et du contenu, pouvant être considéré comme de la triche pour essayer de tromper les moteurs de recherches, donc prudence...

Les conséquences du DC

Maintenant que vous avez saisi ce qu'est le duplicate et que l'on a eu les différents de figure ou l'on peut le définir, il est venu le temps de vous présenter ce qu'il engage.

Tout d'abord, ce que dit Google à propos des contenus en double :

Le contenu en double n'entraîne pas de conséquences négatives particulières pour votre site sauf si l'objectif semble être de tromper et de manipuler les résultats des moteurs de recherche. En cas de problèmes de contenu en double, et si vous ne suivez pas les recommandations indiquées ci-dessus, nous nous chargeons de choisir la version du contenu à afficher dans nos résultats de recherche.

Cependant, si nous estimons qu'il s'agit de pratiques trompeuses et retirons en conséquence votre site de nos résultats de recherche, réexaminez votre site avec soin. Si votre site a été retiré de nos résultats de recherche, consultez nos Consignes aux webmasters pour plus d'informations. Après avoir apporté les modifications nécessaires et vous être assuré que votre site respectait nos consignes, envoyez-nous une demande de réexamen.

Dans cet extrait, Google nous parle bien d'un cas où il s'agirait de duplication volontaire et comprenez qu'elle doit être massive. Donc clairement, voici une bonne raison de l'éviter. Se retrouver avec un site, quasiment absent des résultats de recherches ou bien des pages qui ne sont jamais proposées à l'internaute équivaut à ne pas exister sur le web ! Pas de positionnement, pas de trafic !

Mais contrairement à ce qui peut se dire, le contenu sémantique dupliqué n'est pas pénalisée ( a part quelques rare cas) comme Google l'a déjà annoncé dans cette vidéo.

Pas pénalisé, mais n'allons pas trop vite... Je m'explique.

Ce que l'on sait, si vous avez du contenu dupliqué, vous ne prenez pas le risque de voir votre site désindexé. Il faut savoir que notre ami Google avait avancé des chiffres, via Matt cutts, responsable de Google Webspam, de 25% à 30% de contenus dupliqués sur le web. Et tous ces contenus ne sont pas pénalisés, car non apparentés à du spam. En revanche, on sait aussi que deux pages ayant le même contenu, le moteur positionnera une de ces pages en priorité, qu'il juge plus pertinentes pour des raisons non dévoilées en détails, mais pas les deux... Donc pas de pénalités...Mais presque ! En tout cas, on peut l'interpréter comme telle. A savoir que sur cette page que je cite plus haut, c'est vous qui êtes plagié. Sachez que vous avez des recours ( juridique bien sûr, mais là n'est pas mon rôle), Google dispose d'outils dans ce genre de cas, disponible depuis leur centre d'aide de demande légale.

Techniquement, votre site contient des contenus dupliqués en interne. Dans ce cas bien précis, Google n'applique donc pas de pénalité, mais il va plutôt parler de filtrage. Mais ne pas parler de pénalités ne veut dire qu'il n'y a pas d'impact négatifs. Bien au contraire ! Par exemple, si vous avez des pages dupliquées avec un contenu intéressant et cité par d'autres pages issues d'autres domaines, les liens qui vont vers ce contenu seront dilués autant de fois que de pages identiques. Plus concrètement, si votre rédactionnel est disponible depuis trois URLs, et trois domaines avec un lien vers chacune de ces pages, vous diluez le linking de ce rédac. Son référencement sera impacté de manière négative, car si ses trois liens pointaient vers la même URL, ils donneraient plus de crédits, d'un point de vue SEO, à votre contenu !

D'autres raisons impactent négativement votre SEO avec un même contenu qui est accessible depuis plusieurs chemins, par exemple, Google peut ne pas indexer la bonne URL donc lésé l'expérience utilisateur ou bien vous allez faire crawler à Google plusieurs pages pour rien alors que l'on sait que l'on dispose d'un quota lors de ses passages et retardé peut-être d'autres contenus à crawler en priorité... Etc.

Pour synthétiser toutes ces explications, on peut retenir qu'avoir du duplicate content n'est pas pénalisé dans le sens strict du terme, sauf dans quelques cas, mais que l'impact est quand même négatif !

Les outils

Maintenant que nous en savons un peu plus, il va falloir examiner votre site pour examiner s'il contient des URLs qui proposent les mêmes blocs de texte ou intégralité d'un contenu. Pour cela, il faut comprendre où peut se loger ce problème pour pouvoir le résoudre et utiliser les bons outils pour les déceler de manière optimale.

Où détecter le duplicate ?

Dans un site web type, une page est découpée en plusieurs sections. On sait que les menus ou footer sont présents sur toutes les pages. Il existe des balises en html5 pour le spécifier aux moteurs. Donc les parties que je vais vous présenter, au nombre de quatre, sont les sections, ou blocs, au sein desquels les chaines de caractères devront être uniques. C'est donc là qu'il faudra chercher. Pour les trouver, voici, en allant du haut vers le bas, ces quatre contenus :

URL

Comme je l'ai déjà expliqué, c'est le chemin qui amène à la page qui présentera vos informations. Elle doit être singulière et renvoyer vers un contenu qui respecte les règles de l'unicité. Par exemple, l'URL de cette page : http://www.vg-com.fr/duplicate-content-outils-solutions

Balise Title

C'est un des critères on-site important. Cette balise doit être travaillée et réfléchie pour l'optimiser pour positionner votre page. C'est elle qui est présentée dans les résultats de recherches et qui va "accrocher" l'internaute. Présenté comme le titre de votre page par les l'affichage des résultats des SERPs, elle doit se composer du principal mots ou expressions clés recherchés. Si deux balises Title sont identiques, on est confronté au DC.

Balise Meta Description

N'influençant aucunement votre référencement, la balise Meta Description va comporter le résumé de ce que vous allez présenter. C'est elle qui en général accompagnera la balise Title dans l'affichage des résultats des moteurs. Elle devra susciter l'intérêt pour amener l'internaute à cliquer pour afficher l'information que vous présentez. Elle doit donc être bien rédigée en une ou deux phrases.

Contenu

On en a parlé tout le long de cette page, il est indispensable que ce qui représente votre corps de page, ne soit accessible depuis nulle part ailleurs que via une page/URL.

Les outils de détection du duplicate !

Il existe un grand nombre d'outils pour vous faciliter le travail. Il est bien entendu que l'on ne peut pas tous les présenter. Ceux que je vais citer sont soit sélectionnés parmi les plus populaires ou en raison d'une valeur ajouté qu'ils peuvent apporter, selon les résultats attendus...Etc.

Détecter la duplication externe

Copyscape

Un des outils les plus populaires et connus de presque tous. Il permet de détecter le contenu plagié ou ressemblant. Pour l'utiliser, rien de plus simple... Vous entrer dans le champ l'URL de la page que souhaitez, et vous cet utilitaire va chercher pour vous s'il existe un contenu ailleurs ressemblant au vôtre ! > Voir le site.

Check duplicate content de Positeo

Voilà un outil gratuit qui dans le principe est excellent. Soit vous entrez un texte à chercher, soit vous entrez un chemin web pour chercher les rédacs correspondant. Il vous affiche les résultats avec extrait en vous indiquant le pourcentage estimé de contenu dupliqué. Seul hic, Google et ses filtres anti parsing l'oblige à limité les requêtes via ses outils. > Voir le site.

Plagspotter

Un outil dans le même principe de Copyscape, vous entrez une URL, il cherche pour vous gratuitement. > Voir le site Mais il propose une autre solution, payante, qui demande de s'inscrire avec sept jours d'essai gratuit. Sur cette formule, vous pouvez entrer plusieurs URL ou un fichier sitemap, et il fait tout le boulot pour vérifier si vos contenus sont plagiés.

A savoir

Beaucoup d'autres outils existent, avec une simple requête sur Google, vous en trouverez bien d'autres... Les sites vous proposant de détecter le DC externe sont nombreux. Contrairement aux outils de duplications internes qui eux sont moins courant.

Détecter la duplication interne

Google Webmaster tools

Voilà un excellent outil que nous met à disposition Google. Il va vous permettre de détecter sur votre site les pages crawlées par Google et va nous afficher les balises Title et Meta Description qu'il détecte en double. Il vous indiquera aussi pour ces balises s'il les juge trop longues ou trop courtes. Pour y accéder, connectez sur votre compte webmaster tools, sélectionner une propriété, en l'occurrence celle qui correspond au site sur lequel vous souhaitez travailler. Ensuite, dans la colonne de gauche, cliquez sur "Apparences dans les résultats de recherche". Sélectionnez "Améliorations HTML". Maintenant, à vous de bosser !

Siteliner

Cet utilitaire va vous permettre de détecter si des problèmes internes de doublons sont présents sur votre site. Vous entrez votre url, dès la racine, il crawle l'ensemble de vos pages. Il génère un rapport et vous donne pas mal d'infos, entre autres vous indique également les liens brisés que contient votre site. Un outil à utiliser très utiles.

Outils de test de Jérôme Pasquelin

Voic un troisième outil, va vous permettre de détecter si vous avez des problèmes de Dust. L'idée est d'entrer une url correspondant à un répertoire racine, et l'outil va tester l'index avec différentes terminaison et vous affichez les réponses http. Un outil qui complète les outils précédemment cités.

Solutions

Les outils cités précédemment vont vous permettre de détecter le duplicate content à l'extérieur comme à l'intérieur de votre site. Les solutions concernant le DC sur d'autres domaines sont limitées. La première chose, écrivait toujours vos contenus pour qu'ils soient unique. Si un de vos contenus se retrouvent sur un domaine étranger au vôtre, vous avez deux solutions pour agir. La première méthode est de contacter le webmaster su site pour tout simplement lui demander de retirer les fameux contenus. Ensuite, comme je le cite plus haut, Google propose un outil à travers son centre d'aide de demande légale.

Les cas les plus courants de duplication interne.

Nous arrivons enfin à la partie ultime de cet article. Comment soigner tous les points cités et détectés. Voici donc une liste des cas les plus fréquents (elle n'est donc pas exhaustive) de duplicate interne.

Index avec et sans www

si votre site est accessible depuis votre nom de domaine avec ou sans www, la solution à mettre en place est simple : le fichier .htaccess est votre ami. Si vous souhaitez qu'il soit accessible uniquement avec les www, voici le code que vous pouvez ajouter à votre fichier :
RewriteEngine On
RewriteCond %{HTTP_HOST} !^www.
RewriteRule ^(.*)$ http://www.%{HTTP_HOST}/$1 [R=301,L]


Si vous souhaitez sans les www :
RewriteEngine On
RewriteCond %{HTTP_HOST} ^www.(.)$
RewriteRule ^(.)$ http://%1/$1 [R=301,L]

Avoir plusieurs url pour sa page d'accueil

C 'est un cas classique. Votre site est accessible depuis http://www.votresite.fr/ et http://www.votresite.fr/index.html. L'idée est toujours de passer par votre fichier .htacess. Ajouter ce code, en l'adaptant, à votre fichier :
RewriteCond %{REQUEST_URI} index.php
RewriteRule .* http://www.xyz.com [R=301,L]

Balise Meta description et balise Title

Nous avons vu comment le détecter grâce à Google webmaster tools un peu plus haut. Pour cela, pas de secret pour le solutionner. Il faut, pour chaque page rédiger ces deux balises différentes pour chaque page. Pour optimiser la taille, bien qu'il y ait plusieurs paramètres selon certains cas à prendre en compte, essayer de composer une title d'environ 55 caractères et la balise Meta Description, pour faire simple, optimiser à environ 150 caractères. Je souligne que ces deux chiffres sont "généralistes" et sont un simple indice pour ceux qui souhaiterait un chiffre passe-partout et ne pas se tromper. Cette question mériterait un billet complet pour expliquer en détails de leur fonctionnement. Bientôt peut-être...

Http/https

Google met la pression pour passer les sites en https... Il nous indique que c'est un critère SEO positif supplémentaire, mais cela reste léger en terme de référencement et ce n'est pas gratuit, loin de là ! Donc si vous migrez vers le protocole https, soyez vigilant, redirigez absolument toutes vos URL. Par exemple, avec .htaccess :
RewriteEngine on
RewriteCond %{HTTPS} !=on
RewriteRule .* https://%{HTTP_HOST}%{REQUEST_URI} [R=301,L]

Problème de réécriture d'URL

Pour parler d'URL rewriting, si vous vous décidez de le mettre en place cette méthode pour avoir des chemins propres et lisibles, pensez à rediriger vos anciens formats vers le nouveau à l'aide des redirections 301.

La version imprimable

On peut voir certains cas ou la version imprimable d'une page est générée en passant un paramètre supplémentaire dans l'URL. La solution la plus simple pour générer une version imprimable d'une page est d'utiliser le CSS. Cela vous évitera de devoir créer un nouveau chemin pour imprimer.

Version PDF

si vous proposez une version PDF de vos pages, pensez à ne pas les faire indexer. Google crawlerait deux fois les mêmes contenus ! Vous pouvez tout simplement utiliser la balise. Pour Google bot, vous pouvez utiliser plus précisément.

Le cas des contenus paginé

le contexte est que pour un même contenu, on va présenter sous plusieurs pages un même sujet. Par exemple, on pourrait paginer sur un forum, un nombre de commentaires important. L'erreur se trouve dan la façon dont on va lier les différentes URL générés par la pagination. Avant de vous montrer un exemple, sachez que Google reconnaît les formats d'URL avec ou sans réécriture, donc, vérifiez bien que vous respectez cette règle au sein de votre URL rewriting. Imaginons que votre l'adresse de votre sujet est : www.votredomaine/votresujet.php?s=1. Dans le cas d'une pagination, le chemin va prendre un nouveau paramètre. Pour la page 2 par exemple : www.votredomaine/votresujet.php?s=1&p=2. Jusque-là, pas de souci. Là où vous devez agir, c'est que toutes les paginations devront bien pointer vers www.votredomaine/votresujet.php?s=1 sans le paramètres supplémentaires, c'est-à-dire ne pas indiquer www.votredomaine/votresujet.php?s=1&p=1.

Plusieurs NDD pour un site

j'ai vu un cas client ou le site était accessible depuis un .fr et un .com... Autant vous dire que là, tout est en double. Alors si vous achetez plusieurs domaines, pensez à faire faire une redirection 301 vers le domaine principal.

Fiche produit et description fournisseur

Pour les sites présentant des produits en reprenant le contenu fourni par le fournisseur, la meilleure solution : demander à Google de ne pas l'indexer. Dans le cas d'un catalogue d'un client, où le client faisait saisir par une de ces collaboratrices des produits, j'ai dû présenter ce cas et lui expliquer que l'idéal est de réécrire la description produit. Là, un problème s'est posé pour lui : le temps et le coût de rédaction. Ce que je peux comprendre. Des efforts ont été tout de même faits sur ce sujet, mais après quelques fiches produits en lignes, je me suis aperçu d'un autre souci. Il réécrivait naturellement ses présentations de produits, par contre, sur deux produits ressemblants, il créait deux fiches en reprenant le contenu précédant qu'il modifiait que sur les quelques mots ou expressions. Je tiens à rappeler que l'on est toujours confronté dans ce cas à du duplicate. Donc soit vous rédigez entièrement, ou soit, comme dans le cas des versions PDF, demander aux robots de ne pas indexer les contenus dupliqués.

Ordre des paramètres dans l'URL

dans le cas d'URL à rallonge avec plusieurs paramètres, pensez absolument à toujours passer ces derniers toujours dans le même ordre ! Ce problème se règle en général lorsque la réécriture d'URL est mise en place puisque l'on crée une fonction qui formate l'URL ce qui implique qu'elles ont toujours le même format. Mais dans le cas contraire, pensez-y.

Les catégories dans les chemins

c'est un cas classique en e-commerce ou les systèmes de blogging. Vous attribuez une catégorie à un contenu, et vous indiquez dans l'URL cette catégorie. A savoir que si le contenu correspond à plusieurs catégories, alors la page sera dupliquée, car votre contenu sera repris sous plusieurs URLs. Souvent, cette erreur est provoquée par le désir d'indiquer un maximum de mots-clés dans l'URL, ce qui n'est pas forcément vrai.

URL canoniques

Je n'en ai pas parlé dans les solutions, mais n'oubliez pas les URL canoniques. Elle permet dans le cas de contenu dupliqué, de préciser aux moteurs de recherches la version de la page à proposer dans ses résultats de recherches. C'est une alternative à la redirection 301.

Pour conclure sur le duplicate

Avec cet article, J'espère que j'aurais apporté quelques éléments de réponses à certains. Comme je l'ai expliqué dans mon intro, cet article est un peu plus techniques que ce que je fais d'habitude, donc pour les moins avertis, j'en aurais peut-être perdus quelques-uns. Vu le sujet choisi, et j'avais vraiment envie d'en parler, car c'est un problème récurrent, je n'avais pas d'autres choix que d'entrer dans des termes plus ou moins techniques. Passons pour le manque de pédagogie de ce billet.

Toutefois, pour toute question, n'hésitez pas à me contacter ou me joindre par téléphone pour un audit pour savoir si votre site est assujetti au duplicate content.

Si cet article vous a plu, partagez le

A propos de l'auteur

Passionné par le web et le référencement, Vincent Grenon travaille en Freelance pour un clientèle en majorité basé en Charente-Maritime, en France et quelques clients situés à l'étranger. Il met en place pour les entreprises des solutions de communication web à travers le développement de sites et de leur référencement.

Laisser un commentaire




Couvreur 91 le 01/02/2016

Merci pour cet éclaircissement


Couvreur 91 le 01/02/2016

Je test la methode Merci pour le petit article sur le duplicate.


Couvreur 91 le 01/02/2016

Merci pour l'éclaircissement


Jerome le 04/02/2016

Hello,
Je viens de voir la reference à mon site : juste pour te remercier, c'est sympa
il est très bien ton billet, belle synthèse