Comment Google détecte le Contenu Dupliqué ?

Ce matin, Google, et plus précisément John Mueller, Martin Splitt, Gary Illyes et aussi Lizzi Harvey (rédactrice de Google) ont mis en ligne un nouveau podcast informatif sur le fonctionnement des traitements de positionnement des pages. Gary Illyes nous a expliqué de façon assez précise sur comment Google traite la détection de contenu ? De la détection de ces doublons et de la canonisation.

Des explications utiles pour les contenus dupliqués

Pour faire simple : Google lance une somme contrôle pour toutes les pages et les réduits en empreinte digitale unique, basée sur le contenu de la page. Ainsi, si deux pages ont la même empreinte numérique, Google peut dire quelles pages font doublons dans un même site et si elles identique ou similaire à un contenu d’un autre site.
La somme de contrôle est une donnée dans un format de taille réduite dérivée de données numériques qui permette au final de détecter les erreurs lors de son stockage. Cela ne permet malheureusement pas de confirmer la véracité des propos.

La détection du duplicate content et la canonisation sont des choses fondamentalement différente. La détection c’est le système de somme de contrôle, d’empreinte numérique et le regroupement des “pages similaire” alors que la canonisation est le processus permettant de trouver la page qui sera indexé devant les autres.

Pour la détection du duplicate (dupe), les moteurs de recherches d’essayent de repérer au mieux les fraudes, et ce n’est pas si simple. Réduire le contenu en un seul hachage ou même en une somme de contrôle beaucoup moins lourde, puis les regrouper et les différencier en comparant les sommes de contrôle est le mieux qu’ils puissent faire. Et c’est beaucoup plus facile de faire cela que de comparer manuellement ou en intelligence artificielle peut-être 3 000 mots, ce qui est le minimum pour être positionné dans n’importe quel moteur de recherche d’après Gary.
Google réduit tout un article en une somme de contrôle « parce que ne voulons pas scanner tout le texte, parce que cela n’a pas de sens »… Plus de ressource utilisé, plus long et tout aussi efficace qu’un hachage, scanné un texte entier n’est donc pas rentable.

Grâce à beaucoup d’algorithmes, Google élimine tous les doublons récurrents qui ne s’apparente au final pas à du duplicate content.

Problème fraude de contenu

Calcul de page canonique

Pourquoi définir un contenu canonique ? Parce qu’en tant qu’utilisateurs nous n’aimons pas tombé sur un contenu identique ou similaire plusieurs fois d’affilée sur des pages et des sites différents

Quelle page mènera le groupe de duplicate ? Ce n’est en fait pas si facile, car même pour des humains définir la page qui répond au mieux aux besoins des utilisateurs demande des recherches et une décision pour le plus souvent pas facile.

Google utilise donc plus de 20 « signaux » pour décider quelle page doit être choisie comme canonique dans un groupe de fraude.

Les signaux sont assez simples à comprendre et prendre en compte car ce sont ceux essentiel pour avoir au minimum un score SEO moyen.
Bien évidemment vous avez le contenu, mais le classement des pages peut aussi être pris en compte, par exemple, la page ayant un meilleur classement en termes de performance et de respect des règles aura plus de chance d’être la page la mieux classer dans tout le groupe de fraude.

Dans un même site il pourrait s’agir, de savoir quelle page se trouve sur une URL HTTPS, se trouve dans le site map ou dans le robot.txt. Savoir si une page à un bon jus, si le maillage interne n’est pas trop forcé, et surtout s’il possède des Backlinks.

Ne pas Dupé google

Différents signaux pour du duplicate content

Après la détection des dupes, Google fait la partie canonique. Comme mentionné juste au dessus, Google prend toutes les URL ayant une empreinte ou une somme dupliquées et décide laquelle être affichée dans la recherche c’est la canonisation.
Les signaux comprennent :

  • Contenu
  • PageRank
  • HTTPS
  • La page est-elle dans le fichier sitemap
  • Un backlinks
  • rel canonique

Ils ne touchent pas à ces signaux manuellement, Gary précise qu’ils utilisent le machine learning. Pourquoi ne pas attribuer la puissance et le classement de ses pages manuellement ? Car cela peut poser des problèmes s’ils se contentent d’attribuer une valeur au contenu des personnes. Le poids, la valeur de chaque signaux est trop dur à ajuster manuellement, l’avis n’est pas le même dire tous et surtout un GIF à un poids différent pour une image seconde en moins. C’est trop dur a ajusté manuellement. Cela donne donc l’occasion d’obtenir de s’offrir et de s’approprier un système rapide et artificiel de plus en plus fiable, et un algorithme continuellement renforcé.

En résumé

  • Calcul d’une d’empreinte numérique spécifique de la feuille représentative de son contenu. Ainsi, dans l’hypothèse où deux pages ont une empreinte numérique proche, ce sera un signe de textes identique ou bien similaire. Ce n’est pas le texte ni le contenu qui est comparés, de façon directe, mais les empreintes obtenues à partir de celui-ci.
  • Les pages à contenus identiques ou bien proche détectées, sont classé par groupe.
  • Dans ce groupe, le contenu qui aura la visibilité est alors identifier.
  • Utilisation d’un algorithme utilisant une vingtaine de critères :
    1. Corp du contenu,
    2. Rang de la page,
    3. HTTPS,
    4. Sitemap XML possèdant
    5. l’URL,
    6. Une redirection …

Le tout est managé par un algorithme de machine learning qui améliore à chaque fois son système de classement.

Demandez un devis gratuit