• Mises à jour de Google Search & SEO Insights

Décortiquer la fuite massive de documentation de Google sur la recherche

  • Felix Rose-Collins
  • 9 min read
Décortiquer la fuite massive de documentation de Google sur la recherche

Intro

Une fuite massive de documents internes sur le classement de Google Search a provoqué une onde de choc dans la communauté des spécialistes du référencement. Cette fuite, qui a révélé plus de 14 000 caractéristiques de classement potentielles, offre un aperçu sans précédent du système de classement des recherches de Google, qui est très bien gardé.

L'histoire derrière la fuite

Erfan Azimi a partagé une fuite de documents de l'API de Google avec Rand Fishkin de SparkToro, qui a ensuite fait appel à Michael King d'iPullRank pour l'aider à diffuser l'information. Les fichiers divulgués, qui proviennent d'un document de Google API intitulé "yoshi-code-bot /elixer-google-api", ne sont pas le résultat d'un piratage ou d'un dénonciateur, mais plutôt d'une publication de document interne.

Vue d'ensemble de la fuite

Cette fuite offre une vue d'ensemble des facteurs de classement de Google, révélant des informations sur les variations du PageRank, les mesures d'autorité des sites et bien d'autres choses encore. Voici une analyse détaillée :

Principaux enseignements de la fuite de documents de recherche Google

PageRank et ses variations

  • PageRank_NS : Désormais obsolète, cet algorithme est associé à la compréhension des documents et modifie le PageRank traditionnel pour se concentrer sur un sous-ensemble localisé du réseau autour des nœuds de départ.

  • Sept types de PageRank : Google mentionne sept types de PageRank différents, dont le fameux ToolBarPageRank. Ces variations indiquent que Google utilise plusieurs méthodes pour évaluer l'importance des pages.

Identification du modèle d'entreprise

L'algorithme de Google peut identifier différents modèles commerciaux, notamment les sites d'information, les sites YMYL (Your Money or Your Life), les blogs personnels, les sites de commerce électronique et les sites vidéo. La raison du filtrage spécifique des blogs personnels n'est pas claire et soulève des questions sur les intentions plus générales de Google.

Composants de l'algorithme

  • NavBoost : Mécanisme de reclassement basé sur le comportement de l'utilisateur et les journaux de clics, fortement influencé par les données de Chrome.

  • NSR (Normalized Site Rank) : Utilisé pour calculer le classement des sites au niveau de l'hôte.

  • ChardScores : Scores au niveau du site prédisant la qualité du site/de la page en fonction du contenu.

Mesures de l'autorité du site

Google utilise une mesure de l'autorité du site et plusieurs signaux, dont le trafic des navigateurs Chrome, pour évaluer l'autorité du site. Cela suggère que la qualité et la crédibilité globales du site jouent un rôle important dans le classement.

Techniques d'intégration et autorité thématique

  • Intégration de pages et de sites : Google utilise les intégrations de pages, les intégrations de sites, l'orientation du site et le rayon du site dans sa fonction d'évaluation pour comprendre la pertinence thématique et la cohérence du contenu d'un site web.

  • Frontières et autorité des sujets : Des mesures telles que siteFocusScore, siteRadius, siteEmbeddings et pageEmbeddings sont utilisées pour mesurer l'autorité thématique, ce qui souligne l'importance de maintenir une orientation thématique claire.

googleapi

Données sur les clics et engagement des utilisateurs

  • NavBoost : NavBoost s'appuie sur les données relatives aux clics et au comportement des utilisateurs pour reclasser les résultats de recherche, soulignant ainsi l'importance des mesures d'engagement des utilisateurs.

  • Mesures des clics : Google mesure différents types de clics, notamment les mauvais clics, les bons clics, les derniers clics les plus longs et les impressions sur l'ensemble du site.

Données de qualité sur les RSN

Les facteurs clés de notation du document de données NSR sont les suivants :

  • titlematchScore : Score de correspondance des titres à l'échelle du site, indiquant dans quelle mesure les titres correspondent aux requêtes des utilisateurs.

  • site2vecEmbedding : Un vecteur à l'échelle du site similaire à word2vec, soulignant l'importance de l'intégration complète du site.

  • pnavClicks : Probablement lié aux informations de navigation dérivées des données de clics de l'utilisateur.

  • chromeInTotal : Affichage de Chrome à l'échelle du site, soulignant l'importance des signaux à l'échelle du site.

  • chardVariance et chardScoreVariance : Scores prédisant la qualité du site/de la page en fonction du contenu, la cohérence étant essentielle.

NSR Data Insights

Conseils pratiques pour les professionnels de l'optimisation des ressources (SEO)

  1. Investissez dans un site bien conçu : Veillez à ce que votre site ait une architecture intuitive afin de l'optimiser pour NavBoost, qui s'appuie sur le comportement des utilisateurs et les journaux de clics pour reclasser les résultats de recherche.

  2. Supprimer/bloquer les pages non pertinentes d'un point de vue topique : Supprimez ou bloquez les pages qui ne sont pas pertinentes d'un point de vue thématique. Définissez votre thème cible et assurez-vous que chaque page obtient de bons résultats dans ce domaine.

  3. Optimiser les titres et le contenu : Optimisez les titres en fonction des requêtes et veillez à ce que les paragraphes répondent clairement à ces requêtes afin d'améliorer l'intégration et la pertinence des pages.

  4. Se concentrer sur les clics et les impressions : Rédigez un contenu qui attire plus d'impressions et de clics, en mettant l'accent sur l'engagement de l'utilisateur.

  5. Mettre régulièrement le contenu à jour : Mettez régulièrement à jour le contenu avec des informations uniques, de nouvelles images et des vidéos afin de maintenir la fraîcheur et d'obtenir un score élevé dans le calcul de l'effort.

  6. Maintenir un contenu de haute qualité : Il est essentiel d'avoir un contenu cohérent et de qualité. Les scores chard de Google au niveau du site permettent de prédire la qualité du site/de la page en fonction du contenu.

  7. Valoriser la croissance des impressions : L'augmentation des impressions est un signe positif de la performance du site.

  8. Optimiser la saillance des entités : Concentrez-vous sur l'amélioration des scores de saillance des entités et sur l'identification des meilleures entités, comme indiqué dans la fuite.

  9. Supprimer les pages peu performantes : Identifiez et éliminez les pages dont les mesures d'utilisation sont médiocres et qui n'ont pas de liens retour afin de maintenir des scores élevés sur l'ensemble du site.

panda

Comment supprimer la mémoire de Google d'une ancienne version d'un document ?

Selon lafuite, Google conserve un enregistrement de chaque version d'une page web, en maintenant une archive web interne similaire à la Wayback Machine. Toutefois, Google n'utilise que les 20 dernières versions d'un document. Si vous mettez à jour une page, attendez qu'elle soit explorée et répétez le processus 20 fois, vous pouvez effectivement repousser certaines versions de la page. Cette tactique pourrait s'avérer utile pour améliorer les poids et les scores historiques associés aux anciennes versions.

Système de classement de Google

Google Search Ranking System

Une conjecture intéressante de la fuite est l'impact du poids des termes (taille littérale). La mise en gras des mots ou l'ajustement de leur taille peut influencer les scores des documents. En outre, les mécanismes de stockage de l'index de Google hiérarchisent différemment les contenus :

  • Clés USB : Pour les contenus les plus importants et régulièrement mis à jour.

  • Disques d'état solides : Pour les contenus moins importants.

  • Disques durs standard : Pour les contenus mis à jour de manière irrégulière.

L'indexeur de Google : Alexandrie

Alexandria

L'indexeur de Google s'appelle Alexandria, d'après la célèbre bibliothèque. Parmi les autres indexeurs mentionnés, citons SegIndexer, qui place les documents par niveaux, et TeraGoogle, qui gère le stockage de la mémoire à long terme.

Sites de départ et autorité à l'échelle du site

La fuite mentionne un facteur appelé isElectionAuthority, qui pourrait indiquer des sites d'amorçage ou des autorités thématiques. Ce facteur suggère que les sites à forte autorité, tels que ceux ayant un PageRank de 9/10, ont une influence significative. Cependant, nsrIsElectionAuthority est considéré comme obsolète, ce qui laisse une certaine ambiguïté dans l'interprétation.

Un contenu court peut être classé

Contrairement à ce que l'on croit souvent, un contenu court n'est pas synonyme de contenu mince. La fuite confirme que les contenus courts peuvent être bien classés, bien qu'avec un système de notation différent.

Liens frais et liens existants

Selon le multiplicateur de valeur de lien de freshdocs, les liens provenant de pages web plus récentes ont plus de valeur que ceux insérés dans un contenu plus ancien. Cela indique que même si les modifications de niche peuvent être efficaces, les liens récents ont un impact plus important.

Découvertes préférées

Qualité des pages (PQ)

Google utilise un LLM pour estimer l'"effort" des pages d'articles, ce qui permet de déterminer si une page peut être facilement reproduite. Les outils, les images, les vidéos, les informations uniques et la profondeur des informations sont autant de moyens d'obtenir un score élevé dans le calcul de l'effort.

Frontières des thèmes et autorité des thèmes

L'autorité thématique, soutenue par siteFocusScore, siteRadius, siteEmbeddings et pageEmbeddings, est cruciale. Le maintien d'une orientation thématique claire et la réduction des écarts par rapport au sujet contribuent à améliorer les classements.

Qualité de l'image

ImageQualityClickSignals mesure la qualité de l'image sur la base des données de clics (utilité, présentation, attrait, engagement).

Accueil NSR

Host NSR est un classement de site calculé pour des morceaux de site au niveau de l'hôte, mesurant la qualité par segments. Ce système de découpage permet à Google d'évaluer la qualité des sites de manière exhaustive.

Théorie unifiée du classement

Cette section tente de consolider les facteurs de la fuite en une formule mathématique, en mettant en évidence diverses mesures et leur impact sur le score global du classement ®.

Définitions et mesures

formula

Scores d'interaction avec l'utilisateur (ISU) :

formula

  • UgcScore : Engagement dans les contenus générés par les utilisateurs.

  • TitleMatchScore : Pertinence des titres par rapport aux requêtes des utilisateurs.

  • ChromeInTotal : Total des interactions suivies via Chrome.

  • SiteImpressions : Nombre total d'impressions sur le site.

  • TopicImpressions : Impressions sur des pages spécifiques à un thème.

  • SiteClicks : Taux de clics pour le site.

  • TopicClicks : Taux de clics pour les pages spécifiques à un sujet.

Scores de qualité du contenu (CQS) :

formula

  • ImageQualityClickSignals : Signaux de qualité provenant des clics sur les images.

  • VideoScore : Qualité et engagement du contenu vidéo.

  • ShoppingScore : Score pour les contenus liés au shopping.

  • PageEmbedding : Intégration sémantique du contenu de la page.

  • SiteEmbedding : Intégration sémantique du contenu du site.

  • SiteRadius : Mesure de l'écart dans l'intégration du site.

  • SiteFocus : Métrique indiquant l'orientation du sujet.

  • TextConfidence : Confiance dans la pertinence et la qualité du texte.

  • EffortScore : Effort et qualité dans la création de contenu.

Notes de liaison (LS) :

Link Scores

  • TrustedAnchors : Qualité et fiabilité des liens entrants.

  • SiteLinkIn : Valeur moyenne des liens entrants.

  • PageRank : Différents scores de PageRank (0, 1, 2, ToolBar, NR).

Renforcement de la pertinence (RB) :

Relevance Boost

  • L'intégration des thèmes : Pertinence dans le temps.

  • QnA : Mesure de qualité de référence.

  • STS : Score agrégé basé sur la compréhension du texte, la saillance et les entités.

Renforcement de la qualité (QB) :

Quality Boost

  • SAS : score d'autorité du site relatif à la confiance, à la fiabilité et à l'autorité des liens.

  • EFTS : Score d'effort incorporant du texte, du multimédia et des commentaires.

  • FS : Score de fraîcheur basé sur les dates de mise à jour et de publication originale.

  • CSA : Ajustements spécifiques au contenu basés sur les SERP et les caractéristiques de la page.

CSA

Ajustements spécifiques au contenu (CSA) :

  • CDS : score de données de Chrome qui se concentre sur les impressions et les clics à travers le site.

  • SDS : score de rétrogradation basé sur la mesure de l'expérience SERP.

  • EQSS : score expérimental Q Star pour les variables expérimentales.

Formule complète

R=(∑i=17wi⋅UISi)+(∑i=19vi⋅CQSi)+(∑i=13xi⋅LSi)×(RB+QB+X)-

R=((w1​⋅UgcScore+w2​⋅TitleMatchScore+w3​⋅ChromeInTotal+w4​⋅SiteImpressions+w5​⋅TopicImpressions+w6​⋅SiteClicks+w7​⋅TopicClicks)+(v1​⋅ImageQualityClickSignals+v2​⋅VideoScore+v3​⋅ShoppingScore+v4​⋅PageEmbedding+v5​⋅SiteEmbedding+v6​⋅SiteRadius+v7​⋅SiteFocus+v8​⋅TextConfidence+v9​⋅EffortScore)+(x1​⋅TrustedAnchors+x2​⋅SiteLinkIn+x3​⋅PageRank))×(TopicEmbedding+QnA+STS+SAS+EFTS+FS)+(y1​⋅CDS+y2​⋅SDS+y3​⋅EQSS)

Aperçu de la notation généralisée

1. Engagement de l'utilisateur :

  • UgcScore, TitleMatchScore, ChromeInTotal, SiteImpressions, Topic Impressions, Site Clicks, Topic Clicks

2. Notes multimédias :

  • ImageQualityClickSignals, VideoScore, ShoppingScore

3. Liens :

  • TrustedAnchors, SiteLinkIn (valeur moyenne des liens entrants), PageRank (0, 1, 2, ToolBar, NR)

4. Compréhension du contenu :

  • PageEmbedding, SiteEmbedding, SiteRadius, SiteFocus, TextConfidence, EffortScore

Conclusion

La fuite de documentation fournit des informations précieuses sur les mécanismes de classement de Google, déboulonnant plusieurs mythes et révélant des facteurs complexes qui influencent les résultats de recherche. Les professionnels du référencement peuvent tirer parti de ces connaissances pour affiner leurs stratégies, en se concentrant sur l'engagement des utilisateurs, la pertinence thématique et la qualité constante du contenu. Au fur et à mesure que la communauté des spécialistes du référencement digère ces révélations, nombre d'entre eux reconsidéreront probablement leurs approches à la lumière de ces nouvelles informations.

En comprenant et en appliquant ces informations, les spécialistes du référencement peuvent mieux naviguer dans les méandres du système de classement de Google, ce qui leur permet d'améliorer la visibilité et les performances de leur site web dans les résultats de recherche.

Felix Rose-Collins

Felix Rose-Collins

Ranktracker's CEO/CMO & Co-founder

Felix Rose-Collins is the Co-founder and CEO/CMO of Ranktracker. With over 15 years of SEO experience, he has single-handedly scaled the Ranktracker site to over 500,000 monthly visits, with 390,000 of these stemming from organic searches each month.

Commencez à utiliser Ranktracker... gratuitement !

Découvrez ce qui empêche votre site Web de se classer.

Créer un compte gratuit

Ou connectez-vous en utilisant vos informations d'identification

Different views of Ranktracker app