• 谷歌搜索更新和搜索引擎优化洞察

解读谷歌大规模搜索文档泄露事件

  • Felix Rose-Collins
  • 7 min read
解读谷歌大规模搜索文档泄露事件

介绍

谷歌搜索内部排名文档的大规模泄露在搜索引擎优化界引起了震动。这次泄露暴露了超过 14,000 项潜在的排名功能,让人们前所未有地看到了谷歌严密保护的搜索排名系统的秘密。

泄漏背后的故事

Erfan Azimi与SparkToro的Rand Fishkin分享了谷歌API文件泄露事件,后者随后邀请iPullRank的Michael King帮助传播该信息。泄露的文件来自名为 "yoshi-code-bot /elixer-google-api "的谷歌 API 文档提交,并非黑客或告密者所为,而是一次内部文档发布。

泄漏概述

这次泄露提供了谷歌排名因素的全面视图,揭示了 PageRank 变化、网站权威度量等方面的见解。以下是详细分析:

谷歌搜索文档泄露事件的重要启示

页面排名及其变化

  • PageRank_NS:现已弃用,该算法与文档理解相关,修改了传统的 PageRank,将重点放在种子节点周围网络的局部子集上。

  • PageRank 的七种类型:谷歌提到了七种不同类型的 PageRank,其中包括著名的 ToolBarPageRank。这些变化表明,谷歌采用了多种方法来评估页面的重要性。

商业模式识别

谷歌的算法可以识别各种商业模式,包括新闻网站、YMYL(Your Money or Your Life)网站、个人博客、电子商务和视频网站。专门对个人博客进行过滤的原因尚不清楚,这也让人对谷歌更广泛的意图产生了疑问。

算法组件

  • NavBoost:基于用户行为和点击日志的重新排名机制,深受 Chrome 浏览器数据的影响。

  • NSR(归一化网站排名):用于计算主机级网站块的网站排名。

  • ChardScores:根据内容预测网站/网页质量的网站级分数

网站权威指标

谷歌使用一个全站权威度量和几个信号(包括来自 Chrome 浏览器的流量)来评估网站权威性。这表明,网站的整体质量和可信度在排名中发挥着重要作用。

嵌入技术和专题权威

  • 页面和网站嵌入:Google 在其评分功能中采用了页面嵌入、网站嵌入、网站焦点和网站半径,以了解网站内容的主题相关性和一致性。

  • 主题边界和主题权威性:网站焦点分数(siteFocusScore)、网站半径(siteRadius)、网站嵌入度(siteEmbeddings)和页面嵌入度(pageEmbeddings)等指标用于衡量专题权威性,强调保持明确的专题焦点的重要性。

googleapi

点击数据和用户参与

  • NavBoost:NavBoost 依靠点击数据和用户行为对搜索结果进行重新排序,强调了用户参与度指标的重要性。

  • 点击指标:Google 会衡量各种类型的点击,包括不良点击、良好点击、最长点击和全站印象。

高质量的 NSR 数据洞察

国家科学研究数据文件中的主要评分因素包括

  • 标题匹配得分(titlematchScore):全站标题匹配得分,表示标题与用户查询的匹配程度。

  • site2vecEmbedding:与 word2vec 类似的全站向量,突出了综合站点嵌入的重要性。

  • pnavClicks:可能与从用户点击数据中获取的导航信息有关。

  • chromeInTotal:全站 Chrome 浏览器浏览量,强调全站信号的重要性。

  • chardVariance 和 chardScoreVariance:根据内容预测网站/页面质量的分数,一致性是关键。

NSR Data Insights

搜索引擎优化专业人员的实用启示

  1. 投资设计良好的网站:确保您的网站具有直观的架构,以便针对 NavBoost 进行优化,NavBoost 依靠用户行为和点击日志对搜索结果进行重新排序。

  2. 删除/屏蔽与主题无关的页面:删除或屏蔽与主题无关的页面。确定目标主题,确保每个页面在这一领域都有良好的表现。

  3. 优化标题和内容:围绕查询优化标题,确保段落明确回答这些查询,以提高页面嵌入率和相关性。

  4. 关注点击和印象:撰写能吸引更多印象和点击的内容,强调用户参与。

  5. 定期更新内容:定期更新内容,提供独特的信息、新图片和视频,以保持新鲜度,并在努力程度计算中获得高分。

  6. 保持高质量内容:高质量内容的一致性至关重要。Google 的网站级 chard 分数可根据内容预测网站/页面的质量。

  7. 重视印象增长:印象增长是网站表现的积极信号。

  8. 优化实体显著性:泄密事件中提到的那样,专注于提高实体和顶级实体识别的显著性得分。

  9. 删除表现不佳的页面:识别并删除用户指标差和没有反向链接的页面,以保持网站的高分。

panda

如何删除谷歌对旧版本文档的记忆

根据泄露的信息,谷歌保存着网页每个版本的记录,维持着类似 Wayback Machine 的内部网络档案。不过,谷歌只使用文档的最后 20 个版本。如果你更新一个网页,等待抓取,然后重复这个过程 20 次,你就可以有效地推出网页的某些版本。这种策略对于提高与旧版本相关的历史权重和分数非常有用。

谷歌搜索排名系统

Google Search Ranking System

泄密事件中一个有趣的猜想是术语权重(字面大小)的影响。加粗单词或调整单词大小可能会影响文档得分。此外,Google 的索引存储机制对内容的优先级也有所不同:

  • 闪存盘:用于保存最重要和定期更新的内容。

  • 固态硬盘:用于不那么重要的内容。

  • 标准硬盘:用于不定期更新的内容。

谷歌的索引器亚历山大

Alexandria

谷歌的索引器被命名为亚历山大(Alexandria),取自著名的图书馆。提到的其他索引器包括将文档分层的 SegIndexer 和处理长期内存存储的 TeraGoogle。

种子站点和全站授权

泄露信息中提到了一个名为 isElectionAuthority 的因素,可能表示种子网站或专题权威。它表明,高权威网站(如 PageRank 为 9/10 的网站)具有重大影响力。不过,nsrIsElectionAuthority 已被认为过时,因此在解释上存在一定的模糊性。

简短内容也能排名

与普遍看法相反,短内容并不等于薄内容。泄露的信息证实,尽管评分系统不同,但短内容也能获得很好的排名。

新链接与现有链接

根据 freshdocs 链接价值乘数,来自较新网页的链接比插入较旧内容的链接更有价值。这表明,虽然利基编辑可能有效,但新鲜链接的影响更大。

最喜爱的发现

页面质量 (PQ)

谷歌使用 LLM 估算文章页面的 "努力程度",帮助确定页面是否容易复制。工具、图片、视频、独特信息和信息深度都是在 "努力度 "计算中获得高分的方法。

主题边界和主题权限

由网站焦点分数(siteFocusScore)、网站半径(siteRadius)、网站嵌入(siteEmbeddings)和页面嵌入(pageEmbeddings)支持的主题权威性至关重要。保持明确的主题重点并尽量减少偏离主题有助于提高排名。

图像质量

图像质量点击信号(ImageQualityClickSignals)根据点击数据(有用性、表现力、吸引力、参与度)来衡量图像质量。

主机 NSR

主机 NSR 是针对主机级网站分块计算的网站排名,以分块衡量质量。这种分块系统有助于 Google 全面评估网站质量。

统一排名理论

本节试图将泄密事件中的各种因素整合成一个数学公式,突出各种指标及其对总体排名得分的影响。

定义和衡量标准

formula

用户交互评分(UIS):

formula

  • UgcScore:用户生成内容的参与度。

  • 标题匹配分数:标题与用户查询的相关性。

  • ChromeInTotal:通过 Chrome 浏览器跟踪的总互动次数。

  • 网站印象:网站印象总数

  • TopicImpressions:特定主题页面的访问量。

  • 网站点击率:网站点击率

  • 主题点击率:特定主题页面的点击率。

内容质量分数 (CQS):

formula

  • 图像质量点击信号图像点击质量信号

  • VideoScore:视频内容的质量和参与度。

  • ShoppingScore:购物相关内容得分。

  • 页面嵌入页面内容的语义嵌入

  • SiteEmbedding:网站内容的语义嵌入

  • 站点半径:站点嵌入内的偏差测量值。

  • SiteFocus:表示主题重点的指标。

  • 文本信心:对文本相关性和质量的信心。

  • EffortScore:内容创作中的努力与质量

链接分数 (LS):

Link Scores

  • TrustedAnchors:入站链接的质量和可信度。

  • SiteLinkIn:传入链接的平均值。

  • PageRank:各种 PageRank 分数(0、1、2、ToolBar、NR)。

相关性提升 (RB):

Relevance Boost

  • 主题嵌入:长期相关性

  • QnA:基线质量测量。

  • STS:STS:基于文本理解、显著性和实体的综合评分。

质量提升 (QB):

Quality Boost

  • SAS:与信任度、可靠性和链接权威性有关的网站权威性得分。

  • EFTS:包含文字、多媒体和评论的努力得分。

  • FS:新鲜度评分基于更新和原始发布日期。

  • CSA:CSA: 根据 SERP 和页面特征对特定内容进行调整。

CSA

特定内容调整(CSA):

  • CDS:Chrome 浏览器数据评分,侧重于整个网站的浏览量和点击量。

  • SDS:基于 SERP 经验测量的 Serp 降级分数。

  • EQSS:实验变量的实验 Q Star 分数。

全配方

R=(∑i=17wi⋅UISi)+(∑i=19vi⋅CQSi)+(∑i=13xi⋅LSi)×(RB+QB+X)-

R=((w1​⋅UgcScore+w2​⋅TitleMatchScore+w3​⋅ChromeInTotal+w4​⋅SiteImpressions+w5​⋅TopicImpressions+w6​⋅SiteClicks+w7​⋅TopicClicks)+(v1​⋅ImageQualityClickSignals+v2​⋅VideoScore+v3​⋅ShoppingScore+v4​⋅PageEmbedding+v5​⋅SiteEmbedding+v6​⋅SiteRadius+v7​⋅SiteFocus+v8​⋅TextConfidence+v9​⋅EffortScore)+(x1​⋅TrustedAnchors+x2​⋅SiteLinkIn+x3​⋅PageRank))×(TopicEmbedding+QnA+STS+SAS+EFTS+FS)+(y1​⋅CDS+y2​⋅SDS+y3​⋅EQSS)

通用评分概述

1.用户参与:

  • UgcScore, TitleMatchScore, ChromeInTotal, SiteImpressions, Topic Impressions, Site Clicks, Topic Clicks

2.多媒体评分:

  • 图像质量点击信号(ImageQualityClickSignals)、视频评分(VideoScore)、购物评分(ShoppingScore

3.链接:

  • TrustedAnchors、SiteLinkIn(传入链接的平均值)、PageRank(0、1、2、工具栏、NR)

4.内容理解:

  • 页面嵌入、网站嵌入、网站半径、网站焦点、文本信心、努力分数

结论

文件泄露提供了对谷歌排名机制的宝贵见解,揭穿了一些神话,并揭示了影响搜索结果的复杂因素。搜索引擎优化专业人员可以利用这些知识来完善自己的策略,重点关注用户参与度、主题相关性和一致的内容质量。随着搜索引擎优化社区对这些信息的消化,许多人可能会根据这些新信息重新考虑他们的方法。

通过了解和应用这些见解,搜索引擎优化从业人员可以更好地驾驭复杂的谷歌排名系统,最终提高网站在搜索结果中的可见度和性能。

Felix Rose-Collins

Felix Rose-Collins

Ranktracker's CEO/CMO & Co-founder

Felix Rose-Collins is the Co-founder and CEO/CMO of Ranktracker. With over 15 years of SEO experience, he has single-handedly scaled the Ranktracker site to over 500,000 monthly visits, with 390,000 of these stemming from organic searches each month.

开始使用Ranktracker...免费的!

找出阻碍你的网站排名的原因。

创建一个免费账户

或使用您的证书登录

Different views of Ranktracker app