介绍
谷歌搜索内部排名文档的大规模泄露在搜索引擎优化界引起了震动。这次泄露暴露了超过 14,000 项潜在的排名功能,让人们前所未有 地看到了谷歌严密保护的搜索排名系统的秘密。
泄漏背后的故事
Erfan Azimi与SparkToro的Rand Fishkin分享了谷歌API文件泄露事件,后者随后邀请iPullRank的Michael King帮助传播该信息。泄露的文件来自名为 "yoshi-code-bot /elixer-google-api "的谷歌 API 文档提交,并非黑客或告密者所为,而是一次内部文档发布。
泄漏概述
这次泄露提供了谷歌排名因素的全面视图,揭示了 PageRank 变化、网站权威度量等方面的见解。以下是详细分析:
谷歌搜索文档泄露事件的重要启示
页面排名及其变化
-
PageRank_NS:现已弃用,该算法与文档理解相关,修改了传统的 PageRank,将重点放在种子节点周围网络的局部子集上。
-
PageRank 的七种类型:谷歌提到了七种不同类型的 PageRank,其中包括著名的 ToolBarPageRank。这些变化表明,谷歌采用了多种方法来评估页面的重要性。
商业模式识别
谷歌的算法可以识别各种商业模式,包括新闻网站、YMYL(Your Money or Your Life)网站、个人博客、电子商务和视频网站。专门对个人博客进行过滤的原因尚不清楚,这也让人对谷歌更广泛的意图产生了疑问。
算法组件
-
NavBoost:基于用户行为和点击日志的重新排名机制,深受 Chrome 浏览器数据的影响。
-
NSR(归一化网站排名):用于计算主机级网站块的网站排名。
-
ChardScores:根据内容预测网站/网页质量的网站级分数。
网站权 威指标
谷歌使用一个全站权威度量和几个信号(包括来自 Chrome 浏览器的流量)来评估网站权威性。这表明,网站的整体质量和可信度在排名中发挥着重要作用。
嵌入技术和专题权威
-
页面和网站嵌入:Google 在其评分功能中采用了页面嵌入、网站嵌入、网站焦点和网站半径,以了解网站内容的主题相关性和一致性。
-
主题边界和主题权威性:网站焦点分数(siteFocusScore)、网站半径(siteRadius)、网站嵌入度(siteEmbeddings)和页面嵌入度(pageEmbeddings)等指标用于衡量专题权威性,强调保持明确的专题焦点的重要性。
点击数据和用户参与
-
NavBoost:NavBoost 依靠点击 数据和用户行为对搜索结果进行重新排序,强调了用户参与度指标的重要性。
-
点击指标:Google 会衡量各种类型的点击,包括不良点击、良好点击、最长点击和全站印象。
高质量的 NSR 数据洞察
国家科学研究数据文件中的主要评分因素包括
-
标题匹配得分(titlematchScore):全站标题匹配得分,表示标题与用户查询的匹配程度。
-
site2vecEmbedding:与 word2vec 类似的全站向量,突出了综合站点嵌入的重要性。
-
pnavClicks:可能与从用户点击数据中获取的导航信息有关。
-
chromeInTotal:全站 Chrome 浏览器浏览量,强调全站信号的重要性。
-
chardVariance 和 chardScoreVariance:根据内容预测网站/页面质量的分数,一致性是关键。
搜索引擎优化专业人员的实用启示
-
投资设计良好的网站:确保您的网站具有直观的架构,以便针对 NavBoost 进行优化,NavBoost 依靠用户行为和点击日志对搜索结果进行重新排序。
-
删除/屏蔽与主题无关的页面:删除或屏蔽与主题无关的页面。确定目标主题,确保每个页面在这一领域都有良好的表现。
-
优化标题和内容:围绕查询优化标题,确保段落明确回答这些查询,以提高页面嵌入率和相关性。
-
关注点击和印象:撰写能吸引更多印象和点击的内容,强调用户参与。
-
定期更新内容:定期更新内容,提供独特的信息、新图片和视频,以保持新鲜度,并在努力程度计算中获得高分。
-
保持高质量内容:高质量内容的一致性至关重要。Google 的网站级 chard 分数可根据内容预测网站/页面的质量。
-
重视印象增长:印象增长是网站表现的积极信号。
-
优化实体显著性:如泄密事件中提到的那样,专注于提高实体 和顶级实体识别的显著性得分。
-
删除表现不佳的页面:识别并删除用户指标差和没有反向链接的页面,以保持网站的高分。
如何删除谷歌对旧版本文档的记忆
根据泄露的信息,谷歌保存着网页每个版本的记录,维持着类似 Wayback Machine 的内部网络档案。不过,谷歌只使用文档的最后 20 个版本。如果你更新一个网页,等待抓取,然后重复这个过程 20 次,你就可以有效地推出网页的某些版本。这种策略对于提高与旧版本相关的历史权重和分数非常有用。
谷歌搜索排名系统
泄密事件中一个有趣的猜想是术语权重(字面大小)的影响。加粗单词或调整单词大小可能会影响文档得分。此外,Google 的索引存储机制对内容的优先级也有所不同:
-
闪存盘:用于保存最重要和定期更新的内容。
-
固态硬盘:用于不那么重要的内容。
-
标准硬盘:用于不定期更新的内容。
谷歌的索引器亚历山大
谷歌的索引器被命名为亚历山大(Alexandria),取自著名的图书馆。提到的其他索引器包括将文档分层的 SegIndexer 和处理长期内存存储的 TeraGoogle。
种子站点和全站授权
泄露信息中提到了一个名为 isElectionAuthority 的因素,可能表示种子网站或专题权威。它表明,高权威网站(如 PageRank 为 9/10 的网站)具有重大影响力。不过,nsrIsElectionAuthority 已被认为过时,因此在解释上存在一定的模糊性。
简短内容也能排名
与普遍看法相反,短内容并不等于薄内容。泄露的信息证实,尽管评分系统不同,但短内容也能获得很好的排名。
新链接与现有链接
根据 freshdocs 链接价值乘数,来自较新网页的链接比插入较旧内容的链接更有价值。这表明,虽然利基编辑可能有效,但新鲜链接的影响更大。
最喜爱的发现
页面质量 (PQ)
谷歌使用 LLM 估算文章页面的 "努 力程度",帮助确定页面是否容易复制。工具、图片、视频、独特信息和信息深度都是在 "努力度 "计算中获得高分的方法。
主题边界和主题权限
由网站焦点分数(siteFocusScore)、网站半径(siteRadius)、网站嵌入(siteEmbeddings)和页面嵌入(pageEmbeddings)支持的主题权威性至关重要。保持明确的主题重点并尽量减少偏离主题有助于提高排名。
图像质量
图像质量点击信号(ImageQualityClickSignals)根据点击数据(有用性、表现力、吸引力、参与度)来衡量图像质量。
主机 NSR
主机 NSR 是针对主机级网站分块计算的网站排名,以分块衡量质量。这种分块系统有助于 Google 全面评估网站质量。
统一排名理论
本节试图将泄密事件中的各种因素整合成一个数学公式,突出各种指标及其对总体排名得分的影响。
定义和衡量标准
用户交互评分(UIS):
-
UgcScore:用户生成内容的参与度。
-
标题匹配分数:标题与用户查询的相关性。
-
ChromeInTotal:通过 Chrome 浏览器跟踪的总互动次数。
-
网站印象:网站印象总数
-
TopicImpressions:特定主题页面的访问量。
-
网站点击率:网站点击率
-
主题点击率:特定主题页面的点击率。
内容质量分数 (CQS):
-
图像质量点击信号图像点击质量信号
-
VideoScore:视频内容的质量和参与度。
-
ShoppingScore:购物相关内容得分。
-
页面嵌入页面内容的语义嵌入
-
SiteEmbedding:网站内容的语义嵌入
-
站点半径:站点嵌入内的偏差测量值。
-
SiteFocus:表示主题重点的指标。
-
文本信心:对文本相关性和质量的信心。
-
EffortScore:内容创作中的努力与质量
链接分数 (LS):
-
TrustedAnchors:入站链接的质量和可信度。
-
SiteLinkIn:传入链接的平均值。
-
PageRank:各种 PageRank 分数(0、1、2、ToolBar、NR)。
相关性提升 (RB):
-
主题嵌入:长期相关性
-
QnA:基线质量测量。
-
STS:STS:基于文本理解、显著性和实体的综合评分。
质量提升 (QB):
-
SAS:与信任度、可靠性和链接权威性有关的网站权威性得分。
-
EFTS:包含文字、多媒体和评论的努力得分。
-
FS:新鲜度评分基于更新和原始发布日期。
-
CSA:CSA: 根据 SERP 和页面特征对特定内容进行调整。
特定内容调整(CSA):
-
CDS:Chrome 浏览器数据评分,侧重于整个网站的浏览量和点击量。
-
SDS:基于 SERP 经验测量的 Serp 降级分数。
-
EQSS:实验变量的实验 Q Star 分数。
全配方
R=(∑i=17wi⋅UISi)+(∑i=19vi⋅CQSi)+(∑i=13xi⋅LSi)×(RB+QB+X)-
R=((w1⋅UgcScore+w2⋅TitleMatchScore+w3⋅ChromeInTotal+w4⋅SiteImpressions+w5⋅TopicImpressions+w6⋅SiteClicks+w7⋅TopicClicks)+(v1⋅ImageQualityClickSignals+v2⋅VideoScore+v3⋅ShoppingScore+v4⋅PageEmbedding+v5⋅SiteEmbedding+v6⋅SiteRadius+v7⋅SiteFocus+v8⋅TextConfidence+v9⋅EffortScore)+(x1⋅TrustedAnchors+x2⋅SiteLinkIn+x3⋅PageRank))×(TopicEmbedding+QnA+STS+SAS+EFTS+FS)+(y1⋅CDS+y2⋅SDS+y3⋅EQSS)
通用评分概述
1.用户参与:
- UgcScore, TitleMatchScore, ChromeInTotal, SiteImpressions, Topic Impressions, Site Clicks, Topic Clicks
2.多媒体评分:
- 图像质量点击信号(ImageQualityClickSignals)、视频评分(VideoScore)、购物评分(ShoppingScore
3.链接:
- TrustedAnchors、SiteLinkIn(传入链接的平均值)、PageRank(0、1、2、工具栏、NR)
4.内容理解:
- 页面嵌入、网站嵌入、网站半径、网站焦点、文本信心、努力分数
结论
文件泄露提供了对谷歌排名机制的宝贵见解,揭穿了一些神话,并揭示了影响搜索结果的复杂因素。搜索引擎优化专业人员可以利用这些知识来完善自己的策略,重点关注用户参与度、主题相关性和一致的内容质量。随着搜索引擎优化社区对这些信息的消化,许多人可能会根据这些新信息重新考虑他们的方法。
通过了解和应用这些见解,搜索引擎优化从业人员可以更好地驾驭复杂的谷歌排名系统,最终提高网站在搜索结果中的可见度和性能。