• 技術紹介

Yandex、1,922の検索ランキング要因を含むコードを流出 Ranktrackerがすべてのランキング要因を解説

  • Felix Rose-Collins
  • 10 min read
Yandex、1,922の検索ランキング要因を含むコードを流出 Ranktrackerがすべてのランキング要因を解説

イントロ

世界第4位のシェアを誇る検索エンジン、Yandexをご存知でしょうか。昨日、そのYandexの独自ソースコードが流出しました。

SEO関係者にとって最も興味深いのは、検索アルゴリズムに使用されている1922のランキング要因のリストです。

私たちはコードをダウンロードし、それを分析し、ここで役に立つ方法で紹介しています。

Yandex leak

ヤンデックスやその製品はしばしばサイバー攻撃を受けているため、今回の事件は驚くに値しない。2016年、Hackread.comは、ダークウェブベンダーが630万のYandexユーザーアカウントデータを販売していたことを独占的に報じました

2021年9月、ロシアの検索エンジン大手は、感染した20万台のIoTデバイスを電源とする最大級のDDoS攻撃を受けた。

Ranktrackerの紹介

効果的なSEOのためのオールインワン・プラットフォーム

ビジネスが成功する背景には、強力なSEOキャンペーンがあります。しかし、数え切れないほどの最適化ツールやテクニックがあるため、どこから手をつければいいのかわからないこともあります。でも、もう心配はありません。効果的なSEOのためのオールインワンプラットフォーム「Ranktracker」を紹介します。

Ranktrackerの登録がついに無料になりました。

無料アカウント作成

または認証情報を使ってサインインする

Yandex git sources

なぜこれが大きいのか?

Yandexはロシア最大のIT企業の1つです。国内では、Googleよりも幅広いサービスを提供しています。Google、Uber、Amazon、Netflix、Spotifyに代わる1つの企業を想像してください。

このリークは本当ですか?

私自身はYandexで働いたことはありませんが、異なる時代にそこで働いていた、あるいは現在も働いている人を何人か知っています。私は、少なくともいくつかのアーカイブには、会社のサービスの最新のソースコードと、実際のイントラネットのURLを指す文書が確実に含まれていることを確認しました。

内容紹介

リーク者は、Yandexのgitソースにリンクされた44.7GBのファイルを含むマグネットリンクを共有しています。このファイルは、2022年7月にYandexから盗まれたとされている。スパム対策のガイドラインが含まれているほか、コードリポジトリにはYandexのソースコードが含まれているとみられている。

この流出により、検索エンジンが検索アルゴリズムで使用している約1,922のランキング要因が明らかになった。コードはtorrentとして流出した。TwitterユーザーのAlex Buraks氏が投稿した分析によると、流出したデータには、テキストの関連性、PageRank、コンテンツの年齢、新鮮さなど、数多くのランキング要因が含まれている。

さらに、エンドユーザーの行動要因、リンク関連要因、ホストの信頼性など、いくつかの要因が存在します。SEO担当者は、ユニークビジター数、クエリ全体の平均ドメインランキング、オーガニックトラフィックの割合など、変わったランキング要因を見つけることができます。

少なくともYandexの主要なサービスのソースコードが流出したようです。

  • 検索エンジンとインデックス作成ボット
  • 地図 - Googleマップやストリートビューのように。
  • アリス - Siri / AlexaのようなAIアシスタント
  • タクシー - Uberのようなタクシーサービス
  • ダイレクト - Google Ads / Adwordsなどの広告サービス
  • メール - GMailのようなメールサービス
  • ディスク - Google ドライブのようなファイル保存サービス
  • マーケット - アマゾンのようなマーケットプレイス
  • 旅行 - Booking.comに飛行機、電車、バスのチケットを追加するようなものです。
  • Yandex360 - Google Workspacesのように、独自ドメイン上のサービスを利用できます。
  • クラウド - おそらく、すべてのインフラコードが流出したわけではありません。
  • Pay - Stripeのような決済処理ですが、機能は限定されています。
  • Metrika - Google Analyticsのように
  • そして、少なくとも他社サービスの大半のバックエンド部分は存在する。フロントエンドと呼ばれる最大のアーカイブはまだ未開拓です。

さらに、Shestakov氏は、いくつかのAPIキーが、テスト展開に使用された可能性が高いことを指摘した。

今回の流出に関する詳細:こちらをご覧ください。

https://arseniyshestakov.com/2023/01/26/yandex-services-source-code-leak/

ヤンデックス、ハッキングの試みを否定

Yandexは、今回の流出を認識しており、ソースコードの「断片」がどのように公開されたかを確認するため、すでに調査を開始したと主張している。なお、今回の流出には、ユーザーや従業員の個人情報は含まれていない。

しかし、ロシアのITインフラにおけるYandexの重要性や流出したデータを考慮すると、今回の攻撃の動機は同国のウクライナ侵攻にあると推測されます。つまり、親ウクライナのハッカーが関与している可能性があるのです。

Ranktrackerの紹介

効果的なSEOのためのオールインワン・プラットフォーム

ビジネスが成功する背景には、強力なSEOキャンペーンがあります。しかし、数え切れないほどの最適化ツールやテクニックがあるため、どこから手をつければいいのかわからないこともあります。でも、もう心配はありません。効果的なSEOのためのオールインワンプラットフォーム「Ranktracker」を紹介します。

Ranktrackerの登録がついに無料になりました。

無料アカウント作成

または認証情報を使ってサインインする

Yandexは公式声明の中で、同社はハッキングされておらず、元従業員が同社のソースコードをパブリックドメインに流出させたことに関与している可能性があることを明らかにした。ロシアの大手IT企業は、流出したアーカイブには内部リポジトリの一部であるコード断片が含まれており、そのデータはリポジトリの最新バージョンで使用されているものとは異なっていると指摘している。

"Yandexはハッキングされたわけではありません。当社のセキュリティサービスは、パブリックドメインの内部リポジトリからコードの断片を発見したが、内容はYandexのサービスで使用されているリポジトリの現在のバージョンとは異なる」と同社の声明は述べている。

しかしながら、ソースコードの漏洩は、脅威者が企業の知的財産やシステムデータを観察することができるため、組織に深刻なセキュリティ問題を引き起こす危険性があります。ソースコードの漏えいは、攻撃者が標的型攻撃プログラムを作成するのに役立つ。

GoogleとYandexで使われているアルゴリズムは、理論的にはどのような違いがあるのでしょうか?

かなり似ていますね。

  • RankBrainの類似品であるMatrixNetがあります。
  • は、PageRank(Googleとほぼ同じ)を使っているそうです。
  • 多くのテキストアルゴリズムがそうである。

Yandex vs Google

  • ヤンデックスには元グーグラーがたくさんいる
  • ヤネックスは、Googleのクローンとして作られました。
  • ロシアのSEO専門家は、Yandex向けとGoogle向けでほぼ同じホワイトハットSEO戦術を使用しています。

もちろん、多くの違いはありますが、アプローチやランキング要因の大部分は似ているように思います。

実際には、GoogleとYandexの検索結果を比較すると、70%程度一致する。

Statcounterによると、YandexはYahooとBingに近いマーケットシェアを持っています。

search engine market share worldwide

ランキングファクターを含むファイル: https://dropbox.com/s/toyehkkfduogbwk/factors_gen.txt?dl=0

各因子の構造。

  1. 名前
  2. 内部Wikiへのリンク(制限付き)
  3. アンチセオアッパーバウンド(はーと)
  4. 説明文(ロシア語なので、私が翻訳しました。)
  5. その他

1.リストの最初の要素 - PageRank。

First factor in the list - PageRank

このリストを分析した後の主な洞察。リンクの年齢はランキング要因である。

Age of links is a ranking factor.

2.トラフィックとオーガニックトラフィックの割合はランキングの要因になります。

PPCの購入はランキングに影響します。

Traffic and % of organic traffic are ranking factors

3.URLに数字が入るとランキングに不利

Numbers in URLs is bad for rankings

4.URLにスラッシュが多すぎるとランキングに不利になる

Too many slashes in URLs is bad for ranking

5.ハードペシマイゼーションイコールPR=0

Hard pessimization equal PR=0

6.ホストの信頼性はランキング要因

40x/50xエラーが少なければ少ないほど、オーガニックトラフィックが向上します。

Host reliability is a ranking factor

7. Wikipediaを盛り上げるためのランキング要素は別にある

there is a separate ranking factor for uplifting Wikipedia

8.ユーザー行動に関連する多くのランキング要因 - CTR、ラストクリック、サイト滞在時間、バウンス率

注:Yandexでは、これらの要素がGoogleよりはるかに大きな影響を与えることはほぼ確実です。

A lot of ranking factors connected with user behaviour - CTR, last-click, time on site, bounce rate

9.文書年齢と最終更新日はともにランキング要因

Document age and last update both are ranking factors

10.全クエリの平均ドメイン位置がランキング要因に

Average domain position across all queries is a ranking factor

11.クロールの深さはランキングの要因になる

重要なページはメインページに近づける。

  • のトップページをご覧ください。トップページから1クリック
  • 重要なページ:<3クリック

Crawl depth is a ranking factor

12.さらに:孤児ページのランキング要因

ウェブサイト監査ツールで確認することができます。

Additionally: ranking factor for orphan pages

13.メインページからのバックリンクは、内部ページからのバックリンクよりも重要である

Backlinks from main pages are more important than from internal pages

14.サイト/urlの検索クエリ数はランキング要因になる

多ければ多いほど良い

Number of search queries of your site/url is a ranking factor

15.ウィキペディアからのトラフィックはランキング要因になる

Traffic from Wikipedia is a ranking factor

16. あなたのURLが検索セッションの最後になる場合(ユーザーは彼が必要とするものを見つける) - それはランキングに影響を与えるだろう。

これには厳密な要因と、予測可能な要因があります。

If your url would be the last for search session (user will find what he needs) - it would impact rankings

17.ブックマーク数ランキング要因

ユーザーがブックマークに追加するほど、そのURLのファクター価値が高まる

Bookmarks ranking factor

18.短い動画(tiktok、ショートフィルム、リール)の特別なランキング要因

Special ranking factors for short videos (tiktok, shorts, reels)

19.地図 js-api オンページ(例えば Google Maps)はランキング要因になる

Googleでは(例えば旅行のニッチ分野で)有用な情報/機能を持つマップを追加することも有効です。

Maps js-api on page (for example Google Maps) is a ranking factor

20.URL内のキーワードはランキング要因

説明文からわかるように、最適なのは検索クエリから最大3つの単語を含むことである。

Keywords in URL are ranking factors

21.リピーターがランキング要因に

リテンションが良い製品を作れば、SEOにも有利になる(それを測るためのランキング要素がたくさんある)。

Returning users is a ranking factor

22.<title>に含まれる大文字の割合はランキング要因になる

Percentage of CAPITAL LETTERS in title> is a ranking factor

23.直接アクセスの割合がランキング要因になる

アカン。もし、あなたのトラフィックがすべてOrganic Searchから来たのなら......怪しい+ランキングに悪い。

Percentage of direct traffic is a ranking factor

24.コンテンツ品質に関するもう一つのランキング要因 - ページ上の壊れた埋め込みビデオ

  • 動画を埋め込む - ランキングに有利です。
  • 壊れた埋め込みビデオ - 悪い。

One more ranking factor for content quality - broken embedded video on the page

25.ソーシャルネットワーク上の認証済みアカウントは、他のURLとは異なる順位になる

ブランド検索に重要 - ブランド検索では、トップ10に自社のドメインと検証済みのソーシャルネットワークのみが表示されることが理想的です。

Verified accounts on social networks ranks differently as other urls

26.バックリンクのアンカーにキーワードの単語がすべて含まれている場合、それはSEOにとって良いことです。

一つのリンクの中にあるのなら-、その方が有益です。特に語順が同じであれば。

If your backlinks anchors contain all words from the keywords - it's good for SEO

27.良い」バックリンクと「悪い」バックリンクの比率はランキング要因になる

バックリンクの比率はランキング要因になる](/images/i84.png "Ratio "good" vs "bad" backlinks is ranking factor")とあります。

28.ドメイン上のテキストの品質ランクがランキング要因になる

低品質のコンテンツがあるページは、ドメイン全体に影響を及ぼします。

The quality rank of texts on the domain is a ranking factor

29.ページ内の広告の量はランキング要因になる

Amount of advertisements on a page is a ranking factor

30.別のランキング要因としてランダム性がある

いくつかのページが上位にある理由がわからないとき - それは単なるランダムなものかもしれません(行動要因をテストするため)。

There is a random as a separate ranking factor

31.GoogleアナリティクスのJSはランキング要因になる

予想通り。GA / Googleアナリティクスを使用している良いウェブサイトは、悪いウェブサイトよりも頻繁です。

JS from Google Analytics is a ranking factor

32.PageRankによる上位100位までのウェブサイトからのバックリンクが順位に与える影響

Backlinks from the top 100 best websites by PageRank impacts on rankings

33.URLに数字がない

❌/100ベストクレジットカード

✅ベストクレジットカード

URL has no digits

34.URLのスラッシュの数

/finance/articles/2023/investment-advices

投資に関するアドバイス

Number of slashes in URL

35.URLに含まれる文字以外の数

ペット・トイ&オール$currency=dollar#mobile

ペットトイズ

Number of non-letters in URL

36.URLの'?'マークはランキング要因になる

/movies?genre=action

アクション・ムービー

'?' symbol in the URL is a ranking factor

37.検索クエリ=URL(ドットやスペースを含む)(?

検索クエリは「Franklin D. Roosevelt」です。

/ルーズベルト

フランクリン・ルーズベルト(Franklin_D._Roosevelt

Search query = URL, including dots and spaces (??)

38.URLの日付が古い

❌ 2009/12/01/how-to-tie-a-tie

/ハウ・トゥ・タイ・ア・タイ

Old date in the URL

39. キーワードはページの本文ではなく、URLの中にある

ビデオゲームと音楽に関するページです。

ビデオゲームに関するページです。

Keywords is in URL, not in the text of the page

40.検索クエリからのトリグラムを用いたURLカバレッジ

ホテルズニュージーランド

/nz

❌ニュージーランドの格安ホテル情報

URL coverage with trigrams from the search query

  • URLには、最も重要な1~3つの単語を含める。
  • キーワードの一部でない場合は、スラッシュ/数字/文字以外を少なくする

41. Yandex ランキングファクターの初期重み付け

最終的な重みはAI(マトリックスネット)で計算しますが、初期値も有効です。

initial weights of Yandex ranking factors

結論

さて、ここまでが今のところ私たちが共有しているすべてです。 これからが本番です。これで中身を大まかに把握することができます。

私たちは、まだまだ多くの貴重な知見を持っています。

しかし、このような大規模な検索エンジンがどのように機能するか、少なくともリンクに関しては、外部からの多くの仮定や解釈は全く正しかったのです。

全体として、Yandexのコードリークは、最新の検索エンジンの内部構造について興味深い洞察を与えてくれる。

Ranktrackerの紹介

効果的なSEOのためのオールインワン・プラットフォーム

ビジネスが成功する背景には、強力なSEOキャンペーンがあります。しかし、数え切れないほどの最適化ツールやテクニックがあるため、どこから手をつければいいのかわからないこともあります。でも、もう心配はありません。効果的なSEOのためのオールインワンプラットフォーム「Ranktracker」を紹介します。

Ranktrackerの登録がついに無料になりました。

無料アカウント作成

または認証情報を使ってサインインする

調査結果のすべてがそのままGoogleに適用できるわけではないが、大規模なインターネット検索エンジンの一般的な機能に関して近年なされた多くの仮定が確認された。

SEO業界は、このリークから新たな知見を得ることで、まだ数ヶ月は興味深い状況が続くと推測されます。

今後数週間から数ヶ月の間にランキングファクターを追加していきますので、このページから目を離さないでください。

Special credits tohttps://twitter.com/alex_buraks

Felix Rose-Collins

Felix Rose-Collins

Ranktracker's CEO/CMO & Co-founder

Felix Rose-Collins is the Co-founder and CEO/CMO of Ranktracker. With over 15 years of SEO experience, he has single-handedly scaled the Ranktracker site to over 500,000 monthly visits, with 390,000 of these stemming from organic searches each month.

Ranktrackerを無料で使いましょう。

あなたのWebサイトのランキングを妨げている原因を突き止めます。

無料アカウント作成

または認証情報を使ってサインインする

Different views of Ranktracker app