イントロ
世界第4位のシェアを誇る検索エンジン、Yandexをご存知でしょうか。昨日、そのYandexの独自ソースコードが流出しました。
SEO関係者にとって最も興味深いのは、検索アルゴリズムに使用されている1922のランキング要因のリストです。
私たちはコードをダウンロードし、それを分析し、ここで役に立つ方法で紹介しています。
ヤンデックスやその製品はしばしばサイバー攻撃を受けているため、今回の事件は驚くに値しない。2016年、Hackread.comは、ダークウェブベンダーが630万のYandexユーザーアカウントデータを販売していたことを独占的に報じました。
2021年9月、ロシアの検索エンジン大手は、感染した20万台のIoTデバイスを電源とする最大級のDDoS攻撃を受けた。
効果的なSEOのためのオールインワン・プラットフォーム
ビジネスが成功する背景には、強力なSEOキャンペーンがあります。しかし、数え切れないほどの最適化ツールやテクニックがある ため、どこから手をつければいいのかわからないこともあります。でも、もう心配はありません。効果的なSEOのためのオールインワンプラットフォーム「Ranktracker」を紹介します。
なぜこれが大きいのか?
Yandexはロシア最大のIT企業の1つです。国内では、Googleよりも幅広いサービスを提供しています。Google、Uber、Amazon、Netflix、Spotifyに代わる1つの企業を想像してください。
このリークは本当ですか?
私自身はYandexで働いたことはありませんが、異なる時代にそこで働いていた、あるいは現在も働いている人を何人か知っています。私は、少なくともいくつかのアーカイブには、会社のサービスの最新のソースコードと、実際のイントラネットのURLを指す文書が確実に含まれていることを確認しました。
内容紹介
リーク者は、Yandexのgitソースにリンクされた44.7GBのファイルを含むマグネットリンクを共有しています。このファイルは、2022年7月にYandexから盗まれたとされている。スパム対策のガイドラインが含まれているほか、コードリポジトリにはYandexのソースコードが含まれているとみられている。
この流出により、検索エンジンが検索アルゴリズムで使用している約1,922のランキング要因が明らかになった。コードはtorrentとして流出した。TwitterユーザーのAlex Buraks氏が投稿した分析によると、流出したデータには、テキストの関連性、PageRank、コンテンツの年齢、新鮮さなど、数多くのランキング要因が含まれている。
世界第4位のシェアを誇る検索エンジン、Yandexをご存知でしょうか。昨日、Yandexの独自のソースコードがリークされました。
- Alex Buraks (@alex_buraks)2023年1月27日
SEOコミュニティにとって最も興味深いのは、検索アルゴリズムに使用されている1922のランキングファクターのリストです。
[🧵pic.twitter.com/6x82AAmbON
さらに、エンドユーザーの行動要因、リンク関連要因、ホストの信頼性など、いくつかの要因が存在します。SEO担当者は、ユニークビジター数、クエリ全体の平均ドメインランキング、オーガニックトラフィックの割合など、変わったランキング要因を見つけることができます。
少なくともYandexの主要なサービスのソースコードが流出したようです。
- 検索エンジンとインデックス作成ボット
- 地図 - Googleマップやストリートビューのように。
- アリス - Siri / AlexaのようなAIアシスタント
- タクシー - Uberのようなタクシーサービス
- ダイレクト - Google Ads / Adwordsなどの広告サービス
- メール - GMailのようなメールサービス
- ディスク - Google ドライブのようなファイル保存サービス
- マーケット - アマゾンのようなマーケットプレイス
- 旅行 - Booking.comに飛行機、電車、バスのチケットを追加するようなものです。
- Yandex360 - Google Workspacesのように、独自ドメイン上のサービスを利用できます。
- クラウド - おそらく、すべてのインフラコードが流出したわけではありません。
- Pay - Stripeのような決済処理ですが、機能は限定されています。
- Metrika - Google Analyticsのように
- そして、少なくとも他社サービスの大半のバックエンド部分は存在する。フロントエンドと呼ばれる最大のアーカイブはまだ未開拓です。
さらに、Shestakov氏は、いくつかのAPIキーが、テスト展開に使用された可能性が高いことを指摘した。
今回の流出に関する詳細:こちらをご覧ください。
https://arseniyshestakov.com/2023/01/26/yandex-services-source-code-leak/
ヤンデックス、ハッキングの試みを否定
Yandexは、今回の流出を認識しており、ソースコードの「断片」がどのように公開されたかを確認するため、すでに調査を開始したと主張している。なお、今回の流出には、ユーザーや従業員の個人情報は含まれていない。
しかし、ロシアのITインフラにおけるYandexの重要性や流出したデータを考慮すると、今回の攻撃の動機は同国のウクライナ侵攻にあると 推測されます。つまり、親ウクライナのハッカーが関与している可能性があるのです。
効果的なSEOのためのオールインワン・プラットフォーム
ビジネスが成功する背景には、強力なSEOキャンペーンがあります。しかし、数え切れないほどの最適化ツールやテクニックがあるため、どこから手をつければいいのかわからないこともあります。でも、もう心配はありません。効果的なSEOのためのオールインワンプラットフォーム「Ranktracker」を紹介します。
Yandexは公式声明の中で、同社はハッキングされておらず、元従業員が同社のソースコードをパブリックドメインに流出させたことに関与している可能性があることを明らかにした。ロシアの大手IT企業は、流出したアーカイブには内部リポジトリの一部であるコード断片が含まれており、そのデータはリポジトリの最新バージョンで使用されているものとは異なっていると指摘している。
"Yandexはハッキングされたわけではありません。当社のセキュリティサービスは、パブリックドメインの内部リポジトリからコードの断片を発見したが、内容はYandexのサービスで使用されているリポジトリの現在のバージョンとは異なる」と同社の声明は述べている。
しかしながら、ソースコードの漏洩は、脅威者が企業の知的財産やシステムデータを観察することができるため、組織に深刻なセキュリティ問題を引き起こす危険性があります。ソースコードの漏えいは、攻撃者が標的型攻撃プログラムを作成するのに役立つ。
GoogleとYandexで使われているアルゴリズムは、理論的にはどのような違いがあるのでしょうか?
かなり似ていますね。
- RankBrainの類似品であるMatrixNetがあります。
- は、PageRank(Googleとほぼ同じ)を使っているそうです。
- 多くのテキストアルゴリズムがそうである。
- ヤンデックスには元グーグラーがたくさんいる
- ヤネックスは、Googleのクローンとして作られました。
- ロシアのSEO専門家は、Yandex向け とGoogle向けでほぼ同じホワイトハットSEO戦術を使用しています。
もちろん、多くの違いはありますが、アプローチやランキング要因の大部分は似ているように思います。
実際には、GoogleとYandexの検索結果を比較すると、70%程度一致する。
Statcounterによると、YandexはYahooとBingに近いマーケットシェアを持っています。
ランキングファクターを含むファイル: https://dropbox.com/s/toyehkkfduogbwk/factors_gen.txt?dl=0
各因子の構造。
- 名前
- 内部Wikiへのリンク(制限付き)
- アンチセオアッパーバウンド(はーと)
- 説明文(ロシア語なので、私が翻訳しました。)
- その他
1.リストの最初の要素 - PageRank。
このリストを分析した後の主な洞察。リンクの年齢はランキング要因である。
2.トラフィックとオーガニックトラフィックの割合はランキングの要因になります。
PPCの購入はランキングに影響します。
3.URLに数字が入るとランキングに不利
4.URLにスラッシュが多すぎるとランキングに不利になる
5.ハードペシマイゼーションイコールPR=0
6.ホストの信頼性はランキング要因
40x/50xエラーが少なければ少ないほど、オーガニックトラフィックが向上します。
7. Wikipediaを盛り上げるためのランキング要素は別にある
8.ユーザー行動に関連する多くのランキング要因 - CTR、ラストクリック、サイト滞在時間、バウンス率
注:Yandexでは、これらの要素がGoogleよりはるかに大きな影響を与えることはほぼ確実です。
9.文書年齢と最終更新日はともにランキング要因
10.全クエリの平均ドメイン位置がランキング要因に
11.クロールの深さはランキングの要因になる
重要なページはメインページに近づける。
- のトップページをご覧ください。トップページから1クリック
- 重要なページ:<3クリック
12.さらに:孤児ページのランキング要因
ウェブサイト監査ツールで確認することができます。
13.メインページからのバックリンクは、内部ページからのバックリンクよりも重要である
14.サイト/urlの検索クエリ数はランキング要因になる
多ければ多いほど良い
15.ウィキペディアからのトラフィックはランキング要因になる
16. あなたのURLが検索セッションの最後になる場合(ユーザーは彼が必要とするものを見つける) - それはランキングに影響を与えるだろう。
これには厳密な要因と、予測可能な要因があります。
17.ブックマーク数ランキング要因
ユーザーがブックマークに追加するほど、そのURLのファクター価値が高まる
18.短い動画(tiktok、ショートフィルム、リール)の特別なランキング要因
19.地図 js-api オンページ(例えば Google Maps)はランキング要因になる
Googleでは(例えば旅行のニッチ分野で)有用な情報/機能を持つマップを追加することも有効です。
20.URL内のキーワードはランキング要因
説明文からわかるように、最適なのは検索クエリから最大3つの単語を含むことである。
21.リピーターがランキング要因に
リテンションが良い製品を作れば、SEOにも有利になる(それを測るためのランキング要素がたくさんある)。
22.<title>に含まれる大文字の割合はランキング要因になる
23.直接アクセスの割合がランキング要因になる
アカン。もし、あなたのトラフィックがすべてOrganic Searchから来たのなら......怪しい+ランキングに悪い。
24.コンテンツ品質に関するもう一つのランキング要因 - ページ上の壊れた埋め込みビデオ
- 動画を埋め込む - ランキングに有利です。
- 壊れた埋め込みビデオ - 悪い。
25.ソーシャルネットワーク上の認証済みアカウントは、他のURLとは異なる順位になる
ブランド検索に重要 - ブランド検索では、トップ10に自社のドメインと検証済みのソーシャルネットワークのみが表示されることが理想的です。
26.バックリンクのアンカーにキーワードの単語がすべて含まれている場合、それはSEOにとって良いことです。
一つのリンクの中にあるのなら-、その方が有益です。特に語順が同じであれば。
27.良い」バックリンクと「悪い」バックリンクの比率はランキング要因になる
バックリンクの比率はランキング要因になる](/images/i84.png "Ratio "good" vs "bad" backlinks is ranking factor")とあります。
28.ドメイン上のテキストの品質ランクがランキング要因になる
低品質のコンテンツがあるページは、ドメイン全体に影響を及ぼします。
29.ページ内の広告の量はランキング要因になる
30.別のランキング要因としてランダム性がある
いくつかのページが上位にある理由がわからないとき - それは単なるランダムなものかもしれません(行動要因をテストするため)。
31.GoogleアナリティクスのJSはランキング要因になる
予想通り。GA / Googleアナリティクスを使用している良いウェブサイトは、悪いウェブサイトよりも頻繁です。
32.PageRankによる上位100位までのウェブサイトからのバックリンクが順位に与える影響
33.URLに数字がない
❌/100ベストクレジットカード
✅ベストクレジットカード
34.URLのスラッシュの数
❌/finance/articles/2023/investment-advices
投資に関するアドバイス
35.URLに含まれる文字以外の数
ペット・トイ&オール$currency=dollar#mobile
ペットトイズ
36.URLの'?'マークはランキング要因になる
❌/movies?genre=action
アクション・ムービー
37.検索クエリ=URL(ドットやスペースを含む)(?
検索クエリは「Franklin D. Roosevelt」です。
❌/ルーズベルト
フランクリン・ルーズベルト(Franklin_D._Roosevelt
38.URLの日付が古い
❌ 2009/12/01/how-to-tie-a-tie
✅/ハウ・トゥ・タイ・ア・タイ
39. キーワードはページの本文ではなく、URLの中にある
ビデオゲームと音楽に関するページ
です。
ビデオゲームに関するページ
です。
40.検索クエリからのトリグラムを用いたURLカバレッジ
ホテルズニュージーランド
❌/nz
❌ニュージーランドの格安ホテル
情報
- URLには、最も重要な1~3つの単語を含める。
- キーワードの一部でない場合は、スラッシュ/数字/文字以外を少なくする
41. Yandex ランキングファクターの初期重み付け
最終的な重みはAI(マトリックスネット)で計算しますが、初期値も有効です。
結論
さて、ここまでが今のところ私たちが共有しているすべてです。 これからが本番です。これで中身を大まかに把握することができます。
私たちは、まだまだ多くの貴重な知見を持っています。
しかし、このような大規模な検索エンジンがどのように機能するか、少なくともリンクに関しては、外部からの多くの仮定や解釈は全く正しかったのです。
全体として、Yandexのコードリークは、最新の検索エンジンの内部構造について興味深い洞察を与えてくれる。
効果的なSEOのためのオールインワン・プラットフォーム
ビジネスが成功する背景には、強力なSEOキャンペーンがあります。しかし、数え切れないほどの最適化ツールやテクニックがあるため、どこから手をつければいいのかわからないこともあります。でも、もう心配はありません。効果的なSEOのためのオールインワンプラットフォーム「Ranktracker」を紹介します。
調査結果のすべてがそのままGoogleに適用できるわけではないが、大規模なインターネット検索 エンジンの一般的な機能に関して近年なされた多くの仮定が確認された。
SEO業界は、このリークから新たな知見を得ることで、まだ数ヶ月は興味深い状況が続くと推測されます。
今後数週間から数ヶ月の間にランキングファクターを追加していきますので、このページから目を離さないでください。
Special credits tohttps://twitter.com/alex_buraks