• Technologia

Yandex wyciekł kod zawierający 1,922 czynniki rankingowe wyszukiwania Ranktracker wyjaśnia wszystkie czynniki rankingowe

  • Felix Rose-Collins
  • 7 min read
Yandex wyciekł kod zawierający 1,922 czynniki rankingowe wyszukiwania Ranktracker wyjaśnia wszystkie czynniki rankingowe

Intro

Prawdopodobnie słyszeliście o Yandexie, jest to 4. największa wyszukiwarka pod względem udziału w rynku na świecie. Wczoraj wyciekł zastrzeżony kod źródłowy Yandexa.

Najciekawszą częścią dla społeczności SEO jest: lista wszystkich 1922 czynników rankingowych używanych w algorytmie wyszukiwania

Pobraliśmy kod, przeanalizowaliśmy go i tutaj jest on przedstawiony w pomocny sposób.

Yandex leak

Incydent nie powinien być zaskoczeniem, ponieważ Yandex lub jego produkty są często przedmiotem cyberataków. W 2016 roku Hackread.com wyłącznie informował o tym, jak sprzedawca z ciemnej sieci sprzedawał 6,3 mln danych o kontach użytkowników Yandexa.

Wewrześniu 2021 r. rosyjski gigant wyszukiwarek został dotknięty jednym z największych ataków DDoS zasilanych przez 200 000 skompromitowanych urządzeń IoT.

Poznaj Ranktracker

Platforma "wszystko w jednym" dla skutecznego SEO

Za każdym udanym biznesem stoi silna kampania SEO. Ale z niezliczonych narzędzi optymalizacji i technik tam do wyboru, może być trudno wiedzieć, gdzie zacząć. Cóż, nie obawiaj się więcej, ponieważ mam właśnie coś, co może pomóc. Przedstawiamy Ranktracker - platformę all-in-one dla skutecznego SEO.

W końcu otworzyliśmy rejestrację do Ranktrackera całkowicie za darmo!

Załóż darmowe konto

Lub Zaloguj się używając swoich danych uwierzytelniających

Yandex git sources

Dlaczego to jest duże?

Yandex jest jedną z największych firm informatycznych w Rosji. Na terenie kraju świadczy szerszy zakres usług niż Google. Wyobraź sobie jedną firmę, która zastępuje Google, Uber, Amazon, Netflix i Spotify.

Czy ten przeciek jest prawdziwy?

Osobiście nigdy nie pracowałem w Yandexie, ale znam kilka osób, które pracowały tam w różnych okresach lub pracują tam nadal. Sprawdziłem, że przynajmniej niektóre archiwa na pewno zawierają współczesny kod źródłowy usług firmowych, a także dokumentację wskazującą na prawdziwe intranetowe adresy URL.

Co jest w środku

Leaker udostępnił link magnet zawierający 44,7 GB plików powiązanych ze źródłami Yandex git. Pliki zostały rzekomo skradzione z Yandexa w lipcu 2022 roku. Oprócz tego, że zawierają wytyczne antyspamowe, uważa się, że repozytoria kodu posiadają kod źródłowy Yandexa.

Wyciek ujawnił około 1,922 czynników rankingowych, które wyszukiwarka wykorzystuje w swoim algorytmie wyszukiwania. Kod został wycieknięty w formie torrenta. Według analizy zamieszczonej przez użytkownika Twittera Alexa Buraksa, wyciekłe dane obejmują liczne czynniki rankingowe, w tym trafność tekstu, PageRank, wiek treści, świeżość itp.

Ponadto istnieje kilka czynników związanych z zachowaniem użytkownika końcowego, czynników związanych z linkiem i niezawodnością hosta. SEO znajdują kilka nietypowych czynników rankingowych, takich jak liczba unikalnych odwiedzających, średnia pozycja domeny w całym zapytaniu i procent ruchu organicznego.

Wygląda na to, że przynajmniej kod źródłowy dla wszystkich głównych usług Yandex został wycieknięty:

  • Wyszukiwarki i boty indeksujące
  • Mapy - jak Google Maps i Street View
  • Alice - asystentka AI na wzór Siri / Alexy
  • Taxi - usługa taksówkowa podobna do Ubera
  • Bezpośrednio - usługa reklamowa typu Google Ads / Adwords
  • Mail - usługa pocztowa taka jak GMail
  • Disk - Usługa przechowywania plików, taka jak Google drive
  • Market - Marketplace jak Amazon
  • Podróże - Jak Booking.com plus bilety lotnicze, kolejowe i autobusowe
  • Yandex360 - Jak Google Workspaces dla usług na własnej domenie
  • Cloud - Prawdopodobnie nie cały kod infrastruktury został wycieknięty.
  • Pay - przetwarzanie płatności jak Stripe, ale z ograniczonym zestawem funkcji.
  • Metrika - jak Google Analytics
  • A przynajmniej jest tam część backendowa większości innych serwisów firmowych. Największe archiwum o nazwie "frontend" jest jeszcze do odkrycia.

Shestakov zauważył ponadto kilka kluczy API, które najprawdopodobniej zostały wykorzystane do testowania wdrożeń.

Szczegóły dotyczące tego wycieku: można znaleźć tutaj:

https://arseniyshestakov.com/2023/01/26/yandex-services-source-code-leak/

Yandex zaprzecza próbom włamania

Yandex twierdzi, że jest świadomy wycieku i już rozpoczął dochodzenie, aby sprawdzić, w jaki sposób "fragmenty" kodu źródłowego zostały wystawione na widok publiczny. Warto zauważyć, że wyciek nie obejmuje danych osobowych użytkowników lub pracowników.

Jednak biorąc pod uwagę znaczenie Yandexa w infrastrukturze IT Rosji i wyciek danych, można przypuszczać, że atak był motywowany inwazją tego kraju na Ukrainę. W grę mogli więc wchodzić proukraińscy hakerzy.

Poznaj Ranktracker

Platforma "wszystko w jednym" dla skutecznego SEO

Za każdym udanym biznesem stoi silna kampania SEO. Ale z niezliczonych narzędzi optymalizacji i technik tam do wyboru, może być trudno wiedzieć, gdzie zacząć. Cóż, nie obawiaj się więcej, ponieważ mam właśnie coś, co może pomóc. Przedstawiamy Ranktracker - platformę all-in-one dla skutecznego SEO.

W końcu otworzyliśmy rejestrację do Ranktrackera całkowicie za darmo!

Załóż darmowe konto

Lub Zaloguj się używając swoich danych uwierzytelniających

W swoim oficjalnym oświadczeniu Yandex wyjaśnił, że firma nie została zhakowana, a w wyciek jej kodu źródłowego do domeny publicznej mógł być zamieszany były pracownik. Czołowa rosyjska firma IT zauważyła, że wycieknięte archiwum zawiera fragmenty kodu będące częścią wewnętrznego repozytorium, którego dane różnią się od tych, które są wykorzystywane w najnowszej wersji repozytorium.

"Yandex nie został zhakowany. Nasza służba bezpieczeństwa znalazła fragmenty kodu z wewnętrznego repozytorium w domenie publicznej, ale zawartość różni się od obecnej wersji repozytorium używanego w usługach Yandex" - czytamy w oświadczeniu firmy.

Niemniej jednak, wycieki kodu źródłowego są niebezpieczne ze względu na stwarzanie poważnych problemów bezpieczeństwa dla organizacji, ponieważ aktorzy zagrożeń mogą obserwować własność intelektualną firmy i dane systemowe. Wyciek kodu źródłowego ułatwiłby napastnikom tworzenie ukierunkowanych exploitów bezpieczeństwa.

Teoretycznie, jaka jest różnica między algorytmami stosowanymi w Google i w Yandexie?

Są one dość podobne:

  • istnieje analog RankBrain- MatrixNet
  • używają PageRank (prawie taki sam jak w Google);
  • wiele algorytmów tekstowych jest takich samych.

Yandex vs Google

  • W Yandexie jest wielu byłych agentów.
  • Yanex został zbudowany jako klon Google;
  • Specjaliści SEO w Rosji używają prawie takich samych taktyk white hat SEO dla Yandex i dla Google

Oczywiście różnic jest sporo, ale podejście i większość czynników rankingowych wydaje się być podobna.

W praktyce: porównując wyniki wyszukiwania Google vs Yandex są one w ~70% zgodne.

Według Statcounter Yandex jest bliski Yahoo i Bingowi pod względem udziału w rynku:

search engine market share worldwide

Plik z czynnikami rankingowymi: https://dropbox.com/s/toyehkkfduogbwk/factors_gen.txt?dl=0

Struktura dla każdego czynnika:

  1. nazwa
  2. link do wewnętrznego wiki (ograniczony)
  3. AntiSeoUpperBound (haha)
  4. opis (jest po rosyjsku, przetłumaczyłem go dla Ciebie)
  5. itp.

1. Pierwszy czynnik na liście - PageRank.

First factor in the list - PageRank

Główne spostrzeżenia po analizie tej listy: Wiek linków jest czynnikiem rankingowym.

Age of links is a ranking factor.

2. Ruch i % ruchu organicznego są czynnikami rankingowymi.

Wykupienie PPC wpływa na rankingi.

Traffic and % of organic traffic are ranking factors

3. Numery w adresach URL są złe dla rankingów

Numbers in URLs is bad for rankings

4. Zbyt wiele ukośników w adresach URL jest niekorzystne dla rankingu

Too many slashes in URLs is bad for ranking

5. Twarda pesymizacja równa PR=0

Hard pessimization equal PR=0

6. Niezawodność hosta jest czynnikiem rankingowym

Mniej błędów 40x/50x, które masz, tym lepiej dla Twojego ruchu organicznego

Host reliability is a ranking factor

7. Istnieje osobny czynnik rankingowy dla upliftingu Wikipedii

there is a separate ranking factor for uplifting Wikipedia

8. Wiele czynników rankingowych związanych z zachowaniem użytkownika - CTR, last-click, time on site, bounce rate

Uwaga: Jesteśmy prawie pewni, że w Yandexie te czynniki wpływają znacznie bardziej niż w Google.

A lot of ranking factors connected with user behaviour - CTR, last-click, time on site, bounce rate

9. Wiek dokumentu i ostatnia aktualizacja są czynnikami rankingowymi

Document age and last update both are ranking factors

10. Średnia pozycja domeny na wszystkie zapytania jest czynnikiem rankingowym

Average domain position across all queries is a ranking factor

11. Głębokość indeksowania jest czynnikiem rankingowym

Trzymaj ważne strony bliżej strony głównej:

  • górne strony: 1 kliknięcie ze strony głównej
  • ważne strony: <3 kliknięcia

Crawl depth is a ranking factor

12. Dodatkowo: czynnik rankingowy dla stron osieroconych

Można to znaleźć za pomocą naszego narzędzia do audytu strony internetowej

Additionally: ranking factor for orphan pages

13. Backlinki ze stron głównych są ważniejsze niż ze stron wewnętrznych

Backlinks from main pages are more important than from internal pages

14. Liczba zapytań o Twoją stronę/url jest czynnikiem rankingowym

Im więcej tym lepiej

Number of search queries of your site/url is a ranking factor

15. Ruch z Wikipedii jest czynnikiem rankingowym

Traffic from Wikipedia is a ranking factor

16. Jeśli Twój adres url byłby ostatnim dla sesji wyszukiwania (użytkownik znajdzie to, czego potrzebuje) - wpłynęłoby to na rankingi

Są na to czynniki ścisłe, jak i przewidywalne.

If your url would be the last for search session (user will find what he needs) - it would impact rankings

17. Czynnik rankingowy zakładek

Im więcej użytkowników doda do zakładek dany adres url, tym większa będzie jego wartość czynnikowa

Bookmarks ranking factor

18. Specjalne czynniki rankingowe dla krótkich filmów (tiktok, szort, reel)

Special ranking factors for short videos (tiktok, shorts, reels)

19. Mapy js-api na stronie (na przykład Google Maps) są czynnikiem rankingowym

W Google (np. w niszy podróżniczej) dodawanie map z przydatnymi informacjami/funkcjami też się sprawdza.

Maps js-api on page (for example Google Maps) is a ranking factor

20. Słowa kluczowe w URL są czynnikami rankingowymi

Jak widzimy z opisu - optymalny zawierałby do 3 słów z zapytania ofertowego.

Keywords in URL are ranking factors

21. Powracający użytkownicy są czynnikiem rankingowym

Buduj produkty z dobrą retencją, a będzie to korzystne dla Twojego SEO (jest wiele czynników rankingowych do mierzenia tego).

Returning users is a ranking factor

22. Procentowy udział wielkich liter w <title> jest czynnikiem rankingowym

Percentage of CAPITAL LETTERS in title> is a ranking factor

23. Procentowy udział ruchu bezpośredniego jest czynnikiem rankingowym

Aka. Jeśli cały Twój ruch pochodził z Organic Search - jest to podejrzane + złe dla rankingów.

Percentage of direct traffic is a ranking factor

24. Jeszcze jeden czynnik rankingowy jakości treści - złamane osadzone na stronie wideo

  • Osadzanie filmów - dobre dla rankingów.
  • Broken embed videos - złe.

One more ranking factor for content quality - broken embedded video on the page

25. Zweryfikowane konta na portalach społecznościowych plasują się inaczej niż inne urle

Ważne przy wyszukiwaniu marki - w idealnym przypadku przy wyszukiwaniu Twojej marki w top 10 powinny znajdować się tylko Twoje domeny + zweryfikowane sieci społecznościowe

Verified accounts on social networks ranks differently as other urls

26. Jeśli anchory backlinków zawierają wszystkie słowa ze słów kluczowych - jest to dobre dla SEO

Jeśli jest w jednym linku - jest to korzystniejsze. Zwłaszcza jeśli kolejność słów jest taka sama.

If your backlinks anchors contain all words from the keywords - it's good for SEO

27. Stosunek "dobrych" do "złych" backlinków jest czynnikiem rankingowym

![Ratio "good" vs "bad" backlinks is a rank factor](https://www.ranktracker.com/media/yandex-leaked-code-containing-search-ranking-factors-ranktracker-explains-all-ranking-factors/images/i84.png "Ratio "good" vs "bad" backlinks is a rank factor")

28. Ranga jakości tekstów na domenie jest czynnikiem rankingowym

Strony o niskiej jakości treści wpływają na całą domenę.

The quality rank of texts on the domain is a ranking factor

29. Ilość reklam na stronie jest czynnikiem rankingowym

Amount of advertisements on a page is a ranking factor

30. Istnieje losowość jako osobny czynnik rankingowy

Kiedy nie rozumiesz, dlaczego niektóre strony są na górze - może to być po prostu losowe (aby przetestować czynniki zachowania).

There is a random as a separate ranking factor

31. JS z Google Analytics jest czynnikiem rankingowym

Przewidywalnie. Dobre strony internetowe korzystające z GA / Google analytics częściej niż złe strony.

JS from Google Analytics is a ranking factor

32. Wpływ backlinków z 100 najlepszych stron internetowych według PageRank na rankingi

Backlinks from the top 100 best websites by PageRank impacts on rankings

33. Adres URL nie ma cyfr

/100-best-credit-cards

/best-credit-cards

URL has no digits

34. Liczba ukośników w adresie URL

/finanse/articles/2023/investment-advices

/investment-advices

Number of slashes in URL

35. Liczba nie-litery w adresie URL

/pet-toys&all$currency=dollar#mobile

/pet-toys

Number of non-letters in URL

36. Symbol '?' w adresie URL jest czynnikiem rankingowym

/movies?genre=action

/action-movies

'?' symbol in the URL is a ranking factor

37. Zapytanie do wyszukiwarki = adres URL, łącznie z kropkami i spacjami (??)

Szukane zapytanie to "Franklin D. Roosevelt":

/roosevelt

/Franklin_D._Roosevelt

Search query = URL, including dots and spaces (??)

38. Stara data w URL

/2009/12/01/how-to-tie-a-tie

/jak zawiązać krawat

Old date in the URL

39. Słowa kluczowe znajdują się w adresie URL, a nie w tekście strony

/gry wideo & strona jest o muzyce

/video-gry & strona jest o grach wideo

Keywords is in URL, not in the text of the page

40. Pokrycie adresów URL trygramami z zapytania wyszukiwawczego

/hotele-new-zealand

/nz

/cheap-hotels-in-new-zealand-best-deals

URL coverage with trigrams from the search query

  • Zawrzyj 1-3 najważniejsze słowa w adresie URL;
  • Mniej ukośników/cyfr/nielitery, jeśli nie jest to część słowa kluczowego

41. początkowe wagi czynników rankingowych Yandex

Ostateczne wagi obliczone przez AI(matrixnet), ale wartości początkowe też są przydatne.

initial weights of Yandex ranking factors

Wniosek

No to mamy, to wszystko, czym się dzielimy na razie. Dopiero zaczynamy. To zapewnia przybliżony przegląd tego, co tam jest.

To tylko zarysowanie powierzchni, a przed nami jeszcze wiele cennych spostrzeżeń.

Mieliśmy jednak sporo racji w wielu założeniach i interpretacjach z zewnątrz, jak będzie działać tak rozbudowana wyszukiwarka, przynajmniej jeśli chodzi o linki.

W sumie, wyciek kodu Yandex oferuje fascynujący wgląd w wewnętrzne funkcjonowanie nowoczesnej wyszukiwarki.

Poznaj Ranktracker

Platforma "wszystko w jednym" dla skutecznego SEO

Za każdym udanym biznesem stoi silna kampania SEO. Ale z niezliczonych narzędzi optymalizacji i technik tam do wyboru, może być trudno wiedzieć, gdzie zacząć. Cóż, nie obawiaj się więcej, ponieważ mam właśnie coś, co może pomóc. Przedstawiamy Ranktracker - platformę all-in-one dla skutecznego SEO.

W końcu otworzyliśmy rejestrację do Ranktrackera całkowicie za darmo!

Załóż darmowe konto

Lub Zaloguj się używając swoich danych uwierzytelniających

Choć nie wszystkie ustalenia można bezpośrednio odnieść do Google'a, to jednak potwierdza się wiele założeń poczynionych w ostatnich latach na temat ogólnego funkcjonowania dużych wyszukiwarek internetowych.

Zakładam, że branża SEO ma przed sobą jeszcze kilka ciekawych miesięcy z nowymi spostrzeżeniami z tego wycieku.

Miej oko na tę stronę, ponieważ będziemy nadal dodawać czynniki rankingowe w ciągu najbliższych tygodni i miesięcy.

Specjalne kredyty dla https://twitter.com/alex_buraks.

Felix Rose-Collins

Felix Rose-Collins

Ranktracker's CEO/CMO & Co-founder

Felix Rose-Collins is the Co-founder and CEO/CMO of Ranktracker. With over 15 years of SEO experience, he has single-handedly scaled the Ranktracker site to over 500,000 monthly visits, with 390,000 of these stemming from organic searches each month.

Zacznij używać Ranktrackera... Za darmo!

Dowiedz się, co powstrzymuje Twoją witrynę przed zajęciem miejsca w rankingu.

Załóż darmowe konto

Lub Zaloguj się używając swoich danych uwierzytelniających

Different views of Ranktracker app