Въведение
Вероятно сте чували за Yandex- това е четвъртата по големина търсачка по пазарен дял в света. Вчера изтече собственият изходен код на Yandex.
Най-интересната част за SEO общността е: списъкът с всички 1922 фактора за класиране, използвани в алгоритъма за търсене
Изтеглихме кода, анализирахме го и тук е представен по полезен начин.
Инцидентът не би трябвало да е изненада, тъй като Yandex или нейните продукти често са обект на кибератаки. През 2016 г. Hackread.com съобщи ексклузивно за това как търговец от тъмната мрежа е продавал данни за 6,3 милиона потребителски акаунта на Yandex.
През септември 2021 г. руският гигант в областта на търсачките беше засегнат от една от най-големите DDoS атаки, задвижвана от 200 000 компрометирани устройства от интернет на нещата.
Универсалната платформа за ефективна SEO оптимизация
Зад всеки успешен бизнес стои силна SEO кампания. Но с безбройните инструменти и техники за оптимизация, от които можете да избирате, може да е трудно да разберете откъде да започнете. Е, не се страхувайте повече, защото имам точно това, което ще ви помогне. Представяме ви платформата Ranktracker "всичко в едно" за ефективна SEO оптимизация
Най-накрая отворихме регистрацията за Ranktracker напълно безплатно!
Създаване на безплатен акаунтИли влезте в системата, като използвате данните си
Защо това е голямо?
Yandex е една от най-големите ИТ компании в Русия. В страната тя предоставя по-широк набор от услуги от Google. Представете си една компания, която замества Google, Uber, Amazon, Netflix и Spotify.
Истинско ли е това изтичане?
Лично аз никога не съм работил в Яндекс, но познавам няколко души, които са работили там по различно време или все още работят там. Проверих, че поне някои от архивите със сигурност съдържат съвременен изходен код за услугите на компанията, както и документация, насочваща към реални интранет адреси.
Какво има вътре
Лийкърът е споделил магнитна връзка, съдържаща 44,7 GB файлове, свързани с източниците на Yandex git. Предполага се, че файловете са били откраднати от Yandex през юли 2022 г. Смята се, че освен че съдържат насоки за борба със спама, хранилищата съдържат изходния код на Yandex.
Изтичането на информация разкрива около 1922 фактора за класиране, които търсачката използва в алгоритъма си за търсене. Кодът е изтекъл под формата на торент. Според анализа, публикуван от потребителя на Twitter Алекс Буракс, изтеклите данни включват множество фактори за класиране, включително релевантност на текста, PageRank, възраст на съдържанието, свежест и др.
Вероятно сте чували за Yandex - това е четвъртата по големина търсачка по пазарен дял в света. Вчера изтече собственият изходен код на Yandex.
- Alex Buraks (@alex_buraks) 27 януари 2023 г.
Най-интересната част за SEO общността е: списъкът на всички 1922 фактора за класиране, използвани в алгоритъма за търсене
[🧵THREAD] pic.twitter.com/6x82AAmbON
Освен това съществуват няколко фактора, свързани с поведението на крайния потребител, с връзката и с надеждността на хоста. SEO оптимизаторите откриват някои необичайни фактори за класиране, като например броя на уникалните посетители, средното класиране на домейна в заявките и процента на органичния трафик.
Изглежда, че поне изходният код на всички основни услуги на Yandex е изтекъл:
- Търсеща машина и индексиращ бот
- Карти - като Google Maps и Street View
- Alice - асистент с изкуствен интелект като Siri / Alexa
- Такси - таксиметрова услуга, подобна на Uber
- Директно - услуга за реклами като Google Ads / Adwords
- Mail - Пощенска услуга като GMail
- Диск - Услуга за съхранение на файлове като Google drive
- Пазар - Пазар като Amazon
- Пътуване - като Booking.com плюс билети за самолет, влак и автобус
- Yandex360 - Подобно на работните пространства на Google за услуги в собствения ви домейн
- Облак - Вероятно не целият код на инфраструктурата е изтекъл.
- Pay - Обработка на плащания като Stripe, но с ограничен набор от функции
- Metrika - Подобно на Google Analytics
- И поне бекенд частта на повечето други услуги на компанията е налице. Най-големият архив, наречен "frontend", предстои да бъде проучен.
Освен това Шестаков отбеляза някои API ключове, които най-вероятно са били използвани за тестване на внедряването.
Подробности за това изтичане: можете да намерите тук:
https://arseniyshestakov.com/2023/01/26/yandex-services-source-code-leak/
Yandex отрича опит за хакване
Yandex твърди, че е наясно с изтичането на информация и вече е започнала разследване, за да провери как "фрагменти" от изходния код са станали публично достояние. Струва си да се отбележи, че изтичането не включва лични данни на потребители или служители.
Въпреки това, като се има предвид значението на "Яндекс" в ИТ инфраструктурата на Русия и изтеклите данни, може да се предположи, че атаката е била мотивирана от нахлуването на страната в Украйна. Така че може да са замесени проукраински хакери.
Универсалната платформа за ефективна SEO оптимизация
Зад всеки успешен бизнес стои силна SEO кампания. Но с безбройните инструменти и техники за оптимизация, от които можете да избирате, може да е трудно да разберете откъде да започнете. Е, не се страхувайте повече, защото имам точно това, което ще ви помогне. Представяме ви платформата Ranktracker "всичко в едно" за ефективна SEO оптимизация
Най-накрая отворихме регистрацията за Ranktracker напълно безплатно!
Създаване на безплатен акаунтИли влезте в системата, като използвате данните си
В официалното си изявление Yandex уточни, че компанията не е била хакната и че бивш служител може да е замесен в изтичането на изходния ѝ код в публичното пространство. Водещата руска ИТ фирма отбеляза, че изтеклият архив включва фрагменти от кода, които са част от вътрешно хранилище, чиито данни са различни от използваните в последната версия на хранилището.
"Яндекс не е бил хакнат. Нашата служба за сигурност откри фрагменти от код от вътрешно хранилище в публичното пространство, но съдържанието им се различава от текущата версия на хранилището, използвано в услугите на Яндекс", се казва в изявлението на компанията.
Въпреки това изтичането на изходен код е опасно, тъй като създава сериозни проблеми за сигурността на организациите, тъй като участниците в заплахите могат да наблюдават интелектуалната собственост и системните данни на компанията. Изтичането на изходен код би помогнало на нападателите да създадат целеви експлойти за сигурност.
Теоретично каква е разликата между алгоритмите, използвани в Google и в Yandex?
Те са доста сходни:
- има аналог на RankBrain- MatrixNet
- те използват PageRank (почти същия като в Google);
- много от текстовите алгоритми са еднакви.
- В Yandex има много бивши гугълци
- Yanex е създаден като клонинг на Google;
- Специалистите по SEO в Русия използват почти еднакви тактики за SEO с бяла шапка за Yandex и за Google
Разбира се, има много разлики, но подходът и повечето фактори за класиране изглеждат сходни.
На практика: сравнявайки резултатите от търсенето в Google и Yandex, те съвпадат на ~70%.
Според Statcounter Yandex е близо до Yahoo и Bing по пазарен дял:
Файлът с фактори за класиране: https: //dropbox.com/s/toyehkkfduogbwk/factors_gen.txt?dl=0
Структура за всеки фактор:
- име
- връзка към вътрешно уики (ограничено)
- AntiSeoUpperBound (haha)
- описание (на руски език, преведох го за вас)
- и т.н.
1. Първият фактор в списъка - PageRank.
Основни прозрения след анализа на този списък: Възрастта на връзките е фактор за класиране.
2. Трафикът и % от органичния трафик са фактори за класиране.
Закупуването на PPC се отразява на класирането.
3. Числата в URL адресите са вредни за класирането
4. Твърде много наклонени черти в URL адресите са вредни за класирането
5. Твърда песимизация, равна на PR=0
6. Надеждността на хоста е фактор за класиране
Колкото по-малко грешки 40x/50x имате, толкова по-добре за органичния ви трафик
7. Има отделен фактор за класиране за издигане на Wikipedia
8. Много фактори за класиране, свързани с поведението на потребителите - CTR, последно кликване, време на сайта, процент на отпадане
Забележка: Почти сме сигурни, че в Yandex тези фактори влияят много повече, отколкото в Google.
9. Възрастта на документа и последната актуализация са фактори за класиране
10. Средната позиция на домейна при всички заявки е фактор за класиране
11. Дълбочината на обхождане е фактор за класиране
Дръжте важните си страници по-близо до главната страница:
- най-горни страници: 1 кликване от главната страница
- важни страници: <3 кликвания
12. Освен това: фактор за класиране на осиротели страници
Можете да откриете това чрез нашия инструмент за одит на уебсайтове
13. Обратните връзки от основните страници са по-важни от тези от вътрешните страници
14. Броят на заявките за търсене на вашия сайт/връзка е фактор за класиране
Колкото повече, толкова по-добре
15. Трафикът от Wikipedia е фактор за класиране
16. Ако URL адресът ви е последен за сесията на търсене (потребителят ще намери това, което му е необходимо) - това ще се отрази на класирането
За това има както строги фактори, така и предвидими фактори.
17. Фактор за класиране на отметките
Колкото повече потребители добавят даден URL адрес в отметките си, толкова по-голяма стойност има той като фактор
18. Специални фактори за класиране на кратки видеоклипове (tiktok, shorts, reels)
19. Maps js-api на страницата (например Google Maps) е фактор за класиране
Добавянето на карти с полезна информация/функционалност работи и в Google (например в нишата за пътувания).
20. Ключовите думи в URL адреса са фактори за класиране
Както се вижда от описанието, оптималният вариант ще включва до 3 думи от заявката за търсене.
21. Връщащите се потребители са фактор за класиране
Създавайте продукти с добро задържане и това ще бъде от полза за вашата SEO оптимизация (има много фактори за измерване на това).
22. Процентът на главни букви в <title> е фактор за класиране
23. Процентът на директния трафик е фактор за класиране
Известен още като. Ако целият ви трафик идва от органично търсене - това е подозрително + лошо за класирането.
24. Още един фактор за класиране по отношение на качеството на съдържанието - счупено вградено видео на страницата
- Вграждане на видеоклипове - полезно за класирането.
- Счупени видеоклипове за вграждане - лошо.
25. Потвърдените акаунти в социалните мрежи се класират по различен начин от другите урни
Важно за търсенията на марката - в идеалния случай при търсене на вашата марка в първите 10 трябва да има само вашите домейни + проверени социални мрежи.
26. Ако котвите на обратните ви връзки съдържат всички думи от ключовите думи - това е добре за SEO
Ако е в една връзка - това е по-полезно. Особено ако редът на думите е един и същ.
27. Съотношението "добри" и "лоши" обратни връзки е фактор за класиране
![Съотношението "добри" и "лоши" обратни връзки е фактор за класиране](https://www.ranktracker.com/media/yandex-leaked-code-containing-search-ranking-factors-ranktracker-explains-all-ranking-factors/images/i84.png "Съотношението "добри" и "лоши" обратни връзки е фактор за класиране")
28. Рангът на качеството на текстовете в домейна е фактор за класиране
Страниците с нискокачествено съдържание влияят на целия домейн.
29. Количеството на рекламите на дадена страница е фактор за класиране
30. Съществува случайност като отделен фактор за класиране
Когато не разбирате защо някои от страниците са на първо място - това може да е просто случайно (за тестване на фактори на поведение).
31. JS от Google Analytics е фактор за класиране
Предсказуемо. Добрите уебсайтове използват GA / Google Analytics по-често от лошите уебсайтове.
32. Влияние на обратните връзки от първите 100 най-добри уебсайта по PageRank върху класирането
33. URL няма цифри
❌ /100-best-credit-cards
✅ /best-credit-cards
34. Брой наклонени черти в URL адреса
❌ /finance/articles/2023/investment-advice
✅ /investment-advice
35. Брой на буквите, които не се съдържат в URL адреса
❌ /pet-toys&all$currency=dollar#mobile
✅ /pet-toys
36. Символът '?' в URL адреса е фактор за класиране
❌ /movies?genre=action
✅ /action-movies
37. Заявка за търсене = URL, включително точки и интервали (??)
Запитването за търсене е "Franklin D. Roosevelt":
❌ /roosevelt
✅ /Franklin_D._Roosevelt
38. Стара дата в URL адреса
❌ /2009/12/01/how-to-tie-a-tie
✅ /как да си вържем вратовръзката
39. Ключовите думи са в URL адреса, а не в текста на страницата
❌ /video-games & страницата е за музика
✅ /video-games & страницата е за видеоигри
40. Покриване на URL с триграми от заявката за търсене
✅ /hotels-new-zealand
❌ /nz
❌ /cheap-hotels-in-new-zealand-best-deals
- Включете 1-3 най-важни думи в URL адреса;
- По-малко наклонени черти/цифри/небукви, ако те не са част от ключовата ви дума
41. първоначални тегла на факторите за класиране на Yandex
Окончателните тегла са изчислени от AI(matrixnet), но първоначалните стойности също са полезни.
Заключение
Ето това е всичко, което споделяме за момента. Едва започваме. Това ви дава груб преглед на това, което има в него.
Тук само набраздяваме повърхността, а предстоят още много ценни прозрения.
Но ние бяхме съвсем прави в много предположения и тълкувания отвън за това как би работила такава обширна търсачка, поне по отношение на връзките.
Като цяло изтичането на кода на Yandex предлага интересен поглед към вътрешната работа на една модерна търсачка.
Универсалната платформа за ефективна SEO оптимизация
Зад всеки успешен бизнес стои силна SEO кампания. Но с безбройните инструменти и техники за оптимизация, от които можете да избирате, може да е трудно да разберете откъде да започнете. Е, не се страхувайте повече, защото имам точно това, което ще ви помогне. Представяме ви платформата Ranktracker "всичко в едно" за ефективна SEO оптимизация
Най-накрая отворихме регистрацията за Ranktracker напълно безплатно!
Създаване на безплатен акаунтИли влезте в системата, като използвате данните си
Въпреки че не всички констатации могат да се приложат директно към Google, много от предположенията, направени през последните години за общото функциониране на големите интернет търсачки, се потвърждават.
Предполагам, че на SEO индустрията ѝ предстоят още няколко интересни месеца с новите прозрения от това изтичане.
Следете тази страница, тъй като през следващите седмици и месеци ще продължим да добавяме фактори за класиране.
Специални кредити за https://twitter.com/alex_buraks