Intro
Vous avez probablement entendu parler de Yandex, le quatrième moteur de recherche mondial en termes de parts de marché. Hier, le code source propriétaire de Yandex a été divulgué.
La partie la plus intéressante pour la communauté SEO est la liste des 1922 facteurs de classement utilisés dans l'algorithme de recherche.
Nous avons téléchargé le code, l'avons analysé et le présentons ici de manière utile.
L'incident ne devrait pas être une surprise, puisque Yandex ou ses produits font souvent l'objet de cyberattaques. En 2016, Hackread.com a rapporté en exclusivité comment un vendeur du dark web vendait 6,3 millions de données de comptes d'utilisateurs de Yandex.
En septembre 2021, le géant russe des moteurs de recherche a été frappé par l'une des plus importantes attaques DDoS alimentées par 200 000 dispositifs IoT compromis.
La plateforme tout-en-un pour un référencement efficace
Derrière chaque entreprise prospère se cache une solide campagne de référencement. Mais avec d'innombrables outils et techniques d'optimisation parmi lesquels choisir, il peut être difficile de savoir par où commencer. Eh bien, n'ayez crainte, car j'ai ce qu'il vous faut pour vous aider. Voici la plateforme tout-en-un Ranktracker pour un référencement efficace.
Nous avons enfin ouvert l'inscription à Ranktracker de manière totalement gratuite !
Créer un compte gratuitOu connectez-vous en utilisant vos informations d'identification
Pourquoi est-ce si important ?
Yandex est l'une des plus grandes sociétés informatiques de Russie. À l'intérieur du pays, elle fournit une gamme de services plus large que Google. Imaginez une entreprise qui remplace Google, Uber, Amazon, Netflix et Spotify.
Cette fuite est-elle réelle ?
Je n'ai personnellement jamais travaillé chez Yandex, mais je connais plusieurs personnes qui y ont travaillé à différentes époques ou qui y travaillent encore. J'ai vérifié qu'au moins certaines des archives contiennent à coup sûr le code source moderne des services de l'entreprise ainsi que de la documentation pointant vers des URL intranet réels.
Ce qu'il y a dedans
Le divulgateur a partagé un lien magnétique contenant 44,7 Go de fichiers liés aux sources git de Yandex. Les fichiers auraient été volés à Yandex en juillet 2022. En plus de contenir des directives anti-spam, les dépôts de code contiendraient le code source de Yandex.
La fuite a révélé environ 1 922 facteurs de classement que le moteur de recherche utilise dans son algorithme de recherche. Le code a été divulgué sous la forme d'un torrent. Selon l'analyse publiée par Alex Buraks, utilisateur de Twitter, les données divulguées comprennent de nombreux facteurs de classement, notamment la pertinence du texte, le PageRank, l'âge du contenu, la fraîcheur, etc.
Vous avez probablement entendu parler de Yandex, le quatrième moteur de recherche mondial en termes de parts de marché. Hier, le code source propriétaire de Yandex a été divulgué.
- Alex Buraks (@alex_buraks) 27 janvier 2023
La partie la plus intéressante pour la communauté SEO est : la liste des 1922 facteurs de classement utilisés dans l'algorithme de recherche.
[🧵THREAD] pic.twitter.com/6x82AAmbON
En outre, il existe plusieurs facteurs liés au comportement de l'utilisateur final, aux liens et à la fiabilité de l'hôte. Les spécialistes du référencement trouvent certains facteurs de classement inhabituels, tels que le nombre de visiteurs uniques, le classement moyen des domaines sur l'ensemble des requêtes et le pourcentage de trafic organique.
Il semble qu'au moins le code source de tous les principaux services de Yandex ait été divulgué :
- Moteur de recherche et robot d'indexation
- Cartes - Comme Google Maps et Street View
- Alice - Assistant AI comme Siri / Alexa
- Taxi - Service de taxi de type Uber
- Direct - Service d'annonces comme Google Ads / Adwords
- Mail - Service de messagerie comme GMail
- Disque - Service de stockage de fichiers comme Google drive
- Marché - Place de marché comme Amazon
- Voyages - Comme un Booking.com plus billets d'avion, de train et de bus
- Yandex360 - Comme Google Workspaces pour les services sur votre propre domaine
- Cloud - Il est probable que tout le code de l'infrastructure n'a pas été divulgué.
- Pay - Traitement des paiements comme Stripe, mais avec un ensemble limité de fonctionnalités.
- Metrika - Comme Google Analytics
- Et au moins la partie backend de la majorité des autres services de l'entreprise est là. La plus grande archive appelée "frontend" reste à explorer.
Shestakov a également noté quelques clés API, qui ont très probablement été utilisées pour tester le déploiement.
Les détails de cette fuite peuvent être trouvés ici :
https://arseniyshestakov.com/2023/01/26/yandex-services-source-code-leak/
Yandex nie toute tentative de piratage.
Yandex affirme être au courant de la fuite et a déjà ouvert une enquête pour vérifier comment des "fragments" de code source ont été exposés au public. Il convient de noter que la fuite ne concerne pas les données personnelles des utilisateurs ou des employés.
Toutefois, compte tenu de l'importance de Yandex dans l'infrastructure informatique de la Russie et des fuites de données, on peut supposer que l'attaque a été motivée par l'invasion de l'Ukraine par ce pays. Des hackers pro-Ukraine pourraient donc être impliqués.
La plateforme tout-en-un pour un référencement efficace
Derrière chaque entreprise prospère se cache une solide campagne de référencement. Mais avec d'innombrables outils et techniques d'optimisation parmi lesquels choisir, il peut être difficile de savoir par où commencer. Eh bien, n'ayez crainte, car j'ai ce qu'il vous faut pour vous aider. Voici la plateforme tout-en-un Ranktracker pour un référencement efficace.
Nous avons enfin ouvert l'inscription à Ranktracker de manière totalement gratuite !
Créer un compte gratuitOu connectez-vous en utilisant vos informations d'identification
Dans sa déclaration officielle, Yandex a précisé que l'entreprise n'a pas été piratée et qu'un ancien employé pourrait être impliqué dans la fuite de son code source dans le domaine public. La première entreprise informatique de Russie a noté que l'archive qui a fuité comprend des fragments de code qui font partie d'un référentiel interne, dont les données sont différentes de celles utilisées dans la dernière version du référentiel.
"Yandex n'a pas été piraté. Notre service de sécurité a trouvé des fragments de code provenant d'un référentiel interne dans le domaine public, mais le contenu diffère de la version actuelle du référentiel utilisé dans les services Yandex", peut-on lire dans la déclaration de la société.
Néanmoins, les fuites de code source sont dangereuses car elles posent de sérieux problèmes de sécurité aux organisations, puisque les acteurs de la menace peuvent observer la propriété intellectuelle et les données du système de l'entreprise. La fuite de code source aiderait les attaquants à créer des exploits de sécurité ciblés.
Théoriquement, quelle est la différence entre les algorithmes utilisés dans Google et dans Yandex ?
Ils sont assez semblables :
- il existe un analogue de RankBrain- MatrixNet
- ils utilisent le PageRank (presque le même que celui de Google) ;
- beaucoup d'algorithmes de texte sont les mêmes.
- Il y a beaucoup d'ex-googlers chez Yandex.
- Yanex a été construit comme un clone de Google ;
- Les spécialistes du référencement en Russie utilisent presque les mêmes tactiques de référencement "white hat" pour Yandex et pour Google.
Bien sûr, il existe de nombreuses différences, mais l'approche et la majorité des facteurs de classement semblent être similaires.
En pratique, si l'on compare les résultats de recherche de Google et de Yandex, ils correspondent à environ 70 %.
Selon Statcounter, Yandex est proche de Yahoo et de Bing en termes de parts de marché :
Le fichier avec les facteurs de classement : https://dropbox.com/s/toyehkkfduogbwk/factors_gen.txt?dl=0
Structure pour chaque facteur :
- nom
- lien vers le wiki interne (restreint)
- AntiSeoUpperBound (haha)
- description (c'est en russe, je l'ai traduit pour vous)
- etc.
1. Premier facteur de la liste - PageRank.
Principaux enseignements tirés de l'analyse de cette liste : L'âge des liens est un facteur de classement.
2. Le trafic et le pourcentage de trafic organique sont des facteurs de classement.
L'achat de PPC affecte les classements.
3. Les nombres dans les URL sont mauvais pour les classements
4. Trop de slashs dans les URLs est mauvais pour le classement
5. Pessimisation dure égale à PR=0
6. La fiabilité de l'hôte est un facteur de classement
Moins vous avez d'erreurs 40x/50x, mieux c'est pour votre trafic organique.
7. Il existe un facteur de classement distinct pour l'élévation de Wikipédia.
8. De nombreux facteurs de classement liés au comportement de l'utilisateur - CTR, dernier clic, temps passé sur le site, taux de rebond.
Note : Nous sommes presque sûrs que ces facteurs ont un impact beaucoup plus important dans Yandex que dans Google.
9. L'âge du document et la dernière mise à jour sont tous deux des facteurs de classement
10. La position moyenne du domaine sur l'ensemble des requêtes est un facteur de classement.
11. La profondeur du crawl est un facteur de classement
Gardez vos pages importantes plus près de la page principale :
- les pages principales : 1 clic depuis la page principale
- pages importantes : <3 clics
12. En outre : facteur de classement pour les pages orphelines
Vous pouvez le découvrir grâce à notre outil d'audit du site web
13. Les backlinks des pages principales sont plus importants que ceux des pages internes.
14. Le nombre de requêtes de recherche de votre site/URL est un facteur de classement.
Plus il y en a, mieux c'est
15. Le trafic de Wikipedia est un facteur de classement
16. Si votre url est la dernière de la session de recherche (l'utilisateur trouvera ce dont il a besoin), cela aura un impact sur les classements.
Il existe des facteurs stricts à cet égard, mais aussi des facteurs prévisibles.
17. Facteur de classement des signets
Plus le nombre d'utilisateurs ajoutant une url aux signets est élevé, plus la valeur factorielle de cette url augmente
18. Facteurs de classement spéciaux pour les vidéos courtes (tiktok, shorts, reels)
19. Maps js-api sur la page (par exemple Google Maps) est un facteur de classement
Dans Google (par exemple dans le créneau des voyages), l'ajout de cartes avec des informations/fonctionnalités utiles fonctionne également.
20. Les mots-clés dans l'URL sont des facteurs de classement
Comme nous pouvons le voir dans la description, l'optimal comprendrait jusqu'à 3 mots de la requête de recherche.
21. Le retour des utilisateurs est un facteur de classement
Construisez des produits avec une bonne rétention et cela bénéficiera à votre référencement (il y a beaucoup de facteurs de classement pour le mesurer).
22. Le pourcentage de MAJUSCULES dans <title> est un facteur de classement.
23. Le pourcentage de trafic direct est un facteur de classement
Autrement dit. Si tout votre trafic provient de la recherche organique, c'est suspect et mauvais pour le classement.
24. Un facteur de classement supplémentaire pour la qualité du contenu - une vidéo intégrée cassée sur la page
- Incorporer des vidéos - bon pour le classement.
- Vidéos intégrées cassées - mauvais.
25. Les comptes vérifiés sur les réseaux sociaux sont classés différemment des autres urls.
Important pour les recherches sur les marques - idéalement, si vous recherchez votre marque, seuls vos domaines et réseaux sociaux vérifiés devraient figurer dans le top 10.
26. Si les ancres de vos backlinks contiennent tous les mots clés, c'est bon pour le référencement.
Si c'est dans un seul lien, c'est plus avantageux. Surtout si l'ordre des mots est le même.
27. Le rapport entre les "bons" et les "mauvais" backlinks est un facteur de classement
![Le ratio "bons" vs "mauvais" backlinks est un facteur de classement](https://www.ranktracker.com/media/yandex-leaked-code-containing-search-ranking-factors-ranktracker-explains-all-ranking-factors/images/i84.png "Le ratio "bons" vs "mauvais" backlinks est un facteur de classement")
28. Le rang de qualité des textes sur le domaine est un facteur de classement
Les pages dont le contenu est de mauvaise qualité affectent l'ensemble du domaine.
29. La quantité de publicités sur une page est un facteur de classement
30. L'aléatoire est un facteur de classement distinct
Si vous ne comprenez pas pourquoi certaines pages sont en tête, il se peut que ce soit simplement aléatoire (pour tester les facteurs de comportement).
31. JS de Google Analytics est un facteur de classement
C'est prévisible. Les bons sites web utilisent GA / Google analytics plus souvent que les mauvais sites web.
32. Impact des backlinks des 100 meilleurs sites web par PageRank sur les classements
33. L'URL n'a pas de chiffres
❌ /100-best-credit-cards
✅ /best-credit-cards
34. Nombre de slashs dans l'URL
❌ /finance/articles/2023/investment-advices
✅ /conseils-en-investissement
35. Nombre de non-lettres dans l'URL
❌ /pet-toys&all$currency=dollar#mobile
✅ /pet-toys
36. Le symbole '?' dans l'URL est un facteur de classement
❌ /movies?genre=action
✅ /action-movies
37. Requête de recherche = URL, y compris les points et les espaces ( ??)
La requête de recherche est "Franklin D. Roosevelt" :
❌ /roosevelt
✅ /Franklin_D._Roosevelt
38. Ancienne date dans l'URL
❌ /2009/12/01/how-to-tie-a-tie
✅ /how-to-tie-a-tie
39. Les mots-clés sont dans l'URL, pas dans le texte de la page.
❌ /video-games & la page est sur la musique
✅ /video-games & la page parle de jeux vidéo
40. Couverture d'URL avec des trigrammes de la requête de recherche
✅ /hotels-new-zealand
❌ /nz
❌ /cheap-hotels-in-new-zealand-best-deals
- Incluez 1 à 3 des mots les plus importants dans l'URL ;
- Moins de barres obliques/chiffres/non-lettres, si elles ne font pas partie de votre mot-clé.
41. poids initial des facteurs de classement Yandex
Les poids finaux sont calculés par AI(matrixnet), mais les valeurs initiales sont également utiles.
Conclusion
Voilà, c'est tout ce que nous partageons pour l'instant. Nous ne faisons que commencer. Cela vous donne une idée générale de ce qu'il y a là-dedans.
Nous ne faisons qu'effleurer la surface du problème, et de nombreuses autres informations précieuses nous attendent.
Mais nous avions tout à fait raison dans de nombreuses hypothèses et interprétations de l'extérieur sur le fonctionnement d'un moteur de recherche aussi étendu, du moins en ce qui concerne les liens.
Dans l'ensemble, la fuite du code de Yandex offre un aperçu fascinant du fonctionnement interne d'un moteur de recherche moderne.
La plateforme tout-en-un pour un référencement efficace
Derrière chaque entreprise prospère se cache une solide campagne de référencement. Mais avec d'innombrables outils et techniques d'optimisation parmi lesquels choisir, il peut être difficile de savoir par où commencer. Eh bien, n'ayez crainte, car j'ai ce qu'il vous faut pour vous aider. Voici la plateforme tout-en-un Ranktracker pour un référencement efficace.
Nous avons enfin ouvert l'inscription à Ranktracker de manière totalement gratuite !
Créer un compte gratuitOu connectez-vous en utilisant vos informations d'identification
Bien que toutes les conclusions ne puissent pas être directement appliquées à Google, de nombreuses hypothèses formulées ces dernières années sur le fonctionnement général des grands moteurs de recherche sur Internet sont confirmées.
Je suppose que le secteur de l'optimisation des moteurs de recherche a encore quelques mois intéressants devant lui avec les nouvelles informations issues de cette fuite.
Gardez un œil sur cette page car nous continuerons à ajouter des facteurs de classement au cours des semaines et des mois à venir.
Crédits spéciaux à https://twitter.com/alex_buraks