Introdução
Você provavelmente ouviu falar de Yandex, é o 4º maior mecanismo de busca por participação no mercado mundial. Ontem, o código fonte proprietário de Yandex foi divulgado.
A parte mais interessante para a comunidade SEO é: a lista de todos os fatores de classificação de 1922 utilizados no algoritmo de busca
Fizemos o download do código, analisamos e aqui ele é apresentado de uma forma útil.
O incidente não deve ser uma surpresa, uma vez que Yandex ou seus produtos estão frequentemente sob ataque cibernético. Em 2016, a Hackread.com relatou exclusivamente como um vendedor da web negra estava vendendo 6,3 milhões de dados de conta de usuário Yandex.
Em setembro de 2021, o gigante russo dos mecanismos de busca foi atingido por um dos maiores ataques DDoS alimentado por 200.000 dispositivos IoT comprometidos.
A plataforma All-in-One para uma SEO eficaz
Por trás de cada negócio de sucesso está uma forte campanha de SEO. Mas com inúmeras ferramentas e técnicas de otimização por aí para escolher, pode ser difícil saber por onde começar. Bem, não tenha mais medo, porque eu tenho exatamente o que ajudar. Apresentando a plataforma multifuncional Ranktracker para uma SEO eficaz
Finalmente abrimos o registro para o Ranktracker absolutamente grátis!
Criar uma conta gratuitaOu faça login usando suas credenciais
Por que isso é grande?
A Yandex é uma das maiores empresas de TI da Rússia. Dentro do país, ela fornece uma gama mais ampla de serviços do que o Google. Imagine uma empresa que substitui o Google, Uber, Amazon, Netflix e Spotify.
Este vazamento é real?
Eu pessoalmente nunca trabalhei em Yandex, mas conheço várias pessoas que trabalharam lá em momentos diferentes ou que ainda trabalham lá. Verifiquei que pelo menos alguns dos arquivos com certeza contêm código fonte moderno para serviços da empresa, bem como documentação apontando para URLs reais da intranet.
O que há dentro
O leaker compartilhou um link magnético contendo 44,7GB de arquivos ligados a fontes de git Yandex. Os arquivos foram supostamente roubados de Yandex em julho de 2022. Além de conter diretrizes anti-spam, acredita-se que os repositórios de código tenham o código fonte de Yandex.
O vazamento revelou cerca de 1.922 fatores de classificação que o mecanismo de busca usa em seu algoritmo de busca. O código foi vazado como uma torrente. Pela análise postada pelo usuário do Twitter Alex Buraks, os dados vazados incluem numerosos fatores de classificação, incluindo relevância do texto, PageRank, idade do conteúdo, frescor, etc.
Você provavelmente ouviu falar de Yandex, é o 4º maior mecanismo de busca por participação no mercado mundial. Ontem, o código fonte proprietário de Yandex foi divulgado.
- Alex Buraks (@alex_buraks) 27 de janeiro de 2023
A parte mais interessante para a comunidade SEO é: a lista de todos os fatores de classificação de 1922 utilizados no algoritmo de busca.
[🧵THREAD] pic.twitter.com/6x82AAmbON
Além disso, existem vários fatores de comportamento do usuário final, fatores relacionados com a linha e a confiabilidade do hospedeiro. Os SEOs encontram alguns fatores incomuns na classificação, tais como o número de visitantes únicos, a classificação média de domínios entre as consultas e a porcentagem do tráfego orgânico.
Parece que pelo menos o código fonte para todos os principais serviços de Yandex foi vazado:
- Motor de busca e garrafa de indexação
- Mapas - Como Google Maps e Street View
- Alice - Assistente de IA como Siri / Alexa
- Táxi - Serviço de táxi tipo Uber
- Direto - Serviço de anúncios como Google Ads / Adwords
- Correio - Serviço de correio como GMail
- Disco - Serviço de armazenamento de arquivos como unidade do Google
- Mercado - Mercado como a Amazônia
- Viagens - Como um Booking.com mais bilhetes de avião, trem e ônibus
- Yandex360 - Como o Google Workspaces para serviços em seu próprio domínio
- Nuvem - Provavelmente nem todo código de infra-estrutura foi vazado.
- Pagamento - Processamento de pagamentos como Stripe, mas com um conjunto limitado de características
- Metrika - Como o Google Analytics
- E pelo menos a parte de trás da maioria dos outros serviços da empresa está lá. O maior arquivo chamado "frontend" ainda está para ser explorado.
Shestakov observou ainda algumas chaves API, que muito provavelmente foram usadas para testar a implantação.
Detalhes sobre este vazamento: podem ser encontrados aqui:
https://arseniyshestakov.com/2023/01/26/yandex-services-source-code-leak/
Yandex nega tentativa de hacking
Yandex afirma que está ciente do vazamento e já iniciou uma investigação para verificar como os 'fragmentos' do código fonte foram expostos ao público. Vale ressaltar que o vazamento não inclui dados pessoais de usuários ou funcionários.
Entretanto, considerando o significado de Yandex na infra-estrutura de TI da Rússia e os dados vazados, pode-se supor que o ataque foi motivado pela invasão do país à Ucrânia. Portanto, os hackers pró-Ucrânia poderiam estar envolvidos.
A plataforma All-in-One para uma SEO eficaz
Por trás de cada negócio de sucesso está uma forte campanha de SEO. Mas com inúmeras ferramentas e técnicas de otimização por aí para escolher, pode ser difícil saber por onde começar. Bem, não tenha mais medo, porque eu tenho exatamente o que ajudar. Apresentando a plataforma multifuncional Ranktracker para uma SEO eficaz
Finalmente abrimos o registro para o Ranktracker absolutamente grátis!
Criar uma conta gratuitaOu faça login usando suas credenciais
Em sua declaração oficial, Yandex esclareceu que a empresa não foi invadida e que um ex-funcionário poderia estar envolvido no vazamento de seu código fonte em domínio público. A principal empresa de TI da Rússia observou que o arquivo vazado inclui fragmentos de código que fazem parte de um repositório interno, cujos dados são diferentes dos utilizados na última versão do repositório.
"Yandex não foi hackeado. Nosso serviço de segurança encontrou fragmentos de código de um repositório interno de domínio público, mas o conteúdo difere da versão atual do repositório utilizado nos serviços de Yandex", leu a declaração da empresa.
No entanto, as fugas de código fonte são perigosas para colocar sérios problemas de segurança às organizações, uma vez que os atores da ameaça podem observar a propriedade intelectual da empresa e os dados do sistema. O vazamento do código-fonte ajudaria os atacantes a criar explorações de segurança direcionadas.
Teoricamente, qual é a diferença entre os algoritmos usados no Google e no Yandex?
Eles são bastante semelhantes:
- existe o análogo RankBrain- MatrixNet
- estão usando o PageRank (quase o mesmo que no Google);
- muitos algoritmos de texto são os mesmos.
- Há muitos ex-goleiros em Yandex
- Yanex foi construído como clone do Google;
- Especialistas em SEO na Rússia estão usando quase a mesma tática de SEO de chapéu branco para Yandex e para Google
É claro que há muitas diferenças, mas a abordagem e a maioria dos fatores de classificação parecem ser semelhantes.
Na prática: comparando os resultados de pesquisa do Google com os do Yandex, eles correspondem a ~70%.
De acordo com Statcounter Yandex está próxima a Yahoo e Bing por participação de mercado:
O arquivo com os fatores de classificação: https://dropbox.com/s/toyehkkfduogbwk/factors_gen.txt?dl=0
Estrutura para cada fator:
- nome
- link para wiki interno (restrito)
- AntiSeoUpperBound (haha)
- descrição (está em russo, eu o traduzi para você)
- etc
1. Primeiro fator na lista - PageRank.
Principais percepções após a análise desta lista: A idade dos links é um fator de classificação.
2. O tráfego e % do tráfego orgânico são fatores de classificação.
A compra de PPC afeta as classificações.
3. Números em URLs são ruins para rankings
4. Demasiados cortes em URLs é ruim para classificação
5. Pessimização dura igual a PR=0
6. A confiabilidade do hospedeiro é um fator de classificação
Menos erros 40x/50x você tem, o melhor para seu tráfego orgânico
7. Há um fator de classificação separado para a elevação da Wikipédia
8. Muitos fatores de classificação relacionados ao comportamento do usuário - CTR, último clique, tempo no local, taxa de salto
Nota: Estamos quase certos de que em Yandex esses fatores têm um impacto muito maior do que no Google.
9. A idade do documento e a última atualização são fatores de classificação
10. A posição média do domínio em todas as consultas é um fator de classificação
11. A profundidade do rastejamento é um fator de classificação
Mantenha suas páginas importantes mais próximas da página principal:
- páginas superiores: 1 clique a partir da página principal
- páginas importantes: <3 cliques
12. Além disso: fator de ranking para páginas órfãs
Você pode encontrar isto através de nossa ferramenta de auditoria no site
13. Backlinks de páginas principais são mais importantes do que de páginas internas
14. O número de consultas de busca de seu site/url é um fator de classificação
Quanto mais, melhor.
15. O tráfego da Wikipédia é um fator de classificação
16. Se sua url fosse a última para a sessão de busca (o usuário encontrará o que precisa) - isso teria impacto nos rankings
Há fatores rigorosos para isso e também fatores previsíveis.
17. Fator de classificação dos Favoritos
Quanto mais usuários adicionam aos favoritos uma url, mais valor tem o fator
18. Fatores especiais de classificação para vídeos curtos (tiktok, shorts, carretéis)
19. Mapas js-api na página (por exemplo, Google Maps) é um fator de classificação
No Google (por exemplo, no nicho de viagens), adicionar mapas com informações/funcionalidade útil também está funcionando.
20. As palavras-chave na URL são fatores de classificação
Como podemos ver pela descrição - o ideal seria incluir até 3 palavras da consulta de busca.
21. O retorno dos usuários é um fator de classificação
Construa produtos com boa retenção e isso beneficiaria seu SEO (há muitos fatores de classificação para medi-lo).
22. Porcentagem de CARTAS DE CAPITAL em <título> é um fator de classificação
23. A porcentagem de tráfego direto é um fator de classificação
Aka. Se todo o seu tráfego veio da Busca Orgânica - é suspeito + ruim para rankings.
24. Mais um fator de classificação da qualidade do conteúdo - vídeo embutido quebrado na página
- Incorporar vídeos - bom para rankings.
- Vídeos embutidos quebrados - ruins.
25. As contas verificadas nas redes sociais têm classificações diferentes das de outras urls.
Importante para as buscas de marcas - idealmente, para buscar sua marca deve haver apenas seus domínios + redes sociais verificadas nos 10 primeiros
26. Se suas âncoras de backlinks contêm todas as palavras-chave - é bom para SEO
Se estiver em um link - é mais benéfico. Especialmente se a ordem das palavras for a mesma.
27. A relação "bom" vs "mau" backlinks é um fator de classificação
![Razão "bom" vs "ruim" backlinks é um fator de ranking](https://www.ranktracker.com/media/yandex-leaked-code-containing-search-ranking-factors-ranktracker-explains-all-ranking-factors/imagens/i84.png "Razão "bom" vs "ruim" backlinks é um fator de ranking")
28. A classificação de qualidade dos textos no domínio é um fator de classificação
Páginas com conteúdo de baixa qualidade afetam todo o domínio.
29. A quantidade de propagandas em uma página é um fator de classificação
30. Há a aleatoriedade como um fator de classificação separado
Quando você não entende porque algumas das páginas estão no topo - pode ser apenas aleatório (para testar fatores de comportamento).
31. O JS do Google Analytics é um fator de classificação
Previsivelmente. Bons sites que utilizam análises GA / Google com mais freqüência do que sites ruins.
32. Backlinks dos 100 melhores sites por PageRank têm impacto nos rankings
33. A URL não tem dígitos
❌ /100-best-credit-cards
✅ /best-credit-cards
34. Número de cortes na URL
❌ /finance/articles/2023/investment-advices
✅ /investment-advices
35. Número de não-livros no URL
❌ /pet-toys&all$currency=dollar#mobile
✅ /pet-toys
36. O símbolo "..." na URL é um fator de classificação
❌ /movies?genre=ação
✅ /action-movies
37. Busca = URL, incluindo pontos e espaços (???)
A busca é "Franklin D. Roosevelt":
❌ /roosevelt
✅ /Franklin_D._Roosevelt
38. Data antiga no URL
❌ /2009/12/01/how-to-tie-a-tie
✅ /how-to-tie-a-tie
39. As palavras-chave estão no URL, não no texto da página
❌ /video-games & página é sobre música
✅ /video-games & página é sobre videogames
40. Cobertura URL com trigramas da consulta de busca
✅ /hotels-new-zealand
❌ /nz
❌ /cheap-hotels-in-new-zealand-best-deals
- Incluir 1-3 palavras mais importantes na URL;
- Menos cortes/dígitos/não-letras, se não fizer parte de sua palavra-chave
41. Pesos iniciais dos fatores de classificação Yandex
Os pesos finais calculados pela IA(matrixnet), mas os valores iniciais também são úteis.
Conclusão
Bem aí está, isto é tudo o que estamos compartilhando por enquanto. Estamos apenas começando. Isto fornece uma visão geral aproximada do que está lá dentro.
Estamos apenas arranhando a superfície aqui com tantos outros insights valiosos pela frente.
Mas estávamos bastante certos em muitas suposições e interpretações de fora de como um mecanismo de busca tão extenso funcionaria, pelo menos no que diz respeito aos links.
Em suma, o vazamento do código Yandex oferece uma visão fascinante do funcionamento interno de um mecanismo de busca moderno.
A plataforma All-in-One para uma SEO eficaz
Por trás de cada negócio de sucesso está uma forte campanha de SEO. Mas com inúmeras ferramentas e técnicas de otimização por aí para escolher, pode ser difícil saber por onde começar. Bem, não tenha mais medo, porque eu tenho exatamente o que ajudar. Apresentando a plataforma multifuncional Ranktracker para uma SEO eficaz
Finalmente abrimos o registro para o Ranktracker absolutamente grátis!
Criar uma conta gratuitaOu faça login usando suas credenciais
Embora nem todas as descobertas possam ser aplicadas diretamente ao Google, muitas suposições feitas nos últimos anos sobre o funcionamento geral dos grandes mecanismos de busca na Internet são confirmadas.
Presumo que a indústria de SEO ainda tenha alguns meses interessantes pela frente com novas percepções a partir deste vazamento.
Fique de olho nesta página, pois continuaremos a adicionar fatores de classificação durante as próximas semanas e meses.
Créditos especiais para https://twitter.com/alex_buraks