Glossário de SEO / Rastreador

Rastreador

O que é um Crawler?

Um rastreador é um programa de Internet projetado para navegar sistematicamente na Internet. Os rastreadores são mais comumente usados como um meio para que os mecanismos de busca descubram e processem páginas para indexação e exibição nos resultados de busca.

Além dos rastreadores que processam HTML, alguns rastreadores especiais também são usados para indexar imagens e vídeos.

No mundo real, os principais rastreadores da Web a serem conhecidos são os usados pelos principais mecanismos de pesquisa do mundo: Googlebot, Bingbot, Yandex Bot e Baidu Spider.

Rastreadores bons e ruins

Pense em um bom rastreador como um bot que pode ajudar seu site, principalmente adicionando seu conteúdo a um índice de pesquisa ou ajudando você a auditar seu site. Outras características de um bom rastreador são que ele se identifica, segue suas diretrizes e ajusta a taxa de rastreamento para não sobrecarregar o servidor.

Um rastreador ruim é um bot que não agrega valor ao proprietário de um site e pode ter intenções maliciosas. Os rastreadores ruins podem não se identificar, contornar suas diretrizes, criar cargas desnecessárias nos servidores e até mesmo roubar conteúdo e dados.

Tipos de rastreadores

Há dois tipos principais de rastreadores:

  1. Bots de rastreamento constante: Realizam um rastreamento 24 horas por dia, 7 dias por semana, para descobrir novas páginas e rastrear novamente as mais antigas (por exemplo, o Googlebot).
  2. Bots sob demanda: Eles rastrearão um número limitado de páginas e realizarão um rastreamento somente quando solicitado (por exemplo, o bot de auditoria do site do Ranktracker).

Por que o rastreamento de sites é importante?

O objetivo principal de um rastreador de mecanismo de pesquisa é descobrir o que há no seu site e adicionar essas informações ao índice de pesquisa. Se seu site não for rastreado, seu conteúdo não aparecerá nos resultados da pesquisa.

O rastreamento de sites não é apenas um evento único - é uma prática contínua para sites ativos. Os bots rastreiam regularmente os sites para encontrar e adicionar novas páginas ao índice de pesquisa e, ao mesmo tempo, atualizar suas informações sobre as páginas existentes.

Embora a maioria dos rastreadores esteja associada a mecanismos de busca, existem outros tipos de rastreadores. Por exemplo, o bot Ranktracker Site Audit pode ajudá-lo a ver o que há de errado com seu site em termos de SEO.

Como os rastreadores funcionam?

Em resumo, um rastreador da Web como o Googlebot descobrirá URLs em seu site por meio de sitemaps, links e envios manuais via Google Search Console. Em seguida, ele seguirá os links "permitidos" nessas páginas.

Ele faz isso respeitando as regras do robots.txt, bem como quaisquer atributos "nofollow" em links e em páginas individuais.

Alguns sites - aqueles com mais de 1 milhão de páginas que são atualizadas regularmente ou aqueles com 10 mil páginas de conteúdo que mudam diariamente - podem ter um "orçamento de rastreamento" limitado. Isso se refere à quantidade de tempo e recursos que o bot pode dedicar a um site em uma única sessão.

Prioridades de rastreamento

Devido à capacidade limitada dos orçamentos de rastreamento, os rastreadores operam de acordo com um conjunto de prioridades de rastreamento. O Googlebot, por exemplo, considera o seguinte:

  • PageRank do URL
  • Com que frequência a(s) página(s) é(são) atualizada(s)
  • Se a página é nova ou não

Dessa forma, o rastreador pode se concentrar em rastrear primeiro as páginas mais importantes do seu site.

Versões do rastreador para celular e desktop

O Googlebot tem duas versões principais: Googlebot Desktop e Googlebot Smartphone. Atualmente, o Google usa a indexação mobile-first, o que significa que seu agente para smartphone é o principal Googlebot usado para rastrear e indexar páginas.

Diferentes versões de um site podem ser apresentadas a esses diferentes tipos de rastreadores. Tecnicamente, o bot se identifica a um servidor da Web usando o cabeçalho de solicitação HTTP User-Agent, juntamente com um identificador exclusivo.

Práticas recomendadas para um site amigável para rastreamento

Para garantir que seu site esteja pronto para rastreamento, há várias etapas que recomendamos. Siga-as para dar às suas páginas principais a melhor chance de indexação e classificação.

1. Verifique seu arquivo Robots.txt

O arquivo robots.txt é o arquivo em seu site que se comunica com esses bots, usando uma série de diretivas de rastreamento. Certifique-se de que ele não esteja impedindo o acesso de bots bons a nenhuma página ou seção que você deseja que seja indexada. Use ferramentas como o testador de robots.txt do Google para verificar se há erros.

2. Enviar Sitemaps

O envio do mapa do site é uma etapa essencial. Um mapa do site lista todas as páginas do seu site que você deseja que sejam indexadas. No Google Search Console, você pode enviar o mapa do site em Index > Sitemaps. Esse processo é semelhante para outros mecanismos de pesquisa, como o Bing Webmaster Tools.

3. Use as diretivas de rastreamento com sabedoria

O arquivo robots.txt usa diretivas para informar aos rastreadores quais páginas têm permissão ou não para serem rastreadas. É importante permitir que as páginas importantes da navegação de seu site sejam rastreadas. As diretivas em nível de página não serão vistas se o conteúdo não puder ser rastreado em seu arquivo robots.txt.

4. Fornecer links internos entre as páginas

Os links internos ajudam os mecanismos de busca a entender do que se trata cada página e ajudam o rastreador a descobrir as páginas em primeiro lugar. Os links internos também ajudam a definir como o PageRank flui pelo site.

5. Reduzir 4xx's e redirecionamentos desnecessários

Os erros 4xx sinalizam para um rastreador que o conteúdo desse URL não existe. Use ferramentas como o Ranktracker Site Audit para corrigir essas páginas ou configure um redirecionamento para uma página ativa. Além disso, elimine redirecionamentos desnecessários e cadeias de redirecionamento para garantir um rastreamento sem problemas.

6. Use a auditoria do site do Ranktracker para encontrar problemas de rastreabilidade e indexabilidade

A ferramenta Auditoria do site do Ranktracker pode ajudar verificando todas as páginas noindexadas e os links nofollowed do seu site. Ela pode descobrir páginas quebradas ou redirecionamentos excessivos, inclusive cadeias ou loops de redirecionamento, e apontar páginas órfãs.

Perguntas frequentes

Rastreamento e indexação são a mesma coisa?

Não. O rastreamento refere-se ao processo de descoberta de páginas da Web e outros conteúdos acessíveis ao público. A indexação refere-se aos mecanismos de pesquisa que analisam essas páginas e as armazenam em seu índice de pesquisa.

Quais são os rastreadores mais ativos?

Os rastreadores de mecanismos de pesquisa mais populares incluem o Googlebot, o Bingbot, o Yandex Bot e o Baidu Spider. Para obter mais detalhes, confira este estudo da Imperva Bot Traffic. É interessante notar que o AhrefsBot, que alimenta todo o banco de dados de links, foi considerado o segundo rastreador mais ativo depois do Googlebot.

Os rastreadores prejudicam meu site?

Embora a maioria dos rastreadores não cause danos ao seu site, há rastreadores ruins que podem causar. Os rastreadores prejudiciais podem consumir sua largura de banda, causando lentidão nas páginas, e podem tentar roubar dados ou extrair conteúdo do seu site.

SEO para empresas locais

As pessoas não pesquisam mais empresas locais nas Páginas Amarelas. Elas usam o Google. Saiba como obter mais negócios por meio da pesquisa orgânica com nossos guias de SEO para empresas locais.

Comece a usar o Ranktracker gratuitamente!

Descubra o que está impedindo a classificação do seu site

Obter uma conta gratuitaOu faça login usando suas credenciais
Comece a usar o Ranktracker gratuitamente!