O que é Robots.txt?
Um arquivo robots.txt restringe os rastreadores da Web, como os bots de mecanismos de pesquisa, de acessar URLs específicos em um site. Ele também pode ser usado para ajustar a velocidade de rastreamento de alguns rastreadores da Web.
Todos os "bons" rastreadores da Web seguem as regras especificadas no arquivo robots.txt. Entretanto, existem rastreadores "ruins" não registrados, geralmente utilizados para fins de raspagem, que ignoram completamente o arquivo robots.txt.
O arquivo robots.txt deve ser usado para reduzir/otimizar o tráfego de rastreadores para um site e não deve ser usado para controlar a indexação de páginas da Web. Mesmo que um URL não seja permitido no robots.txt, ele ainda poderá ser indexado pelo Google se for descoberto por meio de um link externo.
Sintaxe do arquivo Robots.txt
A sintaxe do arquivo robots.txt contém os seguintes campos:
- user-agent: o rastreador ao qual as regras se aplicam
- disallow: um caminho que não deve ser rastreado
- allow: um caminho que pode ser rastreado (opcional)
- sitemap: local do arquivo de mapa do site (opcional)
- crawl-delay: controla a velocidade de rastreamento (opcional e não compatível com o GoogleBot)
Aqui está um exemplo:
Agente de usuário: RanktrackerSiteAudit Disallow: /resources/ Allow: /resources/images/ Crawl-delay: 2 Sitemap: https://example.com/sitemap.xml
Esse arquivo robots.txt instrui o rastreador do RanktrackerSiteAudit a não rastrear URLs no diretório "/resources/", exceto aqueles em "/resources/images/", e define o atraso entre as solicitações para 2 segundos.
Por que o arquivo Robots.txt é importante?
O arquivo robots.txt é importante porque permite que os webmasters controlem o comportamento dos rastreadores em seus sites, otimizando o orçamento de rastreamento e restringindo o rastreamento de seções do site que não se destinam ao acesso público.
Muitos proprietários de sites optam por noindexar determinadas páginas, como páginas de autor, páginas de login ou páginas de um site de associação. Eles também podem bloquear o rastreamento e a indexação de recursos fechados, como PDFs ou vídeos, que exigem uma opção de e-mail para serem acessados.
Vale a pena observar que, se você usa um CMS como o WordPress, a página de login /wp-admin/
é automaticamente impedida de ser indexada pelos rastreadores.
No entanto, é importante observar que o Google não recomenda confiar apenas no arquivo robots.txt para controlar a indexação de páginas. E se você estiver fazendo alterações em uma página, como adicionar uma tag "noindex", verifique se a página não está proibida no robots.txt. Caso contrário, o Googlebot não conseguirá lê-la e atualizar seu índice em tempo hábil.
Perguntas frequentes
O que acontece se eu não tiver um arquivo robots.txt?
A maioria dos sites não precisa absolutamente de um arquivo robots.txt. O objetivo de um arquivo robots.txt é comunicar instruções específicas aos bots de busca, mas isso pode não ser necessário se você tiver um site menor ou sem muitas páginas que precise bloquear dos rastreadores de busca.
Dito isso, também não há nenhuma desvantagem em criar um arquivo robots.txt e mantê-lo ativo em seu site. Isso facilitará a adição de diretivas se você precisar fazer isso no futuro.
Posso ocultar uma página dos mecanismos de pesquisa usando o robots.txt?
Sim. Ocultar páginas dos mecanismos de pesquisa é uma das principais funções de um arquivo robots.txt. Você pode fazer isso com o parâmetro disallow e o URL que deseja bloquear.
No entanto, é importante observar que o simples fato de ocultar um URL do Googlebot usando o arquivo robots.txt não garante que ele não será indexado. Em alguns casos, um URL ainda pode ser indexado com base em fatores como o texto do próprio URL, o texto âncora usado em links externos e o contexto da página externa em que o URL foi descoberto.
Como testar meu arquivo robots.txt?
Você pode validar seu arquivo robots.txt e testar como as instruções funcionam em URLs específicos usando o testador de robots.txt no Google Search Console ou usando validadores externos, como o da Merkle.