Introdução
Robots Exclusion Protocol (REP) é um arquivo do Webmaster que é usado para instruir os robôs. As instruções ajudam os robôs a rastejar as páginas da web e indexá-las para vários sites. Este REP é às vezes chamado de Robots.txt. Eles são colocados no nível superior do diretório do servidor web para serem mais úteis. Por exemplo: https://www.123abc.com/robots.txt
Os grupos REP são utilizados como um padrão web que regula as ações de bot e o comportamento de indexação nos motores de busca. Entre 1994 e 1997, o REP original definiu o comportamento do bot para robots.txt. Em 1996, os mecanismos de busca suportavam etiquetas adicionais de REP X-robot. Os mecanismos de busca manipularam links onde o valor continha um "follow" usando um microformato rel-no follow.
Folha de fraude robotizada
Para bloquear totalmente os rastejadores da web
Agente-usuário: *
Não é permitido: /
Para bloquear rastreadores específicos da web a partir de uma pasta de destino
Agente-usuário: Googlebot
Não é permitido: /no-google/
Para bloquear rastreadores específicos de uma página web de destino
Agente-usuário: Googlebot
Não é permitido: /no-google/blocked-page.html
Agente-usuário: *
Não é permitido:
Mapa do site: https://www.123abc.com/none-standard-location/sitemap.xml
Tags de Protocolo de Robô Específico de Exclusão
As etiquetas URI, REP são aplicadas a certas tarefas de indexação e, em alguns casos, a motores nosnippet, noarchive e noodpquery ou a uma consulta de busca. Recursos etiquetados com tags de exclusão, motores de busca como o Bing SERP listings mostram estes links externos como URLs proibidas. Além das diretrizes de rastreamento, os motores de busca específicos interpretarão as tags REP de forma diferente. Um exemplo disso pode ser visto em como o Bing às vezes lista referências externas em suas SERPs como proibidas. O Google faz as mesmas listagens e elimina as referências URL e ODP em suas SERPs. A idéia é que os X-Robots iriam anular as diretrizes que entram em conflito com os elementos META.
Microformatos
Fatores HTML particulares irão sobrepor-se às configurações de página em diretrizes de índice micro-formatadas. Este método de programação requer habilidades e uma compreensão muito apurada dos servidores web e do protocolo HTTP. Um exemplo deste protocolo seria uma página de tags X-Robot com um link de elemento particular que diz seguir e depois rel-nofollow. Os indexadores Robots.txt geralmente não possuem diretrizes, mas é possível definir indexadores de grupo de URIs que tenham um servidor com scripts laterais no nível do site.
Correspondência de Padrões
Os webmasters ainda podem utilizar duas expressões separadas para denotar a exclusão de páginas. Os dois caracteres são o asterisco e o sinal de dólar. O asterisco denota que pode representar qualquer combinação de caracteres. O sinal de dólar é para denotar o final da URL.
Informação irrestrita
Os arquivos de robôs são sempre públicos, por isso é importante estar ciente de que qualquer pessoa pode ver um arquivo de robô anexado a uma página da web. É também informação acessível onde o Webmaster bloqueia os motores a partir do servidor. Estes arquivos públicos deixam acesso a dados privados do usuário que poderiam incluir dados privados individuais. É possível adicionar proteção por senha para impedir que visitantes e outros visualizem páginas classificadas que não devem ser indexadas.
Regras adicionais
- Parâmetros simples de meta robôs, como índice e comando de seguimento, só devem ser usados para evitar a indexação e o rastejamento da página.
- Bots perigosos certamente ignorarão estes comandos e, como tal, são um plano de segurança inútil.
- Cada URL é permitida apenas uma linha "não permitida".
- Arquivos de robôs separados são necessários em cada subdomínio
- Os nomes de arquivos para os bots são sensíveis a maiúsculas e minúsculas
- O espaçamento não separa os parâmetros de busca
Táticas SEO Top SEO: Robot.txt
Bloqueio de páginas - há várias maneiras de impedir que um mecanismo de busca indexe e acesse uma página web ou domínio.
Usando Robôs para Bloquear páginas
Esta exclusão diz ao mecanismo de busca para não rastejar a página, mas ainda pode indexar a página para mostrá-la nas listas SERP.
Sem bloqueio de página de índice
Este método de exclusão diz aos mecanismos de busca que eles têm permissão para visitar a página, mas não podem exibir a URL ou salvar a página para seu índice. Este é o método preferido de exclusão.
Sem link a seguir para páginas de bloco
Esta não é uma tática apoiada. Os motores de busca ainda podem acessar páginas com este comando. Mesmo que o mecanismo de busca não possa seguir diretamente a página, ele pode acessar o conteúdo usando a análise do navegador ou outras páginas vinculadas.
Meta Robots vs. Robots.txt
Um exemplo do arquivo robots.txt de um site pode ajudar a esclarecer o processo do programa. No exemplo, o arquivo robots.txt está bloqueando o diretório. Quando a URL específica é pesquisada no Google, mostra que 2760 páginas foram proibidas de entrar no diretório. No exemplo, o motor não rastreou as URLs, portanto elas não aparecerão como listas tradicionais. Estas páginas acumularão suco de links uma vez que tenham links anexados a elas. Além de seu poder de ranking, elas também começarão a ganhar popularidade e confiança ao aparecerem nas buscas. Como as páginas não podem ser um benefício para o site porque não estão sendo rastejadas. A melhor maneira de resolver este problema e não ter desperdiçado o poder de ranking em uma página, é prudente usar outro método de exclusão para remover as páginas individuais. A codificação apareceria como: meta tag este método exibiria melhor desempenho do que o método anterior.