¿Qué es Robots.txt?
Un archivo robots.txt impide que los rastreadores web, como los robots de los motores de búsqueda, accedan a determinadas URL de un sitio web. También puede utilizarse para ajustar la velocidad de rastreo de algunas arañas web.
Todos los rastreadores web "buenos" respetan las normas especificadas en el archivo robots.txt. Sin embargo, existen rastreadores no registrados "malos", a menudo utilizados con fines de scraping, que ignoran por completo el archivo robots.txt.
El archivo robots.txt debe utilizarse para reducir/optimizar el tráfico de rastreadores a un sitio web y no debe utilizarse para controlar la indexación de páginas web. Aunque una URL no esté permitida en robots.txt, Google puede indexarla si se descubre a través de un enlace externo.
Sintaxis de Robots.txt
La sintaxis del archivo robots.txt contiene los siguientes campos:
- user-agent: el rastreador al que se aplican las reglas
- disallow: una ruta que no debe ser rastreada
- allow: ruta que puede rastrearse (opcional)
- sitemap: ubicación del archivo sitemap (opcional)
- crawl-delay: controla la velocidad de rastreo (opcional y no compatible con GoogleBot).
He aquí un ejemplo:
User-agent: RanktrackerSiteAudit Disallow: /recursos/ Allow: /resources/images/ Crawl-delay: 2 Sitemap: https://example.com/sitemap.xml
Este archivo robots.txt indica al rastreador de RanktrackerSiteAudit que no rastree las URL del directorio "/resources/" excepto las de "/resources/images/" y establece el retardo entre las peticiones en 2 segundos.
¿Por qué es importante el archivo Robots.txt?
El archivo robots.txt es importante porque permite a los webmasters controlar el comportamiento de los rastreadores en sus sitios web, optimizando el presupuesto de rastreo y restringiendo el rastreo de secciones del sitio web que no están destinadas al acceso público.
Muchos propietarios de sitios web optan por no indexar determinadas páginas, como las páginas de autor, las páginas de inicio de sesión o las páginas de un sitio de afiliación. También pueden bloquear el rastreo y la indexación de recursos con acceso restringido, como PDF o vídeos, para cuyo acceso es necesario registrarse por correo electrónico.
Cabe señalar que si utiliza un CMS como WordPress, la página de inicio de sesión /wp-admin/
se bloquea automáticamente para que no sea indexada por los rastreadores.
Sin embargo, es importante tener en cuenta que Google no recomienda confiar únicamente en el archivo robots.txt para controlar la indexación de las páginas. Y si va a realizar cambios en una página, como añadir una etiqueta "noindex", asegúrese de que la página no esté inhabilitada en el archivo robots.txt. De lo contrario, Googlebot no podrá leerla y actualizar su índice a tiempo.
Preguntas frecuentes
¿Qué ocurre si no tengo un archivo robots.txt?
La mayoría de los sitios no necesitan absolutamente un archivo robots.txt. El propósito de un archivo robots.txt es comunicar instrucciones específicas a los robots de búsqueda, pero esto puede no ser necesario si usted tiene un sitio web más pequeño o uno sin muchas páginas que necesita bloquear de los rastreadores de búsqueda.
Dicho esto, tampoco hay inconveniente en crear un archivo robots.txt y tenerlo activo en su sitio web. Esto facilitará la adición de directivas si necesita hacerlo en el futuro.
¿Puedo ocultar una página a los motores de búsqueda mediante robots.txt?
Sí. Ocultar páginas a los motores de búsqueda es una de las principales funciones de un archivo robots.txt. Puede hacerlo con el parámetro disallow y la URL que desea bloquear.
Sin embargo, es importante tener en cuenta que el simple hecho de ocultar una URL a Googlebot mediante el archivo robots.txt no garantiza que no se indexe. En algunos casos, una URL puede seguir indexándose en función de factores como el texto de la propia URL, el texto de anclaje utilizado en enlaces externos y el contexto de la página externa en la que se descubrió la URL.
¿Cómo comprobar mi archivo robots.txt?
Puede validar su archivo robots.txt y probar cómo funcionan las instrucciones en URL específicas mediante el comprobador de robots.txt de Google Search Console o mediante validadores externos, como el de Merkle.