¿Qué es una oruga?

Oruga

¿Qué es una oruga?

Un crawler es un programa de Internet diseñado para navegar sistemáticamente por la red. Los rastreadores se utilizan sobre todo como medio para que los motores de búsqueda descubran y procesen páginas para indexarlas y mostrarlas en los resultados de búsqueda.

Además de los rastreadores que procesan HTML, también se utilizan algunos rastreadores especiales para indexar imágenes y vídeos.

En el mundo real, los principales rastreadores web que hay que conocer son los que utilizan los principales motores de búsqueda del mundo: Googlebot, Bingbot, Yandex Bot y Baidu Spider.

Rastreadores buenos y malos

Piense en un buen rastreador como un bot que puede ayudar a su sitio, principalmente añadiendo su contenido a un índice de búsqueda o ayudándole a auditar su sitio web. Otras características de un buen rastreador son que se identifica a sí mismo, sigue tus directrices y ajusta su velocidad de rastreo para no sobrecargar tu servidor.

Un rastreador malo es un bot que no aporta ningún valor al propietario de un sitio web y que puede tener intenciones maliciosas. Los rastreadores malos pueden no identificarse, eludir sus directivas, crear cargas innecesarias en los servidores e incluso robar contenido y datos.

Tipos de orugas

Existen dos tipos principales de rastreadores:

Robots de rastreo constante: Realizan un rastreo 24/7 para descubrir nuevas páginas y volver a rastrear las antiguas (por ejemplo, Googlebot).
Bots a petición: Estos rastrearán un número limitado de páginas y realizarán un rastreo sólo cuando se les solicite (por ejemplo, Ranktracker Site Audit bot).

¿Por qué es importante el rastreo de sitios web?

El objetivo principal del rastreador de un motor de búsqueda es averiguar qué hay en su sitio web y añadir esta información al índice de búsqueda. Si su sitio no es rastreado, su contenido no aparecerá en los resultados de búsqueda.

El rastreo de sitios web no es un hecho aislado, sino una práctica continua para los sitios web activos. Los robots rastrean regularmente los sitios web para encontrar y añadir nuevas páginas al índice de búsqueda, al tiempo que actualizan su información sobre las páginas existentes.

Aunque la mayoría de los rastreadores están asociados a los motores de búsqueda, existen otros tipos de rastreadores. Por ejemplo, el robot Ranktracker Site Audit puede ayudarte a ver qué falla en tu sitio web en términos de SEO.

¿Cómo funcionan las orugas?

En pocas palabras, un rastreador web como Googlebot descubrirá las URL de su sitio web a través de sitemaps, enlaces y envíos manuales a través de Google Search Console. A continuación, seguirá los enlaces "permitidos" de esas páginas.

Lo hace respetando las reglas robots.txt, así como cualquier atributo "nofollow" en enlaces y en páginas individuales.

Algunos sitios web -los que tienen más de 1 millón de páginas que se actualizan regularmente o los que tienen 10 mil páginas de contenido que cambia a diario- pueden tener un "crawl budget" limitado. Esto se refiere a la cantidad de tiempo y recursos que el bot puede dedicar a un sitio web en una sola sesión.

Prioridades de rastreo

Debido a la capacidad limitada de los presupuestos de rastreo, los rastreadores operan mediante un conjunto de prioridades de rastreo. Googlebot, por ejemplo, tiene en cuenta lo siguiente:

PageRank de la URL
Frecuencia de actualización de las páginas
Si la página es nueva o no

De este modo, el rastreador puede centrarse en rastrear primero las páginas más importantes de su sitio.

Versiones de rastreo para móviles y ordenadores de sobremesa

Googlebot tiene dos versiones principales: Googlebot Desktop y Googlebot Smartphone. Actualmente, Google utiliza la indexación mobile-first, lo que significa que su agente para smartphones es el principal Googlebot utilizado para rastrear e indexar páginas.

A estos diferentes tipos de rastreadores se les pueden presentar diferentes versiones de un sitio web. Técnicamente, el bot se identifica ante un servidor web mediante el encabezado de solicitud HTTP User-Agent, junto con un identificador único.

Buenas prácticas para un sitio web fácil de rastrear

Para asegurarse de que su sitio web está listo para el rastreo, le recomendamos que siga una serie de pasos. Sígalos para dar a sus páginas clave las mejores posibilidades de indexación y clasificación.

1. Compruebe su archivo Robots.txt

El archivo robots.txt es el archivo de su sitio web que se comunica con esos robots mediante una serie de directivas de rastreo. Asegúrese de que no impide el acceso de los robots a las páginas o secciones que desea indexar. Utiliza herramientas como el comprobador de robots.txt de Google para comprobar si hay errores.

2. Enviar mapas del sitio

Enviar el mapa de su sitio web es un paso fundamental. Un mapa del sitio enumera todas las páginas de su sitio web que desea indexar. En Google Search Console, puede enviar su mapa del sitio en Índice > Mapas del sitio. Este proceso es similar para otros motores de búsqueda, como Bing Webmaster Tools.

3. Utilice las directivas de rastreo con prudencia

El archivo robots.txt utiliza directivas para indicar a los rastreadores qué páginas pueden o no pueden ser rastreadas. Es importante permitir el rastreo de las páginas importantes de la navegación de su sitio. Las directivas a nivel de página no se verán si no se permite el rastreo del contenido en el archivo robots.txt.

4. Proporcionar enlaces internos entre páginas

Los enlaces internos ayudan a los motores de búsqueda a entender de qué trata cada página y ayudan al rastreador a descubrir las páginas en primer lugar. Los enlaces internos también ayudan a determinar cómo fluye el PageRank por todo el sitio.

5. Reducir los 4xx y los redireccionamientos innecesarios

Los errores 4xx indican al rastreador que el contenido de esa URL no existe. Utilice herramientas como Ranktracker Site Audit para corregir estas páginas o redireccionarlas a una página activa. Asimismo, elimine los redireccionamientos innecesarios y las cadenas de redireccionamiento para garantizar un rastreo fluido.

6. Utilice Ranktracker Site Audit para encontrar problemas de rastreabilidad e indexabilidad

La herramienta Ranktracker Site Audit puede ayudarle comprobando todas las páginas no indexadas y enlaces nofollowed de su sitio. Puede descubrir páginas rotas o redireccionamientos excesivos, incluyendo cadenas o bucles de redireccionamiento, y señalar páginas huérfanas.

Preguntas frecuentes

¿Es lo mismo rastrear que indexar?

No. El rastreo se refiere al proceso de descubrir páginas web de acceso público y otros contenidos. La indexación se refiere a los motores de búsqueda que analizan estas páginas y las almacenan en su índice de búsqueda.

¿Cuáles son los rastreadores más activos?

Los rastreadores de motores de búsqueda más populares incluyen Googlebot, Bingbot, Yandex Bot y Baidu Spider. Para más detalles, consulte este estudio de Imperva Bot Traffic. Curiosamente, AhrefsBot, que alimenta toda la base de datos de enlaces, resultó ser el segundo rastreador más activo después de Googlebot.

¿Las arañas dañan mi sitio web?

Aunque la mayoría de los rastreadores no perjudican a su sitio web, hay rastreadores malos que sí pueden hacerlo. Los rastreadores dañinos pueden acaparar su ancho de banda, ralentizando las páginas, e intentar robar datos o extraer contenido de su sitio.

Oruga

¿Qué es una oruga?

Rastreadores buenos y malos

Tipos de orugas

¿Por qué es importante el rastreo de sitios web?

¿Cómo funcionan las orugas?

Prioridades de rastreo

Versiones de rastreo para móviles y ordenadores de sobremesa

Buenas prácticas para un sitio web fácil de rastrear

1. Compruebe su archivo Robots.txt

2. Enviar mapas del sitio

3. Utilice las directivas de rastreo con prudencia

4. Proporcionar enlaces internos entre páginas

5. Reducir los 4xx y los redireccionamientos innecesarios

6. Utilice Ranktracker Site Audit para encontrar problemas de rastreabilidad e indexabilidad

Preguntas frecuentes

¿Es lo mismo rastrear que indexar?

¿Cuáles son los rastreadores más activos?

¿Las arañas dañan mi sitio web?

SEO para empresas locales

Empieza a usar Ranktracker gratis