Ce este un Crawler?

Șenile

Ce este un Crawler?

Un crawler este un program de internet conceput pentru a naviga sistematic pe internet. Cel mai frecvent, crawlerele sunt utilizate ca mijloc prin care motoarele de căutare descoperă și procesează paginile pentru a le indexa și a le afișa în rezultatele căutării.

În plus față de crawlerele care procesează HTML, unele crawlere speciale sunt folosite și pentru indexarea imaginilor și a videoclipurilor.

În lumea reală, principalele crawlere web pe care trebuie să le cunoașteți sunt cele utilizate de motoarele de căutare de top din lume: Googlebot, Bingbot, Yandex Bot și Baidu Spider.

Cârtițe bune vs. rele

Gândiți-vă la un crawler bun ca la un robot care vă poate ajuta site-ul, în primul rând prin adăugarea conținutului dvs. la un index de căutare sau ajutându-vă să vă auditați site-ul. Alte caracteristici ale unui crawler bun sunt faptul că se identifică singur, urmează directivele dumneavoastră și își ajustează rata de căutare pentru a nu vă supraîncărca serverul.

Un crawler rău este un robot care nu aduce nicio valoare adăugată proprietarului unui site web și care poate avea intenții rău intenționate. Crawlerele rele pot să nu se identifice, să eludeze directivele dumneavoastră, să creeze sarcini inutile pe servere și chiar să fure conținut și date.

Tipuri de crawlere

Există două tipuri principale de crawlere:

Roboți de căutare constantă: Aceștia efectuează o căutare 24 de ore din 24, 7 zile din 7, pentru a descoperi pagini noi și pentru a le căuta din nou pe cele mai vechi (de exemplu, Googlebot).
Roboți la cerere: Aceștia vor parcurge un număr limitat de pagini și vor efectua o căutare numai la cerere (de exemplu, robotul Ranktracker Site Audit).

De ce este important Website Crawling?

Scopul principal al unui crawler pentru motoare de căutare este de a afla ce se află pe site-ul dvs. web și de a adăuga aceste informații în indexul de căutare. Dacă site-ul dvs. nu este răscolit, atunci conținutul dvs. nu va apărea în rezultatele căutării.

Scanarea site-urilor web nu este doar un eveniment care se întâmplă o singură dată - este o practică permanentă pentru site-urile web active. Roboții vor răsfoi în mod regulat site-urile web pentru a găsi și adăuga pagini noi în indexul de căutare, actualizând în același timp informațiile despre paginile existente.

În timp ce cele mai multe crawlere sunt asociate cu motoarele de căutare, există și alte tipuri de crawlere. De exemplu, robotul Ranktracker Site Audit vă poate ajuta să vedeți ce este în neregulă cu site-ul dvs. în ceea ce privește SEO.

Cum funcționează crawlerele?

Pe scurt, un crawler web, cum ar fi Googlebot, va descoperi URL-urile de pe site-ul dvs. web prin sitemaps, link-uri și trimiteri manuale prin Google Search Console. Apoi, va urmări linkurile "permise" de pe acele pagini.

În acest sens, respectă regulile robots.txt, precum și orice atribute "nofollow" pe linkuri și pe pagini individuale.

Unele site-uri web - cele cu mai mult de 1 milion de pagini care sunt actualizate în mod regulat sau cele cu 10 mii de pagini de conținut care se schimbă zilnic - pot avea un "buget de căutare" limitat. Acesta se referă la cantitatea de timp și resurse pe care robotul o poate dedica unui site web într-o singură sesiune.

Priorități de căutare

Din cauza capacității limitate a bugetelor de căutare, crawlerele funcționează în funcție de un set de priorități de căutare. Googlebot, de exemplu, ia în considerare următoarele:

PageRank al URL-ului
Cât de des se actualizează pagina (paginile)
Dacă pagina este nouă sau nu

În acest fel, crawlerul se poate concentra mai întâi asupra celor mai importante pagini de pe site-ul dumneavoastră.

Versiuni Mobile vs. Desktop Crawler

Googlebot are două versiuni principale: Googlebot Desktop și Googlebot Smartphone. În prezent, Google folosește indexarea mobile-first, ceea ce înseamnă că agentul său pentru smartphone este principalul Googlebot utilizat pentru a răsfoi și indexa paginile.

Versiuni diferite ale unui site web pot fi prezentate acestor tipuri diferite de crawlere. Din punct de vedere tehnic, robotul se identifică în fața unui server web utilizând antetul de cerere HTTP User-Agent, împreună cu un identificator unic.

Cele mai bune practici pentru un site web prietenos pentru crawlere

Pentru a vă asigura că site-ul dvs. este pregătit pentru crawling, vă recomandăm câteva etape. Urmați-i pentru a oferi paginilor dvs. cheie cele mai bune șanse de indexare și poziționare.

1. Verificați fișierul Robots.txt

Fișierul robots.txt este fișierul de pe site-ul dvs. web care comunică cu acești roboți, folosind o serie de directive pentru crawlere. Asigurați-vă că acesta nu interzice accesul roboților buni la paginile sau secțiunile pe care doriți să le indexați. Utilizați instrumente precum testerul robots.txt de la Google pentru a verifica dacă există erori.

2. Trimiteți Sitemaps

Trimiterea hărții site-ului dvs. este un pas esențial. O hartă a site-ului enumeră toate paginile site-ului dvs. web pe care doriți să fie indexate. În Google Search Console, puteți trimite sitemap-ul dvs. la Index > Sitemaps. Acest proces este similar pentru alte motoare de căutare, cum ar fi Bing Webmaster Tools.

3. Folosiți cu înțelepciune directivele Crawler

Fișierul robots.txt utilizează directive pentru a indica crawlerelor ce pagini pot sau nu pot fi accesate. Este important să permiteți ca paginile importante din navigarea site-ului dvs. să fie accesate. Orice directive la nivel de pagină nu vor fi văzute dacă conținutul nu este permis pentru a fi cercetat în fișierul robots.txt.

4. Asigurați legături interne între pagini

Legăturile interne ajută motoarele de căutare să înțeleagă despre ce este vorba în fiecare pagină și ajută crawlerul să descopere paginile în primul rând. Legăturile interne vă ajută, de asemenea, să modelați modul în care PageRank-ul circulă pe site-ul dvs.

5. Reducerea numărului de 4xx și a redirecționărilor inutile

Erorile 4xx semnalează unui crawler că conținutul de la acel URL nu există. Utilizați instrumente precum Ranktracker Site Audit pentru a repara aceste pagini sau pentru a configura o redirecționare către o pagină activă. De asemenea, eliminați redirecționările inutile și lanțurile de redirecționare pentru a asigura o crawling fără probleme.

6. Folosiți Ranktracker Site Audit pentru a găsi probleme de crawlabilitate și indexabilitate

Instrumentul Ranktracker Site Audit vă poate ajuta prin verificarea tuturor paginilor noindexate și a legăturilor nofollowed de pe site-ul dumneavoastră. Poate descoperi orice pagini rupte sau redirecționări excesive, inclusiv lanțuri sau bucle de redirecționare, și poate evidenția orice pagini orfane.

Întrebări frecvente

Este Crawling și indexarea același lucru?

Nu. Crawling se referă la procesul de descoperire a paginilor web accesibile publicului și a altor tipuri de conținut. Indexarea se referă la analizarea acestor pagini de către motoarele de căutare și la stocarea lor în indexul de căutare.

Care sunt cei mai activi crawlere?

Cele mai populare crawlere ale motoarelor de căutare includ Googlebot, Bingbot, Yandex Bot și Baidu Spider. Pentru mai multe detalii, consultați acest studiu Imperva Bot Traffic. Interesant este că AhrefsBot, care alimentează întreaga bază de date de linkuri, s-a dovedit a fi al doilea cel mai activ crawler după Googlebot.

Crawlerele fac rău site-ului meu?

În timp ce cele mai multe crawlere nu dăunează site-ului dvs. web, există crawlere rele care pot dăuna. Crawlerele dăunătoare vă pot acapara lățimea de bandă, cauzând încetinirea paginilor, și pot încerca să fure date sau să extragă conținut de pe site-ul dvs.

Șenile