Slovník SEO / Crawler

Crawler

Čo je to Crawler?

Crawler je internetový program určený na systematické prehľadávanie internetu. Crawlery sa najčastejšie používajú ako prostriedok vyhľadávačov na objavovanie a spracovanie stránok na účely ich indexovania a zobrazovania vo výsledkoch vyhľadávania.

Okrem prehľadávačov, ktoré spracúvajú HTML, sa niektoré špeciálne prehľadávače používajú aj na indexovanie obrázkov a videí.

V reálnom svete je potrebné poznať hlavne webové prehľadávače, ktoré používajú najlepšie svetové vyhľadávače: Googlebot, Bingbot, Yandex Bot a Baidu Spider.

Dobrí a zlí plazivci

Dobrého prehľadávača si predstavte ako bota, ktorý môže pomôcť vášmu webu predovšetkým tým, že pridá váš obsah do indexu vyhľadávania alebo vám pomôže pri audite vášho webu. Ďalšími charakteristickými znakmi dobrého crawlera je to, že sa sám identifikuje, riadi sa vašimi pokynmi a upravuje rýchlosť prehľadávania, aby nepreťažil váš server.

Zlý crawler je bot, ktorý neprináša majiteľovi webovej lokality žiadnu pridanú hodnotu a môže mať zlý úmysel. Zlé crawlery sa môžu neidentifikovať, obchádzať vaše pokyny, zbytočne zaťažovať servery a dokonca kradnúť obsah a údaje.

Typy pásových vozidiel

Existujú dva hlavné typy prehľadávačov:

  1. Neustále sa plaziace roboty: Tieto roboty vykonávajú prehľadávanie 24 hodín denne, 7 dní v týždni, aby objavili nové stránky a znovu prehľadali staršie (napr. Googlebot).
  2. Boty na požiadanie: Tie prehľadávajú obmedzený počet stránok a prehľadávajú ich len na požiadanie (napr. bot Ranktracker Site Audit).

Prečo je prehľadávanie webových stránok dôležité?

Hlavným cieľom prehľadávača vyhľadávača je zistiť, čo sa nachádza na vašej webovej lokalite, a pridať tieto informácie do indexu vyhľadávania. Ak vaša stránka nie je prehľadávaná, váš obsah sa nezobrazí vo výsledkoch vyhľadávania.

Prehľadávanie webových lokalít nie je len jednorazová udalosť - je to nepretržitá prax pre aktívne webové lokality. Boti pravidelne prehľadávajú webové lokality, aby našli a pridali nové stránky do indexu vyhľadávania a zároveň aktualizovali informácie o existujúcich stránkach.

Hoci väčšina prehľadávačov je spojená s vyhľadávačmi, existujú aj iné typy prehľadávačov. Napríklad robot Ranktracker Site Audit vám pomôže zistiť, čo je na vašej webovej lokalite zlé z hľadiska SEO.

Ako fungujú pásové vozidlá?

Stručne povedané, webový prehľadávač, ako je Googlebot, objaví adresy URL na vašom webovom sídle prostredníctvom máp stránok, odkazov a ručných odoslaní prostredníctvom služby Google Search Console. Potom bude sledovať "povolené" odkazy na týchto stránkach.

Pritom rešpektuje pravidlá súboru robots.txt, ako aj všetky atribúty "nofollow" na odkazoch a jednotlivých stránkach.

Niektoré webové stránky - tie s viac ako 1 miliónom pravidelne aktualizovaných stránok alebo tie s 10-tisíc stránkami obsahu, ktorý sa denne mení - môžu mať obmedzený "rozpočet na prehľadávanie". Ide o množstvo času a zdrojov, ktoré môže bot venovať webovej lokalite počas jednej relácie.

Priority prehľadávania

Vzhľadom na obmedzenú kapacitu rozpočtov na prehľadávanie pracujú prehľadávače podľa súboru priorít prehľadávania. Googlebot napríklad berie do úvahy nasledovné:

  • PageRank adresy URL
  • Ako často sa stránky aktualizujú
  • Či je stránka nová alebo nie

Týmto spôsobom sa prehľadávač môže najprv zamerať na prehľadávanie najdôležitejších stránok na vašom webe.

Verzie prehliadača pre mobilné zariadenia vs. verzie prehliadača pre stolné počítače

Googlebot má dve hlavné verzie: Googlebot Desktop a Googlebot Smartphone. V súčasnosti spoločnosť Google používa indexovanie podľa mobilných zariadení, čo znamená, že jej agent pre smartfóny je primárnym agentom Googlebot, ktorý sa používa na prehľadávanie a indexovanie stránok.

Týmto rôznym typom prehľadávačov sa môžu prezentovať rôzne verzie webovej lokality. Z technického hľadiska sa bot identifikuje webovému serveru pomocou hlavičky požiadavky HTTP User-Agent spolu s jedinečným identifikátorom.

Osvedčené postupy pre webovú lokalitu vhodnú pre crawlov

Ak chcete zabezpečiť, aby bola vaša webová lokalita pripravená na prehľadávanie, odporúčame vykonať niekoľko krokov. Postupujte podľa nich, aby ste kľúčovým stránkam poskytli čo najväčšiu šancu na indexovanie a umiestnenie.

1. Skontrolujte súbor Robots.txt

Súbor robots.txt je súbor na vašej webovej lokalite, ktorý komunikuje s týmito robotmi pomocou série smerníc pre crawler. Uistite sa, že nebráni dobrým robotom v prístupe na stránky alebo časti, ktoré chcete indexovať. Na kontrolu chýb použite nástroje, ako je napríklad tester robots.txt od spoločnosti Google.

2. Odosielanie máp stránok

Odoslanie mapy lokality je dôležitým krokom. Mapa stránok obsahuje zoznam všetkých stránok vášho webu, ktoré chcete indexovať. V konzole Google Search Console môžete mapu stránok odoslať v časti Index > Sitemaps. Tento proces je podobný aj v prípade iných vyhľadávačov, napríklad Bing Webmaster Tools.

3. Múdre používanie smerníc pre crawler

Súbor robots.txt používa smernice na určenie, ktoré stránky sú povolené alebo zakázané na prehľadávanie. Je dôležité povoliť prehľadávanie dôležitých stránok v navigácii vášho webu. Akékoľvek smernice na úrovni stránok nebudú viditeľné, ak je v súbore robots.txt zakázané prehľadávanie obsahu.

4. Vnútorné prepojenia medzi stránkami

Vnútorné prepojenia pomáhajú vyhľadávačom pochopiť, o čom je každá stránka, a pomáhajú prehľadávačom stránky predovšetkým objaviť. Vnútorné prepojenia tiež pomáhajú formovať tok PageRanku na vašej stránke.

5. Zníženie počtu 4xx a zbytočných presmerovaní

Chyby 4xx signalizujú prehľadávačom, že obsah na danej adrese URL neexistuje. Na opravu týchto stránok použite nástroje ako Ranktracker Site Audit alebo nastavte presmerovanie na živú stránku. Odstráňte aj nepotrebné presmerovania a reťazce presmerovaní, aby ste zabezpečili bezproblémové prehľadávanie.

6. Používanie auditu stránok Ranktracker na zistenie problémov s prehľadávateľnosťou a indexovateľnosťou

Nástroj Ranktracker Site Audit vám pomôže skontrolovať všetky neindexované stránky a odkazy na vašom webe, ktoré nie sú sledované. Môže odhaliť všetky nefunkčné stránky alebo nadmerné presmerovania vrátane reťazcov presmerovaní alebo slučiek a poukázať na všetky osirelé stránky.

Často kladené otázky

Je prehľadávanie a indexovanie to isté?

Nie. prehľadávanie sa vzťahuje na proces objavovania verejne prístupných webových stránok a iného obsahu. Indexovanie sa týka vyhľadávačov, ktoré tieto stránky analyzujú a ukladajú do svojho vyhľadávacieho indexu.

Aké sú najaktívnejšie prehliadače?

Medzi najpopulárnejšie vyhľadávače patria Googlebot, Bingbot, Yandex Bot a Baidu Spider. Ďalšie podrobnosti nájdete v tejto štúdii Imperva Bot Traffic. Zaujímavé je, že AhrefsBot, ktorý poháňa celú databázu odkazov, sa ukázal ako druhý najaktívnejší crawler po Googlebotovi.

Poškodzujú crawlery moju webovú lokalitu?

Hoci väčšina prehľadávačov nepredstavuje pre vašu webovú lokalitu škodu, existujú zlé prehľadávače, ktoré ju môžu poškodiť. Škodlivé crawlery môžu zaťažiť šírku pásma a spôsobiť spomalenie stránok a môžu sa pokúsiť ukradnúť údaje alebo vyškrabať obsah z vášho webu.

SEO pre miestne podniky

Ľudia už nevyhľadávajú miestne podniky v žltých stránkach. Používajú Google. Naučte sa, ako získať viac zákaziek z organického vyhľadávania pomocou našich sprievodcov SEO pre miestne podniky.

Začnite používať Ranktracker zadarmo!

Zistite, čo brzdí vaše webové stránky v hodnotení

Získajte bezplatné kontoAlebo sa pri hláste pomocou svojich poverení
Začnite používať Ranktracker zadarmo!