Čo je to Crawler?
Crawler je internetový program určený na systematické prehľadávanie internetu. Crawlery sa najčastejšie používajú ako prostriedok vyhľadávačov na objavovanie a spracovanie stránok na účely ich indexovania a zobrazovania vo výsledkoch vyhľadávania.
Okrem prehľadávačov, ktoré spracúvajú HTML, sa niektoré špeciálne prehľadávače používajú aj na indexovanie obrázkov a videí.
V reálnom svete je potrebné poznať hlavne webové prehľadávače, ktoré používajú najlepšie svetové vyhľadávače: Googlebot, Bingbot, Yandex Bot a Baidu Spider.
Dobrí a zlí plazivci
Dobrého prehľadávača si predstavte ako bota, ktorý môže pomôcť vášmu webu predovšetkým tým, že pridá váš obsah do indexu vyhľadávania alebo vám pomôže pri audite vášho webu. Ďalšími charakteristickými znakmi dobrého crawlera je to, že sa sám identifikuje, riadi sa vašimi pokynmi a upravuje rýchlosť prehľadávania, aby nepreťažil váš server.
Zlý crawler je bot, ktorý neprináša majiteľovi webovej lokality žiadnu pridanú hodnotu a môže mať zlý úmysel. Zlé crawlery sa môžu neidentifikovať, obchádzať vaše pokyny, zbytočne zaťažovať servery a dokonca kradnúť obsah a údaje.
Typy pásových vozidiel
Existujú dva hlavné typy prehľadávačov:
- Neustále sa plaziace roboty: Tieto roboty vykonávajú prehľadávanie 24 hodín denne, 7 dní v týždni, aby objavili nové stránky a znovu prehľadali staršie (napr. Googlebot).
- Boty na požiadanie: Tie prehľadávajú obmedzený počet stránok a prehľadávajú ich len na požiadanie (napr. bot Ranktracker Site Audit).
Prečo je prehľadávanie webových stránok dôležité?
Hlavným cieľom prehľadávača vyhľadávača je zistiť, čo sa nachádza na vašej webovej lokalite, a pridať tieto informácie do indexu vyhľadávania. Ak vaša stránka nie je prehľadávaná, váš obsah sa nezobrazí vo výsledkoch vyhľadávania.
Prehľadávanie webových lokalít nie je len jednorazová udalosť - je to nepretržitá prax pre aktívne webové lokality. Boti pravidelne prehľadávajú webové lokality, aby našli a pridali nové stránky do indexu vyhľadávania a zároveň aktualizovali informácie o existujúcich stránkach.
Hoci väčšina prehľadávačov je spojená s vyhľadávačmi, existujú aj iné typy prehľadávačov. Napríklad robot Ranktracker Site Audit vám pomôže zistiť, čo je na vašej webovej lokalite zlé z hľadiska SEO.
Ako fungujú pásové vozidlá?
Stručne povedané, webový prehľadávač, ako je Googlebot, objaví adresy URL na vašom webovom sídle prostredníctvom máp stránok, odkazov a ručných odoslaní prostredníctvom služby Google Search Console. Potom bude sledovať "povolené" odkazy na týchto stránkach.
Pritom rešpektuje pravidlá súboru robots.txt, ako aj všetky atribúty "nofollow" na odkazoch a jednotlivých stránkach.
Niektoré webové stránky - tie s viac ako 1 miliónom pravidelne aktualizovaných stránok alebo tie s 10-tisíc stránkami obsahu, ktorý sa denne mení - môžu mať obmedzený "rozpočet na prehľadávanie". Ide o množstvo času a zdrojov, ktoré môže bot venovať webovej lokalite počas jednej relácie.
Priority prehľadávania
Vzhľadom na obmedzenú kapacitu rozpočtov na prehľadávanie pracujú prehľadávače podľa súboru priorít prehľadávania. Googlebot napríklad berie do úvahy nasledovné:
- PageRank adresy URL
- Ako často sa stránky aktualizujú
- Či je stránka nová alebo nie
Týmto spôsobom sa prehľadávač môže najprv zamerať na prehľadávanie najdôležitejších stránok na vašom webe.
Verzie prehliadača pre mobilné zariadenia vs. verzie prehliadača pre stolné počítače
Googlebot má dve hlavné verzie: Googlebot Desktop a Googlebot Smartphone. V súčasnosti spoločnosť Google používa indexovanie podľa mobilných zariadení, čo znamená, že jej agent pre smartfóny je primárnym agentom Googlebot, ktorý sa používa na prehľadávanie a indexovanie stránok.
Týmto rôznym typom prehľadávačov sa môžu prezentovať rôzne verzie webovej lokality. Z technického hľadiska sa bot identifikuje webovému serveru pomocou hlavičky požiadavky HTTP User-Agent spolu s jedinečným identifikátorom.
Osvedčené postupy pre webovú lokalitu vhodnú pre crawlov
Ak chcete zabezpečiť, aby bola vaša webová lokalita pripravená na prehľadávanie, odporúčame vykonať niekoľko krokov. Postupujte podľa nich, aby ste kľúčovým stránkam poskytli čo najväčšiu šancu na indexovanie a umiestnenie.
1. Skontrolujte súbor Robots.txt
Súbor robots.txt je súbor na vašej webovej lokalite, ktorý komunikuje s týmito robotmi pomocou série smerníc pre crawler. Uistite sa, že nebráni dobrým robotom v prístupe na stránky alebo časti, ktoré chcete indexovať. Na kontrolu chýb použite nástroje, ako je napríklad tester robots.txt od spoločnosti Google.
2. Odosielanie máp stránok
Odoslanie mapy lokality je dôležitým krokom. Mapa stránok obsahuje zoznam všetkých stránok vášho webu, ktoré chcete indexovať. V konzole Google Search Console môžete mapu stránok odoslať v časti Index > Sitemaps. Tento proces je podobný aj v prípade iných vyhľadávačov, napríklad Bing Webmaster Tools.
3. Múdre používanie smerníc pre crawler
Súbor robots.txt používa smernice na určenie, ktoré stránky sú povolené alebo zakázané na prehľadávanie. Je dôležité povoliť prehľadávanie dôležitých stránok v navigácii vášho webu. Akékoľvek smernice na úrovni stránok nebudú viditeľné, ak je v súbore robots.txt zakázané prehľadávanie obsahu.
4. Vnútorné prepojenia medzi stránkami
Vnútorné prepojenia pomáhajú vyhľadávačom pochopiť, o čom je každá stránka, a pomáhajú prehľadávačom stránky predovšetkým objaviť. Vnútorné prepojenia tiež pomáhajú formovať tok PageRanku na vašej stránke.
5. Zníženie počtu 4xx a zbytočných presmerovaní
Chyby 4xx signalizujú prehľadávačom, že obsah na danej adrese URL neexistuje. Na opravu týchto stránok použite nástroje ako Ranktracker Site Audit alebo nastavte presmerovanie na živú stránku. Odstráňte aj nepotrebné presmerovania a reťazce presmerovaní, aby ste zabezpečili bezproblémové prehľadávanie.
6. Používanie auditu stránok Ranktracker na zistenie problémov s prehľadávateľnosťou a indexovateľnosťou
Nástroj Ranktracker Site Audit vám pomôže skontrolovať všetky neindexované stránky a odkazy na vašom webe, ktoré nie sú sledované. Môže odhaliť všetky nefunkčné stránky alebo nadmerné presmerovania vrátane reťazcov presmerovaní alebo slučiek a poukázať na všetky osirelé stránky.
Často kladené otázky
Je prehľadávanie a indexovanie to isté?
Nie. prehľadávanie sa vzťahuje na proces objavovania verejne prístupných webových stránok a iného obsahu. Indexovanie sa týka vyhľadávačov, ktoré tieto stránky analyzujú a ukladajú do svojho vyhľadávacieho indexu.
Aké sú najaktívnejšie prehliadače?
Medzi najpopulárnejšie vyhľadávače patria Googlebot, Bingbot, Yandex Bot a Baidu Spider. Ďalšie podrobnosti nájdete v tejto štúdii Imperva Bot Traffic. Zaujímavé je, že AhrefsBot, ktorý poháňa celú databázu odkazov, sa ukázal ako druhý najaktívnejší crawler po Googlebotovi.
Poškodzujú crawlery moju webovú lokalitu?
Hoci väčšina prehľadávačov nepredstavuje pre vašu webovú lokalitu škodu, existujú zlé prehľadávače, ktoré ju môžu poškodiť. Škodlivé crawlery môžu zaťažiť šírku pásma a spôsobiť spomalenie stránok a môžu sa pokúsiť ukradnúť údaje alebo vyškrabať obsah z vášho webu.