Kas yra vikšras?
Naršyklė - tai interneto programa, skirta sistemingai naršyti internete. Naršyklės dažniausiai naudojamos kaip paieškos sistemų priemonė, skirta puslapiams aptikti ir apdoroti, kad juos būtų galima indeksuoti ir rodyti paieškos rezultatuose.
Be naršyklių, kurios apdoroja HTML, kai kurios specialios naršyklės taip pat naudojamos vaizdams ir vaizdo įrašams indeksuoti.
Realiame pasaulyje svarbiausi žiniatinklio naršyklės įrankiai, kuriuos reikia žinoti, yra tie, kuriuos naudoja geriausios pasaulio paieškos sistemos: "Googlebot", "Bingbot", "Yandex Bot" ir "Baidu Spider".
Geri ir blogi ropliai
Gerą naršyklę laikykite robotu, kuris gali padėti jūsų svetainei, pirmiausia įtraukdamas jūsų turinį į paieškos indeksą arba padėdamas jums atlikti svetainės auditą. Kiti gero naršyklės požymiai yra tai, kad ji pati save identifikuoja, laikosi jūsų nurodymų ir reguliuoja naršymo greitį, kad neperkrautų jūsų serverio.
Blogas naršyklė - tai robotas, kuris nesukuria jokios pridėtinės vertės svetainės savininkui ir gali turėti piktavališkų ketinimų. Blogi botas gali neidentifikuoti savo tapatybės, apeiti jūsų nurodymus, be reikalo apkrauti serverius ir net vogti turinį ir duomenis.
Vikšrų tipai
Yra du pagrindiniai naršyklės tipai:
- Nuolat naršantys robotai: Šie robotai (pvz., "Googlebot") visą parą ir 7 dienas per parą naršo naujus puslapius ir iš naujo naršo senesnius.
- Užsakomieji robotai: Jie aplanko ribotą puslapių skaičių ir aplanko tik tada, kai to paprašoma (pvz., "Ranktracker Site Audit" robotas).
Kodėl svarbu naršyti svetainę?
Pagrindinė paieškos sistemos naršyklės paskirtis - išsiaiškinti, kas yra jūsų svetainėje, ir įtraukti ši ą informaciją į paieškos indeksą. Jei jūsų svetainė nėra nuskaityta, jūsų turinys nebus rodomas paieškos rezultatuose.
Svetainių nuskaitymas nėra vienkartinis įvykis - tai nuolatinė aktyvių svetainių praktika. Robotai reguliariai peržiūri svetaines, kad rastų ir įtrauktų naujus puslapius į paieškos indeksą, taip pat atnaujintų informaciją apie esamus puslapius.
Nors dauguma naršyklių siejamos su paieškos sistemomis, yra ir kitų tipų naršyklių. Pavyzdžiui, "Ranktracker Site Audit" robotas gali padėti sužinoti, kas jūsų svetainėje yra negerai SEO požiūriu.
Kaip veikia vikšrai?
Trumpai tariant, "Google" paieškos robotas aptinka jūsų svetainės URL adresus naudodamasis svetainių žemėlapiais, nuorodomis ir rankiniu būdu pateiktais duomenimis per "Google Search Console". Tuomet jis seka tuose puslapiuose esančias "leidžiamas" nuorodas.
Tai atliekama laikantis robots.txt taisyklių, taip pat nuorodų ir atskirų puslapių "nofollow" atributų.
Kai kurioms svetainėms - toms, kuriose yra daugiau nei 1 mln. reguliariai atnaujinamų puslapių arba 10 tūkst. puslapių, kurių turinys keičiasi kasdien - gali būti skirtas ribotas "nuskaitymo biudžetas". Tai reiškia, kiek laiko ir išteklių robotas gali skirti svetainei vienos sesijos metu.
Naršymo prioritetai
Dėl ribotų naršymo biudžetų pajėgumų naršyklės veikia pagal naršymo prioritetų rinkinį. Pavyzdžiui, "Googlebot" atsižvelgia į šiuos dalykus:
- URL adreso PageRank
- Kaip dažnai puslapis (-iai) atnaujinamas (-i)
- Ar puslapis yra naujas, ar ne
Tokiu būdu naršyklė pirmiausia gali sutelkti dėmesį į svarbiausių svetainės puslapių naršymą.
Mobiliojo ir darbalaukio "Crawler" versijos
"Googlebot" turi dvi pagrindines versijas: "Googlebot Desktop" ir "Googlebot Smartphone". Šiais laikais "Google" naudoja indeksavimą pagal mobiliuosius įrenginius, o tai reiškia, kad jos išmaniųjų telefonų agentas yra pagrindinis "Googlebot" agentas, naudojamas puslapiams naršyti ir indeksuoti.
Skirtingų tipų naršyklėms gali būti pateikiamos skirtingos svetainės versijos. Techniškai botas identifikuojasi žiniatinklio serveryje naudodamas HTTP užklausos antraštę User-Agent ir unikalų identifikatorių.
Geriausia "Crawl-Friendly" svetainės kūrimo praktika
Norėdami užtikrinti, kad jūsų svetainė būtų parengta nuskaitymui, rekomenduojame atlikti keletą veiksmų. Atlikite juos, kad svarbiausi puslapiai būtų kuo geriau indeksuojami ir reitinguojami.
1. Patikrinkite Robots.txt failą
Robots.txt failas - tai jūsų svetainės failas, kuriuo bendraujama su šiais robotais, naudojant tam tikras naršyklės direktyvas. Įsitikinkite, kad jis nedraudžia geriems robotams patekti į puslapius ar skyrelius, kuriuos norite indeksuoti. Norėdami patikrinti, ar nėra klaidų, naudokite tokius įrankius kaip "Google" robots.txt testeris.
2. Pateikti svetainės žemėlapius
Svetainės žemėlapio pateikimas yra labai svarbus žingsnis. Svetainės žemėlapyje išvardyti visi jūsų svetainės puslapiai, kuriuos norite indeksuoti. "Google Search Console" galite pateikti svetainės žemėlapį skiltyje Indeksas > Svetainės žemėlapiai. Šis procesas panašus ir kitose paieškos sistemose, pavyzdžiui, "Bing Webmaster Tools".
3. Išmintingai naudokite "Crawler" direktyvas
Robots.txt faile rodomos direktyvos, kuriomis naršyklėms nurodoma, kuriuos puslapius leidžiama ar draudžiama naršyti. Svarbu leisti nuskaityti svarbius svetainės navigacijos puslapius. Bet kokios puslapio lygio direktyvos nebus matomos, jei robots.txt faile bus uždrausta nuskaityti turinį.
4. Pateikite vidines nuorodas tarp puslapių
Vidinės nuorodos padeda paieškos sistemoms suprasti, apie ką kalbama kiekviename puslapyje, ir padeda naršyklėms pirmiausia aptikti puslapius. Vidinės nuorodos taip pat padeda formuoti puslapio reitingo srautą visoje svetainėje.
5. Sumažinkite 4xx ir nereikalingų nukreipimų skaičių
4xx klaidos rodo, kad to URL adreso turinys neegzistuoja. Naudokite tokius įrankius kaip "Ranktracker Site Audit", kad ištaisytumėte šiuos puslapius, arba sukurkite nukreipimą į veikiantį puslapį. Be to, pašalinkite nereikalingus nukreipimus ir nukreipimų grandines, kad būtų užtikrintas sklandus nuskaitymas.
6. Naudokite "Ranktracker" svetainės auditą, kad rastumėte nuskaitymo ir indeksavimo problemas
Įrankis "Ranktracker Site Audit" gali padėti patikrinti visus neindeksuojamus puslapius ir nesekamas nuorodas jūsų svetainėje. Ji gali atskleisti visus neveikiančius puslapius ar perteklinius nukreipimus, įskaitant nukreipimų grandines ar kilpas, ir nurodyti visus našlaičių puslapius.
DUK
Ar naršymas ir indeksavimas yra tas pats?
Ne. Naršymas - tai viešai prieinamų tinklalapių ir kito turinio aptikimo procesas. Indeksavimas reiškia, kad paieškos sistemos analizuoja šiuos puslapius ir saugo juos savo paieškos indekse.
Kokie yra aktyviausi "Crawlers"?
Populiariausi paieškos sistemų naršyklės robotai yra "Googlebot", "Bingbot", "Yandex Bot" ir "Baidu Spider". Daugiau informacijos rasite šiame "Imperva Bot Traffic" tyrime. Įdomu tai, kad AhrefsBot, kuris valdo visą nuorodų duomenų bazę, pasirodė esąs antras pagal aktyvumą po Googlebot.
Ar vikšrai kenkia mano svetainei?
Nors dauguma naršyklių nekenkia jūsų svetainei, yra blogų naršyklių, kurie gali pakenkti. Kenksmingi naršyklės gali užimti jūsų duomenų srauto pralaidumą, todėl puslapiai gali sulėtėti, taip pat gali bandyti pavogti duomenis arba iškrapštyti turinį iš jūsų svetainės.