Úvod
Protokol o vylúčení robotov (REP) je súbor správcu webu, ktorý sa používa na pokyny pre robotov. Pokyny pomáhajú robotom prehľadávať webové stránky a indexovať ich pre rôzne webové lokality. Tento REP sa niekedy označuje ako súbor Robots.txt. Umiestňujú sa na najvyššiu úroveň adresára webového servera, aby boli čo najužitočnejšie. Napríklad: https://www.123abc.com/robots.txt
Skupiny REP sa používajú ako webový štandard, ktorý reguluje činnosť robotov a správanie vyhľadávačov pri indexovaní. V rokoch 1994 až 1997 pôvodná skupina REP definovala správanie botov pre súbory robots.txt. V roku 1996 vyhľadávače podporovali ďalšie značky REP X-robot. Vyhľadávače spracovávali odkazy, ktorých hodnota obsahovala "follow", pomocou mikroformátu rel-no follow.
Kontrolný hárok pre robotov
Úplné zablokovanie webových prehľadávačov
Agent používateľa: * Zakázať: /
Blokovanie konkrétnych webových prehľadávačov z cieľového priečinka
Agent používateľa: Googlebot Zakázať: /no-google/
Blokovanie konkrétnych webových prehľadávačov z cieľovej webovej stránky
Agent používateľa: Googlebot Zakázať: /no-google/blocked-page.html User-agent: * Zakázať:
Sitemap: https://www.123abc.com/none-standard-location/sitemap.xml
Špecifické značky protokolu pre vylúčenie robotov
URI, tagy REP sú aplikované na určitú úlohu indexátora a v niektorých prípadoch na motory nosnippet, noarchive a noodpquery alebo na vyhľadávací dotaz. Zdroje označené značkami vylúčenia, vyhľadávače, napríklad výpisy SERP Bing, zobrazujú tieto externé odkazy ako zakázané adresy URL. Okrem smerníc pre crawler budú špecifické vyhľadávače interpretovať značky REP odlišne. Príkladom toho môže byť, že Bing niekedy uvádza externé odkazy vo svojich SERP ako zakázané. Spoločnosť Google preberá rovnaké výpisy a vo svojich SERP vymaže odkazy na URL a ODP. Predpokladá sa, že X-Robots by zrušil smernice, ktoré sú v rozpore s prvkami META.
Mikroformáty
Konkrétne faktory HTML budú mať prednosť pred nastaveniami stránky v mikroformátovaných smerniciach indexu. Tento spôsob programovania si vyžaduje zručnosti a veľmi dobrú znalosť webových serverov a protokolu HTTP. Príkladom tohto protokolu by mohla byť stránka so značkami X-Robot s konkrétnym prvkom odkazu, ktoré hovoria follow a potom rel-nofollow. V indexátoroch Robots.txt zvyčajne chýbajú smernice, ale je možné nastaviť skupinové indexátory URI, ktoré má server s bočnými skriptami na úrovni stránky.
Porovnávanie vzorov
Správcovia webových stránok môžu na označenie vylúčenia stránky stále používať dva samostatné výrazy. Tieto dva znaky sú hviezdička a znak dolára. Hviezdička označuje, že môže predstavovať akúkoľvek kombináciu znakov. Znak dolára slúži na označenie konca adresy URL.
Neobmedzené informácie
Súbory robotov sú vždy verejné, preto je dôležité si uvedomiť, že súbor robota pripojený k webovej stránke si môže pozrieť ktokoľvek. Prístupné sú aj informácie o tom, odkiaľ webmaster blokuje motory na serveri. Tieto verejné súbory ponechávajú prístup k súkromným údajom používateľov, ktoré môžu obsahovať súkromné údaje jednotlivcov. Je možné pridať ochranu heslom, aby návštevníci a iné osoby nemohli zobraziť utajené stránky, ktoré by nemali byť indexované.
Ďalšie pravidlá
- Jednoduché parametre metarobota, ako sú príkazy index a follow, by sa mali používať len na zabránenie indexovania a prehľadávania stránok.
- Nebezpečné roboty budú tieto príkazy určite ignorovať, a preto sú zbytočným bezpečnostným plánom.
- Každá adresa URL má povolený len jeden riadok "disallow".
- Na každej subdoméne sú potrebné samostatné súbory robotov
- V názvoch súborov pre botov sa rozlišujú malé a veľké písmená
- Medzery neoddeľujú parametre vyhľadávania
Najlepšie taktiky SEO: Robot.txt
Blokovanie stránok - existuje niekoľko spôsobov, ako zabrániť vyhľadávaču v indexovaní a prístupe k webovej stránke alebo doméne.
Používanie robotov na blokovanie stránok
Toto vylúčenie vyhľadávaču oznamuje, aby stránku neprehľadával, ale môže ju napriek tomu indexovať a zobraziť vo výpisoch SERP.
Žiadne blokovanie indexovej stránky
Tento spôsob vylúčenia informuje vyhľadávače, že môžu navštíviť stránku, ale nemôžu zobraziť adresu URL alebo uložiť stránku do svojho indexu. Ide o uprednostňovanú metódu vylúčenia.
Žiadne nasledujúce prepojenie na blokovanie stránok
Toto nie je podporovaná taktika. Vyhľadávače môžu stále pristupovať k stránkam s týmto príkazom. Aj keď vyhľadávač nemôže priamo sledovať stránku, môže k obsahu pristupovať pomocou analytiky prehliadača alebo iných prepojených stránok.
Meta Robots vs. Robots.txt
Príklad súboru robots.txt webovej stránky môže pomôcť objasniť postup programu. V príklade súbor robota blokuje adresár. Pri vyhľadávaní konkrétnej adresy URL v službe Google sa zobrazí, že z adresára bolo zakázaných 2760 stránok. V príklade motor neprešiel adresy URL, takže sa nezobrazia ako tradičné výpisy. Tieto stránky budú hromadiť odkazovú šťavu, keď k nim budú pripojené odkazy. Okrem sily ich umiestnenia začnú získavať popularitu a dôveru aj tým, že sa budú objavovať vo vyhľadávaní. Keďže stránky nemôžu byť pre lokalitu prínosom, pretože nie sú prehľadávané. Najlepším spôsobom, ako tento problém vyriešiť a nemať zbytočne premárnenú silu hodnotenia stránky, je rozumné použiť iný spôsob vylúčenia na odstránenie jednotlivých stránok. Kódovanie by sa zobrazilo ako: meta tag táto metóda by vykazovala lepší výkon ako predchádzajúca metóda.