Úvodní stránka
Protokol o vyloučení robotů (REP) je soubor pro správce webu, který se používá k zadávání pokynů robotům. Tyto pokyny pomáhají robotům procházet webové stránky a indexovat je pro různé webové stránky. Tento REP se někdy označuje jako Robots.txt. Umísťují se do nejvyšší úrovně adresáře webového serveru, aby byly co nejužitečnější. Například: https: //www.123abc.com/robots.txt
Skupiny REP se používají jako webový standard, který upravuje činnost robotů a chování vyhledávačů při indexování. V letech 1994 až 1997 definovaly původní skupiny REP chování botů v souboru robots.txt. V roce 1996 vyhledávače podporovaly další značky REP X-robot. Vyhledávače zpracovávaly odkazy, jejichž hodnota obsahovala "follow", pomocí mikroformátu rel-no follow.
Robot Cheat Sheet
Úplné zablokování webových crawlerů
User-agent: * Zakázat: /
Blokování konkrétních webových prohlížečů z cílové složky
User-agent: Googlebot Zakázat: /no-google/
Blokování konkrétních webových prohlížečů na cílové webové stránce
User-agent: Googlebot Zakázat: /no-google/blocked-page.html User-agent: : * Zakázat:
Sitemap: https://www.123abc.com/none-standard-location/sitemap.xml
Specifické značky protokolu pro roboty s vyloučením
URI, tagy REP jsou použity na určitou úlohu indexátoru a v některých případech na motory nosnippet, noarchive a noodpquery nebo na vyhledávací dotaz. Zdroje označené značkami vyloučení, vyhledávače, například výpisy SERP Bing, zobrazují tyto externí odkazy jako zakázané adresy URL. Kromě směrnic pro crawler budou konkrétní vyhledávače interpretovat značky REP odlišně. Příkladem může být to, že Bing někdy uvádí externí odkazy ve svých SERP jako zakázané. Google vezme stejné výpisy a odkazy na URL a ODP ve svých SERP vymaže. Domníváme se, že X-Robots by zrušil směrnice, které jsou v rozporu s prvky META.
Mikroformáty
Konkrétní faktory HTML budou mít přednost před nastavením stránky v mikroformátovaných směrnicích indexu. Tento způsob programování vyžaduje dovednosti a velmi dobrou znalost webových serverů a protokolu HTTP. Příkladem tohoto protokolu může být stránka značek X-Robot s konkrétním prvkem odkazu, které říkají follow a pak rel-nofollow. Indexátory Robots.txt obvykle postrádají směrnice, ale je možné nastavit skupinové indexátory URI, které má server s postranními skripty na úrovni webu.
Porovnávání vzorů
Webmasteři mohou stále používat dva samostatné výrazy pro označení vyloučení stránky. Těmito dvěma znaky jsou hvězdička a znak dolaru. Hvězdička označuje, že může představovat libovolnou kombinaci znaků. Znak dolaru označuje konec adresy URL.
Neomezené informace
Soubory robotů jsou vždy veřejné, takže je důležité si uvědomit, že soubor robota připojený k webové stránce může zobrazit kdokoli. Přístupné jsou také informace o tom, odkud webmaster blokuje motory na serveru. Tyto veřejné soubory zanechávají přístup k soukromým údajům uživatelů, které mohou zahrnovat soukromé individuální údaje. Je možné přidat ochranu heslem, aby návštěvníci a další osoby nemohli prohlížet utajované stránky, které by neměly být indexovány.
Další pravidla
- Jednoduché parametry metarobotů, jako je příkaz index a follow, by měly být použity pouze k zabránění indexování a procházení stránek.
- Nebezpeční boti budou tyto příkazy zcela jistě ignorovat, a proto jsou zbytečným bezpečnostním plánem.
- Každá adresa URL může mít pouze jeden řádek "disallow".
- Na každé subdoméně jsou vyžadovány samostatné soubory robotů.
- V názvech souborů pro roboty se rozlišují velká a malá písmena.
- Odstupy neoddělují parametry vyhledávání
Nejlepší taktiky SEO: Robot.txt
Blokování stránek - existuje několik způsobů, jak zabránit vyhledávači v indexování a přístupu k webové stránce nebo doméně.
Použití robotů k blokování stránek
Tímto vyloučením se vyhledávači přikáže, aby stránku neprohledával, ale přesto ji může indexovat a zobrazit ve výpisech SERP.
Žádné blokování indexové stránky
Tento způsob vyloučení říká vyhledávačům, že mohou stránku navštívit, ale nemohou zobrazit adresu URL nebo stránku uložit do svého indexu. Jedná se o preferovanou metodu vyloučení.
Žádný následující odkaz na blokované stránky
Tato taktika není podporována. Vyhledávače mohou stále přistupovat ke stránkám s tímto příkazem. I když vyhledávač nemůže sledovat stránku přímo, může k obsahu přistupovat pomocí analytiky prohlížeče nebo jiných odkazovaných stránek.
Meta Robots vs. Robots.txt
Příklad souboru robots.txt webové stránky může pomoci objasnit postup programu. V příkladu soubor robota blokuje adresář. Při vyhledávání konkrétní adresy URL v systému Google se zobrazí, že z adresáře bylo zakázáno 2760 stránek. V příkladu motor neprohledal adresy URL, takže se nezobrazí jako tradiční výpisy. Tyto stránky budou hromadit link juice, jakmile k nim budou připojeny odkazy. Kromě síly jejich hodnocení začnou získávat popularitu a důvěru také tím, že se budou objevovat ve vyhledávání. Protože stránky nemohou být pro web přínosem, protože nejsou procházeny. Nejlepším způsobem, jak tento problém vyřešit a nemít zbytečnou sílu hodnocení stránky, je rozumné použít jinou metodu vyloučení k odstranění jednotlivých stránek. Kódování by se zobrazilo jako: meta tag tato metoda by vykazovala lepší výkon než předchozí metoda.