Słowniczek SEO / Robots.txt

Robots.txt

Co to jest Robots.txt?

Plik robots.txt ogranicza robotom indeksującym, takim jak boty wyszukiwarek, dostęp do określonych adresów URL w witrynie. Można go również użyć do dostosowania prędkości indeksowania dla niektórych robotów indeksujących.

Wszystkie "dobre" roboty indeksujące przestrzegają zasad określonych w pliku robots.txt. Istnieją jednak "złe" niezarejestrowane roboty indeksujące, często wykorzystywane do celów skrobania, które całkowicie ignorują plik robots.txt.

Plik robots.txt musi być używany w celu zmniejszenia/zoptymalizowania ruchu robotów indeksujących na stronie internetowej i nie powinien być używany do kontrolowania indeksowania stron internetowych. Nawet jeśli adres URL jest niedozwolony w pliku robots.txt, nadal może być indeksowany przez Google, jeśli zostanie wykryty za pomocą zewnętrznego łącza.

Składnia pliku robots.txt

Składnia pliku robots.txt zawiera następujące pola:

  • user-agent: crawler, którego dotyczą reguły
  • disallow: ścieżka, która nie może być indeksowana
  • allow: ścieżka, która może być indeksowana (opcjonalnie)
  • sitemap: lokalizacja pliku mapy witryny (opcjonalnie)
  • crawl-delay: kontroluje prędkość indeksowania (opcjonalne i nieobsługiwane przez GoogleBot).

Oto przykład:

User-agent: RanktrackerSiteAudit Disallow: /resources/ Allow: /resources/images/ Crawl-delay: 2 Sitemap: https://example.com/sitemap.xml

Ten plik robots.txt instruuje crawlera RanktrackerSiteAudit, aby nie indeksował adresów URL w katalogu "/resources/" z wyjątkiem tych w "/resources/images/" i ustawia opóźnienie między żądaniami na 2 sekundy.

Dlaczego plik robots.txt jest ważny?

Plik robots.txt jest ważny, ponieważ umożliwia webmasterom kontrolowanie zachowania robotów indeksujących na ich stronach internetowych, optymalizując budżet indeksowania i ograniczając indeksowanie sekcji witryny, które nie są przeznaczone do publicznego dostępu.

Wielu właścicieli witryn decyduje się nie indeksować niektórych stron, takich jak strony autora, strony logowania lub strony w witrynie członkowskiej. Mogą oni również blokować indeksowanie i indeksowanie zamkniętych zasobów, takich jak pliki PDF lub filmy, do których dostęp wymaga wyrażenia zgody przez e-mail.

Warto zauważyć, że jeśli korzystasz z CMS, takiego jak WordPress, strona logowania /wp-admin/ jest automatycznie blokowana przed indeksowaniem przez roboty indeksujące.

Należy jednak pamiętać, że Google nie zaleca polegania wyłącznie na pliku robots.txt w celu kontrolowania indeksowania stron. A jeśli wprowadzasz zmiany na stronie, takie jak dodanie tagu "noindex", upewnij się, że strona nie jest niedozwolona w pliku robots.txt. W przeciwnym razie Googlebot nie będzie w stanie jej odczytać i zaktualizować swojego indeksu w odpowiednim czasie.

Najczęściej zadawane pytania

Co się stanie, jeśli nie mam pliku robots.txt?

Większość witryn nie wymaga pliku robots.txt. Celem pliku robots.txt jest przekazywanie określonych instrukcji robotom wyszukiwarek, ale może to nie być konieczne, jeśli masz mniejszą witrynę lub witrynę bez wielu stron, które musisz zablokować przed robotami wyszukiwarek.

To powiedziawszy, nie ma również wad tworzenia pliku robots.txt i umieszczania go na żywo w swojej witrynie. Ułatwi to dodawanie dyrektyw, jeśli zajdzie taka potrzeba w przyszłości.

Czy mogę ukryć stronę przed wyszukiwarkami za pomocą pliku robots.txt?

Tak. Ukrywanie stron przed wyszukiwarkami jest jedną z podstawowych funkcji pliku robots.txt. Możesz to zrobić za pomocą parametru disallow i adresu URL, który chcesz zablokować.

Należy jednak pamiętać, że samo ukrycie adresu URL przed Googlebotem za pomocą pliku robots.txt nie gwarantuje, że nie zostanie on zindeksowany. W niektórych przypadkach adres URL może nadal być indeksowany na podstawie takich czynników, jak tekst samego adresu URL, tekst kotwicy używany w linkach zewnętrznych oraz kontekst strony zewnętrznej, na której adres URL został wykryty.

Jak przetestować plik robots.txt?

Możesz zweryfikować swój plik robots.txt i sprawdzić, jak instrukcje działają na określonych adresach URL, korzystając z testera robots.txt w Google Search Console lub korzystając z zewnętrznych walidatorów, takich jak ten z Merkle.

SEO dla firm lokalnych

Ludzie nie szukają już lokalnych firm na żółtych stronach. Korzystają z Google. Dowiedz się, jak zdobyć więcej klientów dzięki wyszukiwaniu organicznemu, korzystając z naszych poradników SEO dla firm lokalnych.

Zacznij korzystać z Ranktracker za darmo!

Dowiedz się, co spowalnia Twoją witrynę w rankingu

Uzyskaj bezpłatne kontoLub zaloguj się przy użyciu swoich poświadczeń
Zacznij korzystać z Ranktracker za darmo!