Co to jest Crawler?

Crawler

Co to jest Crawler?

Crawler to program internetowy przeznaczony do systematycznego przeglądania Internetu. Crawlery są najczęściej wykorzystywane przez wyszukiwarki do wykrywania i przetwarzania stron w celu ich indeksowania i wyświetlania w wynikach wyszukiwania.

Oprócz crawlerów przetwarzających HTML, niektóre specjalne crawlery są również używane do indeksowania obrazów i filmów.

W prawdziwym świecie głównymi robotami indeksującymi, które należy znać, są te używane przez najlepsze wyszukiwarki na świecie: Googlebot, Bingbot, Yandex Bot i Baidu Spider.

Dobre i złe gąsienice

Dobry crawler to bot, który może pomóc Twojej witrynie, przede wszystkim poprzez dodanie treści do indeksu wyszukiwania lub pomoc w audycie witryny. Innymi cechami charakterystycznymi dobrego crawlera jest to, że identyfikuje się, postępuje zgodnie z twoimi dyrektywami i dostosowuje szybkość indeksowania, aby nie przeciążać twojego serwera.

Zły crawler to bot, który nie wnosi żadnej wartości dla właściciela witryny i może mieć złośliwe zamiary. Złe crawlery mogą nie identyfikować się, omijać dyrektywy, powodować niepotrzebne obciążenie serwerów, a nawet kraść treści i dane.

Rodzaje Crawlerów

Istnieją dwa główne typy crawlerów:

Stale indeksujące boty: Wykonują indeksowanie 24/7, aby odkrywać nowe strony i ponownie indeksować starsze (np. Googlebot).
Boty na żądanie: Będą one indeksować ograniczoną liczbę stron i wykonywać indeksowanie tylko na żądanie (np. bot Ranktracker Site Audit).

Dlaczego indeksowanie stron internetowych jest ważne?

Głównym celem crawlera wyszukiwarki jest sprawdzenie, co znajduje się w witrynie i dodanie tych informacji do indeksu wyszukiwania. Jeśli witryna nie zostanie zaindeksowana, jej zawartość nie pojawi się w wynikach wyszukiwania.

Indeksowanie stron internetowych nie jest tylko jednorazowym wydarzeniem - jest to ciągła praktyka dla aktywnych stron internetowych. Boty regularnie przeszukują witryny, aby znaleźć i dodać nowe strony do indeksu wyszukiwania, jednocześnie aktualizując informacje o istniejących stronach.

Podczas gdy większość crawlerów jest kojarzona z wyszukiwarkami, istnieją również inne rodzaje crawlerów. Na przykład bot Ranktracker Site Audit może pomóc ci zobaczyć, co jest nie tak z twoją witryną pod względem SEO.

Jak działają Crawlery?

W skrócie, robot indeksujący, taki jak Googlebot, wykryje adresy URL w Twojej witrynie za pomocą map witryn, linków i ręcznych zgłoszeń za pośrednictwem Google Search Console. Następnie podąży za "dozwolonymi" linkami na tych stronach.

Robi to z poszanowaniem reguł robots.txt, a także wszelkich atrybutów "nofollow" na linkach i poszczególnych stronach.

Niektóre witryny - te z ponad milionem stron, które są regularnie aktualizowane lub te z 10 tysiącami stron treści, które zmieniają się codziennie - mogą mieć ograniczony "budżet indeksowania". Odnosi się to do ilości czasu i zasobów, które bot może poświęcić witrynie podczas jednej sesji.

Priorytety indeksowania

Ze względu na ograniczoną pojemność budżetów indeksowania, crawlery działają w oparciu o zestaw priorytetów indeksowania. Na przykład Googlebot bierze pod uwagę następujące kwestie:

PageRank adresu URL
Jak często strony są aktualizowane
Czy strona jest nowa, czy nie

W ten sposób robot indeksujący może skupić się na indeksowaniu najważniejszych stron w witrynie w pierwszej kolejności.

Wersje mobilne i desktopowe crawlerów

Googlebot ma dwie główne wersje: Googlebot Desktop i Googlebot Smartphone. Obecnie Google stosuje indeksowanie mobile-first, co oznacza, że jego agent dla smartfonów jest głównym Googlebotem używanym do indeksowania stron.

Różne wersje strony internetowej mogą być prezentowane tym różnym typom robotów indeksujących. Z technicznego punktu widzenia bot identyfikuje się z serwerem internetowym za pomocą nagłówka żądania HTTP User-Agent wraz z unikalnym identyfikatorem.

Najlepsze praktyki dla strony przyjaznej dla indeksowania

Aby upewnić się, że witryna jest gotowa do indeksowania, zalecamy wykonanie kilku kroków. Postępuj zgodnie z nimi, aby zapewnić swoim kluczowym stronom najlepszą szansę na indeksowanie i ranking.

1. Sprawdź plik robots.txt

Plik robots.txt to plik w witrynie, który komunikuje się z tymi robotami za pomocą serii dyrektyw dla robotów indeksujących. Upewnij się, że nie uniemożliwia on dobrym robotom dostępu do stron lub sekcji, które mają być indeksowane. Użyj narzędzi takich jak tester robots.txt Google, aby sprawdzić błędy.

2. Przesyłanie map witryn

Przesłanie mapy witryny jest krytycznym krokiem. Mapa witryny zawiera listę wszystkich stron witryny, które mają zostać zindeksowane. W Google Search Console mapę witryny można przesłać w sekcji Indeks > Mapy witryn. Proces ten jest podobny w przypadku innych wyszukiwarek, takich jak Bing Webmaster Tools.

3. Mądre korzystanie z dyrektyw Crawlera

Plik robots.txt wykorzystuje dyrektywy do informowania robotów indeksujących, które strony mogą być indeksowane, a które nie. Ważne jest, aby zezwolić na indeksowanie ważnych stron w nawigacji witryny. Wszelkie dyrektywy na poziomie strony nie będą widoczne, jeśli zawartość nie będzie mogła być indeksowana w pliku robots.txt.

4. Zapewnienie linków wewnętrznych między stronami

Linki wewnętrzne pomagają wyszukiwarkom zrozumieć, o czym jest każda strona i pomagają robotowi indeksującemu znaleźć strony w pierwszej kolejności. Linki wewnętrzne pomagają również kształtować przepływ PageRank w całej witrynie.

5. Redukcja 4xx i niepotrzebnych przekierowań

Błędy 4xx sygnalizują robotowi indeksującemu, że treść pod danym adresem URL nie istnieje. Skorzystaj z narzędzi takich jak Ranktracker Site Audit, aby naprawić te strony lub skonfigurować przekierowanie do aktywnej strony. Wyeliminuj także niepotrzebne przekierowania i łańcuchy przekierowań, aby zapewnić płynne indeksowanie.

6. Skorzystaj z audytu witryny Ranktracker, aby znaleźć problemy z indeksowalnością i indeksowalnością

Narzędzie Ranktracker Site Audit może pomóc, sprawdzając wszystkie strony noindexed i linki nofollow w witrynie. Może wykryć wszelkie uszkodzone strony lub nadmierne przekierowania, w tym łańcuchy lub pętle przekierowań, a także wskazać wszelkie strony osierocone.

Najczęściej zadawane pytania

Czy indeksowanie to to samo?

Crawling odnosi się do procesu wyszukiwania publicznie dostępnych stron internetowych i innych treści. Indeksowanie odnosi się do analizowania tych stron przez wyszukiwarki i przechowywania ich w indeksie wyszukiwania.

Jakie są najbardziej aktywne crawlery?

Do najpopularniejszych robotów indeksujących wyszukiwarek należą Googlebot, Bingbot, Yandex Bot i Baidu Spider. Więcej szczegółów można znaleźć w badaniu Imperva Bot Traffic. Co ciekawe, AhrefsBot, który zasila całą bazę danych linków, okazał się drugim najbardziej aktywnym crawlerem po Googlebocie.

Czy roboty indeksujące szkodzą mojej witrynie?

Podczas gdy większość robotów indeksujących nie wyrządza szkód w witrynie, istnieją złe roboty, które mogą to zrobić. Szkodliwe roboty indeksujące mogą blokować przepustowość, powodując spowolnienie działania stron, a także mogą próbować kraść dane lub pobierać treści z witryny.

Crawler