Wat is een Crawler?

Een crawler is een internetprogramma dat is ontworpen om systematisch over het internet te browsen. Crawlers worden meestal gebruikt als middel voor zoekmachines om pagina's te ontdekken en te verwerken voor indexering en om ze te tonen in de zoekresultaten.

Naast crawlers die HTML verwerken, worden er ook speciale crawlers gebruikt om afbeeldingen en video's te indexeren.

In de echte wereld zijn de belangrijkste webcrawlers die je moet kennen de crawlers die worden gebruikt door 's werelds beste zoekmachines: Googlebot, Bingbot, Yandex Bot en Baidu Spider.

Goede tegen slechte kruipers

Beschouw een goede crawler als een bot die uw site kan helpen, in de eerste plaats door uw inhoud toe te voegen aan een zoekindex of door u te helpen uw website door te lichten. Andere kenmerken van een goede crawler zijn dat hij zichzelf identificeert, uw richtlijnen volgt en zijn crawlsnelheid aanpast om uw server niet te overbelasten.

Een slechte crawler is een bot die geen waarde toevoegt aan een website-eigenaar en kwade bedoelingen kan hebben. Slechte crawlers kunnen zichzelf niet identificeren, uw richtlijnen omzeilen, servers onnodig belasten en zelfs inhoud en gegevens stelen.

Soorten Crawlers

Er zijn twee hoofdtypen crawlers:

Bots die constant crawlen: Deze voeren 24/7 een crawl uit om nieuwe pagina's te ontdekken en oudere opnieuw te crawlen (bijv. Googlebot).
Bots op aanvraag: Deze crawlen een beperkt aantal pagina's en voeren alleen een crawl uit wanneer daarom wordt gevraagd (bijv. Ranktracker Site Audit bot).

Waarom is Website Crawling belangrijk?

Het primaire doel van een zoekmachine crawler is om uit te zoeken wat er op uw website staat en deze informatie toe te voegen aan de zoekindex. Als uw site niet wordt gecrawld, verschijnt uw inhoud niet in de zoekresultaten.

Het crawlen van websites is geen eenmalige gebeurtenis - het is een doorlopende praktijk voor actieve websites. Bots zullen websites regelmatig opnieuw crawlen om nieuwe pagina's te vinden en toe te voegen aan de zoekindex, terwijl ze ook hun informatie over bestaande pagina's bijwerken.

Hoewel de meeste crawlers worden geassocieerd met zoekmachines, zijn er ook andere soorten crawlers. De Ranktracker Site Audit bot kan je bijvoorbeeld helpen om te zien wat er mis is met je website op het gebied van SEO.

Hoe werken Crawlers?

In een notendop ontdekt een webcrawler zoals Googlebot URL's op uw website via sitemaps, links en handmatige aanmeldingen via Google Search Console. Vervolgens volgt hij de "toegestane" links op die pagina's.

Het doet dit met respect voor de robots.txt regels, evenals alle "nofollow" attributen op links en op individuele pagina's.

Sommige websites - die met meer dan 1 miljoen pagina's die regelmatig worden bijgewerkt of die met 10 duizend pagina's met inhoud die dagelijks verandert - kunnen een beperkt "crawlbudget" hebben. Dit verwijst naar de hoeveelheid tijd en middelen die de bot in een enkele sessie aan een website kan besteden.

Crawlprioriteiten

Vanwege de beperkte capaciteit van crawlbudgetten werken crawlers met een reeks crawlprioriteiten. Googlebot houdt bijvoorbeeld rekening met het volgende:

PageRank van de URL
Hoe vaak de pagina('s) wordt (worden) bijgewerkt
Of de pagina nieuw is of niet

Op deze manier kan de crawler zich richten op het eerst crawlen van de belangrijkste pagina's op je site.

Crawler-versies voor mobiel vs. desktop

Googlebot heeft twee hoofdversies: Googlebot Desktop en Googlebot Smartphone. Tegenwoordig gebruikt Google mobile-first indexing, wat betekent dat zijn smartphone-agent de primaire Googlebot is die wordt gebruikt voor het crawlen en indexeren van pagina's.

Verschillende versies van een website kunnen worden gepresenteerd aan deze verschillende soorten crawlers. Technisch gezien identificeert de bot zichzelf aan een webserver met behulp van de HTTP request header User-Agent, samen met een unieke identificatiecode.

Beste praktijken voor een kruipvriendelijke website

Om ervoor te zorgen dat je website klaar is voor crawling, raden we een aantal stappen aan. Volg ze om je belangrijkste pagina's de beste kans op indexering en ranking te geven.

1. Controleer uw Robots.txt-bestand

Het robots.txt-bestand is het bestand op uw website dat communiceert met deze bots door middel van een reeks crawlerrichtlijnen. Zorg ervoor dat het goede bots niet de toegang ontzegt tot pagina's of secties die u wilt indexeren. Gebruik tools zoals de robots.txt-tester van Google om te controleren op fouten.

2. Sitemaps indienen

Het indienen van je sitemap is een belangrijke stap. Een sitemap bevat alle pagina's van uw website die u wilt laten indexeren. In Google Search Console kunt u uw sitemap indienen onder Index > Sitemaps. Dit proces is vergelijkbaar voor andere zoekmachines, zoals Bing Webmaster Tools.

3. Gebruik Crawler-richtlijnen verstandig

Het robots.txt-bestand gebruikt richtlijnen om crawlers te vertellen welke pagina's wel of niet mogen worden gecrawld. Het is belangrijk dat belangrijke pagina's in de navigatie van uw site mogen worden gecrawld. Directives op paginaniveau worden niet gezien als de inhoud niet mag worden gecrawld in uw robots.txt-bestand.

4. Zorg voor interne links tussen pagina's

Intern linken helpt zoekmachines te begrijpen waar elke pagina over gaat en helpt de crawler pagina's in de eerste plaats te ontdekken. Interne links helpen u ook om vorm te geven aan de manier waarop PageRank door uw site stroomt.

5. 4xx's en onnodige omleidingen verminderen

4xx fouten geven aan een crawler aan dat de inhoud op die URL niet bestaat. Gebruik tools zoals Ranktracker Site Audit om deze pagina's te repareren of stel een redirect in naar een live pagina. Elimineer ook onnodige redirects en redirect-ketens om een soepele crawling te garanderen.

6. Gebruik Ranktracker Site Audit om problemen met crawlability en indexeerbaarheid te vinden

De Ranktracker Site Audit tool kan helpen door alle noindexed pagina's en nofollowed links op uw site te controleren. Het kan gebroken pagina's of buitensporige redirects ontdekken, inclusief redirectketens of -lussen, en weespagina's aanwijzen.

FAQs

Is crawlen en indexeren hetzelfde?

Crawlen verwijst naar het proces van het ontdekken van openbaar toegankelijke webpagina's en andere inhoud. Indexeren verwijst naar zoekmachines die deze pagina's analyseren en opslaan in hun zoekindex.

Wat zijn de meest actieve crawlers?

De populairste zoekmachinecrawlers zijn Googlebot, Bingbot, Yandex Bot en Baidu Spider. Bekijk voor meer details deze Imperva Bot Traffic studie. Interessant is dat AhrefsBot, die de volledige linkdatabase voedt, na Googlebot de meest actieve crawler bleek te zijn.

Doen Crawlers Mijn Website Pijn?

Hoewel de meeste crawlers geen schade toebrengen aan je website, zijn er slechte crawlers die dat wel kunnen. Schadelijke crawlers kunnen beslag leggen op uw bandbreedte, waardoor pagina's langzamer worden, en kunnen proberen gegevens te stelen of inhoud van uw site te schrapen.

Crawler