Hvad er en Crawler?

Crawler

Hvad er en Crawler?

En crawler er et internetprogram, der er designet til at gennemsøge internettet systematisk. Crawlere bruges oftest som et middel for søgemaskiner til at finde og behandle sider med henblik på indeksering og visning i søgeresultaterne.

Ud over crawlere, der behandler HTML, bruges der også nogle særlige crawlere til at indeksere billeder og videoer.

I den virkelige verden er de vigtigste webcrawlere dem, der bruges af verdens største søgemaskiner: Googlebot, Bingbot, Yandex Bot og Baidu Spider.

Gode vs. dårlige kravlere

Tænk på en god crawler som en bot, der kan hjælpe dit websted, primært ved at tilføje dit indhold til et søgeindeks eller ved at hjælpe dig med at revidere dit websted. Andre kendetegn ved en god crawler er, at den identificerer sig selv, følger dine direktiver og justerer sin crawlinghastighed, så den ikke overbelaster din server.

En dårlig crawler er en bot, der ikke tilføjer nogen værdi til en hjemmesideejer, og som kan have ondsindede hensigter. Dårlige crawlere kan undlade at identificere sig selv, omgå dine direktiver, skabe unødvendige belastninger på servere og endda stjæle indhold og data.

Typer af larvefødder

Der findes to hovedtyper af crawlere:

Bots, der gennemsøger konstant: Disse udfører en gennemgang 24/7 for at opdage nye sider og gennemgå ældre sider igen (f.eks. Googlebot).
On-demand bots: Disse crawler et begrænset antal sider og udfører kun en crawl, når de bliver bedt om det (f.eks. Ranktracker Site Audit-bot).

Hvorfor er website-crawling vigtigt?

Det primære formål med en søgemaskine-crawler er at finde ud af, hvad der er på dit website, og tilføje disse oplysninger til søgeindekset. Hvis dit websted ikke bliver crawlet, vil dit indhold ikke blive vist i søgeresultaterne.

Webstedscrawling er ikke bare en engangsforeteelse - det er en løbende praksis for aktive websteder. Bots gennemgår regelmæssigt hjemmesider for at finde og tilføje nye sider til søgeindekset, samtidig med at de opdaterer deres oplysninger om eksisterende sider.

De fleste crawlere forbindes med søgemaskiner, men der findes også andre typer af crawlere. For eksempel kan Ranktracker Site Audit bot hjælpe dig med at se, hvad der er galt med dit website med hensyn til SEO.

Hvordan fungerer crawlere?

Kort fortalt vil en webcrawler som Googlebot finde URL'er på dit website via sitemaps, links og manuelle indsendelser via Google Search Console. Derefter følger den de "tilladte" links på disse sider.

Det gør den, mens den respekterer robots.txt-reglerne samt eventuelle "nofollow"-attributter på links og på individuelle sider.

Nogle websites - dem med mere end 1 million sider, der opdateres regelmæssigt, eller dem med 10.000 sider med indhold, der ændres dagligt - kan have et begrænset "crawl-budget". Dette refererer til den tid og de ressourcer, som robotten kan bruge på et website i en enkelt session.

Prioriteter for gennemsøgning

På grund af crawl-budgetternes begrænsede kapacitet arbejder crawlere ud fra et sæt crawl-prioriteter. Googlebot overvejer for eksempel følgende:

PageRank for URL'en
Hvor ofte siden/siderne opdateres
Om siden er ny eller ej

På den måde kan crawleren fokusere på at crawle de vigtigste sider på dit website først.

Mobil- vs. desktop-crawler-versioner

Googlebot har to hovedversioner: Googlebot Desktop og Googlebot Smartphone. I dag bruger Google mobile first-indeksering, hvilket betyder, at smartphone-agenten er den primære Googlebot, der bruges til at crawle og indeksere sider.

Forskellige versioner af et websted kan præsenteres for disse forskellige typer af crawlere. Teknisk set identificerer boten sig selv over for en webserver ved hjælp af HTTP-anmodningshovedet User-Agent sammen med en unik identifikator.

Bedste praksis for en crawl-venlig hjemmeside

For at sikre, at din hjemmeside er klar til crawling, er der flere trin, vi anbefaler. Følg dem for at give dine vigtigste sider den bedste chance for at blive indekseret og rangeret.

1. Tjek din Robots.txt-fil

Filen robots.txt er den fil på dit website, der kommunikerer med disse bots ved hjælp af en række crawler-direktiver. Sørg for, at den ikke afviser gode bots fra sider eller sektioner, som du gerne vil have indekseret. Brug værktøjer som Googles robots.txt-tester til at tjekke for fejl.

2. Indsend sitemaps

At indsende dit sitemap er et vigtigt skridt. Et sitemap viser alle de sider på dit website, som du vil have indekseret. I Google Search Console kan du indsende dit sitemap under Index > Sitemaps. Denne proces er den samme for andre søgemaskiner som Bing Webmaster Tools.

3. Brug crawler-direktiver med omtanke

Filen robots.txt bruger direktiver til at fortælle crawlere, hvilke sider der må eller ikke må crawles. Det er vigtigt at tillade, at vigtige sider i dit websteds navigation bliver crawlet. Eventuelle direktiver på sideniveau vil ikke blive set, hvis indholdet ikke må crawles i din robots.txt-fil.

4. Sørg for interne links mellem siderne

Interne links hjælper søgemaskinerne med at forstå, hvad hver side handler om, og hjælper crawleren med at finde siderne i første omgang. Interne links hjælper dig også med at forme, hvordan PageRank flyder gennem dit website.

5. Reducer 4xx'er og unødvendige omdirigeringer

4xx-fejl signalerer til en crawler, at indholdet på den pågældende URL ikke findes. Brug værktøjer som Ranktracker Site Audit til at rette disse sider eller oprette en omdirigering til en levende side. Fjern også unødvendige omdirigeringer og omdirigeringskæder for at sikre problemfri crawling.

6. Brug Ranktracker Site Audit til at finde problemer med crawlbarhed og indeksering

Ranktracker Site Audit-værktøjet kan hjælpe ved at tjekke alle noindexed sider og nofollowed links på dit website. Det kan afdække eventuelle ødelagte sider eller overdrevne omdirigeringer, herunder omdirigeringskæder eller -sløjfer, og påpege eventuelle forældreløse sider.

Ofte stillede spørgsmål

Er crawling og indeksering det samme?

Crawling henviser til processen med at finde offentligt tilgængelige websider og andet indhold. Indeksering henviser til, at søgemaskiner analyserer disse sider og gemmer dem i deres søgeindeks.

Hvad er de mest aktive crawlere?

De mest populære søgemaskine-crawlere omfatter Googlebot, Bingbot, Yandex Bot og Baidu Spider. For flere detaljer, tjek denne Imperva Bot Traffic-undersøgelse. Interessant nok viste AhrefsBot, som driver hele linkdatabasen, sig at være den næstmest aktive crawler efter Googlebot.

Skader crawlere min hjemmeside?

Mens de fleste crawlere ikke skader din hjemmeside, er der dårlige crawlere, der kan gøre det. Skadelige crawlere kan optage din båndbredde, så siderne bliver langsommere, og de kan forsøge at stjæle data eller skrabe indhold fra din hjemmeside.

Crawler