Intro
Robots Exclusion Protocol (REP) är en fil för webbansvariga som används för att instruera robotar. Instruktionerna hjälper robotarna att söka igenom webbsidor och indexera dem för olika webbplatser. REP kallas ibland för Robots.txt. De placeras på den översta nivån i webbserverns katalog för att vara mest användbara. Till exempel: https://www.123abc.com/robots.txt
REP-grupper används som en webbstandard som reglerar robotarnas åtgärder och sökmotorernas indexeringsbeteende. Mellan 1994 och 1997 definierade den ursprungliga REP-gruppen botbeteende för robots.txt. År 1996 stödde sökmotorerna ytterligare REP X-robot-taggar. Sökmotorer hanterade länkar där värdet innehöll ett "follow" med hjälp av mikroformatet rel-no follow.
Robot fuskblad
För att helt blockera webcrawlers
Användaragent: *
Förbjud: /
Blockera specifika webcrawlers från en målmapp
Användaragent: Googlebot
Förbjud: /no-google/
Blockera specifika webcrawlers från en målwebb från en målwebb
Användaragent: Googlebot
Förbjud: /no-google/blocked-page.html
Användaragent: *
Disallow:
Sitemap: https://www.123abc.com/none-standard-location/sitemap.xml
Uteslutning av specifika robotprotokolltaggar
URI-, REP-taggar tillämpas på vissa indexeringsuppgifter och i vissa fall på nosnippet-, noarchive- och noodpquery-motorer eller en sökfråga. Resurser som är märkta med uteslutningsmärken visar sökmotorer som Bing SERP-listor dessa externa länkar som förbjudna webbadresser. Förutom crawler-direktiv tolkar specifika sökmotorer REP-taggar på olika sätt. Ett exempel på detta kan ses i hur Bing ibland listar externa referenser i sina SERP:er som förbjudna. Google tar samma listor och raderar ut URL- och ODP-referenserna i sina SERP. Tanken är att X-robotar skulle åsidosätta direktiv som strider mot META-element.
Mikroformat
Särskilda HTML-faktorer kommer att åsidosätta sidinställningar i mikroformaterade indexdirektiv. Den här programmeringsmetoden kräver färdigheter och en mycket god kännedom om webbservrar och HTTP-protokoll. Ett exempel på detta protokoll skulle vara en sida med X-Robot-taggar med en särskild elementlänk som säger follow och sedan rel-nofollow. Robots.txt-indexerare saknar vanligtvis direktiv, men det är möjligt att ställa in gruppindexerare av URI:er som har en server med sidoskript på webbplatsnivå.
Mönstermatchning
Webmasters kan fortfarande använda sig av två separata uttryck för att beteckna uteslutning av sidor. De två tecknen är asterisk och dollartecken. Asterisken anger att den kan representera vilken kombination av tecken som helst. Dollartecknet anger slutet på URL:en.
Oinskränkt information
Robotfiler är alltid offentliga, så det är viktigt att vara medveten om att vem som helst kan se en robotfil som är bifogad till en webbsida. Det är också tillgänglig information där webbansvarig blockerar motorerna från på servern. Dessa offentliga filer lämnar tillgång till privata användaruppgifter som kan innehålla privata individuppgifter. Det är möjligt att lägga till lösenordsskydd för att hindra besökare och andra från att se hemliga sidor som inte ska indexeras.
Ytterligare regler
- Enkla metarobotparametrar som index och follow-kommandot bör endast användas för att förhindra indexering och krypning av sidor.
- Farliga robotar kommer med största säkerhet att ignorera dessa kommandon och är därför en värdelös säkerhetsplan.
- Varje URL får endast ha en "disallow"-rad.
- Separata robotfiler krävs för varje underdomän.
- Filnamnen för robotarna är skiftlägeskänsliga.
- Utrymme skiljer inte sökparametrar åt.
Top SEO Tactics: Robot.txt
Sidblockering - det finns flera sätt att hindra en sökmotor från att indexera och få tillgång till en webbsida eller domän.
Användning av robotar för att blockera sidor
Denna uteslutning säger till sökmotorn att den inte ska gå igenom sidan, men den kan ändå indexera sidan för att visa den i SERP-listorna.
Blockering av sidor utan indexering
Denna metod för uteslutning säger till sökmotorerna att de får besöka sidan, men att de inte får visa URL:n eller spara sidan i sitt index. Detta är den föredragna uteslutningsmetoden.
Ingen följande länk för att blockera sidor
Denna taktik stöds inte. Sökmotorer kan fortfarande komma åt sidor med detta kommando. Även om sökmotorn inte kan följa sidan direkt, kan den få tillgång till innehållet med hjälp av webbläsaranalysen eller andra länkade sidor.
Meta Robots vs. Robots.txt
Ett exempel på en webbplats robots.txt-fil kan hjälpa till att klargöra programmets process. I exemplet blockerar robotfilen katalogen. När den aktuella webbadressen söks på i Google visar den att 2760 sidor har förbjudits från katalogen. I exemplet har motorn inte crawlat URL:erna, så de visas inte som traditionella listor. Dessa sidor kommer att ackumulera länkjuice när de har länkar kopplade till dem. Förutom att de kommer att få en bättre rankning kommer de också att börja få popularitet och förtroende genom att de dyker upp i sökningar. Eftersom sidorna inte kan vara till nytta för webbplatsen eftersom de inte kryssas. Det bästa sättet att åtgärda detta problem och inte ha slösad rankingkraft på en sida är att använda en annan metod för uteslutning för att ta bort de enskilda sidorna. Kodningen skulle visas som: meta tag Denna metod skulle uppvisa bättre prestanda än den tidigare metoden.