Introduksjon
Robots Exclusion Protocol (REP) er en webmasterfil som brukes til å instruere roboter. Instruksjonene hjelper robotene med å gjennomsøke nettsider og indeksere dem for ulike nettsteder. Denne REP-filen omtales noen ganger som Robots.txt. De plasseres på øverste nivå i webserverkatalogen for å være mest mulig nyttige. For eksempel: https://www.123abc.com/robots.txt
REP-grupper brukes som en nettstandard som regulerer robothandlinger og søkemotorers indekseringsatferd. Mellom 1994 og 1997 definerte den opprinnelige REP robotatferd for robots.txt. I 1996 støttet søkemotorer ytterligere REP X-robot-koder. Søkemotorer håndterte lenker der verdien inneholdt "follow" ved hjelp av mikroformatet rel-no follow.
Jukseark for roboter
For å fullstendig blokkere webcrawlere
Bruker-agent: * Disallow: /
Slik blokkerer du bestemte nettsøkere fra en målmappe
Brukeragent: Googlebot Disallow: /no-google/
Slik blokkerer du bestemte nettsøkere fra en målnettside
Brukeragent: Googlebot Disallow: /no-google/blocked-page.html User-agent: * Disallow:
Sitemap: https://www.123abc.com/none-standard-location/sitemap.xml
Utelukkelse av spesifikke robotprotokoller
URI-, REP-tagger brukes på visse indekseringsoppgaver, og i noen tilfeller nosnippet-, noarchive- og noodpquery-motorer eller et søk. Ressurser som er merket med ekskluderingskoder, viser søkemotorer som Bing SERP-lister disse eksterne lenkene som forbudte nettadresser. I tillegg til retningslinjer for søkemotorer vil spesifikke søkemotorer tolke REP-tagger forskjellig. Et eksempel på dette er hvordan Bing noen ganger viser eksterne referanser på sine SERP-er som forbudte. Google tar de samme oppføringene og sletter nettadressen og ODP-referansene på sine SERP-er. Tanken er at X-Robots vil overstyre direktiver som er i konflikt med META-elementer.
Mikroformater
Spesielle HTML-faktorer vil overstyre sideinnstillinger i mikroformaterte indeksdirektiver. Denne programmeringsmetoden krever ferdigheter og en svært god forståelse av webservere og HTTP-protokollen. Et eksempel på denne protokollen kan være en side med X-Robot-tagger med en bestemt elementlenke som sier follow og deretter rel-nofollow. Robots.txt-indekser mangler vanligvis direktiver, men det er mulig å angi gruppeindekser for URI-er som har en server med sideskript på nettstedsnivå.
Mønstertesting
Nettredaktører kan fortsatt bruke to separate uttrykk for å angi ekskludering av sider. De to tegnene er asterisken og dollartegnet. Stjernen angir at den kan representere en hvilken som helst kombinasjon av tegn. Dollartegnet angir slutten av nettadressen.
Ubegrenset informasjon
Robotfiler er alltid offentlige, så det er viktig å være klar over at hvem som helst kan se en robotfil som er knyttet til en nettside. Det er også tilgjengelig informasjon der nettredaktøren blokkerer motorene på serveren. Disse offentlige filene gir tilgang til private brukerdata som kan inneholde personopplysninger. Det er mulig å legge til passordbeskyttelse for å hindre besøkende og andre i å se klassifiserte sider som ikke skal indekseres.
Tilleggsregler
- Enkle metarobotparametere som index- og follow-kommandoer bør bare brukes for å forhindre indeksering og gjennomsøking av sider.
- Farlige roboter vil helt sikkert ignorere disse kommandoene og er som sådan en ubrukelig sikkerhetsplan.
- Hver nettadresse har bare én "disallow"-linje.
- Det kreves separate robotfiler på hvert underdomene.
- Filnavn for robotene er sensitive for store og små bokstaver.
- Avstand skiller ikke søkeparametere
Topp SEO-taktikker: Robot.txt
Blokkering av sider - det finnes flere måter å hindre en søkemotor i å indeksere og få tilgang til en nettside eller et domene.
Bruke roboter til å blokkere sider
Denne ekskluderingen forteller søkemotoren at den ikke skal gjennomsøke siden, men den kan fortsatt indeksere siden for å vise den i SERP-lister.
Ingen blokkering av indekssider
Denne ekskluderingsmetoden forteller søkemotorer at de har lov til å besøke siden, men at de ikke kan vise nettadressen eller lagre siden i sin indeks. Dette er den foretrukne ekskluderingsmetoden.
Ingen følgende lenke til blokkering av sider
Dette er ikke en taktikk som støttes. Søkemotorer kan fortsatt få tilgang til sider med denne kommandoen. Selv om søkemotoren ikke kan følge siden direkte, kan den få tilgang til innholdet ved hjelp av nettleseranalysen eller andre lenkede sider.
Metaroboter vs. Robots.txt
Et eksempel på et nettsteds robots.txt-fil kan bidra til å klargjøre prosessen i programmet. I eksemplet blokkerer robotfilen katalogen. Når det søkes etter den aktuelle nettadressen i Google, viser det seg at 2760 sider er avvist fra katalogen. I eksemplet har ikke motoren gjennomsøkt nettadressene, så de vises ikke som tradisjonelle oppføringer. Disse sidene vil akkumulere lenkejuice når de har lenker knyttet til seg. I tillegg til rangeringskraften deres, vil de også begynne å få popularitet og tillit fra å vises i søk. Siden sidene ikke kan være en fordel for nettstedet fordi de ikke blir gjennomsøkt. Den beste måten å løse dette problemet på og ikke ha bortkastet rangeringskraft på en side, er å bruke en annen eksklusjonsmetode for å fjerne de enkelte sidene. Kodingen vil se ut som: metakode denne metoden vil gi bedre ytelse enn den forrige metoden.