Mikä on Robots.txt?
Robots.txt-tiedosto estää indeksoijia, kuten hakukoneiden botteja, pääsemästä tiettyihin verkkosivuston URL-osoitteisiin. Sitä voidaan käyttää myös joidenkin indeksoijien indeksointinopeuden säätämiseen.
Kaikki "hyvät" indeksoijat noudattavat robots.txt-tiedostossa määriteltyjä sääntöjä. On kuitenkin olemassa "huonoja" rekisteröimättömiä indeksoijia, joita käytetään usein raaputustarkoituksessa ja jotka eivät piittaa robots.txt-tiedostosta.
Robots.txt-tiedostoa on käytettävä vähentämään/optimoimaan indeksointiliikennettä verkkosivustolle, eikä sitä pitäisi käyttää verkkosivujen indeksoinnin ohjaamiseen. Vaikka URL-osoite olisi kielletty robots.txt-tiedostossa, Google voi silti indeksoida sen, jos se löydetään ulkoisen linkin kautta.
Robots.txt:n syntaksi
Robots.txt-tiedoston syntaksi sisältää seuraavat kentät:
- user-agent: crawler, jota säännöt koskevat.
- disallow: polku, jota ei saa indeksoida.
- allow: polku, jota voidaan indeksoida (valinnainen)
- sitemap: sivukarttatiedoston sijainti (valinnainen)
- crawl-delay: ohjaa indeksointinopeutta (valinnainen, eikä GoogleBot tue sitä).
Tässä on esimerkki:
Käyttäjäagentti: RanktrackerSiteAudit Disallow: RanktrackerSiteAudit Disallow: /resources/ Allow: /resources/images/ Crawl-delay: 2 Sitemap: https://example.com/sitemap.xml
Tämä robots.txt-tiedosto määrää RanktrackerSiteAuditin indeksoijan olemaan indeksoimatta URL-osoitteita hakemistossa "/resources/" lukuun ottamatta hakemistossa "/resources/images/" olevia URL-osoitteita ja asettaa pyyntöjen välisen viiveen 2 sekunniksi.
Miksi Robots.txt-tiedosto on tärkeä?
Robots.txt-tiedosto on tärkeä, koska sen avulla webmasterit voivat hallita indeksoijien käyttäytymistä verkkosivustoillaan, optimoida indeksointibudjettia ja rajoittaa indeksointia verkkosivuston osiin, joita ei ole tarkoitettu yleisön saataville.
Monet sivuston omistajat päättävät olla indeksoimatta tiettyjä sivuja, kuten kirjoittajasivuja, kirjautumissivuja tai jäsensivuston sivuja. He voivat myös estää sellaisten rajattujen resurssien, kuten PDF-tiedostojen tai videoiden, indeksoinnin, jotka edellyttävät sähköpostiosoitetta, jotta niihin pääsee käsiksi.
On syytä huomata, että jos käytät WordPressin kaltaista CMS-järjestelmää, indeksoijat estävät automaattisesti indeksoimasta /wp-admin/-kirjautumissivua
.
On kuitenkin tärkeää huomata, että Google ei suosittele, että sivujen indeksointia valvotaan pelkästään robots.txt-tiedoston avulla. Jos teet muutoksia sivuun, kuten lisäät "noindex"-tunnisteen, varmista, että sivua ei ole kielletty robots.txt-tiedostossa. Muuten Googlebot ei pysty lukemaan sitä ja päivittämään indeksiään ajoissa.
UKK
Mitä tapahtuu, jos minulla ei ole robots.txt-tiedostoa?
Useimmat sivustot eivät välttämättä vaadi robots.txt-tiedostoa. Robots.txt-tiedoston tarkoituksena on välittää erityisiä ohjeita hakuroboteille, mutta se ei välttämättä ole tarpeen, jos sinulla on pienempi verkkosivusto tai sellainen, jolla ei ole paljon sivuja, jotka sinun on estettävä hakuroboteilta.
Näin ollen robots.txt-tiedoston luomisessa ja sen käyttämisessä verkkosivustollasi ei ole mitään haittapuolia. Näin direktiivien lisääminen on helppoa, jos se on tarpeen tulevaisuudessa.
Voinko piilottaa sivun hakukoneilta robots.txt-tiedoston avulla?
Kyllä. Sivujen piilottaminen hakukoneilta on yksi robots.txt-tiedoston tärkeimmistä tehtävistä. Voit tehdä tämän disallow-parametrin ja estettävän URL-osoitteen avulla.
On kuitenkin tärkeää huomata, että pelkkä URL-osoitteen piilottaminen Googlebotilta robots.txt-tiedoston avulla ei takaa, että sitä ei indeksoida. Joissakin tapauksissa URL-osoite voidaan silti indeksoida esimerkiksi itse URL-osoitteen tekstin, ulkoisissa linkeissä käytetyn ankkuritekstin ja sen ulkoisen sivun kontekstin perusteella, jossa URL-osoite löydettiin.
Kuinka testata robots.txt-tiedostoni?
Voit validoida robots.txt-tiedoston ja testata, miten ohjeet toimivat tietyissä URL-osoitteissa, käyttämällä Google Search Console -palvelun robots.txt-testeriä tai ulkoisia validointilaitteita, kuten Merklen vastaavaa.