Ce este Robots.txt?
Un fișier robots.txt restricționează accesarea anumitor URL-uri de pe un site web de către crawlerele web, cum ar fi roboții motoarelor de căutare. De asemenea, poate fi utilizat pentru a ajusta viteza de căutare a unor crawlere web.
Toate crawlerele web "bune" respectă regulile specificate în fișierul robots.txt. Cu toate acestea, există crawlere "rele" neînregistrate, utilizate adesea în scopuri de răzuire, care ignoră complet fișierul robots.txt.
Fișierul robots.txt trebuie utilizat pentru a reduce/optimiza traficul de crawlere către un site web și nu trebuie utilizat pentru a controla indexarea paginilor web. Chiar dacă un URL este interzis în robots.txt, acesta poate fi totuși indexat de Google dacă este descoperit printr-un link extern.
Sintaxa din Robots.txt
Sintaxa fișierului robots.txt conține următoarele câmpuri:
- user-agent: crawler-ul căruia i se aplică regulile
- disallow: o cale care nu trebuie să fie accesată.
- allow: o cale care poate fi parcursă (opțional)
- sitemap: locația fișierului sitemap (opțional)
- crawl-delay: controlează viteza de crawling (opțional și nu este suportat de GoogleBot)
Iată un exemplu:
Agent utilizator: RanktrackerSiteAudit Disallow: /resurse/ Allow: /resources/images/ Crawl-delay: 2 Sitemap: https://example.com/sitemap.xml
Acest fișier robots.txt instruiește RanktrackerSiteAudit crawler să nu cerceteze URL-urile din directorul "/resurse/", cu excepția celor din "/resurse/imagini/" și stabilește întârzierea dintre cereri la 2 secunde.
De ce este important fișierul Robots.txt?
Fișierul robots.txt este important deoarece permite administratorilor de site-uri web să controleze comportamentul crawlerelor pe site-urile lor web, optimizând bugetul pentru crawlere și restricționând crawlarea secțiunilor site-ului web care nu sunt destinate accesului public.
Mulți proprietari de site-uri web aleg să nu indexeze anumite pagini, cum ar fi paginile de autor, paginile de autentificare sau paginile dintr-un site de membru. De asemenea, aceștia pot bloca crawling-ul și indexarea resurselor de tip "gated", cum ar fi PDF-urile sau videoclipurile care necesită un e-mail de acceptare pentru a fi accesate.
Este important de menționat că, dacă utilizați un CMS precum WordPress, pagina de autentificare /wp-admin/
este blocată automat pentru a nu fi indexată de către crawlere.
Cu toate acestea, este important să rețineți că Google nu recomandă să vă bazați exclusiv pe fișierul robots.txt pentru a controla indexarea paginilor. Iar dacă faceți modificări la o pagină, cum ar fi adăugarea unui tag "noindex", asigurați-vă că pagina nu este nepermisă în fișierul robots.txt. În caz contrar, Googlebot nu va putea să o citească și să își actualizeze indexul în timp util.
Întrebări frecvente
Ce se întâmplă dacă nu am un fișier robots.txt?
Cele mai multe site-uri nu au nevoie în mod absolut de un fișier robots.txt. Scopul unui fișier robots.txt este de a comunica instrucțiuni specifice roboților de căutare, dar este posibil ca acest lucru să nu fie necesar dacă aveți un site web mai mic sau unul fără multe pagini pe care trebuie să le blocați de la crawlerele de căutare.
Acestea fiind spuse, nu există nici un dezavantaj în crearea unui fișier robots.txt și publicarea acestuia pe site-ul dvs. web. Astfel, va fi ușor să adăugați directive dacă va fi nevoie să faceți acest lucru în viitor.
Pot ascunde o pagină de motoarele de căutare folosind robots.txt?
Da. Ascunderea paginilor de motoarele de căutare este una dintre funcțiile principale ale unui fișier robots.txt. Puteți face acest lucru cu ajutorul parametrului disallow și al URL-ului pe care doriți să îl blocați.
Cu toate acestea, este important să rețineți că simpla ascundere a unui URL de Googlebot prin intermediul fișierului robots.txt nu garantează că acesta nu va fi indexat. În unele cazuri, un URL poate fi totuși indexat pe baza unor factori precum textul URL-ului în sine, textul de ancorare utilizat în legăturile externe și contextul paginii externe în care a fost descoperit URL-ul.
Cum să îmi testez fișierul robots.txt?
Puteți valida fișierul robots.txt și puteți testa modul în care funcționează instrucțiunile pe anumite URL-uri utilizând testerul robots.txt din Google Search Console sau utilizând validatoare externe, cum ar fi cel de la Merkle.