Apa itu Robots.txt?

Robot.txt

Apa itu Robots.txt?

File robots.txt membatasi perayap web, seperti bot mesin pencari, untuk mengakses URL tertentu di situs web. File ini juga dapat digunakan untuk menyesuaikan kecepatan perayapan untuk beberapa perayap web.

Semua perayap web yang "baik" mematuhi aturan yang ditentukan dalam file robots.txt. Namun, ada perayap tidak terdaftar yang "buruk", yang sering digunakan untuk tujuan pengikisan, yang sama sekali tidak menghiraukan file robots.txt.

File robots.txt harus digunakan untuk mengurangi/mengoptimalkan lalu lintas perayap ke situs web dan tidak boleh digunakan untuk mengontrol pengindeksan halaman web. Meskipun sebuah URL dilarang dalam robots.txt, URL tersebut masih dapat diindeks oleh Google jika ditemukan melalui tautan eksternal.

Sintaks dari Robots.txt

Sintaks file robots.txt berisi bidang-bidang berikut:

agen-pengguna: perayap yang berlaku untuk aturan tersebut
disallow: jalur yang tidak boleh dirayapi
allow: jalur yang dapat dirayapi (opsional)
sitemap: lokasi file peta situs (opsional)
crawl-delay: mengontrol kecepatan perayapan (opsional dan tidak didukung oleh GoogleBot)

Berikut ini sebuah contoh:

Agen pengguna: RanktrackerSiteAudit Disallow: /resources/ Izinkan: /resources/images/ Penundaan perayapan: 2 Situs web: https://example.com/sitemap.xml

File robots.txt ini menginstruksikan perayap RanktrackerSiteAudit untuk tidak merayapi URL di direktori "/resources/" kecuali yang ada di "/resources/images/" dan mengatur penundaan antara permintaan menjadi 2 detik.

Mengapa File Robots.txt Penting?

File robots.txt penting karena memungkinkan webmaster untuk mengontrol perilaku perayap di situs web mereka, mengoptimalkan anggaran perayapan, dan membatasi perayapan bagian situs web yang tidak dimaksudkan untuk akses publik.

Banyak pemilik situs web memilih untuk tidak mengindeks halaman tertentu seperti halaman penulis, halaman login, atau halaman dalam situs keanggotaan. Mereka juga dapat memblokir perayapan dan pengindeksan sumber daya berpagar seperti PDF atau video yang memerlukan keikutsertaan email untuk mengaksesnya.

Perlu dicatat bahwa jika Anda menggunakan CMS seperti WordPress, halaman login /wp-admin/ secara otomatis diblokir agar tidak diindeks oleh perayap.

Namun, penting untuk diperhatikan bahwa Google tidak menyarankan untuk hanya mengandalkan file robots.txt untuk mengontrol pengindeksan halaman. Dan jika Anda membuat perubahan pada sebuah halaman, seperti menambahkan tag "noindex", pastikan halaman tersebut tidak dilarang di robots.txt. Jika tidak, Googlebot tidak akan dapat membacanya dan memperbarui indeksnya secara tepat waktu.

Pertanyaan Umum

Apa yang terjadi jika saya tidak memiliki file robots.txt?

Sebagian besar situs tidak benar-benar membutuhkan file robots.txt. Tujuan dari file robots.txt adalah untuk menyampaikan instruksi spesifik kepada bot pencarian, tetapi ini mungkin tidak diperlukan jika Anda memiliki situs web yang lebih kecil atau situs web yang tidak memiliki banyak halaman yang perlu diblokir dari perayap pencarian.

Dengan demikian, tidak ada kerugiannya untuk membuat file robots.txt dan menayangkannya di situs web Anda. Ini akan memudahkan untuk menambahkan arahan jika Anda perlu melakukannya di masa mendatang.

Dapatkah saya menyembunyikan halaman dari mesin pencari menggunakan robots.txt?

Ya. Menyembunyikan halaman dari mesin pencari adalah salah satu fungsi utama file robots.txt. Anda bisa melakukan ini dengan parameter disallow dan URL yang ingin Anda blokir.

Namun, penting untuk diperhatikan bahwa hanya menyembunyikan URL dari Googlebot menggunakan file robots.txt tidak menjamin bahwa URL tersebut tidak akan diindeks. Dalam beberapa kasus, sebuah URL mungkin masih dapat diindeks berdasarkan faktor-faktor seperti teks URL itu sendiri, teks jangkar yang digunakan pada tautan eksternal, dan konteks halaman eksternal tempat URL ditemukan.

Bagaimana cara menguji file robots.txt saya?

Anda dapat memvalidasi file robots.txt Anda dan menguji bagaimana instruksi bekerja pada URL tertentu menggunakan penguji robots.txt di Google Search Console atau menggunakan validator eksternal, seperti yang ada di Merkle.

Robot.txt