konfigurasi robots.txt

Optimalkan Crawler Mesin Pencari dengan robots.txt

Dalam proses optimasi website, crawl atau perayapan mesin pencari atas konten website menjadi prioritas utama. Alasan mendasar dari hal ini adalah untuk mempercepat proses indeks dan reindeks halaman website.

Mengoptimalkan penulisan dalam file robots.txt bisa menjadi langkah pengoptimalan yang diambil. Dengan melakukan konfigurasi yang tepat, Anda dapat menginformasikan ke mesin pencari terhadap posisi sitemap, halaman yang boleh diakses dan tidak boleh diakses, serta bot apa saja yang diizinkan untuk melakukan crawl.

Dalam artikel ini kami akan memberikan berbagai hal yang menjadi dasar pengoptimalan serta bagaimana robots.txt ini dapat berperan untuk website Anda. Mari kita mulai dengan mengenali robots.txt lebih lanjut.

Mengenal robots.txt dan Fungsinya dalam Optimasi Website

Robots.txt merupakan sebuah file yang digunakan untuk menempatkan konfigurasi perayapan bot. Pada umumnya konfigurasi yang diterapkan pada file ini berupa rambu-rambu mengenai siapa saja yang diizinkan untuk melakukan perayapan, halaman mana yang boleh dan tidak boleh, serta penentuan letak sitemap.

Perlu untuk dipahami, meskipun pada robots.txt tercantum berbagai aturan untuk bot, namun file ini tidak sepenuhnya membatasi pelanggaran yang mungkin dilakukan oleh bot. Pada dasarnya file ini digunakan untuk membantu bot baik (good bots) seperti bot dari mesin pencari google untuk lebih cepat mendapatkan informasi dari website.

Dengan mengatur halaman atau file apa yang boleh diakses dapat membantu bot mesin pencari untuk mengoptimalkan crawl budget terutama crawl capacity limit (batas kapasitas perayapan). Selain dari sisi mesin pencari, pengoptimalan robots.txt juga mempengaruhi pengoptimalan website itu sendiri. Hal ini disebabkan mesin pencari tidak perlu menggunakan sumberdaya website terlalu banyak dalam proses perayapan karena mesin pencari sudah tahu halaman dan file apa saja yang boleh mereka lihat.

Sebelum kita melangkah ke hal-hal teknis terkait robots.txt, ada baiknya untuk memahami beberapa terminologi yang berkaitan dengan topik bahasan guna memaksimalkan pemahaman Anda.


Terminologi dalam Pengoptimalan robots.txt

Untuk memahami lebih mendalam, perlu untuk memahami istilah-istilah dalam pembahasan sehingga kaitan dalam pembahasan dapat dipahami dengan lebih mudah. Berikut adalah beberapa istilah yang akan berkaitan dengan topik artikel ini:

  1. Crawl Budget merupakan sumberdaya yang dialokasikan oleh mesin pencari untuk melakukan perayapan konten website. Besaran dari crawl budget ini tidak bisa dipastikan batasnya dan biasanya didasarkan pada penilaian mesin pencari atas website itu sendiri. Untuk lebih memahami tentang crawl budget, Anda dapat mengunjungi panduan Google terkait manajemen crawn budget ini.

  2. Crawl Capacity Limit merupakan batas kapasitas perayapan yang ditetapkan oleh bot mesin pencari dengan tujuan agar website yang sedang dirayapi tidak terbebani. Perhitungan ini dilakukan untuk memaksimalkan perayapan terhadap semua konten penting dalam website, namun tetap menjaga agar tidak membebani sumber daya website.

  3. Crawl Demand merupakan persepsi mesin pencari tentang seberapa sering sebuah website perlu dilakukan perayapan. Hal ini sangat dipengaruhi pada popularitas URL, seberapa sering dilakukan pembaharuan konten, dan kualitas konten.

  4. Sitemap merupakan sebuah file (biasanya berektensi .xml) yang berfungsi untuk memberikan informasi semua halaman, video, gambar, maupun file dalam sebuah website. Sitemap ini bisa dikatakan sebagai daftar isi dari website, dimana tugasnya adalah untuk membantu mesin pencari mengetahui keseluruhan isi website serta informasi seperti waktu publikasi dan perubahan yang terjadi.

  5. URL Relatif merupakan URL yang tidak lengkap dan ditentukan berdasarkan lokasi URL saat ini atau relatif dengan posisi. URL jenis ini tidak menyertakan protokol maupun domain dari website melainkan menggunakan tanda / atau ../ untuk menyatakan posisi. Tanda / menandakan di direktori yang sama, sedangkan ../ menyatakan di direktori yang berada satu tingkat dari direktori saat ini.

  6. URL Absolut merupakan full URL termasuk protokol yang digunakan. URL jenis ini menyatakan posisi dengan jelas dan rinci. Contoh dari penerapannya adalah https://wikuteknologi.com/website yang mengarahkan langsung ke layanan pembuatan website yang dimiliki Wiku Teknologi.

  7. Query String merupakan bagian dari URL website yang digunakan untuk mengirimkan data atau parameter tertentu guna menyajikan data yang lebih dinamis. Penggunaan query string umumnya digunakan sebagai filter data yang tampil pada sebuah halaman website. Penanda dari adanya query string pada URL yaitu ditandai dengan adanya tanda tanya (?) kemudian diikuti dengan parameter query.

 

Aturan Nama File dan Penulisan Sintak robots.txt

Di dalam penerapan dan pengoptimalan robots.txt terdapat beberapa aturan yang perlu untuk diikuti. Adapun aturan tersebut yaitu:

  1. Nama file harus diberi nama robots.txt dengan huruf kecil

  2. Ekstensi dari file adalah file teks murni yakni .txt

  3. File harus ditempatkan di direktori root website. Contoh: https://wikuteknologi.com/robots.txt

    /root/
         index.php
         robots.txt
  4. Setiap penulisan satu perintah, harus berada dalam satu baris yang sama

  5. Gunakan huruf besar di setiap awal perintah sebagai praktik terbaik agar baris perintah dapat dipahami oleh semua jenis bot. Meskipun hal ini tidak berlaku untuk googlebot, yang mana dapat mengenali perintah tanpa membedakan menggunakan huruf besar diawal ataupun tidak.

  6. Jika ingin menambahkan komentar untuk mempermudah memahami baris kode yang dibuat, dapat mengawali dengan tanda # (pagar). Contoh penerapan:

    # Aturan untuk Googlebot
    Makna: ini adalah komentar tentang aturan untuk google bot

  7. Penggunaan tanda * (bintang) digunakan untuk memaknai “semua” atau “apapun”. Contoh penerapan:

    User-agent: *
    Makna: semua user agent (semua web crawler dan bot)

  8. Tanda $ (dolar) merupakan penanda akhir dari sebuah URL atau Contoh penerapan:

    Allow: /*.css$
    Makna: izinkan untuk mengakses semua file yang berakhiran .css.

  9. Penggunaan tanda ? (tanda tanya) sebagai penanda query string yang ada dalam URL. Contoh penerapan:

    Disallow: /*?
    Makna: larangan untuk mengakses semua URL yang memiliki query string.

  10. Gunakan konsep penulisan dengan menentukan aturan umum terlebih dahulu kemudian dilanjutkan dengan aturan khusus untuk praktik terbaik dalam penulisan. Contoh penerapan:

    User-agent: *
    Allow: /
    
    User-agent: Bingbot
    Disallow: /temp-files/
    
    Makna: Berikan akses semua bagian website kepada semua jenis bot; namun khusus untuk Bingbot jangan mengakses direktori /temp-files/

  11. Penulisan URL dari sitemap harus menggunakan URL absolut dan dapat menambahkan lebih dari satu sitemap. Penulisan sitemap tidak terpengaruh pada user-agent, namun bersifat umum untuk semua bot yang mendukung sitemap. Contoh penerapan:

    Sitemap: https://wikuteknologi.com/sitemap.xml
    Sitemap: https://wikuteknologi.com/blog/sitemap.xml
    
    Makna: Bot yang mendukung sitemap, dapat mengakses sitemapnya di dua link ini.


Contoh Konfigurasi pada robots.txt

Untuk memberikan gambaran menyeluruh terkait isi dari robots.txt, berikut ini adalah contoh penerapan robots.txt pada website wikuteknologi.

Sitemap: https://wikuteknologi.com/sitemap.xml

# izinkan semua bot melakukan crowl
User-agent: *
Allow: /

# Pembatasan Crawl
Disallow: /*?
Disallow: /login
Disallow: /private/*
Disallow: /cgi-bin/

Makna: Bot yang mendukung sitemap dapat mengakses di link tersebut. Secara umum semua bot termasuk bot Generatif AI dapat mengakses semua halaman publik. Bot tidak boleh mengakses halaman yang memiliki query string apapun. Bot tidak boleh mengekses halaman login. Bot tidak boleh mengakses direktori /private/ beserta semua file di dalamnya. Serta bot tidak boleh menakses folder /cgi-bin/


Melakukan Pengujian robots.txt

Guna memastikan robots.txt berjalan sesuai dengan aturan yang ditetapkan, perlu dilakukan pengujian terhadap semua aturan yang ada. Pengujian ini dapat dilakukan dengan menggunakan tools robots.txt validator dari tehnicalseo ini. Anda dapat menguji berdasarkan berbagai skema pengujian dengan mengubah URL yang ingin uji. Seperti contoh saya ingin menguji apakah URL dengan query string sudah diblokir atau belum.

robottxt.png

Dari hasil pengujian, robots.txt sudah berjalan sesuai dengan skema yang ditetapkan.

 

Penutup

Demikianlah artikel tentang pengoptimalan crawl mesin pencari melalui optimasi robots.txt. Semoga artikel ini dapat membantu Anda dalam memahami lebih dalam terkait peran dan manfaat yang bisa Anda dapatkan dari script sederhana dalam robots.txt.

Pertanyaan yang Sering Diajukan

Peletakan file robots.txt harus diletakkan di root direktori.

robots.txt dalam konteks web scraping memiliki makna sebagai rambu-rambu saat melakukan scaping. Rambu-rambu ini digunakan sebagai panduan dalam mengoptimalkan proses scraping data sehingga resource yang digunakan dari proses scraping dapat lebih dioptimalkan.

Sesuai dengan panduan google tentang robots.txt, permasalahan ini muncul karena google menemukan halaman tersebut dari kemungkinan adanya tautan yang mengarah dari halaman yang tidak terblokir. Pastikan Anda menerapkan proteksi seperti menerapkan autentikasi, penerapan header response tertentu, hingga menerapkan meta noindex pada halaman yang secara khusus tidak ingin dilakukan pengindeksan.

Pada dasarnya dengan menentukan user-agent: * sudah membantu mengizinkan semua jenis web scraping termasuk dari generatif AI dapat optimal dalam mengakses informasi yang diizinkan. Penentuan terhadap spesifik bot generatif AI dapat dilakukan ketika menginginkan perlakuan khusus seperti tidak mengizinkan generatif AI tersebut untuk mengakses direktori atau file tertentu.

Pada dasarnya aturan dalam robots.txt tidak dapat memaksakan untuk bot atau web scraper lainnya untuk mematuhi perintah yang diberikan. Melainkan yang memutuskan untuk menentukan bagaimana tindakan yang dilakukan adalah bot atau crawler itu sendiri. Jadi kesimpulannya robots.txt tidak dapat memblok bot tertentu, melainkan hanya memberikan instruksi untuk mengoptimalkan crawl budget yang dimiliki oleh bot atau crawler.

Tidak diketahui secara pasti terkait didukungnya robots.txt pada jenis mesin pencari atau crawler lainnya. Meskipun demikian, dengan menetapkan user-agent yang lebih fleksibel dapat membantu bot yang memanfaatkan robots.txt sebagai alat pengoptimalan perayapan.

Artikel Menarik Lainnya

"Dapatkan lebih banyak informasi untuk website dan pengelolaannya"