Baca Juga
assalamualaikum wr.wb kali ini saa akan membagikan tutorial mengatur robots.txt..
Jika Anda ingin memodifikasi atau mengatur robots.txt Anda, terlebih dahulu Anda harus berhati-hati dan paham betul karena kesalahan pengaturan bisa membuat website anda tidak diindex search engine. Oleh karena itu, sekarang saya akan menjelaskan bagaimana mengatur robots.txt dengan benar.
A. Memblokir Url
Tidak hanya kode yang saya jelaskan di atas yang dapat digunakan dalam robots.txt. Contoh kasus, misalnya anda ingin memblokir posting tertentu agar tidak diindeks oleh semua mesin pencari, anda dapat melakukannya dengan menempatkan kode dibawah ini.
user-agent: *
disalllow: /2012/11/url-permalink-posting.html
disalllow: /2012/11/url-permalink-posting.html
Kode yang saya warnai diatas merupakan contoh struktur url permalink posting blogspot yang di blokir tanpa menuliskan nama domain web di depannya.
B. Memblokir Folder/Direktori
Untuk memblokir folder atau direktori (termasuk isinya) pada situs anda, Anda dapat melakukannya seperti pada contoh dibawah. Saya menggunakan direktori pada web dengan wordpress self hosted agar lebih familiar.
user-agent: *
disallow: /cgi-bin/
disallow: /wp-admin/
disallow: /wp-includes/
disallow: /wp-content/plugins/
disallow: /wp-content/cache/
disallow: /wp-content/themes/
disallow: /cgi-bin/
disallow: /wp-admin/
disallow: /wp-includes/
disallow: /wp-content/plugins/
disallow: /wp-content/cache/
disallow: /wp-content/themes/
Kode diatas berarti melarang bot crawler untuk merayapi semua file web yang ada di dalam folder cgbin, wp-admin, wp-includes serta folder plugins, cache, dan themes yang merupakan sub-directory dari folder wp-content.
C. Memblokir URL Yang Mengandung Karakter/Kata Tertentu
Dengan robots.txt kita juga dapat memblokir url yang memiliki karakter/kata tertentu agar tidak diindeks di mesin pencari. Misalnya saya menggunakan karakter tanda tanya (?) yang biasanya dipakai pada url untuk query string atau pencarian pada web tertentu yang menyebabkan duplikat. user-agent: * disallow: /*?* #untuk memblok semua url yang mengandung “?”. allow: /*?$ #untuk membolehkan akses pada semua url yang memiliki akhiran “?”
C. Memblokir Akses Pada Ekstensi/Format File Tertentu
Kita juga dapat mengatur robots.txt untuk memblokir file dalam situs anda dengan format tertentu. Misalnya, kita akan memblokir file dengan format php (php), css (css) dan javascript (js).
user-agent: *
disallow: /*.php$
disallow: /*.js$
disallow: /*.css$
disallow: /*.php$
disallow: /*.js$
disallow: /*.css$
User Agent
Saat mengatur robots.txt, Anda dapat mengatur mana saja bot crawler yang diperbolehkan atau dilarang untuk mengakses atau merayapi web anda secara spesifik. Oleh karena itu, Anda harus mengetahui nama beberapa bot crawler dari mesin pencari paling terkenal.
- Google Adsense : Mediapartners-google
- Google Search Engine : Googlebot
- Altavista : Scooter
- Lycos : Lycos_Spider_ (T-Rex)
- Alltheweb : FAST-WebCrawler /
- Inktomi : Slurp
- Yahoo : Yahoo Slurp
- MSN : msnbot