HTML HTML

cara mengatur robots.txt

cara mengatur robots.txt

Baca Juga

assalamualaikum wr.wb kali ini saa akan membagikan tutorial mengatur robots.txt..

Jika Anda ingin memodifikasi atau mengatur robots.txt Anda, terlebih dahulu Anda harus berhati-hati dan paham betul karena kesalahan pengaturan bisa membuat website anda tidak diindex search engine. Oleh karena itu, sekarang saya akan menjelaskan bagaimana mengatur robots.txt dengan benar.

A. Memblokir Url

Tidak hanya kode yang saya jelaskan di atas yang dapat digunakan dalam robots.txt. Contoh kasus, misalnya  anda ingin memblokir posting tertentu agar tidak diindeks oleh semua mesin pencari, anda dapat melakukannya dengan menempatkan kode dibawah ini.
user-agent: *
disalllow/2012/11/url-permalink-posting.html
Kode yang saya warnai diatas merupakan contoh struktur url permalink posting blogspot yang di blokir tanpa menuliskan nama domain web di depannya.

B. Memblokir Folder/Direktori

Untuk memblokir folder atau direktori (termasuk isinya) pada situs anda, Anda dapat melakukannya seperti pada contoh dibawah. Saya menggunakan direktori pada web dengan wordpress self hosted agar lebih familiar.
user-agent: *
disallow: /cgi-bin/
disallow: /wp-admin/
disallow: /wp-includes/
disallow: /wp-content/plugins/
disallow: /wp-content/cache/
disallow: /wp-content/themes/
Kode diatas berarti melarang bot crawler untuk merayapi semua file web yang ada di dalam folder cgbin, wp-admin, wp-includes serta folder plugins, cache, dan themes yang merupakan sub-directory dari folder wp-content.

C. Memblokir URL Yang Mengandung Karakter/Kata Tertentu

Dengan robots.txt kita juga dapat memblokir url yang memiliki karakter/kata tertentu agar tidak diindeks di mesin pencari. Misalnya saya menggunakan karakter tanda tanya (?) yang biasanya dipakai pada url untuk query string atau pencarian pada web tertentu yang menyebabkan duplikat. user-agent: * disallow: /*?*  #untuk memblok semua url yang mengandung “?”. allow: /*?$ #untuk membolehkan akses pada semua url yang memiliki akhiran “?”

C. Memblokir Akses Pada Ekstensi/Format File Tertentu

Kita juga dapat mengatur robots.txt untuk memblokir file dalam situs anda dengan format tertentu. Misalnya, kita akan memblokir file dengan format php (php), css (css) dan javascript (js).
user-agent: *
disallow: /*.php$
disallow: /*.js$
disallow: /*.css$

User Agent

Saat mengatur robots.txt, Anda dapat mengatur mana saja bot crawler yang diperbolehkan atau dilarang untuk mengakses atau merayapi web anda secara spesifik. Oleh karena itu, Anda harus mengetahui nama beberapa bot crawler dari mesin pencari paling terkenal.
  • Google Adsense : Mediapartners-google
  • Google Search Engine : Googlebot
  • Altavista : Scooter
  • Lycos : Lycos_Spider_ (T-Rex)
  • Alltheweb : FAST-WebCrawler /
  • Inktomi : Slurp
  • Yahoo : Yahoo Slurp
  • MSN : msnbot