Mempelajari robots.txt

      File robots.txt adalah file pada akar situs Anda yang menunjukkan bagian dalam situs yang tidak Anda izinkan untuk diakses oleh perayap mesin telusur. File menggunakan Standar Pengecualian Robot, yang merupakan protokol dengan sekelompok kecil perintah yang dapat digunakan untuk menunjukkan akses ke situs berdasarkan bagian dan berdasarkan jenis perayap web tertentu (seperti perayap seluler vs perayap desktop).
     
     Memahami batasan robots.txt
Sebelum membuat robots.txt, Anda harus mengetahui risiko metode pemblokiran URL ini. Terkadang, Anda dapat mempertimbangkan mekanisme lain guna memastikan URL tidak dapat ditemukan di web.
  • Petunjuk robots.txt hanya arahan

    Petunjuk di file robots.txt tidak dapat melaksanakan perilaku perayap ke situs Anda; sebagai gantinya, petunjuk ini bertindak sebagai arahan untuk perayap yang mengakses situs Anda. Selagi Googlebot dan perayap web ternama lainnya mematuhi petunjuk dalam file robots.txt, perayap lainnya mungkin tidak. Oleh karena itu, jika Anda ingin menjaga informasi tetap aman dari perayap web, sebaiknya gunakan metode pemblokiran lainnya, seperti file pribadi yang dilindungi sandi pada server Anda.
  • Perayap lain menafsirkan sintaksis dengan cara yang berbeda

    Meskipun perayap web ternama mengikuti arahan dalam file robots.txt, tiap perayap mungkin menafsirkan arahan dengan cara yang berbeda. Anda perlu mengetahui sintaksis yang sesuai untuk menangani perayap web yang berbeda karena beberapa di antaranya mungkin tidak memahami perintah tertentu.
  • Arahan robots.txt tidak dapat mencegah referensi ke URL Anda dari situs lain

    Meskipun Google tidak akan merayapi atau mengindeks konten yang diblokir oleh robots.txt, kami mungkin masih menemukan dan mengindeks URL yang ditolak dari tempat lain di web. Akibatnya, alamat URL dan, kemungkinan, informasi lain yang tersedia secara publik seperti teks tautan dalam tautan ke situs masih dapat muncul di hasil penelusuran Google. Anda dapat menghentikan URL agar tidak muncul dalam hasil Google Penelusuran sepenuhnya dengan menggunakan robots.txt yang digabungkan dengan metode pemblokiran URL lainnya, seperti file yang dilindungi sandi pada server, atau memasukkan tag meta arahan pengindeksan ke dalam HTML.


sumber;/http://support.google.com/

Comments

Popular Posts