Mempelajari robots.txt

September 11, 2015

Mempelajari robots.txt

File robots.txt adalah file pada akar situs Anda yang menunjukkan bagian dalam situs yang tidak Anda izinkan untuk diakses oleh perayap mesin telusur. File menggunakan Standar Pengecualian Robot, yang merupakan protokol dengan sekelompok kecil perintah yang dapat digunakan untuk menunjukkan akses ke situs berdasarkan bagian dan berdasarkan jenis perayap web tertentu (seperti perayap seluler vs perayap desktop).

Memahami batasan robots.txt

Sebelum membuat robots.txt, Anda harus mengetahui risiko metode pemblokiran URL ini. Terkadang, Anda dapat mempertimbangkan mekanisme lain guna memastikan URL tidak dapat ditemukan di web.

Petunjuk robots.txt hanya arahan
Petunjuk di file robots.txt tidak dapat melaksanakan perilaku perayap ke situs Anda; sebagai gantinya, petunjuk ini bertindak sebagai arahan untuk perayap yang mengakses situs Anda. Selagi Googlebot dan perayap web ternama lainnya mematuhi petunjuk dalam file robots.txt, perayap lainnya mungkin tidak. Oleh karena itu, jika Anda ingin menjaga informasi tetap aman dari perayap web, sebaiknya gunakan metode pemblokiran lainnya, seperti file pribadi yang dilindungi sandi pada server Anda.
Perayap lain menafsirkan sintaksis dengan cara yang berbeda
Meskipun perayap web ternama mengikuti arahan dalam file robots.txt, tiap perayap mungkin menafsirkan arahan dengan cara yang berbeda. Anda perlu mengetahui sintaksis yang sesuai untuk menangani perayap web yang berbeda karena beberapa di antaranya mungkin tidak memahami perintah tertentu.
Arahan robots.txt tidak dapat mencegah referensi ke URL Anda dari situs lain
Meskipun Google tidak akan merayapi atau mengindeks konten yang diblokir oleh robots.txt, kami mungkin masih menemukan dan mengindeks URL yang ditolak dari tempat lain di web. Akibatnya, alamat URL dan, kemungkinan, informasi lain yang tersedia secara publik seperti teks tautan dalam tautan ke situs masih dapat muncul di hasil penelusuran Google. Anda dapat menghentikan URL agar tidak muncul dalam hasil Google Penelusuran sepenuhnya dengan menggunakan robots.txt yang digabungkan dengan metode pemblokiran URL lainnya, seperti file yang dilindungi sandi pada server, atau memasukkan tag meta arahan pengindeksan ke dalam HTML.

sumber;/http://support.google.com/

Search This Blog

Computer, Software Engineering, and etc

Mempelajari robots.txt

Petunjuk robots.txt hanya arahan

Perayap lain menafsirkan sintaksis dengan cara yang berbeda

Arahan robots.txt tidak dapat mencegah referensi ke URL Anda dari situs lain

Comments

Post a Comment

Popular Posts

Media Tanpa Kabel (Nirkabel)

Cara Memburning CD