Definisi Spidering dan Perayap Web

Spider & Crawler Web: Apa yang Harus Anda Ketahui untuk Melindungi Data Situs Web

Laba-laba adalah program (atau skrip otomatis) yang 'merayap' melalui Web untuk mencari data. Spider bepergian melalui URL situs web dan dapat menarik data dari halaman web seperti alamat email. Laba-laba juga digunakan untuk memberi makan informasi yang ditemukan di situs web ke mesin telusur.

Laba-laba, yang juga disebut sebagai 'perayap web' mencari Web dan tidak semuanya ramah dalam niat mereka.

Spammers Spider Websites untuk Mengumpulkan Informasi

Google, Yahoo!

dan mesin telusur lainnya bukan satu-satunya yang tertarik dalam merayapi situs web - begitu juga scammer dan spammer.

Laba-laba dan alat otomatis lainnya digunakan oleh spammer untuk menemukan alamat email (di internet praktik ini sering disebut sebagai 'panen') di situs web dan kemudian menggunakannya untuk membuat daftar spam.

Laba-laba juga merupakan alat yang digunakan oleh mesin telusur untuk mencari tahu informasi lebih lanjut tentang situs web Anda tetapi tidak dicentang, situs web tanpa instruksi (atau, 'izin') tentang cara merayapi situs Anda dapat menghadirkan risiko keamanan informasi utama. Laba-laba melakukan perjalanan dengan mengikuti tautan, dan mereka sangat mahir dalam menemukan tautan ke basis data, file program, dan informasi lainnya yang mungkin Anda tidak ingin mereka miliki aksesnya.

Webmaster dapat melihat log untuk melihat spider dan robot apa yang telah mengunjungi situs mereka. Informasi ini membantu webmaster untuk mengetahui siapa yang mengindeks situs mereka, dan seberapa sering.

Informasi ini berguna karena memungkinkan webmaster untuk menyempurnakan SEO dan memperbarui file robot.txt untuk melarang robot tertentu merayapi situs mereka di masa mendatang.

Tips Melindungi Website Anda Dari Crawler Robot yang Tidak Diinginkan

Ada cara yang cukup sederhana untuk menjaga perayap yang tidak diinginkan keluar dari situs web Anda. Bahkan jika Anda tidak peduli tentang spider berbahaya yang merayapi situs Anda (alamat email yang tidak jelas tidak akan melindungi Anda dari kebanyakan perayap), Anda tetap harus menyediakan mesin pencari dengan instruksi penting.

Semua situs web harus memiliki file yang terletak di direktori root yang disebut file robots.txt. File ini memungkinkan Anda untuk menginstruksikan perayap web di mana Anda ingin mereka melihat halaman indeks (kecuali dinyatakan lain dalam meta data halaman tertentu untuk tidak diindeks) jika mereka adalah mesin pencari.

Sama seperti Anda dapat memberi tahu perayap yang diinginkan di mana Anda ingin mereka menjelajah, Anda juga dapat memberi tahu mereka di mana mereka tidak boleh pergi dan bahkan memblokir perayap tertentu dari seluruh situs web Anda.

Penting untuk diingat bahwa file robots.txt yang disatukan dengan baik akan memiliki nilai yang luar biasa untuk mesin telusur dan bahkan bisa menjadi elemen kunci dalam meningkatkan kinerja situs web Anda, tetapi beberapa perayap robot masih akan mengabaikan instruksi Anda. Untuk alasan ini, penting untuk menjaga semua perangkat lunak, plugin, dan aplikasi Anda selalu terbaru setiap saat.

Artikel dan Informasi Terkait

Karena prevalensi pengambilan informasi yang digunakan untuk tujuan jahat (spam), undang-undang disahkan pada tahun 2003 untuk membuat praktik-praktik tertentu ilegal. Undang-undang perlindungan konsumen ini termasuk dalam Undang-undang CAN-SPAM tahun 2003.

Adalah penting bahwa Anda meluangkan waktu untuk membaca UU CAN-SPAM jika bisnis Anda terlibat dalam pengiriman surat massal atau informasi.

Anda dapat mengetahui lebih lanjut tentang undang-undang anti-spam dan cara menangani spammer, dan apa yang mungkin Anda sebagai pemilik bisnis tidak lakukan, dengan membaca artikel berikut: