Definisi Spidering lan Web Crawlers

Spider & Web Crawlers: Apa Sampeyan kudu Ngerti kanggo Nglindhungi Data Situs Web

Labah-labah minangka program (utawa skrip otomatis) sing 'nyusup' liwat Web looking for data. Laba-luka lelungan liwat URL situs web lan bisa narik data saka kaca web kaya alamat email. Laba uga digunakake kanggo nampung informasi sing ditemokake ing situs web kanggo mesin.

Labah-labah, sing uga disebut 'crawler web' nggoleki Web lan ora kabeh sing ramah ing maksude.

Situs web Spammer Spider kanggo Ngumpul Informasi

Google, Yahoo!

lan mesin telusur liyane sing ora mung sing kepengin nyusut situs web - saéngga minangka scammers lan spammers.

Laba lan alat otomatis sing digunakake dening spammers kanggo nemokake alamat email (ing internet praktik iki asring diarani 'panen') ing situs web banjur digunakake kanggo nggawe dhaptar spam.

Laba uga minangka alat sing digunakake dening mesin telusur kanggo mangerteni informasi luwih lengkap babagan situs web sampeyan, nanging ora diwenehi tandha, situs web tanpa instruksi (utawa, 'ijin') babagan cara nyusup situs bisa nampilake risiko keamanan informasi utama. Laba-luka lelungan kanthi pranala ing ngisor iki, lan padha banget nggoleki nemokake pranala menyang database, file program, lan informasi liyane sing sampeyan ora pengin duwe akses.

Webmaster bisa ndeleng log kanggo ndeleng labah-labah apa lan robot-robot liya wis ngunjungi situs. Informasi iki mbantu panuntun web sing ngindeks situs, lan sepira kerepe.

Informasi iki migunani amarga ngidini webmaster nggoleki SEO lan nganyari file robot.txt kanggo nglarang robot tartamtu saka ngubengi situs kasebut ing mangsa ngarep.

Tips Nglindhungi situs web sampeyan saka Robot Crawlers sing ora dikarepake

Ana cara sing cukup prasaja kanggo njaga crawlers sing ora dikarepake metu saka situs web sampeyan. Sanajan sampeyan ora prihatin karo spider ala ngojok-ojokke situs sampeyan (alamat email sing obfuscating ora bakal nglindhungi sampeyan saka paling crawler), sampeyan isih kudu nyedhiyani mesin kanthi instruksi penting.

Kabeh situs web kudu duwe file sing dumunung ing direktori root sing disebut file robots.txt. Berkas iki ngidini sampeyan nglatih crawler web ing ngendi sampeyan pengin ndeleng kaca indeks (kejaba nyatakake ing meta kaca tartamtu supaya ora ana indeks) yen iku mesin telusuran.

Kaya sing sampeyan bisa mangerteni crawler sing pengin dikunjungi, sampeyan uga bisa menehi pitutur marang wong-wong mau ing ngendi padha ora bisa mbukak lan malah mblokir crawler spesifik saka kabeh website.

Penting diwenehi tandha manawa file robots.txt bisa uga gedhe kanggo mesin telusur lan malah bisa dadi elemen kunci kanggo ngapikake kinerja situs web, nanging sawetara crawler robot bakal tetep nglirwakake pandhuane. Mulane, penting kanggo nyimpen kabeh perangkat lunak, plugins, lan app sampeyan kanthi sampurna kapan wae.

Artikel lan Informasi Related

Amarga saka panerapan informasi panen sing digunakake kanggo tujuan nefarious (spam), aturan kasebut ditampa ing taun 2003 kanggo nggawe praktik tartamtu ilegal. Hukum perlindungan konsumen kasebut ana ing Undhang-undhang CAN-SPAM taun 2003.

Penting sampeyan njupuk wektu kanggo maca ing Undhang-undhang CAN-SPAM yen bisnis sampeyan nggarap mailing massa utawa panen informasi.

Sampeyan bisa ngerteni luwih akeh babagan hukum anti-spam lan cara kanggo ngatasi spammer, lan apa sing sampeyan ora nduweni pemilik bisnis, kanthi maca artikel ing ngisor iki: