Web Scraping Best Practice

Web scraping perlu dilakukan dengan hati-hati, karena ada kemungkinan di banned.Berikut beberapa tips untuk mencegah di banned: Mengatur Delay Request yang terlalu intens dapat menyebabkan di banned, kita perlu mengatur delay. Jika Anda menggunakan scrapy, pada file setting.py, aktifkan option DOWNLOAD_DELAY untuk mengatur delay akses ke web target. Atau jika ingin melakukan manual, berikut snipet … Read more

Sharing is caring:

Menggunakan Scrapy CrawlSpider dan Rule

CrawlSpider adalah spider yang paling umum digunakan untuk crawling websites. CrawlSpider terdapat mekanisme untuk following links yang dapat diatur melalui Rule. Untuk menentukan rule, digunakan Object Link_Extractor untuk menentukan bagaimana sebuah link akan diextract, dan paramater lainnya seperti follow dan callback. Untuk lebih jelasnya mari kita buat project baru dengan perintah dibawah. Masuk kedalam directory … Read more

Sharing is caring:

Latihan 2 : Login quotes.toscrape.com

Pada modul ini kita akan belajar mengakses login form pada quotes.toscrape.com. Pertama, mari kita buat newproject menggunakan perintah (nama project sesuaikan dengan kebutuhan Anda). Kemudian, kita buat spider baru dengan perintah Karena web quotes.toscrape.com tidak memiliki robots.txt, kita bisa matikan setting ROBOTSTXT_OBEY. Buka file setting.py, kemudian ubah setting dari True menjadi False. Buka file login.py, … Read more

Sharing is caring:

Latihan 1 : Crawl Seluruh Isi quotes.toscrape.com

Pada modul ini, kita akan berlatih membuat spider untuk crawaling seluruh quote dari http://quotes.toscrape.com/ Silakan buat project baru, kemudian buat spider baru. Buka file quotesall.py, lalu ketikan code dibawah: Jalankan spider dengan perintah scrapy crawl quotesall, log akan menunjukan hasil yield. Sebagai perbandingan, bisa dilihat bagian INFO: Dumping Scrapy stats, yang pelu diperhatikan adalah downloader/request_method_count/GET’: … Read more

Sharing is caring: