Web Scraping Menggunakan Python dan Scrapy

Web scraping adalah cara kita mengumpulkan data dari sebuah website yang tidak tersedia API.

Tutorial ini akan menggunakan web scraper framework Scrapy. Jika Anda akan membangun scraper skala besar, menggunakan scrapy adalah pilihan tepat.

Berikut beberapa fitur dari scrapy:

Feed exports: memungkinkan kita untuk save data dalam berbagai formats seperti CSV,JSON,jsonlines dan XML.
Asynchronous scraping: Scrapy menggunakan twisted framework yang memungkinkan kita untuk mengunjungi multiple urls dimana setiap request diproses tanpa blocking.
Selectors: Selectors adalah cara kita memilih data tertentu dari sebuah webpage, contoh heading, div dengan class tertentu dan lainnya. Scrapy menggunakan lxml untuk parsing.
Konfigurasi: Scrapy memungkinan kita melakukan konfigurasi proxy, dan info headers secara dinamis.
Item Pipelines: Pipelines mempermudah data processing setelah extraction. Contoh menggunakan pipeline untuk menyimpan data ke database server.
Cookies: Scrapy secara otomatis menangani cookies.

Untuk mengikuti tutorial ini diharapkan sudah paham:

Berikut modul yang akan dibahas:

Sharing is caring: