Web scraping adalah cara kita mengumpulkan data dari sebuah website yang tidak tersedia API.
Tutorial ini akan menggunakan web scraper framework Scrapy. Jika Anda akan membangun scraper skala besar, menggunakan scrapy adalah pilihan tepat.
Berikut beberapa fitur dari scrapy:
- Feed exports: memungkinkan kita untuk save data dalam berbagai formats seperti CSV,JSON,jsonlines dan XML.
- Asynchronous scraping: Scrapy menggunakan twisted framework yang memungkinkan kita untuk mengunjungi multiple urls dimana setiap request diproses tanpa blocking.
- Selectors: Selectors adalah cara kita memilih data tertentu dari sebuah webpage, contoh heading, div dengan class tertentu dan lainnya. Scrapy menggunakan lxml untuk parsing.
- Konfigurasi: Scrapy memungkinan kita melakukan konfigurasi proxy, dan info headers secara dinamis.
- Item Pipelines: Pipelines mempermudah data processing setelah extraction. Contoh menggunakan pipeline untuk menyimpan data ke database server.
- Cookies: Scrapy secara otomatis menangani cookies.
Untuk mengikuti tutorial ini diharapkan sudah paham:
- Bahasa Pemrograman Python.
- HTML dan CSS
Berikut modul yang akan dibahas:
- Instalasi Scrapy Untuk Windows
- Perbedaan Scrapy dan Beautifulsoup
- Menggunakan Scrapy CLI
- Pengenalan XPath
- Pengenalan Scrapy Shell
- Scrapy File : items.py
- Scrapy File : pipelines.py
- Latihan 1 : Crawl Seluruh Isi quotes.toscrape.com
- Latihan 2 : Login quotes.toscrape.com
- Menggunakan Scrapy CrawlSpider dan Rule
- Web Scraping Best Practice