Scrapy File : pipelines.py

File pipelines.py umumnya digunakan untuk Data cleaning Validasi data hasil scrape Cek duplikasi data Menyimpan data hasil scrape kedalam database Untuk tutorial ini, kita gunakan contoh sederhana, yaitu mengubah data hasil scrape menjadi huruf besar. Buka file pipelines.py, lalu ubah code menjadi seperti dibawah. Lalu buka file settings.py, cari setting pipeline, lalu ganti seperti dibawah. … Read more

Sharing is caring:

Scrapy File : items.py

Web scraping adalah proses mengumpulkan data dari data yang tidak terstruktur (data HTML) menjadi data yang terstruktur. Dengan menggunakan file items.py, data bisa dikembalikan dalam Python objects key-value pairs. Walaupun kita bisa lakukan pada file crawler, namun pemisahan modul dengan menggunakan items.py akan membuat code lebih clean dan mudah dibaca. Pada contoh modul sebelumnya, data … Read more

Sharing is caring:

Pengenalan Scrapy Shell

Scrapy Shell berfungsi seperti REPL Python, karena pada dasarnya adalah Python REPL. Scrapy shell sangat berguna untuk melakukan testing code secara cepat., misalnya testing XPath apakah returnnya sesuai harapan. Scrapy shell dijalankan dari command prompt dengan perintah Jika Anda menginstall iPython, scrapy akan menggunakan iPython, namun jika tidak akan digunakan standard Python shell. Setelah masuk … Read more

Sharing is caring:

Pengenalan XPath

XPath adalah XML Path Language, yang berguna untuk navigasi node pada XML document. Dengan menggunakan XPath, kita bisa mencapai node yang akan kita extract datanya. Berikut document XML yang akan digunakan sebagai contoh untuk memilih node. XPath melakukan node selecting dengan ekspresi path. Berikut path yang paling umum digunakan: Expression Description nodename Select semua node … Read more

Sharing is caring: