Scrapy File : pipelines.py

File pipelines.py umumnya digunakan untuk

  • Data cleaning
  • Validasi data hasil scrape
  • Cek duplikasi data
  • Menyimpan data hasil scrape kedalam database

Untuk tutorial ini, kita gunakan contoh sederhana, yaitu mengubah data hasil scrape menjadi huruf besar.

Buka file pipelines.py, lalu ubah code menjadi seperti dibawah.

from itemadapter import ItemAdapter


class QuotesCrawlerPipeline:
    def process_item(self, item, spider):
        if item['h1']:
            item['h1'] = item['h1'][0].upper()
        return item

Lalu buka file settings.py, cari setting pipeline, lalu ganti seperti dibawah. Perhatikan QuotesCrawlerPipeline pada quotes_crawler.pipelines.QuotesCrawlerPipeline adalah nama class dari pipelines.py

ITEM_PIPELINES = {
   'quotes_crawler.pipelines.QuotesCrawlerPipeline': 300,
}

Jalankan kembali spider dengan perintah scrapy crawl quotes, log akan seperti dibawah. Perhatikan H1 tags sekarang sudah menjadi huruf besar.

2021-02-04 15:06:06 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://quotes.toscrape.com//> (referer: None)
2021-02-04 15:06:06 [scrapy.core.scraper] DEBUG: Scraped from <200 http://quotes.toscrape.com//>
{'h1': 'QUOTES TO SCRAPE',
 'tags': ['love',
          'inspirational',
          'life',
          'humor',
          'books',
          'reading',
          'friendship',
          'friends',
          'truth',
          'simile']}
2021-02-04 15:06:06 [scrapy.core.engine] INFO: Closing spider (finished)

Untuk dokumentasi lengkap mengenai pipelines.py lihat di https://docs.scrapy.org/en/latest/topics/item-pipeline.html

Sharing is caring:

Leave a Comment