Menggunakan Scrapy CLI

Scrapy dikontrol melalui command line, yang selanjutnya kita sebut scrapy tool untuk membedakan dengan perintah scrapy “commands”.

Untuk melihat perintah apa saja yang dapat digunakan, buka command prompt dan ketikan scrapy.

C:\Users\Skillplus>scrapy
Scrapy 2.4.1 - no active project

Usage:
  scrapy <command> [options] [args]

Available commands:
  bench         Run quick benchmark test
  commands
  fetch         Fetch a URL using the Scrapy downloader
  genspider     Generate new spider using pre-defined templates
  runspider     Run a self-contained spider (without creating a project)
  settings      Get settings values
  shell         Interactive scraping console
  startproject  Create new project
  version       Print Scrapy version
  view          Open URL in browser, as seen by Scrapy

  [ more ]      More commands available when run from project directory

Use "scrapy <command> -h" to see more info about a command

startproject: untuk membuat new project crawler boilerplate. Akan dibuat file-file awal untuk keperluan crawling.

scrapy startproject myproject [project_dir]

#contoh
scrapy startproject quotes_crawler

Dengan format diatas maka akan dibuat project baru dengan nama myproject didalam [project_dir]. Jika [project_dir] tidak ditulis, maka akan dibuat di direktori saat ini.

genspider: untuk membuat spider baru didalam project directory.

Setelah menggunakan perintah scrapy startproject, masuk ke direktori project lalu gunakan perintah genspider untuk membuat spider baru.

scrapy genspider namaspider url

#contoh
scrapy genspider quotes quotes.toscrape.com

Akan dibuat file Python dengan template basic didalam directory [project_directory]\quotes_crawler\spiders\

Berikut isi file quotes.py hasil generate dari template basic.

import scrapy


class QuotesSpider(scrapy.Spider):
    name = 'quotes'
    allowed_domains = ['quotes.toscrape.com/']
    start_urls = ['http://quotes.toscrape.com//']

    def parse(self, response):
        pass

list: Dalam satu project, kita bisa memiliki banyak spider. Untuk melihat spider yang terdapat dalam project, gunakan perintah list. Dalam modul ini hanya ada 1 spider, yaitu quotes.

scrapy list

#list spider yang ada dalam project
quotes
Sharing is caring:

1 thought on “Menggunakan Scrapy CLI”

Leave a Comment