Scrapy dikontrol melalui command line, yang selanjutnya kita sebut scrapy tool untuk membedakan dengan perintah scrapy “commands”.
Untuk melihat perintah apa saja yang dapat digunakan, buka command prompt dan ketikan scrapy.
C:\Users\Skillplus>scrapy
Scrapy 2.4.1 - no active project
Usage:
scrapy <command> [options] [args]
Available commands:
bench Run quick benchmark test
commands
fetch Fetch a URL using the Scrapy downloader
genspider Generate new spider using pre-defined templates
runspider Run a self-contained spider (without creating a project)
settings Get settings values
shell Interactive scraping console
startproject Create new project
version Print Scrapy version
view Open URL in browser, as seen by Scrapy
[ more ] More commands available when run from project directory
Use "scrapy <command> -h" to see more info about a command
startproject: untuk membuat new project crawler boilerplate. Akan dibuat file-file awal untuk keperluan crawling.
scrapy startproject myproject [project_dir]
#contoh
scrapy startproject quotes_crawler
Dengan format diatas maka akan dibuat project baru dengan nama myproject didalam [project_dir]. Jika [project_dir] tidak ditulis, maka akan dibuat di direktori saat ini.
genspider: untuk membuat spider baru didalam project directory.
Setelah menggunakan perintah scrapy startproject, masuk ke direktori project lalu gunakan perintah genspider untuk membuat spider baru.
scrapy genspider namaspider url
#contoh
scrapy genspider quotes quotes.toscrape.com
Akan dibuat file Python dengan template basic didalam directory [project_directory]\quotes_crawler\spiders\
Berikut isi file quotes.py hasil generate dari template basic.
import scrapy
class QuotesSpider(scrapy.Spider):
name = 'quotes'
allowed_domains = ['quotes.toscrape.com/']
start_urls = ['http://quotes.toscrape.com//']
def parse(self, response):
pass
list: Dalam satu project, kita bisa memiliki banyak spider. Untuk melihat spider yang terdapat dalam project, gunakan perintah list. Dalam modul ini hanya ada 1 spider, yaitu quotes.
scrapy list
#list spider yang ada dalam project
quotes
1 thought on “Menggunakan Scrapy CLI”