Web Scraping Best Practice

Web scraping perlu dilakukan dengan hati-hati, karena ada kemungkinan di banned.Berikut beberapa tips untuk mencegah di banned:

Mengatur Delay

Request yang terlalu intens dapat menyebabkan di banned, kita perlu mengatur delay.

Jika Anda menggunakan scrapy, pada file setting.py, aktifkan option DOWNLOAD_DELAY untuk mengatur delay akses ke web target.

Atau jika ingin melakukan manual, berikut snipet code untuk mengatur delay

from time import sleep
import random

# code scraping disini

sleep(random.randrange(1,3))

User Agent

Dengan mengatur user agent, program scraping akan nampak lebih natural seperti browser dengan human user. Aktifkan option USER_AGENT pada file setting.py

USER_AGENT = "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:40.0) Gecko/20100101 Firefox/40.1" 

Proxies

Gunakan external proxies dan rotasi IP address saat melakukan scraping.

Rekomendasi Lainnya

  • Cek dahulu, apakah website target memiliki API.
  • Baca dahulu TOC, karena ada website yang secara jelas melarang scraping.
  • Be Polite, jangan disable robots.txt, lakukan delay saat scraping agar tidak memberatkan server target, bila perlu lakukan scraping diluar jam operasional.

Dengan berakhirnya modul ini, tutorial web scraping menggunakan scrapy telah selesai. Semoga bermanfaat.

Sharing is caring:

Leave a Comment