Web Scraping Menggunakan Python

Web scraping menggunakan Python adalah cara mengumpulkan data dari web, dan cukup mudah, karena sudah tersedia library yang mendukung.

Modul Pendukung Web Scraping

Selenium (gunakan pip untuk install: pip install selenium)
Beautifulsoup (gunakan pip untuk install: pip install beautifulsoup4 )
ChromeDriver (download chromedriver disini)

Selenium sebenarnya hanya berfungsi untuk otomasi browsers, namun dengan fungsi ini banyak hal yang bisa dilakukan. Umumnya digunakan untuk kebutuhan otomasi testing web apps. Namun tidak hanya itu, pengumpulan data dari web juga bisa dilakukan secara otomatis dengan bantuan selenium.

BeautifulSoup adalah library yang mempermudah dalam melakukan ekstraksi informasi dari web pages. Memudahkan programmer Python dalam melakukan iterasi, pencarian dan modifikasi tree dari content web pages.

ChromeDriver adalah standalone server yang mengimplementasikan standard W3C webdriver. WebDriver sendiri adalah open source tool untuk melakukan otomasi testing, dengan kapabilitas seperti navigasi, user input, javascript dan lainnya.

Berikut contoh penggunaan modul diatas (selenium dan chromedriver). Program akan membuka halaman google.com dan menekan tombol I’m Feeling Lucky kemudian melakukan print screen, hasilnya akan disimpan ke local file.

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import os

chrome_options = Options()
chrome_options.add_argument("--headless")
chrome_options.add_argument("--window-size=1920x1080")
chrome_driver = os.getcwd() +"\\chromedriver.exe"

# go to Google and click the I'm Feeling Lucky button
driver = webdriver.Chrome(chrome_options=chrome_options, executable_path=chrome_driver)
driver.get("https://www.google.com")
lucky_button = driver.find_element_by_css_selector("[name=btnI]")
lucky_button.click()

# capture the screen
driver.get_screenshot_as_file("capture.png")
driver.exit()

Sharing is caring: