Puppeteer adalah library node.js dengan API untuk mengatur chrome atau chromium melalui protokol DevTools.
Puppeteer dapat dijalankan headless, dimana browser tidak tampil atau dijalankan secara full dimana browser tampil.
Instalasi library menggunakan perintah npm i puppeteer
Introduksi Menggunakan Puppeteer
const puppeteer = require('puppeteer');
(async () => {
const browser = await puppeteer.launch();
const page = await browser.newPage();
await page.goto('https://google.com');
await page.screenshot({path: 'google.png'});
await browser.close();
})();
Program diatas akan menjalankan chromium secara headless, lalu membuka halaman web google.com dan melakukan screen capture. Yang kemudian filenya disimpan dengan nama google.png.
Puppeteer secara default adalah headless, bila browser perlu untuk ditampilkan, tambahkan setting headless: false. Biasanya ini dilakukan agar mudah dalam melakukan debugging.
const browser = await puppeteer.launch({headless: false});
Tutorial ini bertujuan membahas web scrapping menggunakan puppeteer. Detail API yang dimiliki puppeteer silakan lihat di https://pptr.dev/