Contents
文章網址
- Getting started with Puppeteer and Chrome Headless for Web Scraping
- 中文翻譯 ( 簡中 ) : Puppeteer 与 Chrome Headless —— 从入门到爬虫
筆記
Puppeteer 是 Google Chrome 團隊官方的無界面(Headless)Chrome Node API ,這篇文章教你使用 puppeteer 和 Nodejs 來做一個網頁爬蟲。
nodejs 的網頁爬蟲模組有很多選擇,筆者自己曾經使用過 cheerio 模組來解析靜態網頁的內容,但是目前許多網站都是動態網頁,或是要登入網站後才能抓到特定的資料,這篇文章教你的 how-to 剛好就可以滿足用來做動態網頁和需要登入網站的爬蟲。
作者使用一個案例來示範 Puppeteer 的使用
- 登入 github
- 搜尋開發者名稱包含 john
- 取得搜尋結果並取出所有開發者的 e-mail ( 如果沒登入 github ,就無法取得 e-mail 這個資訊 )
- 將結果存到 mongodb
如果你是使用靜態網頁的抓取方式,這個使用者案例就比較困難一些,這篇文章包含範例程式碼,包括處理搜尋結果分頁的處理
在看這篇文章教學過程,puppeteer 不僅僅可以用來做網頁爬蟲,其實也很適合用來作網頁程式的自動測試,也就是黑箱測試自動化,將網站的功能寫成一個個對應的自動測試程式,每次網頁有新的版本釋出,就可以用這些自動測試程式來測試,可以省掉許多人工測試的時間