閱讀筆記 – 開始使用 Puppeteer 和Chrome Headless 進行網頁爬蟲

文章網址

Getting started with Puppeteer and Chrome Headless for Web Scraping
中文翻譯 ( 簡中 ) : Puppeteer 与 Chrome Headless —— 从入门到爬虫

筆記

Puppeteer 是 Google Chrome 團隊官方的無界面（Headless）Chrome Node API ，這篇文章教你使用 puppeteer 和 Nodejs 來做一個網頁爬蟲。

nodejs 的網頁爬蟲模組有很多選擇，筆者自己曾經使用過 cheerio 模組來解析靜態網頁的內容，但是目前許多網站都是動態網頁，或是要登入網站後才能抓到特定的資料，這篇文章教你的 how-to 剛好就可以滿足用來做動態網頁和需要登入網站的爬蟲。

作者使用一個案例來示範 Puppeteer 的使用

登入 github
搜尋開發者名稱包含 john
取得搜尋結果並取出所有開發者的 e-mail ( 如果沒登入 github ，就無法取得 e-mail 這個資訊 )
將結果存到 mongodb

如果你是使用靜態網頁的抓取方式，這個使用者案例就比較困難一些，這篇文章包含範例程式碼，包括處理搜尋結果分頁的處理

在看這篇文章教學過程，puppeteer 不僅僅可以用來做網頁爬蟲，其實也很適合用來作網頁程式的自動測試，也就是黑箱測試自動化，將網站的功能寫成一個個對應的自動測試程式，每次網頁有新的版本釋出，就可以用這些自動測試程式來測試，可以省掉許多人工測試的時間

相關線上課程

相關

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

由 WordPress.com 建置.