fbpx

閱讀筆記 – 開始使用 Puppeteer 和Chrome Headless 進行網頁爬蟲

Contents

文章網址

筆記

Puppeteer 是 Google Chrome 團隊官方的無界面(Headless)Chrome Node API ,這篇文章教你使用  puppeteer 和 Nodejs  來做一個網頁爬蟲。

nodejs 的網頁爬蟲模組有很多選擇,筆者自己曾經使用過 cheerio 模組來解析靜態網頁的內容,但是目前許多網站都是動態網頁,或是要登入網站後才能抓到特定的資料,這篇文章教你的 how-to 剛好就可以滿足用來做動態網頁和需要登入網站的爬蟲。

作者使用一個案例來示範 Puppeteer 的使用

  • 登入 github
  • 搜尋開發者名稱包含 john
  • 取得搜尋結果並取出所有開發者的 e-mail ( 如果沒登入 github ,就無法取得 e-mail 這個資訊 )
  • 將結果存到 mongodb

如果你是使用靜態網頁的抓取方式,這個使用者案例就比較困難一些,這篇文章包含範例程式碼,包括處理搜尋結果分頁的處理

在看這篇文章教學過程,puppeteer 不僅僅可以用來做網頁爬蟲,其實也很適合用來作網頁程式的自動測試,也就是黑箱測試自動化,將網站的功能寫成一個個對應的自動測試程式,每次網頁有新的版本釋出,就可以用這些自動測試程式來測試,可以省掉許多人工測試的時間


Lingoda

相關線上課程

 歡迎使用 e-mail 訂閱 Soft & Share 

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料

Powered by WordPress.com.

Up ↑

%d 位部落客按了讚: