使用 REQUESTS、LXML 和 SPLASH 的 Python3 網路爬蟲 101

使用 Requests、強大的 LXML 和用於 JavaScript 網站的Splash，用 Python 為絕對的初學者進行網頁爬蟲

從這 4.5 小時的課程，你會學到

LXML 核心基礎知識
XPath 和 CSS 選擇器
如何用 Python 傳送 HTTP 請求
爬取 HTML 網頁
使用遞迴來抓取多個頁面
Scraping APIs
Splash HTTP API
使用 Splash 爬取 JavaScript 網站
使用 Requests 對網站進行認證和登入
網頁抓取的最佳實踐
建構資料集

要求

Python 的基本水平
有網際網路連線的個人電腦

課程說明

什麼是網頁爬蟲？

假設你的老闆給了你一個任務，他希望你從一個網站上提取大約 1000 個產品，將資料結構化並儲存到資料庫中，你會手動複製貼上所有的產品細節，包括產品名稱、網址和價格？我可以想像你會工作幾天幾夜，但你不會完成這個任務，所以這就是網頁爬蟲的優勢。因此，網頁爬蟲，或網頁採集或網頁資料提取就像寫一個指令碼，可以在幾分鐘內自動從網站上提取資料！。

為什麼要學習網頁爬蟲？

無論你是一個數據分析師，一個網頁開發人員，甚至是一個想做自由職業者的人，你都應該學習網路爬蟲。

對於一個資料分析師來說，建立一個資料集是非常重要的，所以如果沒有網頁爬蟲，你根本無法生成它，此外，在你的履歷中加入網頁爬蟲的內容對你來說是一個加分項。

網頁爬蟲可以用於各種領域，所以讓我給你一些例子，說明你可以用它做什麼：

產生線索
Drop shipping，基本上你要不斷地從不同的網上商店蒐羅產品，並在你的網站上展示它們，以賺取利潤
監測產品價格以獲得最佳交易
自動化
機器學習
網頁爬蟲自由工作者

當然，有成噸成噸的各種領域，網頁爬蟲可以是非常有益的。

這個課程適合你嗎？

我精心策劃和設計了這個課程，使其對初學者友好，根據我的經驗，我知道那些做網頁爬蟲的人大多數是資料分析員，他們對網路如何工作、如何提出請求、如何定位和解析網路上的資料等沒有背景知識，此外，這是關於所包括的材料和使用的工具的最新課程，所以在這個課程中

我將向你介紹最常用的網頁爬蟲工具/框架
我們將從頭開始設定開發環境
你將學習並理解 LXML 的核心基礎知識
如何使用 XPath 和 CSS 選擇器來選擇網頁上的資料
Web 是如何工作的（請求/響應）。
如何爬取簡單的 HTML 網頁
如何爬取多個網頁
從 API 中提取資料
你將學習Splash（速成班），以便你能用它來爬取 JavaScript 網站
認證/登入
將提取的資料儲存在 JSON/CSV 檔案或 MongoDB/SQLite3 中
關於網頁爬蟲的獨家技巧和竅門

最後，這門課程是基於專案的，從第二節開始，我們將在一個不同的網站上進行實驗，每個專案都有一定的難度，每個專案都完全獨立於其他專案。

本課程中是否有任何作業/練習？

是的，每一節都有一個作業，這將有助於弄髒你的手，在做完每一節的作業後，你將對網頁爬蟲感到更有信心和舒適。

為什麼是 LXML 而不是 BeautifulSoup？

LXML 是一個輕量級的 HTML 解析器，即使是最流行的網頁抓取框架（Scrapy）也是建立在LXML之上的，BeautifulSoup 在開放給我們的功能數量上有點過剩，它有更多的功能可以使用，是的，沒錯然而，在Web Scraping中，大多數時候我們使用 XPath 和 CSS 選擇器來瀏覽和選擇要從HTML網頁（樹）中爬取的內容，所以沒有必要學習新的功能，也沒有必要浪費那麼多時間來熟悉 BeautifulSoup 的 API 和內部架構，此外，LXML在效能方面也比BeautifulSoup好得多。

誰是你的導師？

你好！我是艾哈邁德，很高興見到你，我的學生更喜歡叫我網頁爬蟲忍者，目前我已經在世界各地教了超過2000名學生如何做網頁爬蟲。我個人每天都在做網頁爬蟲，無論是為了娛樂、個人專案還是作為自由職業者，你猜怎麼著？我甚至有一個電腦科學的碩士學位。

我應該報名參加這個課程嗎？

老實說，報名參加這個課程，你不會有任何損失，因為如果這個課程不符合你的要求，你可以在報名參加課程之日起30天內要求退款，由Udemy保證，沒有任何問題

所以，如果你對網頁爬蟲一無所知，並且不知道從哪裡開始，現在就報名吧！ 🙂 🙂