使用 Scrapy & Splash 進行 Python 高階網路爬蟲

最高階的網路爬蟲( web scraping )和爬行課程，帶你使用 Scrapy & Splash! 把你的網路爬蟲技能提升到一個新的水平

從這 5.5 小時的課程，你會學到

高階網路爬蟲技術
在爬資料之前分析網站的最佳技術
寫乾淨的爬蟲( spiders )
優化 Splash 指令碼( scripts )
繞過 504 HTTP 錯誤
建立 Splash 叢集
繞過 Google ReCaptcha (不解決它)
建立桌面應用程式的網路爬蟲(Scrapy Spiders，Tkinter)
ScrapyRT
使用 ScrapyRT 和 Flask 顯示爬到的資料
繁重的資料處理
輸入和輸出處理器

要求

可上網的 PC 或 Mac
已經使用 SCRAPY & SPLASH 做了一些專案是非常必要的
使用 XPATH 選擇元素的基礎知識也是非常必要的

課程說明

你好，歡迎來到獻上最高階的網路爬蟲課程。這個課程是完全基於專案教學，意味著幾乎在每個部分我們要爬取不同的網站和處理不同的網路爬蟲困境，而非關注 Scrapy & Splash 的基礎。我們會直搗現實世界的專案，這也意味著這個課程絕對不適合沒有網路爬蟲、Scrapy、Splash & XPath 表示式背景的新手。( 如果你是新手，可參考講師提供的其他網路爬蟲初級與中級課程）

請求鏈結，比如請求必須以特定的順序傳送，否則根本不會得到滿足。
如何在抓取之前分析一個網站，這是一個重要的步驟，因為它有助於選擇正確的工具來抓取一個網站，它實際上對你的最終產品的效能有巨大的影響。
如何通過減少/終止所有不必要的請求來優化 Splash 指令碼，這些請求與你將要抓取的資料點無關，如果你關心 Splash 的效能，這是一件重要的事情，因為它是繞過 Splash 中 504 閘道器超時 HTTP 錯誤的關鍵。
我們還將介紹如何使用負載平衡器(HAProxy)構建 Splash 例項( instance )叢集，而不是使用一個完全過載的 Splash 例項，這也有助於繞過 504 閘道器超時錯誤。
大量的資料處理，你將瞭解如何輸入和輸出處理器的工作，如此你將能夠使用他們照順序乾淨爬取資料網點，以確保你餵入資料的品質。
我們將使用 ScrapyRT (Scrapy RealTime) 來構建可以實時獲取資料的網路爬蟲( spiders )。
使用 ScrapyRT & Flask 在一個極簡的 Web 應用程式中展示爬取資料點，這對網路爬取資料的自由職業者非常有幫助。
繞過 Google ReCaptcha，請不要在這一點上誤解我，我不是說我們將使用 Scrapy 解決它，而是我要向你展示一個技術，我經常使用來欺騙網站，讓他們認為請求的傳送來自人在瀏覽器的操作
建立乾淨和結構良好的網路爬蟲( spiders )
最後，我們將使用 Tkinter 建立一個桌面應用程式，該應用程式將獲取並執行所有可用的網路爬蟲( spiders )在你的 Scrapy 專案，你也可以選擇餵入型別、餵入位置和名稱，這也是非常有用的和重要的，如果你是一個網路謢取資料的自由職業者，提供給你的客戶端一個桌面應用程式，而不是安裝 Scrapy 之類的東西在機器上永遠是個好主意。

這個課程是直截了當，沒有像其它課程有一些實體通常不重要的 “foo bar”或“ quotes to scrape dot com” ，本課程確保你有一個良好專注水平和好策略和學習動力。

在本課程結束的時候，你將會提高使用 Scrapy & Splash 抓取網頁的技能，你將能夠寫出乾淨、高效能的網路爬蟲( spiders )超越他人，這也意味著如果你是一個網路爬蟲的自由職業者，你將會得到更多的工作機會，因為你可以通過圖形使用者介面( GUI，Graphical User Interface )或網頁應用程式來實時獲取資料。

所以加入我這個課程，讓我們一起在 Web 上豐收吧！