用 Python 整合機器學習 : 隨機森林、 AdaBoost

整合方法 ( Ensemble Methods )：用 Python 做資料科學的 Boosting、Bagging、Bootstrap 和統計機器學習。

從這 5.5 小時的課程，你會學到

理解並導出偏差 – 變異 ( Bias – Variance ) 分解
理解 bootstrap 方法及其在 bagging 的應用
理解為什麼 bagging 可以提高分類和迴歸性能
理解並實施隨機森林( Random Forest )
理解並實施 AdaBoost

要求

微分學
Numpy、Matplotlib、Sci-Kit 學習
K-Nearest Neighbors、決策樹
機率和統計（大學程度）
線性迴歸、邏輯迴歸

課程說明

近年來，我們看到人工智慧 ( AI ) 和機器學習的興起。

機器學習導致了一些驚人的結果，比如能夠分析醫學圖像並做出不輸給人類專家的疾病辨識。

Google 的 AlphaGo 計劃已通過深度強化學習在戰略遊戲中擊敗世界冠軍。

機器學習甚至被用於程式化汽車的自動駕駛，這將永遠改變汽車行業。設想一個汽車事故急劇減少的世界，只需消除人為錯誤的因素。

Google 有名的宣布，他們現在是“機器學習第一”，NVIDIA 和 Amazon 等公司也紛紛效仿，這將是未來幾年將推動創新。

機器學習嵌入到各種不同的產品中，並被廣泛應用於金融、網路廣告、醫藥、機器人等行業。

這是一個廣泛應用的工具，無論你在哪個行業，都將使你受益匪淺，而且一旦你擅長這方面，也將為你創造大量的就業機會。

機器學習也引發了一些哲學問題。我們在建造一台可以思考的機器嗎？意識到什麼？有一天電腦會佔領世界嗎？

📣這個課程是關於整合方法 (Ensemble Methods)。

我們已經學習了一些經典的機器學習模型，如 k-nearest neighbor 和決策樹。我們已經研究了他們的局限和缺點。

但是，如果我們可以結合這些模型來消除這些限制，並產生更強大的分類器或迴歸器呢？

在本課程中，你將學習如何將決策樹和邏輯迴歸等模型相結合，以建立可以達到比基礎模型更高的精度的模型。

具體來說，我們將詳細研究隨機森林和 AdaBoost 演算法。

為了激勵我們的討論，我們將學習統計學習中一個重要的話題 – 偏差 – 變異權衡 ( bias-variance trade-off )。然後，我們將研究 bootstrap 技術和 bagging 作為同時減少偏差和變異的方法。

我們將做大量的實驗，並在真實的資料集上使用這些演算法，這樣你就可以親眼看到它們是多麼的強大。

由於深度學習如此受歡迎，我們將研究隨機森林、AdaBoost 和深度學習神經網路之間的一些有趣的共同點。

所有這個課程的材料都是免費的。你可以使用 Windows、Linux 或 Mac 上的簡單命令下載並安裝 Python、Numpy 和 Scipy。

本課程著重於 “如何建立和理解”，而不僅僅是 “如何使用”。讀完一些文件後，任何人都可以在 15 分鐘內學會使用 API。這不是 “記住事實”，而是經由實驗 “親眼看見”。它會教你如何視覺化模型內部發生的事情。如果你想要更多超越表面的機器學習模型，這個課程是為你設計的。

📣 注意：

本課程的所有程式碼可以從我的 github下載：/ lazyprogrammer / machine_learning_examples
在目錄：supervised_class2
確保你總是用 “git pull” 取出，這樣才能拿到最新版本！

📣 學習本課程的必要先決條件/知識：

微積分
機率
物件導向程式設計
Python 程式設計 : if/else, loops, lists, dicts, sets
Numpy 程式設計: 矩陣和向量運算
線性迴歸、邏輯迴歸、決策樹、kNN

📣 如何從本課程受益的提示：

以2倍速度觀看。
手寫筆記。這將大大增加你記住資訊的能力。
寫下方程式。如果你不這樣做，我保證它會看起來像胡言亂語。
在討論板上提出許多問題。越多越好！
意識到大多數練習將花費你幾天或幾週的時間來完成。
自己寫程式碼，不要坐在那裡看我寫。

📣如果覺得知識不足，可考慮先修以下課程:

目標受眾

想了解贏得機器學習競賽 ( Netflix獎、Kaggle ) 各類型楷模的人
學習機器學習的學生
希望將資料科學和機器學習應用於工作的專業人員
希望應用資料科學和機器學習來優化業務的企業家
想了解更多關於資料科學和機器學習的電腦科學學生
知道一些基本的機器學習模型，但想知道如何建立當今最強大的模型（隨機森林、AdaBoost 和其他整合方法）的人

講師簡介

Lazy Programmer Inc 資料科學家和大數據工程師

我是一名資料科學家、大數據工程師和全端軟體工程師。

我有電腦工程的碩士，專長為機器學習和模式辨識。

我曾在網路廣告和數位媒體企業擔任過資料科學家和大數據工程師，圍繞所謂的資料建構各種高流量的 web 服務。我曾經使用 Hadoop / Pig / MapReduce 創建新的大數據管道，也曾建立機器學習模型來預測點擊率，使用線性迴歸、Bayesian Bandits 和協同過濾 ( collaborative filtering )建立新聞推薦系統，並使用A / B測試驗證結果。

我曾在大學部與研究所教授資料科學、統計學、機器學習、演算法、微積分、電腦圖學和物理學，任職的學校如哥倫比亞大學、紐約大學、Hunter 學院和 The New School。

有多家企業已從我的 Web 程式設計專業知識中受益。我做所有的後端(伺服器)、前端（HTML / JS / CSS）和運營/佈署工作。我使用的技術包含：Python、Ruby / Rails、PHP、Bootstrap、jQuery（Javascript）、Backbone 和 Angular。至於儲存/資料庫，我採用 MySQL、Postgres、Redis、MongoDB等。