進階 AI : 以 Python 做深度強化( Deep Reinforcement Learning ) 學習

使用深度學習和神經網路掌握人工智慧的完整指南

從這 10.5 小時的課程，你會學到

建立各種深度學習代理人 (包括 DQN 和 A3C）
應用各種先進的增強性( reinforcement )學習演算法解決各種問題
Q-Learning 與深度神經網路
神經網路的策略梯度法
RBF 網路的增強性( Reinforcement )學習
使用具有深度Q學習 ( Deep Q-Learning ) 的捲積( Convolutional )神經網路

要求

了解增強性學習基礎知識、MDP、動態規劃、蒙地卡羅( Monte Carlo )、TD 學習
大學水準的微積分和機率
體驗 Python 和 Numpy 建構機器學習模型
了解如何使用 Theano 和 Tensorflow 建立前饋( feedforward )、卷積( convolutional )和遞歸( recurrent )神經網路

課程說明

本課程全部是關於深度學習和神經網路在增強式學習中的應用。

如果你已經參加了我的第一個增強式學習課程，那麼你知道增強式學習是我們可以用 AI 做的尖端技術。

具體而言，深度學習與增強式學習的結合使得 AlphaGo 在策略遊戲 Go 中擊敗了世界冠軍，發展了自動駕駛汽車，也讓機器能以非人的玩家身份玩視訊遊戲。

其實從 70 年代以來，已有增強式學習，但一直到最近迄今都沒有實現。

世界正在以飛快的速度變化。加州正在改變他們的規定，以便自動駕駛汽車公司可以在沒人監督的情況下測試他們的汽車。

我們已經看到，增強式學習與監督式和非監督式學習是完全不同的機器學習。

有監督和無監督的機器學習演算法用於分析和預測資料，而增強式學習則是訓練代理人與環境進行互動並使其最大化。

與有監督和無監督學習演算法不同，增強式學習代理人具有原動力 – 他們希望達到目標。

這是一個非常吸引人的視角，它甚至可以進行有監督/無監督的機器學習，事後看來“資料科學”看起來很無聊。為什麼要訓練神經網路來了解資料庫中的資料，何時可以訓練神經網路與真實世界進行互動？

雖然深度增強性學習和 AI 具有很大的潛力，但它也帶來巨大的風險。

Bill Gates 和 Elon Musk 公開聲明人工智慧對經濟穩定甚至我們存在產生的一些風險。

正如我們在第一次增強性學習課程中學到的，培訓增強性學習代理的主要原則之一是，在培訓 AI 時會產生意想不到的後果。

人工智慧並不像人類那樣思考，所以他們想出了新穎且非直觀的解決方案來實現他們的目標，通常以驚異的領域專家的方式 – 人類是最擅長的。

OpenAI 是由 Elon Musk、Sam Altman（Y Combinator）等人創立的非營利組織，目的是確保 AI 以有利而不是有害的方式前進。

部分背後的動機是 AI 給人類帶來的生存風險。他們認為開放式協作是減輕風險的關鍵之一。

OpenAI 的一大優點是他們有一個名為 OpenAI Gym 的平台，我們將在這個課程中大量使用它。

它允許世界上任何地方的任何人在標準環境中訓練他們的增強式學習代理人。

在這門課程中，我們將通過處理更複雜的環境，特別是 OpenAI Gym 提供的環境，來鞏固我們在最後課程中所做的工作：

CartPole
Mountain Car
Atari games

為了培養有效的學習代理人，我們需要新的技術。

我們將通過查看 TD Lambda 演算法擴展我們對時序差異學習( Temporal Difference Learning )的知識，我們將看看一種稱為 RBF 網路的特殊類型的神經網路，我們將看看策略梯度法，然後我們將於深度Q學習 ( Deep Q-Learning ) 主題中結束本課程。

謝謝你的閱讀，希望在課堂上見到你！

注意：

所有的課程代碼都可以從我的github下載：/ lazyprogrammer/ machine_learning_examples 在目錄中：rl2

確保你總是“ git pull ”，以取得最新版本！

硬性先決條件/知識你應該有：

微分
機率
物件導向程式設計
寫 Python 程式 : if/else、loops、 lists、dicts、sets
寫 Numpy 程式 : 矩陣和向量運作
線性迴歸
梯度下降
了解在 Theano 與 TensorFlow 如何建立前饋、卷積和復發神經工作
馬可夫決策過程 (Markov Decision Proccesses ，MDPs)
了解如何應用動態程式設計( Dynamic Programming )、蒙地卡羅( Monte Carlo ) 與應用時序差異學習( Temporal Difference Learning )來解決 MDPs

提示（通過課程）：

以 2x 觀看。
拿手寫筆記。這將大大增加你記住訊息的能力。
寫下方程。如果你不這樣做，我保證它看起來像亂碼。
在討論板上提出許多問題。越多越好！
意識到大多數練習將需要幾天或幾週才能完成。
自己編寫程式碼，不要只是坐在那裡看我寫程式。

修課順序

查看講座 “ What order should I take your courses in?” （可在我的任何課程的附錄中找到，或請參考先修課）

目標受眾

希望學習最先進的人工智慧技術、具有強大技術背景的專業人士和學生

講師簡介

Lazy Programmer Inc 資料科學家和大數據工程師

我是一名資料科學家、大數據工程師和全端軟體工程師。

我有電腦工程的碩士，專長為機器學習和模式辨識。

我曾在網路廣告和數位媒體企業擔任過資料科學家和大數據工程師，圍繞所謂的資料建構各種高流量的 web 服務。我曾經使用 Hadoop / Pig / MapReduce 創建新的大數據管道，也曾建立機器學習模型來預測點擊率，使用線性迴歸、Bayesian Bandits 和協同過濾 ( collaborative filtering )建立新聞推薦系統，並使用A / B測試驗證結果。

我曾在大學部與研究所教授資料科學、統計學、機器學習、演算法、微積分、電腦圖學和物理學，任職的學校如哥倫比亞大學、紐約大學、Hunter 學院和 The New School。

有多家企業已從我的 Web 程式設計專業知識中受益。我做所有的後端(伺服器)、前端（HTML / JS / CSS）和運營/佈署工作。我使用的技術包含：Python、Ruby / Rails、PHP、Bootstrap、jQuery（Javascript）、Backbone 和 Angular。至於儲存/資料庫，我採用 MySQL、Postgres、Redis、MongoDB等。

英文字幕：有

想要了解如何將英文字幕自動翻譯成中文? 請參考這篇 How-To

Udemy 永久擁有課程✨ NT310 起特價中（點擊看更多)
✨年訂閱每月 NT350 ( 🍀三個月訂閱 20% off 中 ) 🌈悠遊 Udemy 的 26000+ 門課，最大化學習 ( 原價 NT635/月 )
Udemy 現在越來越多課程有中文字幕，請參考 Soft & Share 中文線上課程
手機上點選優惠連結看到的價格比電腦上看到的貴
＄代表當地貨幣, 如在台灣為 NT
點選”報名參加課程”有可能因瀏覽器 cookies 轉久一點或回報錯誤而無法連上，請稍等刷新或重新點選就會出現