尖端的人工智慧: 使用 Python 實現深度強化學習( Deep Reinforcement Learning )

使用進化策略、 A2C 和 DDPG 對人工智慧和強化學習應用深度學習

從這 8.5 小時的課程，你會學到

理解一個 A2C 演算法( OpenAI 基礎線)的尖端實現
理解並實現人工智慧的進化策略(ES)
理解並實現 DDPG (深度確定性策略梯度)
了解 OpenAI ChatGPT、GPT-4 的重要基礎

要求

瞭解 MDPs ( Markov 決策流程)和強化學習的基礎知識
觀看我的前兩個強化學習課程會很有幫助 ( 請參考進階 AI : 以 Python 做深度增強式( Deep Reinforcement Learning ) 學習和人工智慧：Python 中的增強式學習 )
知道如何在 Tensorflow 中建立一個卷積神經網路

課程說明

有沒有想過像 OpenAI ChatGPT 和 GPT-4 這樣的人工智慧技術究竟是如何運作的？在本課程中，你將學習這些突破性應用的基礎知識。

歡迎來到尖端人工智慧！

從技術角度來說，這是我的深度學習系列的第 11 部分“Python 深度學習”，也是我的第三門密集學習課程。

深度強化學習其實是兩個主題的結合：強化學習和深度學習（神經網路）。

雖然這兩者都已經存在了一段時間，但直到最近深度學習才真正開始起飛，強化學習也隨之興起。

深度學習的成熟推動了強化學習的進步。強化學習自 20 世紀 80 年代就已出現，儘管它的某些方面，例如貝爾曼方程，已經存在很久了。

最近，這些進步讓我們得以展現強化學習的強大力量。

我們已經看到 AlphaZero 如何僅憑自我對弈就能掌握圍棋。

這距離最初的 AlphaGo 擊敗圍棋世界冠軍僅僅過去了幾年。

我們已經看到真實世界的機器人如何學習走路，甚至在被踢翻後恢復，儘管只是通過模擬訓練。

模擬是好的，因為它不需要實際的硬體，這是昂貴的。如果你的代理人摔倒了，也不會造成真正的損失。

我們已經看到真實世界機器人學習手的靈巧性，這可不是一個小小的壯舉。

走路是一回事，但那涉及到粗糙的動作。手的靈巧性是複雜的——你有許多自由度，其中涉及的許多力量都是極其微妙的。

想像一下用你的腳做一些你通常用手做的事情，你馬上就會明白為什麼這會很困難。

最後但並非最不重要的-電子遊戲。

即使只是考慮到過去的幾個月，我們已經看到了一些驚人的進展。人工智慧現在擊敗了CS:GO 和 Dota 2 中的職業選手。。

那麼，這門課程與前兩門課程有什麼不同呢？

現在我們知道深度學習可以和強化學習一起工作，問題變成了: 我們如何改進這些演算法？

本課程將向你展示幾種不同的方法: 包括強大的 A2C (Advantage Actor-Critic)演算法、 DDPG (深度確定性策略梯度)演算法和進化策略。

進化策略是對強化學習的一種新的呈現，它拋棄了所有舊的理論，轉而採用一種受生物進化啟發的更為“黑箱”的方法。

這門新課程的另一個好處是，我們可以看到各種各樣的環境。

首先，我們來看看雅達利 ( Atari )的經典環境。這些都很重要，因為它們表明強化學習代理可以僅僅基於影像進行學習。

第二，我們來看 MuJoCo，它是一個物理模擬器。這是製造一個能夠在真實世界中導航並理解物理學的機器人的第一步——我們首先必須證明它能夠與模擬物理學一起工作。

最後，我們來看看幾年前大家最喜歡的手機遊戲 Flappy Bird。

感謝您的閱讀，我們課堂上見！

“如果你無法實現它，你就無法理解它”

或者正如偉大的物理學家理查費曼所說：「我無法創造的東西，我就無法理解」。
我的課程是唯一一門讓你從零開始學習如何實現機器學習演算法的課程。
其他課程會教你如何將資料插入庫，但你真的需要3行程式碼的幫助嗎？
在對10個資料集進行同樣的操作後，你會意識到你並沒有學到10件事。你只學到了1件事，只是重複了10遍同樣的3行程式碼…

建議的先決條件:

微積分
機率
物件導向程式設計
Python 程式設計: if / else、迴圈、列表、 dicts、 set
Numpy 程式設計: 矩陣和向量操作
線性迴歸
梯度下降法
知道如何在 TensorFlow 中構建一個卷積神經網路( CNN )
馬爾可夫( Markov ) 決策流程(MDPs)

TIPS (for getting through the course):

小技巧(幫助你完成課程) :

以2倍速觀看。
記下手寫的筆記。這將極大地提高你記住資訊的能力。
寫下方程式。如果你不這樣做，我保證它將只是看起來像胡言亂語。
在討論板上問很多問題。越多越好！
意識到大多數的練習會花費你幾天或者幾周的時間來完成。
自己編寫程式碼，不要只是坐在那裡看我的程式碼。

修課順序

查看講座 “ What order should I take your courses in?” （可在我的任何課程的附錄中找到，或請參考先修課）

目標受眾

希望在工作和專案中應用強化學習的學生和專業人士
任何想學習尖端人工智慧和強化學習演算法的人

講師簡介

Lazy Programmer Inc 資料科學家和大數據工程師 ( 更多講師主講課程介紹 )

我是一名資料科學家、大數據工程師和全端軟體工程師。

我擁有計算機工程碩士學位，專門從事機器學習和模式 ( pattern ) 識別。

我曾在網路廣告和數位媒體擔任過資料科學家和大數據工程師，圍繞所述的資料構建各種高流量的 web 服務。我曾經使用 Hadoop / Pig / MapReduce 建立了新的大數據管道，也曾建立了機器學習模型來預測點擊率，使用線性迴歸、Bayesian Bandits 和協作篩選建立新聞推薦系統，並使用A / B測試驗證結果。

我在大學與研究所如哥倫比亞大學、紐約大學、Humber College 和 The New School 教過資料科學、統計學、機器學習、演算法、微積分、電腦圖學和物理學。

多家企業已經從我的 Web 程式設計專業知識中受益。我做所有的後端（伺服器）、前端（HTML / JS / CSS）和操作/佈署工作。我使用的一些技術是：Python、Ruby / Rails、PHP、Bootstrap、jQuery（Javascript）、Backbone 和 Angular。至於儲存/資料庫，我使用MySQL、Postgres、Redis、MongoDB 等。