尖端的人工智慧: 使用 Python 實現深度強化學習( Deep Reinforcement Learning )

使用進化策略、 A2C 和 DDPG 對人工智慧和強化學習應用深度學習

報名參加課程

從這 8.5 小時的課程,你會學到

  • 理解一個 A2C 演算法(以 OpenAI 為起點)的尖端實現
  • 理解並實現人工智慧的進化策略
  • 理解並實現 DDPG (深度確定性策略梯度)

要求

課程說明

歡迎!

這是技術上的 Python 深度學習第11部分,也是我的第三個強化學習課程,這是超級棒的課程。

深度強化學習實際上是兩個主題的結合: 強化學習和深度學習(神經網路)。

雖然這兩者都存在了相當長的一段時間,但是直到最近深度學習才真正開始起步,隨之而來的還有強化學習( Reinforcement Learning )。

深度學習的成熟推動了20世紀80年代左右的強化學習的進步,儘管其中的一些方面,比如貝爾曼方程,已經有了更長的歷史。

最近,這些進步讓我們展示了強化學習的力量有多強大。

我們已經看到了 AlphaZero 是如何僅僅通過自己來精通圍棋的。

這距離最初的 AlphaGo 擊敗世界圍棋冠軍只有幾年時間。

我們已經看到真實世界的機器人如何學習走路,甚至在被踢翻後恢復,儘管只是通過模擬訓練。

模擬是好的,因為它不需要實際的硬體,這是昂貴的。 如果你的代理人摔倒了,也不會造成真正的損失。

我們已經看到真實世界機器人學習手的靈巧性,這可不是一個小小的壯舉。

走路是一回事,但那涉及到粗糙的動作。 手的靈巧性是複雜的——你有許多自由度,其中涉及的許多力量都是極其微妙的。

想像一下用你的腳做一些你通常用手做的事情,你馬上就會明白為什麼這會很困難。

最後但並非最不重要的-電子遊戲。

即使只是考慮到過去的幾個月,我們已經看到了一些驚人的進展。 人工智慧現在擊敗了CS:GODota 2 中的職業選手。。

那麼,這門課程與前兩門課程有什麼不同呢?

現在我們知道深度學習可以和強化學習一起工作,問題變成了: 我們如何改進這些演算法?

本課程將向你展示幾種不同的方法: 包括強大的 A2C (Advantage Actor-Critic)演算法、 DDPG (深度確定性策略梯度)演算法和進化策略

進化策略是對強化學習的一種新的呈現,它拋棄了所有舊的理論,轉而採用一種受生物進化啟發的更為“黑箱”的方法。

這門新課程的另一個好處是,我們可以看到各種各樣的環境。

首先,我們來看看雅達利 ( Atari )的經典環境。 這些都很重要,因為它們表明強化學習代理可以僅僅基於影像進行學習。

第二,我們來看 MuJoCo,它是一個物理模擬器。 這是製造一個能夠在真實世界中導航並理解物理學的機器人的第一步——我們首先必須證明它能夠與模擬物理學一起工作。

最後,我們來看看幾年前大家最喜歡的手機遊戲 Flappy Bird

謝謝你的閱讀,課堂上見!

建議的先決條件:

  • 微積分
  • 機率
  • 物件導向程式設計
  • Python 程式設計: if / else、迴圈、列表、 dicts、 set
  • Numpy 程式設計: 矩陣和向量操作
  • 線性迴歸
  • 梯度下降法
  • 知道如何在 TensorFlow 中構建一個卷積神經網路( CNN )
  • 馬爾可夫( Markov ) 決策流程(MDPs)

TIPS (for getting through the course):

小技巧(幫助你完成課程) :

  • 以2倍速觀看。
  • 記下手寫的筆記。 這將極大地提高你記住資訊的能力。
  • 寫下方程式。 如果你不這樣做,我保證它將只是看起來像胡言亂語。
  • 在討論板上問很多問題。 越多越好!
  • 意識到大多數的練習會花費你幾天或者幾周的時間來完成。
  • 自己編寫程式碼,不要只是坐在那裡看我的程式碼。

我應該按什麼順序修你的課程? :

檢視“我應該按什麼順序修你的課程? ” (可以在我的任何課程的附錄中找到,包括免費的 Numpy 課程)

目標受眾

  • 希望在工作和專案中應用強化學習的學生和專業人士
  • 任何想學習尖端人工智慧和強化學習演算法的人

講師簡介

Lazy Programmer Inc  資料科學家和大數據工程師 ( 更多講師主講課程介紹 )

我是一名資料科學家、大數據工程師和全端軟體工程師。

我擁有計算機工程碩士學位,專門從事機器學習和模式 ( pattern ) 識別。

我曾在網路廣告和數位媒體擔任過資料科學家和大數據工程師,圍繞所述的資料構建各種高流量的 web 服務。我曾經使用 Hadoop / Pig / MapReduce 建立了新的大數據管道,也曾建立了機器學習模型來預測點擊率,使用線性迴歸、Bayesian Bandits 和協作篩選建立新聞推薦系統,並使用A / B測試驗證結果。

我在大學與研究所如哥倫比亞大學、紐約大學、Humber College 和 The New School 教過 資料科學、統計學、機器學習、演算法、微積分、電腦圖學和物理學。

多家企業已經從我的 Web 程式設計專業知識中受益。我做所有的後端(伺服器)、前端(HTML / JS / CSS)和操作/佈署工作。我使用的一些技術是:Python、Ruby / Rails、PHP、Bootstrap、jQuery(Javascript)、Backbone 和  Angular。至於儲存/資料庫,我使用MySQL、Postgres、Redis、MongoDB 等。

英文字幕:有

  • 想要了解如何將英文字幕自動翻譯成中文? 請參考這篇 How-To

報名參加課程

Sponsored by Udemy

也許你會有興趣

 學習資訊不漏接-歡迎使用 App 訂閱發文通知 

這個網站採用 Akismet 服務減少垃圾留言。進一步瞭解 Akismet 如何處理網站訪客的留言資料

Powered by WordPress.com.

Up ↑

%d 位部落客按了讚: