Contents
使用進化策略、 A2C 和 DDPG 對人工智慧和強化學習應用深度學習
從這 8.5 小時的課程,你會學到
- 理解一個 A2C 演算法(以 OpenAI 為起點)的尖端實現
- 理解並實現人工智慧的進化策略
- 理解並實現 DDPG (深度確定性策略梯度)
要求
- 瞭解 MDPs ( Markov 決策流程)和強化學習的基礎知識
- 觀看我的前兩個強化學習課程會很有幫助 ( 請參考 進階 AI : 以 Python 做深度增強式( Deep Reinforcement Learning ) 學習 和 人工智慧:Python 中的增強式學習 )
- 知道如何在 Tensorflow 中建立一個卷積神經網路
課程說明
歡迎!
這是技術上的 Python 深度學習第11部分,也是我的第三個強化學習課程,這是超級棒的課程。
深度強化學習實際上是兩個主題的結合: 強化學習和深度學習(神經網路)。
雖然這兩者都存在了相當長的一段時間,但是直到最近深度學習才真正開始起步,隨之而來的還有強化學習( Reinforcement Learning )。
深度學習的成熟推動了20世紀80年代左右的強化學習的進步,儘管其中的一些方面,比如貝爾曼方程,已經有了更長的歷史。
最近,這些進步讓我們展示了強化學習的力量有多強大。
我們已經看到了 AlphaZero 是如何僅僅通過自己來精通圍棋的。
這距離最初的 AlphaGo 擊敗世界圍棋冠軍只有幾年時間。
我們已經看到真實世界的機器人如何學習走路,甚至在被踢翻後恢復,儘管只是通過模擬訓練。
模擬是好的,因為它不需要實際的硬體,這是昂貴的。 如果你的代理人摔倒了,也不會造成真正的損失。
我們已經看到真實世界機器人學習手的靈巧性,這可不是一個小小的壯舉。
走路是一回事,但那涉及到粗糙的動作。 手的靈巧性是複雜的——你有許多自由度,其中涉及的許多力量都是極其微妙的。
想像一下用你的腳做一些你通常用手做的事情,你馬上就會明白為什麼這會很困難。
最後但並非最不重要的-電子遊戲。
即使只是考慮到過去的幾個月,我們已經看到了一些驚人的進展。 人工智慧現在擊敗了CS:GO 和 Dota 2 中的職業選手。。
那麼,這門課程與前兩門課程有什麼不同呢?
現在我們知道深度學習可以和強化學習一起工作,問題變成了: 我們如何改進這些演算法?
本課程將向你展示幾種不同的方法: 包括強大的 A2C (Advantage Actor-Critic)演算法、 DDPG (深度確定性策略梯度)演算法和進化策略。
進化策略是對強化學習的一種新的呈現,它拋棄了所有舊的理論,轉而採用一種受生物進化啟發的更為“黑箱”的方法。
這門新課程的另一個好處是,我們可以看到各種各樣的環境。
首先,我們來看看雅達利 ( Atari )的經典環境。 這些都很重要,因為它們表明強化學習代理可以僅僅基於影像進行學習。
第二,我們來看 MuJoCo,它是一個物理模擬器。 這是製造一個能夠在真實世界中導航並理解物理學的機器人的第一步——我們首先必須證明它能夠與模擬物理學一起工作。
最後,我們來看看幾年前大家最喜歡的手機遊戲 Flappy Bird。
謝謝你的閱讀,課堂上見!
建議的先決條件:
- 微積分
- 機率
- 物件導向程式設計
- Python 程式設計: if / else、迴圈、列表、 dicts、 set
- Numpy 程式設計: 矩陣和向量操作
- 線性迴歸
- 梯度下降法
- 知道如何在 TensorFlow 中構建一個卷積神經網路( CNN )
- 馬爾可夫( Markov ) 決策流程(MDPs)
TIPS (for getting through the course):
小技巧(幫助你完成課程) :
- 以2倍速觀看。
- 記下手寫的筆記。 這將極大地提高你記住資訊的能力。
- 寫下方程式。 如果你不這樣做,我保證它將只是看起來像胡言亂語。
- 在討論板上問很多問題。 越多越好!
- 意識到大多數的練習會花費你幾天或者幾周的時間來完成。
- 自己編寫程式碼,不要只是坐在那裡看我的程式碼。
修課順序
- 查看講座 “ What order should I take your courses in?” (可在我的任何課程的附錄中找到,或請參考先修課)
目標受眾
- 希望在工作和專案中應用強化學習的學生和專業人士
- 任何想學習尖端人工智慧和強化學習演算法的人
講師簡介
Lazy Programmer Inc 資料科學家和大數據工程師 ( 更多講師主講課程介紹 )
我是一名資料科學家、大數據工程師和全端軟體工程師。
我擁有計算機工程碩士學位,專門從事機器學習和模式 ( pattern ) 識別。
我曾在網路廣告和數位媒體擔任過資料科學家和大數據工程師,圍繞所述的資料構建各種高流量的 web 服務。我曾經使用 Hadoop / Pig / MapReduce 建立了新的大數據管道,也曾建立了機器學習模型來預測點擊率,使用線性迴歸、Bayesian Bandits 和協作篩選建立新聞推薦系統,並使用A / B測試驗證結果。
我在大學與研究所如哥倫比亞大學、紐約大學、Humber College 和 The New School 教過 資料科學、統計學、機器學習、演算法、微積分、電腦圖學和物理學。
多家企業已經從我的 Web 程式設計專業知識中受益。我做所有的後端(伺服器)、前端(HTML / JS / CSS)和操作/佈署工作。我使用的一些技術是:Python、Ruby / Rails、PHP、Bootstrap、jQuery(Javascript)、Backbone 和 Angular。至於儲存/資料庫,我使用MySQL、Postgres、Redis、MongoDB 等。
英文字幕:有
- 想要了解如何將英文字幕自動翻譯成中文? 請參考這篇 How-To
🙌 如何有效率地管理 ChatGPT 輸出與整理自己的 ChatGPT 提示( prompts )使用情境?LN+ for Web 已經針對 ChatGPT 的整合做最佳化
🙌 讓 Notion AI 成為你線上學習的得力助手,詳細操作請參考 – 使用 Notion AI 功能來為 udemy 的課程做摘要總結
- 點選這個✨優惠連結 課程特價 | Udemy 永久擁有課程 NT330 起( 請登入 Udemy|按過“優惠連結”後到”報名參加課程“連結網頁做更新 )
- Udemy 現在越來越多課程有中文字幕,請參考 Soft & Share 中文線上課程
- 手機上點選優惠連結看到的價格比電腦上看到的貴
- $代表當地貨幣, 如在台灣為 NT
- 點選”報名參加課程”有可能因瀏覽器 cookies 轉久一點或回報錯誤而無法連上,請稍等刷新或重新點選就會出現
報名參加課程

也許你會有興趣
- 人工智慧:Python 中的增強式學習
- 進階 AI : 以 Python 做深度增強式( Deep Reinforcement Learning ) 學習
- ★英語學習地圖 – 練好英文是最大的學習槓桿
- 如何找工作學習地圖 – 找工作不要靠運氣!
你必須登入才能發表留言。