現代強化學習 : Actor-Critic 方法

如何使用 PyTorch 框架在 Open AI Gym 中實現最先進的人工智慧研究論文

已經上過這門課程?

🔥歡迎來參加這個活動 – 上課心得分享與獎勵說明 :分享就贈送一門線上課程

報名參加課程

從這 8 小時的課程,你會學到

  • 如何在 PyTorch 編寫策略梯度方法( Policy Gradient Method )程式碼
  • 如何在 PyTorch 編寫深度確定性策略梯度( DDPG,Deep Deterministic Policy Gradients )程式碼
  • 如何在 PyTorch 編寫雙延遲深度確定性策略梯度( TD3,Twin Delayed Deep Deterministic Policy Gradients ) 程式碼
  • 如何在 PyTorch 編寫 Actor Critic 演算法
  • 如何在 Python 實現最先進的人工智慧研究論文

要求

  • 大學微積分的理解程度
  • 具備與強化學習( reinforcement learning )基礎
  • 能夠獨立編寫深層神經網路( DNN )程式碼

課程說明

在這個關於深度強化學習的高階課程中,你將學習如何在 Open AI Gym 的各種具有挑戰性的環境中實現策略梯度( Policy Gradient )、行為者批評( Actor Critic )、深度決定性策略梯度( DDPG,Deep Deterministic Policy Gradient )和雙延時深度決定性策略梯度(TD3,Twin Delayed Deep Deterministic Policy Gradient)演算法。

本課程首先實際回顧強化學習的基礎知識,包括以下主題:

  • 貝爾曼方程 ( The Bellman Equation )
  • 馬爾科夫決策過程( Markov Decision Processes )
  • 蒙地卡羅預測( Monte Carlo Prediction )
  • 蒙地卡羅控制( Monte Carlo Control )
  • 時間差分預測 TD (0) ( Temporal Difference Prediction TD(0) )
  • 基於 Q 學習的時間差分控制

然後直接去編寫我們的第一個代理程式: 玩 21 點的人工智慧。從那裡,我們將進一步教你運用 Q 學習做車桿平衡的代理。

掌握了基本原理後,我們加快步伐,直接進入政策梯度方法( policy gradient methods )的介紹。我們介紹了加強演算法( REINFORCE algorithm, ),並使用它來教人工智慧從 Open AI Gym 在月球著陸器環境中登陸月球。接下來我們進展到編寫一步 actor critic 演算法,再次擊敗月球著陸器。

在基本原理已經解決的情況下,我們繼續進行更難的專案: 實施深度強化學習研究論文。我們將從深度確定性策略梯度( Deep Deterministic Policy Gradients, )開始,它是一種教機器人擅長於各種連續控制任務的演算法。

最後,我們實現了一個最先進的人工智慧演算法: 雙延遲的深度確定性策略梯度( TD3G,Twin Delayed Deep Deterministic Policy Gradients )。該演算法為機器人控制任務的效能設定了一個新的基準,我們將在 Open AI Gym 的 Bipedal Walker 環境中展示世界級的效能。

在課程結束時,你將會知道 Actor-Critic 方法中下列基本問題的答案:

  • 當深度 Q 學習如此成功的時候,我們為什麼還要用 Actor Critic 方法?
  • 深度 Q 學習的進展可以應用到強化學習的其他領域嗎?
  • 我們如何用一個確定性的政策來解決探索與利用的困境( explore-exploit dilemma )?
  • 我們如何在 actor-critic 方法中獲得過度估計偏差( overestimation bias )?
  • 我們如何處理深層神經網路( DNN, Deep Neural Networks )中固有的錯誤?

本課程是為高度進取的學生開設的。要取得成功,你必須在以下所有主題上有預先的課程工作:

  • 大學水平的微積分
  • 強化學習
  • 深度學習

課程的進度很快,但是回報是你將會知道如何閱讀尖端的研究論文,並且儘可能快地將它們轉換成運作的程式碼。

目標受眾

想要實現國家最先進的學術研究論文的人工智慧高級學生

講師簡介

Phil Tabor 機器學習工程師  ( 更多講師主講課程介紹 )

2012年,我獲得了 West Virginia University 實驗凝聚態物理學的博士學位。在那之後,我成為了英特爾公司的一名乾蝕刻工藝( dry etch process )工程師,在那裡我利用大數據為關鍵任務產品進行必要的工藝改進。2015 年離開英特爾公司後,我開始自由工作以契約合作的方式作為一位深度學習和人工智慧工程師。

英文字幕:有

  • 想要了解如何將英文字幕自動翻譯成中文? 請參考這篇 How-To

報名參加課程

Sponsored by Udemy

也許你會有興趣

 歡迎使用 App / Email | Telegram 訂閱 網站更新

這個網站採用 Akismet 服務減少垃圾留言。進一步瞭解 Akismet 如何處理網站訪客的留言資料

Powered by WordPress.com.

Up ↑

%d 位部落客按了讚: