fbpx

現代強化學習:PyTorch 中的深度 Q 學習

如何將深度強化學習研究論文轉化為擊敗經典 Atari 遊戲的代理( agents )

從這 5.5 小時的課程,你會學到

  • 如何閱讀和實施深度強化學習論文
  • 如何編寫 Deep Q 學習代理
  • 如何編寫 Double Deep Q 學習代理
  • 如何編碼 Dueling Deep Q 和 Dueling Double Deep Q 學習代理
  • 如何編寫模組化和可擴展的深度強化學習軟體
  • 如何使用命令行參數自動調整超參數

要求

  • 一些大學微積分
  • 接觸過深度學習
  • 對 Python 運用自如

課程說明

在這個完整的深度強化學習課程中,你將學習一個可重複的框架,用於閱讀和實施深度強化學習研究論文。 你將閱讀介紹 Deep Q 學習、Double Deep Q 學習和 Dueling Deep Q 學習演算法的原始論文。 然後,你將學習如何在 Python 和簡潔的 PyTorch 程式碼中實現這些,這些程式碼可以擴展到包括任何未來的深度 Q 學習演算法。 這些演算法將用於解決 Open AI 健身房的 Atari library 中的各種環境,包括 Pong、Breakout 和 Bankheist。

你將學習使這些 Deep Q 學習演算法發揮作用的關鍵,即如何修改 Open AI Gym 的 Atari library 以滿足原始 Deep Q 學習論文的規範。 你將學到如何:

  • 重複操作以減少重複計算的開銷
  • 重新縮放 Atari 螢幕圖像以提高效率
  • 堆疊幀( stack frames )以使 Deep Q 代理具有運動感
  • 使用隨機無操作評估 Deep Q 代理的性能以處理模型過度訓練
  • 剪輯獎勵以使 Deep Q 學習代理能夠在不同得分規模的 Atari 遊戲中進行泛化

如果你之前沒有強化或深度強化學習方面的經驗,那沒問題。 課程中包含有關強化學習基礎知識的完整而簡潔的課程。 強化學習入門課程將在 Open AI Gym 解決 Frozen Lake 環境的背景下教授。

我們將涵蓋:

  • 馬可夫( Markov )決策過程
  • 時間差異學習
  • 原始Q學習演算法
  • 如何求解貝爾曼( Bellman )方程
  • 價值函數和行動價值函數
  • 無模型與基於模型的強化學習
  • 探索-利用困境的解決方案,包括樂觀初始值和 epsilon-greedy 動作選擇

還包括使用 PyTorch 框架進行深度學習的迷你課程。 這適用於熟悉深度學習的基本概念但不熟悉細節的學生,或熟悉其他框架(例如 Tensorflow 或 Keras)的深度學習的學生。 你將學習如何在 Pytorch 中編寫深度神經網路以及卷積神經網路的功能。 這將用於實現一個簡單的 Deep Q 學習代理,以解決 Open AI 健身房的 Cartpole 問題。

目標受眾

渴望了解尖端深度強化學習的 Python 開發人員

講師簡介

Phil Tabor 機器學習工程師

2012 年,我在西維吉尼亞大學獲得實驗凝聚態物理博士學位。 之後,我在英特爾公司擔任干法蝕刻工藝工程師,利用大數據對關鍵任務產品進行必要的工藝改進。 2015 年離開英特爾後,我一直擔任合同工和自由工作者深度學習和人工智慧工程師。

英文字幕:有

  • 想要了解如何將英文字幕自動翻譯成中文? 請參考這篇 How-To

使用 Notion 來做上課筆記?

udemy 的課程講座數量動輒上百個,如果你要使用 Notion 當作是線上課程的筆記輔助工具,為這些講座建立與組織筆記是一件耗時且沒效率的工作

為了解決這個問題,Soft & Share 開發一個 chrome extension – LN+ for udemy ,可以根據 udemy 線上課程的課程大綱幫你自動建立成 Notion 筆記資料庫並產生筆記與課程的雙向關聯讓您專心上課與寫筆記就好,不用再煩惱課程筆記要放哪裡的問題!

🛫了解 LN+ for udemy 更多功能介紹請參考 – Learning Notes Plus for udmy


報名參加課程

Sponsored by Udemy


🛫使用關鍵字連結獲得更多線上學習資訊?請參考這個網頁說明


幫我們個小忙!

使用 e-mail 追蹤 Soft & Share

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料

Powered by WordPress.com.

Up ↑

%d 位部落客按了讚: