fbpx

現代強化學習:深度 Q 代理(PyTorch 和 TF2)

Contents

如何將深度強化學習研究論文轉化為擊敗經典 Atari 遊戲的代理( agents )

從這 7 小時的課程,你會學到

  • 如何閱讀和實施深度強化學習論文
  • 如何編寫 Deep Q Learning代理
  • 如何編寫 Double Deep Q Learning代理
  • 如何編碼 Dueling Deep Q 和 Dueling Double Deep Q Learning 代理
  • 如何編寫模組化和可擴展的深度強化學習軟體
  • 如何使用命令行參數自動調整超參數

要求

  • 一些大學微積分
  • 接觸過深度學習
  • 對 Python 運用自如

課程說明

在這個完整的深度強化學習課程中, 你將學習一個用於閱讀和實施深度強化學習研究論文的可重複框架。 你將閱讀介紹 Deep Q Learning (學習)、Double Deep Q Learning 和 Dueling Deep Q Learning演算法的原始論文。 然後, 你將學習如何用 Python 和簡潔的 PyTorch 和 Tensorflow 2 程式碼實現這些,這些程式碼可以擴展以包括任何未來的深度 Q Learning 演算法。 這些演算法將用於解決 Open AI Gym Atari library (程式庫)中的各種環境問題,包括 Pong、Breakout 和 Bankheist。

你將了解使這些 Deep Q Learning 演算法發揮作用的關鍵,即如何修改 Open AI Gym 的 Atari library 以滿足原始 Deep Q Learning 論文的規範。

學到如何:

  • 重複操作以減少重複計算的開銷
  • 重新縮放 Atari 螢幕圖像以提高效率
  • 堆疊幀( stack frames )以使 Deep Q 代理具有運動感
  • 使用隨機無操作評估 Deep Q 代理的性能以處理模型過度訓練
  • 剪輯獎勵以使 Deep Q Learning 代理能夠在不同得分規模的 Atari 遊戲中進行泛化

如果你之前沒有強化或深度強化學習方面的經驗,那沒問題。 課程中包含有關強化學習基礎知識的完整而簡潔的課程。 強化學習入門課程將在 Open AI Gym 解決 Frozen Lake 環境的背景下教授。

我們將涵蓋:

  • 馬可夫( Markov )決策過程
  • 時間差異學習
  • 原始 Q Learning 演算法
  • 如何求解貝爾曼( Bellman )方程
  • 價值函數和行動價值函數
  • 無模型與基於模型的強化學習
  • 探索-利用困境的解決方案,包括樂觀初始值和 epsilon-greedy 動作選擇

還包括使用 PyTorch 框架進行深度學習的迷你課程。 這適用於熟悉深度學習的基本概念但不熟悉細節的學生,或熟悉其他框架(例如 Tensorflow 或 Keras)的深度學習的學生。 你將學習如何在 Pytorch 中編寫深度神經網路以及卷積神經網路的功能。 這將用於實現一個簡單的 Deep Q Learning 代理,以解決 Open AI Gym 的 Cartpole 問題。

目標受眾

渴望了解尖端深度強化學習的 Python 開發人員

講師簡介

Phil Tabor 機器學習工程師

2012 年,我在西維吉尼亞大學獲得實驗凝聚態物理博士學位。 之後,我在英特爾公司擔任干法蝕刻工藝工程師,利用大數據對關鍵任務產品進行必要的工藝改進。 2015 年離開英特爾後,我一直擔任合同工和自由工作者深度學習和人工智慧工程師。

英文字幕:有

  • 想要了解如何將英文字幕自動翻譯成中文? 請參考這篇 How-To

  • 點選這個✨優惠連結✨ ( NT390 起特價中 ) | Udemy 永久擁有課程 ( 在電腦瀏覽器登入,點選“優惠連結”後再回想要的課程介紹中點選“報名參加課程”即可取得 )
  • Udemy 現在越來越多課程有中文字幕,請參考 Soft & Share 中文線上課程
  • 手機上點選優惠連結看到的價格比電腦上看到的貴
  • $代表當地貨幣, 如在台灣為 NT
  • 點選”報名參加課程”有可能因瀏覽器 cookies 轉久一點或回報錯誤而無法連上,請稍等刷新或重新點選就會出現

報名參加課程

Sponsored by Udemy


也許你會有興趣

幫我們個小忙!

請為我們的網站評分(必)

使用 e-mail 追蹤 Soft & Share

發表迴響

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料

Powered by WordPress.com.

Up ↑

%d 位部落客按了讚: