進階 AI：PyTorch 中的深度強化學習（v2）

使用 PyTorch 中的強化學習( Reinforcement Learning )來建立人工智慧 (AI) 代理：DQN、A2C、策略梯度等！

從這 15.5 小時的課程，你會學到

複習強化學習基礎：MDP、貝爾曼方程式( Bellman Equation )、Q 學習
深度 Q 學習/DQN 的理論與實現
策略梯度方法與 A2C（優勢行動者-評論家演算法）的理論與實現
將 DQN 和 A2C 應用於 Atari 遊戲環境（打磚塊、乒乓球、小行星等）
僅限 VIP：應用 A2C 建立多週期投資組合最佳化( Multi-Period Portfolio Optimization )交易演算法

要求

強化學習基礎：MDP、貝爾曼方程式( Bellman Equation )、蒙特卡羅方法( Monte Carlo Methods )、時間差分學習( Temporal Difference Learning )
本科 STEM 數學：微積分、機率論、統計學
Python 程式設計與數值計算（Numpy、Matplotlib 等）
深度學習基礎：卷積神經網路( Convolutional neural networks，CNN )、超參數最佳化( hyperparameter optimization )等

課程說明

您準備好釋放強化學習 (Reinforcement Learning，RL) 的強大力量，建立能夠自主學習和適應的智慧代理人了嗎？

歡迎來到最全面、最新、最實用的密集學習課程，現已推出高度改進的 2.0 版！無論您是學生、研究人員、工程師還是 AI 愛好者，本課程都將指導您從基礎的強化學習概念到高級的深度強化學習實現——包括使用 DQN 和 A2C 等尖端演算法構建能夠玩 Atari 遊戲的智能代理。

您將學到什麼

核心強化學習概念：理解獎勵、價值函數、貝爾曼方程式和馬可夫決策過程 (MDP)。
經典演算法：掌握 Q 學習、TD 學習和蒙地卡羅方法。
動手編寫程式：使用 Python 和 Gymnasium 從零開始實現強化學習演算法。
深度 Q 網路 (Deep Q-Networks，DQN)：學習如何使用神經網路、經驗回放和目標網路來建立可擴展且強大的智能體。
策略梯度與 A2C：深入研究高階策略最佳化技術，並了解 Actor-Critic 方法在實務上的工作原理。
Atari 遊戲 AI：使用 Stable Baselines 3 等現代庫從零開始訓練能夠玩經典 Atari 遊戲的智能體！
額外概念：探索演化方法、熵正則化以及實際應用的效能調優技巧。

工具和程式庫( Libraries )

Python（包含完整程式碼演示）
Gymnasium（原 OpenAI Gym）
穩定基線 3
NumPy、Matplotlib、PyTorch（如適用）

為什麼選擇這門課？

版本 2 更新：精簡的內容、更清晰的解釋和更新的庫。
實際應用：透過建構可運作的代理，超越理論－摒棄黑箱。
適合所有程度：包含專門針對初學者的複習部分和針對高階學習者的深入講解。
經過驗證的結構：由一位經驗豐富的講師設計，他曾指導過數千名學生在 AI 和機器學習領域取得成功。

誰該參加這門課程？

想要進軍強化學習的資料科學家與機器學習工程師
希望將強化學習應用於學術或實踐計畫的學生和研究人員
想要建構智慧代理或 AI 遊戲的開發者
對機器學習如何透過互動進行學習感興趣的任何人

加入成千上萬的學習者，立即開始掌握強化學習——從理論到能夠思考、學習和遊戲的智能體的完整實現。

立即註冊，將您的 AI 技能提升到更高水平！

目標受眾

機器學習和 AI 愛好者，希望探索 AI 領域最令人興奮的領域之一：強化學習
希望建構能夠從經驗中學習的智慧代理的軟體開發人員和工程師
有興趣將強化學習應用於投資組合最佳化和演算法交易的量化金融專業人士
希望親身體驗強化學習實際應用的 AI 、電腦科學或資料科學的學生和研究人員
有興趣使用強化學習訓練 AI 實現複雜行為和自適應遊戲的遊戲開發者
希望了解智慧代理如何在物理環境中進行順序決策的機器人技術從業者
希望擴展其工具包，超越監督學習/無監督學習的資料科學家
希望將尖端 AI 方法應用於自動交易策略的交易員和投資者
渴望嘗試先進 AI 模型並建立能夠隨著時間推移學習和適應的專案的企業家和業餘愛好者
轉向 AI /機器學習領域並尋找可投資組合化、實際專案的專業人士

講師簡介

Lazy Programmer Inc. 人工智慧和機器學習工程師 ( 更多 Lazy Programmer 的課程介紹 )

Lazy Programmer 是一位經驗豐富的線上教育者，對分享知識有著堅定不移的熱情。憑藉超過十年的經驗，他透過全面的課程和教程吸引了全球各地的受眾，徹底改變了資料科學和機器學習領域。

Lazy Programmer 擁有多學科背景，並擁有兩個令人矚目的碩士學位。他初入學術界，選擇攻讀電腦工程專業，專注於機器學習和模式識別。之後，他不畏懼任何界限，進軍統計學領域，探索其在金融工程中的應用。

作為該領域公認的先驅，在深度學習尚處於萌芽階段時，他便迅速擁抱了其強大的力量。作為先驅者之一，他無所畏懼地教授了首批深度學習線上課程之一，並由此躋身行業前列。

除了教育背景之外，懶惰程式設計師還擁有寶貴的實務經驗，這些經驗塑造了他的專業技能。他涉足線上廣告和數位媒體領域，取得了令人矚目的成果，將點擊率和轉換率推向新高，並為他效力的公司帶來了數百萬美元的收入。身為全端軟體工程師，他精通各種後端和 Web 技術，包括 Python、Ruby on Rails、C++、Scala、PHP、Javascript、SQL、大數據、Spark 和 Redis。

雖然他在資料科學和機器學習領域取得了令人讚嘆的成就，但 Lazy Programmer 的求知欲遠不止於此。他對知識的熱情引領他探索藥物研發、生物資訊學和演算法交易等多個領域。他積極應對這些領域的挑戰和複雜性，努力發掘其潛力，並為它們的發展做出貢獻。

Lazy Programmer 對學生始終如一地盡心盡力，並熱衷於將複雜的概念簡化，在線上教育領域堪稱一位舉足輕重的人物。他透過數據科學、機器學習、深度學習和人工智慧等課程，幫助有志於學習的學子自信地探索這些學科的複雜領域。

作為一名作家、導師和創新者，Lazy Programmer 在資料科學、機器學習及其他領域留下了不可磨滅的印記。憑藉他能夠解開最複雜概念的神秘面紗的能力，他持續塑造下一代資料科學家，並激勵無數人踏上屬於自己的知識之旅。