強化學習( Reinforcement Learning ) 專業套裝課程

精通強化學習( Reinforcement Learning )的概念。實現一個完整的 RL 解決方案，並瞭解如何應用人工智慧工具來解決實際問題。

關於這個專業套裝課程

強化學習專業套裝課程包含 4 門課程，探索可適應性學習系統( adaptive learning systems )和人工智慧的威力。

充分利用人工智慧的潛力需要可適應性學習系統。通過試錯互動從頭到尾實現一個完整的強化學習解決方案來幫助解決真實世界的問題。

在這個專業套裝課程結束時，學習者將瞭解許多最新的機率人工智慧(AI)的基礎，並準備參加更高階的課程或將 AI 工具和想法應用於真實世界的問題。這個內容將集中在“小規模”的問題，以瞭解強化學習的基礎，由在 Alberta 大學教授，科學學院的世界知名專家教授。

在這個專業領域學到的工具可以應用於遊戲開發(AI)、客戶互動(網站如何與客戶互動)、智慧助理、推薦系統、供應鏈、工業控制、金融、石油和天然氣管道、工業控制系統等領域。

你會學到什麼

建立一個強化學習系統，用於順序決策( sequential decision making )。
瞭解強化學習演算法的空間（時間差異學習，蒙特卡羅，Sarsa，Q-Learning，政策梯度，Dyna等）。
瞭解如何將你的任務形式化為強化學習問題，以及如何開始實現解決方案
瞭解強化學習如何適應更廣泛的機器學習，以及它如何補充深度學習，監督和非監督式學習

你將得到的技能

人工智慧(AI)
機器學習
強化學習
函式接近法
智慧系統

這個專業課程是如何運作的

參加課程

Coursera 專業套裝課程是一系列幫助你掌握一項技能的課程。首先，直接註冊專業套裝課程，或者瀏覽它的課程介紹，然後選擇一個你想要開始的課程。當你訂閱了一門專業套裝課程中的課程，你就自動訂閱了完整的專業套裝課程。只完成一門課程是可以的ーー你可以在任何時候暫停學習或終止訂閱。訪問你的學習儀表板，以追蹤你的課程註冊和你的進展。

實際操作專案

每一個專業套裝課程包含一個實際操作的專案。你需要成功地完成專案，以完成專業套裝課程並獲得你的證書。如果專業套裝課程包括一個單獨的課程以實踐專案，你需要完成每個其它的課程，然後再開始實踐專案課程。

獲得一個證書

當你完成每門課程並完成實踐專案後，你將獲得一份證書，您可以與潛在僱主和你的專業人際網路分享。

包含了 4 個課程主題

強化學習是機器學習的一個子領域，但也是自動決策和人工智慧的通用形式。本課程向你介紹統計學習技術，其中的代理人可明確採取行動並與世界互動。瞭解制定決策學習代理人在當今至關重要的重要性和挑戰，越來越多的公司對互動式代理人和智慧決策感興趣。本課程向你介紹強化學習的基礎知識。完成本課程後，你將： – 將問題形式化為馬爾可夫決策流程 – 瞭解基本探索方法和探索/利用權衡 – 理解價值功能，作為最佳決策制定的通用工具 – 瞭解如何實現動態規劃( dynamic programming )作為工業控制問題的有效解決方案本課程將向你介紹強化學習的關鍵概念，強化學習中的經典和現代演算法。完成本課程後，你將能夠開始使用強化學習解決實際問題，你可以在其中指定或指定MDP。這是強化學習專業套裝課程的第一門課程。

2. 以樣本為基礎( Sample-based )的學習方法

在本課程中，你將學習幾種演算法，這些演算法可以基於與環境的試錯互動學習接近最佳化的策略——從代理者自身的經驗中學習。從實際經驗中學習是驚人的，因為它不需要事先有環境的動態知識，但仍然可以達到最佳的行為。我們將介紹直觀簡單但強大的蒙特卡羅方法，以及包括 Q-Learning 在內的時間差學習方法。我們將總結這門課程，研究我們如何能夠得到兩全其美的結果: 能夠結合基於模型的規劃(類似於動態規劃)和時間差更新的演算法，從根本上加速學習。

在本課程結束時，你將能夠:

理解時差學習( Temporal-Difference learning )和蒙特卡羅從抽樣經驗作為兩種估計值函式的策略
瞭解探索的重要性，當使用抽樣經驗而不是動態規劃在模型中
瞭解蒙特卡羅和動態規劃掃描和 TD 之間的連結。
實現和應用 TD 演算法估計價值函式
實現和應用期望 Sarsa 和 Q-Learning (兩種 TD 控制方法)
瞭解在政策和非政策控制之間的區別
瞭解計劃與模擬經驗(相對於傳統的計劃策略)
實施一種基於模型的方法，稱為動態學習，它使用模擬經驗
進行一項實證研究，看看在使用動態學習時樣本效率的改進

3 使用函數接近法做預測與控制

在本課程中，你將學習如何使用大型、高維和潛在的無限狀態空間來解決問題。你會發現，估計價值函式可以轉化為一個監督式學習 / 函式逼近問題，允許你建立代理者，仔細平衡概括和歧視，以最大限度地提高報酬。我們將通過研究我們的政策評估或預測方法，如蒙特卡洛和 TD，如何能夠擴展到函式接近法的設定開始這一旅程。你將學習關於特徵構造技術的強化學習，並通過神經網路和反饋表示學習。我們以深入研究政策梯度方法來結束本課程，這是一種直接學習政策而不需要學習價值函式的方法。在本課程中，你將解決兩個連續狀態控制任務，並研究策略梯度方法在連續動作環境中的好處。本課程是建立在課程1和課程2的基礎上。

在本課程結束時，你將能夠:

理解如何使用監督式學習方法對 Circa 函式進行研究
理解在函式接近法下的預測目標
在無限狀態空間(連續狀態空間)的環境下使用函式接近法(狀態聚合)實現 TD (狀態聚合)
理解固定基礎和神經網路方法到特徵建設
在連續狀態環境下使用神經網路方法實現 TD
在轉移到函式接近法時，瞭解探索中的新困難點
用於控制的對比折扣問題公式與平均獎勵問題公式
在連續狀態控制任務上使用函式接近法實現預期的 Sarsa 和 Q-Learning
理解直接估計政策的目標(政策目標)
在離散狀態環境中實現策略梯度方法（稱為Actor-Critic）

4. 一個完整的強化學習系統 (Capstone)

在最後的課程中，你將把你從課程1,2和3中學到的知識整合起來，實現一個完整的問題解決方案。這個頂點將讓你看到每個組成部分—- 問題制定、演算法選擇、參數選擇和表示設計—- 如何組合成一個完整的解決方案，以及在真實世界部署強化學習時如何做出適當的選擇。這個專案將要求你實現環境刺激你的問題，並與神經網路函式接近法控制代理人。此外，你還將對你的學習系統進行科學研究，以提高你評估強化學習代理者的穩健性的能力。要在真實世界中使用強化學習，關鍵是(a)將問題正式化為 MDP，(b)選擇適當的演算法，(c)確定實現中哪些選擇會對效能產生重大影響，(d)驗證演算法的預期行為。這個 capstone 對於任何計劃使用強化學習來解決實際問題的人都是有價值的。

在本課程結束時，你將能夠:

完成一個實際問題的強化學習解決方案，從問題的形成，適當的演算法選擇和實現和實證研究解決方案的有效性。

關於講師

Martha White 電腦科學助理教授

Adam White 電腦科學助理教授

關於 Alberta 大學

UAlberta 被認為是世界領先的公開研究和教學密集型大學之一。作為加拿大頂尖大學之一，我們以人文，科學，創意藝術，商業，工程和健康科學的卓越而聞名。

關於 About Alberta Machine Intelligence Institute

The Alberta Machine Intelligence Institute（Amii）是世界頂級機器智慧人才的所在地。我們是一個以艾伯塔省為基地的研究所推動學術知識的界限，引導企業對人工智慧和機器學習的理解。

參加這門課要具備哪些條件

建議學員大學本科系是電腦科學( 至少已經有一年的學習 ) 或是 2~3 年的軟體開發專業經驗。需要熟悉使用 Python 程式設計的經驗( 請參考 Python 程式設計語言學習地圖)。必須習慣將演算法和虛擬碼轉換為 Python。對統計學（分佈，抽樣，期望值），線性代數（向量和矩陣）和微積分（computing derivatives）概念的基本理解