人工智慧:Python 中的強化學習( Reinforcement Learning )

完整的人工智慧指南,準備深度強化學習,使用股票交易應用程式來學習

從這 14.5 小時的課程,你會學到

  • 應用基於梯度的監督式機器學習方法做強化學習 ( reinforcement learning )
  • 在技​​術層面上學習強化學習
  • 了解強化學習與心理學之間的關係
  • 實現 17 種不同的強化學習演算法

要求

  • 微積分
  • 機率
  • 馬可夫模型
  • The Numpy Stack ( 譯註 : Python 的 Numpy 套件 )
  • 至少有幾個監督式機器學習 ( supervised machine learning )方法的經驗
  • 梯度下降 ( Gradient descent )
  • 良好的物件導向程式設計技巧

說明

當人們談論人工智慧時,他們通常並不意味著監督式和非監督式機器學習。

這些任務與我們認為的人工智慧可以做的事相比,是非常微不足道的 – 下西洋棋和圍棋,駕駛汽車以及以超人等級玩視訊遊戲。

強化學習最近已經變得流行起來因為做了上述這些事。

很像深度學習,很多理論在 70 年代和 80 年代被發現,但直到最近,我們已經能夠親眼看到可行的驚人效果。

在2016年,我們看到 Google 的 AlphaGo 在圍棋比賽中擊敗了世界冠軍。

我們看到人工智慧玩視訊遊戲,如 毀滅戰士和超級馬力歐。

自動駕駛汽車已經與真人駕駛車開始在真正的道路上駕駛,甚至搭載乘客(Uber),沒有人力的協助。

如果這聽起來很神奇,那麼為了將來,你可以激勵自己,因為加速回報的法則決定了這一進步只會繼續呈指數級成長。

學習監督式和非監督式機器學習是不小的壯舉。到目前為止,我已經完成了只有這些主題的 16 個課程。

而強化學習則開闢了一個全新的世界。正如你將在本課程中學習的那樣,強化學習的典範與監督式和非監督式學習有所不同。

它在行為心理學和神經科學領域引發了新的和驚人的洞見。正如你將在本課程中學到的,當涉及到教導一位代理人和教導一隻動物甚至人類時,有許多類似的過程。這是我們到目前為止最接近一個真實整體人工智慧所能做到的事。

本課程涵蓋什麼?

  • 多武裝強盜問題( multi-armed bandit problem )和探險開發兩難
  • 計算移動平均值及其與隨機梯度下降關係的方法
  • 馬爾可夫決策流程(MDPs)
  • 動態程式設計
  • 蒙地卡羅方法
  • 暫時的差異(TD)學習
  • 近似方法(即如何將深層神經網路或其他可微分模型插入到 RL 演算法中)

如果你準備好參加全新的挑戰,並且學習你在傳統監督式機器學習,非監督式機器學習,甚至深入學習中從未見過的人工智慧技術,那麼本課程將是為你而設計的。

在課堂上見!

注意:

本課程的所有程式碼都可以從我的 github下載:

/lazyprogrammer/machine_learning_examples

在目錄:rl

確保你總是使用 “git pull”,所以你會有最新的版本!

你必須事先了解的知識:

  • 微積分
  • 機率
  • 物件導向程式設計
  • Python 程式設計 : if/else, loops, lists, dicts, sets
  • Numpy 程式設計 : matrix and vector operations
  • 線性迴歸
  • 梯度下降
  • 技巧 (為了要走完整堂課程)
  • 使用兩倍速觀看
  • 使用手寫筆記。這將大大增加你保留資訊的能力。
  • 寫下方程式。如果不這樣做,我保證只會看起來像亂七八糟的。
  • 在討論板上提出很多問題。越多越好!
  • 意識到大多數練習將花費數天或數週才能完成。
  • 自己編寫程式碼,不要只是坐在那裡看我的程式碼。

修課順序

  • 查看講座 “ What order should I take your courses in?” (可在我的任何課程的附錄中找到,或請參考先修課

目標受眾是?

  • 任何想要學習人工智慧,資料科學,機器學習和深入學習的人
  • 學生和專業人士

講師簡介

Lazy Programmer Inc  資料科學家和大數據工程師

我是一名資料科學家、大數據工程師和全端軟體工程師。

我有電腦工程的碩士,專長為機器學習和模式辨識。

我曾在網路廣告和數位媒體企業擔任過資料科學家和大數據工程師,圍繞所謂的資料建構各種高流量的 web 服務。我曾經使用 Hadoop / Pig / MapReduce 創建新的大數據管道,也曾建立機器學習模型來預測點擊率,使用線性迴歸、Bayesian Bandits 和協同過濾 ( collaborative filtering )建立新聞推薦系統,並使用A / B測試驗證結果。

我曾在大學部與研究所教授資料科學、統計學、機器學習、演算法、微積分、電腦圖學和物理學,任職的學校如哥倫比亞大學、紐約大學、Hunter 學院和 The New School。

有多家企業已從我的 Web 程式設計專業知識中受益。我做所有的後端(伺服器)、前端(HTML / JS / CSS)和運營/佈署工作。 我使用的技術包含:Python、Ruby / Rails、PHP、Bootstrap、jQuery(Javascript)、Backbone 和  Angular。至於儲存/資料庫,我採用 MySQL、Postgres、Redis、MongoDB等。

英文字幕:有

  • 想要了解如何將英文字幕自動翻譯成中文? 請參考這篇 How-To

  • 點選 ✨ 大多課程 NT320優惠連結 (到 425 )| Udemy 永久擁有課程 ( 在電腦瀏覽器登入,點選“優惠連結”後再回想要的課程介紹中點選“報名參加課程”即可取得 )
  • Udemy 現在越來越多課程有中文字幕,請參考 Soft & Share 中文線上課程
  • 手機上點選優惠連結看到的價格比電腦上看到的貴
  • $代表當地貨幣, 如在台灣為 NT
  • 點選”報名參加課程”有可能因瀏覽器 cookies 轉久一點或回報錯誤而無法連上,請稍等刷新或重新點選就會出現

報名參加課程

Sponsored by Udemy


你可能會有興趣

不受 FB 演算法影響,歡迎透過 e-mail 訂閱網站更新

發表迴響

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料

Powered by WordPress.com.

Up ↑

探索更多來自 Soft & Share 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading