Submarine – 雲端原生機器學習平台
Apache Submarine 是一個統一的人工智慧平台,允許資料科學家建立端到端的機器學習工作流程。ONE PLATFORM 意味著它支援資料科學家在同一個平台上完成他們的工作,而不用頻繁地切換他們的工具集。從資料集探索資料管道建立、模型訓練(實驗)、將模型 push 到營運(模型服務和監控)。所有這些步驟都可以在 ONE PLATFORM 中完成。
為何使用 Submarine ?
已經有很多開源和商業專案在嘗試建立一個端到端的機器學習/深度學習平台,Submarine 的願景是什麼?
問題
- 現有產品缺乏良好的使用者介面(API、 SDK 等) ,無法大規模、可重複地執行培訓工作量,也無法為資料科學家在雲端/premise下理解
- 資料科學家想要專注於特定領域的目標(例如提高點選率) ,但是可用的產品總是給使用者提供一個平台(一個執行分散式 Pytorch script 的 SDK)
- 許多產品提供了資料探索、模型培訓和服務/監控等功能。然而,這些功能在很大程度上是互相脫節的。而且不能有機地相互合作
Submarine 的目標
模型訓練(實驗)
- 可以在 prem,雲端執行實驗(培訓工作)。通過易於使用的使用者介面
- 易於資料科學家(DS)管理培訓程式碼和依賴項(Docker,Python 依賴項等)
- 從 Python SDK (notebook)、 REST API 和 CLI 執行/跟蹤實驗的 ML-focused API
- 使用流行的框架(Standalone/Distributed TensorFlow/PyTorch/Hovorod)提供 api 來執行培訓作業
- 為資料科學家提供預先包裝的培訓模板,使他們專注於特定領域的任務(比如使用 DeepFM 建立 CTR 預測模型)
- 支援 GPU 和其他計算加速裝置
- 支援 K8s/YARN或其他資源管理系統的執行
- 管道也在 backlog中,我們將在未來進行管道培訓
Notebook 服務
- Submarine 的目標是提供 Notebook 服務,允許使用者建立/編輯/刪除叢集上執行的 Notebook 例項(如 Jupyter 筆記本)
- 使用者可以使用Submarine SDK 提交實驗、管理模型
模型管理(服務/版本控制/監視等)
- 模型服務/版本控制/監視的模型管理在路線圖上
ㄧ個新潮的資料工作流程平台
Prefect 是一個新的工作流程管理系統,為最新的基礎設施而設計,並由開源 Prefect 核心工作流程引擎提供動力。 使用者將任務( Tasks ) 組織成流程( Flows ),Prefect 負責其餘部分。
Perfect Cloud 是一個 SaaS 付費雲端服務,Prefect 還包括一個用於編排和管理流程的開源伺服器和 UI。 本地伺服器在 Postgres 資料庫中儲存流程元資料,並公開 GraphQL API。
Perfect 是用 Python 開發的
Task 資料來源可以是
Metaflow – 讓建立真實的資料科學專案更簡單
Metaflow 是一個人性化的 Python 程式庫,可以幫助科學家和工程師建構和管理真實生活中的資料科學專案。 Metaflow 最初是在 Netflix 開發的,用於提高資料科學家的生產力,這些科學家從事各種各樣的專案,從古典統計學到最先進的深度學習。
Determined :深度學習訓練平台
Determined 可以幫助深度學習團隊更快地訓練模型,更容易地共享 GPU 資源,並有效地協作。 Determined 讓深度學習的工程師可以專注於大規模的建立和培訓模型,而不用擔心 DevOps 或者為常見的任務編寫自定義程式碼,比如容錯或者實驗追蹤。
你可以把 Determined 想象成一個平台,在像 TensorFlow 和 PyTorch 這樣的工具之間架起一座橋樑—- 這些工具對於只有一個 GPU 的單個研究人員來說非常有用—- 同時,隨著團隊、叢集和資料集的規模都在不斷擴大,在進行大規模的深度學習時。
主要功能
- 高效能的分散式培訓,不需要對模型程式碼進行任何額外的更改
- 基於前沿研究的智慧超參數優化
- 靈活的 GPU 排程,包括動態調整培訓作業的動態大小和自動管理的雲資源的 AWS 和 GCP
- 內建的實驗追蹤,度量儲存和視覺化
- 深度學習培訓作業的自動容錯
- 整合了 TensorBoard 和 GPU 驅動的 Jupyter 筆記本的支援
要使用 Determined,你可以繼續使用流行的深度學習框架,如 TensorFlow 和 PyTorch; 你只需修改模型程式碼以實現 Determined API。
你必須登入才能發表留言。