Horovod 是一個針對 TensorFlow、 Keras、 PyTorch 和 Apache MXNet 的分散式深度學習訓練框架。 Horovod 的目標是使分散式深度學習更快更容易使用。
為什麼使用 Horovod ?
這個專案的主要動機是使它很容易採取單一的 GPU 訓練指令碼,並成功地擴展,以跨多個 GUP 並行訓練。 這有兩個方面:
- 一個程式需要做多少修改才能分散,執行它又有多容易呢?
- 在分散式模式下它能快多少?
在 Uber 內部,我們發現 MPI 模型比以前的解決方案,比如帶參數伺服器的分散式 TensorFlow,要簡單得多,需要的程式碼更改也少得多。 一旦使用 Horovod 編寫了規模化的訓練指令碼,它就可以在單一 gpu、多個 gpu 甚至多個主機上執行,而無需進一步修改程式碼。 詳情請參閱用法部分。
除了易於使用,Horovod 是快速的。 下面是一個圖表,表示在128台伺服器上用4個 Pascal gpu 完成的基準測試,每個 gpu 由具有 roce 能力的25 gbit / s 網路連線:

專案網址
也許你會有興趣
- TensorFlow 2.0: 全新的 TensorFlow 完整指南-使用 Keras API
- 使用 PyTorch 和 Python 進行深度學習的新手訓練營
- ❤️ udemy : udemy 線上課程特價中 – 點選這個連結 即會啟動最新的優惠折扣碼 ! ( 適用日期 2021/07/5 ~7/8止)