horovod:Tensorflow、 Keras、 PyTorch 和 Apache MXNet 的分散式訓練框架

Horovod 是一個針對 TensorFlow、 Keras、 PyTorch 和 Apache MXNet 的分散式深度學習訓練框架。 Horovod 的目標是使分散式深度學習更快更容易使用。

為什麼使用 Horovod ?

這個專案的主要動機是使它很容易採取單一的 GPU 訓練指令碼,並成功地擴展,以跨多個 GUP 並行訓練。 這有兩個方面:

  • 一個程式需要做多少修改才能分散,執行它又有多容易呢?
  • 在分散式模式下它能快多少?

在 Uber 內部,我們發現 MPI 模型比以前的解決方案,比如帶參數伺服器的分散式 TensorFlow,要簡單得多,需要的程式碼更改也少得多。 一旦使用 Horovod 編寫了規模化的訓練指令碼,它就可以在單一 gpu、多個 gpu 甚至多個主機上執行,而無需進一步修改程式碼。 詳情請參閱用法部分

除了易於使用,Horovod 是快速的。 下面是一個圖表,表示在128台伺服器上用4個 Pascal gpu 完成的基準測試,每個 gpu 由具有 roce 能力的25 gbit / s 網路連線:

專案網址

也許你會有興趣

追蹤 Soft & Share

幫我們個小忙!

Comments are closed.

Powered by WordPress.com.

Up ↑

%d 位部落客按了讚: