Tensorflow、 Keras、 PyTorch 和 Apache MXNet 的分散式訓練框架

Horovod 是一個針對 TensorFlow、 Keras、 PyTorch 和 Apache MXNet 的分散式深度學習訓練框架。 Horovod 的目標是使分散式深度學習更快更容易使用。

為什麼使用 Horovod ？

這個專案的主要動機是使它很容易採取單一的 GPU 訓練指令碼，並成功地擴展，以跨多個 GUP 並行訓練。這有兩個方面:

一個程式需要做多少修改才能分散，執行它又有多容易呢？
在分散式模式下它能快多少？

在 Uber 內部，我們發現 MPI 模型比以前的解決方案，比如帶參數伺服器的分散式 TensorFlow，要簡單得多，需要的程式碼更改也少得多。一旦使用 Horovod 編寫了規模化的訓練指令碼，它就可以在單一 gpu、多個 gpu 甚至多個主機上執行，而無需進一步修改程式碼。詳情請參閱用法部分。

除了易於使用，Horovod 是快速的。下面是一個圖表，表示在128台伺服器上用4個 Pascal gpu 完成的基準測試，每個 gpu 由具有 roce 能力的25 gbit / s 網路連線: