分布式入门,怎样用PyTorch实现多GPU分布式训练
選自 Medium,作者:Ayan Das,機器之心編譯,參與:Nurhachu Null、路。
具體來講,本文首先介紹了分布式計算的基本概念,以及分布式計算如何用于深度學習。然后,列舉了配置處理分布式應用的環境的標準需求(硬件和軟件)。最后,為了提供親身實踐的經驗,本文從理論角度和實現的角度演示了一個用于訓練深度學習模型的分布式算法(同步隨機梯度下降,synchronous SGD)。
何為分布式計算
分布式計算指的是一種編寫程序的方式,它利用網絡中多個連接的不同組件。通常,大規模計算通過以這種方式布置計算機來實現,這些計算機能夠并行地處理高密度的數值運算。在分布式計算的術語中,這些計算機通常被稱為節點(node),這些節點的集合就是集群。這些節點一般是通過以太網連接的,但是其他的高帶寬網絡也可以利用分布式架構的優勢。
深度學習如何從分布式計算中受益?
作為深度學習的主力,神經網絡出現在文獻中已經有一段時間了,但是直到最近,才有人完全利用它的潛力。神經網絡異軍突起的主要原因之一就是巨大的算力,這正是我們在本文中要寫的內容。深度學習需要基于大量數據訓練深度神經網絡,它包含大量的參數。分布式計算是能夠充分利用現代硬件的完美工具。下面是它的核心思想:
精心設計的分布式算法可以做到:
MPI:分布式計算標準
你還必須習慣另一個術語——消息傳遞接口(MPI)。MPI 幾乎是所有分布式計算的主力。MPI 是一個開放標準,它定義了一系列關于節點互相通信的規則,MPI 也是一個編程模型/API。MPI 不是一款軟件或者工具,它是一種規范。
1991 年夏天,一批來自學術界和產業界的組織和個人聚在一起,最終創建了 MPI 論壇(MPI Forum)。該論壇達成了一個共識,為一個庫起草了語法和語義規范,為不同硬件提供商提出可移植/靈活/優化的實現提供指導。多家硬件提供商都有自己的 MPI 實現——OpenMPI、MPICH、MVAPICH、Intel MPI 等。
在這份教程中,我們將會使用 Intel MPI,因為它十分高效,而且也針對 Intel 平臺做了優化。原始的 Intel MPI 是一個 C 語言庫,并且級別非常低。
配置
對分布式系統而言,合適的配置是非常重要的。如果沒有合適的硬件和網絡布置,即使你對它的編程模型有著概念上的理解,也是沒多大用的。下面是需要做的關鍵布置:
并行策略的類型
并行深度學習模型有兩種流行的方式:
模型并行
模型并行指的是一個模型從邏輯上被分成了幾個部分(例如,一些層在一部分,其他層在另一部分),然后把它們部署在不同的硬件/設備上。
盡管從執行時間上來看,將模型的不同部分部署在不同設備上確實有好處,但是它通常是出于避免內存限制才使用。具有特別多參數的模型會受益于這種并行策略,因為這類模型需要很高的內存占用,很難適應到單個系統。
數據并行
另一方面,數據并行指的是,通過位于不同硬件/設備上的同一個網絡的多個副本來處理數據的不同批(batch)。不同于模型并行,每個副本可能是整個網絡,而不僅僅是一部分。
正如你可能猜到的,這種策略隨著數據的增長可以很好地擴展。但是,由于整個網絡必須部署在一個設備上,因此可能無法幫助到具有高內存占用的模型。下圖應該可以說清楚這個問題。
模型并行 VS 數據并行
實際上,在大組織里,為了執行生產質量的深度學習訓練算法,數據并行更加流行也更加常用。所以,本教程主要介紹數據并行。
torch.distributed API
PyTorch提供了一個非常優雅并且易于使用的 API,作為用 C 語言寫的底層 MPI 庫的接口。PyTorch 需要從源碼編譯,并且必須與安裝在系統中的 Intel MPI 進行鏈接。我們現在就看一下 torch.distributed 的基本用法,以及如何執行它。
# filename 'ptdist.py' import torch import torch.distributed as distdef main(rank, world):if rank == 0:x = torch.tensor([1., -1.]) # Tensor of interestdist.send(x, dst=1)print('Rank-0 has sent the following tensor to Rank-1')print(x)else:z = torch.tensor([0., 0.]) # A holder for recieving the tensordist.recv(z, src=0)print('Rank-1 has recieved the following tensor from Rank-0')print(z)if __name__ == '__main__':dist.init_process_group(backend='mpi')main(dist.get_rank(), dist.get_world_size())點對點通信
用 mpiexec 執行上面的代碼,能夠得到一個分布式進程調度器,基于任何標準 MPI 實現都可以,結果如下:
cluster@miriad2a:~/nfs$ mpiexec -n 2 -ppn 1 -hosts miriad2a,miriad2b python ptdist.py Rank-0 has sent the following tensor to Rank-1 tensor([ 1., -1.]) Rank-1 has recieved the following tensor from Rank-0 tensor([ 1., -1.])通信集體
我們在上一部分看到的是一個「點對點」通信的例子,在給定的環境中,rank(s) 將數據發送到特定的 rank(s)。盡管這種通信是有用的,因為它對通信提供了細粒度的控制,但是還有其他被經常使用的標準通信模式,叫作集體(collectives)。下面介紹了 Synchronous SGD 算法中我們感興趣的一個集體——all-reduce 集體。
ALL-REDUCE 集體
All-reduce 是一種同步通信方式,所有的 ranks 都被執行了一個 reduction 運算,并且得到的結果對所有的 ranks 都是可見的。下圖介紹了這個思想(將求和作為 reduction 運算)。
all-reduce 集體
def main(rank, world):if rank == 0:x = torch.tensor([1.])elif rank == 1:x = torch.tensor([2.])elif rank == 2:x = torch.tensor([-3.])dist.all_reduce(x, op=dist.reduce_op.SUM)print('Rank {} has {}'.format(rank, x))if __name__ == '__main__':dist.init_process_group(backend='mpi')main(dist.get_rank(), dist.get_world_size())PyTorch 中 all-reduce 集體的基本用法
在 world of 3 環境中啟動時,結果如下:
cluster@miriad2a:~/nfs$ mpiexec -n 3 -ppn 1 -hosts miriad2a,miriad2b,miriad2c python ptdist.py Rank 1 has tensor([0.]) Rank 0 has tensor([0.]) Rank 2 has tensor([0.]轉向深度學習
假設讀者熟知標準的隨機梯度下降算法(SGD),該算法常用于訓練深度學習模型。我們現在看到的是 SGD 的一個變體——同步 SGD(synchronous SGD),它利用 all-reduce collective 來進行擴展。我們先從標準 SGD 的數學公式開始吧。
其中 D 是一個樣本集合(mini-batch),θ 是所有參數的集合,λ 是學習率,Loss(X, y) 是某個損失函數在 D 中所有樣本上的均值。
同步 SGD 所依賴的核心技巧是將更新規則中的求和在更小的 (mini)batch 子集上進行分割。D 被分割成 R 個子集 D?, D?, . .(推薦每個子集具有相同數量的樣本),所以
將標準的 SGD 更新公式中的求和進行分割,得到:
現在,因為梯度算子在求和算子上是分布式的,所以我們得到:
我們從中得到了什么?
看一下上面方程中單獨的梯度項(方括號里面)。它們現在可以被獨立地計算,然后加起來得到原始的梯度,而且沒有任何損失/近似。這就是數據并行。下面是整個過程:
。
最后一點就是 all-reduce 算法。所以,每次在所有 rank 使用大小為 B 的 mini-batch(d?)計算完梯度以后,都必須執行 all-reduce。需要注意的一點是,將全部 R 個 rank(使用大小為 B 的 mini-batch 計算出)的梯度相加之后會得到一個有效的批大小:
下面是實現的關鍵部分(沒有展示樣板代碼):
model = LeNet() # first synchronization of initial weights sync_initial_weights(model, rank, world_size)optimizer = optim.SGD(model.parameters(), lr=1e-3, momentum=0.85)model.train() for epoch in range(1, epochs + 1):for data, target in train_loader:optimizer.zero_grad()output = model(data)loss = F.nll_loss(output, target)loss.backward()# The all-reduce on gradientssync_gradients(model, rank, world_size)optimizer.step()def sync_initial_weights(model, rank, world_size):for param in model.parameters():if rank == 0:# Rank 0 is sending it's own weight# to all it's siblings (1 to world_size)for sibling in range(1, world_size):dist.send(param.data, dst=sibling)else:# Siblings must recieve the parametersdist.recv(param.data, src=0)def sync_gradients(model, rank, world_size):for param in model.parameters():dist.all_reduce(param.grad.data, op=dist.reduce_op.SUM)現在問題來了:我們如何確保獨立的更新保持同步?
我們看一下更新方程的首次更新:
上面的第 2 點和第 4 點保證每個初始權重和梯度都是同步的。顯然,它們的線性組合也是同步的(λ 是常數)。以后的所有更新都是類似的邏輯,因此也是同步的。
性能對比
所有分布式算法的最大瓶頸就是同步。只有當同步時間顯著小于計算時間的時候,分布式算法才是有益的。讓我們在標準 SGD 和同步 SGD 之間做一個簡單的對比,來看一下什么時候后者是比較好的。
定義:我們假設整個數據集的規模為 N。網絡處理大小為 B 的 mini-batch 需要花費時間 Tcomp。在分布式情況下,all-reduce 同步花費的時間為 Tsync。
對于非分布式(標準)SGD,每個 epoch 花費的時間為:
對于同步 SGD,每個 epoch 花費的時間為:
因此,對于分布式環境,為了與非分布式環境相比有顯著的優勢,我們需要滿足:
我們可以調整影響上述不等式的三個因子,從分布式算法中得到更多的好處。
本文清晰地介紹了深度學習環境中的分布式計算的核心思想。盡管同步 SGD 很流行,但是也有其他被頻繁使用的分布式算法(如異步 SGD 及其變體)。然而,更重要的是能夠以并行的方式來思考深度學習方法。請注意,不是所有的算法都可以開箱即用地并行化,有的需要做一些近似處理,這破壞了原算法給出的理論保證。能否高效處理這些近似,取決于算法的設計者和實現者。
原文地址:https://medium.com/intel-student-ambassadors/distributed-training-of-deep-learning-models-with-pytorch-1123fa538848
總結
以上是生活随笔為你收集整理的分布式入门,怎样用PyTorch实现多GPU分布式训练的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: HA双机热备配置
- 下一篇: 用隐马尔可夫模型(HMM)做命名实体识别