如何应对多GPU大规模训练的挑战?
幾年前,深度學習還是一個只有少數幾位人工智能和數據科學研究人員涉足的領域。而如今情況早已今非昔比。尤其是在 GPU 技術的推動下,深度學習正在全球掀起一番新的浪潮。自動駕駛汽車、工業目標檢測、AI 醫療影像、自然語言處理等,如今人工智能已經成為了與每個人的生活息息相關的一項項應用。在 GPU 的加持下,訓練神經網絡的時間已經從起初的數月大幅縮短。?
然而隨著模型的復雜程度和規模的不斷增大,單個 GPU 的計算能力已經無法滿足大規模神經網絡的訓練需求。以自動駕駛汽車為例,自動駕駛汽車的人工智能訓練可以說得上是密集型計算的終極挑戰。一臺數據收集車輛每小時能生成 1 TB 數據。整個車隊經過數年行駛后,其數據量將會很快達到幾 PB(千兆兆字節)的量級。?
此外,例如 BERT 這類用于自然語言處理的大型計算密集型模型,其規模也是十分巨大——BERT 學習了包含有 33 億個單詞的英語語料庫。前不久,NVIDIA Research 還推出了 Megatron 項目,該項目旨在打造適用于最先進的 NLP 的 Transformer 模型。將具有 15 億參數 GPT-2 模型擴展為更大規模的 GPT-2 8B 模型——一個具有 83 億參數的 Transformer 語言模型,是有史以來最大規模的 Transformer 語言模型,是 BERT 的 24 倍,GPT-2 的 5.6 倍。?
面對如此大規模的模型,即便是性能最強大的 GPU,憑借單 GPU 的計算能力也無法在短時間內快速完成訓練。這時就需要采用多 GPU 訓練的方式,在多個 GPU 或更大規模的 GPU 集群上訓練大規模模型數據。
例如:NVIDIA 此前發布的全球速度排名第 22 位的超級計算機 - DGX SuperPOD,其內含 1,536 顆 NVIDIA V100 Tensor Core GPU,由 NVIDIA NVSwitch 及 Mellanox 網絡結構相聯接,為其提供強力支持。DGX SuperPOD 軟硬件平臺能夠在不到 2 分鐘的時間之內完成 ResNet-50 訓練。相較于 2015 年,ResNet-50 模型推出的時候,即便采用當時最先進的系統 – 單顆 NVIDIA K80 GPU,也需要 25 天才能完成訓練任務,DGX SuperPOD 生成結果的速度較之加快了 18,000 倍。?
然而,采用多 GPU 訓練,不是簡單的 GPU 數量堆砌,其背后依賴著一系列復雜的算法。為了幫助開發者們更好地應用多個 GPU 訓練神經網絡,NVIDIA 在 GTC CHINA 2019 大會期間推出《深度學習基礎 — 用多 GPU 訓練神經網絡》主題深度學習學院(DLI)培訓。?
NVIDIA 深度學習學院(DLI)是面向開發者、數據科學家和研究人員所設置的,在全球提供深度學習和加速計算的應用實踐培訓。通過在云端完全配置的 GPU 服務器上訓練和部署神經網絡,親自實踐完成應用項目開發,掌握深度學習應用開發的策略、方法、資源和端到端流程。參與者完成每一個 8 小時主題培訓后,還可以獲得 NVIDIA 培訓證書,助力職業發展。
點擊視頻,回顧 GTC CHINA 2018 DLI 深度學習課程培訓盛況:
▲?GTC CHINA 2018 DLI深度學習課程培訓視頻
今年 12 月 16-19 日,在 GTC CHINA 2019 在蘇州金雞湖國際會議中心舉辦期間,NVIDIA 將于 12 月 17 日推出《深度學習基礎 — 用多 GPU 訓練神經網絡》DLI 培訓,旨在幫助開發者們應對大規模訓練的算法和工程挑戰。
學習模式:由 NVIDIA DLI 認證講師教授的現場培訓?
適用行業:所有行業?
實驗資源:提供云端完全配置的 GPU 服務器?
培訓證書:學習完成并通過在線測試,即可獲取證書?
預備知識:具備隨機梯度下降法的知識和經驗?
工具、庫和框架:TensorFlow?
課程時長:? 8 小時?
語言:中文
在驅動自動駕駛汽車等 AI 應用方面,人們對于深度神經網絡存在著巨大的計算需求。使用單個 GPU 進行一個訓練周期可能需耗費數周時間,而對于自動駕駛汽車研究等領域所用的更大數據集,該周期甚至長達數年。使用多個 GPU 進行深度學習能夠顯著縮短訓練大量數據所需的時間,從而為深度學習中的復雜問題提供了可行的解決方案。
本課程將教您如何使用多個 GPU 來訓練神經網絡。您將了解到:?
針對多 GPU 的訓練方法
進行大規模訓練面臨的算法和工程挑
克服上述挑戰所用的關鍵技術?
完成本課程后,您將能夠使用 TensorFlow 十分有效地并行訓練深度神經網絡。?
了解更多 DLI 深度學習培訓課程,請訪問:?
https://www.nvidia.cn/gtc/training/?
點擊“閱讀原文”鏈接,即刻注冊吧!?
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?|?即刻注冊
總結
以上是生活随笔為你收集整理的如何应对多GPU大规模训练的挑战?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 信用卡安全码在哪里
- 下一篇: 追求极致,饮水思源——记旷视与计算机竞赛