英伟达宣布全面支持ARM高性能计算,三周打造全球排名第22超算
英偉達宣布全面支持ARM高性能計算,三周打造全球排名第22超算
ARM 架構(gòu)服務(wù)器正在逐漸升溫,這也少不了 AI 芯片巨頭英偉達的參與。本周一,英偉達在德國宣布了與 ARM 全面合作的新計劃:兩家公司將合力推動構(gòu)建超級計算機。而加速計算平臺 CUDA 也將支持 ARM 架構(gòu),這一行動為深度學(xué)習(xí)、高性能計算打開了一條全新道路。
英偉達將于今年底前向 ARM 生態(tài)系統(tǒng)提供全堆棧的 AI 和 HPC 軟件,這意味著它將為 ARM 的 600 多個 HPC 應(yīng)用程序和所有 AI 框架提供加速,其中包括了所有 NVIDIA CUDA-X AI 和 HPC 庫、GPU 加速的 AI 框架和軟件開發(fā)工具,如支持 OpenACC 的 PGI 編譯器和性能分析器。
相應(yīng)支持上線之后,英偉達將為市面上所有主要 CPU 架構(gòu)提供加速:覆蓋 x86、POWER 和 ARM。
另一方面,英偉達也為自己在超算領(lǐng)域的實力秀了秀肌肉:宣布僅用三周時間就完成了一臺全球排名達 22 位的超級計算機「DGX SuperPOD」,而且如果有需求,任何客戶都可以復(fù)制這樣的部署速度。
全力支持 ARM 架構(gòu)
眾所周知,ARM 目前是全球智能設(shè)備第一大主流芯片架構(gòu)提供商,全球超過 90% 的智能設(shè)備采用了 ARM 的芯片架構(gòu),包括手機、平板、手表、電視、無人機等等。不過最近 ARM 正計劃將自身架構(gòu)的芯片用于數(shù)據(jù)中心和超級計算機上——而在高性能計算(HPC)領(lǐng)域,英特爾的芯片一直占據(jù)主導(dǎo)地位。
當然,ARM 與英特爾、IBM 也有所不同,前者只提供芯片設(shè)計的許可,用戶可以在這一基礎(chǔ)上自行制造所需的芯片。
「這種開放性……讓 ARM 架構(gòu)變得非常具有吸引力,」英偉達加速部門副總裁 Ian Buck 表示?!肝覀兿?ARM 伸出橄欖枝的原因,是它能夠為超級計算機提供開放的架構(gòu)?!?/p>
在今年 3 月的 GTC 大會上,黃仁勛就曾表示英偉達正在和 ARM 共同開發(fā)人工智能專用芯片。而在 6 月 17 日德國法蘭克福的國際超算大會上,英偉達終于宣布了全面支持 ARM CPU 的計劃。
Ian Buck 表示,使用 ARM 制造超級計算機將會是一個「重要舉措」。目前,來自歐洲和日本的研究人員已開始著手使用 ARM 技術(shù)開發(fā)超級計算機芯片。在英特爾 x86、IBM Power 之后,基于 ARM 架構(gòu)的服務(wù)器正成為目前火熱的方向。
去年 11 月,亞馬遜率先發(fā)布了基于 ARM 架構(gòu)的服務(wù)器芯片,并開始提供相應(yīng)的云服務(wù);2019 年 1 月,華為推出了基于 ARM 架構(gòu)的服務(wù)器芯片鯤鵬 920,以及「TaiShan」服務(wù)器,引發(fā)了人們的廣泛關(guān)注。通過使用 ARM 架構(gòu),各家公司或許可以基于自身業(yè)務(wù)的特性,打造更高效率的計算設(shè)備。
英偉達創(chuàng)始人、首席執(zhí)行官黃仁勛對此表示:「超級計算機是促進科學(xué)發(fā)現(xiàn)的重要工具,建立百萬兆級超級計算將能夠極大地擴展人類知識的邊界。隨著傳統(tǒng)計算規(guī)模擴展步伐的停止,功率也將成為所有超級計算機的限制因素。NVIDIA CUDA 加速的計算和 ARM 的高能效 CPU 架構(gòu)的相結(jié)合,將助力 HPC 社區(qū)實現(xiàn)大幅提升,以達到百萬兆級?!?/p>
「ARM 正在與生態(tài)系統(tǒng)合作,為基于 ARM 的 SoC 帶來前所未有的計算性能提升,」ARM 首席執(zhí)行官 Simon Segars 表示,「HPC 社區(qū)已經(jīng)部署了 ARM 技術(shù),以應(yīng)對全球最復(fù)雜的研究挑戰(zhàn)。通過與英偉達合作,將 CUDA 加速引入 ARM 架構(gòu),這一舉措對于 HPC 社區(qū)來說,可謂是一大重要里程碑?!?/p>
根據(jù) 6 月 17 日發(fā)布的 Green500 排行榜,在全球最節(jié)能的 25 款超級計算機中,有 22 款都由英偉達幫助打造。
英偉達稱,其中的關(guān)鍵因素在于:采用 NVIDIA GPU 的超級計算機能夠?qū)⒎敝氐奶幚碜鳂I(yè)轉(zhuǎn)化為更為節(jié)能的并行處理 CUDA 任務(wù)之上;英偉達與 Mellanox 合作優(yōu)化整體超級計算集群的處理;以及英偉達推出的 SXM 3D 封裝,以及可實現(xiàn)極密集型擴展節(jié)點的 NVIDIA NVLink 互連技術(shù)。
英偉達對基于 ARM 的 HPC 系統(tǒng)的支持建立在雙方超過 10 年的合作基礎(chǔ)之上。此前,英偉達的幾款用于便攜式游戲、自動駕駛汽車、機器人和嵌入式 AI 計算的系統(tǒng)級芯片產(chǎn)品都采用了 ARM 處理器。
超算中心、系統(tǒng)提供商以及系統(tǒng)級芯片制造商等在內(nèi)的眾多 HPC 行業(yè)及 ARM 生態(tài)系統(tǒng)中的全球領(lǐng)先企業(yè),都表達了對于這些合作的支持。
三周打造超級計算機 DGX SuperPOD
英偉達昨天還公布了全球速度排名第 22 位的超級計算機「DGX SuperPOD」,為人工智能和高性能計算提供了一個全新范例。DGX SuperPOD 可以為滿足企業(yè)的自動駕駛汽車部署項目提供所需的算力基礎(chǔ)。
這臺超級計算機系統(tǒng)的搭建,僅用時 3 個星期,其采用了 96 臺 NVIDIA DGX-2H「超級計算機」與 Mellanox 互聯(lián)技術(shù)。其處理能力高達 9.4 petaflops,能夠用于訓(xùn)練安全自動駕駛汽車所需要的海量深度神經(jīng)網(wǎng)絡(luò)。
更吸引人的是,基于 DGX SuperPOD 的設(shè)計,客戶可通過任意 DGX-2 合作伙伴購買整套超級計算機系統(tǒng),或者其中的一部分。
自動駕駛汽車的人工智能訓(xùn)練可以說得上是密集型計算密的終極挑戰(zhàn)。
一臺數(shù)據(jù)收集車輛每小時能生成 1 TB 數(shù)據(jù)。整個車隊經(jīng)過數(shù)年行駛后,其數(shù)據(jù)量將會很快達到幾 PB(千兆兆字節(jié))的量級。這些數(shù)據(jù)會被用來根據(jù)道路規(guī)則對算法進行訓(xùn)練,并且還會被用來找出車輛內(nèi)運行的深度神經(jīng)網(wǎng)絡(luò)的潛在故障,然后在連續(xù)的循環(huán)中再次訓(xùn)練。
NVIDIA 人工智能基礎(chǔ)設(shè)施副總裁 Clement Farabet 表示:「若要保持人工智能領(lǐng)先地位,則需要在計算基礎(chǔ)設(shè)施方面保持領(lǐng)先。很少有像訓(xùn)練自動駕駛汽車這樣對人工智能又如此之高的需求,其需要對神經(jīng)網(wǎng)絡(luò)進行數(shù)萬次的反復(fù)訓(xùn)練,以滿足極高的精度需求。對于如此大規(guī)模處理能力而言,DGX SuperPOD 無可替代?!?/p>
DGX SuperPOD 內(nèi)含 1,536 顆內(nèi)含 Tensor Core 的 Tesla V100 GPU,由 NVIDIA NVSwitch 及 Mellanox 網(wǎng)絡(luò)結(jié)構(gòu)相聯(lián)接,為其提供強力支持,使其能夠以同等大小的超級計算機所無可匹敵的性能處理數(shù)據(jù)。
該套系統(tǒng)能夠不間斷運行,優(yōu)化自動駕駛軟件,并以前所未有的周轉(zhuǎn)時間(turnaround time)反復(fù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)。
例如,DGX SuperPOD 軟硬件平臺能夠在不到 2 分鐘的時間之內(nèi)完成 ResNet-50 訓(xùn)練。在 2015 年,這種深度學(xué)習(xí)模型推出的時候,采用當時最快的單塊 NVIDIA K80 GPU 需要 25 天才能完成訓(xùn)練任務(wù)。而 DGX SuperPOD 生成結(jié)果的速度較之加快了 18,000 倍。
英偉達稱,其他具備同等性能的 TOP500 超級計算機系統(tǒng)都由數(shù)千臺服務(wù)器構(gòu)建而成,而 DGX SuperPOD 占地面積更少,其體積比這些同等系統(tǒng)小 400 倍左右。
英偉達發(fā)布 SuperPOD 并不僅僅是為了構(gòu)建一臺超級計算機,更希望以此為更多潛在客戶提供一個范例:DGX SuperPOD 不僅能夠快速運行深度學(xué)習(xí)模型,得益于其模塊化和企業(yè)級設(shè)計,該系統(tǒng)還能夠以極快的速度完成部署。在同等規(guī)模系統(tǒng)通常需要 6-9 個月完成部署的情況下,DGX SuperPOD 參考已驗證范例僅需 3 個星期即可部署完畢。
通過構(gòu)建像 DGX SuperPOD 這樣的超級計算機,英偉達已經(jīng)掌握了如何設(shè)計面向大規(guī)模人工智能任務(wù)的系統(tǒng)。這足以讓高性能計算跨出學(xué)術(shù)界,為那些想要使用高性能計算加快其各種計劃的交通運輸公司及其他行業(yè)所用。
未來,英偉達還將與 ARM 共同打造適用于 IoT 設(shè)備的 AI 芯片專用 IP,并使這款機器學(xué)習(xí) IP 集成到 Arm 的 Project Trillium 平臺上,以實現(xiàn)端側(cè)機器學(xué)習(xí)。
參考內(nèi)容:
https://blogs.nvidia.com/blog/2019/06/17/dgx-superpod-top500-autonomous-vehicles/
https://www.reuters.com/article/us-nvidia-arm-inc/nvidia-to-work-with-arm-chips-deepening-push-into-supercomputers-idUSKCN1TI0M9
總結(jié)
以上是生活随笔為你收集整理的英伟达宣布全面支持ARM高性能计算,三周打造全球排名第22超算的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 浅谈List保存的数据是引用数据类型的地
- 下一篇: FACEBOOK’S CALIBRA