双精度张量内核加快了高性能计算
雙精度張量內核加快了高性能計算
通過NVIDIA Ampere架構,仿真和迭代求解器可將FP64數學提高多達2.5倍。
模擬可以幫助了解黑洞的奧秘,并了解冠狀病毒上的蛋白質尖峰如何導致COVID-19。還可以讓設計師創建從時尚汽車到噴氣發動機的所有東西。
但是仿真也是地球上最苛刻的計算機應用程序之一,因為需要大量最先進的數學。
通過使用稱為FP64的雙精度浮點格式的計算,仿真使數值模型變得可視化。格式中的每個數字在計算機中占用64位,使其成為當今GPU支持的多種數學格式中計算強度最高的一種。
NVIDIA Ampere架構定義了第三代Tensor內核,這是努力加速高性能計算的又一大舉措,與上一代GPU相比,它們可將FP64數學運算速度提高2.5倍。
這意味著在最新的A100 GPU上運行時,可以在幾個小時內查看使研究人員和設計師整夜等待的模擬。
科學使AI陷入循環
速度的提高打開了將AI與仿真和實驗相結合的大門,創建了一個正反饋回路,從而節省了時間。
首先,模擬會創建訓練AI模型的數據集。然后,AI和仿真模型一起運行,相互取長補短,直到AI模型準備好通過推理提供實時結果。訓練有素的AI模型還可以從實驗或傳感器中獲取數據,從而進一步完善其洞察力。
使用此技術,AI可以定義一些感興趣的區域以進行高分辨率仿真。通過縮小范圍,AI可以將數千個費時的仿真需求減少幾個數量級。并且需要運行的仿真在A100 GPU上的運行速度將提高2.5倍。
視頻播放器
借助FP64和其它新功能,基于NVIDIA Ampere架構的A100 GPU成為了靈活的平臺,可用于仿真以及AI推理和訓練-現代HPC的整個工作流程。該功能將推動開發人員將仿真代碼遷移到A100。
用戶可以調用新的CUDA-X庫來訪問A100中的FP64加速。這些GPU內置了支持DMMA的第三代Tensor內核,DMMA是一種新模式,可加速雙精度矩陣乘法累加運算。
加速矩陣數學
單個DMMA作業使用一條計算機指令來代替八條傳統的FP64指令。結果,A100的FP64數學運算速度比其它芯片更快,工作量更少,不僅節省了時間和功耗,而且還節省了寶貴的內存和I / O帶寬。
將此新功能稱為雙精度張量核心。它為HPC應用程序提供了Tensor Core的功能,以完整的FP64精度加速了矩陣數學運算。
除了模擬之外,稱為迭代求解器的HPC應用程序(具有重復矩陣數學計算的算法)將受益于此新功能。這些應用程序包括地球科學,流體動力學,醫療保健,材料科學和核能以及石油和天然氣勘探領域的廣泛工作。
為了服務于世界上最苛刻的應用程序,雙精度Tensor內核進入了我們制造的最大,功能最強大的GPU中。與地球上的任何GPU相比,A100還擁有更多的內存和帶寬。
NVIDIA Ampere架構中的第三代Tensor Core比以前的版本更強大。它們支持更大的矩陣尺寸-8x8x4,而Volta則為4x4x4,從而使用戶能夠解決更棘手的問題。
這就是為什么總共有432個Tensor Core的A100可以提供高達19.5 FP64 TFLOPS的原因,是Volta V100性能的兩倍以上。
總結
以上是生活随笔為你收集整理的双精度张量内核加快了高性能计算的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: A100 GPU硬件架构
- 下一篇: 英伟达TRTTorch