當(dāng)前位置：首頁(yè) > 人文社科 > 生活经验 >内容正文

生活经验

NVIDIA深度架构

發(fā)布時(shí)間：2023/11/28 生活经验 44 豆豆

生活随笔收集整理的這篇文章主要介紹了 NVIDIA深度架构小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

NVIDIA深度架構(gòu)
本文介紹A100 GPU，NVIDIA Ampere架構(gòu)GPU的重要新功能。
現(xiàn)代云數(shù)據(jù)中心中運(yùn)行的計(jì)算密集型應(yīng)用程序的多樣性推動(dòng)了NVIDIA GPU加速的云計(jì)算的爆炸式增長(zhǎng)。此類密集型應(yīng)用程序包括AI深度學(xué)習(xí)（DL）訓(xùn)練和推理，數(shù)據(jù)分析，科學(xué)計(jì)算，基因組學(xué)，邊緣視頻分析和5G服務(wù)，圖形渲染，云游戲等。從擴(kuò)展的AI訓(xùn)練和科學(xué)計(jì)算，到擴(kuò)展的推理應(yīng)用程序，再到支持實(shí)時(shí)對(duì)話式AI，NVIDIA GPU提供了必要的功能，加速當(dāng)今云數(shù)據(jù)中心中運(yùn)行的眾多復(fù)雜且不可預(yù)測(cè)的工作負(fù)載。
NVIDIA GPU是推動(dòng)AI革命的領(lǐng)先計(jì)算引擎，為AI訓(xùn)練和推理算力提供了極大的提速。此外，NVIDIA GPU加速了許多類型的HPC和數(shù)據(jù)分析應(yīng)用程序和系統(tǒng)，能夠有效地分析，可視化數(shù)據(jù)并將其轉(zhuǎn)化為戰(zhàn)略分析。NVIDIA加速計(jì)算平臺(tái)對(duì)于許多世界上最重要，增長(zhǎng)最快的行業(yè)至關(guān)重要。
推出NVIDIA A100 Tensor Core GPU
NVIDIA A100 Tensor Core GPU基于新的NVIDIA Ampere GPU架構(gòu)，基于先前的NVIDIA Tesla V100 GPU的功能構(gòu)建。增加了許多新功能，顯著提高了HPC，AI和數(shù)據(jù)分析工作負(fù)載的性能。
A100為在單GPU工作站和多GPU工作站，服務(wù)器，集群，云數(shù)據(jù)中心，邊緣系統(tǒng)和超級(jí)計(jì)算機(jī)中運(yùn)行的GPU計(jì)算和DL應(yīng)用程序提供了強(qiáng)大的擴(kuò)展能力。A100 GPU支持構(gòu)建彈性，多功能和高吞吐量的數(shù)據(jù)中心。
A100 GPU包括革命性的新型多實(shí)例GPU（MIG）虛擬化和GPU分區(qū)功能，特別有利于云服務(wù)提供商（CSP）。當(dāng)配置為MIG操作時(shí)，A100允許CSP提高其GPU服務(wù)器的利用率，無(wú)需額外成本，即可提供多達(dá)7倍的GPU實(shí)例。強(qiáng)大的故障隔離功能使他們可以安全，安全地對(duì)單個(gè)A100 GPU進(jìn)行分區(qū)。
A100添加了功能強(qiáng)大的新型第三代Tensor Core，可在V100之上提高吞吐量，增加了對(duì)DL和HPC數(shù)據(jù)類型的全面支持，以及新的Sparsity功能，將吞吐量進(jìn)一步提高一倍。
A100中的新TensorFloat-32（TF32）Tensor Core操作提供了一條簡(jiǎn)單的路徑，加速DL框架和HPC中的FP32輸入/輸出數(shù)據(jù)，運(yùn)行速度比V100 FP32 FMA操作快10倍，具有稀疏性則快20倍。對(duì)于FP16 / FP32混合精度DL，A100 Tensor Core的性能是V100的2.5倍，而稀疏性則提高到5倍。
新的Bfloat16（BF16）/ FP32混合精度Tensor Core操作以與FP16 / FP32混合精度相同的速率運(yùn)行。Tensor Core加速了INT8，INT4和二進(jìn)制，全面支持DL推理，其中A100稀疏INT8的運(yùn)行速度比V100 INT8快20倍。對(duì)于HPC，A100 Tensor Core包括新的符合IEEE標(biāo)準(zhǔn)的FP64處理，處理能力是V100的FP64的2.5倍。
NVIDIA A100 GPU的架構(gòu)不僅可以加速大型復(fù)雜工作負(fù)載，可以有效地加速許多較小的工作負(fù)載。A100使建筑數(shù)據(jù)中心能夠適應(yīng)無(wú)法預(yù)測(cè)的工作負(fù)載需求，提供細(xì)粒度的工作負(fù)載供應(yīng)，更高的GPU利用率和改進(jìn)的TCO。
NVIDIA A100 GPU提供了超過(guò)V100的超速提速，用于AI訓(xùn)練和推理工作負(fù)載。
主要特征
基于NVIDIA Ampere架構(gòu)的GA100 GPU在臺(tái)積電7nm N7制造工藝上制造，為A100提供動(dòng)力，包括542億個(gè)晶體管，管芯尺寸為826 mm2。
A100 GPU流式多處理器
基于NVIDIA Ampere架構(gòu)的A100 Tensor Core GPU中的新流式多處理器（SM）大大提高了性能，基于Volta和Turing SM架構(gòu)中引入的功能，增加了許多新功能。
A100第三代Tensor內(nèi)核增強(qiáng)了操作數(shù)共享，提高了效率，添加了功能強(qiáng)大的新數(shù)據(jù)類型，其中包括：
? TF32 Tensor Core指令可加速FP32數(shù)據(jù)的處理
? 適用于HPC的IEEE兼容FP64 Tensor Core指令
? BF16 Tensor Core指令的吞吐量與FP16相同
峰值FP64 9.7 TFLOPS
峰值FP64 Tensor Core 19.5 TFLOPS
峰值FP32 19.5 TFLOPS
峰值FP16 78 TFLOPS
高峰BF16 39 TFLOPS
峰值TF32 Tensor Core 156 TFLOPS | 312 TFLOPS
峰值FP16 Tensor Core 312 TFLOPS | 624 TFLOPS
峰值BF16張量核心 312 TFLOPS | 624 TFLOPS
峰值INT8張量核心 624 TOPS | 1,248 TOPS
峰值INT4張量核心 1,248 TOPS | 2,496 TOPS
表1. A100 Tensor Core GPU性能規(guī)格。
1）峰值速率基于GPU增強(qiáng)時(shí)鐘。
2）使用新的稀疏性功，能實(shí)現(xiàn)有效的TFLOPS / TOPS。

A100 Tensor Core中的新稀疏支持，可以利用DL網(wǎng)絡(luò)中的細(xì)粒度結(jié)構(gòu)稀疏性來(lái)使Tensor Core操作的吞吐量增加一倍。
與V100相比，A100中更大，更快的L1高速緩存和共享內(nèi)存單元提供了每SM聚合容量的1.5倍（192 KB對(duì)比每個(gè)SM 128 KB），從而為許多HPC和AI工作負(fù)載提供了額外的加速。
幾個(gè)新的SM功能提高了效率和可編程性，降低了軟件復(fù)雜性。
40 GB HBM2和40 MB L2緩存
為了滿足其巨大的計(jì)算吞吐量，NVIDIA A100 GPU擁有40 GB的高速HBM2內(nèi)存，具有一流的1555 GB /秒的內(nèi)存帶寬，與Tesla V100相比增加了73％。此外，A100 GPU擁有更多的片上內(nèi)存，其中包括40 MB的2級(jí)（L2）緩存-比V100大7倍-以最大化計(jì)算性能。借助新的分區(qū)交叉開(kāi)關(guān)結(jié)構(gòu)，A100 L2緩存提供了V100的L2緩存讀取帶寬的2.3倍。
為了優(yōu)化容量利用率，NVIDIA Ampere體系結(jié)構(gòu)提供了L2緩存駐留控件，管理要保留或從緩存中逐出的數(shù)據(jù)。A100還增加了計(jì)算數(shù)據(jù)壓縮功能，使DRAM帶寬和L2帶寬最多增加4倍，L2容量最多增加2倍。
多實(shí)例GPU
全新的多實(shí)例GPU（MIG）功能，使A100 Tensor Core GPU可以安全地劃分為多達(dá)七個(gè)用于CUDA應(yīng)用程序的獨(dú)立GPU實(shí)例，從而為多個(gè)用戶提供獨(dú)立的GPU資源以加速其應(yīng)用程序。
使用MIG，每個(gè)實(shí)例的處理器都具有貫穿整個(gè)內(nèi)存系統(tǒng)的單獨(dú)且隔離的路徑。片上交叉開(kāi)關(guān)端口，L2緩存庫(kù)，存儲(chǔ)器控制器和DRAM地址總線，唯一地分配給單個(gè)實(shí)例。確保單個(gè)用戶的工作負(fù)載，預(yù)測(cè)吞吐量和延遲運(yùn)行，具有相同的二級(jí)緩存分配和DRAM帶寬，即使其它任務(wù)正在破壞自己的緩存，或使DRAM接口飽和也一樣。
MIG在提供定義的QoS和在不同客戶端（例如VM，容器和進(jìn)程）之間提供隔離的同時(shí)，提高了GPU硬件利用率。MIG對(duì)于具有多租戶用例的CSP尤其有利。除了提供增強(qiáng)的安全性，為客戶提供GPU利用率保證之外，確保一個(gè)客戶端不會(huì)影響其他客戶端的工作或日程安排。
第三代NVIDIA NVLink
在A100 GPU中實(shí)現(xiàn)的第三代NVIDIA高速NVLink互連和新的NVIDIA NVSwitch大大增強(qiáng)了多GPU的可擴(kuò)展性，性能和可靠性。通過(guò)每個(gè)GPU和交換機(jī)的更多鏈接，新的NVLink提供了更高的GPU-GPU通信帶寬，改善了錯(cuò)誤檢測(cè)和恢復(fù)功能。
第三代NVLink每對(duì)信號(hào)的數(shù)據(jù)速率為50 Gbit / sec，幾乎是V100中25.78 Gbit / sec速率的兩倍。單個(gè)A100 NVLink與V100相似，在每個(gè)方向上可提供25 GB /秒的帶寬，與V100相比，每個(gè)鏈接僅使用一半的信號(hào)對(duì)數(shù)量。A100中的鏈接總數(shù)從V100中的6條增加到12條，總帶寬為600 GB /秒，而V100為300 GB /秒。
支持NVIDIA Magnum IO和Mellanox互連解決方案
A100 Tensor Core GPU與NVIDIA Magnum IO和Mellanox最新的InfiniBand和以太網(wǎng)互連解決方案完全兼容，加速多節(jié)點(diǎn)連接。
Magnum IO API集成了計(jì)算，網(wǎng)絡(luò)，文件系統(tǒng)和存儲(chǔ)，可為多GPU，多節(jié)點(diǎn)加速系統(tǒng)最大化I / O性能。與CUDA-X庫(kù)接口，加速?gòu)腁I和數(shù)據(jù)分析到可視化的各種工作負(fù)載的I / O。
具有SR-IOV的PCIe Gen 4
A100 GPU支持PCI Express Gen 4（PCIe Gen 4），通過(guò)提供31.5 GB /秒的速度（相對(duì)于x16連接的15.75 GB /秒），使PCIe 3.0 / 3.1的帶寬增加了一倍。更快的速度對(duì)于連接到支持PCIe 4.0的CPU的A100 GPU以及支持快速網(wǎng)絡(luò)接口（例如200 Gbit / sec InfiniBand）特別有利。
A100還支持單根輸入/輸出虛擬化（SR-IOV），從而可以為多個(gè)進(jìn)程或VM共享和虛擬化單個(gè)PCIe連接。
改進(jìn)的錯(cuò)誤和故障檢測(cè)，隔離和控制
通過(guò)檢測(cè)，包含并經(jīng)常糾正錯(cuò)誤和故障，而不是強(qiáng)制GPU重置，最大化GPU的正常運(yùn)行時(shí)間和可用性至關(guān)重要。在大型多GPU群集和單GPU多租戶環(huán)境（例如MIG配置）中尤其如此。A100 Tensor Core GPU包括改進(jìn)錯(cuò)誤/故障歸因，隔離和控制的新技術(shù)。
異步復(fù)制
A100 GPU包含一個(gè)新的異步復(fù)制指令，可將數(shù)據(jù)直接從全局內(nèi)存加載到SM共享內(nèi)存中，而無(wú)需使用中間寄存器文件（RF）。異步復(fù)制減少了寄存器文件的帶寬，更有效地使用了內(nèi)存帶寬，降低了功耗。顧名思義，異步復(fù)制可以在SM執(zhí)行其它計(jì)算時(shí)在后臺(tái)完成。
異步屏障
A100 GPU在共享內(nèi)存中提供了硬件加速的障礙。這些屏障可使用CUDA 11以符合ISO C ++的屏障對(duì)象的形式使用。異步屏障將屏障到達(dá)和等待操作分開(kāi)，可用于通過(guò)SM中的計(jì)算，將異步副本從全局內(nèi)存重疊到共享內(nèi)存中。可用于使用CUDA線程來(lái)實(shí)現(xiàn)生產(chǎn)者－消費(fèi)者模型。屏障還提供了以不同的粒度（不僅僅是扭曲或塊級(jí)別）同步CUDA線程的機(jī)制。
任務(wù)圖加速
CUDA任務(wù)圖為將工作提交到GPU提供了更有效的模型。任務(wù)圖由依賴關(guān)系連接的一系列操作（例如內(nèi)存副本和內(nèi)核啟動(dòng)）組成。任務(wù)圖啟用了一次定義和重復(fù)運(yùn)行的執(zhí)行流程。預(yù)定義的任務(wù)圖允許在一次操作中啟動(dòng)任意數(shù)量的內(nèi)核，從而大大提高了應(yīng)用程序的效率和性能。A100添加了新的硬件功能，以使任務(wù)圖中的網(wǎng)格之間的路徑顯著加快。
A100 GPU硬件架構(gòu)
NVIDIA GA100 GPU由多個(gè)GPU處理群集（GPC），紋理處理群集（TPC），流式多處理器（SM）和HBM2內(nèi)存控制器組成。
GA100 GPU的完整實(shí)現(xiàn)包括以下單元：
? 每個(gè)完整GPU 8個(gè)GPC，8個(gè)TPC / GPC，2個(gè)SM / TPC，16個(gè)SM / GPC，128個(gè)SM
? 每個(gè)完整GPU 64個(gè)FP32 CUDA內(nèi)核/ SM，8192個(gè)FP32 CUDA內(nèi)核
? 每個(gè)完整GPU 4個(gè)第三代Tensor核心/ SM，512個(gè)第三代Tensor核心
? 6個(gè)HBM2堆棧，12個(gè)512位內(nèi)存控制器
GA100 GPU的A100 Tensor Core GPU實(shí)現(xiàn)包括以下單元：
? 7個(gè)GPC，7個(gè)或8個(gè)TPC / GPC，2個(gè)SM / TPC，最多16個(gè)SM / GPC，108個(gè)SM
? 每個(gè)GPU 64個(gè)FP32 CUDA內(nèi)核/ SM，6912個(gè)FP32 CUDA內(nèi)核
? 每個(gè)GPU 4個(gè)第三代Tensor內(nèi)核/ SM，432個(gè)第三代Tensor內(nèi)核
? 5個(gè)HBM2堆棧，10個(gè)512位內(nèi)存控制器
具有128個(gè)SM的完整GA100 GPU。A100基于GA100，具有108個(gè)SM。
A100 SM架構(gòu)
新的A100 SM大大提高了性能，建立在Volta和Turing SM體系結(jié)構(gòu)中引入的功能的基礎(chǔ)上，增加了許多新功能和增強(qiáng)功能。
A100 SM圖如圖5所示。Volta和Turing每個(gè)SM具有八個(gè)Tensor核心，每個(gè)Tensor核心每個(gè)時(shí)鐘執(zhí)行64個(gè)FP16 / FP32混合精度融合乘加（FMA）操作。A100 SM包括新的第三代Tensor內(nèi)核，每個(gè)內(nèi)核每個(gè)時(shí)鐘執(zhí)行256個(gè)FP16 / FP32 FMA操作。A100每個(gè)SM有四個(gè)Tensor內(nèi)核，每個(gè)時(shí)鐘總共可提供1024個(gè)密集的FP16 / FP32 FMA操作，與Volta和Turing相比，每個(gè)SM的計(jì)算能力提高了2倍。
SM的主要功能在此處簡(jiǎn)要描述：
? 第三代Tensor核心：
o 加速所有數(shù)據(jù)類型，包括FP16，BF16，TF32，FP64，INT8，INT4和二進(jìn)制。
o 新的Tensor Core稀疏功能利用深度學(xué)習(xí)網(wǎng)絡(luò)中的細(xì)粒度結(jié)構(gòu)稀疏性，使標(biāo)準(zhǔn)Tensor Core操作的性能提高了一倍。
o A100中的TF32 Tensor Core操作提供了一條簡(jiǎn)單的路徑來(lái)加速DL框架和HPC中的FP32輸入/輸出數(shù)據(jù)，運(yùn)行速度比V100 FP32 FMA操作快10倍，而具有稀疏性時(shí)則快20倍。
o FP16 / FP32混合精度Tensor Core操作為DL提供了空前的處理能力，運(yùn)行速度比V100 Tensor Core操作快2.5倍，稀疏性提高到5倍。
o BF16 / FP32混合精度Tensor Core操作以與FP16 / FP32混合精度相同的速率運(yùn)行。
o FP64 Tensor Core操作為HPC提供了前所未有的雙精度處理能力，運(yùn)行速度是V100 FP64 DFMA操作的2.5倍。
o 具有稀疏性的INT8 Tensor Core操作為DL推理提供了空前的處理能力，運(yùn)行速度比V100 INT8操作快20倍。
? 192 KB的共享共享內(nèi)存和L1數(shù)據(jù)高速緩存，比V100 SM大1.5倍。
? 新的異步復(fù)制指令將數(shù)據(jù)直接從全局內(nèi)存加載到共享內(nèi)存中，可以選擇繞過(guò)L1緩存，不需要使用中間寄存器文件（RF）。
? 與新的異步復(fù)制指令一起使用的新的基于共享內(nèi)存的屏障單元（異步屏障）。
? L2緩存管理和駐留控制的新說(shuō)明。
? CUDA合作小組支持新的線程級(jí)減少指令。
? 許多可編程性方面的改進(jìn)，以減少軟件的復(fù)雜性。
圖6比較了V100和A100 FP16 Tensor Core操作，還比較了V100 FP32，FP64和INT8標(biāo)準(zhǔn)操作與相應(yīng)的A100 TF32，FP64和INT8 Tensor Core操作。吞吐量是每個(gè)GPU的總和，其中A100使用針對(duì)FP16，TF32和INT8的稀疏Tensor Core操作。左上方的圖顯示了兩個(gè)V100 FP16 Tensor核心，因?yàn)橐粋€(gè)V100 SM每個(gè)SM分區(qū)有兩個(gè)Tensor核心，而A100 SM一個(gè)。

圖6.針對(duì)不同數(shù)據(jù)類型的A100 Tensor Core操作與V100 Tensor Core和標(biāo)準(zhǔn)操作的比較。

圖7. TensorFloat-32（TF32）為FP32的范圍提供了FP16的精度（左）。A100使用TF32加速?gòu)埩繑?shù)學(xué)運(yùn)算，同時(shí)支持FP32輸入和輸出數(shù)據(jù)（右），從而可以輕松集成到DL和HPC程序中并自動(dòng)加速DL框架。
用于AI訓(xùn)練的默認(rèn)數(shù)學(xué)是FP32，沒(méi)有張量核心加速。NVIDIA Ampere架構(gòu)引入了對(duì)TF32的新支持，使AI訓(xùn)練默認(rèn)情況下可以使用張量?jī)?nèi)核，無(wú)需用戶方面的努力。非張量運(yùn)算繼續(xù)使用FP32數(shù)據(jù)路徑，TF32張量?jī)?nèi)核讀取FP32數(shù)據(jù)并使用與FP32相同的范圍，內(nèi)部精度降低，再生成標(biāo)準(zhǔn)IEEE FP32輸出。TF32包含一個(gè)8位指數(shù)（與FP32相同），10位尾數(shù)（與FP16相同的精度）和1個(gè)符號(hào)位。
與Volta一樣，自動(dòng)混合精度（AMP）可以將FP16與混合精度一起用于AI訓(xùn)練，只需幾行代碼更改即可。使用AMP，A100的Tensor Core性能比TF32快2倍。
總而言之，用于DL訓(xùn)練的NVIDIA Ampere架構(gòu)數(shù)學(xué)的用戶選擇如下：
? 默認(rèn)情況下，使用TF32 Tensor Core，不調(diào)整用戶腳本。與A100上的FP32相比，吞吐量高達(dá)8倍，而與V100上的FP32相比，吞吐量高達(dá)10倍。
? FP16或BF16混合精度訓(xùn)練應(yīng)用于最大訓(xùn)練速度。與TF32相比，吞吐量高達(dá)2倍，與A100上的FP32相比，吞吐量高達(dá)16倍，與V100上的FP32相比，吞吐量高達(dá)20倍。
A100 Tensor核心可加速HPC
HPC應(yīng)用程序的性能需求正在迅速增長(zhǎng)。眾多科學(xué)研究領(lǐng)域的許多應(yīng)用程序都依賴于雙精度（FP64）計(jì)算。
為了滿足HPC計(jì)算的快速增長(zhǎng)的計(jì)算需求，A100 GPU支持Tensor操作，加速符合IEEE的FP64計(jì)算，提供的FP64性能是NVIDIA Tesla V100 GPU的2.5倍。
A100上新的雙精度矩陣乘法加法指令，替換了V100上的八條DFMA指令，減少了指令提取，調(diào)度開(kāi)銷，寄存器讀取，數(shù)據(jù)路徑功率和共享存儲(chǔ)器讀取帶寬。
A100中的每個(gè)SM總共計(jì)算64個(gè)FP64 FMA操作/時(shí)鐘（或128個(gè)FP64操作/時(shí)鐘），這是Tesla V100吞吐量的兩倍。具有108個(gè)SM的A100 Tensor Core GPU的FP64峰值吞吐量為19.5 TFLOPS，是Tesla V100的2.5倍。
借助對(duì)這些新格式的支持，A100 Tensor Core可用于加速HPC工作負(fù)載，迭代求解器和各種新的AI算法。
V100 A100 A100稀疏度1 A100加速 A100稀疏加速
A100 FP16和 V100 FP16 31.4 TFLOPS 78 TFLOPS 不適用 2.5倍不適用
A100 FP16 TC和 V100 FP16 TC 125 TFLOPS 312 TFLOPS 624 TFLOPS 2.5倍 5倍
A100 BF16 TC和V100 FP16 TC 125 TFLOPS 312 TFLOPS 624 TFLOPS 2.5倍 5倍
A100 FP32和 V100 FP32 15.7 TFLOPS 19.5 TFLOPS 不適用 1.25倍不適用
A100 TF32 TC和 V100 FP32 15.7 TFLOPS 156 TFLOPS 312 TFLOPS 10倍 20倍
A100 FP64和 V100 FP64 7.8 TFLOPS 9.7 TFLOPS 不適用 1.25倍不適用
A100 FP64 TC和 V100 FP64 7.8 TFLOPS 19.5 TFLOPS 不適用 2.5倍不適用
A100 INT8 TC與 V100 INT8 62 TOPS 624 TOPS 1248 TOPS 10倍 20倍
A100 INT4 TC 不適用 1248 TOPS 2496 TOPS 不適用不適用
A100二進(jìn)制TC 不適用 4992 TOPS 不適用不適用不適用
表2. A100在V100上的提速（TC = Tensor Core，GPU以各自的時(shí)鐘速度）。
1）使用新的稀疏功能實(shí)現(xiàn)有效的TOPS / TFLOPS

A100引入了細(xì)粒度的結(jié)構(gòu)化稀疏性
借助A100 GPU，NVIDIA引入了細(xì)粒度的結(jié)構(gòu)稀疏性，這是一種新穎的方法，可將深度神經(jīng)網(wǎng)絡(luò)的計(jì)算吞吐量提高一倍。
深度學(xué)習(xí)中可能會(huì)出現(xiàn)稀疏性，各個(gè)權(quán)重的重要性會(huì)在學(xué)習(xí)過(guò)程中演變，網(wǎng)絡(luò)訓(xùn)練結(jié)束時(shí)，只有權(quán)重的一個(gè)子集在確定學(xué)習(xí)的輸出時(shí)獲得了有意義的目的。不再需要其余的權(quán)重。
細(xì)粒度的結(jié)構(gòu)化稀疏性，對(duì)允許的稀疏性模式施加了約束，使硬件更有效地執(zhí)行輸入操作數(shù)的必要對(duì)齊。由于深度學(xué)習(xí)網(wǎng)絡(luò)能夠在訓(xùn)練過(guò)程中根據(jù)訓(xùn)練反饋調(diào)整權(quán)重，NVIDIA工程師通常發(fā)現(xiàn)結(jié)構(gòu)約束不會(huì)影響訓(xùn)練網(wǎng)絡(luò)進(jìn)行推理的準(zhǔn)確性，可以推斷出具有稀疏性的加速。
對(duì)于訓(xùn)練加速，需要在過(guò)程的早期引入稀疏性，提供性能優(yōu)勢(shì)，在不損失準(zhǔn)確性的情況下，進(jìn)行訓(xùn)練加速的方法是一個(gè)活躍的研究領(lǐng)域。
稀疏矩陣定義
通過(guò)新的2：4稀疏矩陣定義強(qiáng)制執(zhí)行結(jié)構(gòu)，在每個(gè)四項(xiàng)向量中允許兩個(gè)非零值。A100在行上支持2：4的結(jié)構(gòu)化稀疏性，如圖9所示。
由于矩陣的定義明確，可以對(duì)其進(jìn)行有效壓縮，將內(nèi)存存儲(chǔ)量和帶寬減少近2倍。

圖9. A100細(xì)粒度的結(jié)構(gòu)化稀疏修剪訓(xùn)練了權(quán)重，其中有2選4的非零模式，然后是用于微調(diào)非零權(quán)重的簡(jiǎn)單通用配方。權(quán)重經(jīng)過(guò)壓縮，可將數(shù)據(jù)占用空間和帶寬減少2倍，而A100稀疏Tensor Core通過(guò)跳過(guò)零，將數(shù)學(xué)吞吐量提高了一倍。
NVIDIA開(kāi)發(fā)了一種簡(jiǎn)單而通用的配方，用于使用這種2：4結(jié)構(gòu)化的稀疏模式，稀疏深度神經(jīng)網(wǎng)絡(luò)以進(jìn)行推理。使用密集權(quán)重對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，應(yīng)用細(xì)粒度的結(jié)構(gòu)化修剪，使用其它訓(xùn)練步驟，對(duì)剩余的非零權(quán)重進(jìn)行微調(diào)。基于跨視覺(jué)，對(duì)象檢測(cè)，分割，自然語(yǔ)言建模和翻譯的數(shù)十個(gè)網(wǎng)絡(luò)的評(píng)估，幾乎不會(huì)導(dǎo)致推理準(zhǔn)確性的損失。
A100 Tensor Core GPU包括新的Sparse Tensor Core指令，跳過(guò)具有零值的條目的計(jì)算，從而使Tensor Core計(jì)算吞吐量翻倍。圖9示出了張量核心是如何使用壓縮元數(shù)據(jù)（非零索引），配合適當(dāng)選擇激活壓縮權(quán)重，輸入到張量核心點(diǎn)積計(jì)算。
結(jié)合了L1數(shù)據(jù)緩存和共享內(nèi)存
NVIDIA在L1數(shù)據(jù)高速緩存和共享內(nèi)存子系統(tǒng)體系結(jié)構(gòu)，首次引入NVIDIA Tesla V100，顯著提高性能的同時(shí)，簡(jiǎn)化了編程并減少了達(dá)到或接近峰值應(yīng)用程序性能所需的調(diào)整。將數(shù)據(jù)緩存和共享內(nèi)存功能組合到單個(gè)內(nèi)存塊中，可為兩種類型的內(nèi)存訪問(wèn)提供最佳的整體性能。
L1數(shù)據(jù)高速緩存和共享內(nèi)存的總?cè)萘?#xff0c;在A100中為192 KB / SM，在V100中為128 KB / SM。
同時(shí)執(zhí)行FP32和INT32操作
與V100和Turing GPU相似，A100 SM包括獨(dú)立的FP32和INT32內(nèi)核，全吞吐量同時(shí)執(zhí)行FP32和INT32操作，提高了指令發(fā)布的吞吐量。
許多應(yīng)用程序具有執(zhí)行指針?biāo)阈g(shù)（整數(shù)存儲(chǔ)器地址計(jì)算）和浮點(diǎn)計(jì)算相結(jié)合的內(nèi)部循環(huán)，得益于同時(shí)執(zhí)行FP32和INT32指令。流水線循環(huán)的每個(gè)迭代，都可以更新地址（INT32指針?biāo)阈g(shù)），并為下一個(gè)迭代加載數(shù)據(jù)，在FP32中處理當(dāng)前迭代。
A100 HBM2 DRAM子系統(tǒng)
隨著HPC，AI和分析數(shù)據(jù)集的不斷增長(zhǎng)，尋找解決方案的問(wèn)題變得越來(lái)越復(fù)雜，必須具有更大的GPU內(nèi)存容量和更高的內(nèi)存帶寬。
Tesla P100是世界上第一個(gè)支持高帶寬HBM2內(nèi)存技術(shù)的GPU架構(gòu)， Tesla V100提供了更快，更高效和更高容量的HBM2實(shí)現(xiàn)。A100再次提高了HBM2的性能和容量標(biāo)準(zhǔn)。
HBM2內(nèi)存由與GPU處于同一物理封裝上的內(nèi)存堆棧組成，與傳統(tǒng)的GDDR5 / 6內(nèi)存設(shè)計(jì)相比，可節(jié)省大量功率和面積，從而可在系統(tǒng)中安裝更多GPU。
A100 GPU的SXM4型電路板上包括40 GB的快速HBM2 DRAM內(nèi)存。存儲(chǔ)器被組織為五個(gè)活動(dòng)HBM2堆棧，每個(gè)堆棧具有八個(gè)內(nèi)存管芯。A100 HBM2的數(shù)據(jù)速率為1215 MHz（DDR），提供1555 GB /秒的內(nèi)存帶寬，比V100內(nèi)存帶寬高1.7倍以上。
ECC內(nèi)存彈性
A100 HBM2內(nèi)存子系統(tǒng)，支持單錯(cuò)誤糾正雙錯(cuò)誤檢測(cè)（SECDED）錯(cuò)誤糾正代碼（ECC），保護(hù)數(shù)據(jù)。ECC為對(duì)數(shù)據(jù)損壞敏感的計(jì)算應(yīng)用程序，提供了更高的可靠性。在GPU處理大型數(shù)據(jù)集，或長(zhǎng)時(shí)間運(yùn)行應(yīng)用程序的大規(guī)模集群計(jì)算環(huán)境中，這一點(diǎn)尤其重要。A100中的其它關(guān)鍵存儲(chǔ)器結(jié)構(gòu)也受到SECDED ECC的保護(hù)，包括L2緩存和L1緩存以及所有SM內(nèi)的寄存器文件。
A100 L2快取
A100 GPU包含40 MB的L2緩存，比V100 L2緩存大6.7倍.L2緩存分為兩個(gè)分區(qū)，實(shí)現(xiàn)更高的帶寬和更低的延遲內(nèi)存訪問(wèn)。每個(gè)L2分區(qū)都將本地化和緩存數(shù)據(jù)，供直接連接到該分區(qū)的GPC中的SM進(jìn)行內(nèi)存訪問(wèn)。這種結(jié)構(gòu)使A100的L2帶寬增加了V100的2.3倍。硬件緩存一致性在整個(gè)GPU上維護(hù)CUDA編程模型，應(yīng)用程序會(huì)自動(dòng)利用新L2緩存的帶寬和延遲優(yōu)勢(shì)。
L2緩存是GPC和SM的共享資源，位于GPC之外。A100 L2緩存大小的大幅增加顯著改善了許多HPC和AI工作負(fù)載的性能，可以緩存數(shù)據(jù)集和模型的大部分并以比讀取和寫(xiě)入HBM2內(nèi)存更高的速度，重復(fù)訪問(wèn)這些數(shù)據(jù)集和模型。受DRAM帶寬限制的某些工作負(fù)載，受益于更大的L2緩存，例如使用小批量的深度神經(jīng)網(wǎng)絡(luò)。
為了優(yōu)化容量利用率，NVIDIA Ampere體系結(jié)構(gòu)提供了L2緩存駐留控件，管理要保留或從緩存中逐出的數(shù)據(jù)。可以預(yù)留一部分L2緩存用于持久性數(shù)據(jù)訪問(wèn)。
例如，對(duì)于DL推理工作負(fù)載，乒乓緩沖區(qū)可以持久地緩存在L2中，實(shí)現(xiàn)更快的數(shù)據(jù)訪問(wèn)，同時(shí)還避免了回寫(xiě)到DRAM。對(duì)于生產(chǎn)者-消費(fèi)者鏈，例如在DL訓(xùn)練中發(fā)現(xiàn)的鏈，L2緩存控件可以優(yōu)化跨寫(xiě)到讀數(shù)據(jù)依賴項(xiàng)的緩存。在LSTM網(wǎng)絡(luò)中，循環(huán)權(quán)重可以優(yōu)先在L2中緩存和重用。
NVIDIA Ampere體系結(jié)構(gòu)增加了計(jì)算數(shù)據(jù)壓縮功能，加速非結(jié)構(gòu)化稀疏性和其他可壓縮數(shù)據(jù)模式。L2中的壓縮功能使DRAM讀/寫(xiě)帶寬提高了4倍，L2讀帶寬提高了4倍，L2容量提高了2倍。
數(shù)據(jù)中心GPU NVIDIA Tesla P100 NVIDIA Tesla V100 NVIDIA A100
GPU代號(hào) GP100 GV100 GA100
GPU架構(gòu) NVIDIA Pascal NVIDIA Volta NVIDIA安培
GPU板尺寸 SXM SXM2 SXM4
短信 56 80 108
TPC 28歲 40 54
FP32核心/ SM 64 64 64
FP32核心/ GPU 3584 5120 6912
FP64核心/ SM 32 32 32
FP64核心/ GPU 1792 2560 3456
INT32內(nèi)核/ SM 不適用 64 64
INT32核心/ GPU 不適用 5120 6912
張量芯/ SM 不適用 8 4 2
張量核心/ GPU 不適用 640 432
GPU加速時(shí)鐘 1480兆赫 1530兆赫 1410兆赫
FP16的峰值FP16張量TFLOPS累計(jì)1 不適用 125 312/624 3
帶有FP32的FP16峰值Tensor TFLOPS累加1 不適用 125 312/624 3
帶FP32的BF16張量TFLOPS峰值累加1 不適用不適用 312/624 3
峰值TF32張量TFLOPS 1 不適用不適用 156/312 3
峰值FP64 Tensor TFLOPS 1 不適用不適用 19.5
峰值INT8張量TOPS 1 不適用不適用 624/1248 3
峰值INT4張量TOPS 1 不適用不適用 1248/2496 3
峰值FP16 TFLOPS 1 21.2 31.4 78
峰值BF16 TFLOPS 1 不適用不適用 39
峰值FP32 TFLOPS 1 10.6 15.7 19.5
峰值FP64 TFLOPS 1 5.3 7.8 9.7
峰值INT32 TOPS 1,4 不適用 15.7 19.5
紋理單位 224 320 432
記憶體介面 4096位HBM2 4096位HBM2 5120位HBM2
記憶體大小 16 GB 32 GB / 16 GB 40 GB
內(nèi)存數(shù)據(jù)速率 703 MHz DDR 877.5 MHz DDR 1215 MHz DDR
記憶體頻寬 720 GB /秒 900 GB /秒 1555 GB /秒
L2快取大小 4096 KB 6144 KB 40960 KB
共享內(nèi)存大小/ SM 64 KB 最多可配置96 KB 最多可配置164 KB
注冊(cè)文件大小/ SM 256 KB 256 KB 256 KB
注冊(cè)文件大小/ GPU 14336 KB 20480 KB 27648 KB
貿(mào)易發(fā)展計(jì)劃 300瓦 300瓦 400瓦
晶體管 153億 211億 542億
GPU晶粒尺寸 610平方毫米 815平方毫米 826平方毫米
臺(tái)積電制造工藝 16納米FinFET + 12 nm FFN 7納米N7
表3. NVIDIA數(shù)據(jù)中心GPU的比較。
1）峰值速率基于GPU增強(qiáng)時(shí)鐘。
2）A100 SM中的四個(gè)Tensor核心具有GV100 SM中八個(gè)Tensor核心的原始FMA計(jì)算能力的2倍。
3）使用新的稀疏性功能有效的TOPS / TFLOPS。
4）TOPS =基于IMAD的整數(shù)數(shù)學(xué)

注意：由于A100 Tensor Core GPU設(shè)計(jì)，安裝在高性能服務(wù)器和數(shù)據(jù)中心機(jī)架中，為AI和HPC計(jì)算工作量提供動(dòng)力，因此，不包括顯示連接器，用于光線追蹤加速的NVIDIA RT Core或NVENC編碼器。
計(jì)算能力
A100 GPU支持新的計(jì)算功能8.0。表4比較了NVIDIA GPU架構(gòu)的不同計(jì)算功能的參數(shù)。
數(shù)據(jù)中心GPU NVIDIA Tesla P100 NVIDIA Tesla V100 NVIDIA A100
GPU代號(hào) GP100 GV100 GA100
GPU架構(gòu) NVIDIA Pascal NVIDIA Volta NVIDIA安培
計(jì)算能力 6.0 7.0 8.0
線/經(jīng)線 32 32 32
最大翹曲度/ SM 64 64 64
最大線程數(shù)/ SM 2048 2048 2048
最大線程塊/ SM 32 32 32
最多32位寄存器/ SM 65536 65536 65536
最大寄存器/塊 65536 65536 65536
最大寄存器/線程 255 255 255
最大螺紋塊尺寸 1024 1024 1024
FP32核心/ SM 64 64 64
SM寄存器與FP32內(nèi)核的比率 1024 1024 1024
共享內(nèi)存大小/ SM 64 KB 最多可配置96 KB 最多可配置164 KB
表4.計(jì)算能力：GP100 vs. GV100 vs. GA100。
MIG架構(gòu)
盡管許多數(shù)據(jù)中心的工作量在規(guī)模和復(fù)雜性上都在繼續(xù)擴(kuò)展，某些加速任務(wù)的要求卻不高，例如早期開(kāi)發(fā)或推斷小批量的簡(jiǎn)單模型。數(shù)據(jù)中心經(jīng)理的目標(biāo)，保持較高的資源利用率，因此，理想的數(shù)據(jù)中心加速器不僅會(huì)變大，有效地加速許多較小的工作負(fù)載。
新的MIG功能可以將每個(gè)A100劃分為多達(dá)七個(gè)GPU實(shí)例，實(shí)現(xiàn)最佳利用率，有效地?cái)U(kuò)展對(duì)每個(gè)用戶和應(yīng)用程序的訪問(wèn)權(quán)限。
圖10顯示了Volta MPS如何允許多個(gè)應(yīng)用程序在單獨(dú)的GPU執(zhí)行資源（SM）上同時(shí)執(zhí)行。但是，由于內(nèi)存系統(tǒng)資源是在所有應(yīng)用程序之間共享的，因此，如果一個(gè)應(yīng)用程序?qū)RAM帶寬有很高的要求，或者超額預(yù)訂了L2高速緩存，應(yīng)用程序可能會(huì)干擾其他應(yīng)用程序。
圖11中所示的A100 GPU新的MIG功能可以將單個(gè)GPU劃分為多個(gè)GPU分區(qū)，稱為GPU實(shí)例。每個(gè)實(shí)例的SM具有貫穿整個(gè)內(nèi)存系統(tǒng)的單獨(dú)且隔離的路徑-片上交叉開(kāi)關(guān)端口，L2緩存庫(kù)，內(nèi)存控制器和DRAM地址總線，唯一地分配給單個(gè)實(shí)例。這樣可以確保單個(gè)用戶的工作負(fù)載，可預(yù)測(cè)的吞吐量和延遲運(yùn)行，具有相同的二級(jí)緩存分配和DRAM帶寬，即使其它任務(wù)正在破壞自己的緩存或使DRAM接口飽和也是如此。
使用此功能，MIG可以對(duì)可用的GPU計(jì)算資源進(jìn)行分區(qū)，為不同的客戶端（例如VM，容器，進(jìn)程等）提供故障隔離，提供定義的服務(wù)質(zhì)量（ QoS）。使多個(gè)GPU實(shí)例可以在單個(gè)物理A100 GPU上并行運(yùn)行。MIG還保持CUDA編程模型不變，最大程度地減少編程工作量。
CSP可以使用MIG提高其GPU服務(wù)器的利用率，無(wú)需額外成本，即可提供多達(dá)7倍的GPU實(shí)例。MIG支持CSP所需的必要QoS和隔離保證，確保一個(gè)客戶端（VM，容器，進(jìn)程）不會(huì)影響另一客戶端的工作或調(diào)度。
CSP通常根據(jù)客戶使用模式，對(duì)硬件進(jìn)行分區(qū)。當(dāng)硬件資源在運(yùn)行時(shí)，提供一致的帶寬，適當(dāng)?shù)母綦x和良好的性能時(shí)，有效分區(qū)才有效。
借助基于NVIDIA Ampere架構(gòu)的GPU，可以在其新的虛擬GPU實(shí)例上查看和調(diào)度作業(yè)，像物理GPU一樣。MIG可與Linux操作系統(tǒng)及其管理程序一起使用。用戶可以使用諸如Docker Engine之類的運(yùn)行時(shí)，運(yùn)行帶有MIG的容器，很快將支持使用Kubernetes進(jìn)行容器編排。

圖10.CSP多用戶節(jié)點(diǎn)（A100之前的版本）。加速的GPU實(shí)例僅在完全物理GPU粒度下，供不同組織中的用戶使用，即使用戶應(yīng)用程序不需要完整的GPU也是如此。

圖11.具有MIG的CSP多用戶圖。來(lái)自同一組織或不同組織的多個(gè)獨(dú)立用戶，在單個(gè)物理GPU中分配專用，受保護(hù)和隔離的GPU實(shí)例。
錯(cuò)誤和故障檢測(cè)，隔離和控制
通過(guò)檢測(cè)，包含并經(jīng)常糾正錯(cuò)誤和故障，不是強(qiáng)制GPU重置來(lái)提高GPU的正常運(yùn)行時(shí)間和可用性至關(guān)重要。在大型，多GPU群集和單GPU，多租戶環(huán)境（例如MIG配置）中尤其重要。
NVIDIA Ampere架構(gòu)A100 GPU包括新技術(shù)，可改善錯(cuò)誤/故障歸因（歸因于導(dǎo)致錯(cuò)誤的應(yīng)用程序），隔離（隔離有故障的應(yīng)用程序，不會(huì)影響在同一GPU或GPU群集中運(yùn)行的其他應(yīng)用程序），限制（確保一個(gè)應(yīng)用程序中的錯(cuò)誤不會(huì)泄漏并影響其他應(yīng)用程序）。這些故障處理技術(shù)對(duì)于MIG環(huán)境尤其重要，確保共享單個(gè)GPU的客戶端之間的適當(dāng)隔離和安全性。
連接NVLink的GPU現(xiàn)在具有更強(qiáng)大的錯(cuò)誤檢測(cè)和恢復(fù)功能。遠(yuǎn)程GPU上的頁(yè)面錯(cuò)誤會(huì)通過(guò)NVLink發(fā)送回源GPU。遠(yuǎn)程訪問(wèn)故障通信是大型GPU計(jì)算群集的一項(xiàng)關(guān)鍵彈性功能，有助于確保一個(gè)進(jìn)程或VM中的故障，不會(huì)導(dǎo)致其它進(jìn)程或VM停機(jī)。
A100 GPU包括其他幾個(gè)新的和改進(jìn)的硬件功能，可以增強(qiáng)應(yīng)用程序性能。
CUDA 11在NVIDIA Ampere架構(gòu)GPU方面的進(jìn)步
在NVIDIA CUDA并行計(jì)算平臺(tái)上構(gòu)建了成千上萬(wàn)個(gè)GPU加速的應(yīng)用程序。CUDA的靈活性和可編程性使其成為研究和部署新的DL和并行計(jì)算算法的首選平臺(tái)。
NVIDIA Ampere架構(gòu)GPU旨在提高GPU的可編程性和性能，降低軟件復(fù)雜性。NVIDIA Ampere架構(gòu)的GPU和CUDA編程模型的改進(jìn)，加快程序執(zhí)行速度，降低許多操作的延遲和開(kāi)銷。
CUDA 11的新功能為第三代Tensor核心，稀疏性，CUDA圖形，多實(shí)例GPU，L2緩存駐留控件以及NVIDIA Ampere架構(gòu)，一些新功能提供了編程和API支持。
結(jié)論
NVIDIA的使命，加速時(shí)代的達(dá)芬奇和愛(ài)因斯坦的工作。科學(xué)家，研究人員和工程師致力于使用高性能計(jì)算（HPC）和AI解決全球最重要的科學(xué)，工業(yè)和大數(shù)據(jù)挑戰(zhàn)。
NVIDIA A100 Tensor Core GPU，在我加速數(shù)據(jù)中心平臺(tái)中實(shí)現(xiàn)了下一個(gè)巨大飛躍，可在任何規(guī)模上提供無(wú)與倫比的加速性能，使這些創(chuàng)新者能夠終其一生。A100支持眾多應(yīng)用領(lǐng)域，包括HPC，基因組學(xué)，5G，渲染，深度學(xué)習(xí)，數(shù)據(jù)分析，數(shù)據(jù)科學(xué)和機(jī)器人技術(shù)。
推進(jìn)當(dāng)今最重要的HPC和AI應(yīng)用程序-個(gè)性化醫(yī)學(xué)，對(duì)話式AI和深度推薦系統(tǒng)-要求研究人員變得更大。A100為NVIDIA數(shù)據(jù)中心平臺(tái)提供動(dòng)力，包括Mellanox HDR InfiniBand，NVSwitch，NVIDIA HGX A100和Magnum IO SDK，進(jìn)行擴(kuò)展。這個(gè)集成的技術(shù)團(tuán)隊(duì)，有效地?cái)U(kuò)展到成千上萬(wàn)個(gè)GPU，以前所未有的速度訓(xùn)練最復(fù)雜的AI網(wǎng)絡(luò)。
A100 GPU的新MIG功能，將每個(gè)A100劃分為多達(dá)七個(gè)GPU加速器，實(shí)現(xiàn)最佳利用率，有效地提高GPU資源利用率，以及GPU對(duì)更多用戶和GPU加速應(yīng)用程序的訪問(wèn)。借助A100的多功能性，基礎(chǔ)架構(gòu)管理人員，可以最大化其數(shù)據(jù)中心中每個(gè)GPU的效用，滿足從最小的工作到最大的多節(jié)點(diǎn)工作負(fù)載的不同規(guī)模的性能需求。

總結(jié)

以上是生活随笔為你收集整理的NVIDIA深度架构的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。