當前位置：首頁 >

科普帖：深度学习中GPU和显存分析

發(fā)布時間：2025/5/22 76 豆豆

生活随笔收集整理的這篇文章主要介紹了科普帖：深度学习中GPU和显存分析小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

深度學習最吃機器，耗資源，在本文，我將來科普一下在深度學習中：

何為“資源”
不同操作都耗費什么資源
如何充分的利用有限的資源
如何合理選擇顯卡

并糾正幾個誤區(qū)：

顯存和GPU等價，使用GPU主要看顯存的使用？
Batch Size 越大，程序越快，而且近似成正比？
顯存占用越多，程序越快？
顯存占用大小和batch size大小成正比？

0 預備知識

nvidia-smi是Nvidia顯卡命令行管理套件，基于NVML庫，旨在管理和監(jiān)控Nvidia GPU設備。

nvidia-smi的輸出

這是nvidia-smi命令的輸出，其中最重要的兩個指標：

顯存占用
GPU利用率

顯存占用和GPU利用率是兩個不一樣的東西，顯卡是由GPU計算單元和顯存等組成的，顯存和GPU的關系有點類似于內(nèi)存和CPU的關系。

這里推薦一個好用的小工具：gpustat,直接pip install gpustat即可安裝，gpustat基于nvidia-smi，可以提供更美觀簡潔的展示，結合watch命令，可以動態(tài)實時監(jiān)控GPU的使用情況。

watch --color -n1 gpustat -cpu gpustat 輸出

顯存可以看成是空間，類似于內(nèi)存。

顯存用于存放模型，數(shù)據(jù)
顯存越大，所能運行的網(wǎng)絡也就越大

GPU計算單元類似于CPU中的核，用來進行數(shù)值計算。衡量計算量的單位是flop：?the number of floating-point multiplication-adds，浮點數(shù)先乘后加算一個flop。計算能力越強大，速度越快。衡量計算能力的單位是flops：每秒能執(zhí)行的flop數(shù)量

1*2+3 1 flop 1*2 + 3*4 + 4*5 3 flop

1. 顯存分析

1.1 存儲指標

1Byte = 8 bit 1K = 1024 Byte 1M = 1024 K 1G = 1024 M 1T = 1024 G10 K = 10*1024 Byte

除了K、M，G，T等之外，我們常用的還有KB?、MB，GB，TB?。二者有細微的差別。

1Byte = 8 bit 1KB = 1000 Byte 1MB = 1000 KB 1GB = 1000 MB 1TB = 1000 GB10 KB = 10000 Byte

K、M，G，T是以1024為底，而KB?、MB，GB，TB以1000為底。不過一般來說，在估算顯存大小的時候，我們不需要嚴格的區(qū)分這二者。

在深度學習中會用到各種各樣的數(shù)值類型，數(shù)值類型命名規(guī)范一般為TypeNum，比如Int64、Float32、Double64。

Type：有Int，Float，Double等
Num: 一般是 8，16，32，64，128，表示該類型所占據(jù)的比特數(shù)目

常用的數(shù)值類型如下圖所示：

常用的數(shù)值類型

其中Float32 是在深度學習中最常用的數(shù)值類型，稱為單精度浮點數(shù)，每一個單精度浮點數(shù)占用4Byte的顯存。

舉例來說：有一個1000x1000的矩陣，float32，那么占用的顯存差不多就是

1000x1000x4 Byte = 4MB

32x3x256x256的四維數(shù)組（BxCxHxW）占用顯存為：24M

1.2 神經(jīng)網(wǎng)絡顯存占用

神經(jīng)網(wǎng)絡模型占用的顯存包括：

模型自身的參數(shù)
模型的輸出

舉例來說，對于如下圖所示的一個全連接網(wǎng)絡(不考慮偏置項b)

模型的輸入輸出和參數(shù)

模型的顯存占用包括：

參數(shù)：二維數(shù)組 W
模型的輸出：二維數(shù)組 Y

輸入X可以看成是上一層的輸出，因此把它的顯存占用歸于上一層。

這么看來顯存占用就是W和Y兩個數(shù)組？

并非如此！！！

下面細細分析。

1.2.1 參數(shù)的顯存占用

只有有參數(shù)的層，才會有顯存占用。這部份的顯存占用和輸入無關，模型加載完成之后就會占用。

有參數(shù)的層主要包括：

卷積
全連接
BatchNorm
Embedding層
... ...

無參數(shù)的層：

多數(shù)的激活層(Sigmoid/ReLU)
池化層
Dropout
... ...

更具體的來說，模型的參數(shù)數(shù)目(這里均不考慮偏置項b)為：

Linear(M->N): 參數(shù)數(shù)目：M×N
Conv2d(Cin, Cout, K): 參數(shù)數(shù)目：Cin × Cout × K × K
BatchNorm(N): 參數(shù)數(shù)目： 2N
Embedding(N,W): 參數(shù)數(shù)目： N × W

參數(shù)占用顯存 = 參數(shù)數(shù)目×n

n = 4 ：float32

n = 2 : float16

n = 8 : double64

在PyTorch中，當你執(zhí)行完model=MyGreatModel().cuda()之后就會占用相應的顯存，占用的顯存大小基本與上述分析的顯存差不多（會稍大一些，因為其它開銷）。

1.2.2 梯度與動量的顯存占用

舉例來說，優(yōu)化器如果是SGD：

可以看出來，除了保存W之外還要保存對應的梯度??，因此顯存占用等于參數(shù)占用的顯存x2,

如果是帶Momentum-SGD

這時候還需要保存動量，因此顯存x3

如果是Adam優(yōu)化器，動量占用的顯存更多，顯存x4

總結一下，模型中與輸入無關的顯存占用包括：

參數(shù)?W
梯度?dW（一般與參數(shù)一樣）
優(yōu)化器的動量（普通SGD沒有動量，momentum-SGD動量與梯度一樣，Adam優(yōu)化器動量的數(shù)量是梯度的兩倍）

1.2.3 輸入輸出的顯存占用

這部份的顯存主要看輸出的feature map 的形狀。

feature map

比如卷積的輸入輸出滿足以下關系：

據(jù)此可以計算出每一層輸出的Tensor的形狀，然后就能計算出相應的顯存占用。

模型輸出的顯存占用，總結如下：

需要計算每一層的feature map的形狀（多維數(shù)組的形狀）
模型輸出的顯存占用與 batch size 成正比
需要保存輸出對應的梯度用以反向傳播（鏈式法則）
模型輸出不需要存儲相應的動量信息（因為不需要執(zhí)行優(yōu)化）

深度學習中神經(jīng)網(wǎng)絡的顯存占用，我們可以得到如下公式：

顯存占用 = 模型顯存占用 + batch_size × 每個樣本的顯存占用

可以看出顯存不是和batch-size簡單的成正比，尤其是模型自身比較復雜的情況下：比如全連接很大，Embedding層很大

另外需要注意：

輸入（數(shù)據(jù)，圖片）一般不需要計算梯度
神經(jīng)網(wǎng)絡的每一層輸入輸出都需要保存下來，用來反向傳播，但是在某些特殊的情況下，我們可以不要保存輸入。比如ReLU，在PyTorch中，使用nn.ReLU(inplace = True)?能將激活函數(shù)ReLU的輸出直接覆蓋保存于模型的輸入之中，節(jié)省不少顯存。感興趣的讀者可以思考一下，這時候是如何反向傳播的（提示：y=relu(x) ->?dx = dy.copy();dx[y<=0]=0）

1.3 節(jié)省顯存的方法

在深度學習中，一般占用顯存最多的是卷積等層的輸出，模型參數(shù)占用的顯存相對較少，而且不太好優(yōu)化。

節(jié)省顯存一般有如下方法：

降低batch-size
下采樣(NCHW -> (1/4)*NCHW)
減少全連接層（一般只留最后一層分類用的全連接層）

2 計算量分析

計算量的定義，之前已經(jīng)講過了，計算量越大，操作越費時，運行神經(jīng)網(wǎng)絡花費的時間越多。

2.1 常用操作的計算量

常用的操作計算量如下：

全連接層：BxMxN , B是batch size，M是輸入形狀，N是輸出形狀。
卷積的計算量:?

卷積的計算量分析

BatchNorm 計算量我個人估算大概是??，歡迎指正
池化的計算量：?

ReLU的計算量： BHWC

2.2 AlexNet 分析

AlexNet的分析如下圖，左邊是每一層的參數(shù)數(shù)目（不是顯存占用），右邊是消耗的計算資源

AlexNet分析

可以看出：

全連接層占據(jù)了絕大多數(shù)的參數(shù)
卷積層的計算量最大

2.3 減少卷積層的計算量

今年谷歌提出的MobileNet，利用了一種被稱為DepthWise Convolution的技術，將神經(jīng)網(wǎng)絡運行速度提升許多，它的核心思想就是把一個卷積操作拆分成兩個相對簡單的操作的組合。如圖所示, 左邊是原始卷積操作，右邊是兩個特殊而又簡單的卷積操作的組合（上面類似于池化的操作，但是有權重，下面類似于全連接操作）。

Depthwise Convolution

這種操作使得：

顯存占用變多(每一步的輸出都要保存)
計算量變少了許多，變成原來的（??）（一般為原來的10－15%）

2.4 常用模型顯存/計算復雜度/準確率

去年一篇論文(https://arxiv.org/abs/1605.07678)總結了當時常用模型的各項指標，橫座標是計算復雜度（越往右越慢，越耗時），縱座標是準確率（越高越好），圓的面積是參數(shù)數(shù)量（不是顯存占用）。左上角我畫了一個紅色小圓，那是最理想的模型的的特點：快，效果好，占用顯存小。

常見模型計算量/顯存/準確率

3 總結

3.1 建議

時間更寶貴，盡可能使模型變快（減少flop）
顯存占用不是和batch size簡單成正比，模型自身的參數(shù)及其延伸出來的數(shù)據(jù)也要占據(jù)顯存
batch size越大，速度未必越快。在你充分利用計算資源的時候，加大batch size在速度上的提升很有限

尤其是batch-size，假定GPU處理單元已經(jīng)充分利用的情況下：

增大batch size能增大速度，但是很有限（主要是并行計算的優(yōu)化）
增大batch size能減緩梯度震蕩，需要更少的迭代優(yōu)化次數(shù)，收斂的更快，但是每次迭代耗時更長。
增大batch size使得一個epoch所能進行的優(yōu)化次數(shù)變少，收斂可能變慢，從而需要更多時間才能收斂（比如batch_size 變成全部樣本數(shù)目）。

3.2 關于顯卡選購

當前市面上常用的顯卡指標如下：

常見顯卡指標

更多顯卡的更多指標請參閱https://en.wikipedia.org/wiki/List_of_Nvidia_graphics_processing_units

顯然GTX 1080TI性價比最高，速度超越新Titan X，價格卻便宜很多，顯存也只少了1個G（據(jù)說故意閹割掉一個G，不然全面超越了Titan X怕激起買Titan X人的民憤~）。

K80性價比很低（速度慢，而且賊貴）
注意GTX TITAN和Nvidia TITAN的區(qū)別，別被騙

另外，針對本文，我做了一個Google 幻燈片：神經(jīng)網(wǎng)絡性能分析，國內(nèi)用戶可以點此下載ppt。Google幻燈片格式更好，后者格式可能不太正常。

本文都是針對單機單卡的分析，分布式的情況會和這個有所區(qū)別。在分析計算量的時候，只分析了前向傳播，反向傳播計算量一般會與前向傳播有細微的差別。

限于本人水平，文中有疏漏之處，還請指正。

「真誠贊賞，手留余香」
《新程序員》：云原生和全面數(shù)字化實踐50位技術專家共同創(chuàng)作，文字、視頻、音頻交互閱讀

總結

以上是生活随笔為你收集整理的科普帖：深度学习中GPU和显存分析的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。