當(dāng)前位置：首頁(yè) > 人文社科 > 生活经验 >内容正文

生活经验

如何挑选深度学习 GPU？

發(fā)布時(shí)間：2023/11/28 生活经验 34 豆豆

生活随笔收集整理的這篇文章主要介紹了如何挑选深度学习 GPU？小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

如何挑選深度學(xué)習(xí) GPU？

深度學(xué)習(xí)是一個(gè)對(duì)計(jì)算有著大量需求的領(lǐng)域，從一定程度上來(lái)說(shuō)，GPU的選擇將從根本上決定深度學(xué)習(xí)的體驗(yàn)。因此，選擇購(gòu)買合適的GPU是一項(xiàng)非常重要的決策。那么2020年，如何選擇合適的GPU呢？這篇文章整合了網(wǎng)絡(luò)上現(xiàn)有的GPU選擇標(biāo)準(zhǔn)和評(píng)測(cè)信息，希望能作為你的購(gòu)買決策的參考。
1 是什么使一個(gè)GPU比另一個(gè)GPU更快？
有一些可靠的性能指標(biāo)可以作為人們的經(jīng)驗(yàn)判斷。以下是針對(duì)不同深度學(xué)習(xí)架構(gòu)的一些優(yōu)先準(zhǔn)則：

Convolutional
networks and Transformers: Tensor Cores > FLOPs >
Memory Bandwidth > 16-bit capability
Recurrent
networks: Memory Bandwidth > 16-bit capability >
Tensor Cores > FLOPs
2 如何選擇NVIDIA/AMD/Google
NVIDIA的標(biāo)準(zhǔn)庫(kù)使在CUDA中建立第一個(gè)深度學(xué)習(xí)庫(kù)變得非常容易。早期的優(yōu)勢(shì)加上NVIDIA強(qiáng)大的社區(qū)支持意味著如果使用NVIDIA GPU，則在出現(xiàn)問(wèn)題時(shí)可以輕松得到支持。但是NVIDIA現(xiàn)在政策使得只有Tesla GPU能在數(shù)據(jù)中心使用CUDA，而GTX或RTX則不允許，而Tesla與GTX和RTX相比并沒(méi)有真正的優(yōu)勢(shì)，價(jià)格卻高達(dá)10倍。
AMD功能強(qiáng)大，但缺少足夠的支持。AMD GPU具有16位計(jì)算能力，但是跟NVIDIA GPU的Tensor內(nèi)核相比仍然有差距。

Google
TPU具備很高的成本效益。由于TPU具有復(fù)雜的并行基礎(chǔ)結(jié)構(gòu)，因此如果使用多個(gè)云TPU（相當(dāng)于4個(gè)GPU），TPU將比GPU具有更大的速度優(yōu)勢(shì)。因此，就目前來(lái)看，TPU更適合用于訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)。
3 多GPU并行加速
卷積網(wǎng)絡(luò)和循環(huán)網(wǎng)絡(luò)非常容易并行，尤其是在僅使用一臺(tái)計(jì)算機(jī)或4個(gè)GPU的情況下。TensorFlow和PyTorch也都非常適合并行遞歸。但是，包括transformer在內(nèi)的全連接網(wǎng)絡(luò)通常在數(shù)據(jù)并行性方面性能較差，因此需要更高級(jí)的算法來(lái)加速。如果在多個(gè)GPU上運(yùn)行，應(yīng)該先嘗試在1個(gè)GPU上運(yùn)行，比較兩者速度。由于單個(gè)GPU幾乎可以完成所有任務(wù)，因此，在購(gòu)買多個(gè)GPU時(shí)，更好的并行性（如PCIe通道數(shù)）的質(zhì)量并不是那么重要。

4 性能評(píng)測(cè)

1）來(lái)自Tim Dettmers的成本效益評(píng)測(cè)

[1]https://timdettmers.com/2019/04/03/which-gpu-for-deep-learning/

卷積網(wǎng)絡(luò)（CNN），遞歸網(wǎng)絡(luò)（RNN）和transformer的歸一化性能/成本數(shù)（越高越好）。RTX 2060的成本效率是Tesla V100的5倍以上。對(duì)于長(zhǎng)度小于100的短序列，Word RNN表示biLSTM。使用PyTorch 1.0.1和CUDA 10進(jìn)行基準(zhǔn)測(cè)試。

從這些數(shù)據(jù)可以看出，RTX 2060比RTX 2070，RTX 2080或RTX 2080 Ti具有更高的成本效益。原因是使用Tensor Cores進(jìn)行16位計(jì)算的能力比僅僅擁有更多Tensor Cores內(nèi)核要有價(jià)值得多。

2）來(lái)自Lambda的評(píng)測(cè)

[2,3]https://lambdalabs.com/blog/best-gpu-tensorflow-2080-ti-vs-v100-vs-titan-v-vs-1080-ti-benchmark/https://lambdalabs.com/blog/choosing-a-gpu-for-deep-learning/

GPU平均加速/系統(tǒng)總成本

GPU性能，以每秒處理的圖像為單位

以 Quadro RTX
8000 為基準(zhǔn)的針對(duì)Quadro RTX 8000的圖像模型訓(xùn)練吞吐量

來(lái)自知乎@Aero的「在線」GPU評(píng)測(cè)

[4]https://www.zhihu.com/question/299434830/answer/1010987691

大家用的最多的可能是Google Colab，畢竟免費(fèi)，甚至能選TPU

不過(guò)現(xiàn)在出會(huì)員了：

免費(fèi)版主要是K80，有點(diǎn)弱，可以跑比較簡(jiǎn)單的模型，有概率分到T4，有歐皇能分到P100。
付費(fèi)就能確保是T4或者P100，一個(gè)月10美元，說(shuō)是僅限美國(guó)。
Colab畢竟是Google的，那么你首先要能連得上google，并且得網(wǎng)絡(luò)穩(wěn)定，要是掉線很可能要重新訓(xùn)練，綜合來(lái)看國(guó)內(nèi)使用體驗(yàn)不太好。

下一個(gè)是百度AI Studio：
免費(fèi)送V100時(shí)長(zhǎng)非常良心，以前很多人自己裝tensorflow用，但是現(xiàn)在已經(jīng)不允許了，實(shí)測(cè)tensorflow pytorch都不給裝，必須得用paddlepaddle。那么習(xí)慣paddlepaddle的用戶完全可以選這個(gè)，其他人不適合。

不過(guò)似乎GPU不太夠，白天一直提醒高峰期，真到了22點(diǎn)后才有。

國(guó)外的還有vast.ai：

5 建議

1）來(lái)自Tim
Dettmers的建議

總體最佳GPU：RTX 2070 GPU
·
避免使用：任何Tesla；任何Quadro；任何Founders
Edition；Titan RTX，Titan V，Titan XP
·
高效但價(jià)格昂貴：RTX 2070
·
高效且廉價(jià)：RTX 2060，GTX 1060（6GB）

價(jià)格實(shí)惠：GTX 1060（6GB）

·
價(jià)格低廉：GTX 1050 Ti（4GB）。或者：CPU（原型設(shè)計(jì)）+
AWS / TPU（培訓(xùn)）；或Colab。

·
適合Kaggle比賽：RTX 2070

·
適合計(jì)算機(jī)視覺(jué)研究人員：GTX 2080 Ti，如果訓(xùn)練非常大的網(wǎng)絡(luò)，建議使用RTX Titans

2）來(lái)自Lambda的建議

截至2020年2月，以下GPU可以訓(xùn)練所有SOTA語(yǔ)言和圖像模型：

RTX 8000：48 GB VRAM

·
RTX 6000：24 GB VRAM

·
Titan RTX：24 GB VRAM

具體建議：
·
RTX 2060（6 GB）：適合業(yè)余時(shí)間探索深度學(xué)習(xí)。

RTX 2070或2080（8 GB）：適合深度學(xué)習(xí)專業(yè)研究者，且預(yù)算為4-6k

RTX 2080 Ti（11 GB）：適合深度學(xué)習(xí)專業(yè)研究者，而您的GPU預(yù)算約為8-9k。RTX 2080
Ti比RTX 2080快40％。

Titan RTX和Quadro RTX 6000（24 GB）：適合廣泛使用SOTA型號(hào)，但沒(méi)有用于RTX 8000足夠預(yù)算的研究者。
·
Quadro RTX 8000（48 GB）：價(jià)格相對(duì)較高，但性能卓越，適合未來(lái)投資。

總結(jié)

以上是生活随笔為你收集整理的如何挑选深度学习 GPU？的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：视频动作定位的分层自关注网络：ICCV2
下一篇：深度学习常见问题解析