日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 人文社科 > 生活经验 >内容正文

生活经验

如何挑选深度学习 GPU?

發(fā)布時(shí)間:2023/11/28 生活经验 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 如何挑选深度学习 GPU? 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

如何挑選深度學(xué)習(xí) GPU?

深度學(xué)習(xí)是一個(gè)對(duì)計(jì)算有著大量需求的領(lǐng)域,從一定程度上來(lái)說(shuō),GPU的選擇將從根本上決定深度學(xué)習(xí)的體驗(yàn)。因此,選擇購(gòu)買合適的GPU是一項(xiàng)非常重要的決策。那么2020年,如何選擇合適的GPU呢?這篇文章整合了網(wǎng)絡(luò)上現(xiàn)有的GPU選擇標(biāo)準(zhǔn)和評(píng)測(cè)信息,希望能作為你的購(gòu)買決策的參考。
1 是什么使一個(gè)GPU比另一個(gè)GPU更快?
有一些可靠的性能指標(biāo)可以作為人們的經(jīng)驗(yàn)判斷。以下是針對(duì)不同深度學(xué)習(xí)架構(gòu)的一些優(yōu)先準(zhǔn)則:

Convolutional
networks and Transformers: Tensor Cores > FLOPs >
Memory Bandwidth > 16-bit capability
Recurrent
networks: Memory Bandwidth > 16-bit capability >
Tensor Cores > FLOPs
2 如何選擇NVIDIA/AMD/Google
NVIDIA的標(biāo)準(zhǔn)庫(kù)使在CUDA中建立第一個(gè)深度學(xué)習(xí)庫(kù)變得非常容易。早期的優(yōu)勢(shì)加上NVIDIA強(qiáng)大的社區(qū)支持意味著如果使用NVIDIA GPU,則在出現(xiàn)問(wèn)題時(shí)可以輕松得到支持。但是NVIDIA現(xiàn)在政策使得只有Tesla GPU能在數(shù)據(jù)中心使用CUDA,而GTX或RTX則不允許,而Tesla與GTX和RTX相比并沒(méi)有真正的優(yōu)勢(shì),價(jià)格卻高達(dá)10倍。
AMD功能強(qiáng)大,但缺少足夠的支持。AMD GPU具有16位計(jì)算能力,但是跟NVIDIA GPU的Tensor內(nèi)核相比仍然有差距。

Google
TPU具備很高的成本效益。由于TPU具有復(fù)雜的并行基礎(chǔ)結(jié)構(gòu),因此如果使用多個(gè)云TPU(相當(dāng)于4個(gè)GPU),TPU將比GPU具有更大的速度優(yōu)勢(shì)。因此,就目前來(lái)看,TPU更適合用于訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)。
3 多GPU并行加速
卷積網(wǎng)絡(luò)和循環(huán)網(wǎng)絡(luò)非常容易并行,尤其是在僅使用一臺(tái)計(jì)算機(jī)或4個(gè)GPU的情況下。TensorFlow和PyTorch也都非常適合并行遞歸。但是,包括transformer在內(nèi)的全連接網(wǎng)絡(luò)通常在數(shù)據(jù)并行性方面性能較差,因此需要更高級(jí)的算法來(lái)加速。如果在多個(gè)GPU上運(yùn)行,應(yīng)該先嘗試在1個(gè)GPU上運(yùn)行,比較兩者速度。由于單個(gè)GPU幾乎可以完成所有任務(wù),因此,在購(gòu)買多個(gè)GPU時(shí),更好的并行性(如PCIe通道數(shù))的質(zhì)量并不是那么重要。

4 性能評(píng)測(cè)

1)來(lái)自Tim Dettmers的成本效益評(píng)測(cè)

[1]https://timdettmers.com/2019/04/03/which-gpu-for-deep-learning/

卷積網(wǎng)絡(luò)(CNN),遞歸網(wǎng)絡(luò)(RNN)和transformer的歸一化性能/成本數(shù)(越高越好)。RTX 2060的成本效率是Tesla V100的5倍以上。對(duì)于長(zhǎng)度小于100的短序列,Word RNN表示biLSTM。使用PyTorch 1.0.1和CUDA 10進(jìn)行基準(zhǔn)測(cè)試。

從這些數(shù)據(jù)可以看出,RTX 2060比RTX 2070,RTX 2080或RTX 2080 Ti具有更高的成本效益。原因是使用Tensor Cores進(jìn)行16位計(jì)算的能力比僅僅擁有更多Tensor Cores內(nèi)核要有價(jià)值得多。

2)來(lái)自Lambda的評(píng)測(cè)

[2,3]https://lambdalabs.com/blog/best-gpu-tensorflow-2080-ti-vs-v100-vs-titan-v-vs-1080-ti-benchmark/https://lambdalabs.com/blog/choosing-a-gpu-for-deep-learning/

GPU平均加速/系統(tǒng)總成本

GPU性能,以每秒處理的圖像為單位

以 Quadro RTX
8000 為基準(zhǔn)的針對(duì)Quadro RTX 8000的圖像模型訓(xùn)練吞吐量

來(lái)自知乎@Aero的「在線」GPU評(píng)測(cè)

[4]https://www.zhihu.com/question/299434830/answer/1010987691

大家用的最多的可能是Google Colab,畢竟免費(fèi),甚至能選TPU

不過(guò)現(xiàn)在出會(huì)員了:

免費(fèi)版主要是K80,有點(diǎn)弱,可以跑比較簡(jiǎn)單的模型,有概率分到T4,有歐皇能分到P100。
付費(fèi)就能確保是T4或者P100,一個(gè)月10美元,說(shuō)是僅限美國(guó)。
Colab畢竟是Google的,那么你首先要能連得上google,并且得網(wǎng)絡(luò)穩(wěn)定,要是掉線很可能要重新訓(xùn)練,綜合來(lái)看國(guó)內(nèi)使用體驗(yàn)不太好。

下一個(gè)是百度AI Studio:
免費(fèi)送V100時(shí)長(zhǎng)非常良心,以前很多人自己裝tensorflow用,但是現(xiàn)在已經(jīng)不允許了,實(shí)測(cè)tensorflow pytorch都不給裝,必須得用paddlepaddle。那么習(xí)慣paddlepaddle的用戶完全可以選這個(gè),其他人不適合。

不過(guò)似乎GPU不太夠,白天一直提醒高峰期,真到了22點(diǎn)后才有。

國(guó)外的還有vast.ai:

5 建議

1)來(lái)自Tim
Dettmers的建議

總體最佳GPU:RTX 2070 GPU
·
避免使用 :任何Tesla;任何Quadro;任何Founders
Edition;Titan RTX,Titan V,Titan XP
·
高效但價(jià)格昂貴:RTX 2070
·
高效且廉價(jià):RTX 2060,GTX 1060(6GB)

價(jià)格實(shí)惠:GTX 1060(6GB)

·
價(jià)格低廉:GTX 1050 Ti(4GB)。或者:CPU(原型設(shè)計(jì))+
AWS / TPU(培訓(xùn));或Colab。

·
適合Kaggle比賽:RTX 2070

·
適合計(jì)算機(jī)視覺(jué)研究人員:GTX 2080 Ti,如果訓(xùn)練非常大的網(wǎng)絡(luò),建議使用RTX Titans

2)來(lái)自Lambda的建議

截至2020年2月,以下GPU可以訓(xùn)練所有SOTA語(yǔ)言和圖像模型:

RTX 8000:48 GB VRAM

·
RTX 6000:24 GB VRAM

·
Titan RTX:24 GB VRAM

具體建議:
·
RTX 2060(6 GB):適合業(yè)余時(shí)間探索深度學(xué)習(xí)。

RTX 2070或2080(8 GB):適合深度學(xué)習(xí)專業(yè)研究者,且預(yù)算為4-6k

RTX 2080 Ti(11 GB):適合深度學(xué)習(xí)專業(yè)研究者,而您的GPU預(yù)算約為8-9k。RTX 2080
Ti比RTX 2080快40%。

Titan RTX和Quadro RTX 6000(24 GB):適合廣泛使用SOTA型號(hào),但沒(méi)有用于RTX 8000足夠預(yù)算的研究者。
·
Quadro RTX 8000(48 GB):價(jià)格相對(duì)較高,但性能卓越,適合未來(lái)投資。

總結(jié)

以上是生活随笔為你收集整理的如何挑选深度学习 GPU?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。