【深度学习】GPU选型调研!3090依旧是性价比之王
最近算力不夠,一些加Transfomer的3D圖像分割,現(xiàn)有的顯卡顯存都帶不動(dòng),或者是一個(gè)實(shí)驗(yàn)要跑一周以上時(shí)間。所以近期又專門花時(shí)間調(diào)研了下GPU選型。
現(xiàn)有兩張3090顯卡,因?yàn)槭枪?#xff0c;卡外形比較大,dell的服務(wù)器只能塞下兩張卡。原先設(shè)想是做8卡的3090,但咨詢了Dell的供應(yīng)商,說是現(xiàn)在都不太做8卡了,一般只做到4卡,個(gè)別型號(hào)可以做到6卡。但3090顯存只有24G,要體驗(yàn)大batch條件下的3D圖像分割計(jì)算,這個(gè)顯存還不夠。所以就把目光從消費(fèi)級(jí)顯卡投向了專業(yè)計(jì)算卡。
Nvidia顯卡型號(hào)看似眼花繚亂,但結(jié)合具體使用需求來看,符合的顯卡也就那么幾款。Nvidia主流的幾款GPU型號(hào)簡(jiǎn)介如下表所示。
從表中可以看到,除了A系列和V系列的專業(yè)計(jì)算卡之外,其余都是消費(fèi)級(jí)顯卡。其中TITAN Xp、1080Ti和3060都可以作為入門選手使用,顯存不是那么大但作為入門跑跑中小模型還是沒問題的。作為進(jìn)階的話,2080Ti、A4000、A5000、3080Ti和3090都很合適,尤其是3090,可以算是性價(jià)比之王,因?yàn)槠浔容^大的顯存帶寬,雖然單精、半精都弱于A40專業(yè)計(jì)算卡,但到大多數(shù)算法上的實(shí)測(cè)速度都不差于A40。至于A40,可以視作是擴(kuò)了顯存版本的3090,像筆者目前這樣對(duì)顯存有一定要求的,A40就是一個(gè)不錯(cuò)的選擇。V100是老一代專業(yè)計(jì)算卡王,而A100則是新一代專業(yè)計(jì)算卡王,這類級(jí)別的顯卡,除了貴,沒其他缺點(diǎn)了。
Nvidia RTX 3090
關(guān)于更具體的GPU參數(shù)信息,可參考這個(gè)地址:
https://www.techpowerup.com/gpu-specs/
以下是3090和A40在ResNet50和ViT上性能實(shí)測(cè)。
3090:
>>> ResNet50 Namespace(device=0, model='resnet50', precision='float16', train=False) Iteration 0, 2294.06 images/s in 0.837s. Iteration 1, 2391.29 images/s in 0.803s. Iteration 2, 2396.06 images/s in 0.801s. Iteration 3, 2394.62 images/s in 0.802s. Iteration 4, 2402.61 images/s in 0.799s. Namespace(device=0, model='resnet50', precision='float32', train=False) Iteration 0, 1453.34 images/s in 1.321s. Iteration 1, 1490.90 images/s in 1.288s. Iteration 2, 1491.79 images/s in 1.287s. Iteration 3, 1493.76 images/s in 1.285s. Iteration 4, 1494.50 images/s in 1.285s.>>> ViT Transformer Namespace(device=0, model='vit_base_patch16_224', precision='float16', train=False) Iteration 0, 1044.44 images/s in 1.838s. Iteration 1, 1047.37 images/s in 1.833s. Iteration 2, 1046.37 images/s in 1.835s. Iteration 3, 1044.68 images/s in 1.838s. Iteration 4, 1043.91 images/s in 1.839s. Namespace(device=0, model='vit_base_patch16_224', precision='float32', train=False) Iteration 0, 596.59 images/s in 3.218s. Iteration 1, 599.41 images/s in 3.203s. Iteration 2, 598.86 images/s in 3.206s. Iteration 3, 597.92 images/s in 3.211s. Iteration 4, 597.46 images/s in 3.214s.A40:
>>> ResNet50 Namespace(device=0, model='resnet50', precision='float16', train=False) Iteration 0, 1837.41 images/s in 1.045s. Iteration 1, 1892.04 images/s in 1.015s. Iteration 2, 1893.29 images/s in 1.014s. Iteration 3, 1892.99 images/s in 1.014s. Iteration 4, 1892.73 images/s in 1.014s. Namespace(device=0, model='resnet50', precision='float32', train=False) Iteration 0, 1102.49 images/s in 1.742s. Iteration 1, 1115.45 images/s in 1.721s. Iteration 2, 1118.49 images/s in 1.717s. Iteration 3, 1117.32 images/s in 1.718s. Iteration 4, 1117.80 images/s in 1.718s.>>> ViT Transformer Namespace(device=0, model='vit_base_patch16_224', precision='float16', train=False) Iteration 0, 1155.09 images/s in 1.662s. Iteration 1, 1153.70 images/s in 1.664s. Iteration 2, 1152.89 images/s in 1.665s. Iteration 3, 1150.99 images/s in 1.668s. Iteration 4, 1150.53 images/s in 1.669s. Namespace(device=0, model='vit_base_patch16_224', precision='float32', train=False) Iteration 0, 675.17 images/s in 2.844s. Iteration 1, 680.69 images/s in 2.821s. Iteration 2, 679.15 images/s in 2.827s. Iteration 3, 678.90 images/s in 2.828s. Iteration 4, 678.21 images/s in 2.831s.可見,雖然A40是專業(yè)計(jì)算卡內(nèi)存大,并且單精半精都強(qiáng)于3090,但因其顯存帶寬的劣勢(shì),模型實(shí)測(cè)性能可能還不如3090。
所以,總結(jié)起來就是,買顯卡盡量買3090!
參考資料:
https://www.autodl.com/docs/gpu_perf/
往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載(圖文+視頻)機(jī)器學(xué)習(xí)入門系列下載中國(guó)大學(xué)慕課《機(jī)器學(xué)習(xí)》(黃海廣主講)機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)交流qq群955171419,加入微信群請(qǐng)掃碼:總結(jié)
以上是生活随笔為你收集整理的【深度学习】GPU选型调研!3090依旧是性价比之王的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: mysql集群_MySQL集群
- 下一篇: 【深度学习】神经网络基础:反向传播算法