NVIDIA:关于深度学习Benchmark,英特尔错了
針對(duì)Intel發(fā)表的一份關(guān)于Xeon Phi與NVIDIA GPU深度學(xué)習(xí)性能對(duì)比的Benchmark,NVIDIA加速計(jì)算業(yè)務(wù)副總裁Ian Buckf撰寫(xiě)博客文章,對(duì)Intel的核心觀(guān)點(diǎn)進(jìn)行逐一駁斥,重點(diǎn)指責(zé)Intel在與過(guò)時(shí)的軟硬件PK。
基準(zhǔn)(benchmark)是衡量性能的一個(gè)重要工具,但是在一個(gè)快速發(fā)展的領(lǐng)域,它很難跟得上技術(shù)發(fā)展的腳步。最近,英特爾就針對(duì)其傳聞已久的Xeon Phi處理器公布了一些錯(cuò)誤的“事實(shí)”。
深度學(xué)習(xí)技術(shù)在發(fā)展速度上超過(guò)了絕大多數(shù)其它領(lǐng)域。現(xiàn)今的神經(jīng)網(wǎng)絡(luò),其深度已經(jīng)比短短數(shù)年前提升了6倍,并且也變得更加強(qiáng)大。多GPU擴(kuò)展技術(shù)中的全新功能甚至還能實(shí)現(xiàn)更快的訓(xùn)練效果。
此外,我們已經(jīng)從Kepler、Maxwell升級(jí)到目前基于Pascal的系統(tǒng),比如配有8顆Tesla P100GPU的DGX-1超級(jí)計(jì)算機(jī),從而在短短一年內(nèi)將神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)間縮短了10倍。
因此完全可以理解,該領(lǐng)域的后來(lái)者可能無(wú)法洞悉目前這一領(lǐng)域軟硬件的整體發(fā)展情況。
例如,英特爾最近發(fā)布了一些過(guò)時(shí)的基準(zhǔn),并宣稱(chēng)其Knights Landing Xeon Phi處理器在深度學(xué)習(xí)性能上具有以下三項(xiàng)優(yōu)勢(shì):
- Xeon Phi的訓(xùn)練速度要比GPU快2.3倍(資料
- Xeon Phi的跨節(jié)點(diǎn)擴(kuò)展性能比GPU高38%(資料)
- Xeon Phi可大幅擴(kuò)展至多達(dá)128個(gè)節(jié)點(diǎn),而GPU則無(wú)法實(shí)現(xiàn)(資料)
讓我們逐條分析這三項(xiàng)優(yōu)勢(shì),并糾正可能出現(xiàn)的一些錯(cuò)誤認(rèn)知。
新版與舊版Caffe深度學(xué)習(xí)框架
英特爾采用了18個(gè)月前開(kāi)發(fā)的Caffe AlexNet模型數(shù)據(jù),并對(duì)采用四顆Maxwell GPU的系統(tǒng)與四臺(tái)Xeon Phi服務(wù)器進(jìn)行了對(duì)比。而如果采用新版Caffe AlexNet模型(點(diǎn)擊獲取),英特爾就會(huì)發(fā)現(xiàn)采用四顆Maxwell GPU的系統(tǒng),訓(xùn)練時(shí)間要比四臺(tái)Xeon Phi處理器快30%。
實(shí)際上,一臺(tái)采用四顆基于Pascal 架構(gòu)的NVIDIA TITAN X GPU的系統(tǒng),其訓(xùn)練速度要比四臺(tái)Xeon Phi服務(wù)器速度快90%,而單臺(tái)NVIDIA DGX-1的訓(xùn)練速度則比四臺(tái)Xeon Phi服務(wù)器快5倍還多。
擴(kuò)展性提升38%
英特爾將Caffe GoogleNet在32臺(tái)Xeon Phi服務(wù)器上的訓(xùn)練成效與橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室泰坦超級(jí)計(jì)算機(jī)的32臺(tái)服務(wù)器進(jìn)行了對(duì)比。泰坦采用了四年前的GPU(Tesla K20X)以及之前美洲豹超級(jí)計(jì)算機(jī)所用的互連技術(shù)。而Xeon Phi的結(jié)果則基于最近推出的互連技術(shù)。
百度使用更新的Maxwell GPU及互連技術(shù),結(jié)果顯示其語(yǔ)音訓(xùn)練工作負(fù)載的擴(kuò)展幾乎呈現(xiàn)為直線(xiàn),高達(dá)128顆GPU。
英特爾著手發(fā)展深度學(xué)習(xí)當(dāng)然值得稱(chēng)道,我們正面臨人工智能時(shí)代一次最重要的技術(shù)革命,而如火如荼的深度學(xué)習(xí)肯定不能被忽略。但是,他們應(yīng)該把事實(shí)搞清楚。
可擴(kuò)展性不僅取決于底層處理器,代碼的互連與架構(gòu)優(yōu)化同樣重要。GPU為百度等客戶(hù)帶來(lái)了極佳的擴(kuò)展性。
大幅擴(kuò)展至128個(gè)節(jié)點(diǎn)
英特爾聲稱(chēng),128臺(tái)XeonPhi服務(wù)器可帶來(lái)比單個(gè)Xeon Phi服務(wù)器快50倍的性能,而GPU則沒(méi)有此類(lèi)擴(kuò)展性數(shù)據(jù)。如上所述,百度已經(jīng)公布的結(jié)果顯示,擴(kuò)展幾乎呈直線(xiàn)形態(tài),多達(dá)128顆GPU。
為了實(shí)現(xiàn)強(qiáng)擴(kuò)展,我們認(rèn)為強(qiáng)節(jié)點(diǎn)要優(yōu)于弱節(jié)點(diǎn)。與許多采用一到兩個(gè)如Xeon Phi這樣性能不足的處理器的弱節(jié)點(diǎn)相比,采用多顆高性能GPU的單臺(tái)服務(wù)器的性能要更加優(yōu)越。例如,單臺(tái)DGX-1系統(tǒng)可比至少21臺(tái)Xeon Phi服務(wù)器提供更好的大幅擴(kuò)展性能(DGX-1要比四臺(tái)Xeon Phi服務(wù)器快5.3倍)。
人工智能時(shí)代
深度學(xué)習(xí)有望徹底改變計(jì)算,改善我們的生活,提升我們業(yè)務(wù)系統(tǒng)的效率和智能化,并推動(dòng)人類(lèi)的深遠(yuǎn)發(fā)展。為此,我們多年來(lái)一直在提升并行處理器的設(shè)計(jì),并創(chuàng)建軟件和技術(shù)來(lái)加速深度學(xué)習(xí)。
我們?yōu)樯疃葘W(xué)習(xí)做出深入而廣泛的努力。每個(gè)框架都有NVIDIA的優(yōu)化支持,每位主要的深度學(xué)習(xí)研究者、實(shí)驗(yàn)室和公司都在使用NVIDIA GPU。
我們可以逐個(gè)糾正他們的誤導(dǎo)性言論,不過(guò)我們認(rèn)為,和以前的Kepler GPU架構(gòu)以及過(guò)時(shí)的軟件進(jìn)行深度學(xué)習(xí)對(duì)比測(cè)試是錯(cuò)誤的做法,很容易就可以糾正。這樣也有利于讓整個(gè)行業(yè)與時(shí)俱進(jìn)。
總結(jié)
以上是生活随笔為你收集整理的NVIDIA:关于深度学习Benchmark,英特尔错了的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: CentOS设置服务开机启动的方法
- 下一篇: bitnami-redmine邮件告警配