牵手大企,关于图形计算、HPC与AI,NVIDIA言有尽而意无穷!
戳藍(lán)字“CSDN云計(jì)算”關(guān)注我們哦!
作者 | 晶少
出品 | CSDN云計(jì)算(ID:CSDNcloud)
在黃仁勛看來(lái),隨著摩爾定律消亡,GPU加速才是撬動(dòng)未來(lái)高性能計(jì)算發(fā)展的有力杠桿。有數(shù)據(jù)顯示,目前NVIDIA已經(jīng)銷售了超過(guò)15億塊GPU,而這些GPU由于采用了同一架構(gòu),均能兼容CUDA。
不僅僅如此,身著經(jīng)典皮衣的黃教主更認(rèn)為硬件的“登峰造極”不僅僅局限于芯片,只有軟件得到相應(yīng)性能的完整優(yōu)化,未來(lái)的多GPU才能彰顯最出色的處理能力。基于此,NVIDIA在CUDA平臺(tái)上配置了相當(dāng)豐富的軟件庫(kù),并且選擇在去年一整年推出了超過(guò)500個(gè)相應(yīng)的SDK以及庫(kù)來(lái)不斷改進(jìn)NVIDIA的軟件棧。有數(shù)據(jù)顯示,通過(guò)這些專門的SKU,NVIDIA的產(chǎn)品在過(guò)去三年的深度學(xué)習(xí)性能提升了4倍,而深度學(xué)習(xí)推理性能也相應(yīng)提升了2倍。列舉如此多樣的軟件升級(jí),要說(shuō)目前實(shí)在硬核的NVIDIA軟件創(chuàng)新,當(dāng)屬最新一代推理軟件開(kāi)發(fā)套件NVIDIA TensorRT 7編譯器的推出。
晶少了解到,TensorRT作為一種計(jì)算圖優(yōu)化編譯器能夠優(yōu)化推理實(shí)現(xiàn)實(shí)時(shí)AI會(huì)話,將TensorFlow的輸出結(jié)果進(jìn)行優(yōu)化,簡(jiǎn)單理解位可以高效尋找計(jì)算途中可以融合的節(jié)點(diǎn),從而減少計(jì)算和內(nèi)容的訪問(wèn)來(lái)進(jìn)行CUDA碼的優(yōu)化,值得提及的是可以運(yùn)行在任何GPU上。
“去年我們?cè)谥袊?guó)發(fā)布了TensorRT 5,可以處理CNN,而且是在圖形的同一層將邊緣與節(jié)點(diǎn)融合;此外還支持自動(dòng)檢測(cè)以及自動(dòng)低精度推理,將FP32模型轉(zhuǎn)換成FP16或INT8模型,準(zhǔn)確率保障的同時(shí)降低能耗。”對(duì)比TensorRT 5,如今TensorRT 7能夠支持1000多種不同計(jì)算變換和變化,借助于該軟件,全球各地的開(kāi)發(fā)者都可以實(shí)現(xiàn)會(huì)話式AI應(yīng)用,大幅減少推理延遲。而此前不容忽視的一點(diǎn),巨大的推理延遲一直都是實(shí)現(xiàn)真正交互式互動(dòng)的很大阻礙。
具體來(lái)說(shuō),TensorRT 7內(nèi)置新型深度學(xué)習(xí)編譯器,能夠自動(dòng)優(yōu)化和加速遞歸神經(jīng)網(wǎng)絡(luò)與基于轉(zhuǎn)換器的神經(jīng)網(wǎng)絡(luò),而這些日益復(fù)雜的神經(jīng)網(wǎng)絡(luò)是AI語(yǔ)音應(yīng)用所必需的。與在CPU上運(yùn)行時(shí)相比,會(huì)話式AI組件速度提高了10倍以上,從而將延遲降低到實(shí)時(shí)交互所需的300毫秒閾值以下。除了支持CNN,TensorRT 7也支持RNN、Transformer等自動(dòng)實(shí)現(xiàn)。對(duì)于所有RNN定制的內(nèi)核甚至可以進(jìn)行多個(gè)時(shí)間場(chǎng)景融合,在整個(gè)處理的工作流中,在不同的時(shí)間點(diǎn)來(lái)進(jìn)行所需要的內(nèi)存,以及處理工作量。
除了技術(shù)上的“高屋建瓴”之外,TensorRT 7.0還能輕松“搞定”會(huì)話式AI。黃仁勛對(duì)此表示:“我們已經(jīng)進(jìn)入了一個(gè)機(jī)器可以實(shí)時(shí)理解人類語(yǔ)言的AI新時(shí)代。TensorRT 7使這成為可能,為世界各地的開(kāi)發(fā)者提供工具,使他們能夠構(gòu)建和部署更快、更智能的會(huì)話式AI服務(wù),從而實(shí)現(xiàn)更自然的AI人機(jī)交互。”
關(guān)于此NVIDIA 負(fù)責(zé)TensorRT產(chǎn)品市場(chǎng)的Siddarth Sharma總結(jié)道:“實(shí)際上,NVIDIA著手會(huì)話式AI的技術(shù)加速工作已經(jīng)有好幾個(gè)月的時(shí)間了。最初的版本只涵蓋了會(huì)話式AI中的一部分,也就是語(yǔ)言理解部分。通常這個(gè)攻克的過(guò)程需要三個(gè)部分:將識(shí)別的語(yǔ)音轉(zhuǎn)化成文字,理解的基礎(chǔ)上再轉(zhuǎn)化為語(yǔ)音播出。隨著我們不斷發(fā)布新版本,TensorRT 7基本上可以完成整個(gè)三流程的計(jì)算,即從語(yǔ)音識(shí)別到語(yǔ)義理解再到語(yǔ)音輸出。”
據(jù)晶少了解,其實(shí)會(huì)話式AI是技術(shù)難度很高的領(lǐng)域,想要完全攻克并為之所用就需做到要在300毫秒內(nèi)將三個(gè)部分智能并完整達(dá)成,在這個(gè)過(guò)程中有很多的復(fù)雜模型被計(jì)算,所以Tensor RT也在不斷完善以保證覆蓋整個(gè)流程。
據(jù)悉,目前全球很多體量較大并極具創(chuàng)新的企業(yè)都已經(jīng)使用了NVIDIA的會(huì)話式AI加速功能。在首批使用NVIDIA會(huì)話式AI加速能力的企業(yè)中,我們發(fā)現(xiàn)了阿里巴巴、百度、滴滴出行、美團(tuán)、快手、平安、搜狗、騰訊和字節(jié)跳動(dòng)等企業(yè)。搜狗首席技術(shù)官楊洪濤表示:“搜狗每天通過(guò)輸入法、AI硬件、搜索等產(chǎn)品為數(shù)億用戶提供語(yǔ)音、圖像、翻譯、對(duì)話以及問(wèn)答等優(yōu)質(zhì)的AI服務(wù),我們使用NVIDIA TensorRT推理平臺(tái)實(shí)現(xiàn)線上實(shí)時(shí)快速的服務(wù)響應(yīng),領(lǐng)先的AI能力顯著提升了我們的用戶體驗(yàn)。”
此外在深度推薦系統(tǒng)應(yīng)用方面,百度AIBox推薦系統(tǒng)以及阿里巴巴推薦系統(tǒng)均借助NVIDIA 的AI平臺(tái)實(shí)現(xiàn)計(jì)算加速。值得一提,在今年“雙11”期間,英偉達(dá)GPU為阿里巴巴推薦模型提供加速,實(shí)現(xiàn)了每秒處理780個(gè)查詢,遠(yuǎn)高于CPU的3個(gè)。“在阿里巴巴的服務(wù)器上,一個(gè)‘雙十一’活動(dòng),每秒需要處理數(shù)十億次的推薦,使用GPU驅(qū)動(dòng)的推薦系統(tǒng),吞吐量(通量)可以比CPU提升上百倍。”同樣在云方向,滴滴還將基于NVIDIA 技術(shù)建設(shè)人工智能基礎(chǔ)架構(gòu),并適時(shí)推出不同型態(tài)的vGP云U服務(wù)器,其中包括計(jì)算型、渲染型和游戲型等。
“其實(shí)計(jì)算是一個(gè)非常重要的方式,而且可見(jiàn)情況下增長(zhǎng)勢(shì)頭非常迅猛。目前我們的計(jì)算平臺(tái)與全球很多云服務(wù)提供商都進(jìn)行了合作,例如AWS、Azure、谷歌云等,其中還包括國(guó)內(nèi)的百度、滴滴、阿里云平臺(tái)等,所以我們?cè)陂_(kāi)發(fā)下一代產(chǎn)品時(shí)在開(kāi)發(fā)者領(lǐng)域以及企業(yè)級(jí)方向,都很重視自身產(chǎn)品的技術(shù)質(zhì)量。”NVIDIA 加速計(jì)算產(chǎn)品管理總監(jiān)Paresh Kharya說(shuō)。
可以肯定的一點(diǎn),如今通過(guò)TensorRT的新型深度學(xué)習(xí)編譯器,全球各地的開(kāi)發(fā)者能夠?qū)⑦@些網(wǎng)絡(luò)(例如定制的自動(dòng)語(yǔ)音識(shí)別網(wǎng)絡(luò)以及用于文本-語(yǔ)音轉(zhuǎn)換的WaveRNN和Tacotron 2)實(shí)現(xiàn)自動(dòng)化,并實(shí)現(xiàn)最佳的性能和最低的延遲。很重要的一點(diǎn),TensorRT 7可以快速優(yōu)化、驗(yàn)證并部署經(jīng)過(guò)訓(xùn)練的神經(jīng)網(wǎng)絡(luò),還為超大型數(shù)據(jù)中心、嵌入式或汽車GPU平臺(tái)提供推理能力,目前TensorRT 7.0現(xiàn)在已經(jīng)可被使用。
就在一月之前的丹佛2019全球超級(jí)計(jì)算大會(huì)(SC19)上,NVIDIA剛剛發(fā)布了一款參考設(shè)計(jì)平臺(tái),使企業(yè)能夠快速構(gòu)建GPU加速的ARM服務(wù)器。在本次GTC大會(huì)上,相關(guān)問(wèn)題再次被提及,黃仁勛提出:“此舉是為了讓GPU能夠像支持x86平臺(tái)一樣支持ARM平臺(tái)。”
眾所周知,ARM是世界上最為普及的CPU,世界上約95%的定制SOC都是基于ARM,也被稱之為最可編配置的CPU。據(jù)了解在全球范圍內(nèi),共有1500億臺(tái)設(shè)備基于ARM架構(gòu),之所以如此成功,歸根結(jié)底是開(kāi)放性使然,例如各種各樣的功能,包括互聯(lián)、內(nèi)存、CPU內(nèi)核、計(jì)算能力,包括多元化在內(nèi)的支持,都使ARM成為現(xiàn)如今世界上非常重要的架構(gòu)之一,給予用戶更多選擇。對(duì)此晶少觀察到,其實(shí)很多行業(yè)企業(yè)都在打造基于ARM的服務(wù),原因或許在于傳統(tǒng)HPC高性能計(jì)算確實(shí)需要高效能的產(chǎn)出,另一方面確實(shí)整個(gè)世界都在擁抱云,而ARM確實(shí)與超大規(guī)模應(yīng)用堪為“天生一對(duì)”。
“我們通過(guò)將CUDA平臺(tái)和ARM架構(gòu)進(jìn)行兼容,在整個(gè)加速計(jì)算領(lǐng)域,無(wú)論是AI、高性能計(jì)算等,都可以給到客戶更多選擇。之所以有這么大的性能提升,不僅是在架構(gòu)上進(jìn)行了設(shè)計(jì),更重要的是我們通過(guò)軟件的方式使得性能進(jìn)一步提升。有數(shù)據(jù)顯示,僅僅通過(guò)軟件就使得AI計(jì)算性能在兩年之間提升了4倍,所以軟件對(duì)加速計(jì)算的性能提升非常重要,未來(lái)我們會(huì)繼續(xù)在醫(yī)療領(lǐng)域Clara平臺(tái),應(yīng)用在自動(dòng)駕駛領(lǐng)域的Drive以及機(jī)器人方向的Isaac等各個(gè)平臺(tái)上對(duì)軟件進(jìn)行完善以提升性能。”
具體來(lái)說(shuō),通過(guò)PCI Express為ARM提供與X86平臺(tái)同等的支持,輕松針對(duì)ARM進(jìn)行CUDA編譯;而且CUDA本身?yè)碛幸粋€(gè)諸多開(kāi)發(fā)人員構(gòu)成的龐大生態(tài)系統(tǒng),當(dāng)支持ARM時(shí)候,這些開(kāi)發(fā)人員也開(kāi)始支持ARM。不容忽視的一點(diǎn),基于對(duì)ARM平臺(tái)的支持,超級(jí)計(jì)算中心、超大型云運(yùn)營(yíng)商和企業(yè)能夠?qū)⑵浼铀儆?jì)算平臺(tái)的優(yōu)勢(shì)與最新的ARM服務(wù)器平臺(tái)相結(jié)合,高效滿足高性能計(jì)算(HPC)社區(qū)對(duì)于類型更加多樣化的CPU架構(gòu)日益增長(zhǎng)的需求。
另外在今年的GTC的大會(huì)上,NVIDIA按照慣例爆出了未來(lái)計(jì)算機(jī)圖形的技術(shù),即實(shí)時(shí)光線追蹤NVIDIA GeForce RTX的最新進(jìn)展。
RTX可以用更為自然的方式模擬光線、反射等,讓現(xiàn)代計(jì)算機(jī)圖形技術(shù)變得更加有魅力,而NVIDIA在最新的圖靈架構(gòu)中正是搭載了這項(xiàng)技術(shù),實(shí)現(xiàn)對(duì)于現(xiàn)實(shí)光照的完美還原并帶來(lái)逼真的游戲環(huán)境。會(huì)上,NVIDIA演示了擁有3億多玩家的《我的世界》的光追版本,開(kāi)啟RTX之后《我的世界》營(yíng)造了一個(gè)真實(shí)的游戲世界;還官宣包括《邊境》、《鈴蘭計(jì)劃》、《暗影火炬》、Project X、《無(wú)限法則》以及《軒轅劍柒》等六款游戲?qū)?huì)支持光線追蹤。
“NVIDIA處在圖形、HPC和AI的交匯領(lǐng)域。”這或許是對(duì)本次GTC黑科技的最簡(jiǎn)潔直觀的詮釋。
福利掃描添加小編微信,備注“姓名+公司職位”,加入【云計(jì)算學(xué)習(xí)交流群】,和志同道合的朋友們共同打卡學(xué)習(xí)! 推薦閱讀:你每天都在使用的HTTP協(xié)議,到底是什么鬼?
龍芯新款處理器發(fā)布;Citrix 產(chǎn)品曝“驚天漏洞”,影響全球 8 萬(wàn)家公司; AMD發(fā)布年度5大里程碑 ……
Hinton、吳恩達(dá)們也“吹牛”炒作?媒體和研究人員共謀,AI圈誤導(dǎo)信息泛濫
你的 App 在 iOS 13 上被卡死了嗎?
2019 最爛密碼排行榜大曝光!網(wǎng)友:已中招!
不用失去控制權(quán)和所有權(quán),也能在區(qū)塊鏈中通過(guò)數(shù)據(jù)共享獲得獎(jiǎng)勵(lì)?
真香,朕在看了!
總結(jié)
以上是生活随笔為你收集整理的牵手大企,关于图形计算、HPC与AI,NVIDIA言有尽而意无穷!的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 云+X案例展 | 电商零售类:云徙助力良
- 下一篇: 【重磅快讯】T11 2019数据智能技术