多线程处理缓慢_华为昇腾,AI推理性能超越对手一倍:软件挖掘处理器全部潜力...
機(jī)器之心報(bào)道
編輯:澤南
華為的 Atlas,一次就讓業(yè)界最佳水平翻了一倍。
「硬件是 AI 的基礎(chǔ),但軟件是核心。目前華為昇騰有 70% 研發(fā)人員專注于軟件的開發(fā),希望能把昇騰處理器的潛力全部發(fā)揮出來。」華為昇騰計(jì)算業(yè)務(wù)總裁許映童說道。
在本周舉行的 HAI 2020 新品發(fā)布會(huì)上,華為發(fā)布了迄今為止業(yè)界最完整的 AI 全棧軟件平臺(tái),覆蓋從基礎(chǔ)軟件到應(yīng)用能力的所有方面,在推出業(yè)內(nèi)最強(qiáng) AI 處理器「昇騰」系列之后,軟件成為了華為昇騰技術(shù)發(fā)展的新方向。
華為昇騰計(jì)算業(yè)務(wù)總裁許映童在發(fā)布會(huì)上。
這是華為首次披露昇騰 AI 全棧軟件平臺(tái)的所有能力。
價(jià)格更低,性能翻倍
后摩爾定律時(shí)代,人們要想獲得算力提升,很大程度上需要仰賴計(jì)算堆棧的「頂層」,即軟件、算法和硬件架構(gòu),這將成為一個(gè)新的歷史趨勢(shì)。前不久,刊登在 Science 上的一篇文章《There’s plenty of room at the Top: What will drive computer performance after Moore’s law?》引起了人們的廣泛討論:研究人員指出,在軟件層面上,我們還能找到大幅度提升 AI 計(jì)算性能的方法。
在 HAI 2020 大會(huì)上,華為展示了 Atlas300I 單卡支持 80 路 1080P 智能視頻分析的能力,這個(gè)數(shù)字是目前競(jìng)爭(zhēng)對(duì)手 Tesla T4 的兩倍。在這背后,既有硬件架構(gòu)的設(shè)計(jì),也有強(qiáng)大軟件的功勞。
截止 2018 年,國(guó)內(nèi)的攝像頭的數(shù)量就已經(jīng)超過了 2 億個(gè),攝像頭的數(shù)量越來越多,視頻數(shù)量暴增,然而大部分視頻內(nèi)容是無效的,想要剔除大部分無效視頻數(shù)據(jù),需要人工智能技術(shù)對(duì)視頻進(jìn)行智能分析。對(duì)于技術(shù)供應(yīng)者和用戶來說,智能視頻分析技術(shù)需要大規(guī)模應(yīng)用需要解決算法精度的問題,并不斷降低應(yīng)用成本。
隨著近年來深度學(xué)習(xí)等技術(shù)的發(fā)展,AI 算法識(shí)別的精度已不成問題,但越來越多的數(shù)據(jù)、不斷倍增的模型算力需求和緩慢的芯片制程提升之間存在不小的矛盾。
華為的 Atlas 300I 單卡視頻分析能力,可以為公安、交警等部門,以及不少企業(yè)用戶在應(yīng)用場(chǎng)景中帶來巨大的便利。
一張推理卡接管 80 路高清視頻,這是怎么做到的?從視頻解碼到系統(tǒng)優(yōu)化,華為在任務(wù)處理的每個(gè)環(huán)節(jié)上都做了極致的優(yōu)化。
首先,在進(jìn)行人臉識(shí)別、視頻結(jié)構(gòu)化、動(dòng)作識(shí)別等智能視頻分析之前,我們需要將視頻流解碼為圖片流,隨后才能輸出給深度學(xué)習(xí)算法。每塊昇騰 310 芯片中都搭載了 DVPP 硬件單元,至少可支持 16 路 1080P@30fps 的視頻解碼需求,對(duì)于 25FPS 的視頻流,則可以支持超過 20 路——在每張 Atlas 300I 卡上,有 4 塊這樣的芯片。
Ascend(昇騰)310 芯片的邏輯結(jié)構(gòu)圖。
在視頻解碼之后,我們還希望在計(jì)算卡上進(jìn)行數(shù)據(jù)的臨時(shí)存儲(chǔ)。在這里,智能視頻分析路數(shù)越多,需要緩存的目標(biāo)圖像數(shù)量就越大,存儲(chǔ)空間占用量也就越大。在 Atlas 310I 計(jì)算卡上,華為塞進(jìn)了共計(jì) 32GB 的 DDR 存儲(chǔ)空間。
另一方面,由于異構(gòu)計(jì)算架構(gòu) CANN 3.0 對(duì)視頻解碼流程和底層驅(qū)動(dòng)進(jìn)行了優(yōu)化,每路 1080P 視頻的解碼存儲(chǔ)空間占用量可以小于 90MB。
在硬件部署之后,設(shè)備的算力峰值是固定的,進(jìn)一步提升算法性能的任務(wù)就落在了軟件優(yōu)化上。華為的工程師希望從算子性能和神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)兩方面提升算力效率。昇騰系列處理的離線模型轉(zhuǎn)換工具 ATC 集成了大量深度優(yōu)化后的算子和算子融合規(guī)則,在離線算子轉(zhuǎn)化過程中會(huì)對(duì)計(jì)算圖進(jìn)行優(yōu)化和融合,從而提升硬件資源占用率,提升網(wǎng)絡(luò)性能。
從之前的各種實(shí)驗(yàn)結(jié)果看,昇騰處理適合于 YOLO V3、Inception V3、ResNet 系列神經(jīng)網(wǎng)絡(luò)的加速,因此在智能視頻分析任務(wù)(如動(dòng)態(tài)人臉識(shí)別)中,我們可以選擇類 YOLO V3 架構(gòu)(如 YOLO V3-Tiny)的算法模型作為目標(biāo)檢測(cè)算法,Inception V3、ResNet 系列算法作為分類、特征提取算法或其他網(wǎng)絡(luò)模型的主網(wǎng)絡(luò),可以極大的提升處理性能,充分發(fā)揮算力優(yōu)勢(shì)。
在以上四個(gè)優(yōu)化步驟之后,華為還有多線程時(shí)間并行、合理多 Batch 推理、異構(gòu)資源優(yōu)化等方式進(jìn)一步對(duì)整個(gè)流程的各部分進(jìn)行優(yōu)化,充分利用異構(gòu)計(jì)算資源,提升了系統(tǒng)的線性程度,提高了吞吐量。
使用昇騰芯片進(jìn)行智能視頻分析,大幅度降低了視頻分析的單路硬件成本,為 AI 智能視頻分析技術(shù)的大規(guī)模推廣奠定了基礎(chǔ)。
極簡(jiǎn)易用的昇騰 AI 全棧軟件平臺(tái)
Atlas300I 業(yè)內(nèi)最佳性能的成績(jī),是華為昇騰軟件強(qiáng)大的體現(xiàn)。
不僅效率極高,而且簡(jiǎn)單易用,華為在 HAI 大會(huì)上新發(fā)布的產(chǎn)品包括異構(gòu)計(jì)算架構(gòu) CANN 3.0、全場(chǎng)景 AI 計(jì)算框架 MindSpore、全流程開發(fā)工具鏈 MindStudio 2.0、昇騰應(yīng)用使能 MindX 等。提供的能力覆蓋從算子、模型開發(fā)到應(yīng)用開發(fā)等所有方面:簡(jiǎn)而言之,就是可以用一套工具搞定所有任務(wù)。
「把簡(jiǎn)單留給別人,把復(fù)雜留給自己。華為昇騰 AI 全棧軟件平臺(tái)可以最大程度發(fā)揮硬件性能,降低 AI 應(yīng)用開發(fā)的門檻。」許映童在發(fā)布會(huì)上表示。
此前,想把最先進(jìn)的 AI 技術(shù)應(yīng)用到實(shí)踐中去,我們面臨著不少挑戰(zhàn)。「對(duì)于行業(yè)用戶來說,選擇哪些 AI 模型是一個(gè)難以抉擇的問題。我們看到很多客戶還在使用三四年前提出的,較為落后的模型,他們的技術(shù)升級(jí)速度較慢,技術(shù)難倒英雄漢?!乖S映童說道。
AI 算法到產(chǎn)品化應(yīng)用有很遠(yuǎn),從模型獲取,數(shù)據(jù)準(zhǔn)備到最終的適配開發(fā),初創(chuàng)企業(yè)沒有時(shí)間和精力完整走完所有歷程。即使對(duì)于一些大公司來說,人工智能的人員專業(yè)性需求高,同樣影響了 AI 技術(shù)在產(chǎn)業(yè)落地。
這些問題,華為認(rèn)為都不應(yīng)該由開發(fā)者來解決,新發(fā)布的 MindX 和 CANN 3.0,就是為了讓 AI 直接可用而生的。
「汽車司機(jī)關(guān)心的是如何把人和貨物準(zhǔn)確送到目的地,而不會(huì)去研究汽油如何煉化,或發(fā)動(dòng)機(jī)如何工作,」華為昇騰計(jì)算業(yè)務(wù) CTO 周斌博士說道?!肝蚁嘈糯罅啃袠I(yè)應(yīng)用的 AI 開發(fā)者更需要 AI 能力的支持,而不是研究原理。這就是我們推出 MindX 的初衷:把復(fù)雜的工作交給 MindX,你只需關(guān)注如何開發(fā)應(yīng)用,如何把 AI 能力集成進(jìn)去?!?/p>
MindX 1.0 帶來了「2+1+X」模式,其中的 2 是指兩個(gè)平臺(tái) MindX DL(Atlas 深度學(xué)習(xí)平臺(tái))和 MindX Edge(Atlas 智能邊緣平臺(tái)),分別面向云端和邊緣側(cè);1 指優(yōu)選模型庫 Model Zoo,而 X 則是使能各行業(yè)的 SDK 工具,先期開放的包括視覺SDK mxVision 和制造 SDK mxManufacture。
另一個(gè)重要是軟件系統(tǒng)是 CANN 3.0 異構(gòu)計(jì)算架構(gòu)。自 2018 年隨華為第一代 AI 芯片發(fā)布起,CANN 已經(jīng)走過兩個(gè)大版本的更新,8 月 10 日發(fā)布的 CANN 3.0 核心理念在于統(tǒng)一端邊云和架構(gòu),自動(dòng)部署,支持多種計(jì)算架構(gòu),同時(shí)支持后向兼容和演進(jìn)。CANN 3.0 不是簡(jiǎn)單地軟件或平臺(tái),它是一個(gè)完整的開發(fā)體系,其中包含編程語言 TBE,編譯及調(diào)試工具,還有編程模型。
正是得益于 CANN 3.0 的架構(gòu)優(yōu)化,華為實(shí)現(xiàn)了一塊 Atlas 300I 推理卡實(shí)時(shí)處理 80 路視頻的能力,此前業(yè)內(nèi)最佳的水平是 40 路。華為表示,在實(shí)驗(yàn)室里,這個(gè)數(shù)字還可以更高。
有關(guān)人們是如何把 AI 技術(shù)應(yīng)用到各個(gè)行業(yè)的,華為對(duì)開發(fā)者做了一個(gè)簡(jiǎn)單的畫像:最頂尖的開發(fā)者希望進(jìn)行 AI 算子和神經(jīng)網(wǎng)絡(luò)開發(fā),人數(shù)只占到 1%——他們需要用到 CANN 3.0 和 Mind Studio 的解決方案。
第二類是占比 10% 的 AI 應(yīng)用開發(fā)者,他們需要 AI 的能力來輔助各類研究。這既需要 AI 基礎(chǔ)知識(shí),也需要相關(guān)專業(yè)領(lǐng)域的知識(shí),他們需要的是開源 AI 框架 MindSpore——在大多數(shù)時(shí)間內(nèi),開發(fā)者們無需了解 AI 算法的具體實(shí)現(xiàn)。
「第三類開發(fā)者,則是把 AI 技術(shù)當(dāng)作一種服務(wù)的 90% 客戶,他們無需理解應(yīng)用背后的是 YOLO v3,ResNet50 還是其他什么算法。使用華為全新的 MindX 1.0,可以全面加速這類工作的開發(fā)速度?!乖S映童表示。
發(fā)力軟件的華為
在以往華為的發(fā)布會(huì)上,最吸引眼球的往往是硬件和芯片。這次的 HAI 大會(huì)則不太一樣,華為花費(fèi)大量篇幅探討軟件的重要性。正如研究人員所說,除了發(fā)展新形態(tài)的 AI 硬件之外,軟硬結(jié)合才能發(fā)揮 AI 的澎湃算力。而在這一方面,華為也證明了自己能做到最好。
華為的全場(chǎng)景 AI 技術(shù)已在很多客戶的業(yè)務(wù)中部署,當(dāng)然首先就是華為自己。在松山湖園區(qū),基于 Atlas 的智能制造方案已經(jīng)在計(jì)算產(chǎn)品的生產(chǎn)線上實(shí)現(xiàn)了大規(guī)模應(yīng)用——AI 技術(shù)貫穿了華為制造的每個(gè)環(huán)節(jié),就連 Atlas 板卡也是使用 Atlas 技術(shù)制造的。人工智能在完成標(biāo)簽缺陷檢測(cè)、螺釘缺失等任務(wù)上已可以實(shí)現(xiàn)「秒級(jí)檢測(cè)」,將質(zhì)檢準(zhǔn)確率由之前的傳統(tǒng)機(jī)器視覺質(zhì)檢的 90% 提升至 99.9%,質(zhì)檢人員的工作效率提升了 3 倍。
華為已在自家工廠里實(shí)現(xiàn) AI 的工位級(jí)、線體級(jí)、車間級(jí)應(yīng)用,覆蓋了超過 80 個(gè)產(chǎn)線,面向云計(jì)算、5G 通信、終端等產(chǎn)品。而實(shí)現(xiàn)如此大規(guī)模的 AI 應(yīng)用,除了打造軟件工具之外,華為只投入了三名開發(fā)人員。
「在過去一年里,華為昇騰的生態(tài)布局初見成效。目前在國(guó)內(nèi)已有 60 所高校開設(shè)了昇騰課程,預(yù)計(jì)到今年年底,這個(gè)數(shù)字會(huì)增長(zhǎng)到 100 個(gè)以上,昇騰的開發(fā)者數(shù)量已達(dá)到 4 萬多人。這些發(fā)展只是小小的第一步,當(dāng)前的 AI 技術(shù)正處在爆發(fā)性增長(zhǎng)的前夜?!乖S映童說道。
在 HAI 2020 大會(huì)上,華為也為即將推出的昇騰處理器做出了一點(diǎn)預(yù)告:搭載新一代芯片的華為 AI 訓(xùn)練卡,其性能超過了英偉達(dá) A100。
做好軟硬協(xié)同硬核能力,保持開源開放,吸引更多合作伙伴,華為正希望通過領(lǐng)先技術(shù)讓昇騰領(lǐng)跑產(chǎn)業(yè) AI 的未來。
總結(jié)
以上是生活随笔為你收集整理的多线程处理缓慢_华为昇腾,AI推理性能超越对手一倍:软件挖掘处理器全部潜力...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 上海欢乐谷残疾人免票吗
- 下一篇: springboot 打包_spring