多线程处理缓慢_华为昇腾,AI推理性能超越对手一倍:软件挖掘处理器全部潜力...
機器之心報道
編輯:澤南
華為的 Atlas,一次就讓業(yè)界最佳水平翻了一倍。
「硬件是 AI 的基礎(chǔ),但軟件是核心。目前華為昇騰有 70% 研發(fā)人員專注于軟件的開發(fā),希望能把昇騰處理器的潛力全部發(fā)揮出來。」華為昇騰計算業(yè)務(wù)總裁許映童說道。
在本周舉行的 HAI 2020 新品發(fā)布會上,華為發(fā)布了迄今為止業(yè)界最完整的 AI 全棧軟件平臺,覆蓋從基礎(chǔ)軟件到應(yīng)用能力的所有方面,在推出業(yè)內(nèi)最強 AI 處理器「昇騰」系列之后,軟件成為了華為昇騰技術(shù)發(fā)展的新方向。
華為昇騰計算業(yè)務(wù)總裁許映童在發(fā)布會上。
這是華為首次披露昇騰 AI 全棧軟件平臺的所有能力。
價格更低,性能翻倍
后摩爾定律時代,人們要想獲得算力提升,很大程度上需要仰賴計算堆棧的「頂層」,即軟件、算法和硬件架構(gòu),這將成為一個新的歷史趨勢。前不久,刊登在 Science 上的一篇文章《There’s plenty of room at the Top: What will drive computer performance after Moore’s law?》引起了人們的廣泛討論:研究人員指出,在軟件層面上,我們還能找到大幅度提升 AI 計算性能的方法。
在 HAI 2020 大會上,華為展示了 Atlas300I 單卡支持 80 路 1080P 智能視頻分析的能力,這個數(shù)字是目前競爭對手 Tesla T4 的兩倍。在這背后,既有硬件架構(gòu)的設(shè)計,也有強大軟件的功勞。
截止 2018 年,國內(nèi)的攝像頭的數(shù)量就已經(jīng)超過了 2 億個,攝像頭的數(shù)量越來越多,視頻數(shù)量暴增,然而大部分視頻內(nèi)容是無效的,想要剔除大部分無效視頻數(shù)據(jù),需要人工智能技術(shù)對視頻進行智能分析。對于技術(shù)供應(yīng)者和用戶來說,智能視頻分析技術(shù)需要大規(guī)模應(yīng)用需要解決算法精度的問題,并不斷降低應(yīng)用成本。
隨著近年來深度學習等技術(shù)的發(fā)展,AI 算法識別的精度已不成問題,但越來越多的數(shù)據(jù)、不斷倍增的模型算力需求和緩慢的芯片制程提升之間存在不小的矛盾。
華為的 Atlas 300I 單卡視頻分析能力,可以為公安、交警等部門,以及不少企業(yè)用戶在應(yīng)用場景中帶來巨大的便利。
一張推理卡接管 80 路高清視頻,這是怎么做到的?從視頻解碼到系統(tǒng)優(yōu)化,華為在任務(wù)處理的每個環(huán)節(jié)上都做了極致的優(yōu)化。
首先,在進行人臉識別、視頻結(jié)構(gòu)化、動作識別等智能視頻分析之前,我們需要將視頻流解碼為圖片流,隨后才能輸出給深度學習算法。每塊昇騰 310 芯片中都搭載了 DVPP 硬件單元,至少可支持 16 路 1080P@30fps 的視頻解碼需求,對于 25FPS 的視頻流,則可以支持超過 20 路——在每張 Atlas 300I 卡上,有 4 塊這樣的芯片。
Ascend(昇騰)310 芯片的邏輯結(jié)構(gòu)圖。
在視頻解碼之后,我們還希望在計算卡上進行數(shù)據(jù)的臨時存儲。在這里,智能視頻分析路數(shù)越多,需要緩存的目標圖像數(shù)量就越大,存儲空間占用量也就越大。在 Atlas 310I 計算卡上,華為塞進了共計 32GB 的 DDR 存儲空間。
另一方面,由于異構(gòu)計算架構(gòu) CANN 3.0 對視頻解碼流程和底層驅(qū)動進行了優(yōu)化,每路 1080P 視頻的解碼存儲空間占用量可以小于 90MB。
在硬件部署之后,設(shè)備的算力峰值是固定的,進一步提升算法性能的任務(wù)就落在了軟件優(yōu)化上。華為的工程師希望從算子性能和神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)兩方面提升算力效率。昇騰系列處理的離線模型轉(zhuǎn)換工具 ATC 集成了大量深度優(yōu)化后的算子和算子融合規(guī)則,在離線算子轉(zhuǎn)化過程中會對計算圖進行優(yōu)化和融合,從而提升硬件資源占用率,提升網(wǎng)絡(luò)性能。
從之前的各種實驗結(jié)果看,昇騰處理適合于 YOLO V3、Inception V3、ResNet 系列神經(jīng)網(wǎng)絡(luò)的加速,因此在智能視頻分析任務(wù)(如動態(tài)人臉識別)中,我們可以選擇類 YOLO V3 架構(gòu)(如 YOLO V3-Tiny)的算法模型作為目標檢測算法,Inception V3、ResNet 系列算法作為分類、特征提取算法或其他網(wǎng)絡(luò)模型的主網(wǎng)絡(luò),可以極大的提升處理性能,充分發(fā)揮算力優(yōu)勢。
在以上四個優(yōu)化步驟之后,華為還有多線程時間并行、合理多 Batch 推理、異構(gòu)資源優(yōu)化等方式進一步對整個流程的各部分進行優(yōu)化,充分利用異構(gòu)計算資源,提升了系統(tǒng)的線性程度,提高了吞吐量。
使用昇騰芯片進行智能視頻分析,大幅度降低了視頻分析的單路硬件成本,為 AI 智能視頻分析技術(shù)的大規(guī)模推廣奠定了基礎(chǔ)。
極簡易用的昇騰 AI 全棧軟件平臺
Atlas300I 業(yè)內(nèi)最佳性能的成績,是華為昇騰軟件強大的體現(xiàn)。
不僅效率極高,而且簡單易用,華為在 HAI 大會上新發(fā)布的產(chǎn)品包括異構(gòu)計算架構(gòu) CANN 3.0、全場景 AI 計算框架 MindSpore、全流程開發(fā)工具鏈 MindStudio 2.0、昇騰應(yīng)用使能 MindX 等。提供的能力覆蓋從算子、模型開發(fā)到應(yīng)用開發(fā)等所有方面:簡而言之,就是可以用一套工具搞定所有任務(wù)。
「把簡單留給別人,把復雜留給自己。華為昇騰 AI 全棧軟件平臺可以最大程度發(fā)揮硬件性能,降低 AI 應(yīng)用開發(fā)的門檻。」許映童在發(fā)布會上表示。
此前,想把最先進的 AI 技術(shù)應(yīng)用到實踐中去,我們面臨著不少挑戰(zhàn)。「對于行業(yè)用戶來說,選擇哪些 AI 模型是一個難以抉擇的問題。我們看到很多客戶還在使用三四年前提出的,較為落后的模型,他們的技術(shù)升級速度較慢,技術(shù)難倒英雄漢。」許映童說道。
AI 算法到產(chǎn)品化應(yīng)用有很遠,從模型獲取,數(shù)據(jù)準備到最終的適配開發(fā),初創(chuàng)企業(yè)沒有時間和精力完整走完所有歷程。即使對于一些大公司來說,人工智能的人員專業(yè)性需求高,同樣影響了 AI 技術(shù)在產(chǎn)業(yè)落地。
這些問題,華為認為都不應(yīng)該由開發(fā)者來解決,新發(fā)布的 MindX 和 CANN 3.0,就是為了讓 AI 直接可用而生的。
「汽車司機關(guān)心的是如何把人和貨物準確送到目的地,而不會去研究汽油如何煉化,或發(fā)動機如何工作,」華為昇騰計算業(yè)務(wù) CTO 周斌博士說道。「我相信大量行業(yè)應(yīng)用的 AI 開發(fā)者更需要 AI 能力的支持,而不是研究原理。這就是我們推出 MindX 的初衷:把復雜的工作交給 MindX,你只需關(guān)注如何開發(fā)應(yīng)用,如何把 AI 能力集成進去。」
MindX 1.0 帶來了「2+1+X」模式,其中的 2 是指兩個平臺 MindX DL(Atlas 深度學習平臺)和 MindX Edge(Atlas 智能邊緣平臺),分別面向云端和邊緣側(cè);1 指優(yōu)選模型庫 Model Zoo,而 X 則是使能各行業(yè)的 SDK 工具,先期開放的包括視覺SDK mxVision 和制造 SDK mxManufacture。
另一個重要是軟件系統(tǒng)是 CANN 3.0 異構(gòu)計算架構(gòu)。自 2018 年隨華為第一代 AI 芯片發(fā)布起,CANN 已經(jīng)走過兩個大版本的更新,8 月 10 日發(fā)布的 CANN 3.0 核心理念在于統(tǒng)一端邊云和架構(gòu),自動部署,支持多種計算架構(gòu),同時支持后向兼容和演進。CANN 3.0 不是簡單地軟件或平臺,它是一個完整的開發(fā)體系,其中包含編程語言 TBE,編譯及調(diào)試工具,還有編程模型。
正是得益于 CANN 3.0 的架構(gòu)優(yōu)化,華為實現(xiàn)了一塊 Atlas 300I 推理卡實時處理 80 路視頻的能力,此前業(yè)內(nèi)最佳的水平是 40 路。華為表示,在實驗室里,這個數(shù)字還可以更高。
有關(guān)人們是如何把 AI 技術(shù)應(yīng)用到各個行業(yè)的,華為對開發(fā)者做了一個簡單的畫像:最頂尖的開發(fā)者希望進行 AI 算子和神經(jīng)網(wǎng)絡(luò)開發(fā),人數(shù)只占到 1%——他們需要用到 CANN 3.0 和 Mind Studio 的解決方案。
第二類是占比 10% 的 AI 應(yīng)用開發(fā)者,他們需要 AI 的能力來輔助各類研究。這既需要 AI 基礎(chǔ)知識,也需要相關(guān)專業(yè)領(lǐng)域的知識,他們需要的是開源 AI 框架 MindSpore——在大多數(shù)時間內(nèi),開發(fā)者們無需了解 AI 算法的具體實現(xiàn)。
「第三類開發(fā)者,則是把 AI 技術(shù)當作一種服務(wù)的 90% 客戶,他們無需理解應(yīng)用背后的是 YOLO v3,ResNet50 還是其他什么算法。使用華為全新的 MindX 1.0,可以全面加速這類工作的開發(fā)速度。」許映童表示。
發(fā)力軟件的華為
在以往華為的發(fā)布會上,最吸引眼球的往往是硬件和芯片。這次的 HAI 大會則不太一樣,華為花費大量篇幅探討軟件的重要性。正如研究人員所說,除了發(fā)展新形態(tài)的 AI 硬件之外,軟硬結(jié)合才能發(fā)揮 AI 的澎湃算力。而在這一方面,華為也證明了自己能做到最好。
華為的全場景 AI 技術(shù)已在很多客戶的業(yè)務(wù)中部署,當然首先就是華為自己。在松山湖園區(qū),基于 Atlas 的智能制造方案已經(jīng)在計算產(chǎn)品的生產(chǎn)線上實現(xiàn)了大規(guī)模應(yīng)用——AI 技術(shù)貫穿了華為制造的每個環(huán)節(jié),就連 Atlas 板卡也是使用 Atlas 技術(shù)制造的。人工智能在完成標簽缺陷檢測、螺釘缺失等任務(wù)上已可以實現(xiàn)「秒級檢測」,將質(zhì)檢準確率由之前的傳統(tǒng)機器視覺質(zhì)檢的 90% 提升至 99.9%,質(zhì)檢人員的工作效率提升了 3 倍。
華為已在自家工廠里實現(xiàn) AI 的工位級、線體級、車間級應(yīng)用,覆蓋了超過 80 個產(chǎn)線,面向云計算、5G 通信、終端等產(chǎn)品。而實現(xiàn)如此大規(guī)模的 AI 應(yīng)用,除了打造軟件工具之外,華為只投入了三名開發(fā)人員。
「在過去一年里,華為昇騰的生態(tài)布局初見成效。目前在國內(nèi)已有 60 所高校開設(shè)了昇騰課程,預(yù)計到今年年底,這個數(shù)字會增長到 100 個以上,昇騰的開發(fā)者數(shù)量已達到 4 萬多人。這些發(fā)展只是小小的第一步,當前的 AI 技術(shù)正處在爆發(fā)性增長的前夜。」許映童說道。
在 HAI 2020 大會上,華為也為即將推出的昇騰處理器做出了一點預(yù)告:搭載新一代芯片的華為 AI 訓練卡,其性能超過了英偉達 A100。
做好軟硬協(xié)同硬核能力,保持開源開放,吸引更多合作伙伴,華為正希望通過領(lǐng)先技術(shù)讓昇騰領(lǐng)跑產(chǎn)業(yè) AI 的未來。
總結(jié)
以上是生活随笔為你收集整理的多线程处理缓慢_华为昇腾,AI推理性能超越对手一倍:软件挖掘处理器全部潜力...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 上海欢乐谷残疾人免票吗
- 下一篇: 孤单的城市是哪首歌啊?