日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人文社科 > 生活经验 >内容正文

生活经验

达芬奇架构NPU

發布時間:2023/11/28 生活经验 61 豆豆
生活随笔 收集整理的這篇文章主要介紹了 达芬奇架构NPU 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

達芬奇架構NPU
  達芬奇架構的核心優勢是什么?如何更好地賦能麒麟990?
  達芬奇架構,是華為自研的面向AI計算特征的全新計算架構,具備高算力、高能效、靈活可裁剪的特性,是實現萬物智能的重要基礎。具體來說,達芬奇架構采用3D Cube針對矩陣運算做加速,大幅提升單位功耗下的AI算力,每個AI Core可以在一個時鐘周期內實現4096個MAC操作,相比傳統的CPU和GPU實現數量級的提升。 
  
    
  3D Cube
  同時,為了提升AI計算的完備性和不同場景的計算效率,達芬奇架構還集成了向量、標量、硬件加速器等多種計算單元。支持多種精度計算,支撐訓練和推理兩種場景的數據精度要求,實現AI的全場景需求覆蓋。
  在如智能手機等實際端側AI應場景中,AI算力與功耗的協調是至關重要的,一般來講更高的AI算力意味著更大的功耗,因此智能手機的續航常常使AI算力受限。而有了達芬奇架構NPU,這一狀況將得到改善,如果麒麟990能夠搭載達芬奇架構NPU,麒麟芯片或將再次迎來震動行業的算力升級。
  DaVinci Core是如何實現高效AI計算的?
  華為推出AI芯片昇騰310,達芬奇架構,昇騰310相當于AI芯片中的NPU。其中,DaVinci Core只是NPU的一個部分,DaVinci Core內部還細分成很多單元,包括核心的3D Cube、Vector向量計算單元、Scalar標量計算單元等,各自負責不同的運算任務實現并行化計算模型,共同保障AI計算的高效處理。
  

? 3D Cube矩陣乘法單元:算力擔當
  剛才已經提到,矩陣乘是AI計算的核心,這部分運算由3D Cube完成,Buffer L0A,L0B,L0C則用于存儲輸入矩陣和輸出矩陣數據,負責向Cube計算單元輸送數據和存放計算結果。
? Vector向量計算單元:靈活的多面手
  雖然Cube的算力很強大,但只能完成矩陣乘運算,還有很多計算類型要依靠Vector向量計算單元來完成。Vector的指令相對來說非常豐富,可以覆蓋各種基本的計算類型和許多定制的計算類型.
? Scalar標量計算單元:流程控制的管家
  Scalar標量運算單元主要負責AI Core的標量運算,功能上可以看作一個小CPU,完成整個程序的循環控制,分支判斷,Cube/Vector等指令的地址和參數計算以及基本的算術運算等。
  3D Cube計算方式,有哪些獨特的優勢?
  不同于以往的標量、矢量運算模式,華為達芬奇架構以高性能3D Cube計算引擎為基礎,針對矩陣運算進行加速,大幅提高單位面積下的AI算力,充分激發端側AI的運算潛能。以兩個NN的矩陣AB 乘法為例:如果是N個1D 的MAC,需要N2(即N的2次方)的cycle數;如果是1個N2的2D MAC陣列,需要N個Cycle;如果是1個N維3D的Cube,只需要1個Cycle。
  

(圖中的計算單元的數量只是示意。實際可靈活設計)
  華為創新設計的達芬奇架構將大幅提升算力,161616的3D Cube能夠顯著提升數據利用率,縮短運算周期,實現更快更強的AI運算。這是什么意思呢?舉例來說,同樣是完成4096次運算,2D結構需要64行64列才能計算,3D Cube只需要161616的結構就能算出。其中,6464結構帶來的問題是:運算周期長、時延高、利用率低。
  達芬奇架構的這一特性也完美體現在麒麟810上。作為首款采用達芬奇架構NPU的手機SoC芯片,麒麟810實現強勁的AI算力,在單位面積上實現最佳能效,FP16精度和INT8量化精度業界領先,搭載這款SoC芯片的華為Nova 5、Nova 5i Pro及榮耀9X手機已上市,為廣大消費者提供多種精彩的AI應用體驗。
  更強算力的麒麟990,開啟互聯互通的智慧新場景
  一直以來,麒麟芯片的AI實力之所以受到人們的認可,除了強勁的AI計算力領先行業,華為手機實現眾多應用場景。達芬奇架構作為華為自研架構,在應用適應性方面與華為的理念一脈相承,基于靈活可擴展的特性,達芬奇架構能夠滿足端側、邊緣側及云端的應用場景,可用于小到幾十毫瓦,大到幾百瓦的訓練場景,橫跨全場景提供最優算力,麒麟990所使用到的只是端側AI最基本的一部分。
 
 
  并且,想要真正實現萬物互聯的AI生態,離不開廣大的AI開發者,那么選擇開發統一架構就是一個非常關鍵的決策了。對于廣大開發者來說,基于達芬奇架構的統一性,在面對云端、邊緣側、端側等全場景應用開發時,只需要進行一次算子開發和調試,就可以應用于包括麒麟芯片在內的不同平臺,大幅降低了遷移成本。
 
 
  體驗最多的AI應用大多來源于智能手機,但對于整個AI生態來說,智能手機只是一個開端,未來更多的AI應用涌現、跨平臺遷移才能真正實現無處不在的智慧生活。因此,如果麒麟990真的搭載了達芬奇架構NPU,不止是手機算力提升那么簡單,以AI之力加速萬物互聯的智慧時代。
  采用達芬奇架構AI芯片Ascend 910,與之配套的新一代AI開源計算框架MindSpore。

總結

以上是生活随笔為你收集整理的达芬奇架构NPU的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。