當前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

达芬奇架构NPU

發布時間：2023/11/28 生活经验 61 豆豆

生活随笔收集整理的這篇文章主要介紹了达芬奇架构NPU 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

達芬奇架構NPU
　　達芬奇架構的核心優勢是什么？如何更好地賦能麒麟990？
　　達芬奇架構，是華為自研的面向AI計算特征的全新計算架構，具備高算力、高能效、靈活可裁剪的特性，是實現萬物智能的重要基礎。具體來說，達芬奇架構采用3D Cube針對矩陣運算做加速，大幅提升單位功耗下的AI算力，每個AI Core可以在一個時鐘周期內實現4096個MAC操作，相比傳統的CPU和GPU實現數量級的提升。　
　　
　　　
　　3D Cube
　　同時，為了提升AI計算的完備性和不同場景的計算效率，達芬奇架構還集成了向量、標量、硬件加速器等多種計算單元。支持多種精度計算，支撐訓練和推理兩種場景的數據精度要求，實現AI的全場景需求覆蓋。
　　在如智能手機等實際端側AI應場景中，AI算力與功耗的協調是至關重要的，一般來講更高的AI算力意味著更大的功耗，因此智能手機的續航常常使AI算力受限。而有了達芬奇架構NPU，這一狀況將得到改善，如果麒麟990能夠搭載達芬奇架構NPU，麒麟芯片或將再次迎來震動行業的算力升級。
　　DaVinci Core是如何實現高效AI計算的？
　　華為推出AI芯片昇騰310，達芬奇架構，昇騰310相當于AI芯片中的NPU。其中，DaVinci Core只是NPU的一個部分，DaVinci Core內部還細分成很多單元，包括核心的3D Cube、Vector向量計算單元、Scalar標量計算單元等，各自負責不同的運算任務實現并行化計算模型，共同保障AI計算的高效處理。
　　

? 3D Cube矩陣乘法單元：算力擔當
　　剛才已經提到，矩陣乘是AI計算的核心，這部分運算由3D Cube完成，Buffer L0A,L0B,L0C則用于存儲輸入矩陣和輸出矩陣數據，負責向Cube計算單元輸送數據和存放計算結果。
? Vector向量計算單元：靈活的多面手
　　雖然Cube的算力很強大，但只能完成矩陣乘運算，還有很多計算類型要依靠Vector向量計算單元來完成。Vector的指令相對來說非常豐富，可以覆蓋各種基本的計算類型和許多定制的計算類型.
? Scalar標量計算單元：流程控制的管家
　　Scalar標量運算單元主要負責AI Core的標量運算，功能上可以看作一個小CPU，完成整個程序的循環控制，分支判斷，Cube/Vector等指令的地址和參數計算以及基本的算術運算等。
　　3D Cube計算方式，有哪些獨特的優勢？
　　不同于以往的標量、矢量運算模式，華為達芬奇架構以高性能3D Cube計算引擎為基礎，針對矩陣運算進行加速，大幅提高單位面積下的AI算力，充分激發端側AI的運算潛能。以兩個NN的矩陣AB 乘法為例：如果是N個1D 的MAC，需要N^{2（即N的2次方）的cycle數；如果是1個N}2的2D MAC陣列，需要N個Cycle；如果是1個N維3D的Cube，只需要1個Cycle。
　　

（圖中的計算單元的數量只是示意。實際可靈活設計）
　　華為創新設計的達芬奇架構將大幅提升算力，161616的3D Cube能夠顯著提升數據利用率，縮短運算周期，實現更快更強的AI運算。這是什么意思呢？舉例來說，同樣是完成4096次運算，2D結構需要64行64列才能計算，3D Cube只需要161616的結構就能算出。其中，6464結構帶來的問題是：運算周期長、時延高、利用率低。
　　達芬奇架構的這一特性也完美體現在麒麟810上。作為首款采用達芬奇架構NPU的手機SoC芯片，麒麟810實現強勁的AI算力，在單位面積上實現最佳能效，FP16精度和INT8量化精度業界領先，搭載這款SoC芯片的華為Nova 5、Nova 5i Pro及榮耀9X手機已上市，為廣大消費者提供多種精彩的AI應用體驗。
　　更強算力的麒麟990，開啟互聯互通的智慧新場景
　　一直以來，麒麟芯片的AI實力之所以受到人們的認可，除了強勁的AI計算力領先行業，華為手機實現眾多應用場景。達芬奇架構作為華為自研架構，在應用適應性方面與華為的理念一脈相承，基于靈活可擴展的特性，達芬奇架構能夠滿足端側、邊緣側及云端的應用場景，可用于小到幾十毫瓦，大到幾百瓦的訓練場景，橫跨全場景提供最優算力，麒麟990所使用到的只是端側AI最基本的一部分。
　
　
　　并且，想要真正實現萬物互聯的AI生態，離不開廣大的AI開發者，那么選擇開發統一架構就是一個非常關鍵的決策了。對于廣大開發者來說，基于達芬奇架構的統一性，在面對云端、邊緣側、端側等全場景應用開發時，只需要進行一次算子開發和調試，就可以應用于包括麒麟芯片在內的不同平臺，大幅降低了遷移成本。
　
　
　　體驗最多的AI應用大多來源于智能手機，但對于整個AI生態來說，智能手機只是一個開端，未來更多的AI應用涌現、跨平臺遷移才能真正實現無處不在的智慧生活。因此，如果麒麟990真的搭載了達芬奇架構NPU，不止是手機算力提升那么簡單，以AI之力加速萬物互聯的智慧時代。
　　采用達芬奇架構AI芯片Ascend 910，與之配套的新一代AI開源計算框架MindSpore。

總結

以上是生活随笔為你收集整理的达芬奇架构NPU的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。