當前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

NNVM AI框架编译器

發布時間：2023/11/28 生活经验 62 豆豆

生活随笔收集整理的這篇文章主要介紹了 NNVM AI框架编译器小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

NNVM AI框架編譯器
深度學習已變得無處不在且不可或缺。看到對在多種平臺（例如手機，GPU，IoT設備和專用加速器）上部署深度學習工作負載的需求不斷增長。TVM堆棧彌合深度學習框架與面向性能或效率的硬件后端之間的鴻溝。TVM堆棧使為深度學習框架輕松構建端到端編譯變得容易。擁有適用于所有框架的統一解決方案更好。
NNVM編譯器是一種開放式深度學習編譯器，用于將前端框架工作負載直接編譯到硬件后端。使用TVM堆棧中的兩級中間表示（IR）來構建。可以參考原始的TVM公告，以獲取有關TVM堆棧的更多技術細節。借助TVM堆棧，NNVM編譯器可以：
? 在高級圖IR中表示并優化常見的深度學習工作負載
? 轉換計算圖以最大程度地減少內存利用率，優化數據布局并融合不同硬件后端的計算模式。
? 提出從前端深度學習框架到裸機硬件的端到端編譯管道。

NNVM編譯器可以直接從深度學習框架（例如Apache MXNet）中獲取模型。支持模型交換格式，例如ONNX和CoreML。ONNX支持使NNVM能夠從PyTorch，Caffe2和CNTK編譯深度學習模型。CoreML前端支持將CoreML模型部署到非iOS設備。

優化與部署分離

NNVM編譯器應用圖級和張量級優化，并共同優化它們以獲得最佳性能。采用與現有深度學習框架不同的方法，后者將圖形優化與部署運行時打包在一起。NNVM編譯器采用了編譯器的傳統知識，將優化與實際部署運行時分開。這種方法提供了實質性的優化，但仍使運行時輕量級。編譯后的模塊僅取決于最小的TVM運行時，部署在Raspberry Pi或移動設備上時僅需300KB左右。
性能
NNVM編譯器仍在積極開發中，可以期待會有更多的改進，但是已經開始看到令人鼓舞的結果。對它的性能進行了基準測試，并在兩種典型的硬件配置上將其與Apache MXNet進行了比較：Raspberry PI上的ARM CPU和AWS上的Nvidia GPU。盡管這兩款芯片在架構上存在根本差異，但可以使用相同的基礎架構，只需要更改每種硬件的調度即可。
Nvidia GPU
GPU基準和調度將NNVM編譯器與Apache MXNet與CUDA8和cuDNN7作為Nvidia K80的后端進行了比較。這是一個非常強大的基準，因為Apache MXNet會打開自動調整功能，以從CuDNN中選擇最佳內核。使用了MXNet中優化的深度智能內核來優化MobileNet工作負載。

可以看出，NNVM編譯器生成的代碼勝過K80上的Apache MXNet。這些改進歸因于聯合圖級別和內核級別的優化。值得注意的是，NNVM編譯器可自行生成所有優化的GPU內核，而無需依賴諸如CuDNN之類的外部庫。
樹莓派3b
Rasberry Pi編譯堆棧將NNVM編譯器與帶有OpenBLAS和NNPack的Apache MXNet進行了比較。探索了使MXNet發揮最佳性能的設置：為3x3卷積打開了NNPACK中的Winograd卷積，啟用了多線程，并禁用了其他調度程序線程（因此，所有線程都被NNPack使用）。

可以看出，在ResNet18上，NNVM編譯器生成的代碼快兩倍。MobileNet上的差距主要是由于現有CPU DNN庫中缺乏深度卷積。NNVM編譯器利用直接直接生成有效的ARM代碼的優勢。
在構建NNVM編譯器時，包含以下項目內容。
? Theano：可能是最早的深度學習編譯器
? Halide：TVM使用HalideIR作為數據結構，以簡化數學運算和降低 low level lowering.。HalideIR衍生自Halide。當在TVM中實施降低流程the lowering pipeline時，參考了Halide結構。
? Loopy：使用整數集分析及其循環轉換原語。

總結

以上是生活随笔為你收集整理的NNVM AI框架编译器的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Deep Learning部署TVM G
下一篇： TVM在ARM GPU上优化移动深度学习

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

生活经验

NNVM AI框架编译器

總結