日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人文社科 > 生活经验 >内容正文

生活经验

NNVM AI框架编译器

發布時間:2023/11/28 生活经验 48 豆豆
生活随笔 收集整理的這篇文章主要介紹了 NNVM AI框架编译器 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

NNVM AI框架編譯器
深度學習已變得無處不在且不可或缺。看到對在多種平臺(例如手機,GPU,IoT設備和專用加速器)上部署深度學習工作負載的需求不斷增長。TVM堆棧彌合深度學習框架與面向性能或效率的硬件后端之間的鴻溝。TVM堆棧使為深度學習框架輕松構建端到端編譯變得容易。擁有適用于所有框架的統一解決方案更好。
NNVM編譯器是一種開放式深度學習編譯器,用于將前端框架工作負載直接編譯到硬件后端。使用TVM堆棧中的兩級中間表示(IR)來構建。可以參考原始的TVM公告,以獲取有關TVM堆棧的更多技術細節。借助TVM堆棧,NNVM編譯器可以:
? 在高級圖IR中表示并優化常見的深度學習工作負載
? 轉換計算圖以最大程度地減少內存利用率,優化數據布局并融合不同硬件后端的計算模式。
? 提出從前端深度學習框架到裸機硬件的端到端編譯管道。

NNVM編譯器可以直接從深度學習框架(例如Apache MXNet)中獲取模型。支持模型交換格式,例如ONNX和CoreML。ONNX支持使NNVM能夠從PyTorch,Caffe2和CNTK編譯深度學習模型。CoreML前端支持將CoreML模型部署到非iOS設備。

優化與部署分離

NNVM編譯器應用圖級和張量級優化,并共同優化它們以獲得最佳性能。采用與現有深度學習框架不同的方法,后者將圖形優化與部署運行時打包在一起。NNVM編譯器采用了編譯器的傳統知識,將優化與實際部署運行時分開。這種方法提供了實質性的優化,但仍使運行時輕量級。編譯后的模塊僅取決于最小的TVM運行時,部署在Raspberry Pi或移動設備上時僅需300KB左右。
性能
NNVM編譯器仍在積極開發中,可以期待會有更多的改進,但是已經開始看到令人鼓舞的結果。對它的性能進行了基準測試,并在兩種典型的硬件配置上將其與Apache MXNet進行了比較:Raspberry PI上的ARM CPU和AWS上的Nvidia GPU。盡管這兩款芯片在架構上存在根本差異,但可以使用相同的基礎架構,只需要更改每種硬件的調度即可。
Nvidia GPU
GPU基準和調度將NNVM編譯器與Apache MXNet與CUDA8和cuDNN7作為Nvidia K80的后端進行了比較。這是一個非常強大的基準,因為Apache MXNet會打開自動調整功能,以從CuDNN中選擇最佳內核。使用了MXNet中優化的深度智能內核來優化MobileNet工作負載。

可以看出,NNVM編譯器生成的代碼勝過K80上的Apache MXNet。這些改進歸因于聯合圖級別和內核級別的優化。值得注意的是,NNVM編譯器可自行生成所有優化的GPU內核,而無需依賴諸如CuDNN之類的外部庫。
樹莓派3b
Rasberry Pi編譯堆棧將NNVM編譯器與帶有OpenBLAS和NNPack的Apache MXNet進行了比較。探索了使MXNet發揮最佳性能的設置:為3x3卷積打開了NNPACK中的Winograd卷積,啟用了多線程,并禁用了其他調度程序線程(因此,所有線程都被NNPack使用)。

可以看出,在ResNet18上,NNVM編譯器生成的代碼快兩倍。MobileNet上的差距主要是由于現有CPU DNN庫中缺乏深度卷積。NNVM編譯器利用直接直接生成有效的ARM代碼的優勢。
在構建NNVM編譯器時,包含以下項目內容。
? Theano:可能是最早的深度學習編譯器
? Halide:TVM使用HalideIR作為數據結構,以簡化數學運算和降低 low level lowering.。HalideIR衍生自Halide。當在TVM中實施降低流程the lowering pipeline時,參考了Halide結構。
? Loopy:使用整數集分析及其循環轉換原語。

總結

以上是生活随笔為你收集整理的NNVM AI框架编译器的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。