深度学习编译器综述The Deep Learning Compiler
深度學習編譯器綜述The Deep Learning Compiler
The Deep Learning Compiler: A Comprehensive Survey
參考文獻:
https://arxiv.org/pdf/2002.03794v4.pdf
在不同的DL硬件上部署各種深度學習(DL)模型的困難,推動了社區DL編譯器的研究和開發。DL編譯器已經從工業和學術界提出,如TysFraceXLA和TVM。類似地,DL編譯器將不同DL框架中描述的DL模型作為輸入,然后為不同的DL硬件生成優化代碼作為輸出。然而,現有的探索都沒有全面分析DL編譯器的獨特設計架構。在本文中,通過詳細剖析常用的設計,對現有的DL編譯器進行了全面的探索,重點是面向DL的多級IRs和前端/后端優化。詳細分析了多級IRs的設計,舉例說明了常用的優化技術。最后,強調了一些見解作為潛在的研究方向
DL編譯器的設計。這是第一篇關于DL編譯器設計體系結構的調查論文,希望能為DL編譯器的未來研究鋪平道路。
TensorFlow,Keras,PyTorch,Caffe/Caffe2,MXNet,CNTK,PaddlePaddle,ONNX。
本文主要貢獻
?剖析了現有DL編譯器普遍采用的設計架構,對關鍵設計組件(如多級IRs、前端優化)進行了詳細分析(包括節點級、塊級和數據流級優化)和后端優化(包括特定于硬件的優化、自動調優和優化的內核庫)。
?從各個方面提供了現有DL編譯器的綜合分類法,這與本文中描述的關鍵組件相對應。該分類法的目標是為從業人員提供關于選擇DL編譯器的指南,需求,并為研究人員提供DL編譯器的全面總結。提供了CNN模型上DL編譯器的定量性能比較,包括成熟模型和輕量級模型。比較了端到端和每層(卷積層,因為控制推理時間)的性能,顯示優化的有效性。評估腳本和結果都是開源的,僅供參考。
?重點介紹了DL編譯器未來發展的一些見解,包括動態形狀和前后處理、高級自動調整、多面體模型、子圖分區、量化、統一優化、可微編程和隱私保護,希望這些能夠推動DL編譯器界的研究。
Fig. 1. DL framework landscape: 1) Currently popular DL frameworks; 2) Historical DL frameworks; 3) ONNX supported frameworks.
Fig. 2. The overview of commonly adopted design architecture of DL compilers.
Fig. 3. Example of computation graph optimizations, taken from the HLO graph of Alexnet on Volta GPU using Tensorflow XLA.
Fig. 4. Overview of hardware-specific optimizations applied in DL compilers.
Table 1. The comparison of DL compilers, including TVM, nGraph, TC, Glow, and XLA.
Table 2. The hardware configuration.
Fig. 5. The performance comparison of end-to-end inference across TVM, nGraph, Glow and XLA on CPU and GPU.
Fig. 6. The performance comparison of convolution layers in MobileNetV2_1.0 across TVM, TC, Glow and XLA on V100 GPU.
Fig. 7. The performance comparison of convolution layers in MobileNetV2_1.0 across TVM, nGraph and Glow on Broadwell CPU.
Fig. 8. The performance comparison of convolution layers in ResNet50 across TVM, TC and Glow on V100 GPU.
Fig. 9. The performance comparison of convolution layers in ResNet50 across TVM, nGraph and Glow on Broadwell CPU.
Table 3. The number of the clustered and non-clustered convolutions of XLA on V100 GPU and Broadwell CPU.
參考文獻
https://arxiv.org/pdf/2002.03794v4.pdf
總結
以上是生活随笔為你收集整理的深度学习编译器综述The Deep Learning Compiler的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 华为八爪鱼自动驾驶云
- 下一篇: 深度学习编译器Data Flow和Con