NVIDIA TensorRT高性能深度学习推理
NVIDIA TensorRT高性能深度學習推理
NVIDIA TensorRT?
是用于高性能深度學習推理的 SDK。此 SDK 包含深度學習推理優化器和運行時環境,可為深度學習推理應用提供低延遲和高吞吐量。
在推理過程中,基于 TensorRT 的應用程序的執行速度可比 CPU 平臺的速度快 40 倍。借助 TensorRT,您可以優化在所有主要框架中訓練的神經網絡模型,精確校正低精度,并最終將模型部署到超大規模數據中心、嵌入式或汽車產品平臺中。
TensorRT 以 NVIDIA 的并行編程模型 CUDA 為基礎構建而成,可幫助您利用 CUDA-X 中的庫、開發工具和技術,針對人工智能、自主機器、高性能計算和圖形優化所有深度學習框架中的推理。
TensorRT 針對多種深度學習推理應用的生產部署提供 INT8 和 FP16 優化,例如視頻流式傳輸、語音識別、推薦和自然語言處理。推理精度降低后可顯著減少應用延遲,這恰巧滿足了許多實時服務、自動和嵌入式應用的要求。
可以從每個深度學習框架中將已訓練模型導入到 TensorRT。應用優化后,TensorRT 選擇平臺特定的內核,在數據中心、Jetson 嵌入式平臺以及 NVIDIA DRIVE 自動駕駛平臺上更大限度提升 Tesla GPU 的性能。
借助 TensorRT,開發者可專注于創建新穎的 AI 支持應用,無需費力調節性能來部署推理工作。
TensorRT 優化與性能
與所有主要框架集成
NVIDIA 與深度學習框架開發者緊密合作,使用 TensorRT 在 AI 平臺上實現優化的推理性能。如果您的訓練模型采用 ONNX 格式或其他熱門框架(例如 TensorFlow 和 MATLAB),您可以通過一些簡單的方法將模型導入到 TensorRT 以進行推理。下面介紹了一些集成,其中包含了新手入門信息。
TensorRT 和 TensorFlow 已緊密集成,因此您可以同時盡享 TensorFlow 的靈活性和 TensorRT 的超強優化性能。
MATLAB 已通過 GPU 編碼器實現與 TensorRT 的集成,這能協助工程師和科學家在使用 MATLAB 時為 Jetson、DRIVE 和 Tesla 平臺自動生成高性能推理引擎。
TensorRT 提供了一個 ONNX 解析器,因此您可以輕松地從框架(例如 Caffe 2、Chainer、Microsoft
Cognitive Toolkit、MxNet 和 PyTorch)中將 ONNX 模型導入到 TensorRT。
TensorRT 還與 ONNX Runtime 集成,助您以 ONNX 格式輕松實現機器學習模型的高性能推理。
如果您在專有或自定義框架中執行深度學習訓練,請使用 TensorRT C++
API 來導入和加速模型。
“通過在 V100 上使用Tensor 核心、新近優化的 CUDA 庫以及 TF-TRT 后端,我們能將原本就很快的深度學習 (DL) 網絡速度再提升 4 倍”
公布 TensorRT
7.1:新功能
TensorRT 7.1 針對 NVIDIA A100 GPU 進行了優化并加入了新優化,現可使用 INT8 精度加速 BERT 推理,實現高達 V100 GPU 六倍的性能。NVIDIA 開發者計劃成員可于 2020 年夏季下載 TensorRT 7.1。
TensorRT 7.0(當前版本)包含:
新編譯器,可對語音和異常檢測中的常用時間遞歸神經網絡進行加速
對 20 多種新 ONNX 操作的支持,這些操作可對 BERT、TacoTron 2 和 WaveRNN 等關鍵的語音模型進行加速
對動態形狀的擴展支持,可實現關鍵的會話式 AI 模型
新版插件、解析器
BERT、Mask-RCNN、Faster-RCNN、NCF 和 OpenNMT 的新示例
其他資源
概覽
NGC 中的 TensorRT 容器、模型和腳本
運行 TensorRT 的“Hello
World”(示例代碼)
將 ONNX 用作輸入,運行 TensorRT 的“Hello
World”(示例代碼)
使用自定義校準以 INT8 精度執行推理(示例代碼)
TensorRT 簡介(網絡研討會)
使用 TensorRT 執行
8 位推理(網絡研討會)
會話式 AI
使用 TensorRT 通過BERT 實現實時自然語言理解(博客)
使用 TensorRT 進行自動語音識別 (Notebook)
使用 TensorRT 對實時文字轉語音進行加速(博客)使用 BERT 實現NLU (Notebook) (Notebook)
實時文字轉語音(示例)基于序列到序列 (seq2seq) 模型的神經網絡機器翻譯 (NMT)(示例代碼)
逐層構建 RNN 網絡(示例代碼)
開始實操訓練
NVIDIA 深度學習學院 (DLI) 為 AI 和加速計算領域的開發者、數據科學家和研究人員提供實操訓練。立即參加關于使用 TensorRT 優化和部署 TensorFlow 模型以及“使用 TensorRT 部署智能視頻分析”的自定進度選修課程,獲取 TensorRT 實操經驗。
適用范圍
NVIDIA 開發者計劃會員可訪問 TensorRT 產品頁面,免費使用 TensorRT 進行用于開發和部署。最新版本的插件、解析器和示例也以開源形式提供,可從 TensorRT GitHub 資源庫獲取。
開發者還可以通過 NGC 容器注冊表中的 TensorRT 容器獲得 TensorRT。
TensorRT 已納入:
用于在計算機視覺和智能視頻分析 (IVA) 應用中進行實時流分析的 NVIDIA Deepstream SDK適用于 NVIDIA DRIVE PX2 自動駕駛平臺的 NVIDIA DriveInstall適用于 Jetson TX1、TX2嵌入式平臺的 NVIDIA Jetpack
總結
以上是生活随笔為你收集整理的NVIDIA TensorRT高性能深度学习推理的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: GPU端到端目标检测YOLOV3全过程(
- 下一篇: 基于TensorRT的BERT实时自然语