當前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

NVIDIA TensorRT高性能深度学习推理

發布時間：2023/11/28 生活经验 45 豆豆

生活随笔收集整理的這篇文章主要介紹了 NVIDIA TensorRT高性能深度学习推理小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

NVIDIA TensorRT高性能深度學習推理

NVIDIA TensorRT?
是用于高性能深度學習推理的 SDK。此 SDK 包含深度學習推理優化器和運行時環境，可為深度學習推理應用提供低延遲和高吞吐量。

在推理過程中，基于 TensorRT 的應用程序的執行速度可比 CPU 平臺的速度快 40 倍。借助 TensorRT，您可以優化在所有主要框架中訓練的神經網絡模型，精確校正低精度，并最終將模型部署到超大規模數據中心、嵌入式或汽車產品平臺中。

TensorRT 以 NVIDIA 的并行編程模型 CUDA 為基礎構建而成，可幫助您利用 CUDA-X 中的庫、開發工具和技術，針對人工智能、自主機器、高性能計算和圖形優化所有深度學習框架中的推理。

TensorRT 針對多種深度學習推理應用的生產部署提供 INT8 和 FP16 優化，例如視頻流式傳輸、語音識別、推薦和自然語言處理。推理精度降低后可顯著減少應用延遲，這恰巧滿足了許多實時服務、自動和嵌入式應用的要求。

可以從每個深度學習框架中將已訓練模型導入到 TensorRT。應用優化后，TensorRT 選擇平臺特定的內核，在數據中心、Jetson 嵌入式平臺以及 NVIDIA DRIVE 自動駕駛平臺上更大限度提升 Tesla GPU 的性能。

借助 TensorRT，開發者可專注于創建新穎的 AI 支持應用，無需費力調節性能來部署推理工作。

TensorRT 優化與性能

與所有主要框架集成

NVIDIA 與深度學習框架開發者緊密合作，使用 TensorRT 在 AI 平臺上實現優化的推理性能。如果您的訓練模型采用 ONNX 格式或其他熱門框架（例如 TensorFlow 和 MATLAB），您可以通過一些簡單的方法將模型導入到 TensorRT 以進行推理。下面介紹了一些集成，其中包含了新手入門信息。

TensorRT 和 TensorFlow 已緊密集成，因此您可以同時盡享 TensorFlow 的靈活性和 TensorRT 的超強優化性能。

MATLAB 已通過 GPU 編碼器實現與 TensorRT 的集成，這能協助工程師和科學家在使用 MATLAB 時為 Jetson、DRIVE 和 Tesla 平臺自動生成高性能推理引擎。

TensorRT 提供了一個 ONNX 解析器，因此您可以輕松地從框架（例如 Caffe 2、Chainer、Microsoft
Cognitive Toolkit、MxNet 和 PyTorch）中將 ONNX 模型導入到 TensorRT。

TensorRT 還與 ONNX Runtime 集成，助您以 ONNX 格式輕松實現機器學習模型的高性能推理。

如果您在專有或自定義框架中執行深度學習訓練，請使用 TensorRT C++
API 來導入和加速模型。

“通過在 V100 上使用Tensor 核心、新近優化的 CUDA 庫以及 TF-TRT 后端，我們能將原本就很快的深度學習 (DL) 網絡速度再提升 4 倍”

公布 TensorRT
7.1：新功能
TensorRT 7.1 針對 NVIDIA A100 GPU 進行了優化并加入了新優化，現可使用 INT8 精度加速 BERT 推理，實現高達 V100 GPU 六倍的性能。NVIDIA 開發者計劃成員可于 2020 年夏季下載 TensorRT 7.1。

TensorRT 7.0（當前版本）包含：
新編譯器，可對語音和異常檢測中的常用時間遞歸神經網絡進行加速
對 20 多種新 ONNX 操作的支持，這些操作可對 BERT、TacoTron 2 和 WaveRNN 等關鍵的語音模型進行加速
對動態形狀的擴展支持，可實現關鍵的會話式 AI 模型
新版插件、解析器
BERT、Mask-RCNN、Faster-RCNN、NCF 和 OpenNMT 的新示例

其他資源

概覽
NGC 中的 TensorRT 容器、模型和腳本
運行 TensorRT 的“Hello
World”（示例代碼）
將 ONNX 用作輸入，運行 TensorRT 的“Hello
World”（示例代碼）
使用自定義校準以 INT8 精度執行推理（示例代碼）
TensorRT 簡介（網絡研討會）
使用 TensorRT 執行
8 位推理（網絡研討會）

會話式 AI

使用 TensorRT 通過BERT 實現實時自然語言理解（博客）
使用 TensorRT 進行自動語音識別 (Notebook)
使用 TensorRT 對實時文字轉語音進行加速（博客）使用 BERT 實現NLU (Notebook) (Notebook)
實時文字轉語音（示例）基于序列到序列 (seq2seq) 模型的神經網絡機器翻譯 (NMT)（示例代碼）
逐層構建 RNN 網絡（示例代碼）

開始實操訓練

NVIDIA 深度學習學院 (DLI) 為 AI 和加速計算領域的開發者、數據科學家和研究人員提供實操訓練。立即參加關于使用 TensorRT 優化和部署 TensorFlow 模型以及“使用 TensorRT 部署智能視頻分析”的自定進度選修課程，獲取 TensorRT 實操經驗。

適用范圍

NVIDIA 開發者計劃會員可訪問 TensorRT 產品頁面，免費使用 TensorRT 進行用于開發和部署。最新版本的插件、解析器和示例也以開源形式提供，可從 TensorRT GitHub 資源庫獲取。

開發者還可以通過 NGC 容器注冊表中的 TensorRT 容器獲得 TensorRT。

TensorRT 已納入：
用于在計算機視覺和智能視頻分析 (IVA) 應用中進行實時流分析的 NVIDIA Deepstream SDK適用于 NVIDIA DRIVE PX2 自動駕駛平臺的 NVIDIA DriveInstall適用于 Jetson TX1、TX2嵌入式平臺的 NVIDIA Jetpack

總結

以上是生活随笔為你收集整理的NVIDIA TensorRT高性能深度学习推理的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： GPU端到端目标检测YOLOV3全过程（
下一篇：基于TensorRT的BERT实时自然语