當前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

使用TensorRT集成推理inference

發布時間：2023/11/28 生活经验 35 豆豆

生活随笔收集整理的這篇文章主要介紹了使用TensorRT集成推理inference 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

使用TensorRT集成進行推理測試。

使用ResNet50模型對每個GPU進行推理，并對其它模型進行性能比較，最后與其它服務器進行比較測試。

在每個GPU上使用不同的批處理大小（從1到32）運行帶有預訓練的ResNet50模型的吞吐量測試。

圖1顯示了吞吐量（幀/秒）的結果。

結果在gpu和潛伏期（在右縱軸上表示）上是一致的。

Figure 1. Resnet_50 Inference on each GPU. Server with 6 GPU’s

上面的曲線圖顯示，使用Batchsize為1-8的批處理可以達到7ms的延遲，并且從y軸來看，當Batchsize為4時，在7ms延遲窗口內我們可以得到670個幀/秒。

在運行測試時，我們發現默認情況下推理inference是在設備0上進行的，這意味著當前的TensorRT? 推理引擎不能與GPU-GPU通信一起工作以最大限度地利用服務器中可用的GPU。如果目標是在多個GPU中運行同一個圖形來提高吞吐量，Nvidia建議現在使用原生TensorFlow。

另一方面，TensorRT推理服務器（TRTIS）支持多個GPU，但不支持運行分布在多個GPU上的單個推理。TRTIS可以在多個GPU上運行多個模型（和/或同一模型的多個實例）以提高吞吐量。

2．All Models:
Images/sec vs batch size vs Neural models

Figure 2. Throughput Inference Performance with Several Neural Models and Batch Sizes

使用不同的神經模型在不同的Batchsize中進行推理測試。

以Batchsize大小1、2、4、8、26和32顯示運行推理inference的吞吐量和延遲。ResNet50以最低的延遲產生最高的吞吐量（圖像/秒）。

Figure 3. Latency Inference Performance
with Several Neural Models and Batch Sizes

3 All Models - R7425-T4-16GB versus Other servers and NVIDIA GPU

Figure 4. Throughput Inference Performance on R7425-T4-16GB Server versus Other Servers

Figure 5. Latency Inference performance on
R7425-T4-16GB Server versus other servers

使用幾種模型在服務器R740-P4和R7245-P4上進行了推理測試，并將它們的結果與R7425-T4-16GB的結果進行了比較。服務器R7425-T4-16GB的性能比ResNet50型號上的其它服務器快1.8倍，延遲只有一半。

以上是生活随笔為你收集整理的使用TensorRT集成推理inference的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。