日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 人文社科 > 生活经验 >内容正文

生活经验

使用TensorRT集成推理inference

發(fā)布時間:2023/11/28 生活经验 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 使用TensorRT集成推理inference 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

使用TensorRT集成推理inference

使用TensorRT集成進(jìn)行推理測試。

使用ResNet50模型對每個GPU進(jìn)行推理,并對其它模型進(jìn)行性能比較,最后與其它服務(wù)器進(jìn)行比較測試。

  1. ResNet-50 Inference
    performance: Throughput vs Batch size

在每個GPU上使用不同的批處理大小(從1到32)運(yùn)行帶有預(yù)訓(xùn)練的ResNet50模型的吞吐量測試。

圖1顯示了吞吐量(幀/秒)的結(jié)果。

結(jié)果在gpu和潛伏期(在右縱軸上表示)上是一致的。

Figure 1. Resnet_50 Inference on each GPU. Server with 6 GPU’s

上面的曲線圖顯示,使用Batchsize為1-8的批處理可以達(dá)到7ms的延遲,并且從y軸來看,當(dāng)Batchsize為4時,在7ms延遲窗口內(nèi)我們可以得到670個幀/秒。

在運(yùn)行測試時,我們發(fā)現(xiàn)默認(rèn)情況下推理inference是在設(shè)備0上進(jìn)行的,這意味著當(dāng)前的TensorRT? 推理引擎不能與GPU-GPU通信一起工作以最大限度地利用服務(wù)器中可用的GPU。如果目標(biāo)是在多個GPU中運(yùn)行同一個圖形來提高吞吐量,Nvidia建議現(xiàn)在使用原生TensorFlow。

另一方面,TensorRT推理服務(wù)器(TRTIS)支持多個GPU,但不支持運(yùn)行分布在多個GPU上的單個推理。TRTIS可以在多個GPU上運(yùn)行多個模型(和/或同一模型的多個實(shí)例)以提高吞吐量。

2.All Models:
Images/sec vs batch size vs Neural models

Figure 2. Throughput Inference Performance with Several Neural Models and Batch Sizes

使用不同的神經(jīng)模型在不同的Batchsize中進(jìn)行推理測試。

以Batchsize大小1、2、4、8、26和32顯示運(yùn)行推理inference的吞吐量和延遲。ResNet50以最低的延遲產(chǎn)生最高的吞吐量(圖像/秒)。

Figure 3. Latency Inference Performance
with Several Neural Models and Batch Sizes

3 All Models - R7425-T4-16GB versus Other servers and NVIDIA GPU

Figure 4. Throughput Inference Performance on R7425-T4-16GB Server versus Other Servers

Figure 5. Latency Inference performance on
R7425-T4-16GB Server versus other servers

使用幾種模型在服務(wù)器R740-P4和R7245-P4上進(jìn)行了推理測試,并將它們的結(jié)果與R7425-T4-16GB的結(jié)果進(jìn)行了比較。服務(wù)器R7425-T4-16GB的性能比ResNet50型號上的其它服務(wù)器快1.8倍,延遲只有一半。

總結(jié)

以上是生活随笔為你收集整理的使用TensorRT集成推理inference的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。