使用TensorRT集成推理inference
使用TensorRT集成推理inference
使用TensorRT集成進(jìn)行推理測試。
使用ResNet50模型對每個GPU進(jìn)行推理,并對其它模型進(jìn)行性能比較,最后與其它服務(wù)器進(jìn)行比較測試。
- ResNet-50 Inference
performance: Throughput vs Batch size
在每個GPU上使用不同的批處理大小(從1到32)運(yùn)行帶有預(yù)訓(xùn)練的ResNet50模型的吞吐量測試。
圖1顯示了吞吐量(幀/秒)的結(jié)果。
結(jié)果在gpu和潛伏期(在右縱軸上表示)上是一致的。
Figure 1. Resnet_50 Inference on each GPU. Server with 6 GPU’s
上面的曲線圖顯示,使用Batchsize為1-8的批處理可以達(dá)到7ms的延遲,并且從y軸來看,當(dāng)Batchsize為4時,在7ms延遲窗口內(nèi)我們可以得到670個幀/秒。
在運(yùn)行測試時,我們發(fā)現(xiàn)默認(rèn)情況下推理inference是在設(shè)備0上進(jìn)行的,這意味著當(dāng)前的TensorRT? 推理引擎不能與GPU-GPU通信一起工作以最大限度地利用服務(wù)器中可用的GPU。如果目標(biāo)是在多個GPU中運(yùn)行同一個圖形來提高吞吐量,Nvidia建議現(xiàn)在使用原生TensorFlow。
另一方面,TensorRT推理服務(wù)器(TRTIS)支持多個GPU,但不支持運(yùn)行分布在多個GPU上的單個推理。TRTIS可以在多個GPU上運(yùn)行多個模型(和/或同一模型的多個實(shí)例)以提高吞吐量。
2.All Models:
Images/sec vs batch size vs Neural models
Figure 2. Throughput Inference Performance with Several Neural Models and Batch Sizes
使用不同的神經(jīng)模型在不同的Batchsize中進(jìn)行推理測試。
以Batchsize大小1、2、4、8、26和32顯示運(yùn)行推理inference的吞吐量和延遲。ResNet50以最低的延遲產(chǎn)生最高的吞吐量(圖像/秒)。
Figure 3. Latency Inference Performance
with Several Neural Models and Batch Sizes
3 All Models - R7425-T4-16GB versus Other servers and NVIDIA GPU
Figure 4. Throughput Inference Performance on R7425-T4-16GB Server versus Other Servers
Figure 5. Latency Inference performance on
R7425-T4-16GB Server versus other servers
使用幾種模型在服務(wù)器R740-P4和R7245-P4上進(jìn)行了推理測試,并將它們的結(jié)果與R7425-T4-16GB的結(jié)果進(jìn)行了比較。服務(wù)器R7425-T4-16GB的性能比ResNet50型號上的其它服務(wù)器快1.8倍,延遲只有一半。
總結(jié)
以上是生活随笔為你收集整理的使用TensorRT集成推理inference的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: cuDNN 功能模块解析
- 下一篇: 用户自定义协议client/server