TensorRT优化方案图例
TensorRT優化方案圖例
圖 12. TensorRT 循環由循環邊界層設置。數據流只能通過下方式離開循環環輸出層. 唯一允許的后邊緣是第二個輸入遞歸層。
圖 13. 一個 if 條件構造抽象模型
圖 14. 使用控制條件執行 IIf條件輸入層 放置
圖 15. 層執行和在 CPU 端啟動的內核。
圖 16. 內核實際運行在 GPU 上,換句話說,顯示了 CPU 端的層執行和內核啟動與在 GPU 端的執行之間的相關性。
圖 17. 布局格式 CHW: 圖像分為 高×寬矩陣,每個通道一個,矩陣按順序存儲;一個通道的所有值都是連續存儲的。
圖 18. 布局格式 HWC: 圖像存儲為單個 高×寬矩陣,值實際上是 C 元組,每個通道都有一個值;一個點(像素)的所有值都是連續存儲的。
圖 19. 一對通道值打包在一起 高×寬 矩陣。結果是一種格式,其中[C/2] 高x寬 矩陣的值是兩個連續通道的值對。
圖 20. 在這個 NHWC8 格式,一個高×寬 矩陣包括所有通道的值。
圖 21. 正常情況下的性能指標 trtexec在 Nsight Systems (ShuffleNet, BS=16, best, TitanRTX@1200MHz) 下運行。
參考鏈接:
https://docs.nvidia.com/deeplearning/tensorrt/developer-guide/index.html
總結
以上是生活随笔為你收集整理的TensorRT优化方案图例的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Tensorrt一些优化技术介绍
- 下一篇: 自动微分延迟计算