日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

GPU资源分配

發布時間:2025/3/15 编程问答 43 豆豆
生活随笔 收集整理的這篇文章主要介紹了 GPU资源分配 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
GPU 的計算核心是以一定數量的 Streaming?Processor(SP) 組成的處理器陣列, NV 稱之為 Texture?Processing?Clusters(TPC) ,每個 TPC 中又包含一定數量的 Streaming?Multi-Processor(SM) ,每個 SM 包含 8 SP SP 的主要結構為一個 ALU (邏輯運算單元),一個 FPU (浮點運算單元)以及一個 Register?File( 寄存器堆 ) SM 內包含有一個 Instruction?Unit 、一個 Constant?Memory 、一個 Texture?Memory 8192 Register 、一個 16KB Share?Memory 8 Stream?Processor(SP) 和兩個 Special?Function?Units SFU )。( GeForce9300M?GS 只擁有 1 SM ?Thread CUDA 模型中最基本的運行單元,執行最基本的程序指令。 Block 是一組協作 Thread Block 內部允許共享存儲,每個 Block 最多包含 512 Thread Grid 是一組 Block ,共享全局內存。 Kernel 是在 GPU 上執行的核心程序,每一個 Grid 對應一個 Kernel 任務。?在程序運行的時候,實際上每 32 Thread 組成一個 Warp ,每個? warp? 塊都包含連續的線程,遞增線程? ID? Warp MP 的基本調度單位,每次運行的時候,由于 MP 數量不同,所以一個 Block 內的所有 Thread 不一定全部同時運行,但是每個 Warp 內的所有 Thread 一定同時運行。因此,我們在定義Block?Size 的時候應使其為 Warp?Size 的整數倍,也就是 Block?Size 應為 32 的整數倍。理論上 Thread 越多,就越能彌補單個 Thread 讀取數據的 latency? ,但是當 Thread 越多,每個 Thread 可用的寄存器也就越少,嚴重的時候甚至能造成 Kernel 無法啟動。因此每個 Block 最少應包含 64 Thread ,一般選擇 128 或者 256 ,具體視 MP 數目而定。一個 MP 最多可以同時運行 768 Thread ,但每個 MP 最多包含 8 Block ,因此要保持 100% 利用率, Block 數目與其 Size 有如下幾種設定方式:???2?blocks?x?384?threads ??3?blocks?x?256?threads ??4?blocks?x?192?threads ??6?blocks?x?128?threads ??8?blocks?x?96?threads

總結

以上是生活随笔為你收集整理的GPU资源分配的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。