當前位置：首頁 > 编程资源 > 综合教程 >内容正文

综合教程

【并行计算-CUDA开发】CUDA线程、线程块、线程束、流多处理器、流处理器、网格概念的深入理解

發布時間：2023/12/13 综合教程 60 生活家

生活随笔收集整理的這篇文章主要介紹了【并行计算-CUDA开发】CUDA线程、线程块、线程束、流多处理器、流处理器、网格概念的深入理解小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

GPU的硬件結構，也不是具體的硬件結構，就是與CUDA相關的幾個概念：thread，block，grid，warp，sp，sm。

sp:最基本的處理單元，streaming processor 最后具體的指令和任務都是在sp上處理的。GPU進行并行計算，也就是很多個sp同時做處理

sm:多個sp加上其他的一些資源組成一個sm, streaming multiprocessor. 其他資源也就是存儲資源，共享內存，寄儲器等。

warp:GPU執行程序時的調度單位，目前cuda的warp的大小為32，同在一個warp的線程，以不同數據資源執行相同的指令。

grid、block、thread：在利用cuda進行編程時，一個grid分為多個block，而一個block分為多個thread.其中任務劃分到是否影響最后的執行效果。劃分的依據是任務特性和

GPU本身的硬件特性。

下面幾張硬件結構簡圖便于理解(圖片來源于網上）

以上兩圖可以清晰地表示出sm與sp的關系。

此圖反應了warp作為調度單位的作用，每次GPU調度一個warp里的32個線程執行同一條指令，其中各個線程對應的數據資源不同。

上圖是一個warp排程的例子。

一個sm只會執行一個block里的warp，當該block里warp執行完才會執行其他block里的warp。

進行劃分時，最好保證每個block里的warp比較合理，那樣可以一個sm可以交替執行里面的warp，從而提高效率，此外，在分配block時，要根據GPU的sm個數，分配出合理的

block數，讓GPU的sm都利用起來，提利用率。分配時，也要考慮到同一個線程block的資源問題，不要出現對應的資源不夠。

GPU線程以網格（grid）的方式組織，而每個網格中又包含若干個線程塊，在G80/GT200系列中，每一個線程塊最多可包含512個線程，Fermi架構中每個線程塊支持高達1536個線程。同一線程塊中的眾多線程擁有相同的指令地址，不僅能夠并行執行，而且能夠通過共享存儲器（Shared memory）和柵欄（barrier）實現塊內通信。這樣，同一網格內的不同塊之間存在不需要通信的粗粒度并行，而一個塊內的線程之間又形成了允許通信的細粒度并行。這些就是CUDA的關鍵特性：線程按照粗粒度的線程塊和細粒度的線程兩個層次進行組織、在細粒度并行的層次通過共享存儲器和柵欄同步實現通信，這就是CUDA的雙層線程模型。

在執行時，GPU的任務分配單元（global block scheduler）將網格分配到GPU芯片上。啟動CUDA 內核時，需要將網格信息從CPU傳輸到GPU。任務分配單元根據這些信息將塊分配到SM上。任務分配單元使用的是輪詢策略：輪詢查看SM是否還有足夠的資源來執行新的塊，如果有則給SM分配一個新的塊，如果沒有則查看下一個SM。決定能否分配的因素有：每個塊使用的共享存儲器數量，每個塊使用的寄存器數量，以及其它的一些限制條件。任務分配單元在SM的任務分配中保持平衡，但是程序員可以通過更改塊內線程數，每個線程使用的寄存器數和共享存儲器數來隱式的控制，從而保證SM之間的任務均衡。任務以這種方式劃分能夠使程序獲得了可擴展性：由于每個子問題都能在任意一個SM上運行，CUDA程序在核心數量不同的處理器上都能正常運行，這樣就隱藏了硬件差異。
對于程序員來說，他們需要將任務劃分為互不相干的粗粒度子問題(最好是易并行計算)，再將每個子問題劃分為能夠使用線程處理的問題。同一線程塊中的線程開始于相同的指令地址，理論上能夠以不同的分支執行。但實際上，在塊內的分支因為SM構架的原因被大大限制了。內核函數實質上是以塊為單位執行的。同一線程塊中的線程需要SM中的共享存儲器共享數據，因此它們必須在同一個SM中發射。線程塊中的每一個線程被發射到一個SP上。任務分配單元可以為每個SM分配最多8個塊。而SM中的線程調度單元又將分配到的塊進行細分，將其中的線程組織成更小的結構，稱為線程束（warp）。在CUDA中，warp對程序員來說是透明的，它的大小可能會隨著硬件的發展發生變化，在當前版本的CUDA中，每個warp是由32個線程組成的。SM中一條指令的延遲最小為4個指令周期。8個SP采用了發射一次指令，執行4次的流水線結構。所以由32個線程組成的Warp是CUDA程序執行的最小單位，并且同一個warp是嚴格串行的，因此在warp內是無須同步的。在一個SM中可能同時有來自不同塊的warp。當一個塊中的warp在進行訪存或者同步等高延遲操作時，另一個塊可以占用SM中的計算資源。這樣，在SM內就實現了簡單的亂序執行。不同塊之間的執行沒有順序，完全并行。無論是在一次只能處理一個線程塊的GPU上,還是在一次能處理數十乃至上百個線程塊的GPU上，這一模型都能很好的適用。

目前，某一時刻只能有一個內核函數正在執行，但是在Fermi架構中，這一限制已被解除。如果在一個內核訪問數據時，另一個內核能夠進行計算，則可以有效的提高設備的利用率。

每一個塊內線程數應該首先是32的倍數，因為這樣的話可以適應每一個warp包含32個線程的要求，每一個warp中串行執行，這就要求每一個線程中不可以有過多的循環或者需要的資源過多。但是每一個塊中如果線程數過多，可能由于線程中參數過多帶來存儲器要求過大，從而使SM處理的效率更低。所以，在函數不是很復雜的情況下，可以適當的增加線程數目，線程中不要加入循環。在函數比較復雜的情況下，每一個塊中分配32或是64個線程比較合適。每一個SM同時處理一個塊，只有在粗粒度層面上以及細粒度層面上均達到平衡，才能使得GPU的利用到達最大。我用的顯卡為GeForce
GTX560 Ti，每一個網格中允許的最大塊數位65535個，而每個塊中的線程數為1024個，所以說粗粒度平衡對于我來說影響比較小，就細粒度來說，每一個塊中的線程數以及每一個線程中的循環就變得至關重要了。

總結

以上是生活随笔為你收集整理的【并行计算-CUDA开发】CUDA线程、线程块、线程束、流多处理器、流处理器、网格概念的深入理解的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Python缩进问题
下一篇： Mat中的元素类型（如CV_8U）、范围

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

综合教程

【并行计算-CUDA开发】CUDA线程、线程块、线程束、流多处理器、流处理器、网格概念的深入理解

總結