當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Frank Luna DirectX12阅读笔记：绘制进阶（第八章-第十四章）

發(fā)布時(shí)間：2023/12/8 编程问答 40 豆豆

生活随笔收集整理的這篇文章主要介紹了 Frank Luna DirectX12阅读笔记：绘制进阶（第八章-第十四章）小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

第八章光照
- 8.1 光和材質(zhì)的交互
- 8.2 法向
- 8.3 光照中其他重要的向量
- 8.4 Lambert余弦定律
- 8.5 散射光（diffuse lighting）
- 8.6 環(huán)境光（ambient lighting）
- 8.7 鏡面光（specular lighting）
- - 8.7.1 Fresnel效應(yīng)
  - 8.7.2 粗糙度
- 8.8 光照模型
- 8.9 材質(zhì)的實(shí)現(xiàn)
- 8.10 平行光源
- 8.11 點(diǎn)光源
- 8.12 聚光源
- 8.13 光照的實(shí)現(xiàn)
- 8.14 Demo
第九章紋理
- 9.1 復(fù)習(xí)紋理和資源
- 9.2 紋理坐標(biāo)
- 9.3 紋理數(shù)據(jù)來源
- 9.4 創(chuàng)建和啟用紋理
- - 9.4.1 加載DDS文件
  - 9.4.2 SRV Heap
  - 9.4.3 創(chuàng)建SRV Descriptor
  - 9.4.4 綁定到渲染管線
- 9.5 Filters
- 9.6 Address Modes
- 9.7 采樣器對象（Sampler Object）
- 9.8 在Shader中采樣紋理
- 9.9 Crate Demo
- 9.10 紋理變換
- 9.11 增加紋理的山水Demo
第十章融合（Blending）
- 10.1 融合方程
- 10.2 融合運(yùn)算
- 10.3 融合系數(shù)
- 10.4 融合狀態(tài)
- 10.5 例子
- 10.6 Alpha通道
- 10.7 Clipping Pixels
- 10.8 霧
第十一章模板（Stenciling）
- 11.1 Depth/Stencil格式和清除
- 11.2 模板測試
- 11.3 描述Depth/Stencil狀態(tài)
- 11.4 實(shí)現(xiàn)平面鏡
- 11.5 實(shí)現(xiàn)平面鏡中的陰影
第十二章幾何著色器（Geometry Shader）
- 12.1 Geometry Shader編程
- 12.2 樹的Demo
- 12.3 紋理序列
- 12.4 Alpha-to-Coverage
第十三章計(jì)算著色器（Compute Shader）
- 13.1 線程和線程群
- 13.2 一個(gè)簡單的Compate Shader例子
- 13.3 數(shù)據(jù)輸入輸出資源
- - 13.3.1 輸入紋理
  - 13.3.2 輸出紋理和UAV（Unordered Access Views）
  - 13.3.3 紋理索引和采樣
  - 13.3.4 結(jié)構(gòu)化緩存資源
  - 13.3.5 拷貝Computer Shader結(jié)果回內(nèi)存
- 13.4 線程ID
- 13.5 消費(fèi)者-生產(chǎn)者緩沖
- 13.6 共享內(nèi)存和同步
- 13.7 Blur Demo
- 13.8 更多關(guān)于Compute Shader的資料
第十四章細(xì)分（Tessellation）
- 14.1 Tessellation元素類型
- 14.2 Hull Shader
- - 14.2.1 Constant Hull Shader
  - 14.2.2 Control Point Hull Shader
- 14.3 Tessellation階段
- 14.4 Domain Shader
- 14.5 細(xì)分一個(gè)四邊形
- 14.6 三次貝塞爾四邊形patch
- - 14.6.1 三次貝塞爾曲線
  - 14.6.2 三次貝塞爾曲面
  - 14.6.3 三次貝塞爾曲面代碼
  - 14.6.4 Demo

第八章光照

8.1 光和材質(zhì)的交互

略

8.2 法向

使用頂點(diǎn)法向取代面法向
當(dāng)世界坐標(biāo)矩陣不是單位陣時(shí)，注意法向的變換

8.3 光照中其他重要的向量

E為眼鏡，星號為光源

8.4 Lambert余弦定律

radiant flux P（輻射通量）：單位時(shí)間的光能量
irradiance E（輻照度）：單位面積單位時(shí)間的光能量（density of radiant flux per area）
- 決定了物體（接受到光）的明暗

Lambert余弦定律：

$E2=PA2=PA1cos?θ=E1cos?θ=E1(n?L)E_2 = \frac{P}{A_2} = \frac{P}{A_1} \cos \theta = E_1 \cos \theta = E_1 (\mathbf{n} \cdot \mathbf{L})$

8.5 散射光（diffuse lighting）

出射散射光的強(qiáng)度和入射光強(qiáng)度B_L、入射光角度L、散射系數(shù)m_d相關(guān)

$cd=max?(L?n,0)?BL?md\mathbf{c}_d = \max(\mathbf{L} \cdot \mathbf{n}, 0) \cdot \mathbf{B}_L \otimes \mathbf{m}_d$

8.6 環(huán)境光（ambient lighting）

出射環(huán)境光的強(qiáng)度和環(huán)境光強(qiáng)度A_L、散射系數(shù)m_d相關(guān)

$ca=AL?md\mathbf{c}_a = \mathbf{A}_L \otimes \mathbf{m}_d$

8.7 鏡面光（specular lighting）

8.7.1 Fresnel效應(yīng)

Fresnel效應(yīng)：當(dāng)光線到達(dá)兩種介質(zhì)的分界面時(shí)，一部分被反射，一部分被折射。記R_F為反射光的比例，則1-R_F為折射光的比例。R_F隨入射角的變化而變化，當(dāng)入射角為90°時(shí)，光線平行分界面，R_F為1；當(dāng)入射角為0°時(shí)，光線垂直于分界面，R_F為R_F(0°)。中間，根據(jù)Schlick估計(jì)，有

$RF(θi)=RF(0)+(1?RF(0))(1?cos?(θi))5\mathbf{R}_F(\theta_i) = \mathbf{R}_F(0) + (1 - \mathbf{R}_F(0)) (1 - \cos(\theta_i))^5$

常見的R_F(0)：
- 水（0.02，0.02，0.02）
- 玻璃（0.08，0.08，0.08）
- 塑料（0.05，0.05，0.05）
- 金（1.0，0.71，0.29）
- 銀（0.95，0.93，0.88）
- 水（0.95，0.64，0.54）

對于透明/半透明的物體，則折射光就是折射光；但對于不透明的物體，折射光在物體內(nèi)部多次反射、吸收，最終成為散射光

8.7.2 粗糙度

微平面的法向和宏觀物體法向不同，使得鏡面反射光呈現(xiàn)光錐

反射光分布近似余弦函數(shù)冪乘的形狀，再乘以一個(gè)近似的保持能量的歸一化項(xiàng)，有

$S(θh)=m+88cos?m(θh)=m+88(n?h)mS(\theta_h) = \frac{m+8}{8} \cos^m (\theta_h) = \frac{m+8}{8} (\mathbf{n} \cdot \mathbf{h})^m$

出射鏡面光強(qiáng)度與入射光方向L、入射光強(qiáng)度B_L、半途向量h、材質(zhì)Fresnel效應(yīng)下反射比例R_F、粗糙度m相關(guān)

$cs=max?(L?n,0)?BL?RF(αh)m+88(n?h)m\mathbf{c}_s = \max(\mathbf{L} \cdot \mathbf{n}, 0) \cdot \mathbf{B}_L \otimes R_F(\alpha_h) \frac{m+8}{8} (\mathbf{n} \cdot \mathbf{h})^m$

8.8 光照模型

$c=ca+cd+cs\mathbf{c} = \mathbf{c}_a + \mathbf{c}_d + \mathbf{c}_s$

8.9 材質(zhì)的實(shí)現(xiàn)

材質(zhì)的粒度：即使材質(zhì)作用在頂點(diǎn)上，如果模型本身比較粗糙，效果也是比較差的；比較好的解決方案是，將材質(zhì)作用在紋理上
RenderItem類中會包含渲染物體的材質(zhì)，材質(zhì)類中需要保存各種紋理在SRV heap中的相對位置，從而可以在DrawRenderItems()函數(shù)中賦予正確的材質(zhì)

8.10 平行光源

平行光定義成向量

8.11 點(diǎn)光源

點(diǎn)光源定義成點(diǎn)
點(diǎn)光源強(qiáng)度隨距離二次衰減，但如果簡化，可以調(diào)成一次衰減

8.12 聚光源

聚光源和點(diǎn)光源除了光照范圍外，最大的區(qū)別是聚光源光強(qiáng)隨著遠(yuǎn)離聚光中心而下降，因此可以如下調(diào)節(jié)軸向偏移的光強(qiáng)衰減：

$max?(cos?(?),0)s\max(\cos(\phi), 0)^s$

使用max而非分支，是因?yàn)镚PU不擅長處理分支。\phi為頂點(diǎn)光源連線和聚光軸的夾角，s可以調(diào)節(jié)聚光的程度
聚光源比點(diǎn)光源運(yùn)算代價(jià)高，點(diǎn)光源比平行光源運(yùn)算代價(jià)高

8.13 光照的實(shí)現(xiàn)

Blinn-Phong之前光強(qiáng)的計(jì)算：
- 平行光：需考慮Lambert余弦定律
- 點(diǎn)光源：需考慮Lambert余弦定律+距離衰減
- 聚光源：需考慮Lambert余弦定律+距離衰減+聚光衰減
光的數(shù)據(jù)結(jié)構(gòu)：這里的順序不是隨機(jī)的，而是按照盡量對齊成4個(gè)float來排列

struct Light {XMFLOAT3 Strenth; // 光強(qiáng)（顏色）float FalloffStart; // 線性衰減替代二次衰減，開始衰減位置（僅點(diǎn)光源和聚光源）XMFLOAT3 Direction; // 光照方向（僅平行光和聚光源）float FalloffEnd; // 終止衰減位置（僅點(diǎn)光源和聚光源）XMFLOAT3 Position; // 位置（僅點(diǎn)光源和聚光源）float SpotPower; // 聚光衰減系數(shù)（僅聚光源） };

Blinn-Phong模型的實(shí)現(xiàn)，平行光、點(diǎn)光源、聚光源的實(shí)現(xiàn)，詳見代碼

8.14 Demo

詳見代碼

第九章紋理

9.1 復(fù)習(xí)紋理和資源

紋理用ID3D12Resource進(jìn)行表示，之前用過的depth buffer和back buffer都是將D3D12_RESOURCE_DESC::Dimension設(shè)置為D3D12_RESOURCE_DIMENSION_TEXTURE2D的紋理
紋理格式詳見4.1.3
紋理常用于render target或shader resource，或既是render target又是shader resource，但在不同時(shí)間讀（shader resource）和寫（render target），這被稱為render-to-texture。但它需要兩個(gè)descriptor，一個(gè)RTV，放到D3D12_DESCRIPTOR_HEAP_TYPE_RTV的堆里；一個(gè)SRV，放到D3D12_DESCRIPTOR_HEAP_TYPE_CBV_SRV_UAV的堆里

9.2 紋理坐標(biāo)

以左上角為原點(diǎn)，取值0-1之間

9.3 紋理數(shù)據(jù)來源

最常見的方法是先得到BMP、PNG之類的圖片，然后在加載的時(shí)候載入ID3D12Resource類。但是，DDS格式是GPU原生支持的，對實(shí)時(shí)圖形應(yīng)用更加有利。同時(shí)，它支持GPU原生支持解壓的壓縮圖片格式
DDS格式包含了以下數(shù)據(jù)，從而對GPU有了專門的支持：
- mipmaps
- GPU可解壓的壓縮格式
- texture arrays
- cube maps
- volume textures
生成DDS圖片，可以：
- Photoshop導(dǎo)出
- texconv命令行工具

9.4 創(chuàng)建和啟用紋理

9.4.1 加載DDS文件

使用輔助函數(shù)DDSTextureLoader.h/.cpp中的CreateDDSTextureFromFile12()
由于數(shù)據(jù)要從CPU傳到GPU，因此和之前的constant buffer、動態(tài)vertex buffer類似，也需要先放到upload buffer中

9.4.2 SRV Heap

ID3D12Device::CreateDescriptorHeap()創(chuàng)建一個(gè)SRV堆

9.4.3 創(chuàng)建SRV Descriptor

填寫D3D12_SHADER_RESOURCE_VIEW_DESC數(shù)據(jù)結(jié)構(gòu)，然后調(diào)用md3dDevice->CreateShaderResourceView()創(chuàng)建descriptor

9.4.4 綁定到渲染管線

之前材質(zhì)是綁定到constant buffer上的，因此每個(gè)頂點(diǎn)都是一樣的材質(zhì)，現(xiàn)在我們要將材質(zhì)綁定到紋理上
本章我們只考慮將材質(zhì)中的反射率（albedo）一項(xiàng)用紋理表示，FresnelR0和粗糙度仍然用constant buffer

9.5 Filters

放大：紋理上的一個(gè)像素對應(yīng)了屏幕上的許多像素。這種情況下，屏幕上的像素對應(yīng)了紋理像素間的值，可以選擇常量插值（constant interpolation / point interpolation）或線性差值（linear interpolation）
縮小：屏幕上的一個(gè)像素對應(yīng)了紋理上的許多像素。如果此時(shí)仍然使用線性插值，可能出現(xiàn)走樣的現(xiàn)象，因此使用 mipmap，在初始化階段就預(yù)先計(jì)算好平均降采樣（或人工指定）的mipmap chain。運(yùn)行時(shí)，可以有兩種做法：
- point filtering：選擇最接近的mipmap層，進(jìn)行插值
- linear filtering：選擇最接近的兩個(gè)mipmap層，對兩層分別進(jìn)行插值，再對得到的兩個(gè)數(shù)字插值
對于一個(gè)方向被壓縮（和視平面垂直）的情況，應(yīng)使用各向異性的filter
不同filter由D3D12_FILTER枚舉類區(qū)別，常見的有：
- D3D12_FILTER_MIN_MAG_MIP_POINT：紋理內(nèi)常量插值，mipmap常量插值
- D3D12_FILTER_MIN_MAG_LINEAR_MIP_POINT：紋理內(nèi)線性插值，mipmap常量插值
- D3D12_FILTER_MIN_MAG_MIP_LINEAR：紋理內(nèi)線性插值，mipmap線性插值
- D3D12_FILTER_ANISOTROPIC：各項(xiàng)異性插值

9.6 Address Modes

紋理坐標(biāo)如果超出了[0,1]范圍，則有四種取值方式：
- wrap：平鋪模式（默認(rèn)）
- border color：取用戶指定的邊緣顏色
- clamp：取和定義域最近點(diǎn)的顏色
- mirror：鏡像地平鋪模式
wrap模式是默認(rèn)的，通過把紋理做成無縫的（即上下左右可以無縫貼合），則可以很容易地將紋理擴(kuò)展開
address mode由D3D12_TEXTURE_ADDRESS_MODE枚舉類來指定

9.7 采樣器對象（Sampler Object）

filter和address mode由采樣器對象管理，并傳到shader中
我們需要先創(chuàng)建一個(gè)sampler heap，這需要填寫一個(gè)D3D12_DESCRIPTOR_HEAP_DESC結(jié)構(gòu)，然后將類型設(shè)置為D3D12_DESCRIPTOR_HEAP_TYPE_SAMPLER；使用sampler heap，我們可以填寫一個(gè)D3D12_SAMPLER_DESC結(jié)構(gòu)，調(diào)用md3dDevice->CreateSampler()來生成一個(gè)sampler descriptor；在root signature中，如果使用descriptor table模式傳參，則需要在CD3DX12_DESCRIPTOR_RANGE中，Init為D3D12_DESCRIPTOR_RANGE_TYPE_SAMPLER類型。最后，使用mCommandList->SetGraphicsRootDescriptorTable()來在繪制時(shí)傳參
為了簡化上述步驟，Direct3D提供了一些靜態(tài)sampler可以直接使用（最多可定義2032個(gè)靜態(tài)sampler），我們需要填寫CD3DX12_STATIC_SAMPLER_DESC結(jié)構(gòu)，組合成數(shù)組，然后在創(chuàng)建root signature時(shí)，作為參數(shù)傳入，如下代碼所示。在使用時(shí)，這個(gè)例子中有6個(gè)靜態(tài)shader，因此我們可以直接在Shader中使用register(s0)到register(s5)

CD3DX12_ROOT_PARAMETER slotRootParameter[4]; // 初始化root parameter // ...... array<const CD3DX12_STATIC_SAMPLER_DESC, 6> staticSamplers; // 填寫靜態(tài)sampler結(jié)構(gòu) // ...... CD3DX12_ROOT_SIGNATURE_DESC rootSigDesc(4, slotRootParameter,(UINT)staticSamplers.size(), staticSamplers.data(),D3D12_ROOT_SIGNATURE_FLAG_ALLOW_INPUT_ASSEMBLER_INPUT_LAYOUT); // 創(chuàng)建root signature // ......

9.8 在Shader中采樣紋理

紋理和采樣器在shader中為如下的結(jié)構(gòu)：

Texture2D gDiffuseMap : register(t0); SamplerState gsamPointWrap : register(s0);

采樣時(shí)：

float4 diffuseAlbedo = gDiffuseMap.Sample(gsamPointWrap, pin.TexC) * gDiffuseAlbedo;

9.9 Crate Demo

可以調(diào)整不同的filter，可以看到，使用D3D12_FILTER_MIN_MAG_MIP_POINT，在方塊平面和視平面接近垂直時(shí)，不僅變糊，還出現(xiàn)了馬賽克；使用D3D12_FILTER_MIN_MAG_MIP_LINEAR，不會出現(xiàn)馬賽克，但也會變糊；使用D3D12_FILTER_ANISOTROPIC，則不會變糊
其他詳見代碼

9.10 紋理變換

紋理變換可以對紋理進(jìn)行平移、旋轉(zhuǎn)、縮放，它可能的應(yīng)用有：
- 假設(shè)目前一個(gè)磚墻的紋理坐標(biāo)范圍是[0,1]，通過縮放，可以放大和縮小墻上的磚（而不需要改變紋理坐標(biāo)或紋理貼圖）
- 藍(lán)天上貼上白云的貼圖，通過按時(shí)間平移紋理，可以做出云朵飄動的效果
- 紋理旋轉(zhuǎn)可以在粒子特效中發(fā)揮作用，如旋轉(zhuǎn)的火球
紋理變換包括兩個(gè)矩陣，一個(gè)是對紋理坐標(biāo)進(jìn)行變換，另一個(gè)則是對紋理貼圖進(jìn)行變換

9.11 增加紋理的山水Demo

詳見代碼

第十章融合（Blending）

10.1 融合方程

如果前物體顏色為C_{src}，融合系數(shù)為F_{src}，后物體顏色為C_{dst}，融合系數(shù)為F_{dst}，則混合后的顏色為（其中 $⊕\oplus$ 為10.2定義的運(yùn)算）

$(C_{dst} \otimes F_{dst}) \oplus (C_{src} \otimes F_{src})$

透明度也類似計(jì)算，系數(shù)取f_{src}和f_{dst}

10.2 融合運(yùn)算

常規(guī)的融合運(yùn)算定義在D3D12_BLEND_OP中：
- D3D12_BLEND_OP_ADD
- D3D12_BLEND_OP_SUBTRACT
- D3D12_BLEND_OP_REV_SUBTRACT
- D3D12_BLEND_OP_MIN
- D3D12_BLEND_OP_MAX
另一類融合運(yùn)算是邏輯融合運(yùn)算，定義在D3D12_LOGIC_OP中：
- D3D2_LOGIC_OP_CLEAR
- xxx_SET
- xxx_COPY
- xxx_COPY_INVERTED
- xxx_NOOP
- xxx_INVERT
- xxx_AND
- xxx_NAND
- xxx_OR
- xxx_NOR
- xxx_XOR
- xxx_EQUIV
- …
常規(guī)融合運(yùn)算和邏輯融合運(yùn)算只能二選一

10.3 融合系數(shù)

常見的融合系數(shù)類型定義在D3D12_BLEND中
- D3D12_BLEND_ZERO： $F = (0, 0, 0), f = 0$
- D3D12_BLEND_ONE： $F = (1, 1, 1), f = 1$
- D3D12_BLEND_SRC_COLOR： $F=(r_s,g_s,b_s)$
- D3D12_BLEND_INV_SRC_COLOR： $F=(1-r_s,1-r_g,1-r_b)$
- D3D12_BLEND_SRC_ALPHA： $F=(a_s,a_s,a_s), f=a_s$
- D3D12_BLEND_INV_SRC_ALPHA： $F=(1-a_s,1-a_s,1-a_s), f=1-a_s$
- D3D12_BLEND_DST_COLOR
- D3D12_BLEND_INV_DST_COLOR
- D3D12_BLEND_DST_ALPHA
- D3D12_BLEND_INV_DST_ALPHA
- D3D12_BLEND_SRC_ALPHA_SAT： $KaTeX parse error: Undefined control sequence: \mbox at position 39: …_s' ~~~ a_s' = \?m?b?o?x?{clamp}(a_s, 0,…$
- D3D12_BLEND_BELND_FACTOR：自定義 $F = (r, g, b), f = a$
- D3D12_BLEND_INV_BELND_FACTOR：自定義 $F = (1 ? r, 1 ? g, 1 ? b), f = 1 ? a$

10.4 融合狀態(tài)

之前，我們一直使用了默認(rèn)的融合狀態(tài)，即

mPsoDesc.BlendState = CD3DX12_BLEND_DESC(D3D12_DEFAULT);

對于非默認(rèn)融合狀態(tài)，我們需要先填一個(gè)D3D12_BLEND_DESC的結(jié)構(gòu)：

typedef struct D3D12_BLEND_DESC {// 在多重采樣中，將采樣點(diǎn)的alpha納入考慮中，從而達(dá)到柔和邊緣的作用，// 在繪制葉子、草時(shí)較為有用// 參考：https://blog.csdn.net/leonwei/article/details/53099634BOOL AlphaToCoverageEnable; // 默認(rèn)為False// Direct3D支持同時(shí)渲染八個(gè)對象，它們的融合系數(shù)和運(yùn)算都不同；// 若關(guān)閉，則多個(gè)對象都使用第一個(gè)元素的參數(shù)BOOL IndependentBlendEnable; // 默認(rèn)為FalseD3D11_RENDER_TARGET_BLEND_DESC RenderTarget[8]; } D3D11_BLEND_DESC; typedef struct D3D12_RENDER_TARGET_BLEND_DESC {// 前兩個(gè)只有一個(gè)可以為trueBOOL BlendEnable; // 默認(rèn)為FalseBOOL LogicOpEnable; // 默認(rèn)為False D3D12_BLEND SrcBlend; // 默認(rèn)為D3D12_BLEND_ONED3D12_BLEND DstBlend; // 默認(rèn)為D3D12_BLEND_ZEROD3D12_BLEND_OP BlendOp; // 默認(rèn)為D3D12_BLEND_OP_ADDD3D12_BLEND SrcBlendAlpha; // 默認(rèn)為D3D12_BLEND_ONED3D12_BLEND DstBlendAlpha; // 默認(rèn)為D3D12_BLEND_ZEROD3D12_BLEND_OP BlendOpAlpha; // 默認(rèn)為D3D12_BLEND_OP_ADD3D12_LOGIC_OP LogicOp; // 默認(rèn)為D3D12_LOGIC_OP_NOOP// 可以選擇只融合某一個(gè)或某幾個(gè)RGBA通道UINT8 RenderTargetWriteMask; // 默認(rèn)為D3D12_COLOR_WRITE_ENABLE_ALL }

10.5 例子

相加：會變亮

相減：會變暗

相乘：

透明： $C = a_s C_{src} + (1-a_s) C_{dst}$
- 和繪制順序相關(guān)：首先繪制不透明物體，然后從后向前繪制透明物體
和depth buffer的關(guān)系：
- 對于相加、相減、相乘，我們可以不從后向前繪制，因?yàn)檫@些操作是可交換的。然而，我們不應(yīng)使用深度檢測，否則如果先繪制了前物體，后物體就會被遮擋，不再由pixel shader計(jì)算。一種方法是，對于透明物體，我們不將它們的深度寫入depth buffer，但仍繪制到back buffer上。注意我們僅僅關(guān)閉了depth buffer的寫，而沒有關(guān)閉深度檢測，通過這樣的方法，如果一堵墻后面有一個(gè)半透明的物體，我們?nèi)匀豢梢酝ㄟ^深度檢測跳過它的計(jì)算
- 下圖是許多半透明粒子疊加的效果

10.6 Alpha通道

紋理的alpha通道可以用來做透明度的設(shè)置

10.7 Clipping Pixels

HLSL中有一個(gè)clip(x)函數(shù)，如果x小于0，shader就直接退出，不再進(jìn)行計(jì)算
對于網(wǎng)格狀或其他有大面積透明區(qū)域的紋理，可以通過clip()函數(shù)來去除透明區(qū)域的顏色計(jì)算，從而簡化運(yùn)算

10.8 霧

霧的效果除了可以帶來霧以外，還有許多其他好處：
- 防止popping，popping指當(dāng)遠(yuǎn)處物體進(jìn)入視錐的遠(yuǎn)平面時(shí)，會突然被繪制。霧可以消除這種突兀感。因此即使是晴天，我們也可以在較遠(yuǎn)的地方設(shè)置一些霧氣
霧的顏色：

$C_{fog} = C_{dst} + s(C_{fog} - C_{dst})$

$KaTeX parse error: Undefined control sequence: \mbox at position 5: s = \?m?b?o?x?{saturate} \lef…$

第十一章模板（Stenciling）

在實(shí)現(xiàn)鏡面時(shí)，可以將物體鏡像后繪制，但此時(shí)無法保證只繪制鏡面內(nèi)的物體，這可以通過模板來解決，如：

填寫D3D12_DEPTH_STENCIL_DESC結(jié)構(gòu)，然后在填寫PSO時(shí)賦值給相應(yīng)的成員變量

11.1 Depth/Stencil格式和清除

使用ID3D12GraphicsCommandList::ClearDepthStencilView()清除緩存

11.2 模板測試

if (comp(StencilRef & StencilReadMask, Value & StencilReadMask))// accept pixel else // reject pixel

StencilRef是程序預(yù)先設(shè)置好的閾值，而Value則是根據(jù)實(shí)際情況運(yùn)算得到的值，comp是枚舉類D3D12_COMPARISON_FUNC中的一個(gè)：
- D3D12_COMPARISON_NEVER/_ALWAYS
- xxx_LESS/_EQUAL/_LESS_EQUAL/_GREATER/_NOT_EQUAL/_GREATER_EQUAL

11.3 描述Depth/Stencil狀態(tài)

需填寫D3D12_DEPTH_STENCIL_DESC結(jié)構(gòu)：

typedef struct D3D12_DEPTH_STENCIL_DESC {// 是否啟用depth buffer，如果為false，則DepthWriteMask無效BOOL DepthEnable; // 默認(rèn)：true// D3D11_DEPTH_WRITE_MASK_ZERO：禁止寫入depth buffer，但仍depth test// D3D11_DEPTH_WRITE_MASK_ALL：允許寫入，通過depth test和stencil test才能繪制D3D12_DEPTH_WRITE_MASK DepthWriteMask; // 默認(rèn)：D3D11_DEPTH_WRITE_MASK_ALLD3D12_COMPARISON_FUNC DepthFunc; // 默認(rèn)：D3D11_COMPARISON_LESS// 是否啟用stencil bufferBOOL StencilEnable; // 默認(rèn)：false// 讀取時(shí)的掩碼，在stencil test中使用UINT8 StencilReadMask; // 默認(rèn)：0xff// 寫入時(shí)的掩碼UINT8 StencilWriteMask; // 默認(rèn)：0xff// 前面和后面使用stencil buffer的方法D3D12_DEPTH_STENCILOP_DESC FrontFace;D3D12_DEPTH_STENCILOP_DESC BackFace; } D3D12_DEPTH_STENCIL_DESC; typedef struct D3D12_DEPTH_STENCILOP_DESC {D3D12_STENCIL_OP StencilFailOp; // 默認(rèn)：D3D12_STENCIL_OP_KEEPD3D12_STENCIL_OP StencilDepthFailOp; // 默認(rèn)：D3D12_STENCIL_OP_KEEPD3D12_STENCIL_OP StencilPassOp; // 默認(rèn)：D3D12_STENCIL_OP_KEEPD3D12_COMPARISON_FUNC StencilFunc; // 默認(rèn)：D3D12_COMPARISON_ALWAYS } D3D12_DEPTH_STENCILOP_DESC; typedef enum D3D12_STENCIL_OP {D3D12_STENCIL_OP_KEEP, // 不修改stencil buffer的值xxx_ZERO, // stencil buffer設(shè)置為0xxx_REPLACE, // 使用StencilRef的值進(jìn)行替換xxx_INCR_SAT, // stencil buffer值加一，直到最大值xxx_DECR_SAT, // stencil buffer值減一，直到最小值xxx_INVERT, // stencil buffer的值取逆xxx_INCR, // stencil buffer值加一，到最大值繼續(xù)增加溢出到最小值xxx_DECR, // stencil buffer值減一，到最小值繼續(xù)減小溢出到最大值 } D3D12_STENCIL_OP;

填寫完成后賦值給PSO的DepthStencilState成員
使用mCommandList->OMSetStencilRef()來設(shè)置stencil buffer閾值

11.4 實(shí)現(xiàn)平面鏡

平面鏡的實(shí)現(xiàn)分兩步：將物體鏡面對稱（對于每個(gè)頂點(diǎn)都知道的物體而言很容易），僅在鏡子的范圍內(nèi)繪制。對于第二步，又分為：
- 首先繪制鏡子之外的物體
- 將stencil buffer清零
- 僅將鏡子繪制在stencil buffer上。為了完成這一步，我們需要：
  - 禁止將顏色寫到back buffer上。D3D12_RENDER_TARGET_BLENDER_DESC::RenderTargetWriteMask = 0
  - 禁止寫depth buffer。D3D12_DEPTH_STENCIL_DESC::DepthWriteMask = D3D12_DEPTH_WRITE_MASK_ZERO
  - 開啟stencil test，設(shè)置StencilFunc為D3D12_COMPARISON_ALWAYS，設(shè)置StencilRef為1，設(shè)置StencilPassOp為D3D12_STENCIL_OP_REPLACE，設(shè)置StencilDepthFailOp為D3D12_STENCIL_OP_KEEP
- 開始繪制需要鏡像的物體到鏡子區(qū)域。設(shè)置StencilRef為1，設(shè)置StencilFunc為D3D12_COMPARISON_EQUAL。這樣，只有鏡子區(qū)域被繪制了，其他區(qū)域都沒有通過stencil test
- 繪制鏡子。為了讓后面的物體能夠被看到，鏡子需要繪制成半透明的。若將鏡子透明度設(shè)置為a，則顏色為 $C = a C_{src} + (1-a) C_{dst}$
另一個(gè)需要注意的是，物體鏡像后，面片頂點(diǎn)方向發(fā)生變化，導(dǎo)致頂點(diǎn)法向變反。因此要將mPsoDesc.RasterizationState.FrontCounterClockwise設(shè)置為true

11.5 實(shí)現(xiàn)平面鏡中的陰影

此節(jié)僅講述平面陰影的情況，因此是一種比較粗糙的方法
將物體投影到平面上，然后按照一定透明度、黑色材質(zhì)繪制物體投影體。需要注意的是，物體投影體可能會有很多重疊，造成黑色透明材質(zhì)被繪制很多遍，從而顏色不均勻。這一問題可以通過stencil進(jìn)行解決
如何計(jì)算投影，過程詳見書本，結(jié)論如下圖所示（適用于平行光和點(diǎn)光源）：

如何通過stencil test避免繪制重疊部分，如下：
- stencil buffer初始化為0
- 設(shè)置stencil buffer只接受值為0的pixel進(jìn)行繪制，接受后，通過D3D12_STENCIL_INCR_SAT將值修改為1

第十二章幾何著色器（Geometry Shader）

若我們沒有使用tessellation stage，則介于vertex shader和pixel shader之間的幾何著色器是可選的
vertex shader以頂點(diǎn)為輸入，而geometry shader以面元為輸入，從觀念上，geometry shader相當(dāng)于一個(gè)如下的函數(shù)，它以一列的頂點(diǎn)作為輸入，輸出一列面元

for (UINT i=0; i<numTriangles; ++i) {OutputPrimitiveList = GeometryShader(T[i].vertexList); }

因此，vertex shader不可以創(chuàng)造或毀滅頂點(diǎn)，但geometry shader就可以。因此，geometry shader可以將輸入的一個(gè)元素變成多個(gè)元素（如粒子特效，或?qū)⒁粋€(gè)頂點(diǎn)變成一個(gè)正方形），或依據(jù)一些條件不輸出相應(yīng)的面元

12.1 Geometry Shader編程

Geometry Shader的結(jié)構(gòu)如下：

[maxvertexcount(N)] void ShaderName(PrimitiveType InputVertexType InputName[NumElements],inout StreamOutputObject<OutputVertexType> OutputName) {// 代碼主體 }

N是geometry shader一次調(diào)用最大的頂點(diǎn)輸出數(shù)量。實(shí)際輸出數(shù)量可以小于這一數(shù)值，但不可以大于它。根據(jù)2008年Nvidia的一篇文章，geometry shader的效率巔峰在輸出1-20個(gè)標(biāo)量數(shù)值，如果輸出在27-40個(gè)標(biāo)量數(shù)值，效率就會下降到50%。標(biāo)量數(shù)值就是頂點(diǎn)個(gè)數(shù)和頂點(diǎn)數(shù)據(jù)結(jié)構(gòu)大小的乘積
NumElements如果為
- 1：一個(gè)頂點(diǎn)
- 2：一條線
- 3：一個(gè)三角形
- 4：連接的線（lists方式或strips方式）
- 6：連接的三角形（lists方式或strips方式）
例子：輸入一個(gè)單位圓上的三角形，輸出三角形（在圓上）的四等分

struct VertexOut {float3 PosL : POSITION;float3 NormalL : NORMAL;float2 Tex : TEXCOORD; }; struct GeoOut {float4 PosH : SV_POSITION;float3 PosW : POSITION;float3 NormalW : NORMAL;float3 Tex : TEXCOORD;float2 FogLerp : FOG; }; // 頂點(diǎn)為0-1-2的三角形，0-1中點(diǎn)為m0，1-2中點(diǎn)為m1，0-2中點(diǎn)為m2 void Subdivide(VertexOut inVerts[3], out VertexOut outVerts[6]) {VertexOut m[3];m[0].PosL = 0.5f * (inVerts[0].PosL + inVerts[1].PosL);m[1].PosL = 0.5f * (inVerts[1].PosL + inVerts[2].PosL);m[2].PosL = 0.5f * (inVerts[2].PosL + inVerts[0].PosL);// 投影到圓上m[0].PosL = normalize(m[0].PosL);m[1].PosL = normalize(m[1].PosL);m[2].PosL = normalize(m[2].PosL);m[0].NormalL = m[0].PosL;m[1].NormalL = m[1].PosL;m[2].NormalL = m[2].PosL;m[0].Tex = 0.5f * (inVerts[0].Tex + inVerts[1].Tex);m[1].Tex = 0.5f * (inVerts[1].Tex + inVerts[2].Tex);m[2].Tex = 0.5f * (inVerts[2].Tex + inVerts[0].Tex);outVerts[0] = inVerts[0];outVerts[1] = m[0];outVerts[2] = m[2];outVerts[3] = m[1];outVerts[4] = inVerts[2];outVerts[5] = inVerts[1]; } void OutputSubdivision(VertexOut v[6], inout TriangleStream<GeoOut> triStream) {GeoOut gout[6];[unroll]for (int i=0; i<6; ++i) {// 轉(zhuǎn)換到世界坐標(biāo)gout[i].PosW = mul(float4(v[i].PosL, 1.0f), gWorld).xyz;gout[i].NormalW = mul(v[i].NormalL, (float3x3)gWorldInvTranspose);// 轉(zhuǎn)換到裁剪坐標(biāo)gout[i].PosH = mul(float4(v[i].PosL, 1.0f), gWorldViewProj);gout[i].Tex = v[i].Tex;}// 1// m0 m1// 0 m2 2// 將三角形按照triangle strips的方式排列到triStream中// 注意，上述4個(gè)三角形不可能由一個(gè)strip完成，因此需要restart，用兩個(gè)strip組合// 第一個(gè)是0-m0-m2-m1-2，第二個(gè)是m0-1-m1[unroll]for (int j=0; j<5; ++j) {triStream.Append(gout[j]);}triStream.RestartStrip();triStream.Append(gout[1]);triStream.Append(gout[5]);triStream.Append(gout[3]); } [maxvertexcount(8)] void GS(triangle VertexOut gin[3], inout TriangleStream<GeoOut>) {VertexOut v[6];Subdivide(gin, v);OutputSubdivision(v, triStream); }

12.2 樹的Demo

當(dāng)樹在很遠(yuǎn)的地方時(shí)，可以使用billboard技術(shù)來加速。即，我們不繪制一個(gè)完整的樹的模型，而是繪制一個(gè)矩形，上面放上樹的圖片。這一技術(shù)的關(guān)鍵在于這個(gè)矩形必須時(shí)時(shí)垂直于攝像機(jī)。
每棵樹對應(yīng)了一個(gè)頂點(diǎn)。以該頂點(diǎn)為原點(diǎn)，朝向攝像機(jī)為w軸，豎直向上為v軸，叉乘結(jié)果為u軸，則可以垂直w軸，平行v軸和u軸，通過geometry shader生成一個(gè)矩形，矩形大小由樹貼圖的包圍盒大小決定。在矩形上渲染樹的貼圖，即可得到樹的繪制
geometry shader還可以增加一個(gè)可選的輸入：

[maxvertexcount(4)] void GS(point VertexOut gin[1],uint primID : SV_PrimitiveID,inout TriangleStream<GeoOut> triStream)

primitive ID是input assembly階段對每個(gè)面元自動生成的編號，對于每次draw call，面元都會從0開始編號，因此在一次draw call中primitive ID是唯一的。如果geometry shader被省略了，SV_PrimitiveID也可以加到pixel shader中；但如果geometry shader未省略，則若要使用primitive ID，則必須通過geometry shader走
此外，input assembly階段也可以產(chǎn)生一個(gè)vertex ID，只需要在vertex shader的參數(shù)中加一個(gè)SV_VertexID的類型就可以了
獲取面元的primitive ID，在pixel shader中就可以根據(jù)不同的ID在不同的紋理上采樣，詳見12.3

12.3 紋理序列

12.4 Alpha-to-Coverage

如果生硬地使用alpha通道，則樹容易出現(xiàn)硬邊
- 一種方法是在邊緣使用半透明融合而不是alpha test。但這一方法需要對渲染物體排序，且從后向前渲染。若對一片森林每幀都要進(jìn)行排序，則是非常低效的
- 另一方面方法是使用多重采樣，但簡單的多重采樣僅僅根據(jù)是否物體是否覆蓋了子像素，來平均像素的顏色
- 因此，alpha-to-coverage運(yùn)用了多重采樣的方法，對alpha通道也進(jìn)行了平均
開啟此功能，需D3D12_BLEND_DESC::AlphaToCoverageEnable = true以及mEnable4xMsaa = true

第十三章計(jì)算著色器（Compute Shader）

GPU的并行計(jì)算能力，可以運(yùn)用在一些非渲染的工作上（General Purpose GPU）但它僅適合對大量數(shù)據(jù)進(jìn)行相似計(jì)算的場景，如：
- 在每個(gè)像素上計(jì)算顏色
- 水波模擬時(shí)在每個(gè)頂點(diǎn)上求解波函數(shù)
- 粒子特效
對這一類GPGPU編程，通常計(jì)算輸入需要從CPU拿到GPU，計(jì)算結(jié)果需要從GPU拿回到CPU，盡管CPU和RAM交換數(shù)據(jù)非常快，GPU和VRAM交換數(shù)據(jù)更加快，但CPU和GPU交換數(shù)據(jù)是比較慢的。在圖形學(xué)上，我們通常完成計(jì)算后，再把結(jié)果交給GPU渲染，從而避免GPU拿回?cái)?shù)據(jù)到CPU
計(jì)算著色器不直接作為渲染管線的一部分，但它可以完成CPU和GPU的交互

13.1 線程和線程群

thread們被分配到一堆的thread group中，一個(gè)thread group只能被一個(gè)處理器處理。比如假設(shè)有16個(gè)處理器，則我們希望將問題分配到至少16個(gè)thread group，從而每個(gè)處理器都能被利用起來。此外，最好每個(gè)預(yù)處理器上至少有2個(gè)thread group，這樣可以在一個(gè)thread group陷入等待時(shí)處理另一個(gè)thread group
每個(gè)thread group中，thread們可以共享內(nèi)存，但不同的thread group之間不能共享內(nèi)存；同一個(gè)thread group中可以對thread進(jìn)行同步，但不同的thread group之間不能進(jìn)行同步，且它們的執(zhí)行順序是不確定的
一個(gè)thread group中包含n個(gè)thread，硬件通常將32個(gè)thread組成一個(gè)warp，從而一個(gè)warp可以使用SIMD32指令來加速。CUDA中，每個(gè)CUDA核心處理一個(gè)線程，而一個(gè)Fermi架構(gòu)的處理器中含有32個(gè)CUDA核心。在Direct3D中，出于性能考慮，最好一個(gè)thread group的維度應(yīng)為warp大小的整數(shù)倍
在Direct3D中，使用ID3D12GraphicsCommandList::Dispatch(ThreadGroupCountX, ThreadGroupCountY, ThreadGroupCountZ)來分配3D格點(diǎn)的thread group，例如，下圖分配了一個(gè)3*2的thread group，每個(gè)thread group中含有64個(gè)thread

13.2 一個(gè)簡單的Compate Shader例子

cbuffer cbSettings {// compute shader可以從constant buffer中獲取值 }; Texture2D gInputA; Texture2D gInputB; RWTexture2D<float4> gOutput; // 一個(gè)thread group中thread的數(shù)量 [numthreads(16,16,1)] void CS(int3 dispatchThreadID : SV_DispatchThreadID) {gOutput[dispatchThreadID.xy] = gInputA[dispatchThreadID.xy] + gInputB[dispatchThreadID.xy]; }

為了運(yùn)行一個(gè)compute shader，我們需要一個(gè)平行于渲染管線的計(jì)算管線，因此首先要填寫一個(gè)D3D12_COMPUTE_PIPELINE_STATE_DESC的數(shù)據(jù)結(jié)構(gòu)，然后使用md3dDevice->CreateComptePipelineState()生成compute PSO

13.3 數(shù)據(jù)輸入輸出資源

13.3.1 輸入紋理

和之前類似，在root signature中設(shè)置好，然后使用mCommandList->SetComputeRootDescriptorTable()傳入

13.3.2 輸出紋理和UAV（Unordered Access Views）

在computer shader中，輸出紋理需用RWTexture2D來表示，RW表示read-write
輸出也需要綁定到descriptor heap中的一個(gè)descriptor，這一類的descriptor應(yīng)使用unordered access view (UAV)
首先填寫D3D12_RESOURCE_DESC結(jié)構(gòu)，用md3dDevice->CreateCommitedResource()生成一個(gè)資源
由于紋理既需要作為computer shader的輸出，又需要作為后續(xù)渲染的輸入，因此既需要作為一個(gè)UAV，又需要作為一個(gè)SRV，因此填寫D3D12_UNORDERED_ACCESS_VIEW_DESC結(jié)構(gòu)和D3D12_SHADER_RESOURCE_VIEW_DESC結(jié)構(gòu)，然后調(diào)用md3dDevice->CreateShaderResourceView()和md3dDevice->CreateUnorderedAccessView()
注意對于UAV的資源，D3D12_RESOURCE_DESC::Flags需要設(shè)置為D3D12_RESOURCE_FLAG_ALLOW_UNORDERED_ACCESS
可以將UAV放到D3D12_DESCRIPTOR_HEAP_TYPE_CBV_SRV_UAV類型的heap中

13.3.3 紋理索引和采樣

紋理的每個(gè)像素可以通過thread ID進(jìn)行索引，thread ID見13.4
讀寫越界在compute shader中都是有定義的行為，讀越界返回0，寫越界什么都不發(fā)生
在這里，采樣不可以使用Sample方法，而必須要使用SampleLevel方法，因?yàn)?#xff1a;
- SampleLevel取三個(gè)參數(shù)，前兩個(gè)參數(shù)表示紋理坐標(biāo)，最后一個(gè)參數(shù)表示mipmap級別；而Sample只取最合適的一層（或兩層）mipmap
- Sample將紋理坐標(biāo)歸一化到0-1之間，而SampleLevel則是原始的大小

13.3.4 結(jié)構(gòu)化緩存資源

之前的例子都是紋理，對于數(shù)組，則在compute shader中使用StructuredBuffer（作為輸入）和RWStructuredBuffer（作為輸出）來表示，它們照樣還是用SRV或者UAV在計(jì)算管線中表示

13.3.5 拷貝Computer Shader結(jié)果回內(nèi)存

首先需創(chuàng)建一個(gè)類型為D3D12_HEAP_TYPE_READBACK的資源，然后使用mCommandList->CopyResource()方法來取回?cái)?shù)據(jù)

ThrowIfFailed(md3dDevice->CreateCommitedResource(&CD3DX12_HEAP_PEOPERTIES(D3D12_HEAP_TYPE_READBACK),D3D12_HEAP_FLAG_NONE,&CD3DX12_RESOURCE_DESC::Buffer(byteSize),D3D12_RESOURCE_STATE_COPY_DEST,nullptr, IID_PPV_ARGS(&mReadBackBuffer)));// 完成computer shader計(jì)算，保存在mOutputBuffer中 mCommandList->ResourceBarrier(1,&CD3DX12_RESOURCE_BARRIER::Transition(mOutputBuffer.Get(), D3D12_RESOURCE_STATE_COMMON, D3D12_RESOURCE_STATE_COPY_SOURCE)); mCommandList->CopyResource(mReadBackBuffer.Get(), mOutputBuffer.Get()); mCommandList->ResourceBarrier(1,&CD3DX12_RESOURCE_BARRIER::Transition(mOutputBuffer.Get(), D3D12_RESOURCE_STATE_COPY_SOURCE, D3D12_RESOURCE_STATE_COMMON));// 關(guān)閉mCommandList，等待command執(zhí)行完成 FlushCommandQueue(); Data* mappedData = nullptr; ThrowifFailed(mReadBackBuffer->Map(0, nullptr, reinterpret<void**>(&mappedData)));// 使用數(shù)據(jù) mReadBackBuffer->Unmap(0, nullptr);

從GPU拷貝數(shù)據(jù)到CPU的ReadBack類型的資源，以及拷貝方法，和從CPU拷貝數(shù)據(jù)到GPU的Upload類型的資源非常相似

13.4 線程ID

如圖，thread T的：
- SV_GroupID：(1,1,0)
- SV_GroupThreadID：(2,5,0)
- SV_DispatchThreadID為

$\otimes (8,8,0) + (2,5,0) = (10,13,0)$

* SV_GroupIndex為1*3+1=4

13.5 消費(fèi)者-生產(chǎn)者緩沖

有時(shí)我們不關(guān)心計(jì)算的順序，如粒子系統(tǒng)，給定每個(gè)例子的位置、速度和加速度，求解下一時(shí)刻的位置、速度和加速度，則粒子的計(jì)算順序是不重要的，這時(shí)生產(chǎn)者-消費(fèi)者模型就非常好，不同的thread從生產(chǎn)者那兒拿到數(shù)據(jù)進(jìn)行“消費(fèi)”，計(jì)算得到結(jié)果。這時(shí)需使用ConsumeStructuredBuffer和AppendStructuredBuffer，如：

struct Particle {float3 Position, Velocity, Acceleration; }; float TimeStep = 1.0f / 60.0f; ConsumeStructuredBuffer<Particle> gInput; AppendStructuredBuffer<Particle> gOutput; [numthreads(16, 16, 1)] void CS() {Particle p = gInput.Consume();// 計(jì)算p// ......gOutput.Append(p); }

AppendStructuredBuffer并不是動態(tài)增長的，而是預(yù)先一個(gè)足夠大的空間

13.6 共享內(nèi)存和同步

共享內(nèi)存可如下定義。它最大空間為32k。

groupshared float4 gCache[256];

使用太大的共享內(nèi)存會有性能問題。假設(shè)處理器支持32k的共享內(nèi)存，而每個(gè)thread group使用了20k的共享內(nèi)存，則處理器一次只能運(yùn)行一個(gè)thread group，降低了并發(fā)性
共享內(nèi)存的常見例子是紋理，一些算法（如模糊運(yùn)算）需要多次訪問紋理的每個(gè)texel，而在紋理上采樣是比較慢的運(yùn)算，因此可以讓每個(gè)thread先將對應(yīng)的texel存下來，放在共享內(nèi)存中，然后再進(jìn)行算法運(yùn)算，如：

Texture2D gInput; RWTexture2D<float4> gOutput; groupshared float4 gCache[256]; [numthreads(256, 1, 1)] void CS(int3 groupThreadID : SV_GroupThreadID,int3 dispatchThreadID : SV_DispatchThreadID) {// 每個(gè)線程先采樣，保存到共享內(nèi)存中g(shù)Cache[groupThreadID.x] = gInput[dispatchThreadID.xy];// 如果直接進(jìn)行運(yùn)算，則無法保證其他thread已經(jīng)完成采樣的工作，因此這里需要先進(jìn)行同步GroupMemoryBarrierWithGroupSync();// 其他運(yùn)算// ...... }

13.7 Blur Demo

Blur就是使用高斯卷積核進(jìn)行模糊。由于高斯分布在各個(gè)方向上的獨(dú)立性，一個(gè)二維高斯卷積核可以被分成兩個(gè)一維高斯卷積核，這不但簡化了compute shader的實(shí)現(xiàn)（在thread group邊緣的像素很難提前存好texel值），還減少了采樣數(shù)（假設(shè)9*9的卷積核，若在二維上操作，則需要采樣81個(gè)texel；在一維上操作，只需要采樣9+9個(gè)texel）
之前，我們之所以可以渲染到back buffer中，只是因?yàn)槲覀冊趕wap chain中建立了texture resource，并在繪制時(shí)使用了mCommandList->OMSetRenderTargets()指定繪制在這個(gè)texture上，最后使用mSwapChain->Present()方法將它展示出來。因此，我們完全可以創(chuàng)建一個(gè)其他texture（選擇另一個(gè)視角），綁定到Output Merger上進(jìn)行繪制，這一技術(shù)就是離屏渲染（render-to-off-screen）或紋理繪制（render-to-texture）。它可以
- 生成3D小地圖
- 陰影映射（shadow mapping）
- 屏幕空間環(huán)境光遮擋（screen space ambient occlusion）
- 立方體紋理的動態(tài)反射（dynamic reflection with cube maps）
實(shí)現(xiàn)模糊算法的整體流程：
- 將正常的場景渲染到off-screen texture中
- 將渲染得到的texture輸入compute shader計(jì)算它的模糊結(jié)果
- 重新設(shè)置back buffer為render target，并繪制一個(gè)覆蓋整個(gè)屏幕的矩形，矩形使用模糊結(jié)果作為紋理
如果模糊前后的紋理在參數(shù)上（如大小、格式）一致，則可以簡化上述流程，將正常場景渲染到back buffer上但不顯示，然后通過mCommandList->CopyResource()將back buffer拷貝到另一個(gè)texture上輸入compute shader
上述過程先渲染，再計(jì)算，又渲染，多次切換，會降低效率。出于性能考慮，應(yīng)盡量先一次性做完全部計(jì)算工作，再一次性做完全部渲染工作。這里確實(shí)無法避免這一情況的出現(xiàn)。
Blur實(shí)現(xiàn)流程：
- 創(chuàng)建兩個(gè)資源A和B
- 將A綁定到SRV上，B綁定到UAV上
- 分配thread group，進(jìn)行水平方向blur，結(jié)果存儲在B上
- 將B綁定到SRV上，A綁定到UAV上
- 分配thread group，進(jìn)行豎直方向blur，結(jié)果存儲在A上

13.8 更多關(guān)于Compute Shader的資料

Programming Massively Parallel Processors: A Hands-on Approach
OpenCL Programming Guide
http://blogs.msdn.com/b/chuckw/archive/2010/07/14/directcompute.aspx
http://channel9.msdn.com/tags/DirectCompute-Lecture-Series/
http://developer.nvidia.com/cuda-training

第十四章細(xì)分（Tessellation）

動機(jī)：為何要細(xì)分而不是一個(gè)已經(jīng)細(xì)分好的模型？
- 動態(tài)LOD。可以根據(jù)攝像機(jī)距離以及其他因素，動態(tài)調(diào)節(jié)模型細(xì)節(jié)級別
- 簡化物理動畫
- 節(jié)省空間
tessellation在vertex shader到geometry shader之間，包含了hull shader、tessellator stage、domain shader stage三個(gè)部分

14.1 Tessellation元素類型

如果使用了tessellation，我們不再上傳三角形到Input Assembly階段，而是上傳一組由控制點(diǎn)組成的patch，一個(gè)patch可以由1-32個(gè)控制點(diǎn)組成，它們的類型被定義為：D3D_PRIMITIVE_TOPOLOGY_{n}_CONTROAL_POINT_PATCHLIST，n為1-32
一個(gè)三角形可以被認(rèn)為是一個(gè)由三個(gè)控制點(diǎn)組成的三角形patch，因此我們?nèi)匀豢梢陨蟼鞒Ｒ?guī)的三角形網(wǎng)格到tessellation。一個(gè)四邊形由四個(gè)控制點(diǎn)組成，它會在tessellation階段被細(xì)分為三角形
更多的控制點(diǎn)則和貝塞爾曲線、曲面有關(guān)
由于我們處理的是控制點(diǎn)，因此輸入和輸出vertex shader的也是控制點(diǎn)

14.2 Hull Shader

hull shader分成了constant hull shader和control point hull shader

14.2.1 Constant Hull Shader

constant hull shader逐patch進(jìn)行，輸出網(wǎng)格的tessellation factors，它們將在tessellation stage決定如何細(xì)分一個(gè)patch
一個(gè)例子：均勻地細(xì)分一個(gè)四邊形3次

struct PatchTess {// 決定了四邊形的四條邊如何細(xì)分float EdgeTess[4] : SV_TessFactor;// 決定四邊形的內(nèi)部（二維流形，因此只有u軸和v軸，水平/豎直）如何細(xì)分float InsideTess[2] : SV_InsideTessFactor;// 以及其他vertex shader傳出的數(shù)據(jù) }; PatchTess ConstantHS(InputPatch<VertexOut, 4> patch, // 四個(gè)控制點(diǎn)uint patchID : SV_PrimitiveID // 第幾個(gè)patch ) {PatchTess pt;// 均勻細(xì)分3次pt.EdgeTess[0] = 3; // 左邊pt.EdgeTess[1] = 3; // 上邊pt.EdgeTess[2] = 3; // 右邊pt.EdgeTess[3] = 3; // 下邊pt.InsideTess[0] = 3; // u軸pt.InsideTess[1] = 3; // v軸 return pt; }

四邊形有4個(gè)EdgeTess參數(shù)，2個(gè)InsideTess參數(shù)，而三角形則只有3個(gè)EdgeTess參數(shù)，1個(gè)InsideTess參數(shù)。例子詳見14.3
最大tessellation factor為64，如果所有tessellation factors都是0，則這個(gè)patch不顯示
何時(shí)增加或減少細(xì)節(jié)：
- 和相機(jī)的距離
- 占據(jù)屏幕面積
- 朝向，顯示出物體輪廓的需更加細(xì)分
- 粗糙度，粗糙的物體需要更多細(xì)分才能顯示出細(xì)節(jié)
性能建議：
- 如果tessellation factors都是1，即不進(jìn)行細(xì)分，則跳過tessellation環(huán)節(jié)
- 不要對占據(jù)像素少于8個(gè)的三角形進(jìn)行細(xì)分
- 將使用tessellation的draw call放到一起繪制，不要頻繁開關(guān)tessellation

14.2.2 Control Point Hull Shader

control point hull shader輸入一系列控制點(diǎn)并輸出一系列控制點(diǎn)。它在每個(gè)輸出控制點(diǎn)上都會運(yùn)行一次。一個(gè)例子是輸入一個(gè)常規(guī)的三角形（3個(gè)控制點(diǎn)），輸出一個(gè)三次貝塞爾三角形片（10個(gè)控制點(diǎn)），這個(gè)策略被稱為N-patches scheme或PN triangles scheme
簡單的“穿過”例子：不做任何處理，直接輸出

struct HullOut {float3 PosL : POSITION; }; [domain("quad")] // patch類型，可以是tri，quad和isoline [partitioning("integer")] // 分割模式，integer表示新的頂點(diǎn)只會增加在整數(shù)tessellation factor的位置，fractional_even/fractional_odd表示新的頂點(diǎn)會增加在整數(shù)位置，但稍稍偏移，這適用于細(xì)分?jǐn)?shù)慢慢增加或減少時(shí)，可以平滑過渡，而不會發(fā)生跳變 [outputtopology("triangle_cw")] // 輸出拓?fù)?#xff1a;triangle_cw表示順時(shí)針三角形，triangle_ccw表示逆時(shí)針三角形，line表示線細(xì)分 [outputcontrolpoints(4)] // 一共輸出4個(gè)控制點(diǎn)，由于每個(gè)輸出控制點(diǎn)運(yùn)行一次，因此整個(gè)shader運(yùn)行了4次 [patchconstantfunc("ConstantHS")] // 指定constant hull shader名稱 [maxtessfactor(64.0f)] // 最大tessellation factor PHullOut HS(InputPatch<VertexOut, 4> p,uint i : SV_OutputControlPointID, // 輸出控制點(diǎn)IDuint patchId : SV_PrimitiveID ) {HullOut hout;hout.PosL = p[i].PosL;return hout; }

14.3 Tessellation階段

四邊形細(xì)分例子：

三角形細(xì)分例子：

14.4 Domain Shader

tessellation階段輸出了新創(chuàng)建的頂點(diǎn)和三角形，domain shader在每個(gè)頂點(diǎn)上運(yùn)行一次
開啟tessellation后，原有的vertex shader成為了每個(gè)輸入控制點(diǎn)上的shader，而hull shader成為了一個(gè)細(xì)分patch上每個(gè)頂點(diǎn)的shader，那么我們還需要一個(gè)裁剪空間的vertex shader，至少將坐標(biāo)從局部空間轉(zhuǎn)換到裁剪空間，這就是domain shader做的事情
domain shader的輸入是tessellation factors，細(xì)分頂點(diǎn)的參數(shù)坐標(biāo)（uv軸上的坐標(biāo)）和control point hull shader產(chǎn)生的其他控制點(diǎn)。注意，細(xì)分頂點(diǎn)的坐標(biāo)不是直接給出的，而僅僅是一個(gè)uv坐標(biāo)，因此需要自己進(jìn)行雙線性插值

struct DomainOut {float4 PosH : SV_POSITION; }; [domain("quad")] DomainOut DS(PatchTess patchTess,float2 uv : SV_DomainLocation,const OutputPatch<HullOut, 4> quad ) {DomainOut dout;// 雙線性插值float3 v1 = lerp(quad[0].PosL, quad[1].PosL, uv.x);float3 v2 = lerp(quad[2].PosL, quad[3].PosL, uv.x);float3 p = lerp(v1, v2, uv.y);float4 posW = mul(float4(p, 1.0f), gWorld);dout.PosH = mul(posW, gViewProj);return dout; }

14.5 細(xì)分一個(gè)四邊形

通過細(xì)分，將一個(gè)四邊形細(xì)分成山巒形，攝像機(jī)越近，則細(xì)分越厲害

struct VertexIn {float3 PosL : POSITION; }; struct VertexOut {float3 PosL : POSITION; }; VertexOut VS(VertexIn vin) {VertexOut vout;vout.PosL = vin.PosL;return vout; } struct PatchTess {float EdgeTess[4] : SV_TessFactor;float InsideTess[2] : SV_InsideTessFactor; }; PatchTess ConstantHS(InputPatch<VertexOut, 4> patch,uint patchID : SV_PrimitiveID) {PatchTess pt;// 測量攝像機(jī)與物體的距離float3 centerL = 0.25 * (patch[0].PosL + ... + patch[3].PosL);float3 centerW = mul(float4(centerL, 1.0f), gWorld).xyz;float d = distance(centerW, gEyePosW);// 在最近距離和最遠(yuǎn)距離之間，按0-64插值const float d0 = 20.0f, d1 = 100.0f;float tess = 64.0f * saturate( (d1-d)/(d1-d0) );// 均勻細(xì)分pt.EdgeTess[0] = ... = pt.EdgeTess[3] = tess;pt.InsideTess[0] = pt.InsideTess[1] = tess;return pt; } struct HullOut {float3 PosL : POSITION; }; [domain("quad")] [partitioning("integer")] [outputtopology("triangle_cw")] [outputcontrolpoints(4)] [patchconstantfunc("ConstantHS")] [maxtessfactor(64.0f)] PHullOut HS(InputPatch<VertexOut, 4> p,uint i : SV_OutputControlPointID, // 輸出控制點(diǎn)IDuint patchId : SV_PrimitiveID ) {HullOut hout;hout.PosL = p[i].PosL;return hout; } struct DomainOut {float4 PosH : SV_POSITION; }; [domain("quad")] DomainOut DS(PatchTess patchTess,float2 uv : SV_DomainLocation,const OutputPatch<HullOut, 4> quad ) {DomainOut dout;// 雙線性插值float3 v1 = lerp(quad[0].PosL, quad[1].PosL, uv.x);float3 v2 = lerp(quad[2].PosL, quad[3].PosL, uv.x);float3 p = lerp(v1, v2, uv.y);// 山巒位移p.y = 0.3f * (p.z * sin(p.x)+ p.x * sin(p.z));float4 posW = mul(float4(p, 1.0f), gWorld);dout.PosH = mul(posW, gViewProj);return dout; } float4 PS(DomainOut pin) : SV_Target {return float4(1.0f, 1.0f, 1.0f, 1.0f); }

14.6 三次貝塞爾四邊形patch

14.6.1 三次貝塞爾曲線

14.6.2 三次貝塞爾曲面

14.6.3 三次貝塞爾曲面代碼

4條沿u軸方向的貝塞爾曲線（其中B為Bernstein基函數(shù)）：

$q0(u)=B03(u)p0,0+B13(u)p0,1+B23(u)p0,2+B33(u)p0,3q1(u)=B03(u)p1,0+B13(u)p1,1+B23(u)p1,2+B33(u)p1,3q2(u)=B03(u)p2,0+B13(u)p2,1+B23(u)p2,2+B33(u)p2,3q3(u)=B03(u)p3,0+B13(u)p3,1+B23(u)p3,2+B33(u)p3,3\begin{aligned}q_0(u) = B_0^3(u) p_{0,0} + B_1^3(u) p_{0,1} + B_2^3(u) p_{0,2} + B_3^3(u) p_{0,3} \\q_1(u) = B_0^3(u) p_{1,0} + B_1^3(u) p_{1,1} + B_2^3(u) p_{1,2} + B_3^3(u) p_{1,3} \\q_2(u) = B_0^3(u) p_{2,0} + B_1^3(u) p_{2,1} + B_2^3(u) p_{2,2} + B_3^3(u) p_{2,3} \\q_3(u) = B_0^3(u) p_{3,0} + B_1^3(u) p_{3,1} + B_2^3(u) p_{3,2} + B_3^3(u) p_{3,3} \\\end{aligned}$

曲面上的點(diǎn)：

$p(u,v) = B_0^3(u) q_0(u) + B_1^3(u) q_1(u) + B_2^3(u) q_2(u) + B_3^3(u) q_3(u)$

14.6.4 Demo

詳見代碼

總結(jié)

以上是生活随笔為你收集整理的Frank Luna DirectX12阅读笔记：绘制进阶（第八章-第十四章）的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： 2022/12/1 组会
下一篇： Datawhale-数据分析-泰坦尼克-