hevc CTB并行
H265/HEVC中采用了波前并行處理(WPP)算法來進行CTB級的并行,對于CABAC熵編碼,當entropy_coding_sync_enabled_flag為1時,CABAC上下文模型會在每一行的結尾處進行更新,這使得熵編碼和熵解碼的CTB級并行成為可能,當進行波前并行處理時,多行CTB被分別送到不同的運算單元中進行處理,但是由于相鄰CTB之間的依賴性,這些運算單元不能同時開始運行,除了解碼第一行CTB的線程外,每一個線程都要比上一個線程落后兩個CTB進行解碼,這也就意味著所有的運算單元不可能同時結束,這會造成并行效率的降低,尤其時當運算單元數較多的時候更為明顯。
盡管在線程數量較多的時候,CTB級別的并行的效率有所降低,但是CTB級并行處理相對于其它并行方式還是有很多的優點,首先CTB級并行有較好的擴展性,隨著圖像分辨率的增加,CTB級并行的線程數也可以很方便的增加,其次,相對于其它層級的并行方式,CTB級并行的線程數也可以更好的實現負載均衡,由于分配給各個運算單元的數據信息量是較少的,因此各運算單元的運算時間不會有太大的差異,因此很容易實現負載均衡。
然而CTB級的并行也存在一些缺點,首先是熵解碼的上下文模型更新的問題,在進行熵解碼之前,CTB單元是無法區分的,因此必須先進行熵解碼,再進行之后的圖像處理,但是CABAC熵解碼的概率模型需要參考從上一個更新點以后所有的碼流信息,而我們無法保證在每一行CTB的開頭都有一個更新點,這樣波前并行處理算法就無法在CABAC熵解碼部分實現,我們只能分別進行熵解碼和并行處理,根據CABAC上下文模型的更新位置,我們可以確定CTB級并行的起始位置。如果CABAC上下文模型在Slice開頭處更新,那么我們就可以將該Slice送入并行過程,該Slice的不同CTB行被交給不同的運算單元,利用波前并行處理算法進行解碼,直到該Slice的解碼結束。
其次是CTB級并行無法保證輸出碼率的穩定性,根據波前并行處理算法,在并行處理開始時,滿足依賴關系可以進行解碼的CTB數目是較少的,碼率較低。隨著解碼的進行,越來越多的運算單元啟動,碼率開始增大,直到達到最大值,在解碼 達到尾聲時,解碼運算單元又會逐個終止,這樣碼率優惠逐漸減小到0,這樣以來,CTB級并行處理就無法達到恒定的碼率,而且還會造成并行效率的下降。
針對上述問題,人們提出了一種叫做重疊波前并行的方法,來減少并行過程中由于線程增加和減少所帶來的并行效率下降。在最初的波前并行算法當中,如果一個運算單元處理完一行CTB之后,在當前圖像中在整幅圖像解碼完成之前,該運算單元會一直處于等待狀態,之后,對于下一幅圖像,波前并行算法會重新開始,而在重疊波前并行算法中,在圖像的運動矢量足夠小的情況下,一個運算單元處理完一行CTB之后,如果當前圖像中沒有剩余的CTB行可以交給它進行處理,該運算單元可以直接開始對下一幅圖像的處理而不用等待整幅圖像解碼的完成。
共有6個運算單元來對當前圖像進行波前處理,當線程T4完成對分配給它的CTB行的解碼后,會發現當前圖像中已經沒有滿足條件的提前運動矢量要足夠小,對于前一幅圖像,前4行CTB時解碼完成了的,因此它們可以作為后幅圖像的參考,后幅圖像的最大運動矢量不能超出這4行CTB的范圍,否則可能會導致后幅圖像解碼時缺少參考信息。重疊波前并行處理不能完全使得并行解碼時的線程數恒定,但是它可以較為有效的解決由于線程數增加和減少所帶來的并行效果下降的問題。
T5 | |||||||
T6 | |||||||
T2 | |||||||
從數據結構上來看,CTB級并行和Tile級的并行可以是同時實現的,可以將一幅圖像劃分為4個Tile,每個Tile交給一組運算單元來處理,而每組運算單元按照CTB級并行的方式可以并行處理3行CTB,這在理論上來說是比單純進行CTB級并行或者Tile級并行效率更高。但是同時實現將會造成線程數大幅增加,復雜度和碼率都會急劇上升。過多的運算單元之間進行通信將會占用較多的資源,而且,就每個運算單元來看,其所分到的數據信息量將會很少,負載均衡難以實現,利用率降低,因此H265/HEVC中沒有提出CTB級和Tile級同時并行的方案。
總結
以上是生活随笔為你收集整理的hevc CTB并行的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器人仿真控制(以ABB为例)
- 下一篇: 蓝桥杯C/C++程序设计 往届真题汇总(