日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

国防科大提出基于可变形三维卷积的视频超分辨,代码已开源

發布時間:2025/3/8 编程问答 20 豆豆
生活随笔 收集整理的這篇文章主要介紹了 国防科大提出基于可变形三维卷积的视频超分辨,代码已开源 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

原文鏈接:https://bbs.cvmart.net/articles/3041
專注計算機視覺前沿資訊和技術干貨
微信公眾號:極市平臺
官網:https://www.cvmart.net/


視頻是具有時間連續性的圖像集合,其中每幀圖像的上下文信息(空域信息)與不同幀之間的互補信息(時域信息)都有助于提升視頻超分辨的性能。近日,來自國防科技大學的學者提出基于可變形三維卷積的視頻超分辨網絡(D3Dnet),通過將可變形卷積(Deformable Convolution)和三維卷積(3D Convolution)有機結合,同時實現高效時空信息建模與靈活幀間運動補償。實驗表明,該網絡生成視頻的清晰度、流暢度與網絡的運行效率均處于領域先進水平。論文信息如下:

論文鏈接: https://arxiv.org/pdf/2004.02803.pdf

代碼鏈接: https://github.com/XinyiYing/D3Dnet

引言(Introduction)

隨著當前高分辨率視頻的需求增多,視頻超分辨技術被廣泛應用于視頻監控與高清影音設備中。相較于單幅圖像超分辨,視頻超分辨的核心與難點在于充分利用時域互補信息。然而,視頻的幀間運動給該任務帶來了較大的挑戰。

現有的視頻超分辨算法大多是兩階段的(two-stage),即先在空域進行特征提取,然后在時域進行幀間運動補償。此類框架無法充分結合視頻序列內的時空信息,從而限制了超分辨性能,降低了輸出視頻序列的流暢性。

針對以上問題,該文提出可變形三維卷積網絡(D3Dnet)實現單階段(one-stage)的視頻超分辨,即使用可變形三維卷積(D3D)對時空信息進行漸進式融合,并自適應地完成幀間運動補償。該文在公開數據集Vid4,Vimeo-90K,SPMC-11上對所提算法進行了測試評估,實驗結果表明,相比于領域內其他先進算法,D3Dnet能夠重建出精度更高且更加流暢的視頻序列,同時具有合理的參數量與較高的運行效率。

方法(Method)

1、可變形三維卷積(D3D)

如圖1所示,D3D將可變形二維卷積(Deformable Convolution, DCN)與三維卷積(3D Convolution, C3D)進行結合,輸入特征中的淺橙色立方體代表3×3×3的C3D卷積核,深橙色立方體代表3×3×3的D3D卷積核。其中,D3D卷積核的偏移量(offset)由偏移量生成器(3×3×3的C3D卷積)產生。如圖1上方部分所示,位于偏移空間(offset field)的特征的通道維度為2N(此處N為27),代表對應3×3×3卷積核在高度H和寬度W上的偏移量。

2、可變形三維卷積網絡(D3Dnet)

圖2 D3Dnet結構圖

基于D3D,該文構建了D3Dnet,如圖2所示。首先,將7幀視頻序列送入C3D進行初始特征提取。隨后,將提取的特征輸入5個級聯的殘差D3D模塊(ResD3D),同時實現時空信息進行提取與幀間運動補償。而后,采用瓶頸層(bottleneck)將運動補償后的視頻特征進行融合,并將融合后的特征送入6個級聯的殘差塊(Resblock)進行重建。最后,將重建后的特征依次輸入1×1卷積層,pixel-shuffle層,1×1卷積層,得到高分辨率參考幀圖像。

實驗(Experiments)

1、消融學習(Ablation Study)

實驗部分首先通過消融學習對網絡中不同模塊和方案的有效性進行驗證。

1)雙階段方法(two-stage)和單階段方法(C3D,D3D)。

圖3 雙階段方法(two-stage)和單階段方法(C3D, D3D)性能對比,橫坐標代表模型中的殘差模塊的數量。

圖3實驗表明,相較于two-stage 算法,one-stage算法能夠更加充分地利用視頻中的時空信息,以較少的參數獲得更好的性能;相較于C3D,D3D能夠靈活地提取時空信息,有效對幀間運動進行補償,獲得質量更高的超分辨視頻序列。

2)輸入視頻的幀數。

表1實驗表明,輸入視頻幀數的增加引入了更多的時域信息,從而提升了超分辨性能。

2、算法對比(Comparison to the State-of-the-arts)

該文在表2所示的3個公開數據集上將D3Dnet與單幀超分辨算法DBPN(CVPR18)、RCAN(ECCV18)以及視頻超分辨算法VSRnet(TCI16),VESPCN(CVPR17),SOF-VSR(TIP20),以及TDAN(CVPR20)進行了比較。此外,該文還采用了雙三次插值的結果作為基準對照組。算法對比的結果如下。

1)數值結果

表2 不同超分辨方法數值結果比較(PSNR/SSIM)

2)視覺效果

圖4 不同超分辨算法視覺效果比較

3)流暢度與運行效率

表3 不同超分辨方法生成的視頻流暢度和運行效率比較

與單幀超分辨算法DBPN(CVPR18)、RCAN(ECCV18)相比,D3Dnet具有優異的性能和運行效率。與視頻超分辨算法TDAN(CVPR20)、SOF-VSR(TIP20)相比,D3Dnet通過合理增加計算成本進一步提升了視頻超分辨的性能(更高的PSNR/SSIM指標、更好的視覺效果、更優的視頻流暢度)。

結論(Conclusion)

該文提出基于可變形三維卷積的視頻超分辨網絡(D3Dnet),通過將可變形卷積與三維卷積相結合,設計了可變形三維卷積(D3D)以同時進行時空信息提取與幀間運動補償。D3Dnet結構簡單、設計精巧,相比于領域內其他先進算法,在不大幅度增加計算開銷的前提下,顯著提升了視頻超分辨的性能。得益于較好的時空建模與幀間運動補償能力,D3Dnet輸出的視頻具有更高的流暢度。


關注極市平臺公眾號(ID:extrememart),獲取計算機視覺前沿資訊/技術干貨/招聘面經等

總結

以上是生活随笔為你收集整理的国防科大提出基于可变形三维卷积的视频超分辨,代码已开源的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。