日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

计算高效,时序一致,超清还原!清华NYU 提出 RRN:视频超分新型递归网络

發(fā)布時(shí)間:2025/3/8 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 计算高效,时序一致,超清还原!清华NYU 提出 RRN:视频超分新型递归网络 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

原文鏈接:https://bbs.cvmart.net/articles/3158
專(zhuān)注計(jì)算機(jī)視覺(jué)前沿資訊和技術(shù)干貨
微信公眾號(hào):極市平臺(tái)
官網(wǎng):https://www.cvmart.net/


本文為大家介紹一個(gè)視頻超分方向的最新工作:新穎的遞歸網(wǎng)絡(luò)RRN。文章將殘差學(xué)習(xí)思想引入到RNN中,在幫助保持長(zhǎng)周期紋理信息的同時(shí)降低了訓(xùn)練過(guò)程中的梯度消失的風(fēng)險(xiǎn)。該工作在Vid4數(shù)據(jù)集上超越了EDVR的PSNR指標(biāo)。同時(shí),文章還對(duì)常用的三種時(shí)序建模方案進(jìn)行了系統(tǒng)的對(duì)比分析。

paper: https://arxiv.org/2008.05765

code: https://github.com/junpan19/RRN

Abstract

? 視頻超分在監(jiān)控視頻分析與超高清視頻顯示中扮演著非常重要的作用,它在工業(yè)界與學(xué)術(shù)界獲得了非常多的關(guān)注。盡管有許多基于深度學(xué)習(xí)的視頻超分方法已被提出,但是往往難以直接對(duì)這些方法進(jìn)行對(duì)比,這是因?yàn)?1) 不同的損失函數(shù);(2) 不同的訓(xùn)練數(shù)據(jù)等因素對(duì)于超分結(jié)果影響非常大。

? 該文仔細(xì)研究并對(duì)了視頻超分中的三種時(shí)序建模方案(2D-CNN, 3D-CNN, RNN),同時(shí)還提出了一種新穎的遞歸殘差模塊用于高效視頻充分,其中殘差學(xué)習(xí)用于穩(wěn)定訓(xùn)練并提升超分性能。

? 作者通過(guò)充分的實(shí)驗(yàn)表明:所提RRN計(jì)算高效同時(shí)可以生成時(shí)序一致的超分結(jié)果且具有更好的紋理細(xì)節(jié)。除此之外,所提方法在公開(kāi)基準(zhǔn)數(shù)據(jù)集取得了SOTA性能。

? 該文的貢獻(xiàn)主要包含兩方面:

  • 精心研究并對(duì)比了視頻超分中常用的三種時(shí)序建模方法;
  • 提出了一種新穎的隱狀態(tài)用于遞歸網(wǎng)絡(luò),它在所有時(shí)序建模方法中取得最佳性能,并在三個(gè)公開(kāi)數(shù)據(jù)集取得了SOTA性能。

Method

? 接下來(lái),我們將重點(diǎn)介紹一下該文所提整理系統(tǒng)方案以及時(shí)序建模方法的細(xì)節(jié)。整個(gè)視頻嘲諷呢系統(tǒng)包含兩個(gè)部分:(1) 時(shí)序建模網(wǎng)絡(luò);(2) 圖像/視頻重建網(wǎng)絡(luò);(3) 損失函數(shù)。該文的重點(diǎn)是1與3兩個(gè)部分。在時(shí)序建模網(wǎng)絡(luò)方面,作者重點(diǎn)研究了2DCNN快融合(見(jiàn)下圖A)、3DCNN慢融合(見(jiàn)下圖B)以及RNN(見(jiàn)下圖C)三種時(shí)序建模方案。基于不同建模方案的分析而提出了該文的RRN建模方案(見(jiàn)下圖D)。

? 如前所述,該文考慮了三種形式的時(shí)序建模方案。接下來(lái),我們就針對(duì)這三種方案進(jìn)行介紹與分析。

2DCNN快融合

? 該方案以多幀作為輸入,直接通過(guò)concat方式進(jìn)行融合,然后采用堆疊2D卷積提取特征。受EDSR啟發(fā),作者了采用改進(jìn)2D殘差模塊設(shè)計(jì)了2DCNN快融合模塊。該融合過(guò)程可以描述為:
Rt=W_net2D{W_fusion2D[I_t?T,?,I_t+T]}R_t = W\_{net2D}\{W\_{fusion2D}[I\_{t-T}, \cdots, I\_{t+T}]\} Rt?=W_net2D{W_fusion2D[I_t?T,?,I_t+T]}
W_fusion2DW\_{fusion2D}W_fusion2D的輸入維度為NC×H×WNC \times H \times WNC×H×W,其中N=2T+1N = 2T + 1N=2T+1W_fusion2D,W_net2DW\_{fusion2D}, W\_{net2D}W_fusion2D,W_net2D表示2D卷積的權(quán)值。該2DCNN的輸出殘差特征的維度為Cr2×H×WCr^2 \times H \times WCr2×H×W,然后通過(guò)depth-to-space方式進(jìn)行上采樣,最后將所得殘差圖與原始輸入中間幀的bicubic結(jié)果相加得到最終的超分結(jié)果。

3DCNN慢融合

? 該方案以視頻序列作為輸入,然后采用堆疊3D卷積提取空-時(shí)信息。類(lèi)似2DCNN,作者采用了相似的方式進(jìn)行空-時(shí)信息提取,區(qū)別在于卷積由2D編程了3D。相比2DCNN,3DCNN中的時(shí)序信息融合更慢,該過(guò)程可以描述為:
Rt=W_fusion3D{W_net3D(I_t?T:t+T)}R_t = W\_{fusion3D}\{W\_{net3D}(I\_{t-T:t+T})\} Rt?=W_fusion3D{W_net3D(I_t?T:t+T)}
? 其他的處理過(guò)程與2DCNN的過(guò)程基本相似,這里濾過(guò)不計(jì)。

RNN融合

? 相比CNN時(shí)序建模方法,RNN采用更少的幀與隱狀態(tài)作為輸入,并采用遞歸方式處理長(zhǎng)視頻序列。一般而言,時(shí)序t的隱狀態(tài)包含三部分:(1) 前一幀的超分結(jié)果o_t?1o\_{t-1}o_t?1;(2) 前一幀的隱狀態(tài)特征h_t?1h\_{t-1}h_t?1;(3) 兩個(gè)相鄰幀I_t?1:tI\_{t-1:t}I_t?1:t。直觀上講,前后幀的像素往往具有非常強(qiáng)的相似性,t時(shí)刻的高頻紋理可以通過(guò)前一幀的補(bǔ)充信息進(jìn)行進(jìn)一步精煉調(diào)整。類(lèi)似其他視頻處理任務(wù),VSR中的RNN往往存在梯度消失問(wèn)題。

? 為解決上述問(wèn)題,作者提出了一種新穎的遞歸網(wǎng)絡(luò)RRN(Residual Recurrent Network),它將殘差學(xué)習(xí)思想引入到RNN中。這種設(shè)計(jì)確保了流暢的信息流,有助于保持長(zhǎng)周期的紋理信息,進(jìn)而使得RNN可以處理更長(zhǎng)序列,同時(shí)降低了訓(xùn)練過(guò)程中的梯度消失風(fēng)險(xiǎn)。在t時(shí)刻,RNN采用如下方式生成隱狀態(tài)與輸出:

其中σ(?)\sigma(\cdot)σ(?)表示ReLU激活函數(shù),g(x~k?1)g(\tilde{x}_{k-1})g(x~k?1?)表示恒等映射,即g(x~k?1)=x~k?1g(\tilde{x}_{k-1})=\tilde{x}_{k-1}g(x~k?1?)=x~k?1?,而F(x~k?1)\mathcal{F}(\tilde{x}_{k-1})F(x~k?1?)表示學(xué)習(xí)到的殘差特征圖。

Experiments

? 之前的方法往往采用不同的訓(xùn)練數(shù)據(jù)集(比如有的采用Vimeo90K,有的采用REDS,有的采用自己制作的數(shù)據(jù))、不同的下采樣核(有的采用bicubic,有的采用blur-down),這就導(dǎo)致了不同方法無(wú)法公平對(duì)比。在該文中,作者采用Vimeo90K作為訓(xùn)練數(shù)據(jù)集,其中的LR采用blur-down方式制作。作者選用的測(cè)試數(shù)據(jù)集為Vid4、SPMCS以及UDM10三個(gè)公開(kāi)數(shù)據(jù)集。

? 對(duì)于2DCNN時(shí)序建模方案,作者設(shè)計(jì)了2DCNN-S與2DCNN-L兩種,分別采用5和10個(gè)2D殘差模塊,通道數(shù)為128;對(duì)于3DCNN時(shí)序建模方案,作者的設(shè)計(jì)類(lèi)似2DCNN,故略過(guò);為公平對(duì)比,對(duì)于RNN時(shí)序建模,作者也分別采用5和10個(gè)殘差模塊作為隱狀態(tài),即RNN-S與RNN-L,通道數(shù)同樣為128,t0t_0t0?時(shí)刻的隱狀態(tài)初始化為0。

? 在訓(xùn)練過(guò)程中,2DCNN的學(xué)習(xí)率為0.0001,3DCNN的學(xué)習(xí)率為0.001,每10epoch衰減0.1,總計(jì)訓(xùn)練30epoch;RNN的學(xué)習(xí)率為0.0001,每60epoch衰減0.1,總計(jì)訓(xùn)練70epoch。所有模型均采用L1L1L1損失函數(shù)、Adam優(yōu)化器。CNN建模方案的Batch=64,RNN建模方案的Batch=4

? 下表給出了不同建模方案在公開(kāi)數(shù)據(jù)集上的性能以及耗時(shí)對(duì)比。很明顯,(1) 3DCNN時(shí)序建模方案以極大優(yōu)勢(shì)優(yōu)于2DCNN,然而它非常耗時(shí)。(2) 想必你3DCNN時(shí)序建模方案,RNN計(jì)算高效,參數(shù)量更少,同時(shí)具有更好的性能指標(biāo)。(3)RRN-S能夠以33fps生成720p視頻,RRN-L能夠以22fps生成720p視頻。


作者同時(shí)還對(duì)比了不同建模方案的時(shí)序一致性,見(jiàn)下圖。RRN方案可以生成時(shí)序一致的結(jié)果同時(shí)具有更少的偽影問(wèn)題。

? 為更好說(shuō)明RRN的有效性,作者還對(duì)比了不帶殘差學(xué)習(xí)時(shí)的性能對(duì)比,見(jiàn)下表。可以看到不添加殘差學(xué)習(xí)存在嚴(yán)重的梯度消失問(wèn)題。

?最后,作者給出了所提方法與其他視頻超分方案的性能與效果對(duì)比。


?全文到此結(jié)束,對(duì)該文感興趣的同學(xué)可以去看一下原文。最后,期待作者能盡快開(kāi)源TGA、RSDN以及RRN的代碼以及預(yù)訓(xùn)練模型,期待ing!


關(guān)注極市平臺(tái)公眾號(hào)(ID:extrememart),獲取計(jì)算機(jī)視覺(jué)前沿資訊/技術(shù)干貨/招聘面經(jīng)等

總結(jié)

以上是生活随笔為你收集整理的计算高效,时序一致,超清还原!清华NYU 提出 RRN:视频超分新型递归网络的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。