日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 >

2019ICCV论文 Non-Local ConvLSTM for Video Compression Artifact Reductio

發(fā)布時(shí)間:2025/4/16 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 2019ICCV论文 Non-Local ConvLSTM for Video Compression Artifact Reductio 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

2019CVPR Non-Local ConvLSTM for Video Compression Artifact Reduction

針對(duì)視頻壓縮偽影的非局部ConvLSTM

Abstract

視頻壓縮偽影減少的目的是從低質(zhì)量的壓縮視頻中恢復(fù)高質(zhì)量的視頻。大多數(shù)現(xiàn)有的方法使用一個(gè)相鄰幀或一對(duì)相鄰幀(在目標(biāo)幀之前和/或之后)來完成此任務(wù)。此外,由于整體質(zhì)量較高的幀中可能含有質(zhì)量較低的patch,而整體質(zhì)量較低的幀中也可能存在質(zhì)量較高的patch,因此,目前針對(duì)附近峰值質(zhì)量幀(peak-quality frames,PQFs)的方法可能會(huì)遺漏低質(zhì)量幀中的高質(zhì)量細(xì)節(jié)。為了彌補(bǔ)這些不足,本文提出了一種新的端到端深度神經(jīng)網(wǎng)絡(luò)——非局部ConvLSTM(簡(jiǎn)稱np -ConvLSTM),該網(wǎng)絡(luò)利用多個(gè)連續(xù)幀。引入了一種近似的非局部策略來捕獲全局運(yùn)動(dòng)模式并跟蹤視頻序列的時(shí)空相關(guān)性。這種近似策略使非局部模塊以一種快速、低空間成本的方式工作。該方法利用目標(biāo)幀的前一幀和后一幀來生成殘差,并根據(jù)殘差重建高質(zhì)量的目標(biāo)幀。在兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)表明,NL-ConvLSTM算法的性能優(yōu)于現(xiàn)有的算法。

Introduction

由于通信帶寬和存儲(chǔ)空間的限制,視頻壓縮算法在許多實(shí)際應(yīng)用(特別是移動(dòng)應(yīng)用)中得到了廣泛的應(yīng)用。在顯著降低傳輸和存儲(chǔ)成本的同時(shí),有損視頻壓縮也導(dǎo)致了各種壓縮偽影,如塊、邊緣/紋理浮動(dòng)、蚊子噪聲和抖動(dòng)[48]。這種視覺扭曲經(jīng)常嚴(yán)重影響體驗(yàn)的質(zhì)量(quality of experience,QoE)。因此,視頻壓縮偽影減少成為多媒體和計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要研究課題[26,43,45]。

近年來,由于深度神經(jīng)網(wǎng)絡(luò)的成功應(yīng)用,壓縮圖像/視頻增強(qiáng)技術(shù)取得了顯著的進(jìn)展。例如,[11, 12, 36, 49]直接利用deep convolutional neural networks去除圖像的壓縮偽影,而不考慮底層壓縮算法的特點(diǎn)。[16, 38, 43, 44]提出了以壓縮幀為饋源并輸出增強(qiáng)幀的模型。這些模型都使用單一幀作為輸入,不考慮相鄰幀的時(shí)間依賴性。為了利用相鄰幀間的時(shí)間相關(guān)性,[26]提出了深度卡爾曼濾波網(wǎng)絡(luò),[42]采用面向任務(wù)的運(yùn)動(dòng),[45]采用兩個(gè)運(yùn)動(dòng)補(bǔ)償?shù)淖罱黀QFs。但是[26]只使用了目標(biāo)幀的前一幀,而[42,45]只采用了一對(duì)相鄰幀,這可能會(huì)遺漏其他一些相鄰幀的高質(zhì)量細(xì)節(jié)(后面會(huì)解釋)。

???????? 視頻壓縮算法有幀內(nèi)和幀間編解碼器。內(nèi)部編碼幀(P和B幀)主要依賴于前面和后面的鄰居幀。因此,提取相鄰幀之間的時(shí)空關(guān)系可以為提高視頻增強(qiáng)性能提供有用的信息。然而,從相鄰的一/兩個(gè)幀甚至兩個(gè)最近的PQFs中挖掘細(xì)節(jié)信息對(duì)于壓縮視頻偽影降低是不夠的。為了說明這一點(diǎn),我們?cè)趫D1中給出一個(gè)例子。結(jié)構(gòu)相似度指標(biāo)(SSIM)越大的幀通常被認(rèn)為具有更好的視覺質(zhì)量。在這里,雖然第140和143幀的整體視覺質(zhì)量?jī)?yōu)于第142幀,裁剪質(zhì)量最高的patch來自第142幀。如果使用現(xiàn)有的方法從視頻中挖掘時(shí)空信息,則會(huì)忽略這些patch中高質(zhì)量的細(xì)節(jié)。

???????? 基于以上觀察,本文嘗試從目標(biāo)幀的多個(gè)前后幀中獲取隱藏的時(shí)空信息,以提高視頻壓縮偽影降低的性能。為此,我們開發(fā)了一個(gè)非局部ConvLSTM框架,該框架使用非局部機(jī)制[3]和ConvLSTM[41]架構(gòu)從幀序列中學(xué)習(xí)時(shí)空信息。為了加快非局部模塊的速度,我們進(jìn)一步設(shè)計(jì)了一種近似有效的計(jì)算幀間像素相似度的方法。與現(xiàn)有方法相比,我們的方法至少在三個(gè)方面具有優(yōu)勢(shì):1)不明確需要精確的運(yùn)動(dòng)估計(jì)和補(bǔ)償;2)適用于H.264/AVC、H.265/HEVC等常用壓縮算法壓縮的視頻;3)提出的方法優(yōu)于現(xiàn)有的方法。

???????? 本研究的主要貢獻(xiàn)包括:1)我們提出了一種利用目標(biāo)幀的多個(gè)前后幀來減少視頻壓縮偽影的新想法,而無需顯式計(jì)算和幀間的補(bǔ)償運(yùn)動(dòng)。2)我們開發(fā)了一個(gè)端到端的深度神經(jīng)網(wǎng)絡(luò),稱為非局部ConvLSTM,用于從多個(gè)相鄰幀中學(xué)習(xí)時(shí)空信息。3)設(shè)計(jì)了一種近似計(jì)算幀間像素相似度的方法,極大地減少了計(jì)算和存儲(chǔ)開銷。4)我們?cè)趦蓚€(gè)數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn)來評(píng)估所提出的方法,該方法在降低視頻壓縮偽影方面達(dá)到了最先進(jìn)的性能。

Method

視頻壓縮的目標(biāo)減少人工痕跡是從原始幀Yt的壓縮幀Xt推斷出一個(gè)高質(zhì)量的Yt,Xt∈RC×N是在時(shí)間t的壓縮幀。這里C是單幀的通道的數(shù)量。為了使符號(hào)更清晰,我們將空間位置(寬度W和高度H)折疊為一維,N=HW。令Xt={Xt T,…, Xt + T}表示的序列(2 T + 1)連續(xù)壓縮框架,我們的方法以Xt作為輸入和輸出Y?T。

我們的方法是一個(gè)端到端可訓(xùn)練的框架,由三個(gè)模塊組成:編碼器,NL-ConvLSTM模塊和解碼器,如圖2所示。分別負(fù)責(zé)從單個(gè)幀中提取特征,學(xué)習(xí)幀間的時(shí)空相關(guān)性,將高級(jí)特征解碼為殘差,最終重構(gòu)出高質(zhì)量的幀。

Encoder. 它設(shè)計(jì)了多個(gè)二維卷積層,用于從Xt中提取特征。以Xt為輸入,輸出Ft={Ft-T,…,Ft+T}。其中Ft∈RCf×N,對(duì)應(yīng)從Xt獲得的特征,Cf表示輸出的特征的通道數(shù)。它單獨(dú)處理每一幀。

NL-ConvLSTM. 為了跟蹤幀序列的時(shí)空相關(guān)性,我們?cè)诰幋a器和解碼器之間放置了一個(gè)ConvLSTM[41]模塊。ConvLSTM能夠從任意長(zhǎng)度的幀序列中捕捉時(shí)空信息,但對(duì)大的運(yùn)動(dòng)和模糊運(yùn)動(dòng)處理效果不佳。為了解決這個(gè)問題,我們將非本地(NL)[3]機(jī)制嵌入到ConvLSTM中,并開發(fā)了NL-ConvLSTM模塊。這里,非局部相似度用于不同幀的像素,而不是同一幀[3]中的像素。NL - convlstm模塊可以描述為

與[37,41]中只給予t時(shí)刻特征Ft的ConvLSTM不同,NL-ConvLSTM將t-1時(shí)刻的特征Ft-1為輸入,輸出對(duì)應(yīng)的隱藏狀態(tài)和單元狀態(tài)Ht, Ct∈RCh×N。這里,Ch是隱藏狀態(tài)和單元狀態(tài)的通道數(shù)。此外,在NL-ConvLSTM中,隱狀態(tài)Ht-1和細(xì)胞狀態(tài)Ct-1不直接被送入門操作。相比之下,我們計(jì)算Ft-1和Ft之間的幀間像素級(jí)相似度St,然后對(duì)Ht-1和Ct-1進(jìn)行加權(quán)使用St作為權(quán)值。此外,本文還利用雙向ConvLSTM從前幀和后幀preceding and following frames.中學(xué)習(xí)時(shí)空相關(guān)性。在下面的部分中,我們只提到前向NL-ConvLSTM的操作。關(guān)于NL-ConvLSTM模塊的詳細(xì)信息,可以參考圖2(右)、圖3、3.2和3.3節(jié)。

Decoder. 它將NL-ConvLSTM模塊的兩個(gè)方向的隱藏狀態(tài)解碼為殘差,利用殘差重構(gòu)出高質(zhì)量的幀。具體來說,我們首先通過核大小為1×1的卷積層將隱藏狀態(tài)結(jié)合起來,然后使用多個(gè)堆疊的卷積層生成殘差。

3.2Non-local ConvLSTM

ConvLSTM可表示為[37]:

為了學(xué)習(xí)魯棒的時(shí)空依賴性,我們?cè)贑onvLSTM中采用非局部機(jī)制來幫助估計(jì)幀序列中的運(yùn)動(dòng)模式。作為ConvLSTM的擴(kuò)展,NL-ConvLSTM可以表示為:

其中St∈RN×N為當(dāng)前幀像素與前一幀所有像素之間的相似矩陣。NL是計(jì)算兩幀特征之間相似度矩陣的非局部算子,NLWarp是時(shí)刻(t-1)隱含狀態(tài)和單元狀態(tài)的加權(quán)和形式的扭曲操作。

按照[3]的非局部操作,我們工作中的幀間像素相似性和非局部扭曲操作如下:

其中i,j∈{1···N}表示特征圖中的位置,F (i)和H(i)是對(duì)應(yīng)位置i的特征和狀態(tài)。Dt (i, j)和st(i, j)分別是t-1時(shí)刻之前特征圖位置i和t時(shí)刻特征圖位置j之間的所有通道的歐氏距離和相似性。St(I,j)滿足iSti,j=1。因此,非局部方法可以看作是一種特殊的注意機(jī)制[39]。

3.3兩階段非局部相似近似

對(duì)于高分辨率視頻,直接計(jì)算St∈RN×N和翹曲操作會(huì)產(chǎn)生極高的計(jì)算和內(nèi)存成本。因此我們提出一個(gè)兩階段non-local 方法用于近似Dt為Dt,St為St,在保持精度的同時(shí)減少計(jì)算量和內(nèi)存。近似方法的核心思想是在計(jì)算像素相似度之前,根據(jù)編碼器學(xué)習(xí)到的深度特征對(duì)圖像分塊進(jìn)行預(yù)濾波。具體情況如下:

在第一階段,我們對(duì)編碼器向下采樣得到的特征圖使用平均池化,并減少塊匹配敏感性的幾何變換(移動(dòng)和旋轉(zhuǎn))。將平均池化核大小表示為p,下采樣特征圖表示為Ftp。然后將feature map的分辨率降為N/p2,即原分辨率的1/p2。下采樣特征圖Ftp中的每個(gè)超像素對(duì)應(yīng)原始特征圖中p2個(gè)像素組成的塊。則可計(jì)算下采樣距離矩陣Dtp∈RNp22:

對(duì)任意Ftp的塊bt中的每個(gè)像素,我們只考慮最接近bt的在Ft-1p中的k塊的k×p2個(gè)像素。

???????? 在第二階段,我們計(jì)算并存儲(chǔ)Ft中的每個(gè)像素與其對(duì)應(yīng)的Ft-1的k×p2個(gè)像素間的相似性。對(duì)于前一幀中的其他像素而言,Dt和St分別設(shè)置為+∞和0。由于相似的像素是稀疏的,一個(gè)像素可以用相鄰幀的幾個(gè)像素表示,因此top-k blocks近似的質(zhì)量損失可以忽略不計(jì)。圖3給出了兩階段相似度近似的工作流程。Ct的NLWarp操作與Ht類似。為了簡(jiǎn)單起見,我們?cè)趫D3中只顯示了對(duì)Ht的操作。

①首先在Ft-1中找到top-k個(gè)與Ft中的Ftp(j)block最相近的block②從Ft-1中抽取對(duì)應(yīng)top-k最接近的塊的對(duì)應(yīng)位置的Ht-1③在Ft-1和Ftpj間計(jì)算像素級(jí)相似度④為Ht執(zhí)行NLWarp

???????? Complexity analysis.表一對(duì)比了我們的近似方法和原始方法的復(fù)雜度。由于logk?C,因此我們可以忽略Tab 1中有關(guān)尋找top-k個(gè)最近鄰block項(xiàng)的計(jì)算。我們將原有非局部方法的復(fù)雜度表示為ψ,我們的近似方法的復(fù)雜度表示為?,可被寫作O(Np22C+2kNCp2)。通過恰當(dāng)?shù)倪x擇k和p的值,使得kp2?N,我們有?ψ=12p4+kp2N?1,這意味著我們的方法大大降低了原始方法的計(jì)算成本。并且對(duì)于一個(gè)給定的k,?/ψ可以實(shí)現(xiàn)在p=Nk16時(shí)最小的1.5kN23。在內(nèi)存成本方面也可以得出類似的結(jié)論。更具體地說,通過設(shè)置p=10、k=4、C=64、f=41,可以得到?與(O(NC2f2))接近,即具有f×f核的卷積層的計(jì)算復(fù)雜度。

???????? Non-local operation vs. motion compensation. 這兩種操作有相似之處也有不同之處。相似點(diǎn):1)兩者都可以用于捕獲連續(xù)幀中的時(shí)空關(guān)系和運(yùn)動(dòng)模式。2)兩者都可以被看作是一種注意機(jī)制。在非局部操作中,the warped state Ht-1是通過所有的在Ht-1中的像素以加和的形式計(jì)算出來的,而在motion compensation中,Ht-1中的每個(gè)像素是通過與周圍鄰居像素通過插值,以加和的形式得到的。區(qū)別:在非局部操作中,每個(gè)像素通過在Ht-1的多個(gè)位置warp實(shí)現(xiàn)的。而motion不受固定流量大小的限制,這與固定流量大小必須設(shè)置的運(yùn)動(dòng)補(bǔ)償不同。因此,非局部操作可以更有效地捕捉全局運(yùn)動(dòng)模式。2)在非局部操作中,一旦提取特征就確定相似度;在運(yùn)動(dòng)補(bǔ)償中,我們需要訓(xùn)練額外的層來產(chǎn)生運(yùn)動(dòng)場(chǎng)。

???????? 3.4 Implementation Details

???????? 在我們的實(shí)現(xiàn)中,遵循現(xiàn)有的方法[26,45],我們使用L2范數(shù)作為損失函數(shù): 由于NL-ConvLSTM的優(yōu)點(diǎn),它可以通過一個(gè)小的內(nèi)核捕獲全局運(yùn)動(dòng)。所以我們的NL-ConvLSTMs是使用3×3內(nèi)核實(shí)現(xiàn)的。對(duì)于所有數(shù)據(jù)集,網(wǎng)絡(luò)訓(xùn)練用Adam[20]優(yōu)化器的初始學(xué)習(xí)速率10-4,minibatch大小為32。訓(xùn)練時(shí),NL-ConvLSTM以80×80的patch大小對(duì)原始序列和壓縮序列進(jìn)行采樣。相反,在測(cè)試期間,全分辨率的視頻序列被輸入到我們的模型中。在所有實(shí)驗(yàn)中,我們使用k=4和p=10來平衡效率和有效性,并對(duì)所有數(shù)據(jù)集設(shè)置T=3。

???????? 為了進(jìn)一步加速非局部算子,在計(jì)算距離矩陣Dt時(shí)采用向量化。盡管向量化不會(huì)減少浮點(diǎn)運(yùn)算的數(shù)量,但它可以通過并行計(jì)算來加速。通過把Dt展開成公式(4),我們有

Dt2=CtFt-121T+1?CtFt2T-2Ft-1TFt (7)

1∈RN×1是一個(gè)單位向量。我們采用公式(7)在第一階段計(jì)算Dtp,并執(zhí)行公式(7)的稀疏版本,計(jì)算當(dāng)前幀的每個(gè)像素與前一幀中預(yù)濾波的k×p2像素之間的距離。

總結(jié)

以上是生活随笔為你收集整理的2019ICCV论文 Non-Local ConvLSTM for Video Compression Artifact Reductio的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。