日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 人工智能 > pytorch >内容正文

pytorch

【论文解读】传统图像处理与深度学习又一结合:时空多尺度非局部自相似集成视频超分...

發(fā)布時間:2025/3/8 pytorch 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【论文解读】传统图像处理与深度学习又一结合:时空多尺度非局部自相似集成视频超分... 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

作者丨Happy

編輯丨極市平臺

導(dǎo)讀

?

本文將傳統(tǒng)圖像處理中的自相似性、金字塔等思路與深度學(xué)習(xí)相結(jié)合進行視頻超分,得到了SOTA指標(biāo),并為傳統(tǒng)圖像處理思路與深度學(xué)習(xí)提供了一個新的結(jié)合點。>>

本文是港中文賈佳亞老師團隊提出的一種視頻超分方案,它拋棄了已有光流、形變卷積等進行幀間對齊的方式,轉(zhuǎn)而采用自相似性進行幀間對齊,這無疑為傳統(tǒng)圖像處理思路與深度學(xué)習(xí)又提供了一個新的結(jié)合點;在幀內(nèi)信息融合方面,該文采用多尺度自相似方案,盡管這個idea并非首次在深度學(xué)習(xí)中應(yīng)用,但上述兩種idea的創(chuàng)造性組合使其在視頻超分領(lǐng)域取得了SOTA性能。盡管該文并未超越EDVR,但從模型部署、計算量等方面來看,該文無疑具有更好的可擴展性、部署性等。

Abstract

視頻超分旨在采用多個連續(xù)低分辨率圖像重建高分辨率圖像,在這個過程中,幀間與幀內(nèi)信息是探索時序與空域信息的關(guān)鍵源。現(xiàn)有視頻超分方案往往存在這樣幾個局限性:(1) 采用光流進行時序相關(guān)估計,然而光流估計本身是存在誤差,進而影響重建質(zhì)量;(2) 圖像中存在的相似模式在視頻超分中鮮少有所應(yīng)用。

受此啟發(fā),作者提出了一種時序相關(guān)集成策略以更好的利用幀間的相似塊,提出一種跨尺度非局部相關(guān)集成策略以更好探索圖像不同尺度見的自相似性。基于上述兩個新提出的模塊,作者構(gòu)建了一種有效的MuCAN(Multi-Correspondense Aggregation Network)用于視頻超分,所提方法在多個公開數(shù)據(jù)集上取得了SOTA性能。

該文主要貢獻包含以下幾點:

  • 提出一種新的MuCAN用于視頻超分,它在多個公開數(shù)據(jù)集取得了SOTA性能;

  • 提出兩種有效的模塊:TM-CAM與CN-CAM以更好的探索時序和多尺度的相似性;

  • 提出一種Edge-aware損失以促使網(wǎng)絡(luò)生成更好的邊緣。

Method

MuCAN

上圖給出了本文所提出的MuCAN網(wǎng)絡(luò)結(jié)構(gòu)示意圖。它以個連續(xù)低分辨率圖像作為輸入,輸出中間幀的高分辨率圖像。它包含三個關(guān)鍵模塊:TM-CAM、CN-CAM以及重建模塊。接下來,我們將分別針對三個模塊進行詳細介紹。

Temporal Multi-Correspondence Aggregation Module

相鄰幀見的運動具有正反兩方面性:一方面,大的運動需要進行消除以構(gòu)建相似內(nèi)容的相關(guān)性;另一方面,小運動的精確估計非常重要,它是細節(jié)的增強的根源。受FlowNet與PWCNet啟發(fā),作者設(shè)計了一種分層相關(guān)集成策略以更好的同時處理大運動和小運動,見下圖。

給定兩個相鄰低分辨率圖像和, 首先將其編碼到更低分辨率,然后在低分辨率階段開始集成補償大運動,并漸進式向高分辨率階段補償小運動(亞像素運動)。不同于FRVSR、DRVSR在圖像空間直接回歸光流,所提模塊在特征空間進行處理,進而使得所提模塊更為穩(wěn)定與魯棒。

Aggreagation

上圖給出了TM-CAM中的集成單元示意圖,很明顯,它采用塊匹配策略。由于1對1的映射難以捕獲真正的幀間相關(guān)性,故而作者提出采用多對1的方式集成融合,類似于非局部均值的方式。

首先,我們定位并選擇Top-K最相似塊,然后采用相似自適應(yīng)集成方式進行融合。以?到?為例進行說明,給定圖像塊,我們首先在上尋找與之最相近的塊(為簡單起見,這里采用進行度量,在實現(xiàn)過程中,作者采用FlowNet中的相關(guān)性作為度量方式)。特征塊之間的相關(guān)性可以同時如下方式進行計算:

在完成相關(guān)性計算后,我們選擇Top-K最相關(guān)的塊進行降序排列并進行Concat與集成:

注:Aggr表示卷積操作。不同于非局部均值中的賦予不同塊相同的權(quán)值,在這里作者設(shè)計了一種像素自適應(yīng)的集成策略,融合權(quán)值通過如下方式計算得到:

正如Fig4所示,位置p出的輸出將通過如下方式得到:

通過重復(fù)上述過程2N次,我們將得到一組對齊特征?。為處理統(tǒng)一特征層面的所有幀特征,我們采用了一個額外的TM-CAM用于自集成并輸出。最后,所有特征通過卷積和PixelShuffle進行融合得到高分辨率特征。

Cross-Scale Nonlocal-Correspondence Aggregation Module

自然圖像中存在大量的自相似性,這種自相似有助于圖像的細節(jié)重建(在深度學(xué)習(xí)之前,這種自相似性曾被廣泛應(yīng)用與各種low-level圖像處理中)。在這里,作者設(shè)計了一種跨尺度集成策略以更好的捕獲跨尺度非局部相關(guān)性,見下圖。

CNCAM

在這里我們采用表示t時刻s尺度的特征,我們首先對輸入特征進行下采樣并得到特征金字塔:

給定中位置q處的query塊,我們需要在其他三個尺度進行相似塊的非局部搜索:

在進行集成合并之前,先對所搜到的相似塊通過自注意力模塊判別是否真正有用。最后通過如下方式進行特征集成融合:

Edge-Aware Loss

已有視頻超分方案在重建的高分辨率圖像中邊緣往往存在鋸齒問題,為緩解該問題,作者提出了一種edge-aware損失以更好的調(diào)整邊緣。首先,采用邊緣檢測器提取GT圖像的邊緣信息;然后,對于邊緣區(qū)域賦予更多的損失權(quán)重以迫使網(wǎng)絡(luò)在這些區(qū)域賦予更多的注意力。

在這里,作者采用Laplacian濾波器進行邊緣提取得到邊緣圖,然后得到二值Mask圖:

注:表示預(yù)訂的閾值。在訓(xùn)練過程中,損失函數(shù)為CharbonnierLoss,總體損失定義如下:

其中L表示CharbonnierLoss。

Experiments

訓(xùn)練數(shù)據(jù):(1)REDS,參考EDVR中的數(shù)據(jù)重組方式進行了處理;(2) Vimeo90K。度量指標(biāo):PSNR、SSIM。

關(guān)于網(wǎng)絡(luò)架構(gòu),作者采用連續(xù)5(7)幀作為輸入,特征提取與重建模塊數(shù)量分別為5和40(當(dāng)輸入為7幀時設(shè)置為20)個殘差模塊,通道數(shù)為128。

關(guān)于訓(xùn)練超參信息,硬件信息:8卡1080Ti,每個GPUbatch=3,優(yōu)化為為Adam,初始學(xué)習(xí)率為,學(xué)習(xí)調(diào)整機制為Consine,輸入塊大小為,數(shù)據(jù)增廣為隨機裁剪、隨機鏡像、隨機旋轉(zhuǎn)。訓(xùn)練600K次迭代。

我們先來看一下消融實驗效果對比以更好的說明所提模塊的有效性,見下圖。可以看到TM-CAM對齊模塊取得了1.15dB的性能提升;CN-CAM在此基礎(chǔ)上取得了額外的0.12dB提升;EAL在此基礎(chǔ)上取得了0.06dB的性能提升。

Ablation Study

與此同時,作者還對比了添加TM-CAM與否兩種情況下的重建差異對比熱圖,見下圖。可以看到:添加TM-CAM后,重建圖像與GT之間的誤差更小,且誤差分布更均勻,即更平滑。

Hotmap

下表還給出了不同數(shù)量的相似塊的性能對比,可以看到:采用4個相似塊集成時效果更佳。

K-of-TM-CAM

下圖給出了CN-CAM模塊的有效性示意圖,CN-CAM可以在TM-CAM的基礎(chǔ)上取得0.12dB的性能提升。下圖同樣說明了CN-CAM對于重建圖像的結(jié)構(gòu)信息有更好的保持性。

CN-CAM

下圖給出了添加EAL前后重建圖像視覺效果,可以看到:添加EAL后重建圖像的銳利度更優(yōu)。

EAL

最后,我們再來看一下所提方法與其他SOTA方法的性能對比。從表中結(jié)果可以看到:(1)在REDS數(shù)據(jù)集上,MuCAN以至少0.17dB指標(biāo)優(yōu)于其他方法;(2) 在Vimeo90K-Test數(shù)據(jù)集上,MuCAN以1.2dB(RGB空間)指標(biāo)優(yōu)于DUF。

SOTA

最后的最后,作者對比MuCAN與EDVR的重建效果,見下圖。可以看到:EDVR生成的圖像在某些情況下會存在偽影問題,而MuCAN則不存在該問題。

Generalization

◎作者檔案

Happy,一個愛“胡思亂想”的AI行者

個人公眾號:AIWalker

往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機器學(xué)習(xí)在線手冊深度學(xué)習(xí)筆記專輯《統(tǒng)計學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專輯 獲取本站知識星球優(yōu)惠券,復(fù)制鏈接直接打開: https://t.zsxq.com/y7uvZF6 本站qq群704220115。加入微信群請掃碼:

總結(jié)

以上是生活随笔為你收集整理的【论文解读】传统图像处理与深度学习又一结合:时空多尺度非局部自相似集成视频超分...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。