當(dāng)前位置：首頁 >

adcsr图像超分代码_图像超分：RealSR

發(fā)布時間：2024/10/12 57 豆豆

生活随笔收集整理的這篇文章主要介紹了 adcsr图像超分代码_图像超分：RealSR 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

paper?csjcai.github.iocsjcai/RealSR?github.com現(xiàn)有大多SISR方法是在模擬數(shù)據(jù)集(LR通過對HR執(zhí)行簡單的雙三次下采樣得到)上進(jìn)行訓(xùn)練與評估。然而，真實世界的LR圖像往往更復(fù)雜，因此在模擬數(shù)據(jù)集上訓(xùn)練的模型應(yīng)用到真實數(shù)據(jù)是性能會出現(xiàn)下降。

作者構(gòu)建了一個真實超分?jǐn)?shù)據(jù)集(LR-HR通過調(diào)整數(shù)碼相機(jī)的焦距得到，然后采用圖像配準(zhǔn)算法進(jìn)行不同分辨率圖像的對齊)。考慮到該數(shù)據(jù)中的降質(zhì)核的非均勻性，作者提出一個機(jī)遇拉普拉斯金字塔的核預(yù)測網(wǎng)絡(luò)(LP-KPN)，它可以有效的學(xué)習(xí)逐像素核以重建HR圖像。作者通過實驗證實：相比模擬數(shù)據(jù)，基于RealSR的SISR具有更好的視覺效果。作者同時還提到：盡管該數(shù)據(jù)集僅采用了兩個相機(jī)采集(Canon 5D3, Nikon D810)，但其訓(xùn)練模型在其他相機(jī)(Sony a7II)和手機(jī)采集的數(shù)據(jù)上的泛化性能仍然很好。

Abstract

? 有鑒于已有模擬數(shù)據(jù)訓(xùn)練的SISR模型在真實場景的性能受限問題，作者認(rèn)為構(gòu)建一個真實超分?jǐn)?shù)據(jù)集很有必要性。作者采用一種靈活而易于復(fù)現(xiàn)的方法構(gòu)建了一個真實的RealSR數(shù)據(jù)集，對于同一場景采用同一相機(jī)以不同的焦距采集數(shù)據(jù)。

? 然而，除了視場角變化外，調(diào)整焦距還會導(dǎo)致其他挑戰(zhàn)：比如關(guān)心漂移，尺度因子變化、曝光時長以及光學(xué)畸變等。為解決這類問題，作者還提出一種有效的圖像配準(zhǔn)算法以逐漸對齊圖像對，方便用于SISR模型的端到端訓(xùn)練。

? 該RealSR數(shù)據(jù)集包含兩個數(shù)碼相機(jī)(Canon 5D3, Nikon D810)拍攝不同的室內(nèi)與室外場景，為SISR的實際應(yīng)用提供一個好的訓(xùn)練與測試基準(zhǔn)。相比已有的模擬數(shù)據(jù)集，RealSR數(shù)據(jù)的降質(zhì)模型更為復(fù)雜(降質(zhì)核實空間可變的，它隨景深變化而變化)。

? 在此基礎(chǔ)上，作者還訓(xùn)練了一個基于核預(yù)測網(wǎng)絡(luò)的SISR模型。核預(yù)測網(wǎng)絡(luò)已被廣泛應(yīng)用與圖像降噪、圖像去模糊以及視頻插幀領(lǐng)域。KPN的內(nèi)存占用為隨著核尺寸增大而指數(shù)提升，在KPN基礎(chǔ)上，作者引入圖像處理中拉普拉斯金字塔方案得到本文的LP-KPN模型，它可以用小尺寸核學(xué)習(xí)更豐富的信息。下圖給出了所提數(shù)據(jù)集以及方法的效果示意圖。

? 該文的貢獻(xiàn)主要包含以下兩個方面：構(gòu)建了不同縮放尺度的RealSR數(shù)據(jù)集，首個具有更通用目的的真實SISR訓(xùn)練與測試基準(zhǔn)；

提出了LP-KPN模型，并在RealSR數(shù)據(jù)及上驗證了其他有效性與高效性。

Method

RealSR

? 上圖給出了透鏡成像原理，按照公式有以下： $$ \frac{1}{f} = \frac{1}{u} + \frac{1}{v} $$ 數(shù)據(jù)采集過程中，固定$h_1$與u，考慮到$u\gg f$，此時有： $$ h_2 = \frac{f}{u-f}h_1 \approx \frac{f}{u}h_1 $$ 因此，$h_2,f$之間近似存在線性關(guān)系，通過提升焦距$f$，相機(jī)可以采集更大更清晰的圖像，理論上可以通過控制合理的焦距選擇不同的尺度。

? 在實際數(shù)據(jù)采集過程中，作者采用了4個不同的焦距：$105mm, 50mm, 35mm, 28mm$。最大焦距用于采集HR圖像，其他焦距用于采集不同尺度因子的LR圖像。作者還提到，采用28而非24焦距是因為$24mm$焦距時的鏡頭畸變難以通過后處理校正。為確保數(shù)據(jù)的泛化性，該數(shù)據(jù)集同時包含室內(nèi)與室外場景，數(shù)據(jù)包含豐富的紋理(超分的主要目的是復(fù)原/增強(qiáng)圖像的細(xì)節(jié))。

圖像對齊

? 數(shù)據(jù)的采集是比較容易的，但因鏡頭焦距縮放會導(dǎo)致許多難以控制的畸變，這會導(dǎo)致像素不對齊問題。不同焦距采集的圖像往往存在不同程度的鏡頭畸變與不同的曝光，而且還會存在光心漂移線性。由于上述因素，現(xiàn)有的圖像配準(zhǔn)方法難以直接得到不同角度圖像的像素級的對齊，為此，作者設(shè)計一種漸進(jìn)對齊的圖像對齊方法，如下圖所示。

? 在圖像對齊過程中，裁剪中心區(qū)域(畸變比較輕，容易校正)校正其對應(yīng)的LR圖像。由于不同焦距圖像的亮度、尺度差異，基于SURF、SIFT的圖像對齊方法難以得到像素級對齊。為得到精確的圖像對配準(zhǔn)，作者設(shè)計了一種同時考慮亮度調(diào)整的像素級對齊方法。假設(shè)$I_H, I_L$分別表示對應(yīng)的HR圖像與LR圖像，它通過優(yōu)化如下目標(biāo)函數(shù)得到： $$ \mathcal{min}_{\tau} \|\alpha C(\tau \circ I_L) + \beta - I_H\|_p^p $$ 其中，$\tau$表示仿射變換矩陣，C表示裁剪操作(確保LR與HR具有相同尺寸)，$\alpha, \beta$為亮度調(diào)整參數(shù)。

LP-KPN

上圖給出了作者所提出的網(wǎng)絡(luò)架構(gòu)。假設(shè)$I_L^A, I_H$分別表示LR與HR圖像，KPN以$I_L^A$未輸入，輸出核張量$T \in R^{(k \times k) \times h\times w}$，它在通道方向的向量$T(i,j) \in R^{(k\times k)}$可以變換為$k\times k$的卷積核$K(i,j)$，將其作用于LR圖像的每個像素的局部近鄰以生成HR輸出。該過程可以描述為： $$ I_H^P(i,j) = $$ 其中，$V(L_L^A(i,j))$表示LR圖像在$(i,j)$處的局部近鄰，$$表示內(nèi)積運(yùn)算。上式表明：輸出圖像的每個像素是其在輸入圖像對應(yīng)位置的近鄰像素的加權(quán)線性組合。為獲得更好的性能，大尺寸核有助于利用豐富的近鄰信息，另一方面，核張量會隨著核尺寸增大而指數(shù)增加，進(jìn)而導(dǎo)致高計算量與內(nèi)存需求。

? 為得到Effective and Efficient的KPN，作者提出一種基于拉普拉斯金字塔的KPN架構(gòu)。如同已有諸多SR方法，該方法僅處理YCbCr空間的Y通道。拉普拉斯金字塔將圖像分解為了不同層級的子圖像(不同的分辨率大小)，這些分解的子圖像可以精確的重建原始圖像。基于該特性，LR圖像的Y通道被分解為三個尺度圖像金字塔${S_0 \in R^{h\times w}, S_1 \in R^{h/2 \times w/2}, S_2 \in R^{h/4 \times w/4}}$,該LP-KPN以三尺度LR圖像作為輸入，輸出對應(yīng)的三個核張量${\mathbf{T}_0, \mathbf{T}_1, \mathbf{T}_2}$,該可學(xué)習(xí)核張量按照前述公式作用于三個輸入圖像以復(fù)原HR圖像在不同層級的拉普拉斯分解子圖像。最后，采用拉普拉斯金字塔重建得到HR圖像。受益于拉普拉斯金字塔，這里的$k\times k$核尺寸等價于原始分辨率的$4k \times 4k$感受野，相比于直接學(xué)習(xí)$4k \times 4k$核，這種方法可以極大的降低計算復(fù)雜度。

? LP-KPN的骨干部分把汗17個殘差模塊，為提升有效性，作者采用shuffle操作進(jìn)行圖像下采樣與上采樣操作，首先以因子$1/4$進(jìn)行下采樣，將其送入到骨干網(wǎng)絡(luò)中。需要注意的是：除了最后的基層，該網(wǎng)絡(luò)的大部分卷積模塊被三個尺度共享，這可以極大的減少模型的參數(shù)量。為得到不同尺度的核張量，在網(wǎng)絡(luò)的末端添加不同因子的上采樣單元以生成合適的核張量。該LP-KPN共計包含46的卷積層(遠(yuǎn)少于其他SISR方法)，相關(guān)層參數(shù)配置如下所示。

Experiments

? 上表給出了作者所構(gòu)建的RealSR數(shù)據(jù)集的信息，隨機(jī)從每個相機(jī)每個尺度數(shù)據(jù)對中選擇15對作為測試集，其他作為訓(xùn)練集。評估指標(biāo)選用PSNR/SSIM，評估YCBCr中的Y通道。在訓(xùn)練過程中，輸入圖像塊為192x192，采用了隨機(jī)旋轉(zhuǎn)、隨機(jī)鏡像進(jìn)行數(shù)據(jù)增廣，BatchSize=16，優(yōu)化器選擇Adam，學(xué)習(xí)率為0.0001，共計訓(xùn)練1000K迭代，訓(xùn)練框架為Caffe+Matlab。

? 為驗證數(shù)據(jù)集的重要性，作者以DIV2K采用不同的降質(zhì)方式(雙三次、多種降質(zhì))外加RealSR構(gòu)成了三個數(shù)據(jù)集，同時采用了VDSR、SRResNet、RCAN三個有代表性模塊，在三個尺度層面進(jìn)行超分，共計得到27個模型。其性能對比與視覺效果見下表與下圖。從中可以看出：相比其他兩種降質(zhì)模型，采用相同超分模型下在RealSR數(shù)據(jù)集上訓(xùn)練所得模型具有更好的性能。

? 為驗證所提網(wǎng)絡(luò)架構(gòu)LP-KPN的有效性，作者將其與其他8個超分網(wǎng)絡(luò)進(jìn)行了對比。其性能對比如下所示。從中可以看出：(1) 直接像素生成方法中RCAN下過最佳;(2) LP-KPN取得了最優(yōu)的效果，甚至優(yōu)于核尺寸為19的KPN網(wǎng)絡(luò)，同時具有更少的計算復(fù)雜度更快的推理速度。更多的實驗結(jié)果與數(shù)據(jù)分析詳見原文，這里不再過多贅述。

Conclusion

? 模擬數(shù)據(jù)訓(xùn)練的超分模型難以泛化到真實圖像上是一個存在已久的問題。作者在這個方向上進(jìn)行了探索與嘗試，構(gòu)建了真實退化的超分?jǐn)?shù)據(jù)集，采用Canon與Nikon相機(jī)采集了595對超分?jǐn)?shù)據(jù)對，同時設(shè)計一個有效的圖像配準(zhǔn)算法以確保圖相對之間的像素級對齊。

? 作者還基于拉普拉斯金字塔提出一個LP-KPN網(wǎng)絡(luò)架構(gòu)，作者首先驗證了RealSR數(shù)據(jù)集的的重要性，同時在RealSR數(shù)據(jù)及上驗證了其所提架構(gòu)的SOTA性能。

? 截止目前，作者所構(gòu)建的RealSR數(shù)據(jù)集已經(jīng)拓展到了V3版本，感興趣者可以去作者的開源代碼網(wǎng)絡(luò)下載。

參考代碼

? 作者所提供的代碼為caffe框架的prototxt以及相應(yīng)caffemodel，都2109年了，現(xiàn)在還在用caffe的人真的很少了，故而本人參考其caffe代碼，將其用pytorch進(jìn)行了架構(gòu)重建，后面有時間的話還會花點(diǎn)時間將其預(yù)訓(xùn)練模型轉(zhuǎn)為pytorch格式，并花費(fèi)半天時間將作者的CAFFE模型轉(zhuǎn)為了Pytorch，兩者結(jié)果完全一致。經(jīng)親測，利用作者提供的模型超分的效果并不好(并未達(dá)到作者論文中的效果，經(jīng)多次核對，兩者結(jié)果卻是一致，無論是用matlab+caffe輸出結(jié)果，還是用轉(zhuǎn)換后pytorch模型輸出的結(jié)果均如下)，見最終的對比效果圖。

? 20190828補(bǔ)充:經(jīng)與作者溝通發(fā)現(xiàn)，作者所提供的模型僅限于對比PSNR/SSIM指標(biāo)，如需更好的視覺效果需要調(diào)整三個head分支的損失比例(作者原文損失比例為16：4：1，而提供的模型則為1：1：1)，或者更換感知損失。

歡迎關(guān)注AIWalker公眾號，在這里您將得到獨(dú)家深度學(xué)習(xí)經(jīng)驗分享與個人思考。想支持Happy繼續(xù)寫下去就點(diǎn)個贊關(guān)注一下吧！

總結(jié)

以上是生活随笔為你收集整理的adcsr图像超分代码_图像超分：RealSR的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：单应性矩阵和仿射变换_单应矩阵基本矩阵
下一篇： opencv 图像抠图算法_我讨厌这

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

adcsr图像超分代码_图像超分：RealSR

總結(jié)