adcsr图像超分代码_图像超分:RealSR
paper?csjcai.github.iocsjcai/RealSR?github.com現(xiàn)有大多SISR方法是在模擬數(shù)據(jù)集(LR通過(guò)對(duì)HR執(zhí)行簡(jiǎn)單的雙三次下采樣得到)上進(jìn)行訓(xùn)練與評(píng)估。然而,真實(shí)世界的LR圖像往往更復(fù)雜,因此在模擬數(shù)據(jù)集上訓(xùn)練的模型應(yīng)用到真實(shí)數(shù)據(jù)是性能會(huì)出現(xiàn)下降。
作者構(gòu)建了一個(gè)真實(shí)超分?jǐn)?shù)據(jù)集(LR-HR通過(guò)調(diào)整數(shù)碼相機(jī)的焦距得到,然后采用圖像配準(zhǔn)算法進(jìn)行不同分辨率圖像的對(duì)齊)。考慮到該數(shù)據(jù)中的降質(zhì)核的非均勻性,作者提出一個(gè)機(jī)遇拉普拉斯金字塔的核預(yù)測(cè)網(wǎng)絡(luò)(LP-KPN),它可以有效的學(xué)習(xí)逐像素核以重建HR圖像。作者通過(guò)實(shí)驗(yàn)證實(shí):相比模擬數(shù)據(jù),基于RealSR的SISR具有更好的視覺(jué)效果。作者同時(shí)還提到:盡管該數(shù)據(jù)集僅采用了兩個(gè)相機(jī)采集(Canon 5D3, Nikon D810),但其訓(xùn)練模型在其他相機(jī)(Sony a7II)和手機(jī)采集的數(shù)據(jù)上的泛化性能仍然很好。
Abstract
? 有鑒于已有模擬數(shù)據(jù)訓(xùn)練的SISR模型在真實(shí)場(chǎng)景的性能受限問(wèn)題,作者認(rèn)為構(gòu)建一個(gè)真實(shí)超分?jǐn)?shù)據(jù)集很有必要性。作者采用一種靈活而易于復(fù)現(xiàn)的方法構(gòu)建了一個(gè)真實(shí)的RealSR數(shù)據(jù)集,對(duì)于同一場(chǎng)景采用同一相機(jī)以不同的焦距采集數(shù)據(jù)。
? 然而,除了視場(chǎng)角變化外,調(diào)整焦距還會(huì)導(dǎo)致其他挑戰(zhàn):比如關(guān)心漂移,尺度因子變化、曝光時(shí)長(zhǎng)以及光學(xué)畸變等。為解決這類問(wèn)題,作者還提出一種有效的圖像配準(zhǔn)算法以逐漸對(duì)齊圖像對(duì),方便用于SISR模型的端到端訓(xùn)練。
? 該RealSR數(shù)據(jù)集包含兩個(gè)數(shù)碼相機(jī)(Canon 5D3, Nikon D810)拍攝不同的室內(nèi)與室外場(chǎng)景,為SISR的實(shí)際應(yīng)用提供一個(gè)好的訓(xùn)練與測(cè)試基準(zhǔn)。相比已有的模擬數(shù)據(jù)集,RealSR數(shù)據(jù)的降質(zhì)模型更為復(fù)雜(降質(zhì)核實(shí)空間可變的,它隨景深變化而變化)。
? 在此基礎(chǔ)上,作者還訓(xùn)練了一個(gè)基于核預(yù)測(cè)網(wǎng)絡(luò)的SISR模型。核預(yù)測(cè)網(wǎng)絡(luò)已被廣泛應(yīng)用與圖像降噪、圖像去模糊以及視頻插幀領(lǐng)域。KPN的內(nèi)存占用為隨著核尺寸增大而指數(shù)提升,在KPN基礎(chǔ)上,作者引入圖像處理中拉普拉斯金字塔方案得到本文的LP-KPN模型,它可以用小尺寸核學(xué)習(xí)更豐富的信息。下圖給出了所提數(shù)據(jù)集以及方法的效果示意圖。
? 該文的貢獻(xiàn)主要包含以下兩個(gè)方面:構(gòu)建了不同縮放尺度的RealSR數(shù)據(jù)集,首個(gè)具有更通用目的的真實(shí)SISR訓(xùn)練與測(cè)試基準(zhǔn);
提出了LP-KPN模型,并在RealSR數(shù)據(jù)及上驗(yàn)證了其他有效性與高效性。
Method
RealSR
? 上圖給出了透鏡成像原理,按照公式有以下: $$ \frac{1}{f} = \frac{1}{u} + \frac{1}{v} $$ 數(shù)據(jù)采集過(guò)程中,固定$h_1$與u,考慮到$u\gg f$,此時(shí)有: $$ h_2 = \frac{f}{u-f}h_1 \approx \frac{f}{u}h_1 $$ 因此,$h_2,f$之間近似存在線性關(guān)系,通過(guò)提升焦距$f$,相機(jī)可以采集更大更清晰的圖像,理論上可以通過(guò)控制合理的焦距選擇不同的尺度。
? 在實(shí)際數(shù)據(jù)采集過(guò)程中,作者采用了4個(gè)不同的焦距:$105mm, 50mm, 35mm, 28mm$。最大焦距用于采集HR圖像,其他焦距用于采集不同尺度因子的LR圖像。作者還提到,采用28而非24焦距是因?yàn)?24mm$焦距時(shí)的鏡頭畸變難以通過(guò)后處理校正。為確保數(shù)據(jù)的泛化性,該數(shù)據(jù)集同時(shí)包含室內(nèi)與室外場(chǎng)景,數(shù)據(jù)包含豐富的紋理(超分的主要目的是復(fù)原/增強(qiáng)圖像的細(xì)節(jié))。
圖像對(duì)齊
? 數(shù)據(jù)的采集是比較容易的,但因鏡頭焦距縮放會(huì)導(dǎo)致許多難以控制的畸變,這會(huì)導(dǎo)致像素不對(duì)齊問(wèn)題。不同焦距采集的圖像往往存在不同程度的鏡頭畸變與不同的曝光,而且還會(huì)存在光心漂移線性。由于上述因素,現(xiàn)有的圖像配準(zhǔn)方法難以直接得到不同角度圖像的像素級(jí)的對(duì)齊,為此,作者設(shè)計(jì)一種漸進(jìn)對(duì)齊的圖像對(duì)齊方法,如下圖所示。
? 在圖像對(duì)齊過(guò)程中,裁剪中心區(qū)域(畸變比較輕,容易校正)校正其對(duì)應(yīng)的LR圖像。由于不同焦距圖像的亮度、尺度差異,基于SURF、SIFT的圖像對(duì)齊方法難以得到像素級(jí)對(duì)齊。為得到精確的圖像對(duì)配準(zhǔn),作者設(shè)計(jì)了一種同時(shí)考慮亮度調(diào)整的像素級(jí)對(duì)齊方法。假設(shè)$I_H, I_L$分別表示對(duì)應(yīng)的HR圖像與LR圖像,它通過(guò)優(yōu)化如下目標(biāo)函數(shù)得到: $$ \mathcal{min}_{\tau} \|\alpha C(\tau \circ I_L) + \beta - I_H\|_p^p $$ 其中,$\tau$表示仿射變換矩陣,C表示裁剪操作(確保LR與HR具有相同尺寸),$\alpha, \beta$為亮度調(diào)整參數(shù)。
LP-KPN
上圖給出了作者所提出的網(wǎng)絡(luò)架構(gòu)。假設(shè)$I_L^A, I_H$分別表示LR與HR圖像,KPN以$I_L^A$未輸入,輸出核張量$T \in R^{(k \times k) \times h\times w}$,它在通道方向的向量$T(i,j) \in R^{(k\times k)}$可以變換為$k\times k$的卷積核$K(i,j)$,將其作用于LR圖像的每個(gè)像素的局部近鄰以生成HR輸出。該過(guò)程可以描述為: $$ I_H^P(i,j) = $$ 其中,$V(L_L^A(i,j))$表示LR圖像在$(i,j)$處的局部近鄰,$$表示內(nèi)積運(yùn)算。上式表明:輸出圖像的每個(gè)像素是其在輸入圖像對(duì)應(yīng)位置的近鄰像素的加權(quán)線性組合。為獲得更好的性能,大尺寸核有助于利用豐富的近鄰信息,另一方面,核張量會(huì)隨著核尺寸增大而指數(shù)增加,進(jìn)而導(dǎo)致高計(jì)算量與內(nèi)存需求。
? 為得到Effective and Efficient的KPN,作者提出一種基于拉普拉斯金字塔的KPN架構(gòu)。如同已有諸多SR方法,該方法僅處理YCbCr空間的Y通道。拉普拉斯金字塔將圖像分解為了不同層級(jí)的子圖像(不同的分辨率大小),這些分解的子圖像可以精確的重建原始圖像。基于該特性,LR圖像的Y通道被分解為三個(gè)尺度圖像金字塔${S_0 \in R^{h\times w}, S_1 \in R^{h/2 \times w/2}, S_2 \in R^{h/4 \times w/4}}$,該LP-KPN以三尺度LR圖像作為輸入,輸出對(duì)應(yīng)的三個(gè)核張量${\mathbf{T}_0, \mathbf{T}_1, \mathbf{T}_2}$,該可學(xué)習(xí)核張量按照前述公式作用于三個(gè)輸入圖像以復(fù)原HR圖像在不同層級(jí)的拉普拉斯分解子圖像。最后,采用拉普拉斯金字塔重建得到HR圖像。受益于拉普拉斯金字塔,這里的$k\times k$核尺寸等價(jià)于原始分辨率的$4k \times 4k$感受野,相比于直接學(xué)習(xí)$4k \times 4k$核,這種方法可以極大的降低計(jì)算復(fù)雜度。
? LP-KPN的骨干部分把汗17個(gè)殘差模塊,為提升有效性,作者采用shuffle操作進(jìn)行圖像下采樣與上采樣操作,首先以因子$1/4$進(jìn)行下采樣,將其送入到骨干網(wǎng)絡(luò)中。需要注意的是:除了最后的基層,該網(wǎng)絡(luò)的大部分卷積模塊被三個(gè)尺度共享,這可以極大的減少模型的參數(shù)量。為得到不同尺度的核張量,在網(wǎng)絡(luò)的末端添加不同因子的上采樣單元以生成合適的核張量。該LP-KPN共計(jì)包含46的卷積層(遠(yuǎn)少于其他SISR方法),相關(guān)層參數(shù)配置如下所示。
Experiments
? 上表給出了作者所構(gòu)建的RealSR數(shù)據(jù)集的信息,隨機(jī)從每個(gè)相機(jī)每個(gè)尺度數(shù)據(jù)對(duì)中選擇15對(duì)作為測(cè)試集,其他作為訓(xùn)練集。評(píng)估指標(biāo)選用PSNR/SSIM,評(píng)估YCBCr中的Y通道。在訓(xùn)練過(guò)程中,輸入圖像塊為192x192,采用了隨機(jī)旋轉(zhuǎn)、隨機(jī)鏡像進(jìn)行數(shù)據(jù)增廣,BatchSize=16,優(yōu)化器選擇Adam,學(xué)習(xí)率為0.0001,共計(jì)訓(xùn)練1000K迭代,訓(xùn)練框架為Caffe+Matlab。
? 為驗(yàn)證數(shù)據(jù)集的重要性,作者以DIV2K采用不同的降質(zhì)方式(雙三次、多種降質(zhì))外加RealSR構(gòu)成了三個(gè)數(shù)據(jù)集,同時(shí)采用了VDSR、SRResNet、RCAN三個(gè)有代表性模塊,在三個(gè)尺度層面進(jìn)行超分,共計(jì)得到27個(gè)模型。其性能對(duì)比與視覺(jué)效果見(jiàn)下表與下圖。從中可以看出:相比其他兩種降質(zhì)模型,采用相同超分模型下在RealSR數(shù)據(jù)集上訓(xùn)練所得模型具有更好的性能。
? 為驗(yàn)證所提網(wǎng)絡(luò)架構(gòu)LP-KPN的有效性,作者將其與其他8個(gè)超分網(wǎng)絡(luò)進(jìn)行了對(duì)比。其性能對(duì)比如下所示。從中可以看出:(1) 直接像素生成方法中RCAN下過(guò)最佳;(2) LP-KPN取得了最優(yōu)的效果,甚至優(yōu)于核尺寸為19的KPN網(wǎng)絡(luò),同時(shí)具有更少的計(jì)算復(fù)雜度更快的推理速度。更多的實(shí)驗(yàn)結(jié)果與數(shù)據(jù)分析詳見(jiàn)原文,這里不再過(guò)多贅述。
Conclusion
? 模擬數(shù)據(jù)訓(xùn)練的超分模型難以泛化到真實(shí)圖像上是一個(gè)存在已久的問(wèn)題。作者在這個(gè)方向上進(jìn)行了探索與嘗試,構(gòu)建了真實(shí)退化的超分?jǐn)?shù)據(jù)集,采用Canon與Nikon相機(jī)采集了595對(duì)超分?jǐn)?shù)據(jù)對(duì),同時(shí)設(shè)計(jì)一個(gè)有效的圖像配準(zhǔn)算法以確保圖相對(duì)之間的像素級(jí)對(duì)齊。
? 作者還基于拉普拉斯金字塔提出一個(gè)LP-KPN網(wǎng)絡(luò)架構(gòu),作者首先驗(yàn)證了RealSR數(shù)據(jù)集的的重要性,同時(shí)在RealSR數(shù)據(jù)及上驗(yàn)證了其所提架構(gòu)的SOTA性能。
? 截止目前,作者所構(gòu)建的RealSR數(shù)據(jù)集已經(jīng)拓展到了V3版本,感興趣者可以去作者的開(kāi)源代碼網(wǎng)絡(luò)下載。
參考代碼
? 作者所提供的代碼為caffe框架的prototxt以及相應(yīng)caffemodel,都2109年了,現(xiàn)在還在用caffe的人真的很少了,故而本人參考其caffe代碼,將其用pytorch進(jìn)行了架構(gòu)重建,后面有時(shí)間的話還會(huì)花點(diǎn)時(shí)間將其預(yù)訓(xùn)練模型轉(zhuǎn)為pytorch格式,并花費(fèi)半天時(shí)間將作者的CAFFE模型轉(zhuǎn)為了Pytorch,兩者結(jié)果完全一致。經(jīng)親測(cè),利用作者提供的模型超分的效果并不好(并未達(dá)到作者論文中的效果,經(jīng)多次核對(duì),兩者結(jié)果卻是一致,無(wú)論是用matlab+caffe輸出結(jié)果,還是用轉(zhuǎn)換后pytorch模型輸出的結(jié)果均如下),見(jiàn)最終的對(duì)比效果圖。
? 20190828補(bǔ)充:經(jīng)與作者溝通發(fā)現(xiàn),作者所提供的模型僅限于對(duì)比PSNR/SSIM指標(biāo),如需更好的視覺(jué)效果需要調(diào)整三個(gè)head分支的損失比例(作者原文損失比例為16:4:1,而提供的模型則為1:1:1),或者更換感知損失。
歡迎關(guān)注AIWalker公眾號(hào),在這里您將得到獨(dú)家深度學(xué)習(xí)經(jīng)驗(yàn)分享與個(gè)人思考。想支持Happy繼續(xù)寫下去就點(diǎn)個(gè)贊關(guān)注一下吧!
總結(jié)
以上是生活随笔為你收集整理的adcsr图像超分代码_图像超分:RealSR的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 单应性矩阵和仿射变换_单应矩阵 基本矩阵
- 下一篇: opencv 图像 抠图 算法_我讨厌这