【图像超分辨率】Deep Learning for Multiple-Image Super-Resolution
Deep Learning for Multiple-Image Super-Resolution
- 摘要
- I. 引言
- A. 相關工作
- B. 貢獻
- II. 提議的EVONET算法
- III. 實驗
- IV. 結論
摘要
超分辨率(SR)重建是一個旨在提高圖像空間分辨率的過程,可以是基于低分辨率和高分辨率之間的學習關系的單一觀測,也可以是呈現同一場景的多個圖像。如果不能以期望的分辨率獲取圖像,而有單個或多個低分辨率的觀測數據,那么SR就特別重要–這是各種遙感場景所固有的。最近,我們見證了單幅圖像SR的大幅改進,這歸功于使用深度神經網絡來學習低分辨率和高分辨率之間的關系。重要的是,深度學習還沒有被廣泛用于多圖像超分辨率,而多圖像超分辨率得益于信息融合,一般來說可以實現更高的重建精度。在這封信中,我們介紹了一種新的方法,將多圖像融合的優勢與使用深度網絡學習低分辨率到高分辨率的映射相結合。我們廣泛的實驗結果表明,提出的框架優于最先進的SR方法。
關鍵詞:卷積神經網絡(CNN),深度學習,圖像處理,超級分辨率(SR)。
I. 引言
超分辨率(SR)重建的目的是從單個或多個低分辨率(LR)觀測值中生成一個高分辨率(HR)圖像。在許多情況下,SR算法是獲得足夠空間分辨率圖像的唯一可能性,因為HR數據可能由于高采集成本或傳感器限制而無法獲得。這種情況是遙感的一個固有問題,特別是關于地球觀測的衛星成像。
A. 相關工作
現有的SR方法包括單圖像和多圖像方法。前者包括從大量的例子中學習LR-HR關系–這一領域的最新進展主要歸功于深度卷積神經網絡(CNN)的使用;然而,稀疏編碼[1]和字典學習[17]也經常被認為是一種低復雜度的選擇。
SRCNN[6],以及隨后的快速版本(FSRCNN)[7],是第一個被提出來用于從一些LR-HR圖像對中學習LR-HR地圖平的CNN,并且它被證明超越了基于稀疏編碼的方法,盡管結構相對簡單。SRCNN的某些局限性被一個非常深的SR網絡[12]所解決,該網絡可以依靠快速殘差學習進行有效的訓練。使用稀疏編碼網絡[15],利用領域專業知識,實現了高訓練速度和模型的緊湊性。最近,一個帶有漸進式上采樣的深度拉普拉斯金字塔SR網絡(LapSRN)[13]被證明可以在高處理速度下提供有競爭力的結果。另外,由生成器和判別器組成的生成對抗網絡(GANs)也被積極探索用于SR[14]。雖然GANs產生了高視覺質量的結果,但它們對恢復地面真實信息沒有很大幫助。
多圖像SR包括融合來自許多LR觀測的互補信息,這些觀測以亞像素位移的方式呈現同一場景[20]。由于多個觀測點提供了更多從分析場景中提取的數據,因此重建可以比單一圖像方法更準確。現有的多圖像SR技術是基于這樣一個前提:I(l)={I(l)i : i∈{1,2,–, N}}中的每個LR觀測值I(l)i是從原始HR圖像I(h)中提取的,使用假設的成像模型進行退化,通常包括圖像扭曲、模糊環、脫灰和噪聲污染。重建包括逆轉這一退化過程,這需要解決一個不確定的優化問題。在梯度投影算法(GPA)中,層次化的子像素位移估計與貝葉斯重建相結合[18]。快速穩健的SR(FRSR)[8]是基于最大似然估計加上簡化的正則化–IT重要的是,誤差是在HR坐標中測量的,從而避免了昂貴的縮放操作。自適應細節增強(SR-ADE)[22]被提出用于重建衛星圖像–采用雙邊濾波器來分解輸入圖像并放大高頻細節信息。
在提高視頻序列分辨率的背景下,也對多圖像SR進行了探索,最近為此目的利用了深度網絡工程–在[9]中,一個深度CNN被輸入了三個連續的運動補償視頻幀,因此在空間和時間域中運行,而在[19]中,一個循環神經網絡被用于視頻SR。然而,視頻SR技術是基于與輸入流有關的明確或隱含的假設,例如,與固定和相當高的采樣頻率或移動物體的存在有關,其分辨率可以通過估計運動場來提高。因此,它們不能直接應用于衛星圖像的SR。最近,我們提出了進化成像模型(EvoIM)[10],它采用遺傳算法來優化FRSR[8]的超參數,并進化卷積核而不是FRSR中使用的高斯模糊。我們表明,重建可以有效地適應不同的成像條件,包括應用于人工降級(AD)圖像的不同噪聲水平,以及處理原始分辨率的真實(非降級)Sentinel-2衛星圖像。
B. 貢獻
在這封信中,我們展示了如何將基于學習的單圖像SR的優點與多圖像重建提供的信息融合的優點結合起來。我們介紹了EvoNet框架(第二節),它利用單圖像SR(我們考慮了幾種基于深度CNN的不同方法)來預處理多圖像SR的輸入數據(我們為此使用了我們的EvoIM技術[10])。我們對AD圖像和真實的衛星(RS)數據進行了廣泛的實驗驗證(第三部分),并以平均意見得分(MOS)作為支持,結果證實EvoNet增強了多圖像SR的能力,它在質量和數量上都比最先進的技術要好。
II. 提議的EVONET算法
所提方法的流程圖見圖1。首先,每個LR輸入圖像(I(l)i)都要經過單一圖像SR。這一步產生了一組N個圖像I(l+) = {I(l+) i },其尺寸比I(l) i大2倍。與此同時,輸入的LR圖像I(l)要進行圖像登記,以確定它們之間的子像素移動。這些移位允許使用中位移位加算法(由于I(l+)i的尺寸比I(l)i的尺寸大2倍,計算出的移位值乘以2)從多個單圖像SR結果(I(l+))中進行信息融合。這就產生了初始的超分辨率圖像X0–其尺寸比I(l+)大2倍,因此比I(l)i大4倍。隨后,X0經過EvoIM處理,產生超分辨率圖像I(sr)。與最初的EvoIM方法[10]相比,使用單圖像SR對輸入的LR圖像進行預處理是主要的區別,該方法直接從輸入的LR圖像組成X0。
A. 用單圖像SR對輸入圖像進行預處理 每個LR圖像I(l)i都用單圖像SR獨立增強,以獲得更高質量的輸入I(l+)i用于EvoIM,從而用學到的LR-HR關系支持后者。為此,我們研究了幾種架構,即FSRCNN[7]和SRResNet[14],后者被用作GAN和LapSRN[13]中的生成器。我們將這些網絡的放大系數設置為2倍,以避免引入過多的偽影,這在具有較大放大系數的單圖像SR中是很常見的。
B. 多圖像融合 我們用于多圖像融合的EvoIM過程包括對由注冊的LR輸入組成的HR圖像X0進行迭代過濾。在EvoNet中,我們對原始I(l)i圖像進行注冊,然后再進行單幅圖像的SR(它不會引入任何可能有助于更好地評估位移值的信息)。隨后,EvoIM解決了優化問題(如FRSR)。更新步驟X = Xn+1 - Xn計算為X = -β B AT sgn(ABXn - AX0) + λ δU(X) δX (Xn) (1) 其中β控制更新步驟,A是一個對角矩陣,表示與X0相關的LR測量的數量,U(X )是用λ超參數控制的正則化項,而B和B是5×5卷積核。FRSR超參數和卷積核在EvoIM進化訓練中被優化,這可以在EvoNet框架之外獨立完成(在本研究中,我們使用在[10]中得到的值)。
III. 實驗
為了驗證,我們在測試集中使用了兩種類型的數據,即。1)AD圖像和2)同一地區的RS圖像,以不同的分辨率獲取。在AD中,我們使用了六個數據集,包括我們的10張500×500像素的Sentinel-2圖像集(Sentinel-AD)和五個通常用于評估SR的基準數據集:Set5[4]、Set14[21]、BSD100[2]、Manga109[16]和Urban100[13]。對于這些數據集中的每張圖像,作為I(h)處理,我們生成了一組N=4的LR圖像,在進一步退化(高斯模糊,然后是降尺度,還可以選擇用噪聲污染)之前,應用了不同的子像素移動。對于RS,我們使用了三個Sentinel-2場景作為LR(每個場景中N=10個LR圖像),其中兩個與SPOT圖像相匹配(呈現在伊朗的Bushehr,LR尺寸為300×291像素,以及伊朗的Bandar Abbas,240×266像素),一個與Digital Globe WorldView-4圖像(澳大利亞悉尼,92×90像素)相匹配。
EvoNet與雙三次插值和五種單圖像SR方法進行了比較。基于離散小波變換的SR(SR-DWT)[5]、SRCNN[6]、FSRCNN[7]、SRResNet[14]和LapSRN[13],以及三種多圖像SR技術。GPA[18]、SR-ADE[22]和EvoIM[10]。此外,我們對I(l)中的所有LR圖像運行每個單圖像方法,并從重建結果中計算出平均圖像–這樣,這些方法的數據與多圖像SR的數據相同。如文獻[10]所述,EvoIM分別針對AD圖像和RS數據進行訓練,使用PSNRhf[3]作為適配函數(訓練集和測試集之間沒有重疊)。深度CNN使用DIV2K數據集的圖像進行訓練。1 我們用C++實現了所有的調查算法,我們用Python和Keras來實現CNN。實驗在英特爾i9 4-GHz計算機上運行,配有64-GB內存和兩個RTX 2080 8-GB圖形處理單元(GPU)。
我們根據I(h)和I(sr)之間的相似性來量化重建質量,用峰值信噪比(PSNR)、結構相似性指數(SSIM)、視覺信息保真度(VIF)、通用圖像質量指數(UIQI),以及用高通濾波器處理的圖像的PSNR(PSNRhf)和局部標準偏差(PSNRls)來衡量,我們發現這些指標對評估SR很有力[3](對于所有指標,較高數值表明圖像之間的相似性更高)。重建結果是在比輸入LR圖像大2倍的維度上進行定量評估的(EvoNet將LR圖像放大了4倍,所以我們將這些結果縮小了2倍,以便與其余方法進行公平比較)。對于RS,I(sr)與數字地球儀和SPOT圖像進行了比較,縮小了尺寸以適應I(sr)的尺寸。我們還進行了一項調查2,包括15個關于AD(10個問題)和RS(5個問題)測試集的圖像質量的問題。我們收到了307份回復,在此基礎上,我們報告了四種方法的MOS值:雙三次插值、LapSRN、EvoIM和EvoNet-LapSRN。
在表一中,我們報告了六個數據集的AD圖像的重建精度。帶有不同CNN的EvoNet可以實現最準確的重建,呈現出持續的最佳分數。值得注意的是,在大多數情況下,即使在EvoNet中用于預處理的雙三次插值也能提高EvoIM的得分(除了Manga109和Urban100);然而,基于CNN的EvoNet允許更大的改進(在大多數情況下,LapSRN是最佳選擇)。我們還報告了歸因于EvoNet的準確度增益(與最好的多圖像方法相比)–Sentinel-AD的增益最大,而Manga109的增益最小(可能是因為它不包含自然圖像)。在圖2中,我們展示了一個Sentinel-AD圖像的SR實例。可以看出,EvoNet與SRResNet和LapSRN都比EvoIM和底層CNN產生了更好的結果–注意,對于EvoNet,可以區分更多的樹木和道路線的細節。在表二中,我們顯示了CNN(SRResNet和LapSRN)、EvoIM和EvoNet在噪聲存在下的表現。可以看出,EvoNet是最敏感的,然而,對于中等程度的噪聲(σ=0.01的高斯和1%概率翻轉像素值的鹽和胡椒),它仍然比基礎CNN和EvoIM表現得更好。重要的是,正如文獻[11]所報道的,EvoIM可以有效地適應不同的噪聲特征,這也應該改善用EvoNet獲得的分數(在這里,我們用EvoIM訓練的圖像沒有應用任何噪聲)。
表三中報告了RS圖像的得分。對于每一個分數,我們都報告了排名(在括號里),最右邊一欄顯示了總體排名。EvoNet變體的排名很高,但分數與通過結合多個CNN結果得到的分數相似。相似度值比AD低得多的原因是LR和HR圖像是用不同的傳感器獲取的,所以即使是極好的重建,其結果也會與地面真實的HR圖像有視覺上的差異。為了更好地說明這一點,我們以與AD集相同的方式對HR圖像進行降級,并將降級后的LR圖像與LR圖像進行比較–數值顯示在最下面一行,它們與其余分數相似。另外,在圖3中,我們展示了這兩個版本的LR圖像。從圖中也可以看出,EvoNet比CNN和EvoIM更好地重建了細節。
在表四中,我們報告了Sentinel-AD和RS圖像的MOS(分數被歸一化,所以它們的總和等于1)。可以看出,用EvoNet-LapSRN得到的圖像在AD和RS圖像中都被認為是信息量最大和最自然的。
IV. 結論
在這封信中,我們提出了一個新穎的EvoNet框架,用于將單圖像SR方法與基于多圖像融合的方法結合起來。重要的是,我們表明我們的方法可以通過利用最近由于使用深度CNN而在單圖像SR方面取得的進展來改進多圖像SR。我們表明,在進行多圖像融合之前,采用不同的深度架構來增強每一個單獨的LR圖像,可以從本質上改善最終的超分辨率圖像。所報告的定量和定性結果,在平均意見分數的支持下,表明所提出的方法比最先進的SR方法表現得更好。
我們已經表明,EvoNet與不同的單圖像方法(包括雙三次插值和三個深度CNN)配合良好,但潛在的其他方法[17]也可以在我們的框架中得到利用。重要的是,這也意味著未來在單圖像SR方面的潛在進展可以很容易地被利用來進一步改進所提出的方法。
總結
以上是生活随笔為你收集整理的【图像超分辨率】Deep Learning for Multiple-Image Super-Resolution的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 如何注册la域名
- 下一篇: 【图像超分辨率】RS Image SR