【图像超分辨率】RS Image SR Based on Visual Saliency Analysis
Remote-Sensing Image Superresolution Based on Visual Saliency Analysis and Unequal Reconstruction Networks
- 摘要
- I. 引言
- II. 相關研究
- A. 經典圖像SR
- 1) 頻域算法
- 2)空間域算法
- 3)基于實例的算法
- B. 基于深度學習的SR
- 1)架構。
- 2) 損失函數。
- C. RSI的SR技術
- III. 方法
- A. 多尺度梯度顯著分析
- B. 顯著性驅動的門條件生成對抗網絡
- 1)對抗學習。
- 2)網絡結構。
- 2) Saliency-Weighted Perceptual Loss:
- 3)對抗性損失:
- D. 與先進方法的比較
- 1) 目標比較。
- 2) 數量比較。
- 3)主觀評價。
- V. 討論
- A. 不等價策略的效率
- B. 歸一化內容損失的效率
- C. 關于權衡的討論
- VI. 結論
摘要
遙感圖像(RSI)通常具有很強的表面特征的空間特性。各種地面物體,如住宅區、道路、森林和河流,都有很大的不同。根據這一視覺注意力特征,具有復雜紋理特征的區域需要更多的現實細節,以反映對地形的更好描述,而農田等區域應該是光滑的,并且噪聲較小。
然而,大多數現有的單圖像超級分辨率(SISR)方法未能充分利用這些特性,因此對整個圖像采用統一的重建策略。在這篇文章中,我們提出了一種新穎的突出性驅動的不等價單幅圖像重建網絡,其中超級分辨率(SR)過程中各個區域的需求由突出性地圖來區分。
首先,我們設計了一種新的基于梯度的顯著性分析方法,以產生更準確的具有圖像明智注釋的顯著性地圖。該方法利用多接收場的優勢來提取高層次特征和低層次特征。
其次,我們提出了一種新型的顯著性驅動門條件生成式對抗網絡,在整個網絡的訓練過程中,顯著性圖被視為一種媒介。顯著性圖被看作是生成器中的一個像素條件,以提高網絡的訓練能力。
此外,我們設計了一個新的損失函數,結合了歸一化內容損失、顯著性驅動的感知損失和門控對抗損失,以進一步細化RSI的紋理復雜區域的細節。
我們評估了我們算法的性能,并使用遙感數據集將其與許多其他最先進的SR方法進行了比較。實驗結果表明,我們的方法在突出的區域達到了最佳效果。我們的方法在全局質量和視覺性能方面達到了最佳效果。
關鍵詞:深度學習,生成對抗網絡,遙感,顯著性,單幅圖像超級分辨率(SISR),不平等重建。
I. 引言
具有明顯細節的高分辨率(HR)遙感圖像(RSI)對許多重要的遙感應用是有意義的,例如物體探測和圖像解釋。然而,由于成像設備和信號傳輸的限制,獲取高分辨率遙感圖像仍然是一項具有挑戰性的任務。
因此,研究人員試圖用某些技術來提高圖像分辨率,這些技術通常被稱為圖像超分辨率(SR)。SR的目的是恢復退化過程中丟失的信息。然而,恢復丟失的內容是一個棘手的問題,因為一個低分辨率(LR)圖像可以由多個HR圖像生成。
由于對計算機視覺研究的極大關注,已經提出了許多最先進的SR方法。這些方法主要依賴于這樣的假設:大部分高頻信息是冗余的,可以從低頻成分中恢復。研究人員試圖設計新的統計模型來模擬LR和HR之間的對應關系。
對于多圖像SR[1],同一場景的多個圖像從不同角度被用來恢復HR圖像,并利用隱藏在多個幀中的先驗空間仿生知識來提高重建質量。然而,受時間變化的光線和有限能力的設備的影響,獲得同一場景的多個RSI通常是困難的。
另一種流行的算法是單圖像超級分辨率(SISR)。SISR技術已經取得了實質性的進展,從插值方法到稀疏表示方法[2],[3]到基于大量訓練樣本的深度學習方法[4]-[10]。這些技術試圖揭示大量自然數據中的內在冗余,以恢復LR實例中丟失的高頻細節。對于這些方法,我們在第二節中做了詳細介紹。
盡管它們取得了很好的性能,但這些方法的主要特點是沒有充分利用圖像的視覺注意力特征。視覺注意力的概念[11]最早出現在認知心理學領域。一個可觀察到的模式是,人們通常以HR模式聚焦于圖片的特定區域,用LR感知周圍的區域,并不斷調整聚焦區域。這種機制有助于人們有效地捕捉場景中最重要的部分,這些部分被稱為興趣區域(ROI)。
例如,RSI中的住宅區[12]、[13]、機場[14]、[15]、船舶[16]、[17]和飛機[18],由于其復雜的細節或主導地位,很容易吸引人們的注意力。顯著性分析來自于對視覺注意機制的研究,它可以生成顯著性圖并提取ROI。這種突出區提取技術已經被廣泛地應用于各種計算機視覺應用中[11], [19]-[21]。除了不同的意義,各種區域在SR過程中的需求也是多樣的。細節豐富的區域總是需要更多的空間分辨率增強來明確紋理和邊緣。
在RSI SR領域,具有不同紋理復雜性的區域往往代表不同的類別。例如,大多數具有復雜而集中的紋理特征的區域屬于城市地區。相比之下,大多數光滑的區域是山區、農場和水區。大多數現有的SR方法沒有考慮這些區域的區別,而是對整個圖像采用統一的重建策略,這既沒有考慮到紋理區域的感知質量,也沒有考慮到整個圖像的客觀測量。
為了解決這個問題,我們提出了一個基于不平等重建策略的RSI的顯著性驅動門條件生成對抗網絡(SD-GCAN),我們引入了RSI中不同區域的顯著性變化來驅動SISR。基于上述分析,在我們的SISR框架中,具有復雜而集中的紋理特征的區域,如住宅區,被確定為突出區域。擬議的網絡中包括兩個關鍵步驟:弱監督的突出性分析和突出性驅動的SR網絡。
近年來,基于卷積神經網絡(CNN)的突出性分析方法[22],[23]由于其高泛化能力而顯示出優越性。由于這些框架是基于像素損失函數進行優化的,它們令人滿意的表現與大量的注釋數據是分不開的。依靠弱監督注釋的弱監督方法,可以被看作是解決基于完全監督的CNN方法的局限性的一種手段。
在這篇文章中,我們開發了一種弱監督的顯著性分析技術,以結合這兩類方法的優點。圖像范圍的標簽被用來訓練一個分類CNN,它也負責生成梯度顯著性地圖。隨著各層深度的增加,感受野也隨之增加。因此,這些地圖可以同時提取局部和全局的突出特征,從而產生更準確的結果。我們為全色(Pan)RSI提出了一種新穎的不等價SISR策略,其中突出性地圖被視為衡量不同區域的不同需求的指導。
條件生成對抗網絡(C-GAN)因其圖像生成能力而被用作重建網絡的基線。
對于生成器網絡,我們設計了一個新的條件殘差密集塊來突出中間卷積層的顯著特征,這可以提高顯著區域的細節質量。
對于鑒別器部分,我們提出了一種門控結構,可以直接修改網絡訓練目標,自適應地實現不同的重建階段。
提出了一個新的損失函數,它結合了歸一化內容損失、顯著性驅動的感知損失和門控對抗性損失,來訓練整個框架。歸一化內容損失通過特征分解提高了高頻的重建質量,顯著性驅動的感知損失保持了突出區域的語義特征,而門控對抗損失由于突出了突出區域的GAN損失而更真實地呈現了紋理特征。
本文的研究重點介紹如下。
1)我們提出了一種基于不平等重建策略的RSI的新型SR方案。通過弱監督的顯著性地圖考慮不同區域的多樣化需求,針對不同的需求設計不同的重建策略。
2)為了實現不等價重建,考慮用顯著性地圖來區分不同區域的不同需求和要求,進行自適應重建。在這方面,我們設計了一種新的弱監督的顯著性分析方法,在該方法中,使用圖像上的注釋來獲得像素上的顯著性地圖。
3)對于SR網絡,我們采用C-GAN作為基線模型,其中突出度圖被作為一個附加條件。為了充分利用多尺度的層次信息,我們在基于CNN的生成器模塊中引入了剩余的密集連接結構。
4)對于前面提到的C-GAN的生成器網絡,我們將顯著性驅動的約束與知覺損失相結合,幫助網絡更好地保持ROI的語義特征。此外,我們開發了一種創新的歸一化均方誤差(N-MSE)來衡量像素級的內容損失,并解決了基于MSE的目標優化中的域效應問題。
5)為了在ROI中產生更真實的結果,我們設計了一個閘門判別器。顯著性圖被用作門,以控制對輸入圖像像素的訪問。鑒別器網絡優先學習復雜區域的特征分布,以確定輸入樣本是真的還是假的。
本文的組織結構如下。在第二節,我們介紹了圖像SR的代表性模型。第三節描述了我們的不平等SR框架的實現。第四節介紹了實驗結果和分析,第五節進行了討論,第六節介紹了結論。
II. 相關研究
A. 經典圖像SR
1) 頻域算法
圖像SR是計算機視覺領域的一個經典問題,并且已經開發了許多技術來解決這個問題。最早的SR概念是由Harris[24]在60年代提出的。然而,它在當時并沒有得到廣泛的認可。自20世紀80年代以來,特別是在Tsai和Huang[25]提出了一種基于頻域圖像序列的方法之后,SR技術取得了突破性進展。在不考慮模糊和噪聲的影響下,Tsai認為圖像的退化是由下采樣過程中的頻率混疊引起的。通過恢復混疊信息,圖像分辨率可以得到改善。這個想法很容易理解,但模型太簡單了。Kim和Kwon[26]考慮了模糊和噪聲的影響,應用加權遞歸最小平方法來解決頻譜重疊問題,進一步提高了重建質量。繼前述研究之后,Su和Kim[27]提出了一種使用局部頻譜分析的SR方法,用于運動補償的重疊圖像序列。
2)空間域算法
前面提到的頻域算法僅限于運動和退化模型,缺乏先驗信息,并且不包括該研究領域的主流研究?;诳臻g域的方法,可以建立總體觀測模型并引入空間先驗信息,引起了研究人員的興趣。Brown[28]提出了非均勻插值算法。他們計算了圖像和參考之間的所有運動段米。所有LR圖像通過運動參數被投影到相應的HR網格上,其他缺失的點被插值。對于幾何運動引起的模糊問題,Stark和Oskoui[29]提出了投影到凸集(POCS)的方法,將先驗知識陸續納入修復過程。Irani和Peleg[30]提出了一種基于貪婪的SR方法,名為迭代背投(IBP)。在他們的模型中,圖像序列中的相對位移被用來迭代完善當前的估計以實現SR。Schultz和Stevenson[31]將最大后驗(MAP)引入SR領域。他們假設HR和LR圖像是隨機信號,在已知LR序列的條件下,統計估計最大后驗概率的結果是HR。受此啟發,Elad和Feuer[32]提出了一種來自MAP和POCS的混合方法,提取POCS中的先驗約束,并將其應用于MAP的迭代優化過程中,以實現上規模的重建。
3)基于實例的算法
空間域的方法主要依賴于從LR圖像中提取的先驗知識。然而,如果縮放系數過大,有意義的信息就不足以提供高頻的細節?;趯W習的SR技術,可以通過豐富的樣本學習獲得高頻信息,值得稱贊地彌補了這個缺陷。Freeman等人[33]采用馬爾可夫隨機場來描述HR和LR圖像之間的關系。有了這種關系,通過尋找重建圖像塊的最佳馬爾可夫位置,就可以恢復HR圖像。受流形學習的啟發,Chang等人[34]產生了一種局部線性嵌入方法,該方法將流形學習中的局部線性嵌入整合到圖像重建中。Huang等人[35]通過擴展內部補丁搜索空間進一步擴展了基于自我嵌入的SR方法。在沒有任何外部訓練數據集的情況下,他們的模型取得了令人滿意的性能。隨著壓縮傳感理論的發展,Yang等人[36]將稀疏表示法應用于圖像SR,并提出LR圖像可以被表示為超完整字典中基本元素的稀疏表示,該字典與大量相應的LR和HR圖像塊共同訓練。Zeyde等人[37]在Yang的工作基礎上做了一些改進。在字典訓練中,用K-SVD(K-singular value decomposition)算法來代替特征符號搜索(FSS)算法,這不僅加快了訓練速度,而且提高了重建性能。Timofte等人[38]將局部嵌入和稀疏表示相結合,提出了調整后的錨定鄰居回歸(A+),預先計算了映射關系矩陣,迅速加快了運行速度。
B. 基于深度學習的SR
1)架構。
CNN已經表現出極大的普及性,已經成功應用于各個領域,如圖像分類[39]-[41]、目標檢測[42]、[43]和圖像去噪[44]、[45]。研究人員為將這一強大的手段應用于SISR做出了大量努力[4]-[10]。
Cui等人[46]提出在他們的SISR框架中嵌入協作的局部自動編碼器,逐層將超解的LR圖像逐步轉化為HR圖像。所提出的網絡沒有被設計成一個端到端的模型,因為級聯模型的每一層都需要獨立的優化,這需要更多的計算資源。
相反,Dong等人[4]直接學習了一個用于彩色圖像的端到端超分辨率(CNN)(SRCNN)。他們通過一個三層深度全卷積網絡[47]對輸入圖像進行上采樣,該網絡包含補丁提取、非線性表示和重建部分。
Kim等人[5]發現,增加深度可以顯著提高性能,但訓練收斂得太慢。他們提出了一個非常深的網絡,通過殘差學習預測圖像細節[48]。在輸入層和輸出層之間的跳轉連接的幫助下,網絡的深度可以增加到20層。此外,峰值信噪比(PSNR)和視覺效果都有明顯改善。隨著網絡深度和參數數量的增加,需要大量的數據來防止過擬合。
Kim等人[6]試圖設計一個深度遞歸卷積網絡(DRCN)來解決這個問題,并在不增加模型容量的情況下遞歸地拓寬了感受野。遞歸層[49]的反復應用增加了層的深度,而沒有增加參數的數量。在以前的研究中,LR圖像被放大為HR圖像,該圖像在重建網絡之前通常采用雙三次插值。在預處理過程中提高分辨率會增加計算的復雜性。二次方插值沒有提供任何額外的有用信息來解決不理想的重建問題。
Shi等人[7]提議通過采用高效的子像素卷積層,只在網絡的末端提高圖像分辨率。由于子像素卷積層降低了計算的復雜性,因此所提出的框架滿足了1080p視頻的實時SR。
2) 損失函數。
像素損失函數,如MSE,已經在以前的研究中被廣泛使用[4]-[7]。這個函數測量生成的HR圖像和目標HR圖像之間的差異。然而,恢復高頻的細節,如紋理,是很困難的。因此,重建的圖像通常過于光滑,感知質量差[8],[50]。
研究人員已經設計了新的損失函數[8]來測量高層次的語義特征。由于AlexNet[39]和VGGNet[40]在ImageNet挑戰賽中表現出卓越的性能,Johnson等人[8]和Dosovitskiy和Brox[50]引入了這些模型來提取高層特征。
Johnson等人[8]根據從VGG19[40]網絡中提取的高層特征設計了新的感知損失函數。這些損失函數比像素損失函數更穩健地測量圖像的相似性。
Dosovitskiy和Brox[50]設計了一個由AlexNet[39]提取的語義特征之間的新距離。新的損失函數在感覺上更好地探索了圖像之間的相似性,并產生了更令人愉快的重建結果。
Bruna等人[9]建議使用吉布斯分布,其中足夠的統計數據是由深度CNN給出的。作者假設網絡計算出的特征對局部變形是穩定的。
傳統上,SR方法的有效性是由PSNR來衡量的,而PSNR與人類的感知相關性很差。具有高PSNR的重建圖像往往看起來并不真實[10]。生成對抗網絡[51]是一種流行的技術,在豐富的圖像生成任務中有助于產生真實的結果。
最近,少數基于GAN的SR框架被設計出來,以獲得具有更好視覺效果的圖像[10],[52]。Ledig等人[10]提出了一個新的SR生成對抗網絡(SRGAN),以從嚴重降采樣的圖像中恢復逼真的紋理。他們采用了一個帶有跳過連接的深度殘差網絡(ResNet)[48]。損失函數由感知損失和對抗損失組成,前者評估與感知相關特征的解決方案,后者鼓勵生成在感知上難以與HR參考圖像區分的HR圖像。
Sajjadi等人[52]提出了一個紋理合成網絡,它結合了對抗性學習和知覺損失,以產生一個具有大比例系數的現實紋理特征。他們利用VGG19[40]來捕捉低級和高級特征。紋理匹配損失被設計為產生具有與目標HR圖像中紋理相同的局部紋理的生成圖像。VGG19在高縮放系數下實現了定量和定性評估的顯著提升。
C. RSI的SR技術
在遙感領域,大多數SR技術依賴于傳統的插值和壓縮感應理論來提升LR圖像的尺度。Yuan等人[53]開發了一個區域空間自適應總變化(RSATV)模型,其中應用了兩個濾波程序來抑制總變化正則化的偽邊效應。在[54]中,提出了一種基于可變像素線性重建(VPLR)算法的SR方法。該算法根據每個像素的統計意義對輸入的LR RSI進行加權,并消除了幾何畸變對圖像形狀和光度的影響。
Li等人[55]設計了一種新的SR方法,該方法是基于RSI的通用隱馬爾可夫樹(HMT)模型。由于圖像的小波系數具有混合高斯分布,HMT模型可以獲得多尺度小波系數之間的關聯性。
對于高光譜RSI,Gu等人[56]和Mianji等人[57]將空間-光譜信息與基于學習的SR映射算法相結合,以提高HR圖像的質量。在Li等人的文章[58]中,作者將IBP方法作為基線。作者對其進行了修改,以有效地處理圖像內的局部仿生變換,用于SR。
Yuan等人[59]提出了一個基于RSI的RSATV模型,該模型改進了偽邊。通過對空間紋理和分類信息的兩個過濾過程,偽邊得到了抑制。該模型將總變異正則化從基于像素的轉變為基于區域的。
Huang等人[60]提出了一種通過字典學習和空間-光譜正則化的新型SR方法,用于高光譜RSI。受壓縮傳感(CS)框架的啟發,作者對圖像斑塊進行了更強的稀疏性,并促進所學字典和傳感矩陣之間更小的一致性。
隨著深度學習的發展,一些基于CNN的SR重建方法已經被開發出來。Lei等人[61]提出了一種用于RSI的局部-全球組合網絡(LGCNet)。提出的結構旨在學習包括局部細節和全局環境先驗的多層次表征。Yuan等人[62]提出了一種方法,學習在自然圖像上訓練的LR和HR圖像之間的映射,并通過轉移學習對高光譜圖像的映射進行微調。
III. 方法
RSI的特點是紋理豐富,自我相似度高,適合用深度CNN處理。失真是指生成的HR圖像與參考圖像之間的不相似性,而感知質量則衡量生成的HR圖像的視覺質量?;谑д婧透兄亩x,現有的基于深度CNN的SISR方法一般可分為兩類:像素損失最小化和特征損失最小化。前者可以重建失真度低但細節模糊的圖像,而后者可以產生具有更高感知質量的圖像。以前的研究已經驗證了RSI中的不同物體需要不同程度的空間分辨率和光譜分辨率[63]。例如,住宅區和機場等區域有豐富的紋理和明顯的邊界,需要更詳細的修復,而包括河流、草原和山脈在內的區域一般看起來很光滑,需要低的重建失真。
我們設計了一個依賴于深度學習的端到端不等價RSI SR模型,其中我們采用了突出性驅動的訓練目標,旨在滿足不同的需求,并提高全局重建質量。如圖1所示,我們方案的整體架構由兩部分組成:弱監督的鹽度分析和鹽度驅動的SR網絡。
1)弱監督的顯著性分析是為了生成一個顯著性圖,它在隨后的不等式SR模塊中具有關鍵作用。所提出的方法可以計算帶有圖像注釋的按像素劃分的鹽度圖,這提高了準確性,同時降低了訓練成本。
2)提出了一個突出性驅動的SR網絡,在弱監督突出性地圖的指導下自適應地平衡失真和感知之間的權衡。我們設計了一個新的損失函數,由歸一化內容損失、顯著性驅動的感知損失和門控對抗損失組成,以衡量生成的HR圖像和參考圖像的相似度。此外,我們還應用了剩余密集連接塊結構和門控判別器來增強所提出的模型的能力。
我們在第三節A和第三節B中進行了詳細的介紹。整個框架依靠視覺顯著性的指導,在全色RSI的SR過程中同時實現復雜區域的精細視覺感知和平滑區域的低質量失真。
A. 多尺度梯度顯著分析
視覺梯度是指對場景中的刺激物立即作出反應的高對比度部分。通過模仿人類視覺系統中的注意機制,顯著性模型有效地實現了基于低水平特征的對比度計算,以快速檢測和識別有意義的目標。顯著性分析方法通常是為基于手工特征的RSI開發的,這限制了其通用能力。盡管基于CNN的顯著性分析方法可以極大地提高泛化能力和效率,但其出色的性能與大量的注釋數據是分不開的。因此,這些方法的一個共同瓶頸是它們是以完全監督的方式運行的,也就是說,它們在訓練階段通常需要大量的像素注釋。
在這篇文章中,我們設計了一個基于CNN的弱監督的顯著性分析方法,以實現帶有圖像注釋的顯著性分析。圖像上的標記被用來訓練一個分類CNN,它也負責以弱監督的方式生成梯度分層顯著性地圖(GHSMs)。隨著層的深度增加,感受野也會增加。因此,GHSMs可以捕獲局部和全局的突出特征。特定類別的GHSMs的殘差圖被生成以自動提取ROI。
考慮到RSI的紋理特征在不同地區有很大不同,我們根據不同地區紋理的復雜性來區分突出的區域。住宅區包含相當詳細的信息,涉及各種豐富的紋理特征,而農場和池塘等區域則顯示出更平滑的視覺特征。因此,在突出性分析程序中,住宅區被確定為突出區域,而光滑區域被確定為非突出區域。換句話說,在我們的分類網絡中,住宅區被確定為ROI。我們訓練一個深度CNN來區分輸入圖像是否包含ROI。
這項任務對深度CNN來說并不困難,因為這兩類圖像的視覺差異很大。我們采用沒有全連接層的VGG19網絡作為特征提取器,因為它在ImageNet挑戰中表現出色。我們為CNN模型添加了一個256-D全連接層,以增加這些網絡的非線性。最后一層有兩個具有softmax激活函數的神經元來完成二進制分類。為了確保輸入圖像的大小與VGG19網絡的大小相等,我們在將輸入的全色RSI輸入到深度CNN之前,將單通道圖像擴展為三通道圖像。訓練有素的CNN框架可以被視為一個決策函數,該函數的輸入是大小為m×n的全色RSI。我們用交叉熵損失函數訓練分類CNN。訓練好的CNN結構表示為
其中x∈m×n代表輸入的全色RSI m×n,W代表約束權重和偏差。對于訓練有素的CNN,f1(x, W)和f2(x, W)分別表示輸入圖像包括ROI的概率能力和輸入圖像不包括ROI(背景區域)的概率能力,滿足
對于訓練有素的CNN結構,最后一層的輸出反映了輸入圖像屬于相應類別的概率,也就是 “類分”。
f1(x,W)和f2(x,W)分別表示ROI和背景區域的類分。
一個重要的屬性是,相對于輸入圖像,類分的梯度表明哪些像素需要最少的改變來對類分影響最大。梯度圖中的突出像素很可能是相應類別中的物體。Simonyan等人[64]提出,相對于輸入圖像的類分的導數可以以弱監督的方式定位自然場景中的物體。由于RSI的紋理和邊界特征比自然場景的更復雜,導數對像素值的劇烈變化很敏感,這可能會對RSI產生不良結果。因此,計算類分相對于輸入圖像的導數并不適合RSI。
隨著卷積層數量的增加,各層的感受野也在增加。例如,低卷積層的特征圖反映了低層次的特征,如角落、邊緣和顏色,而高卷積層包含抽象的高層次語義特征。因此,我們提出了一個新的想法,即從中間卷積層產生的類分的導數圖可以揭示出相應接收域的最突出的區域。導數(或梯度)圖顯示哪個接收域能以最小的變化影響決策函數。由于CNN中的幾個最大集合層,它們還包含多尺度信息,這對突出區域的提取是有利的。
給定第j個卷積層中的n j個特征圖,卷積層的第i個特征圖被表示為x ji,i = 1, 2,—, n j。輸入圖像的第i個通道被看作是x1i。第j個卷積層中cc類的導數顯著性圖被表示為Mcj。Mcj可以按以下方式計算。
我們通過平均化操作來融合不同概念層的導數顯著性圖,以整合多尺度的顯著性區域
考慮到負的訓練樣本不包含任何ROI,融合的背景類別的突出性地圖只能突出背景區域。因此,融合后的導數鹽度圖可以協助抑制背景區域。因此,我們通過計算S1和S2之間的減法來生成多尺度殘余顯著性地圖
其中ReLU(-)是用于將零分配給負值的整流線性單位。圖2顯示了多尺度梯度顯著性分析網絡的結果。
圖2. 由多尺度梯度鹽度分析網絡生成的顯著圖。(a) 原始全色RSI。(b) 前景派生圖。? 背景派生圖。(d) 最終的多尺度殘留顯著圖。
B. 顯著性驅動的門條件生成對抗網絡
1)對抗學習。
盡管深度學習在人力資源圖像生成領域取得了突破性進展,但它也有一些不足之處。與傳統的機器學習方法相比,深度學習通常假設訓練數據和測試數據具有相同的分布,或者訓練數據上的預測結果與測試數據上的預測結果受相同的分布。有些偏差是存在的。例如,預測數據的性能通常低于訓練數據的性能,這就是過擬合的問題。深度學習模型,如CNN,有時不能研究訓練數據的特征。與巨大的真實數據相比,這些模型的參數數量大大少于數據的數量。因此,在訓練過程中,生成模型會找到數據背后更簡單的統計規則來生成數據。
對抗學習是解決前面提到的問題的一個合適方法。在研究中,Goodfellow等人[51]將這一概念引入深度學習領域,并提出了一種名為生成式對抗網絡的新型網絡模型,它由一對對抗網絡(生成器網絡G和判別器網絡D)組成。G試圖學習樣本的概率分布,然后試圖產生能夠混淆D的判斷的真實數據。G和D被看作是一個最小-最大游戲的兩個對手參與者,試圖解決(6)所示的優化問題。隨著游戲的進行,兩個參與者相互競爭,他們的能力不斷提高。當鑒別器D被認為是足夠的,無法正確區分數據的來源時,發生器G已經掌握了
由于GAN能夠令人稱道地學習數據的分布,它已經被廣泛地應用于圖像或聲音的應用。Yann LeCun曾將GAN評為過去20年機器學習領域中最具創新性的想法。順著這個趨勢,Ledig等人[10]提出了SRGAN,在SR過程中生成逼真的圖像。在傳統的方法中,如SRCNN[4]、ESPN[7]和VDSR[5],一般目標是最小化MSE,并幫助重建結果達到高信噪比(SNR)。然而,這些方法產生的結果通常缺乏高頻信息,并具有過度光滑的紋理。相反,SRGAN認為重建的HR圖像應該盡可能地與真實的HR圖像相似,無論是低層次的像素值還是高層次的抽象特征。他們應用一個判別器來確定HR圖像是生成的圖像還是原始圖像。因此,不能被鑒別器區分的圖像被認為是最真實的圖像。
2)網絡結構。
盡管SRGAN可以產生逼真的結果,但這種方法也有一些不足之處。由于生成器和鑒別器之間的對抗性學習是一種最小-最大的博弈,確保整個模型的收斂能力是具有挑戰性的。根據我們的觀察,SRGAN可以獲得明顯的結果,因為它生成的圖像中存在互補的紋理。盡管這一措施提高了視覺感知性能,但它也使圖片變得 “臟”,從而損害了關于光滑區域的信息。為了彌補這些不足,我們提出了一種新型的SR網絡,名為SD-GCAN。
如圖5所示,SD-GCAN由三部分組成:生成器網絡G、判別器網絡D和特征提取網絡F。在訓練階段,網絡G生成對應于LR縣的HR圖像。由于生成器是一個完全卷積的網絡,它對輸入圖像的大小沒有限制。在訓練過程中,網絡D和F可以產生對抗性和感知性損失,這些損失被添加到發生器網絡的損失函數中。
考慮到視覺顯著性圖被送入網絡以實現不平等的重建,我們進一步采用了條件-GAN結構[65]作為我們SD-GCAN的基線。生成器模型G是一個全卷積網絡。對于具有放大系數r的SR,我們使用像素洗牌層[7]來對圖像進行放大,而不是應用插值技術。沒有擴大尺寸的預處理,我們可以在相同的計算成本下應用一個非常深的網絡。
生成器網絡是由八個條件殘差密集塊組成的。如圖4所示,每個塊包括兩個3×3卷積層,其中第一個卷積層之后是ReLU激活函數。為了利用各種分辨率的優先權,我們設計了一個小的條件模塊來產生多尺度的條件,可以輸入到所有的塊中。盡管有從頭到尾的跳過連接,我們也在塊內啟用其他直接連接。這種技術不僅保留了前饋性質,而且還融合了不同分辨率的局部密集特征。生成器的最后一層使用tanh函數來限制輸出值在[-1, 1]的范圍內。
鑒別器D,與VGG網絡[40]有相似的模型,可以提取多尺度圖像特征,并將生成的圖像與原始樣本區分開。鑒別器有8個3×3的卷積層,由leaky-ReLU函數激活,其中卷積濾波器的數量每兩步從64個逐漸增加到512個。受[7]的啟發,在濾波器數量增加的同時,采用分層卷積來替代池化層,這使得網絡能夠學習其空間降采樣。獲得的特征圖被平坦化并轉移到兩層密集層,以提供最終評估。為了加強細節信息恢復的效果,我們提出了一種新穎的門控技術,可以自適應地增強突出區域的重要性來評估判別器網絡。門控模塊不僅可以降低鑒別器的任務復雜性,還可以完成我們的不等價重構思想。在生成器和鑒別器網絡中,批量歸一化層被添加到卷積層之后,以防止協變量轉移。
特征提取網F的框架主要繼承自VGG19。我們保留了在ImageNet[39]上預訓練的卷積層的所有參數,并采用遙感數據的遷移學習來進一步提高分類性能。請注意,只有該網絡的卷積層被用來計算生成器模型的特征損失,或感知損失[8]。
在回歸過程中不被考慮,這就造成了分量的支配效應。我們可以通過正態特征向量對差異圖進行分解,具體如下。
wi方向上的誤差可以計算如下。
由于在優化過程中忽略了數值小的分量,wT i Ie的l2-norm沒有有效地被最小化。因此,重建的圖像在wi的方向上失去了一些小的細節。
為了解決這個問題,我們設計了一個N-MSE損失函數來減少分量效應域的影響。我們定義一個歸一化的損失函數如下。
由于平方根運算是一個凹函數,所以特征值之間的差距縮小了(如圖6所示)。在訓練過程中,特征值的平方根可以模擬地減少。N-MSE損失函數的雙倍值是MSE損失函數平方根的上界
在訓練過程中,Lnorm的優化可以限制MSE的損失。歸一化的損失函數可以克服分量域效應的不足,高頻細節可以得到重構,這就保證了輸出的圖像更加清晰,感知上更加真實。
2) Saliency-Weighted Perceptual Loss:
在圖像生成器網絡中,Johnson等人[8]提出了感知損失,以確保構建的圖像在感知上與目標圖像相似。與使用MSE損失來匹配像素值不同的是,感知損失利用特征提取模型F來衡量生成結果和HR圖像之間的特征級差異。因此,我們設計了一個突出性加權的感知損失函數,如圖7所示。
讓fi,j(x)為網絡F中第i個集合層之前的第j個卷積層在處理圖像x時的激活情況。經典的感知損失被定義為重建圖像G(ILR)和相應的HR圖像IHR的特征圖之間的歐氏距離
其中Wi,j和Hi,j代表從fi,j獲得的各自特征表示的形狀。為了縮小具有復雜紋理的區域的語義差異,我們將突出度值視為感知損失函數的加權系數,具體如下。
其中SS是由IHR的顯著性分析網絡(在第三節A)生成的顯著性圖,其值受[0, 1]的限制。由于卷積操作不改變圖像的空間排列,這個優化目標使網絡能夠優先考慮最小化突出區域的差異。在我們的建議中,我們選擇f5,4來構成損失函數,因為它們代表高層次的語義特征。同時,我們調整了顯著性地圖的大小以適應這些特征地圖的尺寸。
3)對抗性損失:
歸一化內容損失測量生成的HR圖像和參考圖像之間的像素失真,而感知損失測量它們之間的語義質量。在本節中,我們增加了一個對抗性損失,以進一步提高生成圖像的真實性。由于投資回報率對邊界和邊緣的重建質量要求較高,我們設計了一種新的門控技術,在判別器部分以顯著性地圖為指導。
顯著性地圖被視為門,在將其輸入判別器之前衡量每個像素的重要性,其中圖像I與顯著性地圖S的門控算子被計算為gate(I) = I - S。 (17) 在對抗性學習中,門控生成的HR圖像被輸入判別器以確定其是否屬于真實的HR圖像。鑒別器的輸出被表示為D(-),生成器和鑒別器的對抗性損失的公式被證明如下。Ladv = - log(EILR~PLR(I)D(gate(G(ILR)) ) (18) L D = log(EIHR~PLR(I)gate(G(ILR))) - log(EIHR~PHR(I)D(gate(IHR)))。(19) 因此,鑒別器關注的是生成圖像中ROI的質量。IV. 試驗結果 A. 數據集 為了驗證我們模型的優越性,我們選擇GeoEye-1衛星全色RSI進行訓練和測試。GeoEye-1的數據具有全色成分,分辨率為0.41米。在實驗中,所有方法都是在全色圖像上進行的。對于我們提出的模型,我們采用200張圖像進行訓練,15張圖像進行評估。訓練圖像與測試圖像是不同的。在訓練過程中,所有的圖像都以一定的比例系數被降頻為LR圖像,而原始圖像則被視為HR參考。
B. 訓練細節和參數
我們在NVIDIA Titan Xp GPU上訓練我們的網絡。所有測試圖像的大小為510×510。對于多尺度梯度顯著性分析,在GeoEye-1數據集中有2000張尺寸為170×170的全色圖像。前景與背景樣本的比例為1:1。該模型使用隨機梯度下降法進行訓練,批次大小為10個例子,動量為0.9,重量衰減為0.0005。
對于SD-GCAN,我們首先生成尺寸為170×170的顯著性地圖,然后通過比例系數為3的二元插值調整其大小(轉為510×510)。我們在原始訓練圖像的相同位置隨機裁剪9個384×384的子圖像和相應的鹽度圖。輸入的LR圖像和顯著性地圖是通過使用比例因子r=3的雙三次插值進行下采樣得到的。我們建議的圖像生成器由于其完全卷積結構,可以接受任意大小的圖像。輸入和目標圖像的像素值被縮放到[-1, 1]的范圍內。由預訓練的VGG19網絡生成的顯著性地圖的范圍是[0, 1],它們被視為概率分布。我們應用Adam[66]的優化器,β1=0.9來訓練網絡。對于SD-GCAN,生成器損失函數中的歸一化內容損失、顯著性驅動的感知損失和對抗性損失的權重系數被設定為1、10-2和10-3,以平衡不同損失的數值??紤]到其優化目標的復雜性,在提出的框架中,我們用20 000次迭代來訓練GAN,初始學習率為10-3。在訓練的一半時間里,我們將學習率降低到10-4,以避免出現局部最優。我們實現了基于TensorFlow框架的代碼開發[67]。
C. 比較方法和評估指標
為了評估我們技術的定量有效性,我們選擇PSNR和結構相似性指數指標(SSIM)來衡量所有方法的重建質量。由于我們的顯著性驅動模型是在獲得更清晰的ROI結果之前,我們提出了一個新的評估指標,即局部SSIM,以評估那里的表現。
SSIM是一個感知質量指標,它比PSNR更符合人類的圖像質量感知。從圖像組成的角度來看,SSIM將結構信息定義為獨立于亮度和對比度的屬性,反映了場景中物體的結構。SSIM將失真建模為三個不同因素的組合:亮度、對比度和結構。
SSIM地圖M被確定,帶有突出性地圖S的局部SSIM由以下公式得到。
D. 與先進方法的比較
1) 目標比較。
我們在GeoEye-1數據集上將我們提出的SD-CGAN與雙三次插值、Yang等人[36]、A+[38]、SelfEx[35]以及基于CNN的方法,包括SRCNN[4]、VDSR[5]、ESPN[7]和SRGAN[10]的性能進行比較。我們在圖8和圖9中展示了這些方法的視覺表現,并在表I和表II中總結了定量比較。PSNR是圖像SR重建領域中最常見的指標。
PSNR測量生成的圖像逐個像素的質量,與MSE類似。如表一所示,盡管所提出的方法的PSNR不是最好的,但它在所有方法中處于第四級。由于我們建議的損失函數還包含對抗性損失和感知性損失,這些損失與PSNR沒有直接關系,因此優化過程超過了獲得高PSNR的目標。相反,排名第一的技術,VDSR,利用深度CNN來最小化HR圖像和參考圖像之間的MSE損失。由于像素級的MSE損失完全對應于PSNR,VDSR方法在這個指標上表現良好。相對而言,關于表二中的SSIM指標,我們驚訝地發現,除了VDSR之外,我們的方案優于大多數方法。此外,我們在突出的區域取得了最好的性能,這充分驗證了我們的突出性驅動策略的有效性。
2) 數量比較。
我們展示了不同方法的結果,包括GeoEye-1數據集的最先進結果(見圖8和9)。如標示的區域(紅色矩形和藍色矩形)所示,該模型能夠充分重建微小的細節,如住宅區和道路。使用SD-GCAN的新損失函數,我們模型的結果可以保持原始圖像的語義特征,而其他模型不能提供令人滿意的結果。例如,生成的HR圖像具有更好的道路連通性,這是其他方法無法實現的。在生成的圖像中,建筑物之間的分離非常明顯,而其他方法的結果是模糊的。
3)主觀評價。
在這一部分,我們提出了一個主觀測試系統,包括一些視頻質量和編碼語音的主觀評價方法[68], [69],這些方法利用了平均意見得分(MOS)尺度??紤]到我們的主觀測試是為了比較各種方法的結果,而不是單一的方法,我們在前面提到的研究基礎上設計了一個測試系統。具體情況描述如下。
從研究生中隨機招募了34名受試者;所有學生都有一定的圖像處理或RSI的目標檢測經驗。測試時間不受限制。因此,受試者有足夠的時間來仔細比較每種方法的結果。我們對結果進行統計和儲存,以便進一步使用。
在獲得所有評價結果后,我們采用不同的標準來分析這些記錄。在描述性統計中,boxplot是一個合適的指標,用于按四分位數對數字數據組進行圖形化描述。boxplot可以顯示一個統計群體的樣本的變化,而不需要事先了解基本的統計分布。圖10列出了偏差比較均衡的SD-GCAN的主觀結果。很明顯,我們的SD-GCAN的標準化得分是最高的。
為了進一步評估這些方法之間的差異,我們應用單因素分析來比較它們的效率。我們把不同方法的平均值表示為μSD-CGAN。
檢驗假設表示如下。
由于參與人數少于50人,本文采用了夏皮羅-威爾克檢驗的結果。如表三所示,由于夏皮羅-威爾克檢驗的sig>0.05,所以分數的分布服從于正態分布。Levene統計量被用來完成方差的同質性檢驗(如表四所示)。表五顯示,我們應該拒絕不同方法的平均標準化分數相等的假設。
為了確定平均值有什么不同,我們使用成對的多重比較來進一步比較每種方法。如表六所示,我們的SD-GCWAN框架和其他方法之間的平均差異大于零,這超過了所提出的方法的平均得分高于其他方法。p值(sig list)是指群體平均差異為零的概率。如表六所示,所有的p值都小于0.05,這表明SD-GCWAN的平均得分與其他方法有明顯的不同。由于95%置信區間的左端點大于零,我們的SD-GCWAN框架在95%的置信度下,在其他方法中表現出明顯的性能。
V. 討論
在本節中,我們提供了兩組消融經驗,以評估不平等重建策略和歸一化內容損失函數的效率。此外,我們提出了關于感知性能和圖像質量之間的權衡的討論。
A. 不等價策略的效率
為了驗證不等價重建策略的必要性,我們從以下三個方面去除突出性分析部分,然后觀察其性能的變化。
1)條件殘差塊被殘差密集塊取代,因此生成器變成了一個有8個殘差塊的殘差密集網絡,其中包含兩個3×3卷積層。表七 GEOEYE-1 RSIS的PSNR(dB)和SSIM與縮放系數×3的比較
2)門控結構被移除,判別器變成一個具有8個卷積層的深度CNN,由leaky-ReLU函數激活,其中卷積濾波器的數量從64到512每兩步逐漸增加一倍。
3)我們利用生成的圖像的特征圖和參照物之間的MSE來代替(16)中的突出性加權感知損失,其中
訓練細節和參數在第四節B中提到。表七總結了GeoEye-1 RSIs的定量結果??梢钥闯?#xff0c;所提出的方法在所有客觀指標上都優于沒有突出性分析的框架。在顯著性指導的幫助下,該方案生成的HR圖像的像素失真較少。
圖11顯示了這兩種方法的視覺對比。擬議方法的語義維護在兩個方面優于基礎框架。
1)語義維護的能力。
如圖11所示,我們發現住宅區的邊界比基礎框架的邊界要直得多。此外,由我們的方法生成的圖像將有更好的房屋分離。我們認為這要歸功于突出性加權的感知損失[如(15)所示],它讓網絡專注于突出區域的感知質量。
2)生成逼真圖像的能力。
所提出的方法可以同時生成像素失真較少、突出區域的紋理特征較豐富的圖像。考慮到GAN的使用可以影響紋理的視覺特征,它表明對抗性學習中的門控結構有助于生成逼真的HR圖像。
B. 歸一化內容損失的效率
所提出的SD-GCWAN的損失函數由三部分組成:
1)歸一化內容損失;
2)顯著性驅動的感知損失;
3)對抗性損失。
在實驗過程中,我們發現這三個項目的相對大小會影響優化過程。為了討論歸一化內容損失的效率,我們刪除了顯著性驅動的感知損失和對抗性損失,以保持公平性。在這里,我們用傳統的MSE損失和N-MSE損失設計了兩個SR框架來評估歸一化內容損失的效率。條件殘差密集區被殘差密集區所取代,以消除不平等的SR重建策略的影響。此外,訓練細節和參數在第四節B中提到。表八顯示了這兩個框架的目標比較。我們發現,優化MSE損失可以獲得更高的PSNR,因為HR和生成圖像之間的MSE最小化也相當于PSNR最大化。對于SSIM來說,N-MSE損失比MSE損失好,這意味著我們的方案所生成的圖像更接近HR圖像,圖13。最后四個特征值的收斂曲線。(a)第13個特征值,(b)第14個特征值,?第15個特征值和(d)第16個特征值的收斂曲線。 亮度、對比度和結構。這兩個框架的實驗結果呈現在圖12中。我們可以觀察到,擬議的N-MSE損失有助于重建微小的細節。例如,如圖12(d)和(f)所示,N-MSE損失有助于在具有復雜紋理特征的區域提供更多的改進。圖13提供了最后四個特征值的收斂曲線。圖中顯示,與MSE損失(藍線)相比,N-MSE損失(橙線)對這些小特征值的收斂效果更好。
C. 關于權衡的討論
從比較實驗中,我們觀察到兩個相對極端的方法–VDSR和SRGAN。VDSR追求高質量的指標,結果是模糊的視覺外觀,而SRGAN提供逼真的感知性能,但質量指標較差。在實現高PSNR的同時,基于MSE的優化問題的解決方案通常缺乏高頻內容,并產生了令人不滿意的過度平滑紋理的感知效果。視覺性能和圖像質量是不協調的。Blau和Michaeli[70]也觀察到SR任務中圖像質量和感知性能之間的矛盾,他們在數學上證明了低質量的失真和高感知性能是相互矛盾的。
我們在圖14中進一步展示了前面提到的技術和我們的算法的一些放大的結果。我們觀察到,SRGAN產生的假紋理,建立了一個清晰的視覺性能。然而,這些假的細節并不是用實際的地面信息生成的,可能會破壞原始圖像內容。從紅色圓圈的區域,我們發現SRGAN的結果中的內容被噪聲淹沒了。VDSR的結果遺漏了具體的結構信息,提供了一個斷斷續續的印象。VDSR的解決方案也會在藍色圓圈的區域產生deforma tions。相反,我們的模型尋求視覺外觀和圖像質量之間的權衡。在本文中,由于SD-GCAN的顯著性驅動的損失函數,所提出的網絡在恢復ROI的獨特紋理之前。因此,在保持相對可呈現的圖像質量的前提下,從SD-GCWAN恢復的道路和住宅更加清晰和一致。
VI. 結論
在視覺注意力機制的啟發下,我們提出了一種基于深度網絡的RSI的不等價SR策略。所有現有的SR方法都忽略了不同圖像區域的不同需求,而這是RSI的一個重要特性。為了彌補這一缺點,我們引入了突出性,以適應性地實現不平等的重建結果。我們設計了一個新的弱監督的顯著性分析網絡,它可以生成具有圖像明智標簽的像素級顯著性地圖。我們設計了一個新型的深度網絡SD-GCAN,以根據不同區域的需求重建全色RSI。請注意,該模型采用了突出性來指導不同的優化目標。對GeoEye-1遙感數據集進行的評估表明,我們的方法不僅可以獲得具有令人滿意的全局圖像質量的HR圖像,而且還可以獲得對ROI有利的感知性能,這驗證了所提框架的有效性。
總結
以上是生活随笔為你收集整理的【图像超分辨率】RS Image SR Based on Visual Saliency Analysis的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Linux命令的特点有哪些
- 下一篇: 【图像超分辨率】(SPSR)Struct