當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

遥感领域多模态综述论文翻译

發(fā)布時間：2023/12/8 编程问答 41 豆豆

生活随笔收集整理的這篇文章主要介紹了遥感领域多模态综述论文翻译小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

From Single- to Multi-modal Remote Sensing Imagery Interpretation: A Survey and Taxonomy

文章目錄

From Single- to Multi-modal Remote Sensing Imagery Interpretation: A Survey and Taxonomy
- Abstract
- 1. Introduction
- 2. Taxonomy
- 3. Multi-source Alignment
- - - 3.1 Spatial Alignment
    - 3.2 Temporal Alignment
    - 3.3 Cross-element Alignment
    - 3.4 Related work and Challenges
- 4. Muti-source Fusion
- - - 4.1 Homogeneous Data Fusion
    - - 4.1.1 Spatial reference
      - 4.1.2 Spatio-temporal reference
    - 4.2 Heterogeneous Data Fusion
    - 4.3 Remote Sensing And Other Type Data Fusion
    - 4.4 Remaining problems
- 5 Multimodal Representation
- - - 5.1 Joint Representation
    - 5.2 Coordinated Representation
    - 5.3 Encoder-decoder Representation
    - 5.4 Discussion
- 6. Cross-modal Translation
- - - 6.1 Cross-sensor translation
    - 6.2 Cross-element Translation
    - 6.3 The challenges and differences from nature scenes
- 7. Co-learning
- 8. Datasets of MRSII
- 9 Applications
- - - 9.1 Land Use Classification
    - 9.2 Urban Planning
    - 9.3 Agriculture and Ecology
- 10 Future Directions
- 11 Conclusion

本文是遙感領(lǐng)域多模態(tài)解譯的一篇綜述論文。最近在看多模態(tài)相關(guān)的內(nèi)容，粗糙地翻譯了一下這篇論文。推薦配合原文閱讀。

原文指路：https://engine.scichina.com/doi/10.1007/s11432-022-3588-0

Abstract

模態(tài)是信息的來源或形式。通過各種模態(tài)信息，人類可以從多個角度感知世界。同時，遙感觀測是多模態(tài)的。我們通過全色、激光雷達(dá)和其他模態(tài)傳感器宏觀地觀察世界。多模態(tài)遙感觀測已成為一個活躍的領(lǐng)域，它有利于城市規(guī)劃、監(jiān)測和其他應(yīng)用。盡管在這一領(lǐng)域取得了許多進(jìn)展，但仍然沒有一項(xiàng)全面的評估，能夠?yàn)橄到y(tǒng)的概覽提供統(tǒng)一的評價。因此，在本文中，我們首先強(qiáng)調(diào)了單模態(tài)和多模態(tài)遙感影像判讀之間的關(guān)鍵差異，然后利用這些差異來指導(dǎo)我們對級聯(lián)結(jié)構(gòu)中多模態(tài)遙感影像判讀的研究。最后，對未來可能的研究方向進(jìn)行了探討和展望。我們希望這項(xiàng)調(diào)查將成為研究人員回顧最新發(fā)展和開展多模式研究的起點(diǎn)。

1. Introduction

裝備各種傳感器的高空間分辨率（HSR）衛(wèi)星的發(fā)展，帶來了豐富的數(shù)據(jù)來源。得益于此，HSR遙感圖像具有多模態(tài)特性，這為遙感和計(jì)算機(jī)視覺界提出了更具挑戰(zhàn)性的問題。與單模觀測相比，它提供了更多關(guān)于傳感器、角度、分辨率和時間的信息，這是至關(guān)重要的，為前沿帶來了巨大的推動[1-4]。因此，如何充分利用多模態(tài)遙感影像進(jìn)行地球觀測就顯得尤為迫切。相關(guān)研究進(jìn)一步表明遙感影像解譯正逐步由單一模型向多模型發(fā)展，提供了更多的觀測細(xì)節(jié)來細(xì)化場景信息。因此，本文對多模態(tài)遙感解譯的前沿技術(shù)進(jìn)行了全面、及時的綜述，以幫助研究人員學(xué)習(xí)和應(yīng)用多模態(tài)遙感解譯的前沿技術(shù)，為進(jìn)一步的實(shí)驗(yàn)奠定堅(jiān)實(shí)的基礎(chǔ)。

多模態(tài)遙感圖像解譯(MRSII)是地球觀測和計(jì)算機(jī)視覺領(lǐng)域的一個新興方向。它具有挑戰(zhàn)性，具有比單模態(tài)更大的應(yīng)用價值。從特性的角度來看，至少有四個原因:

1)圖像數(shù)據(jù)是多光譜的。如圖1所示，不同傳感器的成像機(jī)理和光譜帶不同。在獲取場景空間圖像信息的同時，各元素的光譜特征向量反映了場景的地球物理性質(zhì)。由于上述特性，現(xiàn)有的預(yù)訓(xùn)練模型[6-8]在通道尺寸和高級空間表示方面面臨挑戰(zhàn)。

2)同一區(qū)域的多模態(tài)觀測提供了來自不同視角(如三維空間、距離和高度)的互補(bǔ)信息。對于一些地球觀測應(yīng)用，如城市土地規(guī)劃、三維重建、森林分類等，我們需要多模態(tài)傳感器從多個角度觀察場景。但由于受計(jì)算資源的限制，觀測角度越多，計(jì)算復(fù)雜度越大。

3)表1列出了一些著名衛(wèi)星的參數(shù)。由于MRSII的多尺度特性，要求系統(tǒng)具有處理不同分辨率圖像的自適應(yīng)能力。例如，在WV-3圖像中，一架飛機(jī)可能會占用大約400像素，但在高分2圖像中只占用150像素。這種情況給單模態(tài)模型帶來了巨大的挑戰(zhàn)，特別是當(dāng)同一對象之間存在顯著的尺度變化時。

4)多模態(tài)圖像為地球監(jiān)測提供了時間維度，為相關(guān)研究提供了新的動力。多時間變化檢測、數(shù)據(jù)融合、基于域適應(yīng)的分割/檢測等一系列具有廣闊應(yīng)用前景的時間任務(wù)應(yīng)運(yùn)而生，加速了遙感影像解譯向多維度、多任務(wù)的方向發(fā)展。

如圖2所示，我們檢索了Web of Science 上與MRSII相關(guān)的出版物。從近20年的文獻(xiàn)變化趨勢來看，MRSII的數(shù)量逐年增加，MRSII已經(jīng)成為遙感研究的熱點(diǎn)。盡管該領(lǐng)域有超過30年的研究和它在理論和實(shí)踐層面的重要性，很少有相關(guān)的綜述可用。這是一個遙感影像解譯由單一模式向多模式轉(zhuǎn)變的時代。我們希望我們的工作將有助于遙感和計(jì)算機(jī)視覺的社區(qū)。本文的主要貢獻(xiàn)有四個方面：

(1)我們利用多平臺、多傳感器數(shù)據(jù)對MRSII的論文進(jìn)行了全面和及時的綜述。通過詳盡的闡述，可以把握MRSII的整個發(fā)展過程，構(gòu)建完整的MRSII知識體系。

(2)提出了一種易于理解的層次分類法，將MRSII方法分為不同的任務(wù):多源融合、多模態(tài)表示、多源對齊、跨模態(tài)翻譯和聯(lián)合學(xué)習(xí)，然后根據(jù)可泛化的特性對每個任務(wù)進(jìn)行更詳細(xì)的分類。

(3)我們總結(jié)了除了普通MRSII外最近出現(xiàn)的幾個擴(kuò)展研究主題，并討論了這些主題的最新進(jìn)展。這些課題具有挑戰(zhàn)性，同時也為許多現(xiàn)實(shí)的影像解譯問題的解決提供了突出的現(xiàn)實(shí)意義。

4)在總結(jié)的基礎(chǔ)上，進(jìn)一步探討了MRSII的應(yīng)用和未來發(fā)展方向，以期為從事多模態(tài)遙感影像解譯的研究者提供參考。

2. Taxonomy

目前，該領(lǐng)域的研究人員對MRSII存在不同意見的根本原因是它涉及的領(lǐng)域更廣，邊界模糊。不同的觀點(diǎn)導(dǎo)致不同的解譯和分類結(jié)果。在本文中，我們參考[9]并將MRSII方法分為五大類(如圖3所示)，即多源對齊(第3節(jié))、多源融合(第4節(jié))、多模態(tài)表示(第5節(jié))、跨模態(tài)翻譯(第6節(jié))和聯(lián)合學(xué)習(xí)(第7節(jié))，以應(yīng)對MRSII挑戰(zhàn)的核心技術(shù)。

1)Alignment 多模態(tài)對齊提供不同模態(tài)信息的對齊和匹配，旨在發(fā)現(xiàn)模態(tài)之間的空間和時間聯(lián)系。例如，來自不同傳感器的圖像之間的圖像配準(zhǔn)和檢索，以及圖像與文本之間的檢索和匹配。這些方法的重點(diǎn)是將不同的模式映射到統(tǒng)一的語義空間，并通過距離度量它們的相似性

2)Fusion MRSII中的多源融合旨在將兩個或多個遙感數(shù)據(jù)或其他觀測數(shù)據(jù)與相同復(fù)雜場景的互補(bǔ)信息結(jié)合起來。通過結(jié)合它們的信息進(jìn)行處理、分析和決策，可以獲得用于目標(biāo)預(yù)測(分類或回歸)的更高質(zhì)量的數(shù)據(jù)。例如，將高分辨率全色圖像與多光譜圖像融合，可使多光譜圖像的空間分辨率提高數(shù)倍。

3)Representation 一項(xiàng)基本任務(wù)是將圖像編碼到用于下游任務(wù)分析的高級特征空間中。類似地，在MRSII中，representation負(fù)責(zé)將多模態(tài)信息提取并抽象為高級特征向量。它利用不同模態(tài)特征之間的互補(bǔ)性，消除冗余，以學(xué)習(xí)更好的特征。例如，為了對城市分類和三維建筑重建進(jìn)行編碼，將數(shù)字表面模型(Digital Surface Model, DSM)和真正射電像相結(jié)合，送入相同的表示空間。

4)Translatioin 一個新出現(xiàn)的挑戰(zhàn)是將信息從一種形式翻譯成另一種形式。該任務(wù)的方法傾向于生成模型，預(yù)測的目標(biāo)是開放的或主觀的。生成的模態(tài)與源模態(tài)是異構(gòu)的。例如，我們使用SAR數(shù)據(jù)生成全色圖像。

5)Co-learning 對于一些復(fù)雜的場景，一個單模態(tài)傳感器可能是不足的，因此需要另一個豐富的模態(tài)來輔助它的學(xué)習(xí)。在某些需要域適應(yīng)或遷移的情況下，跨模態(tài)信息可以利用聯(lián)合學(xué)習(xí)來輔助學(xué)習(xí)。例如，利用資源豐富的光學(xué)圖像特征進(jìn)行預(yù)訓(xùn)練，然后對稀缺的SAR圖像特征進(jìn)行學(xué)習(xí)，可以提高模型的性能。

為了幫助說明和組織MRSII新興研究領(lǐng)域的最新工作，我們進(jìn)一步細(xì)分和總結(jié)每個分類。對于不同的分類，它們不是不相關(guān)的，而且在許多情況下互為補(bǔ)充。它們在各種情況下相互補(bǔ)充，一個優(yōu)秀的多模態(tài)模型通常需要組合兩種以上的技術(shù)。例如，多模態(tài)表示可以用作alignment或translation的骨干模型。在接下來的五個部分中，我們將詳細(xì)解釋這些任務(wù)。

3. Multi-source Alignment

遙感多源對齊的目的是將原始源與目標(biāo)源進(jìn)行匹配，在異構(gòu)數(shù)據(jù)之間找到相應(yīng)的顯式和隱式關(guān)系。例如，給定兩張來自不同傳感器的包含相同復(fù)雜場景的圖像，我們將匹配或檢索它們的子組件（sub-components）。多源對齊是MRSII的一個重要分支，相關(guān)工作包括圖像配準(zhǔn)[12-14]、變化檢測[18,27 - 29]和跨模態(tài)檢索[26,30,31]。

如圖8所示，根據(jù)數(shù)據(jù)源的對齊維度，我們將多源對齊方法分為三種:1)空間對齊，2)時間對齊，3)交叉元素對齊。表2列出了這些方法的不同。

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來直接上傳(img-6E5vqCx2-1667051259210)(https://gitee.com/FouforPast/md_picture/raw/master/typora/image-20221029200344039.png)]

3.1 Spatial Alignment

空間對齊主要是圖像對齊的過程。即找到來自同一復(fù)雜場景的當(dāng)前圖像與參考圖像之間的像素空間映射關(guān)系，從而實(shí)現(xiàn)不同圖像源的幾何同步。這些圖像通常由不同的傳感器在不同的時間和視點(diǎn)拍攝[10,11]。空間對齊是一項(xiàng)重要的任務(wù)，它會顯著影響MRSII的預(yù)處理步驟、圖像融合、圖像拼接和地圖更新等。

在過去的幾十年里，遙感領(lǐng)域發(fā)展了許多類型的空間對準(zhǔn)技術(shù)。根據(jù)訓(xùn)練樣本類型的不同，空間對齊框架可分為三種類型:無監(jiān)督方法、半監(jiān)督方法和監(jiān)督方法。

Unsupervised methods沒有任何事先訓(xùn)練的樣本，需要直接對數(shù)據(jù)建模。它們是第一批應(yīng)用于多模態(tài)對齊的方法，通過構(gòu)建一系列范式并從這些范式中識別它們潛在的類規(guī)則來聚類同一類特征。

最初，無監(jiān)督方法的應(yīng)用方向是圖像配準(zhǔn)，將不同傳感器在不同時間捕捉到的同一場景的兩張或多張圖像對齊，是各種遙感應(yīng)用的重要前提[32,33]。在[34-36]中，作者采用互信息最大化算法，并結(jié)合其他特征增強(qiáng)方法，對不同模態(tài)衛(wèi)星數(shù)據(jù)進(jìn)行精確配準(zhǔn)。自然，無監(jiān)督空間對齊在土地覆蓋分類中也有廣泛的應(yīng)用[15-17]。

Semi-supervised method是另一種空間對齊框架，它利用大量的未標(biāo)記和標(biāo)記數(shù)據(jù)來執(zhí)行MRSII[37,38]。在[39]中，MAPPER被用來進(jìn)行光學(xué)數(shù)據(jù)和偏振SAR數(shù)據(jù)的多重對齊，用于土地覆蓋和當(dāng)?shù)貧夂虻陌氡O(jiān)督分類。半監(jiān)督研究利用半監(jiān)督對齊方法從潛在空間獲取具有多時間、多源、多傳感器和多角度特征的圖像的線性可逆變換。Hong[40]提出了一種可學(xué)習(xí)流形對齊框架，直接從數(shù)據(jù)中學(xué)習(xí)joint graph structure。采用半監(jiān)督學(xué)習(xí)方法對多模態(tài)圖像進(jìn)行對齊，可以減少標(biāo)注人員的工作量，獲得較高的對齊精度。因此，它受到了遙感界的廣泛關(guān)注。

Supervised methods根據(jù)來自標(biāo)記數(shù)據(jù)集的輸入和輸出結(jié)果之間的關(guān)系訓(xùn)練一個最佳模型。在監(jiān)督學(xué)習(xí)中，訓(xùn)練數(shù)據(jù)既有特征又有標(biāo)簽，通過訓(xùn)練，機(jī)器可以自己找到特征和標(biāo)簽之間的聯(lián)系。

由于數(shù)據(jù)量大，一些方法[41-43]使用非深度學(xué)習(xí)架構(gòu)。隨著深度學(xué)習(xí)的發(fā)展，監(jiān)督方法已經(jīng)成為空間對齊的主流。在[44-46]中，作者設(shè)計(jì)了生成網(wǎng)絡(luò)來生成耦合的光學(xué)和SAR圖像，并使用深度匹配網(wǎng)絡(luò)進(jìn)行匹配。Zhang等和Fan等[47,48]提出了一種用于多模態(tài)圖像配準(zhǔn)的孿生神經(jīng)網(wǎng)絡(luò)，該網(wǎng)絡(luò)采用了使正和難負(fù)樣本（hard negative samples）之間的特征距離最大化的策略。

3.2 Temporal Alignment

時間比對主要針對長序列遙感影像分析。與空間對齊相比，它負(fù)責(zé)尋找來自同一子實(shí)例的不同模態(tài)信息的子分支或元素之間的對應(yīng)關(guān)系。如圖8所示，給定來自不同傳感器的系列圖像，時間對齊面向場景中隨時間變化的實(shí)例，并可進(jìn)一步用于下游任務(wù)，如區(qū)域規(guī)劃、作物、植物分類等。因此，時間對齊對算法對時間相關(guān)性和空間變化的敏感性提出了挑戰(zhàn)。

目前的時間對齊主要是針對一對多模態(tài)圖像之間的元素對齊。根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)的對稱性將方法分為:對稱結(jié)構(gòu)、非對稱結(jié)構(gòu)。如圖4對稱結(jié)構(gòu)中所示，不同數(shù)據(jù)源的子網(wǎng)絡(luò)結(jié)構(gòu)是相同的體系結(jié)構(gòu)，各模態(tài)特征之間存在交互作用。在非對稱結(jié)構(gòu)中，網(wǎng)絡(luò)結(jié)構(gòu)是不對稱的，每一邊的編碼器層和投影層都不同。

Symmetric structures更傾向于通過網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)和匹配不同模態(tài)信息之間的屬性。在[50]中，提出了一種基于圖的數(shù)據(jù)融合算法，用于數(shù)據(jù)驅(qū)動的半無監(jiān)督變化檢測和水稻作物生物量估計(jì)。Sun等人[19-21]構(gòu)造了一個魯棒的k近鄰圖來學(xué)習(xí)每個圖像的結(jié)構(gòu)，并使用圖映射來比較同一圖像域中的圖。Yang等[51]提出了一種用于異構(gòu)圖像變化檢測的深度金字塔特征學(xué)習(xí)網(wǎng)絡(luò)

Asymmetric structures更強(qiáng)調(diào)不同模態(tài)信息之間的特征，用不同的編碼器學(xué)習(xí)各種模態(tài)特征，然后用解碼器進(jìn)行融合解碼[52-54]。

3.3 Cross-element Alignment

人工智能的日益成熟給遙感領(lǐng)域帶來了更多新的機(jī)遇和挑戰(zhàn)。MRSII融合了越來越多的新元素，如語音、文本、OSM和其他非遙感模態(tài)。跨元素對齊旨在實(shí)現(xiàn)遙感圖像和非遙感模態(tài)之間的全局或子組件對齊。通過調(diào)整模態(tài)，它可以進(jìn)一步用于圖像檢索和視覺問題回答任務(wù)。

根據(jù)跨元素對齊的目的，我們將其分為兩類:場景增強(qiáng)和人機(jī)交互。第一類是融合和對齊非觀測模態(tài)，以減少觀測誤差，獲得更全面和準(zhǔn)確的地表數(shù)據(jù)。第二類是通過將其他模式與圖像對齊，實(shí)現(xiàn)協(xié)同檢索，提高圖像檢索速度，從而更好地方便人員查詢和搜索。

有許多非觀測特征可以提供遙感場景的增強(qiáng)表示。它們具有與空間對齊相同的目的，在模態(tài)中匹配和對齊相同區(qū)域，以用于下游任務(wù)。在[55-58]中，作者通過尋找實(shí)體之間的最佳匹配，將Openstreetmap與遙感圖像相匹配，用于building footprint的描述、更新和城市土地利用制圖。并且[59-62]結(jié)合了生物量、植被覆蓋和全球電離層圖估計(jì)的地基數(shù)據(jù)，顯著提高了單模態(tài)估計(jì)的準(zhǔn)確性和置信度。此外，許多研究人員將GNSS[63-65]、GIS[66-68]、水文氣象學(xué)[69-71]和其他信息進(jìn)行對齊，以實(shí)現(xiàn)在交通統(tǒng)計(jì)、地圖繪制、動物行為、環(huán)境相互作用等方面的應(yīng)用。

為了更好的人機(jī)交互，研究人員將語音和文本模式與遙感圖像相結(jié)合。在[31,72-74]中，作者討論了基于圖像和語音的遙感標(biāo)簽標(biāo)注之間的多標(biāo)簽跨模態(tài)信息檢索問題，通過學(xué)習(xí)輸入模態(tài)的判別共享特征空間的深度神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)，適合于語義一致的信息檢索。[24-26]設(shè)計(jì)了一系列圖像-文本匹配網(wǎng)絡(luò)，以探索遙感圖像與其各自自然語言描述之間的相關(guān)性。

3.4 Related work and Challenges

廣義模態(tài)對齊更側(cè)重于跨元素對齊，檢索和匹配兩個或兩個以上模態(tài)[9]之間實(shí)例關(guān)系的子組件，如圖像+文本[75-77]、視頻+音頻[78-80]、視頻+文本[81-83]等。

除了不同元素的對齊之外，模態(tài)對齊在MRSII中更關(guān)注各種傳感器的對齊。在多源對齊中，仍然存在以下挑戰(zhàn):1)圖像規(guī)模過大，包含的實(shí)例子組件數(shù)量遠(yuǎn)遠(yuǎn)大于自然場景。2)相關(guān)數(shù)據(jù)集中的數(shù)據(jù)量太小，使得有監(jiān)督模型難以進(jìn)行圖像對齊檢索，在訓(xùn)練過程中容易出現(xiàn)過擬合問題。3)實(shí)例的子組件復(fù)雜，形狀和方向任意，即使是同一區(qū)域的實(shí)例也會因?yàn)槌上穸a(chǎn)生失真或缺失。

4. Muti-source Fusion

受傳感器成像機(jī)理的限制，遙感影像的空間分辨率和光譜分辨率是相互制約的，單一成像手段無法獲得高空間分辨率和高光譜分辨率的遙感影像。多源融合是在遙感數(shù)據(jù)指標(biāo)上解決傳感器瓶頸限制的有效途徑。它通過算法組合來自不同指標(biāo)或來源的數(shù)據(jù)，獲得比單一數(shù)據(jù)源更豐富的信息。

多源數(shù)據(jù)融合作為MRSII的重要組成部分，有著悠久的歷史。多源數(shù)據(jù)融合的概念發(fā)展于20世紀(jì)70年代初，但理論方法直到20世紀(jì)90年代被提出。近年來，它的發(fā)展迅速，仍然是一個熱門的研究課題。多源融合的應(yīng)用非常廣泛，包括自然資源調(diào)查[94-96]、精準(zhǔn)農(nóng)業(yè)[97-99]、城市規(guī)劃[100-102]等。在本節(jié)中，我們將通過融合級別和類別詳細(xì)回顧多源融合。然后根據(jù)融合的類型來進(jìn)行分類。

參考D.L. Hall等人[103]，我們將多源數(shù)據(jù)融合細(xì)分為三個級別:1)數(shù)據(jù)級融合，2)特征級融合，3)決策級融合。三種體系結(jié)構(gòu)的概述如圖5所示。數(shù)據(jù)級融合是對原始傳感器數(shù)據(jù)或預(yù)處理數(shù)據(jù)的直接計(jì)算處理，這些數(shù)據(jù)可以包含數(shù)據(jù)源最原始的細(xì)節(jié)。主要目的是提高數(shù)據(jù)的質(zhì)量，即分辨率、對比度、完整性和其他指標(biāo)。特征級融合是在從目標(biāo)場景(原始傳感器數(shù)據(jù))提取特征信息之后的步驟進(jìn)行的。它融合提取的特征，生成新的特征，用于后續(xù)復(fù)雜場景的解釋。決策級融合需要從源圖像中提取目標(biāo)特征，并對特征進(jìn)行濾波和分類，最后根據(jù)特征的類別進(jìn)行融合。它主要解決不同數(shù)據(jù)的決策結(jié)果不一致的問題，從而從各種傳感器數(shù)據(jù)中獲得更可靠的決策知識。這三種融合策略并非互不相容，而是可以聯(lián)合使用，多層級融合是一個前沿的研究方向。

根據(jù)融合數(shù)據(jù)的類型，我們引入了一種更直接、更明確的分類策略，如表3所示。我們將遙感多源融合分為三類:同質(zhì)數(shù)據(jù)融合、異構(gòu)數(shù)據(jù)融合和遙感與其他類型數(shù)據(jù)融合。

4.1 Homogeneous Data Fusion

同質(zhì)數(shù)據(jù)融合是指來自相同成像方式的傳感器之間的數(shù)據(jù)融合，如高分辨率全色圖像和多光譜圖像之間的數(shù)據(jù)級融合。這種方法的主要目的是提高圖像的分辨率，并減輕空間、光譜和時間分辨率之間的相互（制約）聯(lián)系。同時，通過數(shù)據(jù)級融合，對圖像中的陰影、云層等噪聲進(jìn)行修復(fù)和濾波，獲得最佳的時間、空間和光譜分辨率。除了全色-多光譜融合[104-106]外，還包括同模態(tài)融合[107-109]、全色-高光譜融合[110-112]、多光譜-高光譜融合[113-115]等。

同質(zhì)數(shù)據(jù)融合是一個歷史悠久的問題，我們將其分為基于空間和基于時空兩種方向，融合方法示意圖如圖6所示。基于空間的方法通過對圖像進(jìn)行空間對齊，聚焦于空間上一致的圖像對，建立特征關(guān)系，實(shí)現(xiàn)數(shù)據(jù)融合。基于時空的融合方法更側(cè)重于從具有多時相的低分辨率數(shù)據(jù)推斷出特定時間的高分辨率數(shù)據(jù)。該算法利用一系列時間圖像構(gòu)建時間和空間維度關(guān)系，利用優(yōu)化約束算法實(shí)現(xiàn)融合。

4.1.1 Spatial reference

我們確定了三種用于空間參考的算法:全色銳化、線性優(yōu)化和基于深度學(xué)習(xí)的算法。全色銳化是一種通過融合全色和多光譜圖像來獲得高空間和光譜分辨率圖像的輻射變換。線性優(yōu)化主要是通過添加線性約束來實(shí)現(xiàn)同模態(tài)融合，從而獲得最優(yōu)解的重建圖像。基于深度學(xué)習(xí)的算法通過模擬生物神經(jīng)元的結(jié)構(gòu)來建模圖像之間的非線性關(guān)系，從而實(shí)現(xiàn)同構(gòu)數(shù)據(jù)融合。線性優(yōu)化主要是通過添加線性約束來實(shí)現(xiàn)同模態(tài)融合，從而獲得最優(yōu)解的重建圖像。基于深度學(xué)習(xí)的算法通過模擬生物神經(jīng)元的結(jié)構(gòu)來建模圖像之間的非線性關(guān)系，從而實(shí)現(xiàn)同構(gòu)數(shù)據(jù)融合。

Panchromatic sharpening 常用的全色銳化方法可分為兩大類:成分替換和多解析度分析。成分替換模型將圖像投影到新變換的空間中，用高空間分辨率的圖像替換包含空間信息的成分，并將將其反變換到原空間，得到空間增強(qiáng)的數(shù)據(jù)。多解析度分析模型將原始數(shù)據(jù)分解成不同分辨率的圖像進(jìn)行融合，最后進(jìn)行反變換得到融合后的圖像。

成分替換法(CS)的先驅(qū)是IHS變換[116-119]和主成分分析(PCA)[120-123]。IHS變換被廣泛用于融合圖像，因?yàn)樗軌蚍蛛x出RGB圖像中的H和S分量中的光譜信息，同時分離出I分量中的大部分空間信息。PCA主要是通過線性變換將數(shù)據(jù)投影到新變換的空間中，第一主成分沿方差最大的方向變換，保留了原始數(shù)據(jù)的大部分信息，因此第一主成分進(jìn)行替換。這些方法的另一種替代方法是Gram Schmidt方法(GS) [124-126]。該方法的本質(zhì)是Gram-Schmidt正交法，它將酉空間中的一組線性無關(guān)向量變換為一組正交向量。此外，還有Brovey變換(BT)[127, 128]，張量因子分解[129,130]等。

由于CS方法能夠以較低的計(jì)算成本有效地提高空間分辨率，目前仍是研究的重點(diǎn)。基于GS自適應(yīng)(GSA)、廣義IHS (GIHS)[131]、GIHS自適應(yīng)的方法(GIHSA)[124]和基于比值圖像的光譜重采樣(RIBSR)[132]已經(jīng)被廣泛研究，減弱了多光譜融合過程中的光譜失真問題。

多解析度分析(MRA)將多模態(tài)數(shù)據(jù)分解成多個分量，當(dāng)這些分量被重新組合在一起時，就會生成更高分辨率的圖像。對圖像進(jìn)行分解和融合以獲得更高分辨率的圖像是MRA的核心。每個組成部分理想地將圖像分解為物理上有意義和可解釋的部分。

常用的MRA方法包括高通濾波法(HPF)[120,133]、小波變換[84,85,134]、拉普拉斯金字塔法[86,135]和曲波變換法[136-138]。MRA方法比CS方法能更好地保持光譜信息。但是，如果多模態(tài)數(shù)據(jù)沒有嚴(yán)格對齊，在這種情況下，在高頻譜細(xì)節(jié)注入（high-pass detail injection）存在的情況下，融合產(chǎn)品可能會發(fā)生空間失真，這通常是由振鈴或混疊效應(yīng)、原始偏移、輪廓和紋理模糊引起的[124]。

Linear optimization 線性優(yōu)化模型將數(shù)據(jù)融合問題歸結(jié)為其線性最優(yōu)解，假設(shè)多源數(shù)據(jù)之間的關(guān)系為 $X1,X2,?,XNX_1,X_2,\cdots,X_N$ 與融合數(shù)據(jù) $Z$ 呈線性關(guān)系，可表示為
$Z=W1X1+?+WNXN+bZ=W_1X_1+\cdots+W_NX_N+b$
其中 $W_n$ 是轉(zhuǎn)換因子， $b$ 是偏差。

根據(jù)求解的原理，可分為光譜分解法、貝葉斯概率法和稀疏分解法（spectral demixing, Bayesian probabilistic, and sparse demixing methods）。光譜分解將混合像素分解為一系列的組成光譜(端元，end-members)和一組對應(yīng)的分量(豐度，abundances)，并進(jìn)行線性求和和重構(gòu)。貝葉斯概率理論將待融合的數(shù)據(jù)視為觀測值，將融合的數(shù)據(jù)視為未觀察到的真值。它通過計(jì)算真實(shí)值在給定觀測值的情況下出現(xiàn)的概率來求解融合過程中的參數(shù)值。貝葉斯概率理論將待融合的數(shù)據(jù)視為觀測值，將融合的數(shù)據(jù)視為未觀察到的真值。該算法通過在觀測值下計(jì)算真實(shí)值出現(xiàn)的概率并使概率最大化來求解融合過程中的參數(shù)值。稀疏分解方法將多模態(tài)數(shù)據(jù)分解為字典矩陣（dictionary matrix）和稀疏系數(shù)矩陣，并添加稀疏約束對稀疏系數(shù)進(jìn)行求解，得到融合后的數(shù)據(jù)。

Deep learning-based 基于深度學(xué)習(xí)的算法專注于構(gòu)建同一區(qū)域內(nèi)不同圖像之間的非線性關(guān)系。最常見的方法是基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)，它通過放棄全局連通性來解決權(quán)重?cái)?shù)量極其龐大的問題[139-141]。有兩個代表性的工作，Scarpa等人[142]設(shè)計(jì)了輕量級CNN和目標(biāo)自適應(yīng)使用方式，以確保在數(shù)據(jù)源不匹配的情況下也能獲得良好的性能。在[115]中，作者提出了一種3D-CNN來融合MS和HS圖像，以獲得高分辨率的高光譜圖像。

4.1.2 Spatio-temporal reference

基于時空的方法與基于空間的方法在空間關(guān)系構(gòu)建中的方法本質(zhì)上是相同的。因此，我們將研究重點(diǎn)放在時間關(guān)系的建構(gòu)上。

早期的工作集中在線性優(yōu)化模型。時空自適應(yīng)反射率融合模型(STARFM)是Gao等人[143]提出的一種預(yù)測時空融合的有效方法。基于STARFM，一系列時空參考算法陸續(xù)被提出，如ESTARFM [144]，STRUM[145]，USTARFM[146]等。Xue等人[147]提出了一種組合時間序列中的時間相關(guān)信息的貝葉斯統(tǒng)計(jì)算法，他們將融合問題視為具有最大后驗(yàn)(MAP)估計(jì)量的估計(jì)問題來獲取融合圖像。在基于深度學(xué)習(xí)的算法中，主要是尋找空間中的非線性關(guān)系，構(gòu)建時間關(guān)系相對較少。

4.2 Heterogeneous Data Fusion

異構(gòu)遙感數(shù)據(jù)融合是指來自不同成像方式的傳感器之間的融合，如光學(xué)-雷達(dá)、SAR-多光譜、SAR-高光譜數(shù)據(jù)融合等。由于不同傳感器之間的成像機(jī)制差異過大，異構(gòu)數(shù)據(jù)融合更適合于特征級、決策級的融合，如特征分類、變化檢測、參數(shù)反演等。

根據(jù)優(yōu)化方法的不同，我們將其分為基于特征堆疊的方法、基于子空間的方法和基于深度學(xué)習(xí)的方法。在基于特征堆疊的方法中，我們將輔助傳感器提取的信息疊加到圖像的每個像素上，得到包含所有模態(tài)信息的特征向量。基于子空間的方法將所有信息投射到一個低維子空間中，然后進(jìn)行特征融合。基于深度學(xué)習(xí)的方法學(xué)習(xí)系統(tǒng)輸入和輸出之間的非線性關(guān)系。這些方法能夠較好地刻畫不同分辨率圖像之間的非線性關(guān)系，具有很強(qiáng)的可移植性。

Feature stacking-based 基于特征堆疊的方法是異構(gòu)融合最簡潔的實(shí)現(xiàn)。該策略在相同的結(jié)構(gòu)中過濾和堆疊各種源數(shù)據(jù)。例如，將從LiDAR數(shù)據(jù)中提取的高度和強(qiáng)度特征疊加到多/高光譜圖像的光譜波段中，并對復(fù)雜場景中的每個像素形成擴(kuò)展的特征向量[148]。

形態(tài)學(xué)輪廓、屬性輪廓和消光輪廓被廣泛應(yīng)用于特征提取和過濾，以充分利用異構(gòu)數(shù)據(jù)中有辨識度的特征信息。這些方法[149-151]概念簡單，計(jì)算效率高，通常用于異構(gòu)數(shù)據(jù)融合，并提供高質(zhì)量的融合結(jié)果。

雖然基于特征疊加的方法可以獲得更好的融合結(jié)果，但從異構(gòu)數(shù)據(jù)中提取的光譜、空間和海拔特征的直接疊加增加了樣本的特征維數(shù)，從而給后續(xù)的分類任務(wù)帶來了兩個主要挑戰(zhàn):維數(shù)災(zāi)難和高計(jì)算復(fù)雜度。

Subspace-based 基于子空間的方法避免了后續(xù)分類任務(wù)的維數(shù)災(zāi)難，提高了計(jì)算效率。它們將異構(gòu)數(shù)據(jù)中的特征表示為低維子空間中的特征，以減輕后續(xù)任務(wù)的壓力。在原始的子空間模型中，子空間的基準(zhǔn)和融合特征都是未知的，如何估計(jì)它們是子空間模型的核心問題。

許多基于子空間的方法的早期工作使用了經(jīng)典的IHS變換[152]或PCA方法[153,154]。這些方法可以有效降低特征維數(shù)，提高信噪比，減少計(jì)算量，提高異構(gòu)數(shù)據(jù)融合問題的分類精度。

Deep learning-based 遙感場景通常具有復(fù)雜的類別分布，導(dǎo)致遙感數(shù)據(jù)與目標(biāo)樣本之間存在非線性關(guān)系。多傳感器數(shù)據(jù)融合增強(qiáng)了這種非線性關(guān)系，使樣本在特征空間中表現(xiàn)出高階非線性。基于深度學(xué)習(xí)的方法可以很好地?cái)M合異構(gòu)數(shù)據(jù)之間的非線性關(guān)系，并具有從數(shù)據(jù)中提取高階、多維、抽象特征的能力。深度學(xué)習(xí)提取的特征一般不受樣本的非線性分布的影響，對復(fù)雜場景具有魯棒性。

基于深度學(xué)習(xí)的方法[87-89]可以獲得更好的融合結(jié)果和分類精度。但由于通常需要大量的標(biāo)記樣本進(jìn)行訓(xùn)練，且遙感場景的標(biāo)記樣本通常難以獲取，這在一定程度上限制了深度學(xué)習(xí)方法在異構(gòu)數(shù)據(jù)融合中的應(yīng)用。

4.3 Remote Sensing And Other Type Data Fusion

遙感數(shù)據(jù)還可以與其他類型的數(shù)據(jù)融合，進(jìn)行處理和協(xié)同應(yīng)用，從而獲得更多關(guān)于資源環(huán)境特征的數(shù)據(jù)。將遙感數(shù)據(jù)與全景采集數(shù)據(jù)、景觀圖像以及陸地、大氣、水文等數(shù)據(jù)進(jìn)行融合，為大規(guī)模復(fù)雜場景的數(shù)據(jù)感知提供了更精確的觀測。遙感數(shù)據(jù)可以為場景提供更精確的初始觀測和邊界條件，然后自動連續(xù)地將它們和其他數(shù)據(jù)進(jìn)行調(diào)整，從而將模擬誤差降低到高精度、空間連續(xù)的地表數(shù)據(jù)。這種融合方法是當(dāng)前發(fā)展的一個重要趨勢。

遙感和地面觀測是獲取對地觀測數(shù)據(jù)的兩種重要途徑。遙感可以提供大尺度的區(qū)域觀測，但由于其成像過程復(fù)雜，易受環(huán)境干擾，觀測精度往往難以保證。地面觀測質(zhì)量高，但觀測點(diǎn)稀疏，難以獲得全面的觀測。因此，遙感與地面觀測數(shù)據(jù)的融合引起了眾多研究者的關(guān)注[90-93]。同時，遙感數(shù)據(jù)與大氣數(shù)據(jù)、流體動力數(shù)據(jù)的融合可以進(jìn)一步降低模擬誤差，可用于水文氣象[155,156]、植被[157,158]和大氣信息[159,160]的協(xié)同分析。

4.4 Remaining problems

在多模態(tài)融合中，同構(gòu)數(shù)據(jù)融合技術(shù)已經(jīng)非常成熟，在生活中有著廣泛的應(yīng)用。我們在互聯(lián)網(wǎng)上獲得的光學(xué)圖像是同構(gòu)融合數(shù)據(jù)。而在異構(gòu)融合和其他類型的數(shù)據(jù)融合中，由于模型對不同傳感器和場景的適應(yīng)性較差，盡管融合后的圖像在空間維度和可視化方面比單模態(tài)遙感圖像有很大的提高，但是在應(yīng)用中仍然需要根據(jù)場景環(huán)境進(jìn)行測試和選擇不同的模型。為此，我們重點(diǎn)研究了異構(gòu)數(shù)據(jù)融合和其他類型數(shù)據(jù)融合中存在的問題，希望能給研究者帶來一些啟示，具體如下:

1)數(shù)據(jù)來源不同。不同傳感器所攜帶的模態(tài)信息存在較大的類間差異。融合過程需要進(jìn)行信息之間地理空間上的對齊和標(biāo)準(zhǔn)化處理，去除多模態(tài)數(shù)據(jù)的冗余性，即在保留有效信息的同時去除冗余信息。

2)觀察角度不同。不同模態(tài)數(shù)據(jù)的觀察角度是不同的。衛(wèi)星對同一區(qū)域有不同的視角，即使進(jìn)行了正交校正，兩幅圖像也不可能完全相同。此外，其他類型的數(shù)據(jù)，如地面數(shù)據(jù)，由于地面觀測平臺的原因，在與遙感圖像融合時，數(shù)據(jù)特征很難對齊。

3)不同分辨率。多模態(tài)融合需要解決不同分辨率的問題，特別是在異構(gòu)數(shù)據(jù)的融合中，由于數(shù)據(jù)類型的巨大差異導(dǎo)致了這一問題更加突出。分辨率的尺度影響模型的性能，當(dāng)分辨率過高時，模型更傾向于觀察小目標(biāo)(汽車、樹木、小屋)，而當(dāng)分辨率較低時，模型更適合觀察大目標(biāo)(體育場、道路、高層建筑)。

4)**未知觀測場景。**遙感場景是不可預(yù)測的，現(xiàn)有模型往往只適用于單一場景，如城市、森林、沙漠、海洋等。由于觀測場景往往存在未知情況，因此提高模型的魯棒性以應(yīng)用于未知的觀測場景是未來的發(fā)展方向之一。

5 Multimodal Representation

使用機(jī)器學(xué)習(xí)方法將原始數(shù)據(jù)轉(zhuǎn)換為計(jì)算機(jī)可以識別和處理的數(shù)學(xué)表示，進(jìn)一步提取有用信息，以便用于分類或其他預(yù)測任務(wù)，這是表示研究的一個主要領(lǐng)域。在遙感多模態(tài)表示中，多模態(tài)數(shù)據(jù)從不同角度描述了復(fù)雜的場景，上下文信息是互補(bǔ)的或補(bǔ)充的。因此，它們比單模態(tài)數(shù)據(jù)攜帶了更多優(yōu)秀的信息，所以利用來自異構(gòu)源的多個模態(tài)提供的綜合語義是有價值的。

機(jī)器學(xué)習(xí)方法的性能在很大程度上取決于應(yīng)用數(shù)據(jù)表示特征的有效表示[161]。對于視覺[7,162 - 164]、文本[165-167]、語音[168,169]和圖形[170-172]形式，單模態(tài)特征的表示相對先進(jìn)，在現(xiàn)實(shí)應(yīng)用中得到廣泛應(yīng)用。然而，在多模態(tài)特征表示中，特別是在遙感場景的多模態(tài)特征表示學(xué)習(xí)中還存在許多難點(diǎn):1)如何抑制來自不同傳感器的不可控噪聲，2)如何組合來自異構(gòu)數(shù)據(jù)源的小樣本數(shù)據(jù)，3)如何處理不同數(shù)據(jù)源之間的成像透視圖，4)如何解決某些模態(tài)下的缺失數(shù)據(jù)。

受[9]和[173]中定義的啟發(fā)，為了便于討論如何清晰有效地表示來自不同模態(tài)的數(shù)據(jù)，我們將遙感多模態(tài)表示分為三個框架:1)聯(lián)合表示，2)協(xié)調(diào)表示，3)編碼器-解碼器表示。三種體系結(jié)構(gòu)的概述如圖5所示。

最常見的遙感圖像表示學(xué)習(xí)是基于CNN的。這項(xiàng)工作傾向于通過使用Deep CNN模型來遷移學(xué)習(xí)，即利用在自然場景(如LeNet[174])上進(jìn)行了預(yù)先訓(xùn)練的模型，例如VGGNet [7]， GoogleNet[175]和ResNet[6]，從而獲得比從零開始訓(xùn)練更好的性能。隨著transformer[176]的興起，它越來越多地被用于圖像表示學(xué)習(xí)[163,177,178]中，這是遙感圖像解譯的一個新的研究熱點(diǎn)[179-181]。它們可以集成到多模態(tài)表示學(xué)習(xí)中，并與其他模態(tài)數(shù)據(jù)一起進(jìn)行訓(xùn)練(例如，文本數(shù)據(jù)的word2vec[165]、Glove[166]和BERT[167]以及wav2vec[168]、PASE[182]和Mockingjay[183])。通過使用來自其他模態(tài)的表征學(xué)習(xí)模型進(jìn)行訓(xùn)練，可以大大提高多模態(tài)表征學(xué)習(xí)的性能。

5.1 Joint Representation

聯(lián)合表示旨在將各種單模態(tài)特征投射到一個共享的語義子空間中，以減少模態(tài)之間的異質(zhì)性，挖掘特征之間的互補(bǔ)性，從而學(xué)習(xí)更好的特征表示。

相關(guān)的算法將來自不同傳感器的圖像以及其他模態(tài)信息表示為特征向量(張量)，縮小異質(zhì)性差距，獲得互補(bǔ)的特征表示。Manish Sharma等[184]和Yang等[185]通過學(xué)習(xí)紅外傳感器的特性，擴(kuò)展RGB圖像的表征能力，提高了遙感和無人機(jī)圖像在各種天氣條件下的目標(biāo)檢測精度。Flynn等[186]和Oliveira等[187]通過光學(xué)圖像與紅外或熱成像圖像的聯(lián)合表示，使用航空視頻進(jìn)行人員檢測和隨時間的跟蹤檢測，獲得了較高的檢測精度。Breckon等人[188]引入了一種實(shí)時多模態(tài)目標(biāo)檢測算法，該算法結(jié)合了來自多個自主平臺(地面和空中)部署網(wǎng)絡(luò)的可見光波段、熱波段和雷達(dá)圖像，自動檢測人和車輛。

除了目標(biāo)檢測任務(wù)外，多模態(tài)聯(lián)合表示在其他遙感影像解譯任務(wù)中也有廣泛的研究應(yīng)用。對于遙感分類任務(wù)，Audebert等人[189,190]研究了激光雷達(dá)和多光譜數(shù)據(jù)的早期和晚期聯(lián)合表示，發(fā)現(xiàn)早期融合允許更好的聯(lián)合特征學(xué)習(xí)，但代價是對缺失源的靈敏度更高，而晚期融合使得從模糊源恢復(fù)錯誤成為可能。Li等人[191]提出了一種多模態(tài)雙線性融合網(wǎng)絡(luò)來提取光學(xué)和SAR圖像的深度語義特征圖，并對聯(lián)合表示進(jìn)行雙線性集成。Poliyapram等[2]提出了一種基于深度學(xué)習(xí)的端到端點(diǎn)式激光雷達(dá)和光學(xué)圖像多模態(tài)融合網(wǎng)絡(luò)，通過整合航空圖像特征對航空點(diǎn)云進(jìn)行三維分割。Jeong等人[192]提出了一種基于多模態(tài)傳感器的語義三維映射系統(tǒng)，該系統(tǒng)使用三維激光雷達(dá)與光學(xué)相機(jī)相結(jié)合的數(shù)據(jù)。

多分辨率同構(gòu)數(shù)據(jù)的聯(lián)合特征學(xué)習(xí)也是聯(lián)合表示的一個重要研究方向。在不同分辨率的圖像中，同一物體具有不同的尺度和感知場，并且由于不同傳感器的成像方法不同，同一物體內(nèi)存在色差，這對模型的適應(yīng)性和魯棒性提出了更大的挑戰(zhàn)。多分辨率聯(lián)合學(xué)習(xí)在作物分類[193,194]、目標(biāo)識別[195,196]、土地覆蓋分類等任務(wù)中具有廣泛的應(yīng)用和研究價值。

5.2 Coordinated Representation

另一種多模態(tài)表示是協(xié)調(diào)表示。在協(xié)調(diào)表示框架中，每個模態(tài)單獨(dú)學(xué)習(xí)其單獨(dú)的表示，然后通過統(tǒng)一的約束來協(xié)調(diào)它們。這類算法更強(qiáng)調(diào)不同模態(tài)元素的相似性和互補(bǔ)性。它試圖在協(xié)調(diào)子空間中學(xué)習(xí)每個模態(tài)的獨(dú)立但有約束的表示。

根據(jù)協(xié)調(diào)表示的目的，我們將這些方法分為兩類:互補(bǔ)方法和相似方法。互補(bǔ)方法主要關(guān)注模態(tài)之間的差異和互補(bǔ)信息，通過比較差異信息來補(bǔ)充和增強(qiáng)復(fù)雜場景信息的表示。相似度法更關(guān)注不同模態(tài)之間的相似度，期望同一語義相關(guān)模態(tài)之間的距離盡可能小，不同語義之間的距離盡可能大。

Complementary methods 互補(bǔ)方法使得協(xié)調(diào)空間能夠發(fā)現(xiàn)多模態(tài)變異性，以補(bǔ)充融合表示。例如，提取多光譜圖像和Lidar特征，在更高維度上拼接和相互作用，獲得互補(bǔ)的融合特征，用于土地覆蓋分類[88]。在[1]中，作者將來自谷歌地圖的俯視圖和來自谷歌街景的每個城市對象的地面圖像(側(cè)視圖)結(jié)合起來，以獲得與城市對象相關(guān)的互補(bǔ)視覺信息，以增強(qiáng)對城市土地利用的理解。

Similarity methods 除了學(xué)習(xí)互補(bǔ)性外，利用相似度方法協(xié)調(diào)學(xué)習(xí)子空間中各模態(tài)相同元素的相似度也是協(xié)調(diào)表示的一個重要分支。Ye等人[41,200]通過基于SAR圖像與激光雷達(dá)數(shù)據(jù)的全局和局部特征的特征表示進(jìn)行相似性度量來進(jìn)行圖像配準(zhǔn)。在[201]中，Uss等人訓(xùn)練了一個雙通道的patch matching CNN檢測圖像塊之間的相似性，并測量它們的相互位移。通過對真實(shí)遙感圖像的測試，該模型具有較高的識別力和較高的定位精度。Zhu等[202]的一種基于深度學(xué)習(xí)的匹配方法是通過光學(xué)和紅外圖像的比較，在目標(biāo)圖像的搜索窗口中搜索和參考圖像中給定點(diǎn)對應(yīng)的點(diǎn)。

5.3 Encoder-decoder Representation

編碼器-解碼器表示利用了translation的概念。它首先通過編碼器-解碼器體系結(jié)構(gòu)將信息從一個模態(tài)轉(zhuǎn)換為另一個模態(tài)的特征表示，然后將它們投影到相同的向量子空間，以保持語義的一致性。例如，給定一幅光學(xué)圖像，我們的目標(biāo)是生成相應(yīng)的SAR特征，或者給定SAR圖像生成相應(yīng)的光學(xué)特征。

該方法主要用于某模態(tài)的數(shù)據(jù)比較復(fù)雜、有噪聲、數(shù)據(jù)量小或缺失的情況。大多數(shù)多光譜圖像都受到云的影響，利用SAR圖像生成相應(yīng)的光學(xué)特征來恢復(fù)受影響區(qū)域是當(dāng)前多模態(tài)表示學(xué)習(xí)中的一個熱點(diǎn)[203-205]。在/cite gao2020cloud中，為了重建損壞區(qū)域，必須建立生成對抗網(wǎng)絡(luò)將SAR圖像與模擬光學(xué)圖像相結(jié)合。Dai等[206]研究了多時相圖像，實(shí)現(xiàn)了自訓(xùn)練和門控卷積層，以區(qū)分渾濁像素和干凈像素，彌補(bǔ)了普通卷積層區(qū)分能力的不足。

除了消除干擾外，編碼器-解碼器表示還可以應(yīng)用于土地覆蓋分類、模態(tài)變換、目標(biāo)檢測等。在[207]中，Hong等人進(jìn)一步改進(jìn)了土地覆蓋分類的性能，分別使用self-GANs模塊和mutual GANs模塊學(xué)習(xí)對擾動不敏感的特征表示，并消除多模態(tài)之間的差距，以產(chǎn)生更有效和更健壯的信息傳遞。Liu[208]提出了一種模態(tài)轉(zhuǎn)換模型，將稀疏模態(tài)的信息轉(zhuǎn)化為豐富模態(tài)的特征空間，為多時相圖像解譯任務(wù)提供了堅(jiān)實(shí)的基礎(chǔ)。

5.4 Discussion

多模態(tài)表示學(xué)習(xí)是一個廣泛研究的課題，為其他應(yīng)用提供了統(tǒng)一的特征表示空間，如模態(tài)對齊、模態(tài)轉(zhuǎn)換等。

在本節(jié)中，我們將其分為聯(lián)合表示、協(xié)調(diào)表示和編碼器-解碼器表示。從結(jié)構(gòu)圖(圖7)可以看出，聯(lián)合表示更適合于不同模態(tài)數(shù)據(jù)均衡，推理過程中需要模態(tài)交互共同預(yù)測的情況。在協(xié)調(diào)表示中，各模態(tài)相互獨(dú)立但又相互協(xié)調(diào)，更傾向于評估過程中缺少數(shù)據(jù)或單模態(tài)輸入的情況。編碼器-解碼器表示更關(guān)注具有不平衡樣本或需要額外模態(tài)輔助學(xué)習(xí)的任務(wù)。

6. Cross-modal Translation

在MRSII中，將信息從一種模態(tài)轉(zhuǎn)換為另一種模態(tài)是一個極好的挑戰(zhàn)。由于遙感場景的復(fù)雜性和傳感器的多變性，遙感跨模態(tài)翻譯比自然場景的類內(nèi)(不同圖像模態(tài)之間)和類間(圖像與其他模態(tài)之間)翻譯更具挑戰(zhàn)性。遙感跨模態(tài)翻譯是遙感領(lǐng)域的一個新興課題。隨著深度學(xué)習(xí)算法和計(jì)算機(jī)硬件的發(fā)展，在場景圖像翻譯[209-212]、遙感圖像描述[213-215]等方面都取得了進(jìn)展。

跨模態(tài)翻譯是遙感研究中一個新興的課題，由于其廣泛的應(yīng)用，已經(jīng)有大量的算法應(yīng)用于跨模態(tài)翻譯。同時，根據(jù)模態(tài)的類內(nèi)和類間關(guān)系，我們將跨模態(tài)翻譯分為跨傳感器翻譯和跨元素翻譯兩個分支，如圖9所示。跨傳感器翻譯主要是指圖像在不同傳感器之間的翻譯，如全色和多光譜。跨元素翻譯是指圖像與其他類型模態(tài)之間的翻譯。

6.1 Cross-sensor translation

近年來，遙感數(shù)據(jù)在地球觀測和城市規(guī)劃中發(fā)揮了越來越重要的作用。在獲得了大量數(shù)據(jù)的情況下，由于以下三個原因，跨傳感器翻譯仍然存在很大的挑戰(zhàn)：

1)很大一部分?jǐn)?shù)據(jù)受到云、霧等大氣因素的干擾，這些不可控因素大大降低了遙感圖像的利用率，增加了處理和訓(xùn)練的難度。例如，在Landsat ETM+數(shù)據(jù)[216]中，約35%的陸地區(qū)域被云覆蓋，而海洋區(qū)域的情況更糟。

2)由于傳感器成像和（衛(wèi)星）revisit time的關(guān)系，一些模態(tài)圖像的數(shù)據(jù)量相對較小。它嚴(yán)重限制了基于深度學(xué)習(xí)的算法在這一研究領(lǐng)域的應(yīng)用。

3)由于傳感器載體軌跡的影響，在某些區(qū)域或場景，特別是特定時間階段(季節(jié))，可能會出現(xiàn)遙感數(shù)據(jù)缺失的情況。因此，在遙感中，對特定時期的特定地點(diǎn)進(jìn)行成像仍然存在困難。

早期的工作關(guān)注的是超分辨率重建(SRR)，即從低分辨率(LR)圖像中獲取超分辨率(SR)圖像。目前流行的SRR方法主要是基于傳統(tǒng)算法和基于學(xué)習(xí)的算法。我們將標(biāo)準(zhǔn)算法分為基于插值和基于稀疏的表示方法。雖然基于插值的方法，如雙線性或雙三次往往生成過于平滑的圖像，帶有較為明顯的人工痕跡，但由于其實(shí)現(xiàn)簡單，仍然被廣泛使用。[217-219]通過引入一系列具有先驗(yàn)知識的優(yōu)化策略，提高了模型的性能。基于稀疏的方法增強(qiáng)了線性模型從先驗(yàn)知識中恢復(fù)高頻信息的能力，如小波變換[220]、耦合稀疏自編碼器[221]和外部字典[222]，但這些方法計(jì)算復(fù)雜，需要大量的計(jì)算資源。基于學(xué)習(xí)的模型試圖捕捉圖像塊之間的共現(xiàn)先驗(yàn)（co-occurrence prior）。深度學(xué)習(xí)是一種基于學(xué)習(xí)的基本方法。它通過構(gòu)建端到端神經(jīng)網(wǎng)絡(luò)，如CNN[223-225]、GAN[226-228]、注意力網(wǎng)絡(luò)[229-231]等，學(xué)習(xí)并擬合LR和HR圖像之間的映射關(guān)系。由于它的非線性特性，可以在不需要大量計(jì)算資源的情況下恢復(fù)高頻信息。因此，基于深度學(xué)習(xí)的SRR成為研究熱點(diǎn)。

遙感圖像在采集過程中受到各種噪聲的影響，使得邊緣細(xì)節(jié)模糊，降低了圖像質(zhì)量。因此，需要去噪以獲得清晰、高質(zhì)量的圖像。基于多模態(tài)信息的遙感圖像去噪方法是一個新的熱門課題，它將不同模態(tài)的無噪聲參考圖像作為先驗(yàn)知識納入去噪目標(biāo)函數(shù)[232,233]。此外，研究人員還對自然氣候圖像的去噪進(jìn)行了一系列的研究。在這方面，云的去除已經(jīng)變得越來越復(fù)雜。云的存在是造成光學(xué)圖像信息缺失的主要因素之一，如何通過其他模態(tài)圖像生成缺失的信息是一個值得關(guān)注的問題。Huang等人[203]提出了一種基于稀疏表示的刪除方法來恢復(fù)缺失的高分辨率信息。隨著GAN網(wǎng)絡(luò)的發(fā)展，越來越多的研究人員采用GAN進(jìn)行云霧去除，并取得了顯著的改進(jìn)，重建圖像更加自然和真實(shí)[204,205,211]。

很自然，跨傳感器翻譯在解決數(shù)據(jù)稀缺問題時有著廣泛的應(yīng)用。該領(lǐng)域主要有兩個方向:跨傳感器和跨區(qū)域。跨傳感器意味著生成不容易通過資源豐富的數(shù)據(jù)源訪問的數(shù)據(jù)。[234-236]將SAR轉(zhuǎn)換為光學(xué)，用于全天候觀測，同時簡化SAR圖像的觀測條件。跨區(qū)域是指從區(qū)域的一種風(fēng)格生成到區(qū)域的另一種風(fēng)格，以達(dá)到數(shù)據(jù)增強(qiáng)的目的。Ji等人[237]提出了一種基于域適應(yīng)的GAN的方法進(jìn)行土地覆蓋分類。Peng等人[238]設(shè)計(jì)了一種用于建筑物提取的新型FDANet。

6.2 Cross-element Translation

將遙感圖像翻譯成其他模態(tài)信息，或利用其他模態(tài)信息對遙感圖像的語義信息進(jìn)行配圖并總結(jié)圖像內(nèi)容，在跨模態(tài)檢索[31,72,74]、智能生成[213,239,240]和場景問答等許多領(lǐng)域發(fā)揮著重要作用[241 - 243]。跨元素翻譯需要模型充分理解復(fù)雜的場景，識別出場景的關(guān)鍵組成部分，通過對高層次語義信息的理解和分析，生成標(biāo)準(zhǔn)化、簡潔、全面的模態(tài)信息來表示場景。

隨著計(jì)算資源的豐富和數(shù)據(jù)量的增加，越來越多的研究人員開始將目光投向遙感圖像描述。在[244-246]中，作者設(shè)計(jì)了一系列基于注意機(jī)制的圖像描述方法。Huang等人[247]從多尺度特征融合的角度考慮了大尺度場景導(dǎo)致特征缺失或遺漏的問題。Wang等人提出了一種新的詞句框架[248]，從圖像中提取有價值的詞，生成格式正確的句子。

6.3 The challenges and differences from nature scenes

多模態(tài)翻譯的挑戰(zhàn)主要體現(xiàn)在兩個方面:遙感數(shù)據(jù)的復(fù)雜性和評價指標(biāo)。

遙感圖像往往具有大尺度、高密度和大縱橫比的特點(diǎn)。在跨模態(tài)翻譯過程中，經(jīng)常會出現(xiàn)信息丟失的問題。因此，它包含的信息比自然場景圖像多幾倍甚至幾十倍。特別是在跨元素翻譯中，模型很難保證場景中的所有信息都被描述出來。此外，該問題面臨的主要挑戰(zhàn)是如何對圖像中的關(guān)鍵信息進(jìn)行過濾和確定，并對其進(jìn)行精確提取，同時對其進(jìn)行清晰詳細(xì)的描述。

另一個挑戰(zhàn)是對模型性能的評估。由于模態(tài)翻譯是一個生成問題，很難通過評價指標(biāo)自動評價模型的生成質(zhì)量，甚至利用人工判斷也會造成一定程度的主觀性。同時，與自然場景不同的是，進(jìn)行跨傳感器的翻譯，例如從光學(xué)圖像到SAR圖像或Lidar數(shù)據(jù)的翻譯，需要專業(yè)人員進(jìn)行評估，這進(jìn)一步增加了評估的難度。

7. Co-learning

利用資源豐富的數(shù)據(jù)輔助資源貧乏的數(shù)據(jù)進(jìn)行訓(xùn)練是解決小樣本學(xué)習(xí)的有效方法。在多模態(tài)機(jī)器學(xué)習(xí)中，幫助一個模態(tài)從一個資源豐富的模態(tài)過渡到另一個模態(tài)，特別是當(dāng)另一個模態(tài)的信息有限或缺乏標(biāo)記數(shù)據(jù)、輸入有噪聲、具有不可靠的標(biāo)記[9]時。

在本節(jié)中，我們關(guān)注MRSII中的聯(lián)合學(xué)習(xí)，包括遷移學(xué)習(xí)、聯(lián)合訓(xùn)練和小樣本學(xué)習(xí)，即使用其他傳感器或模態(tài)來輔助一種模態(tài)進(jìn)行有效學(xué)習(xí)。通過使用聯(lián)合學(xué)習(xí)從不同的模態(tài)信息中學(xué)習(xí)特征，我們可以獲得一個更健壯的模型，作為樣本缺乏或樣本帶有噪聲問題的有效解決方案。

Transfer learning 遷移學(xué)習(xí)是遙感影像解譯中最常用的工具之一。通過使用在大規(guī)模自然場景中訓(xùn)練的預(yù)訓(xùn)練模型作為解譯模型的骨干，可以提高模型的收斂速度和性能。跨傳感器遷移學(xué)習(xí)也得到了廣泛的研究和應(yīng)用。2010年，Yao等人[249]引入了MultiSource-TrAdaBoost和TaskTrAdaBoost，用于從多個來源轉(zhuǎn)移知識。Liu等人[250]提出了一種新的域適應(yīng)方法用于多模態(tài)數(shù)據(jù)的無監(jiān)督遷移學(xué)習(xí)——多核聯(lián)合域匹配。

Co-training and few-shot learning 聯(lián)合訓(xùn)練和小樣本學(xué)習(xí)也是聯(lián)合學(xué)習(xí)的主要研究領(lǐng)域。在[252]中，Hu等人設(shè)計(jì)了一種聯(lián)合訓(xùn)練分類方法來處理不明確的觀察樣本。Qiu等人[253]結(jié)合Sentinel-2和Landsat-8圖像，以及Global Urban Footprint、OSM和Nighttime Light數(shù)據(jù)，研究了它們的相關(guān)關(guān)系以區(qū)分不同LCZ分類。對于小樣本學(xué)習(xí)，Rostami等[3,254]將知識從Electro-Optical domains轉(zhuǎn)移到SAR域，以消除對于大量標(biāo)記SAR圖像的需求。Ying等人[255]提出了一種有效的輕量級CNN，可以有效地將先驗(yàn)知識從光學(xué)、混合光學(xué)和非光學(xué)領(lǐng)域遷移到SAR圖像的目標(biāo)識別任務(wù)中。

在MRSII中，聯(lián)合學(xué)習(xí)面向目標(biāo)數(shù)據(jù)較少或缺失的情況，主要體現(xiàn)在數(shù)據(jù)源缺失和區(qū)域缺失兩個方面。利用豐富的源數(shù)據(jù)與目標(biāo)數(shù)據(jù)進(jìn)行輔助或共同學(xué)習(xí)，可以大幅提高模型的性能，是遙感領(lǐng)域的研究熱點(diǎn)。

8. Datasets of MRSII

在本節(jié)中，我們將討論MRSII的相關(guān)數(shù)據(jù)集。我們根據(jù)數(shù)據(jù)的維度將不同的數(shù)據(jù)集分為空間、時間和跨元素(表4中總結(jié)了一些代表性的數(shù)據(jù)集)。

Spatial Dataset 空間數(shù)據(jù)集中的圖像是相互分離的，這些工作的算法更關(guān)注基本的計(jì)算機(jī)視覺任務(wù)，例如，分類[6,162,263]，目標(biāo)檢測[264-266]，分割[267-269]，和圖像檢索[270-272]。隨著復(fù)雜網(wǎng)絡(luò)和腦科學(xué)的發(fā)展，多模態(tài)數(shù)據(jù)集得到了持續(xù)的關(guān)注。研究人員利用多模式信息，例如，光學(xué)/激光雷達(dá)[190]，光學(xué)/SAR [256]，SAR/Lidar[257]，以解決更復(fù)雜的場景理解，這對機(jī)器來說是一個極具挑戰(zhàn)性的問題。然而，現(xiàn)有的多模態(tài)數(shù)據(jù)集沒有足夠多的注釋良好的數(shù)據(jù)來支持大多數(shù)基于深度學(xué)習(xí)的技術(shù)。當(dāng)數(shù)據(jù)量相對于模型參數(shù)數(shù)量過于稀缺時，容易出現(xiàn)過擬合問題。

Temporal Dataset 時間數(shù)據(jù)集更多關(guān)注同一區(qū)域的時間演化，現(xiàn)有的工作包含兩幅圖像的比較，關(guān)注特定的對象實(shí)例。例如，LEVV-CD[258]和HRSCD[259]是變化檢測的基本驅(qū)動。許多優(yōu)秀的模型都是基于這些數(shù)據(jù)集上實(shí)現(xiàn)，并在日常生活中得到了應(yīng)用。CRC[260]和SITSC[261]促進(jìn)了作物分類和覆蓋的發(fā)展。相應(yīng)的，Emelyanova等[273]，Zeebruges[274]和WUDAPT[275]促進(jìn)了數(shù)據(jù)融合的發(fā)展。這些數(shù)據(jù)集為時間分析開創(chuàng)了先例。

Cross-element Dataset 跨元素?cái)?shù)據(jù)集主要關(guān)注RS圖像與其他類型數(shù)據(jù)的交互和轉(zhuǎn)換，如圖像/音頻[30,72,244]、圖像/文本[26,214,239]和圖像/大氣數(shù)據(jù)[262,276]。RS圖像描述[214,239,277]、跨模態(tài)檢索[26,30,72,244]和大氣數(shù)據(jù)觀測[262,276]都依賴于這些數(shù)據(jù)集。由于RS圖像的規(guī)模大，包含的內(nèi)容太多，其他類型的數(shù)據(jù)往往很難描述和對齊整個場景的關(guān)鍵信息。因此，當(dāng)前跨元素?cái)?shù)據(jù)集的主要問題仍然是如何將不同元素之間的信息以一種有效、同構(gòu)的表示方式進(jìn)行合理、詳細(xì)的表示。

9 Applications

9.1 Land Use Classification

土地利用分類(圖10左上)是MRSII最早的應(yīng)用。不同的土地覆被在衛(wèi)星圖像中具有相似的光譜特征，單一模態(tài)分類不可避免地會導(dǎo)致一些鑒別誤差。通過多模態(tài)數(shù)據(jù)對其進(jìn)行分析，可以從三個方面增強(qiáng)它們:1)分辨率;2)光譜;3)時間。MRSII有效地提高了同區(qū)域的分辨率，減少了混合像元的數(shù)量;高光譜分辨率提高了光譜維度信息的保真度和準(zhǔn)確性;時間信息被不同時間序列中土地覆蓋類型的不同特征進(jìn)一步補(bǔ)充。

Chen等人[278]將Landsat-8數(shù)據(jù)與MODIS、HJ-1A和ASTER DEM數(shù)據(jù)融合，以提高土地覆蓋分類精度。一項(xiàng)研究應(yīng)用Sentinel-1、Sentinel-2和Landsat-8數(shù)據(jù)解決了由于云層覆蓋導(dǎo)致的空間不連續(xù)的問題[279]。在[280]中，作者進(jìn)一步研究了融合數(shù)據(jù)的不同級別(數(shù)據(jù)級、特征級和決策級)的效果比較。

9.2 Urban Planning

通過對多模態(tài)數(shù)據(jù)的分析，大大縮短了同一區(qū)域的觀測間隔。因此，數(shù)據(jù)的多模態(tài)提供了多角度觀察城市變化和發(fā)展的可能性，通過對歷史數(shù)據(jù)的觀察，可以有效地規(guī)劃和預(yù)測城市的發(fā)展(圖10右上)。

在[281]中，作者提出了一種基于兩幅異構(gòu)圖像提出了一種無監(jiān)督深度卷積耦合網(wǎng)絡(luò)用于變化檢測。最近的一項(xiàng)研究探索了使用卷積自編碼器和通用自編碼器來消除兩個異構(gòu)圖像(光學(xué)和SAR)中的大部分冗余，以獲得更一致的特征表示[282]。另一項(xiàng)研究設(shè)計(jì)了一個邊緣保存神經(jīng)網(wǎng)絡(luò)(edge-preservation neural network, EPUNet)，它用極少的人工干預(yù)就可以將現(xiàn)有的建筑數(shù)據(jù)庫自動更新到它們的最新狀態(tài)[54]。

9.3 Agriculture and Ecology

多模態(tài)衛(wèi)星圖像的監(jiān)測在農(nóng)業(yè)和生態(tài)兩個方向都具有重大的政治和經(jīng)濟(jì)意義(圖10底部)。許多作物往往在同一時刻外觀相似，需要通過衛(wèi)星是時間序列圖像進(jìn)行觀測，以提高分類精度。在生態(tài)學(xué)中，多模態(tài)圖像在生態(tài)變量估計(jì)、生態(tài)系統(tǒng)動態(tài)監(jiān)測和生態(tài)系統(tǒng)干擾檢測等方面也有很大的應(yīng)用潛力[283,284]。

Garnot等人[22,23]提出使用基于自注意力機(jī)制的定制神經(jīng)體系結(jié)構(gòu)提取時相特征，并為大規(guī)模農(nóng)業(yè)地塊分類設(shè)計(jì)了輕量級的時間自注意力。一項(xiàng)研究通過整合多時相和多光譜遙感數(shù)據(jù)，研究了一種用于大規(guī)模動態(tài)玉米和大豆制圖的DeepCropMapping方法[285]。He等人[286]結(jié)合細(xì)顆粒物(PM2.5)濃度、地表溫度(LST)和植被覆蓋(VC)的遙感數(shù)據(jù)，在國家的尺度、城市群之間和快速城市化地區(qū)評估了城市環(huán)境變化。Hilker等[287]和Tran等[288]使用STAARCH融合Landsat和MODIS反射率數(shù)據(jù)來繪制森林?jǐn)_動圖。

10 Future Directions

隨著數(shù)據(jù)源的增加，MRSII提供了高分辨率、高光譜和長時間觀測的可行性。同時，它也給遙感領(lǐng)域帶來了更多的任務(wù)和挑戰(zhàn)。下面，我們從不同的角度提出了一些潛在的研究方向。

Multimodal Image Restoration 由于多模態(tài)圖像恢復(fù)的各種有趣應(yīng)用，它已經(jīng)吸引了越來越多的研究人員的興趣。與單模態(tài)圖像恢復(fù)不同，該任務(wù)更傾向于從異構(gòu)圖像中獲取互補(bǔ)信息進(jìn)行圖像恢復(fù)，這需要對不同模態(tài)之間的依賴關(guān)系進(jìn)行適當(dāng)建模。該領(lǐng)域在去噪任務(wù)如去除云層[204,289,290]中具有非常重要的作用。

3D Scene Reconstruction and Multi-view Interpretation 從衛(wèi)星圖像進(jìn)行場景模型的自動三維重建仍然是一個具有挑戰(zhàn)性的研究課題。該方向有許多有趣的應(yīng)用，如場景建模、城市仿真和路徑規(guī)劃。在復(fù)雜遙感場景建模時，需要從多個角度觀察場景，同時涉及到各種數(shù)據(jù)源的分析。與室內(nèi)自然場景重建相比，大尺度遙感場景更加復(fù)雜(特別是在復(fù)雜的城市地區(qū))，因此帶來了很大的挑戰(zhàn)。

這一課題最近幾年才出現(xiàn)，Huang等人[291,292]構(gòu)建了一系列相關(guān)數(shù)據(jù)集，并將位姿估計(jì)方法應(yīng)用到重構(gòu)算法中，取得了很大的突破和進(jìn)展。

Land Use Classification and Detection 盡管近年來MRSII在土地利用分類和檢測方面取得了相當(dāng)大的進(jìn)展，但由于以往的數(shù)據(jù)集往往不具有代表性，很難在所有實(shí)際場景中取得實(shí)效。目前，大多數(shù)方法缺乏魯棒性和通用性，而且它們都是針對特定類別和數(shù)據(jù)集進(jìn)行了過度設(shè)計(jì)，削弱了對其他更通用場景的適用性。一個理想的多模態(tài)解碼框架應(yīng)該能夠處理具有不同數(shù)據(jù)復(fù)雜度和數(shù)據(jù)源的各種學(xué)習(xí)任務(wù)。因此，如何提高方法的魯棒性和通用性是當(dāng)前任務(wù)的熱點(diǎn)課題。

Heterogeneous Image Time Series Change Detection 目前，異構(gòu)圖像變化檢測任務(wù)只考慮雙時相遙感圖像。而在實(shí)際應(yīng)用中，我們往往需要通過對一系列長時間序列圖像的分析，來推斷出場景在該時間段內(nèi)的變化和發(fā)展，這對于城市發(fā)展、規(guī)劃和自然環(huán)境保護(hù)都是非常有用的。

Scene Prediction and Complementary 場景預(yù)測與互補(bǔ)是一個新興的研究方向。它通過對場景長時間序列的特征提取和建模，預(yù)測場景的未來發(fā)展或補(bǔ)充中間時刻的元素。這項(xiàng)任務(wù)為區(qū)域發(fā)展預(yù)測和歷史分析提供了可能性。

Cross-element analysis 由于遙感圖像規(guī)模大、更為復(fù)雜，對跨元素分析提出了很大的挑戰(zhàn)。該任務(wù)的關(guān)鍵是提取復(fù)雜場景中的關(guān)鍵實(shí)例，并將它們與其他模態(tài)對齊或轉(zhuǎn)換。因此，本課題主要涉及多源對齊(第3節(jié))和跨模態(tài)翻譯(第6節(jié))相關(guān)內(nèi)容，主要涉及遙感圖像-語音(文本)對齊、遙感場景描述、遙感場景問答等研究方向。

11 Conclusion

利用多源數(shù)據(jù)進(jìn)行大規(guī)模場景觀測和解譯是遙感和計(jì)算機(jī)視覺領(lǐng)域進(jìn)一步發(fā)展的關(guān)鍵。據(jù)我們所知，本文是第一個描述多模態(tài)遙感領(lǐng)域進(jìn)展的綜述，并提出了一個簡明易懂的分類法來對所有MRSII方法進(jìn)行分組。通過深入分析，從空間、時間、跨元素三個方向分析了MRSII方法，揭示了主流方法之間的內(nèi)在聯(lián)系。MRSII最近成為一個活躍的研究領(lǐng)域；因此，我們希望這項(xiàng)調(diào)查可以幫助研究人員，作為一個起點(diǎn)，回顧最新的發(fā)展，并為他們提供一個系統(tǒng)的和前所未有的概述。

總結(jié)

以上是生活随笔為你收集整理的遥感领域多模态综述论文翻译的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：哪些大学食堂好吃？各大高校大比拼！
下一篇： 100道iOS面试题