深度学习在遥感图像目标检测中的应用综述
生活随笔
收集整理的這篇文章主要介紹了
深度学习在遥感图像目标检测中的应用综述
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
深度學習在遙感圖像目標檢測中的應用綜述
- 1 人工智能發展
- 1.1 發展歷程
- 1.2 深度學習的應用
- 2 深度學習
- 2.1 機器學習概述
- 2.2 神經網絡模型
- 2.3 深度學習
- 2.4 深度學習主要模型
- 2.4.1 CNN-卷積神經網絡
- 2.4.2 FCN-全卷積神經網絡
- 2.4.3 RNN-循環神經網絡
- 2.5 深度學習具體實例
- 2.5.1 CNN-卷積神經網絡
- 2.5.2 FCN-全卷積神經網絡
- 2.5.3 RNN-循環神經網絡
- 2.6 深度學習原理
- 2.6.1 CNN-卷積神經網絡
- CNN典型結構-1:AlexNet
- CNN典型結構-2:VGG
- CNN典型結構-3:GoogLeNet
- CNN典型結構-4:ResNet
- 2.6.2 FCN-全卷積神經網絡
- Why FCN ?
- FCN典型結構-1:FCN-xs
- FCN典型結構-2:U-Net
- FCN典型結構-3:SegNet與DeconvNet
- 2.6.3 RNN-循環神經網絡
- 2.7 深度學習---遷移學習
- 遷移學習是未來5年的重要研究方向。---吳恩達
- 2.7.1 什么是遷移學習?
- 2.7.2 遷移學習的可能性
- 2.7.3 遷移學習的性能
- 3 遙感圖像目標檢測
- 3.1 應用案例---建筑物檢測
- 3.1.1 項目背景
- 1 研究意義
- 2 存在問題
- 3.1.2 檢測方法
- 3.2 應用案例---電力塔檢測
- 3.2.1 需求分析
- 1 研究意義
- 2 存在問題
- 3.2.2 檢測方法
- 3.2.3 構建樣本數據庫
1 人工智能發展
1.1 發展歷程
- 人工智能提出(1950s):人工智能AI、圖靈測試
- 機器學習(1970s):機器學習、數據建模
- 人工神經網絡(1980s):神經網絡模型
- 深度學習(2006~):深度神經網絡
1.2 深度學習的應用
- Alpha Go:打敗圍棋世界冠軍
- Object recognition:目標識別
- Image Caption:看圖說話
- Speech recognition:語音識別
- Automatic driving:自動駕駛
2 深度學習
2.1 機器學習概述
- 機器學習:研究如何從觀測數據中學習規律,利用學習到的規律對未知的數據進行預測。
- 分類(離散值)
- 聚類(無監督學習)
- 回歸(連續值)
- 降維(既可以保留數據特征,又可以降低數據量,PCA,LDA)
2.2 神經網絡模型
- 神經網絡:以數學模型模擬神經元活動,是模仿大腦神經網絡結構和功能,而建立的一種信息處理系統。
- 單層感知機
- 神經網絡
2.3 深度學習
- 深度學習:通過構建具有很多隱藏層的神經網絡模型,利用海量數據自主學習數據特征,提升預測準確性。
- 淺層學習:①傳統的神經網絡,比如BP網絡;②通常只包含1-2個隱藏層
- 深度學習:①多隱層的神經網絡具有優異的特征學習能力,學習得到的特征對數據有更本質的刻畫。②大數據時代的到來,高性能計算的發展都為深度學習的成熟提供了土壤。
2.4 深度學習主要模型
2.4.1 CNN-卷積神經網絡
- Convolutional Neural Network,卷積神經網絡,解決圖像識別問題;
- 遙感影像分類:LULC(土地利用和土地覆蓋),植被、水體、裸土等。
- 目標識別:艦船、飛機、機場
2.4.2 FCN-全卷積神經網絡
- Fully Convolutional Network,全卷積神經網絡,解決圖像分割等問題
- 遙感影像分割:道路、建筑、植被等。
- 目標識別:艦船、飛機、機場
2.4.3 RNN-循環神經網絡
- Recurrent Neural Network,循環神經網絡,解決時序數據處理等問題。
- 變化檢測的問題。
- 多時相遙感影像分類問題,包括農作物分類、林地分類
2.5 深度學習具體實例
每一類深度學習模型都有具體的實例
2.5.1 CNN-卷積神經網絡
- LeNet
- AlexNet
- VGG
- GoogLeNet
- Inception
- ResNet
- SqueezeNet
- Siamese
2.5.2 FCN-全卷積神經網絡
- FCN-8s
- FCN-16s
- FCN-32s
- U-Net
- SegNet
- DeconvNet
2.5.3 RNN-循環神經網絡
- LSTM
- GRU
2.6 深度學習原理
2.6.1 CNN-卷積神經網絡
- 卷積核Kernel相當于傳統BP神經網絡的權值空間化
- 權值共享機制可以減少參數數量
- 池化可以減少特征參數的數量,減少計算量
- Dropout可以有效避免過擬合
CNN典型結構-1:AlexNet
AlexNet 2012年圖像識別大賽冠軍,錯誤率為15.4%,重新引發了人們對神經網絡的熱情,現代CNN的奠基之作(8層)。
- 數據增強
- Dropout策略
- 重疊池化策略
- ReLU激活函數
- LRN(局部響應歸一化層),提高泛化能力
- 基于CUDA的多GPU并行計算
網絡結構
CNN典型結構-2:VGG
VGG 2014年圖像識別大賽的第二名,錯誤率降低到7.3%。
- 拓展了AlexNet結構,網絡變得更深(16-19層)
- 反復堆疊33的小型卷積核和22的最大池化層
- 通過不斷加深網絡結構來提升性能
- 錯誤率大幅下降
VGG-16結構
- 卷積層:13
- 池化層:5
- 全連接:3
CNN典型結構-3:GoogLeNet
GoogLeNet 2014年圖像識別大賽冠軍,錯誤率6.7%
- 沒有最深,只有更深(22層)
- 提出來Inception結構,網中網(Network inNetwork)
- 去除了最后的全連接層,用全局平均池化層,減少參數量,降低過擬合
Inception
CNN典型結構-4:ResNet
ResNet 2015年的圖像識別大賽冠軍,錯誤率僅3.6%。
- 深度繼續增加(152層)
- 創新在殘差網絡
- 傳統的卷積層或全連接層在信息傳遞時,或多或少存在信息丟失、損耗等問題。
ResNet網絡結構
常規網絡單元結構
殘差網絡單元結構
2.6.2 FCN-全卷積神經網絡
- FCN對圖像進行像素級的分類,從而解決了語義級別的圖像分割(semantic segmentation)問題。
- FCN可以接受任意尺寸的輸入圖像采用反卷積層對最后一個卷積層的feature map進行上采樣,使它恢復到輸入圖像相同的尺寸。
- CNN卷積神經網絡(Encoder,編碼)+上采樣Upsampling(Decoder,解碼) --> FCN全卷積神經網絡
Why FCN ?
- CNN冗余由于每個像素點都需要取一個patch,那么相鄰兩個像素點的patch相似度是非常高的,這就導致了非常多的冗余,導致網絡訓練很慢。
- 感受野和定位精度不可兼得,當感受野選取比較大的時候,后面對應的pooling層的降維倍數就會增大,這樣就會導致定位精度降低。
- FCN可以把定位和分類這兩個問題結合起來,語義分割是進行逐個像素點的分類。
CNN分類原理
FCN分類原理
FCN典型結構-1:FCN-xs
- FCN-8s、FCN-16s、FCN-32s:反卷積實現上采樣
- End-to-end端到端的訓練
- 輸出圖像大小與輸入保持一致
- FCN-8s將特征圖上采樣8倍
- FCN-16s將特征圖上采樣16倍
- FCN-32s將特征圖上采樣32倍
- FCN-8s均優于FCN-16s、FCN-32s
FCN原理
FCN典型結構-2:U-Net
- U-Net(U型卷積神經網絡)
- 最初廣泛應用于醫學圖像的分割領域
- 輸入輸出都是圖像,沒有全連接層
- 較淺的高分辨率層用來解決像素定位的問題
- 較深的層用來解決像素分類的問題
- U型結構可以保證像素定位和像素分類的精度
U-Net網絡結構
視網膜分割
- 將U-Net的思想引入遙感圖像分割中
- 實現高精度的地物提取:建筑、道路等
地物提取結果
帶路提取結果
FCN典型結構-3:SegNet與DeconvNet
SegNet
- encoder+decoder
- encoder:采用VGG-16結構
- decoder:與VGG-16相對稱的結構
- 詳解:https://blog.csdn.net/zhuzemin45/article/details/79709874
DeconvNet
- 與SegNet類似
- encoder采用的也是VGG-16的結構
- decoder增加了兩個全連接層
- 詳解:https://www.jianshu.com/p/fa43fb059d60
2.6.3 RNN-循環神經網絡
- 循環神經網絡(Recurrent Neural Network,RNN)
- RNN已經在眾多自然語言處理(NLP)取得了重大成功及廣泛應用。
- 與CNN不同,RNN隱藏層之間的結點不再是無連接的而是有連接的,并且隱藏層的輸入不僅包括輸入層的輸出,還包括上一時刻隱藏層的輸出,可以對任何長度的序列數據進行處理。
RNN基本結構
- LSTM長短時記憶單元,為了解決時間上的梯度彌散問題
2.7 深度學習—遷移學習
遷移學習是未來5年的重要研究方向?!獏嵌鬟_
2.7.1 什么是遷移學習?
- 在面對某一領域的具體問題時,通常無法得到構建模型所需規模的數據集,尤其在遙感圖像處理領域。
- 將一個已經利用海量數據訓練好的深度學習模型,應用于同一領域的不同問題,這就是遷移學習。
- 遷移學習主要用于解決以下三個問題:
- 訓練樣本不足,導致深度神經網絡的欠擬合
- 計算資源不足,導致無法進行基于深度學習的敏捷開發
- 縮短實驗周期,可以直接利用計算機視覺領域的經典模型,進行模型遷移
2.7.2 遷移學習的可能性
- 卷積神經網絡學習到的圖像底層特征具有普遍性
- 因此可以用ImageNet等預訓練好的模型對遙感影像進行分類。
2.7.3 遷移學習的性能
- 高的起始性能
- 高的性能提升
- 高的極限性能
3 遙感圖像目標檢測
- 建筑物檢測
- 電力塔檢測
- 飛機場檢測
- 飛機檢測
- 船只檢測
- 操場檢測
3.1 應用案例—建筑物檢測
3.1.1 項目背景
1 研究意義
從高分辨率遙感影像上提取單體建筑信息,可以極大減少人工矢量化的工作,為住建、統計等領域提供基礎數據。
2 存在問題
- 材質、色彩差異,植被遮擋,陰影效應
- 建筑的組成成分差異較大,光譜信息較復雜,與道路、裸地存在交叉,造成了提取的困難。
- 實際中建筑與周圍的植被、建筑等存在相互遮擋。
- 高大建筑的陰影效應很明顯,影響陰影中其他建筑的提取效果。
- 樣本不足。
3.1.2 檢測方法
- 利用美國建筑樣本庫,進行U-Net模型訓練,在利用worldview-3數據對網絡進行遷移學習。
- (1)一定程度上緩解了建筑樣本數量不足的問題。
- (2)充分利用了U-Net分割精度高的優點。
3.2 應用案例—電力塔檢測
3.2.1 需求分析
1 研究意義
從高分辨遙感影像上提取電力塔,可以極大減少人工目視解譯的工作,提高工作效率。
2 存在問題
- 電力塔與周圍環境的混疊較為嚴重,造成了提取困難。
- 電力塔對影像分辨率的要求很高。
3.2.2 檢測方法
利用Google Earth的影像進行樣本的制作,選用YOLO深度學習模型,進行電力塔檢測模型的訓練。
- YOLO具有端到端學習的優勢,計算效率高
- 可以實現目標定位、檢測、識別的一體化
3.2.3 構建樣本數據庫
利用labelImg工具,制作Pascal VOC格式的樣本數據
https://cloud.tencent.com/developer/news/325876
總結
以上是生活随笔為你收集整理的深度学习在遥感图像目标检测中的应用综述的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 浅谈如何学习深度学习(经验之谈,仅供参考
- 下一篇: 进击的YOLOv3,目标检测网络的巅峰之