當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【天池赛事】零基础入门语义分割-地表建筑物识别 Task3：网络模型结构发展

發(fā)布時間：2024/10/8 编程问答 42 豆豆

生活随笔收集整理的這篇文章主要介紹了【天池赛事】零基础入门语义分割-地表建筑物识别 Task3：网络模型结构发展小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

【天池賽事】零基礎(chǔ)入門語義分割-地表建筑物識別

Task1：賽題理解與 baseline（3 天）
– 學(xué)習(xí)主題：理解賽題內(nèi)容解題流程
– 學(xué)習(xí)內(nèi)容：賽題理解、數(shù)據(jù)讀取、比賽 baseline 構(gòu)建
– 學(xué)習(xí)成果：比賽 baseline 提交
Task2：數(shù)據(jù)擴(kuò)增方法（3 天）
– 學(xué)習(xí)主題：語義分割任務(wù)中數(shù)據(jù)擴(kuò)增方法
– 學(xué)習(xí)內(nèi)容：掌握語義分割任務(wù)中數(shù)據(jù)擴(kuò)增方法的細(xì)節(jié)和使用
– 學(xué)習(xí)成果：數(shù)據(jù)擴(kuò)增方法的實踐
Task3：網(wǎng)絡(luò)模型結(jié)構(gòu)發(fā)展（3 天）
– 學(xué)習(xí)主題：掌握語義分割模型的發(fā)展脈絡(luò)
– 學(xué)習(xí)內(nèi)容： FCN、 Unet、 DeepLab、 SegNet、 PSPNet
– 學(xué)習(xí)成果：多種網(wǎng)絡(luò)模型的搭建
Task4：評價函數(shù)與損失函數(shù)（3 天）
– 學(xué)習(xí)主題：語義分割模型各種評價函數(shù)與損失函數(shù)
– 學(xué)習(xí)內(nèi)容： Dice、 IoU、 BCE、 Focal Loss、 Lovász-Softmax
– 學(xué)習(xí)成果：評價/損失函數(shù)的實踐
Task5：模型訓(xùn)練與驗證（3 天）
– 學(xué)習(xí)主題：數(shù)據(jù)劃分方法
– 學(xué)習(xí)內(nèi)容：三種數(shù)據(jù)劃分方法、模型調(diào)參過程
– 學(xué)習(xí)成果：數(shù)據(jù)劃分具體操作
Task6：分割模型模型集成（3 天）
– 學(xué)習(xí)主題：語義分割模型集成方法
– 學(xué)習(xí)內(nèi)容： LookaHead、 SnapShot、 SWA、 TTA
– 學(xué)習(xí)成果：模型集成思路

Task3：網(wǎng)絡(luò)模型結(jié)構(gòu)發(fā)展

1 學(xué)習(xí)目標(biāo)
2 FCN
- 2.1 FCN原理及網(wǎng)絡(luò)結(jié)構(gòu)
- 2.2 反卷積（Deconvolutional）
- 2.3 跳躍連接
- 2.4 訓(xùn)練過程
3 SegNet
4 Unet
5 DeepLab
6 RefineNet
7 PSPNet
8 基于全卷積的 GAN 語義分割模型
9 具體調(diào)用
10 小結(jié)

本章主要講解的是語義分割網(wǎng)絡(luò)模型的發(fā)展： FCN 、 SegNet、 Unet、 DeepLab、 RefineNet、 PSPNet、GAN 語義分割。

語義分割（全像素語義分割）作為經(jīng)典的計算機視覺任務(wù)（圖像分類，物體識別檢測，語義分割）。其結(jié)合了圖像分類、目標(biāo)檢測和圖像分割，通過一定的方法將圖像分割成具有一定語義含義的區(qū)域塊，并識別出每個區(qū)域塊的語義類別，實現(xiàn)從底層到高層的語義推理過程，最終得到一幅具有逐像素語義標(biāo)注的分割圖像。

1 學(xué)習(xí)目標(biāo)

? 掌握語義分割模型的原理和訓(xùn)練過程；
? 掌握語義分割模型的發(fā)展脈絡(luò)；
? 掌握語義分割模型的使用；

2 FCN

2.1 FCN原理及網(wǎng)絡(luò)結(jié)構(gòu)

FCN 首先將一幅 RGB 圖像輸入到卷積神經(jīng)網(wǎng)絡(luò)后，經(jīng)過多次卷積以及池化過程得到一系列的特征圖，然后利用反卷積層對最后一個卷積層得到的特征圖進(jìn)行上采樣，使得上采樣后特征圖與原圖像的大小一樣，從而實現(xiàn)對特征圖上的每個像素值進(jìn)行預(yù)測的同時保留其在原圖像中的空間位置信息，最后對上采樣特征圖進(jìn)行逐像素分類，逐個像素計算 softmax 分類損失。

主要特點：

? 不含全連接層（FC）的全卷積（Fully Conv）網(wǎng)絡(luò)。從而可適應(yīng)任意尺寸輸入。
? 引入增大數(shù)據(jù)尺寸的反卷積（Deconv）層。能夠輸出精細(xì)的結(jié)果。
? 結(jié)合不同深度層結(jié)果的跳級（skip）結(jié)構(gòu)。同時確保魯棒性和精確性。

網(wǎng)絡(luò)結(jié)構(gòu)詳解圖：輸入可為任意尺寸圖像彩色圖像；輸出與輸入尺寸相同，深度為 20 類目標(biāo) + 背景=21，這里的類別與數(shù)據(jù)集類別保持一致。

FCN網(wǎng)絡(luò)詳解圖
FCN獲得圖像語義圖

2.2 反卷積（Deconvolutional）

unsamplingd 的操作可以看成是反卷積（Deconvolutional） , 卷積運算的參數(shù)和 CNN 的參數(shù)一樣是在訓(xùn)練 FCN 模型的過程中通過 bp 算法學(xué)習(xí)得到。

普通的池化會縮小圖片的尺寸，比如 VGG16 經(jīng)過 5 次池化后圖片被縮小了 32 倍。為了得到和原圖等大小的分割圖，我們需要上采樣、反卷積。

反卷積和卷積類似，都是相乘相加的運算。只不過后者是多對一，前者是一對多。而反卷積的前向和反向傳播，只用顛倒卷積的前后向傳播即可。

2.3 跳躍連接

經(jīng)過全卷積后的結(jié)果進(jìn)行反卷積，基本上就能實現(xiàn)語義分割了，但是得到的結(jié)果通常是比較粗糙的。如上圖所示，對原圖像進(jìn)行卷積 conv1、 pool1 后原圖像縮小為 1/2；之后對圖像進(jìn)行第二次 conv2、pool2 后圖像縮小為 1/4；接著繼續(xù)對圖像進(jìn)行第三次卷積操作 conv3、 pool3 縮小為原圖像的 1/8，此時保留 pool3 的 featureMap；接著繼續(xù)對圖像進(jìn)行第四次卷積操作 conv4、 pool4，縮小為原圖像的 1/16，保留 pool4 的 featureMap；最后對圖像進(jìn)行第五次卷積操作 conv5、 pool5，縮小為原圖像的 1/32，然后把原來 CNN 操作中的全連接變成卷積操作 conv6、 conv7，圖像的 featureMap 數(shù)量改變但是圖像大小依然為原圖的 1/32，此時圖像不再叫 featureMap 而是叫 heatMap。

現(xiàn)在我們有 1/32 尺寸的 heatMap， 1/16 尺寸的 featureMap 和 1/8 尺寸的 featureMap， 1/32 尺寸的 heatMap 進(jìn)行 upsampling 操作之后，因為這樣的操作還原的圖片僅僅是 conv5 中的卷積核中的特征，限于精度問題不能夠很好地還原圖像當(dāng)中的特征。因此在這里向前迭代，把 conv4 中的卷積核對上一次 upsampling 之后的圖進(jìn)行反卷積補充細(xì)節(jié)（相當(dāng)于一個插值過程），最后把 conv3 中的卷積核對剛才upsampling 之后的圖像進(jìn)行再次反卷積補充細(xì)節(jié)，最后就完成了整個圖像的還原。

具體來說，就是將不同池化層的結(jié)果進(jìn)行上采樣，然后結(jié)合這些結(jié)果來優(yōu)化輸出，分為 FCN-32s,FCN-16s,FCN-8s 三種，第一行對應(yīng) FCN-32s，第二行對應(yīng) FCN-16s，第三行對應(yīng) FCN-8s。具體結(jié)構(gòu)如下:

圖中， image 是原圖像， conv1,conv2…,conv5 為卷積操作， pool1,pool2,…pool5 為 pool 操作（pool 就是使得圖片變?yōu)樵瓐D的 1/2），注意 con6-7 是最后的卷積層，最右邊一列是 upsample 后的 end to end 結(jié)果。必須說明的是圖中 nx 是指對應(yīng)的特征圖上采樣 n 倍（即變大 n 倍），并不是指有 n 個特征圖，如32x upsampled 中的 32x 是圖像只變大 32 倍，不是有 32 個上采樣圖像，又如 2x conv7 是指 conv7的特征圖變大 2 倍。

(1)FCN-32s過程

只需要留意第一行，網(wǎng)絡(luò)里面有 5 個 pool，所以 conv7 的特征圖是原始圖像 1/32，可以發(fā)現(xiàn)最左邊image 的是 32x32（假設(shè)以倍數(shù)計），同時我們知道在 FCN 中的卷積是不會改變圖像大小（或者只有少量像素的減少，特征圖大小基本不會小很多）。看到 pool1 是 16x16， pool2 是 8x8， pool3 是 4x4， pool4 是2x2， pool5 是 1x1，所以 conv7 對應(yīng)特征圖大小為 1x1，然后再經(jīng)過 32x upsampled prediction 圖片變回
32x32。 FCN 作者在這里增加一個卷積層，卷積后的大小為輸入圖像的 32(25) 倍，我們簡單假設(shè)這個卷積核大小也為 32，這樣就是需要通過反饋訓(xùn)練 32x32 個權(quán)重變量即可讓圖像實現(xiàn) end to end，完成了一個 32s 的 upsample。 FCN 作者稱做后卷積，他也提及可以稱為反卷積。事實上在源碼中卷積核的大小為64，同時沒有偏置 bias。還有一點就是 FCN 論文中最后結(jié)果都是 21?*，這里的 21 是指 FCN 使用的數(shù)據(jù)集分類，總共有 21 類。

(2)FCN-16s過程

現(xiàn)在我們把 1,2 兩行一起看，忽略 32x upsampled prediction，說明 FCN-16s 的 upsample 過程。 FCN作者在 conv7 先進(jìn)行一個 2x conv7 操作，其實這里也只是增加 1 個卷積層，這次卷積后特征圖的大小為conv7 的 2 倍，可以從 pool5 與 2x conv7 中看出來。此時 2x conv7 與 pool4 的大小是一樣的， FCN 作者提出對 pool4 與 2x conv7 進(jìn)行一個 fuse 操作（事實上就是將 pool4 與 2x conv7 相加，另一篇博客說是拼接，個人認(rèn)為是拼接）。 fuse 結(jié)果進(jìn)行 16x upsampled prediction，與 FCN-32s 一樣，也是增加一個
卷積層，卷積后的大小為輸入圖像的 16(24) 倍。我們知道 pool4 的大小是 2x2，放大 16 倍，就是 32x32，這樣最后圖像大小也變?yōu)樵瓉淼拇笮?#xff0c;至此完成了一個 16s 的 upsample。現(xiàn)在我們可以知道， FCN 中的upsample 實際是通過增加卷積層，通過 bp 反饋的訓(xùn)練方法訓(xùn)練卷積層達(dá)到 end to end，這時卷積層的作用可以看作是 pool 的逆過程。

(3)FCN-8s過程

這是我們看第 1 行與第 3 行，忽略 32x upsampled prediction。 conv7 經(jīng)過一次 4x upsample，即使用一個卷積層，特征圖輸出大小為 conv7 的 4 倍，所得 4x conv7 的大小為 4x4。然后 pool4 需要一次 2x upsample，變成 2x pool4，大小也為 4x4。再把 4x conv7， 2x pool4 與 pool3 進(jìn)行 fuse，得到求和后的特征圖。最后增加一個卷積層，使得輸出圖片大小為 pool3 的 8 倍，也就是 8x upsampled prediction 的過程，得到一個 end to end 的圖像。實驗表明 FCN-8s 優(yōu)于 FCN-16s， FCN-32s。我們可以發(fā)現(xiàn)，如果
繼續(xù)仿照 FCN 作者的步驟，我們可以對 pool2， pool1 實現(xiàn)同樣的方法，可以有 FCN 4s， FCN-2s，最后得到 end to end 的輸出。這里作者給出了明確的結(jié)論，超過 FCN-8s 之后，結(jié)果并不能繼續(xù)優(yōu)化。

結(jié)合上述的 FCN 的全卷積與 upsample，在 upsample 最后加上 softmax，就可以對不同類別的大小概率進(jìn)行估計，實現(xiàn) end to end。最后輸出的圖是一個概率估計，對應(yīng)像素點的值越大，其像素為該類的結(jié)果也越大。 FCN 的核心貢獻(xiàn)在于提出使用卷積層通過學(xué)習(xí)讓圖片實現(xiàn) end to end 分類。

事實上， FCN 有一些短處，例如使用了較淺層的特征，因為 fuse 操作會加上較上層的 pool 特征值，導(dǎo)致高維特征不能很好得以使用，同時也因為使用較上層的 pool 特征值，導(dǎo)致 FCN 對圖像大小變化有所要求，如果測試集的圖像遠(yuǎn)大于或小于訓(xùn)練集的圖像， FCN 的效果就會變差。

2.4 訓(xùn)練過程

FCN 訓(xùn)練過程分為四個階段：

第一階段：

以經(jīng)典的分類網(wǎng)絡(luò)為初始化，最后兩級是全連接（紅色），參數(shù)舍棄不用。

第二階段：

從特征圖（16x16x4096）預(yù)測分割小圖（16x16x21），之后直接升采樣為大圖。反卷積（橙色）的步長為 32，這個網(wǎng)絡(luò)稱為 FCN-32s。

第三階段：

升采樣分為兩次完成（橙色 ?2）。在第二次升采樣前，把第 4 個 pooling 層（綠色）的預(yù)測結(jié)果（藍(lán)色）融合進(jìn)來。使用跳級結(jié)構(gòu)提升精確性。第二次反卷積步長為 16，這個網(wǎng)絡(luò)稱為 FCN-16s。

第四階段：

升采樣分為三次完成（橙色 ?3）。進(jìn)一步融合了第 3 個 pooling 層的預(yù)測結(jié)果。第三次反卷積步長為8，記為 FCN-8s。這一階段使用單 GPU 訓(xùn)練約需 1 天。

較淺層的預(yù)測結(jié)果包含了更多細(xì)節(jié)信息。比較 2,3,4 階段可以看出，跳級結(jié)構(gòu)利用淺層信息輔助逐步升采樣，有更精細(xì)的結(jié)果。

FCN 原理參考連接：https://blog.csdn.net/qinghuaci666/article/details/80863032

3 SegNet

Segnet 是用于進(jìn)行像素級別圖像分割的全卷積網(wǎng)絡(luò)，分割的核心組件是一個 encoder 網(wǎng)絡(luò)，及其相對應(yīng)的 decoder 網(wǎng)絡(luò)，后接一個象素級別的分類網(wǎng)絡(luò)。

encoder 網(wǎng)絡(luò)：其結(jié)構(gòu)與 VGG16 網(wǎng)絡(luò)的前 13 層卷積層的結(jié)構(gòu)相似。decoder 網(wǎng)絡(luò)：作用是將由 encoder的到的低分辨率的 feature maps 進(jìn)行映射得到與輸入圖像 featuremap 相同的分辨率進(jìn)而進(jìn)行像素級別的分類。

Segnet 的亮點： decoder 進(jìn)行上采樣的方式，直接利用與之對應(yīng)的 encoder 階段中進(jìn)行 max-pooling時的 polling index 進(jìn)行非線性上采樣，這樣做的好處是上采樣階段就不需要進(jìn)行學(xué)習(xí)。上采樣后得到的 feature maps 是非常稀疏的，因此，需要進(jìn)一步選擇合適的卷積核進(jìn)行卷積得到 dense featuremaps 。

SegNet 的思路和 FCN 十分相似，只是 Encoder， Decoder（Unsampling）使用的技術(shù)不一樣。 SegNet的編碼器部分使用的是 VGG16 的前 13 層卷積網(wǎng)絡(luò)，每個編碼器層都對應(yīng)一個解碼器層，最終解碼器的輸出被送入 soft-max 分類器以獨立的為每個像素產(chǎn)生類別概率。

左邊是卷積提取特征，通過 pooling 增大感受野，同時圖片變小，該過程稱為 Encoder，右邊是反卷積（在這里反卷積與卷積沒有區(qū)別）與 unsampling，通過反卷積使得圖像分類后特征得以重現(xiàn)， upsampling還原到原圖像尺寸，該過程稱為 Decoder，最后通過 Softmax，輸出不同分類的最大值，得到最終分割圖。

Encoder編碼器

? 在編碼器處，執(zhí)行卷積和最大池化。
? VGG-16 有 13 個卷積層。（不用全連接的層）
? 在進(jìn)行最大池化時，存儲相應(yīng)的最大池化索引（位置）。

Decoder編碼器

使用最大池化的索引進(jìn)行上采樣

? 在解碼器處，執(zhí)行上采樣和卷積。最后，每個像素送到 softmax 分類器。
? 在上采樣期間，如上所示，調(diào)用相應(yīng)編碼器層處的最大池化索引以進(jìn)行上采樣。
? 最后，使用 K 類 softmax 分類器來預(yù)測每個像素的類別。

4 Unet

U-net 對稱語義分割模型，該網(wǎng)絡(luò)模型主要由一個收縮路徑和一個對稱擴(kuò)張路徑組成，收縮路徑用來獲得上下文信息，對稱擴(kuò)張路徑用來精確定位分割邊界。 U-net 使用圖像切塊進(jìn)行訓(xùn)練，所以訓(xùn)練數(shù)據(jù)量遠(yuǎn)遠(yuǎn)大于訓(xùn)練圖像的數(shù)量，這使得網(wǎng)絡(luò)在少量樣本的情況下也能獲得不變性和魯棒性。

? Encoder：左半部分，由兩個 3x3 的卷積層（RELU）+ 2x2 的 max pooling 層（stride=2）反復(fù)組成，每經(jīng)過一次下采樣，通道數(shù)翻倍；
? Decoder：右半部分，由一個 2x2 的上采樣卷積層（RELU） + Concatenation（crop 對應(yīng)的 Encoder層的輸出 feature map 然后與 Decoder 層的上采樣結(jié)果相加）+ 2 個 3x3 的卷積層（RELU）反復(fù)構(gòu)成；
? 最后一層通過一個 1x1 卷積將通道數(shù)變成期望的類別數(shù)。

5 DeepLab

基于全卷積對稱語義分割模型得到的分割結(jié)果比較粗糙，忽略了像素與像素之間的空間一致性關(guān)系。于是 Google 提出了一種新的擴(kuò)張卷積語義分割模型，考慮了像素與像素之間的空間一致性關(guān)系，可以在不增加數(shù)量的情況下增加感受野。

Deeplabv1 是由深度卷積網(wǎng)路和概率圖模型級聯(lián)而成的語義分割模型，由于深度卷積網(wǎng)路在重復(fù)最大池化和下采樣的過程中會丟失很多的細(xì)節(jié)信息，所以采用擴(kuò)張卷積算法增加感受野以獲得更多上下文信息。考慮到深度卷積網(wǎng)路在圖像標(biāo)記任務(wù)中的空間不敏感性限制了它的定位精度，采用了完全連接條件隨機場（Conditional Random Field， CRF）來提高模型捕獲細(xì)節(jié)的能力。

Deeplabv2 予以分割模型增加了 ASPP（Atrous spatial pyramid pooling）結(jié)構(gòu)，利用多個不同采樣率的擴(kuò)張卷積提取特征，再將特征融合以捕獲不同大小的上下文信息。

Deeplabv3 語義分割模型，在 ASPP 中加入了全局平均池化，同時在平行擴(kuò)張卷積后添加批量歸一化，有效地捕獲了全局語義信息。

DeepLabV3+ 語義分割模型在 Deeplabv3 的基礎(chǔ)上增加了編-解碼模塊和 Xception 主干網(wǎng)路，增加編解碼模塊主要是為了恢復(fù)原始的像素信息，使得分割的細(xì)節(jié)信息能夠更好的保留，同時編碼豐富的上下文信息。增加 Xception 主干網(wǎng)絡(luò)是為了采用深度卷積進(jìn)一步提高算法的精度和速度。在inception 結(jié)構(gòu)中，先對輸入進(jìn)行 11 卷積，之后將通道分組，分別使用不同的 33 卷積提取特征，最后將各組結(jié)果串聯(lián)在一起作為輸出。

主要特點：
? 在多尺度上為分割對象進(jìn)行帶洞空間金字塔池化（ASPP）
? 通過使用 DCNNs（空洞卷積）提升了目標(biāo)邊界的定位
? 降低了由 DCNN 的不變性導(dǎo)致的定位準(zhǔn)確率

6 RefineNet

RefineNet 采用了通過細(xì)化中間激活映射并分層地將其鏈接到結(jié)合多尺度激活，同時防止銳度損失。網(wǎng)絡(luò)由獨立的 RefineNet 模塊組成，每個模塊對應(yīng)于 ResNet。

每個 RefineNet 模塊由三個主要模塊組成，即剩余卷積單元（RCU），多分辨率融合（MRF）和鏈?zhǔn)Ｓ喑?#xff08;CRP）。 RCU 塊由一個自適應(yīng)塊組成卷積集，微調(diào)預(yù)訓(xùn)練的 ResNet 權(quán)重對于分割問題。 MRF 層融合不同的激活物使用卷積上采樣層來創(chuàng)建更高的分辨率地圖。最后，在 CRP 層池中使用多種大小的內(nèi)核用于從較大的圖像區(qū)域捕獲背景上下文。

主要特點：
? 提出一種多路徑 refinement 網(wǎng)絡(luò)，稱為 RefineNet。這種網(wǎng)絡(luò)可以使用各個層級的 features，使得語義分割更為精準(zhǔn)。
? RefineNet 中所有部分都利用 resdiual connections (identity mappings)，使得梯度更容易短向或者長向前傳，使端對端的訓(xùn)練變得更加容易和高效。
? 提出了一種叫做 chained residual pooling 的模塊，它可以從一個大的圖像區(qū)域捕捉背景上下文信息。

7 PSPNet

深度卷積神經(jīng)網(wǎng)絡(luò)的每一層特征對語義分割都有影響，如何將高層特征的語義信息與底層識別的邊界與輪廓信息結(jié)合起來是一個具有挑戰(zhàn)性的問題。

金字塔場景稀疏網(wǎng)絡(luò)語義分割模型（Pyramid Scene Parsing Network， PSP）首先結(jié)合預(yù)訓(xùn)練網(wǎng)絡(luò)ResNet 和擴(kuò)張網(wǎng)絡(luò)來提取圖像的特征，得到原圖像 1/8 大小的特征圖，然后，采用金字塔池化模塊將特征圖同時通過四個并行的池化層得到四個不同大小的輸出，將四個不同大小的輸出分別進(jìn)行上采樣，還原到原特征圖大小，最后與之前的特征圖進(jìn)行連接后經(jīng)過卷積層得到最后的預(yù)測分割圖像。

? PSPNet 為像素級場景解析提供了有效的全局上下文先驗
? 金字塔池化模塊可以收集具有層級的信息，比全局池化更有代表性
? 在計算量方面，我們的 PSPNet 并沒有比原來的空洞卷積 FCN 網(wǎng)絡(luò)有很大的增加
? 在端到端學(xué)習(xí)中，全局金字塔池化模塊和局部 FCN 特征可以被同時訓(xùn)練

主要特點：

? 金字塔場景解析網(wǎng)絡(luò)是建立在 FCN 之上的基于像素級分類網(wǎng)絡(luò)。將大小不同的內(nèi)核集中在一起激活地圖的不同區(qū)域創(chuàng)建空間池金字塔。
? 特性映射來自網(wǎng)絡(luò)被轉(zhuǎn)換成不同分辨率的激活，并經(jīng)過多尺度處理池層，稍后向上采樣并與原始層連接進(jìn)行分割的 feature map。
? 學(xué)習(xí)的過程利用輔助分類器進(jìn)一步優(yōu)化了像 ResNet 這樣的深度網(wǎng)絡(luò)。不同類型的池模塊側(cè)重于激活的不同區(qū)域地圖。

8 基于全卷積的 GAN 語義分割模型

生成對抗網(wǎng)絡(luò)模型（Generative Adversarial Nets， GAN）同時訓(xùn)練生成器 G 和判別器 D，判別器用來預(yù)測給定樣本是來自于真實數(shù)據(jù)還是來自于生成模型。

利用對抗訓(xùn)練方法訓(xùn)練語義分割模型，將傳統(tǒng)的多類交叉熵?fù)p失與對抗網(wǎng)絡(luò)相結(jié)合，首先對對抗網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練，然后使用對抗性損失來微調(diào)分割網(wǎng)絡(luò)，如下圖所示。左邊的分割網(wǎng)絡(luò)將 RGB 圖像作為輸入，并產(chǎn)生每個像素的類別預(yù)測。右邊的對抗網(wǎng)絡(luò)將標(biāo)簽圖作為輸入并生成類標(biāo)簽（1 代表真實標(biāo)注， 0 代表合成標(biāo)簽）。

參考鏈接： https://cloud.tencent.com/developer/article/1589733

9 具體調(diào)用

對于常見的語義分割模型，推薦可以直接使用 segmentation_models_pytorch 庫完成：

import segmentation_models_pytorch as smp model=smp.Unet(encoder_name="resnet34", # choose encoder, e.g. mobilenet_v2 or efficientnet-b7encoder_weights="imagenet", # use imagenet pre-trained weights for encoder initializationin_channels=3, # model input channels (1 for gray-scale images, 3 for RGB, etc.)classes=2, # model output channels (number of classes in your dataset))

10 小結(jié)

本章對常見的語義分割網(wǎng)絡(luò)模型進(jìn)行介紹，并使用 segmentation_models_pytorch 完成具體調(diào)用。

? 理解語義分割模型構(gòu)造過程，特別是最終概率值的輸出；
? 理解 FCN 的網(wǎng)絡(luò)模型結(jié)構(gòu)和訓(xùn)練過程；

總結(jié)

以上是生活随笔為你收集整理的【天池赛事】零基础入门语义分割-地表建筑物识别 Task3：网络模型结构发展的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：关于SI522替代FM17522和MFR
下一篇：【天池赛事】零基础入门语义分割-地表建筑