當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

未命名文章图灵奖Yann LeCun团队提出Masked Siamese ConvNets，让Mask策略也能应用于基于ViT的孪生网络，进行自监督学习！

發(fā)布時(shí)間：2023/12/8 编程问答 45 豆豆

生活随笔收集整理的這篇文章主要介紹了未命名文章图灵奖Yann LeCun团队提出Masked Siamese ConvNets，让Mask策略也能应用于基于ViT的孪生网络，进行自监督学习！小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

圖靈獎(jiǎng)Yann LeCun團(tuán)隊(duì)提出Masked Siamese ConvNets，讓Mask策略也能應(yīng)用于基于ViT的孿生網(wǎng)絡(luò)，進(jìn)行自監(jiān)督學(xué)習(xí)！

【寫在前面】

自監(jiān)督學(xué)習(xí)在各種視覺(jué)基準(zhǔn)上表現(xiàn)出優(yōu)于監(jiān)督方法的性能。孿生網(wǎng)絡(luò)（siamese networks）鼓勵(lì)嵌入不受扭曲影響，是最成功的自監(jiān)督視覺(jué)表示學(xué)習(xí)方法之一。在所有的增強(qiáng)方法中，掩蔽是最通用和最直接的方法，它有可能應(yīng)用于各種輸入，并且需要最少的領(lǐng)域知識(shí)。然而，掩蔽的孿生網(wǎng)絡(luò)需要特殊的歸納偏置，并且實(shí)際上只能與 Vision Transformers 一起工作。這項(xiàng)工作實(shí)驗(yàn)性地研究了帶有 ConvNets 的掩蔽孿生網(wǎng)絡(luò)背后的問(wèn)題。作者提出了幾種設(shè)計(jì)來(lái)逐步克服這些問(wèn)題。本文的方法在low-shot圖像分類上具有競(jìng)爭(zhēng)力，并且在目標(biāo)檢測(cè)基準(zhǔn)上優(yōu)于以前的方法。

1. 論文和代碼地址

Masked Siamese ConvNets

論文地址：https://arxiv.org/abs/2206.07700^[1]

代碼地址：未開(kāi)源

2. Motivation

自監(jiān)督學(xué)習(xí)旨在從可擴(kuò)展的未標(biāo)記數(shù)據(jù)中學(xué)習(xí)有用的表示，而不依賴于人工注釋。它已在自然語(yǔ)言處理、語(yǔ)音識(shí)別和其他領(lǐng)域取得成功。自監(jiān)督視覺(jué)表示學(xué)習(xí)也成為一個(gè)活躍的研究領(lǐng)域。

孿生網(wǎng)絡(luò)（siamese network）是許多自監(jiān)督學(xué)習(xí)方法中的一種有前途的方法，并且在許多方面都優(yōu)于有監(jiān)督的同類網(wǎng)絡(luò)視覺(jué)基準(zhǔn)。它鼓勵(lì)編碼器對(duì)人為設(shè)計(jì)的增強(qiáng)保持不變，只捕獲基本特征。實(shí)際上，孿生網(wǎng)絡(luò)方法依賴于特定領(lǐng)域的增強(qiáng)，例如裁剪、顏色抖動(dòng)和高斯模糊，它們不適用于新領(lǐng)域。因此，希望找到一種需要最少領(lǐng)域知識(shí)的通用增強(qiáng)方法。

在各種增強(qiáng)中，掩蔽（mask）輸入仍然是最簡(jiǎn)單和最有效的方法之一，已被證明對(duì) NLP和語(yǔ)音有用。然而，直到最近視覺(jué)Transformer (ViTs)的成功，視覺(jué)模型才能利用掩蔽作為一般增強(qiáng)。當(dāng)與 ViT 結(jié)合使用時(shí)，帶有掩碼的自監(jiān)督學(xué)習(xí)已展示出更具可擴(kuò)展性的特性。不幸的是，帶有掩蔽的孿生網(wǎng)絡(luò)不能很好地與大多數(shù)現(xiàn)成的架構(gòu)一起工作，例如 ConvNets。

這項(xiàng)工作使用 ConvNets 確定了掩蔽孿生網(wǎng)絡(luò)背后的潛在問(wèn)題。作者認(rèn)為，掩蔽輸入會(huì)產(chǎn)生寄生邊緣，扭曲局部和全局特征之間的平衡，并且訓(xùn)練信號(hào)更少。作者提出了幾種設(shè)計(jì)來(lái)逐步克服這些問(wèn)題。如上圖所示，實(shí)驗(yàn)表明，具有 ConvNets 主干的連體網(wǎng)絡(luò)可以從這些設(shè)計(jì)的掩碼輸入中受益。

本文貢獻(xiàn)如下：

1）作者確定了掩蔽孿生網(wǎng)絡(luò)在 ConvNets 主干上表現(xiàn)不佳的根本問(wèn)題。

2）作者提出了幾種實(shí)驗(yàn)設(shè)計(jì)，并逐漸克服了帶有 ConvNets 的掩蔽孿生網(wǎng)絡(luò)的問(wèn)題。

3）作者提出了 Masked Siamese ConvNets (MSCN)，它在low-shot圖像分類基準(zhǔn)上具有競(jìng)爭(zhēng)力，并且在目標(biāo)檢測(cè)基準(zhǔn)上優(yōu)于以前的方法。

3. 帶有 ConvNets 的 Masked Siamese 網(wǎng)絡(luò)中的問(wèn)題

帶有mask輸入的孿生網(wǎng)絡(luò)已經(jīng)在 ViT上展示了的競(jìng)爭(zhēng)性能。用現(xiàn)成的 ConvNet替換 ViT 會(huì)導(dǎo)致性能明顯下降。這里首先確定一些潛在的問(wèn)題：

Masking Introduces Parasitic Edges

卷積核以其邊緣檢測(cè)行為而聞名。應(yīng)用mask會(huì)在圖像中產(chǎn)生大量寄生邊緣。邊緣檢測(cè)內(nèi)核生成的特征圖被嚴(yán)重扭曲，因此這些核在訓(xùn)練期間被抑制。更重要的是，這些寄生邊緣將保留在輸出特征圖中并影響所有隱藏層。相反，ViT 避開(kāi)了這個(gè)問(wèn)題，因?yàn)閙ask通常被設(shè)計(jì)為匹配patch邊界。

在上圖中，作者可視化了編碼器的第一個(gè)卷積層核，這些核使用標(biāo)準(zhǔn)增強(qiáng)或掩碼輸入進(jìn)行了預(yù)訓(xùn)練。由于寄生邊緣，許多內(nèi)核崩潰為瑣碎的空白特征。

Balance between Local and Global Features

隨機(jī)調(diào)整大小的裁剪是孿生網(wǎng)絡(luò)最關(guān)鍵的增強(qiáng)。通過(guò)改變裁剪的規(guī)模，孿生網(wǎng)絡(luò)找到了短程和長(zhǎng)程相關(guān)性的精確組合，稱為局部/紋理特征和全局/語(yǔ)義特征。裁剪可以被認(rèn)為是mask的一種特殊情況，但是隨機(jī)mask會(huì)根據(jù)mask網(wǎng)格大小以不同的比率扭曲局部和全局特征。在 ViT 中，mask網(wǎng)格大小是固定的，并設(shè)置為與patch大小相匹配。因此，空間掩蔽設(shè)計(jì)對(duì) ViT 的這種平衡幾乎沒(méi)有影響。然而，具有尺度不變性歸納偏置的卷積網(wǎng)絡(luò)可能會(huì)受益于仔細(xì)的空間掩蔽設(shè)計(jì)。

Less Learning Signal

掩碼輸入僅包含部分信息，這導(dǎo)致學(xué)習(xí)信號(hào)較少。實(shí)際上，掩蔽方法通常需要更長(zhǎng)的訓(xùn)練時(shí)間或使用multicrops。例如，掩碼自動(dòng)編碼器受益于長(zhǎng)達(dá) 1600 個(gè) epoch 的更長(zhǎng)訓(xùn)練。 Masked siamese networks通過(guò)使用 3 個(gè)額外的 multicrops，將 ImageNet-1K 的準(zhǔn)確率提高了 20% 以上。這也導(dǎo)致 ConvNets 的計(jì)算效率降低，因?yàn)樗鼈儾荒芴^(guò)像 ViTs 這樣的未屏蔽區(qū)域。

4. Designing Masked Siamese ConvNets

在本節(jié)中，作者提出了幾種實(shí)驗(yàn)設(shè)計(jì)來(lái)克服上一節(jié)中討論的問(wèn)題，并展示了最終掩蔽策略的軌跡。作者使用帶有 ResNet-50 骨干網(wǎng)的 SimCLR 作為baseline。對(duì)于本節(jié)的實(shí)驗(yàn)，作者使用 LARS 優(yōu)化器在 ImageNet-1K訓(xùn)練集上對(duì)每個(gè)模型進(jìn)行 100 個(gè) epoch 的預(yù)訓(xùn)練，batch大小為 4096。所有結(jié)果都是 ImageNet-1K 驗(yàn)證集上的linear probe精度。

4.1 Preliminaries

孿生網(wǎng)絡(luò)的目標(biāo)是學(xué)習(xí)輸入圖像的表示，以便它們可以用于下游任務(wù)。大多數(shù)方法從從相同的輸入 x 隨機(jī)創(chuàng)建兩個(gè)crop 和開(kāi)始，然后crop應(yīng)用兩組隨機(jī)增強(qiáng)變換和。然后孿生網(wǎng)絡(luò)訓(xùn)練一個(gè)編碼器，使得。這在孿生網(wǎng)絡(luò)中被稱為正項(xiàng)。

在這項(xiàng)工作中，正項(xiàng)和增強(qiáng)是我本文主要關(guān)注點(diǎn)。正確設(shè)計(jì)的對(duì)于學(xué)習(xí)良好的表示至關(guān)重要，因?yàn)闆](méi)有它的孿生網(wǎng)絡(luò)不能保證中的所有特征都對(duì)下游任務(wù)有用。考慮給定任務(wù)的useful特征和 trivial特征，兩者都滿足負(fù)項(xiàng)。如果和，那么孿生網(wǎng)絡(luò)可以從使用增強(qiáng)中受益。由于 g 會(huì)導(dǎo)致更高的正項(xiàng)，那么編碼器更有可能通過(guò)訓(xùn)練收斂到 f 而不是 g。因此，通過(guò)向預(yù)訓(xùn)練pipeline添加數(shù)據(jù)增強(qiáng)來(lái)從表示中刪除trivial特征。

此外，傳統(tǒng)模式識(shí)別在圖像分類或?qū)ο髾z測(cè)方面具有手工特征的次優(yōu)性能表明，這些任務(wù)的有用特征不具有數(shù)學(xué)或概念上的簡(jiǎn)單性。因此，當(dāng)設(shè)計(jì)增強(qiáng)時(shí)，作者正在尋找數(shù)學(xué)或概念上的簡(jiǎn)單特征，并提出增強(qiáng)以防止網(wǎng)絡(luò)收斂到這些特征。

4.2 Designing Principle

標(biāo)準(zhǔn)增強(qiáng)可防止基于簡(jiǎn)單輸入統(tǒng)計(jì)的表面特征。但是，使用掩蔽輸入，表面特征可能會(huì)利用掩蔽區(qū)域并超過(guò)有用的區(qū)域。將掩碼表示為，將掩碼區(qū)域的填充值表示為。這個(gè)掩蔽圖像可以寫成。因此，得出了本文的掩蔽設(shè)計(jì)原則。對(duì)于一個(gè)useful特征和一個(gè) trivial特征，作者要求和滿足：

4.3 Spatial Dimension

作者首先關(guān)注空間維度來(lái)研究如何在孿生網(wǎng)絡(luò)中最好地利用掩蔽。首先在同一個(gè)隨機(jī)裁剪上應(yīng)用兩個(gè)隨機(jī)網(wǎng)格掩碼（網(wǎng)格大小 32），掩蔽率固定為 30%，沒(méi)有其他增強(qiáng)。為了克服由任意網(wǎng)格掩碼邊界引入的寄生邊緣問(wèn)題，作者在應(yīng)用掩碼之前應(yīng)用高通濾波器。如上圖所示，使用高通濾波器，寄生邊緣變得不可見(jiàn)。此外，輸入圖像中的特殊值 0 表示空信息，而不是正常的像素值。使用高通濾波器，模型精度提高到 30.2%。

平衡輸入中的短程和長(zhǎng)程特征以學(xué)習(xí)有用的表示是至關(guān)重要的。除了隨機(jī)網(wǎng)格掩碼（grid mask）外，作者還應(yīng)用了焦點(diǎn)掩碼（focal mask）。如上圖所示，焦點(diǎn)蒙版可以看作是隨機(jī)裁剪，無(wú)需調(diào)整大小。作者應(yīng)用 20% 的焦點(diǎn)掩碼和 80% 的網(wǎng)格掩碼。作者隨機(jī)組合了隨機(jī)網(wǎng)格掩碼和焦點(diǎn)掩碼樣本。這將模型精度提高到31.0%。

最后，作者將空間掩蔽設(shè)計(jì)與標(biāo)準(zhǔn)隨機(jī)調(diào)整大小裁剪相結(jié)合。允許兩個(gè)分支使用不同的裁剪視圖。這種組合方法達(dá)到了 40.0% 的準(zhǔn)確率。注意，在沒(méi)有mask的情況下，使用僅裁剪增強(qiáng)的模型只能獲得 33.5% 的準(zhǔn)確率

4.4 Channel Dimension

然后作者關(guān)注在通道維度上設(shè)計(jì)掩碼。首先，作者發(fā)現(xiàn)向mask區(qū)域添加噪聲是有益的。如上圖所示，這可以防止網(wǎng)絡(luò)利用整體顏色直方圖，并且等效于在mask區(qū)域上應(yīng)用顏色抖動(dòng)。向mask區(qū)域添加噪聲可將準(zhǔn)確度從 40.0% 提高到 48.2% 接下來(lái)，作者隨機(jī)應(yīng)用一個(gè)通道獨(dú)立的掩碼。除了標(biāo)準(zhǔn)的空間mask，作者在三個(gè)顏色通道上應(yīng)用相同的mask，作者生成三個(gè)隨機(jī)mask并將它們分別應(yīng)用于每個(gè)顏色通道。作者發(fā)現(xiàn)以 70% 的概率應(yīng)用通道獨(dú)立掩碼是最佳的。如上圖所示，這將準(zhǔn)確度提高到 53.6%。

最后，作者將通道m(xù)ask設(shè)計(jì)與標(biāo)準(zhǔn)增強(qiáng)相結(jié)合。通過(guò)在應(yīng)用蒙版之前對(duì)兩個(gè)分支應(yīng)用顏色抖動(dòng)和灰度，該模型達(dá)到了 63.0% 的準(zhǔn)確率。接下來(lái)，在兩個(gè)分支上隨機(jī)應(yīng)用高斯模糊將準(zhǔn)確率提高到 65.1%。

4.5 Macro Designs

作者發(fā)現(xiàn)增加兩個(gè)網(wǎng)絡(luò)之間的不對(duì)稱性可以提高準(zhǔn)確性。通過(guò)改變兩個(gè)分支之間的概率，模型精度提高到 65.6%。

掩蔽孿生網(wǎng)絡(luò)在每次迭代中接收的信息較少。作者生成多個(gè)mask輸入并在不對(duì)稱對(duì)上應(yīng)用聯(lián)合嵌入損失。這種多mask設(shè)計(jì)將準(zhǔn)確度提高到 67.4%。最終設(shè)計(jì)比不應(yīng)用mask好 1.0%，比使用標(biāo)準(zhǔn)增強(qiáng)加上隨機(jī)mask好 5.2%。

4.6 Design Summary

按照本文的設(shè)計(jì)原則，作者逐步改進(jìn)了掩蔽策略。將整體設(shè)計(jì)總結(jié)如下：

應(yīng)用標(biāo)準(zhǔn)增強(qiáng)：RandomResizedCrop、HorizontalFlip、ColorJitter、Grayscale、GaussianBlur；

應(yīng)用高通濾波器；

應(yīng)用mask（空間維度：焦點(diǎn)掩碼和隨機(jī)網(wǎng)格掩碼通道維度：通道獨(dú)立掩碼和空間掩碼），并將隨機(jī)噪聲添加到mask區(qū)域；

增加不同分支之間的不對(duì)稱性；

應(yīng)用多重mask。

整體 Masked Siamese ConvNets (MSCN) 架構(gòu)如上圖所示。MSCN 利用任意骨干架構(gòu)和各種聯(lián)合嵌入損失函數(shù)。

4.實(shí)驗(yàn)

作者首先使用linear probe和半監(jiān)督分類評(píng)估 ImageNet-1K 數(shù)據(jù)集上的表示。在上表中，作者將 MSCN 與baseline進(jìn)行比較，可以看出，本文方法相比于其他方法有明顯的提升。

作者在上表中比較了mask對(duì) ConvNet 和 ViT 的影響。具有 ConvNet 主干的 MSCN 與具有 ViT 主干的 MSN 表現(xiàn)出相似的表現(xiàn)。

作者在上表中報(bào)告了 iNaturalist 2018數(shù)據(jù)集和 Places-205數(shù)據(jù)集上的遷移圖像分類結(jié)果。

在表中，作者報(bào)告了 VOC07+12 和 COCO 數(shù)據(jù)集上的目標(biāo)檢測(cè)和實(shí)例分割性能。

在上表中，作者探索了最佳掩蔽率。0.15 的小掩蔽率對(duì)于 ResNet-50 主干網(wǎng)絡(luò)是最佳的。作者還觀察到，使用本文的掩蔽策略，對(duì)于高達(dá) 0.50 的掩蔽率，精度相對(duì)穩(wěn)定。

在上表中，作者展示了學(xué)習(xí)表示可以從更好的掩碼網(wǎng)格大小中受益。

在本文的mask策略中，作者應(yīng)用標(biāo)準(zhǔn)增強(qiáng)來(lái)生成多個(gè)視圖，然后在這些視圖上隨機(jī)應(yīng)用mask。一種替代方法是在同一增強(qiáng)視圖上應(yīng)用隨機(jī)掩碼。上表顯示，在同一視圖上應(yīng)用掩碼會(huì)導(dǎo)致顯著更差的表示。

5. 總結(jié)

這項(xiàng)工作提出了一種使用 ConvNets 向?qū)\生網(wǎng)絡(luò)添加掩蔽增強(qiáng)的方法。作者首先介紹使用掩蔽作為增強(qiáng)引入的問(wèn)題。然后仔細(xì)研究如何通過(guò)改變掩蔽策略來(lái)逐步提高下游任務(wù)的性能以解決或緩解問(wèn)題。本文的方法在low-shot圖像分類基準(zhǔn)上具有競(jìng)爭(zhēng)力，并且在目標(biāo)檢測(cè)基準(zhǔn)上優(yōu)于以前的方法。

已建立深度學(xué)習(xí)公眾號(hào)——FightingCV，歡迎大家關(guān)注！！！

ICCV、CVPR、NeurIPS、ICML論文解析匯總：https://github.com/xmu-xiaoma666/FightingCV-Paper-Reading

面向小白的Attention、重參數(shù)、MLP、卷積核心代碼學(xué)習(xí)：https://github.com/xmu-xiaoma666/External-Attention-pytorch

參考資料

[1]

https://arxiv.org/abs/2206.07700: https://arxiv.org/abs/2206.07700

本文由 mdnice 多平臺(tái)發(fā)布

總結(jié)

以上是生活随笔為你收集整理的未命名文章图灵奖Yann LeCun团队提出Masked Siamese ConvNets，让Mask策略也能应用于基于ViT的孪生网络，进行自监督学习！的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： Datawhale-数据分析-泰坦尼克-
下一篇：杭电ACM 1000题