日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

未命名文章图灵奖Yann LeCun团队提出Masked Siamese ConvNets,让Mask策略也能应用于基于ViT的孪生网络,进行自监督学习!

發(fā)布時(shí)間:2023/12/8 编程问答 45 豆豆
生活随笔 收集整理的這篇文章主要介紹了 未命名文章图灵奖Yann LeCun团队提出Masked Siamese ConvNets,让Mask策略也能应用于基于ViT的孪生网络,进行自监督学习! 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

圖靈獎(jiǎng)Yann LeCun團(tuán)隊(duì)提出Masked Siamese ConvNets,讓Mask策略也能應(yīng)用于基于ViT的孿生網(wǎng)絡(luò),進(jìn)行自監(jiān)督學(xué)習(xí)!

【寫在前面】

自監(jiān)督學(xué)習(xí)在各種視覺(jué)基準(zhǔn)上表現(xiàn)出優(yōu)于監(jiān)督方法的性能。孿生網(wǎng)絡(luò)(siamese networks)鼓勵(lì)嵌入不受扭曲影響,是最成功的自監(jiān)督視覺(jué)表示學(xué)習(xí)方法之一。在所有的增強(qiáng)方法中,掩蔽是最通用和最直接的方法,它有可能應(yīng)用于各種輸入,并且需要最少的領(lǐng)域知識(shí)。然而,掩蔽的孿生網(wǎng)絡(luò)需要特殊的歸納偏置,并且實(shí)際上只能與 Vision Transformers 一起工作。這項(xiàng)工作實(shí)驗(yàn)性地研究了帶有 ConvNets 的掩蔽孿生網(wǎng)絡(luò)背后的問(wèn)題。作者提出了幾種設(shè)計(jì)來(lái)逐步克服這些問(wèn)題。本文的方法在low-shot圖像分類上具有競(jìng)爭(zhēng)力,并且在目標(biāo)檢測(cè)基準(zhǔn)上優(yōu)于以前的方法。

1. 論文和代碼地址

Masked Siamese ConvNets

論文地址:https://arxiv.org/abs/2206.07700[1]

代碼地址:未開(kāi)源

2. Motivation

自監(jiān)督學(xué)習(xí)旨在從可擴(kuò)展的未標(biāo)記數(shù)據(jù)中學(xué)習(xí)有用的表示,而不依賴于人工注釋。它已在自然語(yǔ)言處理、語(yǔ)音識(shí)別和其他領(lǐng)域取得成功。自監(jiān)督視覺(jué)表示學(xué)習(xí)也成為一個(gè)活躍的研究領(lǐng)域。

孿生網(wǎng)絡(luò)(siamese network)是許多自監(jiān)督學(xué)習(xí)方法中的一種有前途的方法,并且在許多方面都優(yōu)于有監(jiān)督的同類網(wǎng)絡(luò)視覺(jué)基準(zhǔn)。它鼓勵(lì)編碼器對(duì)人為設(shè)計(jì)的增強(qiáng)保持不變,只捕獲基本特征。實(shí)際上,孿生網(wǎng)絡(luò)方法依賴于特定領(lǐng)域的增強(qiáng),例如裁剪、顏色抖動(dòng)和高斯模糊,它們不適用于新領(lǐng)域。因此,希望找到一種需要最少領(lǐng)域知識(shí)的通用增強(qiáng)方法。

在各種增強(qiáng)中,掩蔽(mask)輸入仍然是最簡(jiǎn)單和最有效的方法之一,已被證明對(duì) NLP和語(yǔ)音有用。然而,直到最近視覺(jué)Transformer (ViTs)的成功,視覺(jué)模型才能利用掩蔽作為一般增強(qiáng)。當(dāng)與 ViT 結(jié)合使用時(shí),帶有掩碼的自監(jiān)督學(xué)習(xí)已展示出更具可擴(kuò)展性的特性。不幸的是,帶有掩蔽的孿生網(wǎng)絡(luò)不能很好地與大多數(shù)現(xiàn)成的架構(gòu)一起工作,例如 ConvNets。

這項(xiàng)工作使用 ConvNets 確定了掩蔽孿生網(wǎng)絡(luò)背后的潛在問(wèn)題。作者認(rèn)為,掩蔽輸入會(huì)產(chǎn)生寄生邊緣,扭曲局部和全局特征之間的平衡,并且訓(xùn)練信號(hào)更少。作者提出了幾種設(shè)計(jì)來(lái)逐步克服這些問(wèn)題。如上圖所示,實(shí)驗(yàn)表明,具有 ConvNets 主干的連體網(wǎng)絡(luò)可以從這些設(shè)計(jì)的掩碼輸入中受益。

本文貢獻(xiàn)如下:

1)作者確定了掩蔽孿生網(wǎng)絡(luò)在 ConvNets 主干上表現(xiàn)不佳的根本問(wèn)題。

2)作者提出了幾種實(shí)驗(yàn)設(shè)計(jì),并逐漸克服了帶有 ConvNets 的掩蔽孿生網(wǎng)絡(luò)的問(wèn)題。

3)作者提出了 Masked Siamese ConvNets (MSCN),它在low-shot圖像分類基準(zhǔn)上具有競(jìng)爭(zhēng)力,并且在目標(biāo)檢測(cè)基準(zhǔn)上優(yōu)于以前的方法。

3. 帶有 ConvNets 的 Masked Siamese 網(wǎng)絡(luò)中的問(wèn)題

帶有mask輸入的孿生網(wǎng)絡(luò)已經(jīng)在 ViT上展示了的競(jìng)爭(zhēng)性能。用現(xiàn)成的 ConvNet替換 ViT 會(huì)導(dǎo)致性能明顯下降。這里首先確定一些潛在的問(wèn)題:

Masking Introduces Parasitic Edges

卷積核以其邊緣檢測(cè)行為而聞名。應(yīng)用mask會(huì)在圖像中產(chǎn)生大量寄生邊緣。邊緣檢測(cè)內(nèi)核生成的特征圖被嚴(yán)重扭曲,因此這些核在訓(xùn)練期間被抑制。更重要的是,這些寄生邊緣將保留在輸出特征圖中并影響所有隱藏層。相反,ViT 避開(kāi)了這個(gè)問(wèn)題,因?yàn)閙ask通常被設(shè)計(jì)為匹配patch邊界。

在上圖中,作者可視化了編碼器的第一個(gè)卷積層核,這些核使用標(biāo)準(zhǔn)增強(qiáng)或掩碼輸入進(jìn)行了預(yù)訓(xùn)練。由于寄生邊緣,許多內(nèi)核崩潰為瑣碎的空白特征。

Balance between Local and Global Features

隨機(jī)調(diào)整大小的裁剪是孿生網(wǎng)絡(luò)最關(guān)鍵的增強(qiáng)。通過(guò)改變裁剪的規(guī)模,孿生網(wǎng)絡(luò)找到了短程和長(zhǎng)程相關(guān)性的精確組合,稱為局部/紋理特征和全局/語(yǔ)義特征。裁剪可以被認(rèn)為是mask的一種特殊情況,但是隨機(jī)mask會(huì)根據(jù)mask網(wǎng)格大小以不同的比率扭曲局部和全局特征。在 ViT 中,mask網(wǎng)格大小是固定的,并設(shè)置為與patch大小相匹配。因此,空間掩蔽設(shè)計(jì)對(duì) ViT 的這種平衡幾乎沒(méi)有影響。然而,具有尺度不變性歸納偏置的卷積網(wǎng)絡(luò)可能會(huì)受益于仔細(xì)的空間掩蔽設(shè)計(jì)。

Less Learning Signal

掩碼輸入僅包含部分信息,這導(dǎo)致學(xué)習(xí)信號(hào)較少。實(shí)際上,掩蔽方法通常需要更長(zhǎng)的訓(xùn)練時(shí)間或使用multicrops。例如,掩碼自動(dòng)編碼器受益于長(zhǎng)達(dá) 1600 個(gè) epoch 的更長(zhǎng)訓(xùn)練。 Masked siamese networks通過(guò)使用 3 個(gè)額外的 multicrops,將 ImageNet-1K 的準(zhǔn)確率提高了 20% 以上。這也導(dǎo)致 ConvNets 的計(jì)算效率降低,因?yàn)樗鼈儾荒芴^(guò)像 ViTs 這樣的未屏蔽區(qū)域。

4. Designing Masked Siamese ConvNets

在本節(jié)中,作者提出了幾種實(shí)驗(yàn)設(shè)計(jì)來(lái)克服上一節(jié)中討論的問(wèn)題,并展示了最終掩蔽策略的軌跡。作者使用帶有 ResNet-50 骨干網(wǎng)的 SimCLR 作為baseline。對(duì)于本節(jié)的實(shí)驗(yàn),作者使用 LARS 優(yōu)化器在 ImageNet-1K訓(xùn)練集上對(duì)每個(gè)模型進(jìn)行 100 個(gè) epoch 的預(yù)訓(xùn)練,batch大小為 4096。所有結(jié)果都是 ImageNet-1K 驗(yàn)證集上的linear probe精度。

4.1 Preliminaries

孿生網(wǎng)絡(luò)的目標(biāo)是學(xué)習(xí)輸入圖像的表示,以便它們可以用于下游任務(wù)。大多數(shù)方法從從相同的輸入 x 隨機(jī)創(chuàng)建兩個(gè)crop 開(kāi)始,然后crop應(yīng)用兩組隨機(jī)增強(qiáng)變換。然后孿生網(wǎng)絡(luò)訓(xùn)練一個(gè)編碼器,使得。這在孿生網(wǎng)絡(luò)中被稱為正項(xiàng)。

在這項(xiàng)工作中,正項(xiàng)和增強(qiáng)是我本文主要關(guān)注點(diǎn)。正確設(shè)計(jì)的對(duì)于學(xué)習(xí)良好的表示至關(guān)重要,因?yàn)闆](méi)有它的孿生網(wǎng)絡(luò)不能保證中的所有特征都對(duì)下游任務(wù)有用。考慮給定任務(wù)的useful特征 和 trivial特征 ,兩者都滿足負(fù)項(xiàng)。如果,那么孿生網(wǎng)絡(luò)可以從使用增強(qiáng)中受益。由于 g 會(huì)導(dǎo)致更高的正項(xiàng),那么編碼器更有可能通過(guò)訓(xùn)練收斂到 f 而不是 g。因此,通過(guò)向預(yù)訓(xùn)練pipeline添加數(shù)據(jù)增強(qiáng)來(lái)從表示中刪除trivial特征。

此外,傳統(tǒng)模式識(shí)別在圖像分類或?qū)ο髾z測(cè)方面具有手工特征的次優(yōu)性能表明,這些任務(wù)的有用特征不具有數(shù)學(xué)或概念上的簡(jiǎn)單性。因此,當(dāng)設(shè)計(jì)增強(qiáng)時(shí),作者正在尋找數(shù)學(xué)或概念上的簡(jiǎn)單特征,并提出增強(qiáng)以防止網(wǎng)絡(luò)收斂到這些特征。

4.2 Designing Principle

標(biāo)準(zhǔn)增強(qiáng)可防止基于簡(jiǎn)單輸入統(tǒng)計(jì)的表面特征。但是,使用掩蔽輸入,表面特征可能會(huì)利用掩蔽區(qū)域并超過(guò)有用的區(qū)域。將掩碼表示為,將掩碼區(qū)域的填充值表示為。這個(gè)掩蔽圖像可以寫成 。因此,得出了本文的掩蔽設(shè)計(jì)原則。對(duì)于一個(gè)useful特征 和一個(gè) trivial特征,作者要求滿足:

4.3 Spatial Dimension

作者首先關(guān)注空間維度來(lái)研究如何在孿生網(wǎng)絡(luò)中最好地利用掩蔽。首先在同一個(gè)隨機(jī)裁剪上應(yīng)用兩個(gè)隨機(jī)網(wǎng)格掩碼(網(wǎng)格大小 32),掩蔽率固定為 30%,沒(méi)有其他增強(qiáng)。為了克服由任意網(wǎng)格掩碼邊界引入的寄生邊緣問(wèn)題,作者在應(yīng)用掩碼之前應(yīng)用高通濾波器。如上圖所示,使用高通濾波器,寄生邊緣變得不可見(jiàn)。此外,輸入圖像中的特殊值 0 表示空信息,而不是正常的像素值。使用高通濾波器,模型精度提高到 30.2%。

平衡輸入中的短程和長(zhǎng)程特征以學(xué)習(xí)有用的表示是至關(guān)重要的。除了隨機(jī)網(wǎng)格掩碼(grid mask)外,作者還應(yīng)用了焦點(diǎn)掩碼(focal mask)。如上圖所示,焦點(diǎn)蒙版可以看作是隨機(jī)裁剪,無(wú)需調(diào)整大小。作者應(yīng)用 20% 的焦點(diǎn)掩碼和 80% 的網(wǎng)格掩碼。作者隨機(jī)組合了隨機(jī)網(wǎng)格掩碼和焦點(diǎn)掩碼樣本。這將模型精度提高到31.0%。

最后,作者將空間掩蔽設(shè)計(jì)與標(biāo)準(zhǔn)隨機(jī)調(diào)整大小裁剪相結(jié)合。允許兩個(gè)分支使用不同的裁剪視圖。這種組合方法達(dá)到了 40.0% 的準(zhǔn)確率。注意,在沒(méi)有mask的情況下,使用僅裁剪增強(qiáng)的模型只能獲得 33.5% 的準(zhǔn)確率

4.4 Channel Dimension

然后作者關(guān)注在通道維度上設(shè)計(jì)掩碼。首先,作者發(fā)現(xiàn)向mask區(qū)域添加噪聲是有益的。如上圖所示,這可以防止網(wǎng)絡(luò)利用整體顏色直方圖,并且等效于在mask區(qū)域上應(yīng)用顏色抖動(dòng)。向mask區(qū)域添加噪聲可將準(zhǔn)確度從 40.0% 提高到 48.2% 接下來(lái),作者隨機(jī)應(yīng)用一個(gè)通道獨(dú)立的掩碼。除了標(biāo)準(zhǔn)的空間mask,作者在三個(gè)顏色通道上應(yīng)用相同的mask,作者生成三個(gè)隨機(jī)mask并將它們分別應(yīng)用于每個(gè)顏色通道。作者發(fā)現(xiàn)以 70% 的概率應(yīng)用通道獨(dú)立掩碼是最佳的。如上圖所示,這將準(zhǔn)確度提高到 53.6%。

最后,作者將通道m(xù)ask設(shè)計(jì)與標(biāo)準(zhǔn)增強(qiáng)相結(jié)合。通過(guò)在應(yīng)用蒙版之前對(duì)兩個(gè)分支應(yīng)用顏色抖動(dòng)和灰度,該模型達(dá)到了 63.0% 的準(zhǔn)確率。接下來(lái),在兩個(gè)分支上隨機(jī)應(yīng)用高斯模糊將準(zhǔn)確率提高到 65.1%。

4.5 Macro Designs

作者發(fā)現(xiàn)增加兩個(gè)網(wǎng)絡(luò)之間的不對(duì)稱性可以提高準(zhǔn)確性。通過(guò)改變兩個(gè)分支之間的概率,模型精度提高到 65.6%。

掩蔽孿生網(wǎng)絡(luò)在每次迭代中接收的信息較少。作者生成多個(gè)mask輸入并在不對(duì)稱對(duì)上應(yīng)用聯(lián)合嵌入損失。這種多mask設(shè)計(jì)將準(zhǔn)確度提高到 67.4%。最終設(shè)計(jì)比不應(yīng)用mask好 1.0%,比使用標(biāo)準(zhǔn)增強(qiáng)加上隨機(jī)mask好 5.2%。

4.6 Design Summary

按照本文的設(shè)計(jì)原則,作者逐步改進(jìn)了掩蔽策略。將整體設(shè)計(jì)總結(jié)如下:

  • 應(yīng)用標(biāo)準(zhǔn)增強(qiáng):RandomResizedCrop、HorizontalFlip、ColorJitter、Grayscale、GaussianBlur;

  • 應(yīng)用高通濾波器;

  • 應(yīng)用mask(空間維度:焦點(diǎn)掩碼和隨機(jī)網(wǎng)格掩碼 通道維度:通道獨(dú)立掩碼和空間掩碼),并將隨機(jī)噪聲添加到mask區(qū)域;

  • 增加不同分支之間的不對(duì)稱性;

  • 應(yīng)用多重mask。

  • 整體 Masked Siamese ConvNets (MSCN) 架構(gòu)如上圖所示。MSCN 利用任意骨干架構(gòu)和各種聯(lián)合嵌入損失函數(shù)。

    4.實(shí)驗(yàn)

    作者首先使用linear probe和半監(jiān)督分類評(píng)估 ImageNet-1K 數(shù)據(jù)集上的表示。在上表中,作者將 MSCN 與baseline進(jìn)行比較,可以看出,本文方法相比于其他方法有明顯的提升。

    作者在上表中比較了mask對(duì) ConvNet 和 ViT 的影響。具有 ConvNet 主干的 MSCN 與具有 ViT 主干的 MSN 表現(xiàn)出相似的表現(xiàn)。

    作者在上表中報(bào)告了 iNaturalist 2018數(shù)據(jù)集和 Places-205數(shù)據(jù)集上的遷移圖像分類結(jié)果。

    在表中,作者報(bào)告了 VOC07+12 和 COCO 數(shù)據(jù)集上的目標(biāo)檢測(cè)和實(shí)例分割性能。

    在上表中,作者探索了最佳掩蔽率。0.15 的小掩蔽率對(duì)于 ResNet-50 主干網(wǎng)絡(luò)是最佳的。作者還觀察到,使用本文的掩蔽策略,對(duì)于高達(dá) 0.50 的掩蔽率,精度相對(duì)穩(wěn)定。

    在上表中,作者展示了學(xué)習(xí)表示可以從更好的掩碼網(wǎng)格大小中受益。

    在本文的mask策略中,作者應(yīng)用標(biāo)準(zhǔn)增強(qiáng)來(lái)生成多個(gè)視圖,然后在這些視圖上隨機(jī)應(yīng)用mask。一種替代方法是在同一增強(qiáng)視圖上應(yīng)用隨機(jī)掩碼。上表顯示,在同一視圖上應(yīng)用掩碼會(huì)導(dǎo)致顯著更差的表示。

    5. 總結(jié)

    這項(xiàng)工作提出了一種使用 ConvNets 向?qū)\生網(wǎng)絡(luò)添加掩蔽增強(qiáng)的方法。作者首先介紹使用掩蔽作為增強(qiáng)引入的問(wèn)題。然后仔細(xì)研究如何通過(guò)改變掩蔽策略來(lái)逐步提高下游任務(wù)的性能以解決或緩解問(wèn)題。本文的方法在low-shot圖像分類基準(zhǔn)上具有競(jìng)爭(zhēng)力,并且在目標(biāo)檢測(cè)基準(zhǔn)上優(yōu)于以前的方法。

    已建立深度學(xué)習(xí)公眾號(hào)——FightingCV,歡迎大家關(guān)注!!!

    ICCV、CVPR、NeurIPS、ICML論文解析匯總:https://github.com/xmu-xiaoma666/FightingCV-Paper-Reading

    面向小白的Attention、重參數(shù)、MLP、卷積核心代碼學(xué)習(xí):https://github.com/xmu-xiaoma666/External-Attention-pytorch

    參考資料

    [1]

    https://arxiv.org/abs/2206.07700: https://arxiv.org/abs/2206.07700

    本文由 mdnice 多平臺(tái)發(fā)布

    總結(jié)

    以上是生活随笔為你收集整理的未命名文章图灵奖Yann LeCun团队提出Masked Siamese ConvNets,让Mask策略也能应用于基于ViT的孪生网络,进行自监督学习!的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。