當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

一文看清这些年自监督和无监督的进展

發布時間：2025/3/8 编程问答 17 豆豆

生活随笔收集整理的這篇文章主要介紹了一文看清这些年自监督和无监督的进展小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

最早在2005年被Sumit Chopra et all提出.對比學習是一種從相似/不相似數據pair對中學習相似/不相似表征的框架。常見的損失函數就是InfoNCE，如下所示:

q是query樣本的表達,k+和k-分別是正例和負例的表達.通常q和k是同一個圖片的增強樣本.最后溫度超參tau用戶調節敏感度,這在很多對比學習論文中都是這樣的思路.

最著名的莫屬Ting Chen et al提出的SimCLR.

首先，我們通過對一個mini-batch做增強,以獲得positive pair。然后，將相同的編碼器f和投影g（MLP）應用于增強樣本。最后，我們應用上面定義的對比損失來最大化相同樣本圖像的positive pair之間的一致性，最小化距離。需要注意的是，batchsize越大，對比學習框架中的負面樣本就越多,這帶來了計算復雜度。

Ishan Misra et al提出PIRL,上圖顯示了PIRL框架的概述。I_t是原始樣本圖像I的增強樣本，而θ表示主編碼器（ResNet）的權重，f和g是兩個獨立的投影（全連接層）。正如我們所看到的，我們需要獲得9個變換/增強的圖像塊，并連接它們的表示。最后使用下式進行對比學習:

m_I是原始圖像的特征向量,用完會存在memory bank M中,因此上式的目標就是最大化特征向量m_I和來自兩個分支的相應投影之間的一致性。需要注意負樣本是從memory bank中隨機抽取的。

Kaiming He et al 提出MoCo, 如下圖所示:

如上圖所示，作者放棄了在整個訓練過程中存儲特征表示的memory bank，因為它在訓練中會帶來內存開銷。相反，他們引入了一個momentum encoder，該編碼器被更新為主要在線編碼器的移動平均值。此外，他們提出字典作為隊列結構（先進先出），它還存儲特征表示。它比內存庫小得多，因為作者認為不需要存儲過去epoch獲得的特征向量。如圖中所示，對比損失是通過最小化來自兩個網絡的圖像增強pair對的表示距離和最大化從字典中隨機抽樣的表示距離來實現的。有趣的是，有很多研究表明，由memory實現的表示平均與momentum encoder非常相似。然而，動量編碼器顯著降低了內存成本。

偽代碼如下:

MoCo v2對原始框架進行了一些修改。根據上圖，總結如下：

1、兩個encoder增加了mlp作為最終模塊,如下代碼所示.我們可以看到，我們只是用一對全連接層替換最后一個完全連接的層，中間有ReLU激活（隱藏層2048-d，帶有ReLU）。

2、更強的數據增強方式(blur augmentation)

3、學習率(cosine learning rate scheduler)

MoCo v3偽代碼如下:

總結就是所有mlp都有BN,并且batch size在4096效果足夠好,偽代碼中的backbone可以嘗試用ViT做替換.

BYOL完全放棄了MoCo和PIRL使用的字典和Memory Buffer的方式,提出了prediction head.上圖中,我們可以看到prediction head是作為在線encoder的,并且嘗試去預估momentum encoder的投影,prediction head的存在就是避免所有representation都是一樣的.

作者完全放棄使用陰性樣本，并提出如下損失:

此外還有Siamese和RAFT.以下參考文獻中的論文都推薦大家詳細閱讀.

1、Learning a Similarity Metric Discriminatively, with Application to Face Verification http://yann.lecun.com/exdb/publis/pdf/chopra-05.pdf 2、A Simple Framework for Contrastive Learning of Visual Representations https://arxiv.org/pdf/2002.05709.pdf 3、Self-Supervised Learning of Pretext-Invariant Representations https://arxiv.org/pdf/1912.01991.pdf 4、Momentum Contrast for Unsupervised Visual Representation Learning https://arxiv.org/pdf/1911.05722.pdf 5、Bootstrap Your Own Latent A New Approach to Self-Supervised Learning https://arxiv.org/pdf/2006.07733.pdf 6、An Empirical Study of Training Self-Supervised Vision Transformers https://arxiv.org/pdf/2104.02057.pdf 7、Exploring Simple Siamese Representation Learning https://arxiv.org/pdf/2011.10566.pdf 8、RUN AWAY FROM YOUR TEACHER: UNDERSTANDING BYOL BY A NOVEL SELF-SUPERVISED APPROACH https://arxiv.org/pdf/2011.10944.pdf

總結

以上是生活随笔為你收集整理的一文看清这些年自监督和无监督的进展的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：用Dropout思想做特征选择，保证效果
下一篇： Transformer总结(2022版)