當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

再介绍一篇Contrastive Self-supervised Learning综述论文

發布時間：2024/7/5 编程问答 63 豆豆

生活随笔收集整理的這篇文章主要介紹了再介绍一篇Contrastive Self-supervised Learning综述论文小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文 | 黃浴

源 | 知乎

之前已經介紹過三篇自監督學習的綜述：《怎樣緩解災難性遺忘？持續學習最新綜述三篇！》。這是最近2020年10月arXiv上的又一篇論文"A Survey On Contrastive Self-supervised Learning"。

論文地址：

https://arxiv.org/pdf/2011.00362.pdf

Arxiv訪問慢的小伙伴也可以在【夕小瑤的賣萌屋】訂閱號后臺回復關鍵詞【1222】下載論文PDF~

自監督學習能避免注釋大型數據集帶來的成本，即采用自定義pseudo-labels作為監督，并將學習的表示形式用于多個下游任務。具體而言，contrastive learning最近已成為在計算機視覺、自然語言處理（NLP）和其他領域中自監督學習方法的主要部分。

本文對contrastive learning方法的自監督方法進行了綜述，包括contrastive learning中常用的pretext任務，以及提出的不同體系結構，并對多種下游任務（例如圖像分類、目標檢測和動作識別）的不同方法進行性能比較。最后，對方法的局限性以及未來方向做了介紹。

自監督學習方法

如圖是示意contrastive learning的直覺基礎：推進原圖像和其增強positive更近，而推開原圖像和其negative更遠。

自監督學習方法集成了generative方法和contrastive方法，利用未標數據來學習基礎表示。pseudo-labels是一個普遍技術，幫助在各種pretext任務中學習特征。目前已經看到，在image-inpainting, colorizing greyscale images, jigsaw puzzles, super-resolution, video frame prediction, audio-visual correspondence等任務中，學習好的表示方式已經很有效。

generative方法，如GAN，已經是不錯的結果，但訓練不容易：（a）不收斂；（b）鑒別器過于成功而無法繼續學習。contrastive learning (CL)是discriminative方法，如圖所示：用于自監督學習。

pretext任務是自監督類，用pseudo-label來學習數據的表示形式。這些pseudo-label根據數據屬性自動生成。從pretext任務中學習的模型可用于計算機視覺下游任務，例如分類、分割、檢測等。此外，這些任務可用任何類型數據，例如圖像、視頻、語音、信號等。對于一個contrastive learning (CL)中的pretext任務，原始圖像充當錨點，其增強（轉換）版充當positive樣本，而其余批處理或訓練數據中的圖像充當negative樣本。大多數常用的pretext任務分為四個主要類別：顏色轉換、幾何轉換、基于上下文任務和基于模式交叉任務，如下圖所示?；谝鉀Q的問題，這些pretext任務已在各樣方案中使用。

顏色/幾何變換如下：

如下基于上下文：

Jigsaw puzzle

Spatiotemporal contrastive video representation learning

Contrastive Predictive Coding: Representation learning

cross modal-based如下：view prediction

Learning representation from video frame sequence

pretext任務確定

pretext任務依賴對所解決問題的類型，所以需要任務確定。如下圖這個fined grain recognition例子，不適合用colorization。

DTD數據集樣本（如圖所示）例子，rotation不合適紋理圖像。

Contrastive learning方法依靠negative樣本的數量來生成高質量的表示。如同字典查找任務，字典有時是整個訓練集，而其他時候就是某些子集。一種有趣的分類方法是，基于訓練過程中針對positive數據點來收集negative樣本的方式，如圖分成四個主要架構：（a）兩個編碼器的E2E訓練，一個生成positive樣本的表示，另一種生成negative樣本的表示（b）使用memory bank存儲和檢索negative樣本的編碼結果（c）使用momentum encoder 作為訓練中負樣本編碼的動態字典查找（d）clustering機制：采用端到端架構，從兩個編碼器獲得的表示做交換預測。

編碼器

編碼器的角色如圖所示：一個contrastive learning加編碼器構成的自監督學習流水線。

在編碼器中，來自特定層的輸出池化，獲取每個樣本的一維特征向量。有方法的不同，可以上采樣或下采樣。

為訓練編碼器，使用pretext任務，其用contrastive損失進行反向傳播（BP）。contrastive學習的中心思想是使相似的例子靠的更近，使相異的例子彼此遠離。實現的一種方法是使用相似性度量，該度量計算兩個樣本嵌入之間的緊密度（closeness）。

在contrastive設置中，最常用的相似度度量是余弦相似度，作為不同contrastive損失函數的基礎。Noise Contrastive Estimation (NCE)定義如下

如果negative樣本很大，一個改進版InfoNCE，定義為

下游任務在計算機視覺中包括classification、detection、localization、segmentation、future prediction等。如圖是一個概覽：pretext任務的知識，被遷移到下游任務；遷移學習的性能，決定了學習的特征具備怎樣的泛化能力。

衡量pretext任務對下游任務的效果，常常采用：kernel visualization、feature map visualization和nearest-neighbor based 等方法。

如圖是Attention maps的可視化，包括監督和自監督方法：

還有top-K retrieval用來分析好壞。

Benchmark

如下是ImageNet的比較：

這是在Places數據的表現：

下面還有目標檢測的表現比較：

視頻數據性能如下：

以及NLP比較：

討論和方向

缺乏理論基礎

數據增強和pretext任務的選擇困難

訓練中合適的negative樣本采樣難

數據集biases存在

后臺回復關鍵詞【入群】

加入賣萌屋NLP/IR/Rec與求職討論群

后臺回復關鍵詞【頂會】

獲取ACL、CIKM等各大頂會論文集！

總結

以上是生活随笔為你收集整理的再介绍一篇Contrastive Self-supervised Learning综述论文的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：从前馈到反馈：解析循环神经网络（RNN）
下一篇：不卷学术了，这次卷一波NLP实战落地经验