再介绍一篇Contrastive Self-supervised Learning综述论文
文 | 黃浴
源 | 知乎
之前已經介紹過三篇自監督學習的綜述:《怎樣緩解災難性遺忘?持續學習最新綜述三篇!》。這是最近2020年10月arXiv上的又一篇論文"A Survey On Contrastive Self-supervised Learning"。
論文地址:
https://arxiv.org/pdf/2011.00362.pdf
Arxiv訪問慢的小伙伴也可以在【夕小瑤的賣萌屋】訂閱號后臺回復關鍵詞【1222】下載論文PDF~
自監督學習能避免注釋大型數據集帶來的成本,即采用自定義pseudo-labels作為監督,并將學習的表示形式用于多個下游任務。具體而言,contrastive learning最近已成為在計算機視覺、自然語言處理(NLP)和其他領域中自監督學習方法的主要部分。
本文對contrastive learning方法的自監督方法進行了綜述,包括contrastive learning中常用的pretext任務,以及提出的不同體系結構,并對多種下游任務(例如圖像分類、目標檢測和動作識別)的不同方法進行性能比較。最后,對方法的局限性以及未來方向做了介紹。
自監督學習方法
如圖是示意contrastive learning的直覺基礎:推進原圖像和其增強positive更近,而推開原圖像和其negative更遠。
自監督學習方法集成了generative方法和contrastive方法,利用未標數據來學習基礎表示。pseudo-labels是一個普遍技術,幫助在各種pretext任務中學習特征。目前已經看到,在image-inpainting, colorizing greyscale images, jigsaw puzzles, super-resolution, video frame prediction, audio-visual correspondence等任務中,學習好的表示方式已經很有效。
generative方法,如GAN,已經是不錯的結果,但訓練不容易:(a)不收斂;(b)鑒別器過于成功而無法繼續學習。contrastive learning (CL)是discriminative方法,如圖所示:用于自監督學習。
pretext任務是自監督類,用pseudo-label來學習數據的表示形式。這些pseudo-label根據數據屬性自動生成。從pretext任務中學習的模型可用于計算機視覺下游任務,例如分類、分割、檢測等。此外,這些任務可用任何類型數據,例如圖像、視頻、語音、信號等。對于一個contrastive learning (CL)中的pretext任務,原始圖像充當錨點,其增強(轉換)版充當positive樣本,而其余批處理或訓練數據中的圖像充當negative樣本。大多數常用的pretext任務分為四個主要類別:顏色轉換、幾何轉換、基于上下文任務和基于模式交叉任務,如下圖所示?;谝鉀Q的問題,這些pretext任務已在各樣方案中使用。
顏色/幾何變換如下:
如下基于上下文:
Jigsaw puzzle
Spatiotemporal contrastive video representation learning
Contrastive Predictive Coding: Representation learning
cross modal-based如下:view prediction
Learning representation from video frame sequence
pretext任務確定
pretext任務依賴對所解決問題的類型,所以需要任務確定。如下圖這個fined grain recognition例子,不適合用colorization。
DTD數據集樣本(如圖所示)例子,rotation不合適紋理圖像。
Contrastive learning方法依靠negative樣本的數量來生成高質量的表示。如同字典查找任務,字典有時是整個訓練集,而其他時候就是某些子集。一種有趣的分類方法是,基于訓練過程中針對positive數據點來收集negative樣本的方式,如圖分成四個主要架構:(a)兩個編碼器的E2E訓練,一個生成positive樣本的表示,另一種生成negative樣本的表示(b)使用memory bank存儲和檢索negative樣本的編碼結果(c)使用momentum encoder 作為訓練中負樣本編碼的動態字典查找(d)clustering機制:采用端到端架構,從兩個編碼器獲得的表示做交換預測。
編碼器
編碼器的角色如圖所示:一個contrastive learning加編碼器構成的自監督學習流水線。
在編碼器中,來自特定層的輸出池化,獲取每個樣本的一維特征向量。有方法的不同,可以上采樣或下采樣。
為訓練編碼器,使用pretext任務,其用contrastive損失進行反向傳播(BP)。contrastive學習的中心思想是使相似的例子靠的更近,使相異的例子彼此遠離。實現的一種方法是使用相似性度量,該度量計算兩個樣本嵌入之間的緊密度(closeness)。
在contrastive設置中,最常用的相似度度量是余弦相似度,作為不同contrastive損失函數的基礎。Noise Contrastive Estimation (NCE)定義如下
如果negative樣本很大,一個改進版InfoNCE,定義為
下游任務在計算機視覺中包括classification、detection、localization、segmentation、future prediction等。如圖是一個概覽:pretext任務的知識,被遷移到下游任務;遷移學習的性能,決定了學習的特征具備怎樣的泛化能力。
衡量pretext任務對下游任務的效果,常常采用:kernel visualization、feature map visualization和nearest-neighbor based 等方法。
如圖是Attention maps的可視化,包括監督和自監督方法:
還有top-K retrieval用來分析好壞。
Benchmark
如下是ImageNet的比較:
這是在Places數據的表現:
下面還有目標檢測的表現比較:
視頻數據性能如下:
以及NLP比較:
討論和方向
缺乏理論基礎
數據增強和pretext任務的選擇困難
訓練中合適的negative樣本采樣難
數據集biases存在
后臺回復關鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
后臺回復關鍵詞【頂會】
獲取ACL、CIKM等各大頂會論文集!
總結
以上是生活随笔為你收集整理的再介绍一篇Contrastive Self-supervised Learning综述论文的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 从前馈到反馈:解析循环神经网络(RNN)
- 下一篇: 不卷学术了,这次卷一波NLP实战落地经验