日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

图灵奖大佬 Lecun 发表对比学习新作,比 SimCLR 更好用!

發(fā)布時間:2024/7/5 编程问答 61 豆豆
生活随笔 收集整理的這篇文章主要介紹了 图灵奖大佬 Lecun 发表对比学习新作,比 SimCLR 更好用! 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文 | Rukawa_Y
編 | 智商掉了一地,Sheryc_王蘇

比 SimCLR 更好用的 Self-Supervised Learning,一起來看看吧!

Self-Supervised Learning作為深度學習中的獨孤九劍,當融匯貫通靈活應用之后,也能打敗聲名在外的武當太極劍。比如在NLP領域中,每當遇到文本分類的問題,BERT + funetuning的套路來應對,但是也正因為如此大家解決問題的思路出現(xiàn)固化。也正是這個原因,當本菜鳥第一次接觸到Self-Supervised Learning這個概念時,就在項目中嘗試應用Self-Supervised的SimCLR方法,但是卻事與愿違,模型的預測效果并沒有顯著地提升,反而出現(xiàn)了一丟丟的下降,等厚著臉皮求助大佬后才明白,SimCLR對于模型效果的提升必須基于大Batch Size才會有效果。

而在近期,由 Yann Lecun 等人發(fā)表了一篇題為《Decouple Contrastive Learning》的論文,其中仔細分析了SimCLR和其他自監(jiān)督學習模型所使用的InfoNCE損失函數(shù),僅僅對InfoNCE的表達式進行了一處修改,就大大緩解了InfoNCE對于大Batch Size的需求問題,并在不同規(guī)模的Vision Benchmarks上均取得優(yōu)于SimCLR的結果。

接下來就讓我們跟隨論文的思路,一起學習Decoupled Contrastive Learning吧。

論文標題
Decoupled Contrastive Learning

論文鏈接
https://arxiv.org/abs/2110.06848

1 對比學習中正負樣本的解耦

作為本文的背景,我們先來介紹一下SimCLR的基本思想,它是對訓練樣本做數(shù)據(jù)增強(例如對于圖像進行裁剪等),訓練模型讓同一圖片增強后得到的表示相近,并互斥不同圖片增強后的表示。

論文從SimCLR所使用的InfoNCE損失函數(shù)開始分析。InfoNCE對于其中一個樣本的增強數(shù)據(jù)的InfoNCE損失函數(shù)如下:

其中所使用的各個變量的意義分別為:

  • 為一個Batch中所使用的樣本, 為Batch Size;

  • 是樣本增強后的兩個數(shù)據(jù);

  • 是對于Batch中所有樣本增強后的數(shù)據(jù)集合;

  • 是樣本的增強數(shù)據(jù)輸入到Encode Layer中所對應的輸出;

  • 是歸一化后的表示。

InfoNCE的損失函數(shù)分別求對于,和的梯度:(這里作者對梯度進行了一定的變化,變化過程可參照論文附錄的第一部分)

其中需要注意的是損失函數(shù)的梯度中均有一個系數(shù),這個系數(shù)導致模型訓練的梯度發(fā)生了放縮。該系數(shù)的具體形式如下:

作者將這個導致SimCLR模型梯度放縮的系數(shù)稱為Negative-Positive Coupling (NPC) Multiplier,即NPC乘數(shù)。NPC乘數(shù)分子和分母上出現(xiàn)的中衡量了正樣本對的相似度,而分母上出現(xiàn)的則衡量了負樣本對的相似度。

顧名思義,對訓練的影響與正負樣本的耦合有關:當負樣本較為分散時,正樣本同樣可能較為分散;反之,當正樣本較為緊湊時,負樣本同樣可能較為緊湊。論文中對于不同情形下的NPC乘數(shù)進行了定性分析,總結如下:

  • 當訓練使用的正樣本較分散時,負樣本可能同樣比較分散。此時正樣本為Hard Positive,負樣本為Easy Negative。這使得NPC乘數(shù)分子分母上的相似度同時減小,得到的小于1的NPC乘數(shù)會減小Hard Positive帶來的梯度幅度

  • 當訓練使用的負樣本較緊湊時,正樣本可能同樣比較緊湊。此時正樣本為Easy Positive,負樣本為Hard Negative。這使得NPC乘數(shù)分子分母上的相似度同時增大,得到的小于1的NPC乘數(shù)會減小Hard Negative帶來的梯度幅度

  • Batch Size較小時,分母上對Batch中負樣本相似度的求和會受限于Batch Size,得到更小的NPC乘數(shù),使得梯度幅度進一步被減小

由此可見,SimCLR對于大Batch Size的需求很可能來自于NPC乘數(shù)對于梯度的縮小。Batch Size同NPC乘數(shù)分布的具體的關系見下圖:

從圖中可以明顯看出,Batch Size越小,的分布越接近于;Batch Size越大,的分布越接近于。同時作者還給出了的均值和離散系數(shù)同Batch Size的關系,見下圖:

可以看出,小的Batch Size使得的均值減小,離散系數(shù)增大,從而使得訓練過程中的梯度被大幅縮小。

綜上所述,SimCLR等自監(jiān)督模型中對于大Batch Size的需求問題一定程度上來自于。論文的作者由此修改了InfoNCE的公式來消除的影響,從而引出了本文的核心:Decoupled Contrastive Learning Loss。

2 Decoupled Contrastive Learning

既然NPC乘數(shù)的存在會使得梯度被縮小,那么移除掉NPC乘數(shù)不就能解決上面的問題了么?通過將導數(shù)中的NPC乘數(shù)移除,作者推導出了下面的損失函數(shù)。在這個損失函數(shù)中,正負樣本的耦合帶來的梯度放縮被消去,作者將該損失稱為Decoupled Contrastive Learning (DCL) Loss,即解耦對比損失函數(shù)

可見,Decoupled Constrive Learning中的損失直接去掉了SimCLR損失函數(shù)分母中兩個正樣本對之間的相似度,從而直接計算正樣本對的相似度同所有負樣本對相似度之和的比值。

Decoupled Contrastive Learning中所對應的梯度如下:

我們同樣針對正負樣本對耦合和Batch Size較小的情況,具體分析反向傳播過程中的梯度:因為缺少了NPC這個系數(shù)的影響,當出現(xiàn)正負樣本耦合的情況,正負樣本比較分散(Hard Positive + Easy Negative)或者正負樣本比較集中(Easy Positive + Hard Negative)反向傳播過程中梯度幅度就不會減少,同時因為沒有了NPC系數(shù)的存在,比較小的Batch Size也就不會使得梯度幅度變得很小。

綜上所述,消去了NPC乘數(shù)的DCL損失函數(shù)能較SimCLR損失取得更好的效果,后面的實驗結果也對此進行了證明。

同時論文的作者還提出了一種DCL損失的變形,即對DCL損失中衡量正樣本對相似度的一項增加一個權重。作者將其稱為DCLW損失

上式中,權重使用負von Mises-Fisher權重函數(shù)

且。為參數(shù),在后續(xù)實驗中取0.5。這一權重使得在出現(xiàn)Hard Positive時能增大其提供的訓練信號。顯然,是的一個特殊情況。

總結來說,DCL損失僅在SimCLR所采用的損失函數(shù)基礎上采取了一些小的改動,使得模型能夠在訓練過程中也不要求大Batch Size,同時對正負樣本對進行解耦。

3 實驗結果

論文作者首先比較在不同的Batch Size下,使用DCL損失和InfoNCE損失的SimCLR在ImageNet、STL10、CIFAR10和CIFAR100數(shù)據(jù)集上的表現(xiàn):

可以發(fā)現(xiàn)在不同的Batch Size上,DCL損失的效果均優(yōu)于SimCLR。同時,Batch Size越小,DCL損失提供的性能提升越大,這與先前的理論推導一致。

作者又比較了在Batch Size固定為256,epoch固定為200時的DCL損失和加權重的DCLW損失,結果如下:

可以看出,DCLW損失相較于DCL損失能進一步提升模型效果,甚至在ImageNet-1K上能夠以256的Batch Size超越SimCLR使用8192 Batch Size的結果,66.2%。可見,DCL和DCLW損失能夠通過較小的改動解決SimCLR對于大Batch Size的依賴。

4 文章小結

本篇論文針對自監(jiān)督學習中的SimCLR方法為何要求較大Batch Size的原因開始分析,提出了一種可以讓自監(jiān)督學習在較小的Batch Size上取得很好效果的loss函數(shù),大幅降低了自監(jiān)督學習的計算成本,使得自監(jiān)督學習可以有更廣泛的應用。

除此之外,本篇論文還分析了SimCLR中使用的loss函數(shù)在反向傳播梯度計算中的問題時,提出的一種名為正負樣本耦合(Negative-Positive Coupling) 現(xiàn)象,同時也給予了我們一定的啟發(fā),如果是同SimCLR中所用的InfoNCE形式不相同的loss函數(shù),在計算梯度的時候,是否也會有正負樣本耦合現(xiàn)象,或者說不僅僅有正負樣本耦合的現(xiàn)象,還有例如對于不同正樣本的,在不同負樣本之間的負負樣本耦合的現(xiàn)象等,如果能夠分析出Self-Supervised Learning中不同方法可能存在不同的耦合現(xiàn)象,那么我們是否可以進一步地提升自監(jiān)督模型的效果,這些都是值得我們?nèi)ニ伎己吞剿鞯摹?/p>

后臺回復關鍵詞【入群

加入賣萌屋NLP/IR/Rec與求職討論群

后臺回復關鍵詞【頂會

獲取ACL、CIKM等各大頂會論文集!

總結

以上是生活随笔為你收集整理的图灵奖大佬 Lecun 发表对比学习新作,比 SimCLR 更好用!的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。