Kaggle知识点:对比学习基础
對比表示學習的目標是學習一個嵌入空間,其中相似的樣本對彼此靠近,而不同的樣本對相距很遠。對比學習可以應用于有監(jiān)督和無監(jiān)督設置。在處理無監(jiān)督數(shù)據(jù)時,對比學習是自監(jiān)督學習中最強大的方法之一。
對比學習損失函數(shù)
在早期版本的對比學習損失函數(shù)中,只涉及一個正樣本和一個負樣本。最近訓練目標的趨勢是在一批中包含多個正負對。
對比損失
對比損失(Chopra et al. 2005)是以對比方式用于深度度量學習的最早訓練目標之一。
給定輸入樣本列表,每個都有對應的標簽之中的類。我們想學習一個函數(shù)編碼嵌入向量中,使得來自同一類的示例具有相似的嵌入,而來自不同類的樣本具有非常不同的嵌入。
因此對比損失需要一對輸入當它們來自同一類時最小化嵌入距離,否則最大化距離。
Triplet Loss
Triplet loss最初是在 FaceNet ( Schroff et al. 2015 ) 論文中提出的,用于學習同一個人在不同姿勢和角度的人臉識別。
給定一個錨輸入,我們選擇一個正樣本和一個負樣本。Triplet Lss最小化錨輸入與正樣本之間的距離,并最大化錨輸入與負樣本的距離:
402 Payment Required
NCE
噪聲對比估計NCE是一種估計統(tǒng)計模型參數(shù)的方法,由Gutmann 在2010年提出。其想法是運行邏輯回歸以區(qū)分目標數(shù)據(jù)和噪聲。
其中為目標樣本,為噪音樣本。
InfoNCE
InfoNCE使用分類交叉熵損失來識別一組不相關(guān)的噪聲樣本中的正樣本。InfoNCE 損失優(yōu)化了正確分類正樣本的負對數(shù)概率:
402 Payment Required
對比學習關(guān)鍵點
數(shù)據(jù)增強
給定一個訓練樣本,可使用數(shù)據(jù)增強技術(shù)來創(chuàng)建自身的噪聲版本,以作為正樣本輸入損失。正確的數(shù)據(jù)增強設置非常重要,它可以不修改語義的情況下引入樣本的非本質(zhì)變化,從而鼓勵模型學習樣本的核心語義。
例如,SimCLR中的實驗表明,隨機裁剪和隨機顏色失真的組合是圖像菲比學習的關(guān)鍵數(shù)據(jù)增強方法。
大 Batch Size
在訓練期間Batch Size設置的很大是許多對比學習方法(例如SimCLR、CLIP)成功的另一個關(guān)鍵因素。
只有當批大小足夠大時,損失函數(shù)才能覆蓋足夠多樣化的負樣本集合,具有足夠的挑戰(zhàn)性,使模型能夠?qū)W習有意義的表示來區(qū)分不同的示例。
Hard Negative Example
Hard Negative Example應該具有與錨樣本不同的標簽,但具有非常接近錨嵌入的嵌入特征。通過訪問監(jiān)督數(shù)據(jù)集中的真實標簽,很容易識別特定于任務的硬否定。
Vision: Image Embedding
基本圖像增強
有很多方法可以修改圖像,同時保留其語義。我們可以使用以下任何一種擴充或多個操作的組合。
隨機裁剪
隨機顏色失真
隨機高斯模糊
隨機顏色抖動
隨機水平翻轉(zhuǎn)
隨機灰度轉(zhuǎn)換
AutoAugment
RandAugment
UDA
Mixup
CutMix
Parallel Augmentation
SimCLR計算同一樣本的不同數(shù)據(jù)增強下的對比損失,使用InfoNCE搭配大Batch Size進行訓練。
Language: Sentence Embedding
基礎的文本數(shù)據(jù)增強
EDA定義了一組簡單但功能強大的文本增強操作。給定一個句子,EDA 隨機選擇并應用四個簡單操作之一:
同義詞替換(SR)
隨機插入(RI)
隨機交換(RS)
隨機刪除(RD)
SimCSE使用Dropout噪聲從一個句子來從無監(jiān)督數(shù)據(jù)中學習。SimCSE將Dropout視為文本序列的數(shù)據(jù)增強。一個樣本被簡單地輸入編碼器兩次,構(gòu)成了一個正樣本對,而其他批內(nèi)樣本被視為負對。
Sentence-BERT
SBERT (Sentence-BERT) 使用孿生網(wǎng)絡學習句子嵌入,通過嵌入對之間的余弦相似度來估計句子相似度。
往期精彩回顧適合初學者入門人工智能的路線及資料下載(圖文+視頻)機器學習入門系列下載中國大學慕課《機器學習》(黃海廣主講)機器學習及深度學習筆記等資料打印《統(tǒng)計學習方法》的代碼復現(xiàn)專輯 AI基礎下載機器學習交流qq群955171419,加入微信群請掃碼: 與50位技術(shù)專家面對面20年技術(shù)見證,附贈技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的Kaggle知识点:对比学习基础的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 后台返回给前端json字段的大小写问题,
- 下一篇: 使用中断后不停止_乔丹体育公司构成侵权,