當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Kaggle知识点：对比学习基础

發(fā)布時間：2025/3/12 编程问答 26 豆豆

生活随笔收集整理的這篇文章主要介紹了 Kaggle知识点：对比学习基础小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

對比表示學習的目標是學習一個嵌入空間，其中相似的樣本對彼此靠近，而不同的樣本對相距很遠。對比學習可以應用于有監(jiān)督和無監(jiān)督設置。在處理無監(jiān)督數(shù)據(jù)時，對比學習是自監(jiān)督學習中最強大的方法之一。

對比學習損失函數(shù)

在早期版本的對比學習損失函數(shù)中，只涉及一個正樣本和一個負樣本。最近訓練目標的趨勢是在一批中包含多個正負對。

對比損失

對比損失（Chopra et al. 2005）是以對比方式用于深度度量學習的最早訓練目標之一。

給定輸入樣本列表，每個都有對應的標簽之中的類。我們想學習一個函數(shù)編碼嵌入向量中，使得來自同一類的示例具有相似的嵌入，而來自不同類的樣本具有非常不同的嵌入。

因此對比損失需要一對輸入當它們來自同一類時最小化嵌入距離，否則最大化距離。

Triplet Loss

Triplet loss最初是在 FaceNet ( Schroff et al. 2015 ) 論文中提出的，用于學習同一個人在不同姿勢和角度的人臉識別。

給定一個錨輸入，我們選擇一個正樣本和一個負樣本。Triplet Lss最小化錨輸入與正樣本之間的距離，并最大化錨輸入與負樣本的距離：

402 Payment Required

NCE

噪聲對比估計NCE是一種估計統(tǒng)計模型參數(shù)的方法，由Gutmann 在2010年提出。其想法是運行邏輯回歸以區(qū)分目標數(shù)據(jù)和噪聲。

其中為目標樣本，為噪音樣本。

InfoNCE

InfoNCE使用分類交叉熵損失來識別一組不相關(guān)的噪聲樣本中的正樣本。InfoNCE 損失優(yōu)化了正確分類正樣本的負對數(shù)概率：

402 Payment Required

對比學習關(guān)鍵點

數(shù)據(jù)增強

給定一個訓練樣本，可使用數(shù)據(jù)增強技術(shù)來創(chuàng)建自身的噪聲版本，以作為正樣本輸入損失。正確的數(shù)據(jù)增強設置非常重要，它可以不修改語義的情況下引入樣本的非本質(zhì)變化，從而鼓勵模型學習樣本的核心語義。

例如，SimCLR中的實驗表明，隨機裁剪和隨機顏色失真的組合是圖像菲比學習的關(guān)鍵數(shù)據(jù)增強方法。

大 Batch Size

在訓練期間Batch Size設置的很大是許多對比學習方法（例如SimCLR、CLIP）成功的另一個關(guān)鍵因素。

只有當批大小足夠大時，損失函數(shù)才能覆蓋足夠多樣化的負樣本集合，具有足夠的挑戰(zhàn)性，使模型能夠?qū)W習有意義的表示來區(qū)分不同的示例。

Hard Negative Example

Hard Negative Example應該具有與錨樣本不同的標簽，但具有非常接近錨嵌入的嵌入特征。通過訪問監(jiān)督數(shù)據(jù)集中的真實標簽，很容易識別特定于任務的硬否定。

Vision: Image Embedding

基本圖像增強

有很多方法可以修改圖像，同時保留其語義。我們可以使用以下任何一種擴充或多個操作的組合。

隨機裁剪
隨機顏色失真
隨機高斯模糊
隨機顏色抖動
隨機水平翻轉(zhuǎn)
隨機灰度轉(zhuǎn)換
AutoAugment
RandAugment
UDA
Mixup
CutMix

Parallel Augmentation

SimCLR計算同一樣本的不同數(shù)據(jù)增強下的對比損失，使用InfoNCE搭配大Batch Size進行訓練。

Language: Sentence Embedding

基礎的文本數(shù)據(jù)增強

EDA定義了一組簡單但功能強大的文本增強操作。給定一個句子，EDA 隨機選擇并應用四個簡單操作之一：

同義詞替換（SR）
隨機插入（RI）
隨機交換（RS）
隨機刪除（RD）

SimCSE使用Dropout噪聲從一個句子來從無監(jiān)督數(shù)據(jù)中學習。SimCSE將Dropout視為文本序列的數(shù)據(jù)增強。一個樣本被簡單地輸入編碼器兩次，構(gòu)成了一個正樣本對，而其他批內(nèi)樣本被視為負對。

Sentence-BERT

SBERT (Sentence-BERT) 使用孿生網(wǎng)絡學習句子嵌入，通過嵌入對之間的余弦相似度來估計句子相似度。

往期精彩回顧適合初學者入門人工智能的路線及資料下載(圖文+視頻)機器學習入門系列下載中國大學慕課《機器學習》（黃海廣主講）機器學習及深度學習筆記等資料打印《統(tǒng)計學習方法》的代碼復現(xiàn)專輯 AI基礎下載機器學習交流qq群955171419，加入微信群請掃碼：

與50位技術(shù)專家面對面20年技術(shù)見證，附贈技術(shù)全景圖

總結(jié)

以上是生活随笔為你收集整理的Kaggle知识点：对比学习基础的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：后台返回给前端json字段的大小写问题，
下一篇：使用中断后不停止_乔丹体育公司构成侵权，