日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Kaggle知识点:对比学习基础

發(fā)布時間:2025/3/12 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Kaggle知识点:对比学习基础 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

對比表示學習的目標是學習一個嵌入空間,其中相似的樣本對彼此靠近,而不同的樣本對相距很遠。對比學習可以應用于有監(jiān)督和無監(jiān)督設置。在處理無監(jiān)督數(shù)據(jù)時,對比學習是自監(jiān)督學習中最強大的方法之一。

對比學習損失函數(shù)

在早期版本的對比學習損失函數(shù)中,只涉及一個正樣本和一個負樣本。最近訓練目標的趨勢是在一批中包含多個正負對。

對比損失

對比損失(Chopra et al. 2005)是以對比方式用于深度度量學習的最早訓練目標之一。

給定輸入樣本列表,每個都有對應的標簽之中的類。我們想學習一個函數(shù)編碼嵌入向量中,使得來自同一類的示例具有相似的嵌入,而來自不同類的樣本具有非常不同的嵌入。

因此對比損失需要一對輸入當它們來自同一類時最小化嵌入距離,否則最大化距離。

Triplet Loss

Triplet loss最初是在 FaceNet ( Schroff et al. 2015 ) 論文中提出的,用于學習同一個人在不同姿勢和角度的人臉識別。

給定一個錨輸入,我們選擇一個正樣本和一個負樣本。Triplet Lss最小化錨輸入與正樣本之間的距離,并最大化錨輸入與負樣本的距離:

402 Payment Required

NCE

噪聲對比估計NCE是一種估計統(tǒng)計模型參數(shù)的方法,由Gutmann 在2010年提出。其想法是運行邏輯回歸以區(qū)分目標數(shù)據(jù)和噪聲。

其中為目標樣本,為噪音樣本。

InfoNCE

InfoNCE使用分類交叉熵損失來識別一組不相關(guān)的噪聲樣本中的正樣本。InfoNCE 損失優(yōu)化了正確分類正樣本的負對數(shù)概率:

402 Payment Required

對比學習關(guān)鍵點

數(shù)據(jù)增強

給定一個訓練樣本,可使用數(shù)據(jù)增強技術(shù)來創(chuàng)建自身的噪聲版本,以作為正樣本輸入損失。正確的數(shù)據(jù)增強設置非常重要,它可以不修改語義的情況下引入樣本的非本質(zhì)變化,從而鼓勵模型學習樣本的核心語義。

例如,SimCLR中的實驗表明,隨機裁剪和隨機顏色失真的組合是圖像菲比學習的關(guān)鍵數(shù)據(jù)增強方法。

大 Batch Size

在訓練期間Batch Size設置的很大是許多對比學習方法(例如SimCLR、CLIP)成功的另一個關(guān)鍵因素。

只有當批大小足夠大時,損失函數(shù)才能覆蓋足夠多樣化的負樣本集合,具有足夠的挑戰(zhàn)性,使模型能夠?qū)W習有意義的表示來區(qū)分不同的示例。

Hard Negative Example

Hard Negative Example應該具有與錨樣本不同的標簽,但具有非常接近錨嵌入的嵌入特征。通過訪問監(jiān)督數(shù)據(jù)集中的真實標簽,很容易識別特定于任務的硬否定。

Vision: Image Embedding

基本圖像增強

有很多方法可以修改圖像,同時保留其語義。我們可以使用以下任何一種擴充或多個操作的組合。

  • 隨機裁剪

  • 隨機顏色失真

  • 隨機高斯模糊

  • 隨機顏色抖動

  • 隨機水平翻轉(zhuǎn)

  • 隨機灰度轉(zhuǎn)換

  • AutoAugment

  • RandAugment

  • UDA

  • Mixup

  • CutMix

Parallel Augmentation

SimCLR計算同一樣本的不同數(shù)據(jù)增強下的對比損失,使用InfoNCE搭配大Batch Size進行訓練。

Language: Sentence Embedding

基礎的文本數(shù)據(jù)增強

EDA定義了一組簡單但功能強大的文本增強操作。給定一個句子,EDA 隨機選擇并應用四個簡單操作之一:

  • 同義詞替換(SR)

  • 隨機插入(RI)

  • 隨機交換(RS)

  • 隨機刪除(RD)

SimCSE使用Dropout噪聲從一個句子來從無監(jiān)督數(shù)據(jù)中學習。SimCSE將Dropout視為文本序列的數(shù)據(jù)增強。一個樣本被簡單地輸入編碼器兩次,構(gòu)成了一個正樣本對,而其他批內(nèi)樣本被視為負對。

Sentence-BERT

SBERT (Sentence-BERT) 使用孿生網(wǎng)絡學習句子嵌入,通過嵌入對之間的余弦相似度來估計句子相似度。

往期精彩回顧適合初學者入門人工智能的路線及資料下載(圖文+視頻)機器學習入門系列下載中國大學慕課《機器學習》(黃海廣主講)機器學習及深度學習筆記等資料打印《統(tǒng)計學習方法》的代碼復現(xiàn)專輯 AI基礎下載機器學習交流qq群955171419,加入微信群請掃碼:

與50位技術(shù)專家面對面20年技術(shù)見證,附贈技術(shù)全景圖

總結(jié)

以上是生活随笔為你收集整理的Kaggle知识点:对比学习基础的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。