當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

亚马逊提出无监督虚拟增强句子表征学习框架，效果超越SimCSE

發(fā)布時(shí)間：2024/10/8 编程问答 48 豆豆

生活随笔收集整理的這篇文章主要介紹了亚马逊提出无监督虚拟增强句子表征学习框架，效果超越SimCSE 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?作者 | 林億

單位 | 科大訊飛AI研究院

研究方向 | 對話系統(tǒng)

前言?

半年前 SimCSE 兩次 dropout 的操作刷爆朋友圈，對比學(xué)習(xí)相關(guān)論文也席卷各大頂會頂刊；上次也總結(jié)了 ACL 2021 的一些對比學(xué)習(xí)文章。最近組內(nèi)論文分享有同事分享了一篇亞馬遜的工作，覺得還蠻有意思，效果也甚好。

論文標(biāo)題：

Virtual Augmentation Supported Contrastive Learning of Sentence Representations

論文鏈接：

https://arxiv.org/abs/2110.08552

進(jìn)入正題

首先思考一下，SimCSE 雖然操作簡單，這其實(shí)意味著它還有很多的可操作空間，比如——如何進(jìn)一步加大對困難樣本信息的挖掘，從而進(jìn)一步提升網(wǎng)絡(luò)的性能。

這個(gè)道理就像考試，簡單的題目大家都會，所以所有大家隨便考考都可以考到 90 分，但是 90-100 分這個(gè)區(qū)間，就要考驗(yàn)大家對困難題目的理解了；如果我們平時(shí)學(xué)習(xí)一直反復(fù)寫簡單題目，忽略了難題的練習(xí)，那肯定是沒辦法在 90 分的基礎(chǔ)上再多考幾分的。

想讓模型多見一些困難樣本，有兩種方式：

第一種方式就是充分挖掘現(xiàn)在的數(shù)據(jù)集，找出現(xiàn)在數(shù)據(jù)集內(nèi)的困難樣本，然后通過加大這些樣本的權(quán)重或者出現(xiàn)的比例，強(qiáng)迫模型多關(guān)注這些難題，比如 SimCSE 內(nèi)利用溫度 τ 來控制對困難樣本的關(guān)注度：

1. 分子是原始 case 兩次 dropout 輸出，其相似度一定較大，無太大隨機(jī)性，即熵值較為固定；

2. 分母中包含一堆負(fù)樣本，包括簡單樣本，困難樣本等，不確定性高，熵值大；

3. 分母中困難樣本定義為：其明明是負(fù)樣本，其和原始 case 相似度卻很大；那么分母一定是更關(guān)注困難樣本，因?yàn)楹唵螛颖?loss 低；

4. 所以當(dāng) τ>1，相當(dāng)于降低對困難樣本的關(guān)注度，當(dāng) τ<1，則進(jìn)一步擴(kuò)大困難樣本比重，更加關(guān)注困難樣本。

比如簡單負(fù)樣本和原句相似度 0.1，困難樣本和原句相似度 0.6，除以 τ=0.2 后，差距進(jìn)一步擴(kuò)大，模型會更關(guān)注困難樣本；

或者利用方差等方式手動挑出來比較困難的樣本，反復(fù)多加入幾次迭代過程，具體在這里就不贅述了。

另一種方式就是創(chuàng)造更多的困難樣本，常見的方式一般是人為分析數(shù)據(jù)后進(jìn)行手工添加，可以配合一些仿射變換，如同義詞替換、回譯等；那么能不能像第一種方式那樣，在訓(xùn)練過程中，讓網(wǎng)絡(luò)自己想辦法去創(chuàng)建一些困難樣本呢？

好了，本文的主角終于來了—— VaSCL，其會在網(wǎng)絡(luò)訓(xùn)練的過程中自動創(chuàng)造一些虛擬的困難樣本，為什么說是虛擬的，自然也是和 SimCSE 那樣直接 dropout 出來的一堆“數(shù)據(jù)分布”一樣，毫無章法且不講道理但... 有效！

VaSCL 是怎么做的？

首先還是和 SimCSE 一樣，一個(gè) case 兩次 dropout，然后最小化自身兩次 dropout 的距離，并推遠(yuǎn)與其它樣本的距離；即，SimCSE 原 loss 全部保留。

剩下就是怎么找出來困難樣本。

1. 假設(shè) batch 為 32，我們需要找出第一句話的困難樣本，因?yàn)槭菬o監(jiān)督模型，除了第一句話自身，其余所有 case 都是負(fù)樣本，那么模型輸出特征向量和第一句話越相似的，其就越可能是第一句話的困難樣本是吧？我們首先定義一個(gè) k，在每個(gè) batch 中找到每句話輸出特征向量最近的 k 句話，后文稱為這句話的 k 領(lǐng)域，后面就用這 k 句話創(chuàng)建第一句話的虛擬困難樣本。

2. 假設(shè)第一句話經(jīng)過模型輸出的特征向量是 e，隨便搞一個(gè)高斯白噪聲 α，加上去，得到一個(gè)新的特征向量 e+α，理論上來說，這個(gè)新的特征向量和第一句話的意思應(yīng)該還是相近的，因?yàn)槭歉咚拱自肼?#xff0c;其不會對原始向量數(shù)據(jù)分布產(chǎn)生太大影響，這個(gè)過程大概可以模擬成這樣：

e?=?e?+?np.random.standard_normal(y.shape)?*?0.01

如果是給一張圖片加上高斯白噪聲，基本是看不出什么變化的。仔細(xì)看一下這個(gè)高斯白噪聲的代碼，好好想想，理論上按照這個(gè)公式，高斯白噪聲一定不應(yīng)該對原句的語義產(chǎn)生太大影響。

當(dāng)然，實(shí)際上我們不是隨便亂加一個(gè)高斯白噪聲，我們期待我們有很多的高斯白噪聲，然后再其中選取一個(gè)最優(yōu)的高斯白噪聲，可以使得第一句話加上這個(gè)噪聲以后，即 e+α 和原來的特征向量 e，最遠(yuǎn)，但是第一句話 k 領(lǐng)域內(nèi)的所有負(fù)樣本加上這個(gè)噪聲 α 后都和原句 e 更靠近了，這樣的一個(gè)高斯白噪聲可謂是壞事干盡了，迷惑性賊大！

所以當(dāng)原句 e 加上這個(gè)最優(yōu)的噪聲 α，就得到了一個(gè)很強(qiáng)的困難樣本！

這里有個(gè)問題，這個(gè)候選高斯白噪聲集合哪里來，文章沒有交代，理論上我們隨機(jī)生成若干個(gè)作為備選，或者預(yù)設(shè)一個(gè)數(shù)值，每次訓(xùn)練過程中隨機(jī)生成這么多個(gè)，再或者直接把這個(gè)噪聲當(dāng)成可訓(xùn)練參數(shù)或許也可以（但是按照原文的意思，似乎沒有把這個(gè) α 當(dāng)成可訓(xùn)練參數(shù)）；不過都是小問題，個(gè)人比較傾向在訓(xùn)練前指定數(shù)值 n。

3. 訓(xùn)練過程中 batch 中每句話的 loss：

首先保持 SimCSE 的損失：

每句話的兩次 dropout 靠近
每句話和別的句子 dropout 拉遠(yuǎn)

然后是虛擬困難樣本損失：按 2 的規(guī)則在高斯白噪聲集里面找到一個(gè)最優(yōu)的噪聲 α，每句話加上其最優(yōu)噪聲得到這句話的虛擬困難樣本，這句話的 k 領(lǐng)域內(nèi)負(fù)樣本也加上這句話的最優(yōu)噪聲，得到這句話 k 領(lǐng)域的虛擬困難負(fù)樣本；

原句和其虛擬困難樣本拉近
原句/原句虛擬困難強(qiáng)樣本分別與 k 領(lǐng)域內(nèi)負(fù)樣本 /k 領(lǐng)域虛擬困難負(fù)樣本拉遠(yuǎn)

作者沒有開源，但是其實(shí)按照 SimCSE 實(shí)際實(shí)現(xiàn)起來應(yīng)該差不多，難度不大。

效果

更多閱讀

#投稿?通道#

?讓你的文字被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體，縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢？答案就是：你不認(rèn)識的人。

總有一些你不認(rèn)識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞，迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人，在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容，可以是最新論文解讀，也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得或競賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè)，讓知識真正流動起來。

📝?稿件基本要求：

? 文章確系個(gè)人原創(chuàng)作品，未曾在公開渠道發(fā)表，如為其他平臺已發(fā)表或待發(fā)表的文章，請明確標(biāo)注?

? 稿件建議以?markdown?格式撰寫，文中配圖以附件形式發(fā)送，要求圖片清晰，無版權(quán)問題

? PaperWeekly 尊重原作者署名權(quán)，并將為每篇被采納的原創(chuàng)首發(fā)稿件，提供業(yè)內(nèi)具有競爭力稿酬，具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算

📬?投稿通道：

? 投稿郵箱：hr@paperweekly.site?

? 來稿請備注即時(shí)聯(lián)系方式（微信），以便我們在稿件選用的第一時(shí)間聯(lián)系作者

? 您也可以直接添加小編微信（pwbot02）快速投稿，備注：姓名-投稿

△長按添加PaperWeekly小編

🔍

現(xiàn)在，在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

總結(jié)

以上是生活随笔為你收集整理的亚马逊提出无监督虚拟增强句子表征学习框架，效果超越SimCSE的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。