當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

将SimCLR应用于NLP预训练模型，提升句子语义表征效果

發布時間：2024/10/8 编程问答 39 豆豆

生活随笔收集整理的這篇文章主要介紹了将SimCLR应用于NLP预训练模型，提升句子语义表征效果小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?PaperWeekly 原創 ·?作者｜張琨

學校｜中國科學技術大學博士生

研究方向｜自然語言處理

論文標題：

CLEAR: Contrastive Learning for Sentence Representation

論文作者：

Zhuofeng Wu / Sinong Wang / Jiatao Gu / Madian Khabsa / Fei Sun / Hao Ma

論文鏈接：

https://arxiv.org/abs/2012.15466

動機

近兩年，對比學習（Contrastive Learning）由于能夠通過數據之間的關系，以無監督的形式充分學習數據的表征受到了大家的廣泛關注，特別是 MoCo ,SimCLR 的方法的提出。而對比學習的一個關鍵思想就是如何構建對比的數據對，更細致的，如何構建正樣本和負樣本，更好的正樣本和負樣本能夠幫助模型更好的理解數據。

因此，可以發現對比學習在 CV 領域首先有了效果，針對對比學習，圖像可以通過旋轉，裁剪，變換顏色等方法在不改變便簽的情況下進行數據增強。但在 NLP 領域就出現困難了，文本數據如何進行增強，單純的刪除或者修改詞及詞序都會引起語義的變化。

因此，作者認為將對比學習引入到句子語義表征中是很有必要的，現有的預訓練模型都是通過詞級別的目標進行預訓練的，而且單純使用 [cls] 作為最終句子的語義表征不夠充分。我們需要為本文中的對比學習設計更好的數據增強方法，用于提升句子語義的理解和表征。

方法

針對 BERT 等方法只關注于詞級別的目標進行預訓練，作者提出了句子級別的對比學習目標，同時為了更好的表征句子的語義，作者將對比學習引入到模型訓練中，并提出了四種數據增強的方法。具體技術部分如下：

2.1 對比學習框架

首先是整個工作提出的對比學習框架圖：

這個模型圖和 SimCLR 非常的相似，作者也是借鑒了 SimCLR 的思路設計了這個結構，首先輸入句子經過數據增強之后，分別送給一個 Transformer encoder，然后得到的輸出經過一個映射函數 g 映射到同一個表示空間，最后就是一個對比學習的損失約束整個模型進行訓練。具體細節可以參見 SimCLR 這篇文章。

2.2 數據增強方法

那么這篇文章的重點就在如何對輸入句子進行數據增強，首先，本文使用了四種數據增強的方式，如下圖：

Word deletion：即隨機刪除句子中的某些詞，并將這些詞使用 [DEL] 進行替換

Span deletion：從 span-level 進行選擇和刪除，并使用 [DEL] 進行替換，可以認為這種方法是 Word deletion 的一個特例

Reordering：隨機從句子中采樣出幾對詞，然后替換他們彼此的位置（已在 BART 中證實有效）

Substitution：隨機從句子中選擇一些詞，然后將其替換為這些詞的同義詞（使用了一個同義詞詞典）

直觀上理解，方法 1 和方法 2 可能會改變原有句子的意思，作者認為，隨機刪除一部分句子內容不會對句子的原始語義造成太大的影響。當然，在一些情況下，可能會改變句子的原始語義（例如把 not 刪掉了），但這部分可以認為是適當的噪聲，這有助于提升模型的魯棒性。

具體在應用中，作者針對每個 minibatch，隨機選擇兩種數據增強的方法。經過數據增強之后，兩個來自同一個句子的增強句子就認為是正樣本，其他所有來自同一個 minibatch 的增強樣本就認為是這兩個正樣本的負樣本，這樣針對正樣本的損失函數就可以構建為：

整個對比方法的損失函數就可以認為是所有正樣本對的損失函數之和：

通過這種方法，就能夠幫助模型識別相似語義的句子，與此同時，作者還保留了原來的 Mask Language Model（MLM）的損失函數，將兩個損失函數結合，就得到了整個方法的損失函數。

實驗

首先，作者測試了不同的數據增強方法在 GLUE 和 SentEval 上的效果，如下圖：

同時作者還進行了一些消融實驗進一步驗證模型的效果：

總結

本文非常巧妙地將應用在 CV 上的 SimCLR 框架直接應用到了 NLP 中的預訓練模型中，具體作者考慮四種不同的數據增強方法。對現階段的 NLP 領域的對比學習是一個很不錯的參考。

而且作者認為一定程度上對本文的修改不會對語義產生太大的影響，即使改變了語義，那這部分產生的噪聲對模型的魯棒性也有幫助。如果作者針對這部分進行一些實驗驗證或展示的話就更好了。

更多閱讀

#投稿?通道#

?讓你的論文被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學習心得或技術干貨。我們的目的只有一個，讓知識真正流動起來。

?????來稿標準：

? 稿件確系個人原創作品，來稿需注明作者個人信息（姓名+學校/工作單位+學歷/職位+研究方向）?

? 如果文章并非首發，請在投稿時提醒并附上所有已發布鏈接?

? PaperWeekly 默認每篇文章都是首發，均會添加“原創”標志

?????投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請單獨在附件中發送?

? 請留下即時聯系方式（微信或手機），以便我們在編輯發布時和作者溝通

????

現在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公眾號后臺點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

與50位技術專家面對面20年技術見證，附贈技術全景圖

總結

以上是生活随笔為你收集整理的将SimCLR应用于NLP预训练模型，提升句子语义表征效果的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：二战德国第19集团军溃败速度有多快？
下一篇：中国退役军人全部全部招兵吗