當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

对比学习有多火？文本聚类都被刷爆了…

發布時間：2024/7/5 编程问答 71 豆豆

生活随笔收集整理的這篇文章主要介紹了对比学习有多火？文本聚类都被刷爆了… 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文 | 花小花Posy

大家好，我是小花。

對比學習的大火???? 越來越旺了，已然從CV蔓延到NLP了。今天給大家介紹的正是一篇將對比學習應用到文本聚類上的工作，NAACL21新鮮出爐的paper——《Supporting Clustering with Contrastive Learning》。該工作在8個短文本聚類數據集上取得了顯著提升(比如正確率提升3%~11%)。

所謂對比學習，重點在于對比，那對比的對象是誰？
答曰：增強的數據。假設如果兩個增強句子的原句子一樣，那么拉近它們，否則推遠它們。

在CV領域，對比學習是和攜數據增強一起出道的。給定一張圖片，生成不同的變體去增強它，然后用對比思想去學習。NLP領域也如法炮制。給一個句子，使用數據增強去生成和原句子語義相似的句子。比如下面的例子[1]：

如果兩個增強句子來自同一個原句子，那么它們是同源的，否則是不同源的。本文發現，利用對比學習的特性，即拉近同源句子、拉遠不同源句子，可以解決短文本聚類問題中一個令人頭疼的問題——如果學習過程開始時，不同類別在表示空間中就彼此重疊，那么不管怎么學習都很難將各個類別區分開。

下圖是原文中對比的原始數據的分布(Original) 和使用聚類（Clustering）模型學習后的分布。

可以看到，Clustering整體效果還不錯，但相鄰類別黏在一起、無法區分的現象仍然是存在。

而本文發現，使用對比學習（Instance-CL)可以很好地解決該問題。對比學習可以將各個重疊的類別分散開。

更進一步，本文發現將對Instance-CL和Clustering結合（SCCL），不僅可以可以更好地區分不同類別；而且通過顯示地拉近同一類的數據的距離，可以促使類內分布更加緊湊，從而達到更優質的聚類效果。

簡單講，本文提出了一個訓練框架SCCL，它結合了bottom-up的實例對比學習和top-down的聚類學習，收獲了更好的類內距離和類間距離。

論文題目:
Supporting Clustering with Contrastive Learning

論文鏈接:
https://arxiv.org/pdf/2103.12953.pdf

Arxiv訪問慢的小伙伴也可以在【夕小瑤的賣萌屋】訂閱號后臺回復關鍵詞【0422】下載論文PDF~

對比學習掃盲

對比學習的目標是區分兩個實例是否是由同一個源數據采樣/增強得來，如果是，讓它們在表示空間中越接近；如果不是，讓它們在表示空間中遠離。 早在2006年，Hadsell等人[2]就提出了通過對比正負例來學習表示的思想，但其真正火起來是始于谷歌在19年提出的SimCLR[3]框架。下圖展示了SimCLR中對比學習思想的示例圖，可以更加直觀理解整個流程。具體來說，對于一個源數據, 使用某種數據增強的方式，給它生成一對增強數據和，然后對它們哥倆進行編碼、映射，接著最大化它們的相似度。

對比學習的一個關鍵點是如何生成增強數據。在CV中，數據增強依賴圖片的空間不變性，通過旋轉、縮放、裁剪等方式去給圖片增強。在NLP領域中，數據增強主要依靠的是語義不變性，常用方法有詞匯替換、回譯、字面轉換、隨機噪聲注入等等[3]。本文嘗試了3種不同的替換方式，分別是：

WordNet Augmenter：使用WordNet中的同義詞對輸入進行替換。

Paraphrase via back translation：使用回譯的方式生成輸入的復述。

Contextual Augmenter：對于輸入, 利用預訓練Transformer找到其中N個候選位置，對其進行插入或替換。

說完了對比學習，接下來我們聊一聊本文是如何使用對比學習及它的效果如何。

SCCL的訓練框架

上圖展示了SCCL的訓練框架，相比以前的聚類方法（藍色部分），SCCL使用了數據增強，并利用了對比學習去優化增強的數據。相對應的，模型針對Clustering有一個損失函數對源數據進行優化，Instance-CL有一個損失函數對增強數據進行優化。

模型概念了解起來相對簡單，就不放公式了。想看公式加深理解的朋友們可以去看原論文。下面看看實驗結果如何。

簡單的模型，大大的提升

文中使用 ACC（Accuracy）和 NMI（Normalized Mutual Information）兩個評價指標來衡量聚類性能。下圖展示了SCCL在8個短文本聚類的數據集上的實驗結果（幾乎完爆所有數據集）：

除了大規模的SOTA外，文中還總結了SCCL相比其它模型的優點：

訓練更簡單：SCCL只需要端到端的訓練，有的模型（STCC）卻需要分多步訓練，或者使用了垂直領域的特征進行增強（比如HAC-SD）。

對數據噪聲更魯棒：SCCL不需要任何的數據預處理，其它大部分模型都對數據進行了預處理，比如移除停用詞、標點符號、小寫化處理。

對比學習加在什么階段？

SCCL模型包含了兩個損失函數：一個負責Clustering的優化，一個負責Instance-CL的優化。那么對于有多個損失函數時，是選擇pipeline的方式去一個一個訓練呢？還是使用jointly訓練的方式更好呢？

本文對比了兩種方式的區別，并與單獨使用其中一個進行對比。下圖顯示了使用Accuracy作為指標時各個模型的表現：

可以看出，相比單獨使用Instance-CL或者Clustering，結合兩者使用的兩個模型在各個數據集上都取得了提升，而且jointly訓練（SCCL）取得的提升一致優于pipeline訓練（SCCL-Seq，先訓練Instance-CL在訓練Clustering）。

數據增強哪家好？

上文提到，本文使用了三種數據增強的方法，那么哪一種最優？ 下圖展示了三種方法在各個數據集上的實驗結果：

整體來講，Ctxt在各個數據集上的性能都是最好的，也就是說利用預訓練Transformer作為增強器是最好的。同時也可看到，有一部分數據集在不同增強方法下表現差別很大，比如SearchSnippers和GooglenewsS，而有一部分的敏感度則較低，比如AgNews、Biomedical和GooglenewsTS。

說明在我們實際使用過程中，到底使用哪種增強方式有效還是需要做做對比實驗才曉得。

這里我們接著問一個問題。要是我們使用多個增強器呢？效果會變得更好嗎？文中對比了使用1個增強器和2個增強器的區別，以及當選擇替換不同比例的源句子時的區別。

上圖中藍色表示使用1個增強器和橘色表示使用2個增強器。可以看出：

2個增強器在GoogleNewTS上有輕微的提升，并且沒有隨著增強數據中被替換詞的比例上升而下降；

stackoverflow上的表現卻截然不同，隨著替換比例的增高，使用兩個增強器反而導致性能大幅度下降。

為了探究原因，文中對比了在不同替換比例和不同增強器下（1個或2個），原始文本和增強文本在訓練之初時的cosine相似度：

可以看出，當使用2個增強器（橘色）時，增強文本與原始文本之間的相似度逐漸降低，從而解釋了為什么使用2個增強器并不一定能使模型性能變好。

小結一下

本文提出了一種簡單、有效的無監督聚類的模型SCCL，在基于距離的聚類方法上，使用逐例對比學習區分不同類別。通過聯合優化逐例對比學習的損失和聚類的損失，使得模型在拉開距離的同時保證類內距離更近。SCCL在8個短文本聚類數據集上進行測試，大部分實驗結果都取得了SOTA，Accuracy提升了3% ~ 11%，NMI提升了4%~15%，證明了模型的有效性。

最后的最后，大家不妨思考下，為什么聚類+對比學習可以帶來如此大的提升呢？小花的理解是，聚類關注高層級的語義概念，而實例對比的研究對象往下滲透了一層，它的目標是讓相似的實例距離更近，不同的實例距離更遠。將它們結合起來，可以：

增加細粒度的對比。

數據增強帶來了更多的數據，將更多先驗知識告訴了模型。

頂層抽象和底層細節的結合，就像我們人學習的時候既需要具體案例的學習，又需要抽象理解。二者搭配，效果更佳。

有趣的是，在CV中，對比學習是為了讓模型不關注像素細節,學習高級特征來區分不同對象。但是在NLP中卻是反過來了，希望模型學習實例級別的特征。

尋求報道、約稿、文案投放：
添加微信xixiaoyao-1，備注“商務合作”

萌屋作者：花小花Posy

目前在墨爾本大學NLP組讀Ph.D.，主要感興趣方向包括常識問答，知識圖譜，低資源知識遷移。期待有生之年可見證機器真正理解常識的時刻! 知乎ID：花小花Posy

作品推薦：

1.我拿樂譜訓了個語言模型！

2.一句話超短摘要，速覽752篇EMNLP論文

3.Facebook提出生成式實體鏈接、文檔檢索，大幅刷新SOTA！

后臺回復關鍵詞【入群】

加入賣萌屋NLP/IR/Rec與求職討論群

后臺回復關鍵詞【頂會】

獲取ACL、CIKM等各大頂會論文集！

[1].A Visual Survey of Data Augmentation in NLP https://amitness.com/2020/05/data-augmentation-for-nlp/

[2].Dimensionality Reduction by Learning an Invariant Mapping https://cs.nyu.edu/~sumit/research/assets/cvpr06.pdf

[3].A Simple Framework for Contrastive Learning of Visual Representations. https://arxiv.org/pdf/2002.05709.pdf

總結

以上是生活随笔為你收集整理的对比学习有多火？文本聚类都被刷爆了…的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：巨省显存的重计算技巧在TF、Keras中
下一篇：打破情感分类准确率 80 分天花板！更加