日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

对比学习有多火?文本聚类都被刷爆了…

發布時間:2024/7/5 编程问答 61 豆豆
生活随笔 收集整理的這篇文章主要介紹了 对比学习有多火?文本聚类都被刷爆了… 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文 | 花小花Posy

大家好,我是小花。

對比學習的大火???? 越來越旺了,已然從CV蔓延到NLP了。今天給大家介紹的正是一篇將對比學習應用到文本聚類上的工作,NAACL21新鮮出爐的paper——《Supporting Clustering with Contrastive Learning》。該工作在8個短文本聚類數據集上取得了顯著提升(比如正確率提升3%~11%)。

所謂對比學習,重點在于對比,那對比的對象是誰?
答曰:增強的數據。假設如果兩個增強句子的原句子一樣,那么拉近它們,否則推遠它們。

在CV領域,對比學習是和攜數據增強一起出道的。給定一張圖片,生成不同的變體去增強它,然后用對比思想去學習。NLP領域也如法炮制。給一個句子,使用數據增強去生成和原句子語義相似的句子。比如下面的例子[1]:

如果兩個增強句子來自同一個原句子,那么它們是同源的,否則是不同源的。本文發現,利用對比學習的特性,即拉近同源句子、拉遠不同源句子,可以解決短文本聚類問題中一個令人頭疼的問題——如果學習過程開始時,不同類別在表示空間中就彼此重疊,那么不管怎么學習都很難將各個類別區分開。

下圖是原文中對比的原始數據的分布(Original) 和使用聚類(Clustering)模型學習后的分布。

可以看到,Clustering整體效果還不錯,但相鄰類別黏在一起、無法區分的現象仍然是存在。

而本文發現,使用對比學習(Instance-CL)可以很好地解決該問題。對比學習可以將各個重疊的類別分散開。

更進一步,本文發現將對Instance-CL和Clustering結合(SCCL),不僅可以可以更好地區分不同類別;而且通過顯示地拉近同一類的數據的距離,可以促使類內分布更加緊湊,從而達到更優質的聚類效果。

簡單講,本文提出了一個訓練框架SCCL,它結合了bottom-up的實例對比學習top-down的聚類學習,收獲了更好的類內距離和類間距離。

論文題目:
Supporting Clustering with Contrastive Learning

論文鏈接:
https://arxiv.org/pdf/2103.12953.pdf

Arxiv訪問慢的小伙伴也可以在 【夕小瑤的賣萌屋】訂閱號后臺回復關鍵詞 【0422】 下載論文PDF~

對比學習掃盲

對比學習的目標是區分兩個實例是否是由同一個源數據采樣/增強得來,如果是,讓它們在表示空間中越接近;如果不是,讓它們在表示空間中遠離。 早在2006年,Hadsell等人[2]就提出了通過對比正負例來學習表示的思想,但其真正火起來是始于谷歌在19年提出的SimCLR[3]框架。下圖展示了SimCLR中對比學習思想的示例圖,可以更加直觀理解整個流程。具體來說,對于一個源數據, 使用某種數據增強的方式,給它生成一對增強數據和,然后對它們哥倆進行編碼、映射,接著最大化它們的相似度。

對比學習的一個關鍵點是如何生成增強數據。在CV中,數據增強依賴圖片的空間不變性,通過旋轉、縮放、裁剪等方式去給圖片增強。在NLP領域中,數據增強主要依靠的是語義不變性,常用方法有詞匯替換、回譯、字面轉換、隨機噪聲注入等等[3]。本文嘗試了3種不同的替換方式,分別是:

  • WordNet Augmenter:使用WordNet中的同義詞對輸入進行替換。

  • Paraphrase via back translation:使用回譯的方式生成輸入的復述

  • Contextual Augmenter:對于輸入, 利用預訓練Transformer找到其中N個候選位置,對其進行插入或替換。

  • 說完了對比學習,接下來我們聊一聊本文是如何使用對比學習及它的效果如何。

    SCCL的訓練框架

    上圖展示了SCCL的訓練框架,相比以前的聚類方法(藍色部分),SCCL使用了數據增強,并利用了對比學習去優化增強的數據。相對應的,模型針對Clustering有一個損失函數對源數據進行優化,Instance-CL有一個損失函數對增強數據進行優化。

    模型概念了解起來相對簡單,就不放公式了。想看公式加深理解的朋友們可以去看原論文。下面看看實驗結果如何。

    簡單的模型,大大的提升

    文中使用 ACC(Accuracy)和 NMI(Normalized Mutual Information)兩個評價指標來衡量聚類性能。下圖展示了SCCL在8個短文本聚類的數據集上的實驗結果(幾乎完爆所有數據集):

    除了大規模的SOTA外,文中還總結了SCCL相比其它模型的優點:

  • 訓練更簡單:SCCL只需要端到端的訓練,有的模型(STCC)卻需要分多步訓練,或者使用了垂直領域的特征進行增強(比如HAC-SD)。

  • 對數據噪聲更魯棒:SCCL不需要任何的數據預處理,其它大部分模型都對數據進行了預處理,比如移除停用詞、標點符號、小寫化處理。

  • 對比學習加在什么階段?

    SCCL模型包含了兩個損失函數:一個負責Clustering的優化,一個負責Instance-CL的優化。那么對于有多個損失函數時,是選擇pipeline的方式去一個一個訓練呢?還是使用jointly訓練的方式更好呢

    本文對比了兩種方式的區別,并與單獨使用其中一個進行對比。下圖顯示了使用Accuracy作為指標時各個模型的表現:

    可以看出,相比單獨使用Instance-CL或者Clustering,結合兩者使用的兩個模型在各個數據集上都取得了提升,而且jointly訓練(SCCL)取得的提升一致優于pipeline訓練(SCCL-Seq,先訓練Instance-CL在訓練Clustering)。

    數據增強哪家好?

    上文提到,本文使用了三種數據增強的方法,那么哪一種最優? 下圖展示了三種方法在各個數據集上的實驗結果:

    整體來講,Ctxt在各個數據集上的性能都是最好的,也就是說利用預訓練Transformer作為增強器是最好的。同時也可看到,有一部分數據集在不同增強方法下表現差別很大,比如SearchSnippers和GooglenewsS,而有一部分的敏感度則較低,比如AgNews、Biomedical和GooglenewsTS。

    說明在我們實際使用過程中,到底使用哪種增強方式有效還是需要做做對比實驗才曉得

    這里我們接著問一個問題。要是我們使用多個增強器呢?效果會變得更好嗎?文中對比了使用1個增強器和2個增強器的區別,以及當選擇替換不同比例的源句子時的區別。

    上圖中藍色表示使用1個增強器橘色表示使用2個增強器??梢钥闯?#xff1a;

  • 2個增強器在GoogleNewTS上有輕微的提升,并且沒有隨著增強數據中被替換詞的比例上升而下降;

  • stackoverflow上的表現卻截然不同,隨著替換比例的增高,使用兩個增強器反而導致性能大幅度下降。

  • 為了探究原因,文中對比了在不同替換比例和不同增強器下(1個或2個),原始文本和增強文本在訓練之初時的cosine相似度:

    可以看出,當使用2個增強器(橘色)時,增強文本與原始文本之間的相似度逐漸降低,從而解釋了為什么使用2個增強器并不一定能使模型性能變好。

    小結一下

    本文提出了一種簡單、有效的無監督聚類的模型SCCL,在基于距離的聚類方法上,使用逐例對比學習區分不同類別。通過聯合優化逐例對比學習的損失和聚類的損失,使得模型在拉開距離的同時保證類內距離更近。SCCL在8個短文本聚類數據集上進行測試,大部分實驗結果都取得了SOTA,Accuracy提升了3% ~ 11%,NMI提升了4%~15%,證明了模型的有效性。

    最后的最后,大家不妨思考下,為什么聚類+對比學習可以帶來如此大的提升呢?小花的理解是,聚類關注高層級的語義概念,而實例對比的研究對象往下滲透了一層,它的目標是讓相似的實例距離更近,不同的實例距離更遠。將它們結合起來,可以:

  • 增加細粒度的對比。

  • 數據增強帶來了更多的數據,將更多先驗知識告訴了模型。

  • 頂層抽象和底層細節的結合,就像我們人學習的時候既需要具體案例的學習,又需要抽象理解。二者搭配,效果更佳。

  • 有趣的是,在CV中,對比學習是為了讓模型不關注像素細節,學習高級特征來區分不同對象。但是在NLP中卻是反過來了,希望模型學習實例級別的特征。

    尋求報道、約稿、文案投放:
    添加微信xixiaoyao-1,備注“商務合作”

    萌屋作者:花小花Posy

    目前在墨爾本大學NLP組讀Ph.D.,主要感興趣方向包括常識問答,知識圖譜,低資源知識遷移。期待有生之年可見證機器真正理解常識的時刻! 知乎ID:花小花Posy

    作品推薦:

    1.我拿樂譜訓了個語言模型!

    2.一句話超短摘要,速覽752篇EMNLP論文

    3.Facebook提出生成式實體鏈接、文檔檢索,大幅刷新SOTA!


    后臺回復關鍵詞【入群

    加入賣萌屋NLP/IR/Rec與求職討論群

    后臺回復關鍵詞【頂會

    獲取ACL、CIKM等各大頂會論文集!

    ?

    [1].A Visual Survey of Data Augmentation in NLP https://amitness.com/2020/05/data-augmentation-for-nlp/

    [2].Dimensionality Reduction by Learning an Invariant Mapping https://cs.nyu.edu/~sumit/research/assets/cvpr06.pdf

    [3].A Simple Framework for Contrastive Learning of Visual Representations. https://arxiv.org/pdf/2002.05709.pdf

    總結

    以上是生活随笔為你收集整理的对比学习有多火?文本聚类都被刷爆了…的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。