NAACL 2021 | AWS AI 提出基于对比学习的端到端无监督聚类方法
?PaperWeekly 原創 ·?作者?|?李婧蕾
學校?|?北京郵電大學碩士生
研究方向?|?自然語言處理
Abstract
無監督聚類的目的是根據在表示空間中的距離發現數據的語義類別。然而,在學習過程的開始階段,不同類別在表征空間中經常存在重疊部分,這給基于距離的聚類實現不同類別之間的劃分帶來了巨大的挑戰。為此,本文提出了(SCCL)——一個利用對比學習促進更好空間劃分的新框架。
論文標題:
Supporting Clustering with Contrastive Learning
論文鏈接:
https://arxiv.org/abs/2103.12953
代碼鏈接:
https://github.com/amazon-research/sccl
本文對 SCCL 在短文本聚類方面的性能進行了評估,結果表明,SCCL 顯著提高了大多數基準數據集的前沿結果,在準確率方面提高了 3%-11%,在標準化互信息方面提高了 4%-15%。此外,當使用 ground truth 聚類標簽進行評估時,本文的定量分析還證明了 SCCL 在利用自底向上的實例鑒別和自頂向下的聚類優勢來實現更好的簇內和簇間距離方面的有效性。
近年來,許多研究致力于將聚類與深度表示學習結合起來。盡管有很好的改進,但聚類性能仍然不足,特別是在存在大量聚類的復雜數據的情況下。如 Figure1 所示,一個可能的原因是,即使使用深度神經網絡,在聚類開始之前,不同類別的數據仍然有顯著的重疊。因此,通過優化各種基于距離或相似度的聚類目標學習到的聚類純度較低。
另一方面,實例對比學習(Instance-CL)最近在自我監督學習方面取得了顯著的成功。Instance-CL 通常對通過數據擴充獲得的輔助集進行優化。然后,顧名思義,采用對比損失將從原始數據集中的同一實例中增強的樣本聚在一起,同時將來自不同實例的樣本分開。本質上,Instance-CL 將不同的實例分散開來,同時隱式地將相似的實例在某種程度上聚集在一起(參見 Figure1)。通過將重疊的類別分散開來,可以利用這個有利的屬性來支持聚類。然后進行聚類,從而更好地分離不同的簇,同時通過顯式地將簇中的樣本聚集在一起來收緊每個簇。
為此,本文提出了基于對比學習的支持聚類(SCCL),通過聯合優化自頂向下的聚類損失和自底向上的實例對比損失。本文評估了 SCCL 在短文本聚類方面的表現,由于社交媒體如 Twitter 和 Instagram 的流行,短文本聚類變得越來越重要。它有利于許多現實世界的應用,包括主題發現,推薦和可視化。然而,由噪聲和稀疏性引起的微弱信號給短文本聚類帶來了很大的挑戰。盡管利用淺層神經網絡來豐富表征已經取得了一些改進,仍有很大的改進空間。
本文用 SCCL 模型解決了這個挑戰。本文的主要貢獻如下:
本文提出了一種新穎的端到端無監督聚類框架,大大提高了各種短文本聚類數據集的最新結果。此外,本文的模型比現有的基于深度神經網絡的短文本聚類方法要簡單得多,因為那些方法通常需要多階段的獨立訓練。
本文提供了深入的分析,并演示了 SCCL 如何有效地結合自上而下的聚類和自下而上的實例對比學習,以實現更好的類間距離和類內距離。
本文探討了用于 SCCL 的各種文本增強技術,結果表明,與圖像域不同,在文本域使用復合增強并不總是有益的。
Model?
本文的目標是開發一個聯合模型,利用 Instance-CL 的有益屬性來改進無監督簇,如 Figure2 所示,本文的模型由三個組件組成。神經網絡 ψ(·) 首先將輸入數據映射到表示空間,只會是兩個不同的頭 g(·) 和 f(·),分別應用對比損失和聚類損失。
本文的數據包括原始數據和增強數據。具體來說,對于一個隨機抽樣的小批量 B = {xi}Mi=1,本文對 B 中的每個數據實例隨機生成一對擴增,得到一個規模為 2M 的擴增集 Ba。
Instance-wise Contrastive Learning?
對于每個 B, Instance-CL 損失是定義在 B 的數據增強對上。
設 i1∈{1,…,2M} 表示擴增集 Ba 中任意實例的索引,i2∈{1,. . ., 2M} 為 Ba 中另一個實例的索引,和原集合 B 中同一實例索引一致。將 xi1,xi2∈Ba 作為一個正樣本對,而將 Ba 中的其他 2M-2 例子作為這個正對的負樣本。通過最小化 l1 來將正樣本對和其他負樣本對分離開
本文中 τ = 0,使用一對標準化輸出之間的點積作為相似度函數
將所有小批量 Ba 的 loss 求和作為 Instance-CL loss?
Clustering?
本文同時通過無監督聚類將語義范疇結構編碼到表示中。與 Instance-CL 不同,聚類側重于 high-level 語義概念,并試圖將來自相同語義類別的實例聚集在一起。假設數據由 K 個語義類別組成,每個類別在表示空間中以其質心為特征,
表示 B 中 xi 的表示。繼 Maaten 和 Hinton(2008)之后,本文使用 Student 's t- 分布來計算分配 xj 到第 k 個簇的概率。
這里 α 表示 Student 's t- 分布的自由度。在沒有明確提及的情況下,本文按照 Maaten 和 Hinton(2008)的方法,設置 α=1。
本文使用一個線性層,即圖 2 中的聚類頭,來近似每個聚類的質心,并利用 Xie 等人(2016)提出的輔助分布迭代細化。其中 pjk 表示輔助概率,定義為
這里 fk,可以解釋一個小批量樣本的軟聚類頻率。該目標分布首先使用軟分配概率 qjk 的平方進行銳化,然后用相關的聚類頻率對其進行歸一化。通過這樣做,可以鼓勵從高置信簇分配中學習,同時對抗不平衡簇造成的偏見。
之后通過優化目標之間的 KL 離散度,將聚類分配概率推向目標分布,
聚類的 loss 最終可以表示為
這種聚類損失最早是 Xie 等人(2016)提出的,后來Hadifar等人(2019)采用這種聚類損失進行短文本聚類。然而,它們都需要對神經網絡進行昂貴的分層預訓練,并通過在不同數據集之間經常變化的精心選擇的間隔來更新目標分布(Eq(4))。相反,本文將學習過程簡化為端到端訓練,每次迭代更新目標分布。
Overall objective?
本文中 η =10 還需要注意的是,聚類損失僅在原始數據上進行了優化。還可以利用增強的數據來為每個實例執行聚類分配的本地一致性。
Numerical Results?
distilbert-base-nli-stsb-mean-tokens 作為模型主體
clustering head 使用 768*K 的線性層
constractive head 使用一個 MLP (g),其隱含層大小為 768,輸出向量大小為 128。
指標:Accuracy (ACC)、Normalized Mutual Information (NMI)
Datasets
STCC(Xu et al., 2017)由三個獨立的階段組成。對于每個數據集,它首先使用Word2Vec方法在大型領域內語料庫上預先訓練單詞嵌入(Mikolov et al., 2013a)。然后對卷積神經網絡進行優化,以進一步豐富輸入 K-means 進行最后階段聚類的表示。
Self-Train(Hadifar 等人,2019)使用 SIF 增強了 Xu 等人(2017)的預訓練詞嵌入(Arora 等人,2017)。繼 Xie et al.(2016)之后,采用逐層預訓練獲得的自動編碼器(Van Der Maaten, 2009),然后采用與本文相同的聚類目標對其進行進一步調整。Xie 等人(2016)和 Had- ifar 等人(2019)通過仔細選擇不同數據集的間隔更新目標分布,而本文每次更新間隔仍然取得了顯著的改進。
HAC-SD(Rakib et al., 2020)在稀疏成對相似性矩陣上層次聚類,該相似性矩陣是通過將低于所選閾值的相似性得分歸零得到的。
BoW & TF-IDF 在 size 為 1500 的相關特征上應用 K 均值對 BoW 和 TF-IDF 進行評價。
SCCL 模型在大多數數據集上優于所有基線。盡管在生物醫學方面落后于 Hadifar 等人(2019年),但考慮到生物醫學與 transformer 預訓練的一般領域關系不大這一事實,SCCL 仍顯示出很大的前景。因為,Hadifar 等人(2019)是在大型領域內生物醫學語料庫上學習單詞 embeddings,然后使用逐層預訓練的自動編碼器來進一步豐富表示。
Rakib 等人(2020年)也顯示了 twitter 和 GoogleNews-T 上更好的準確性,為此本文提出了兩個理由。首先,googleews 和 Tweet 都有較少的訓練實例和更多的類。對比學習通常需要一個大的訓練數據集,因此,很難顯示出它的優勢。其次,根據 BoW 和 TF-IDF 評價的聚類性能,聚類 GoogleNews 和 Tweet 比聚類其他四個數據集更容易。
因此,Rakib 等人(2020)通過對預處理數據的成對相似點仔細選擇來聚類,可以獲得良好的性能,特別是當文本實例很短時,即 Tweet 和 GoogleNews-T。針對聚集聚類往往由于高計算復雜性,本文還強調了模型對大規模數據的可伸縮性。
Ablation Study?
除了 Instance-CL 和 Clustering 之外,本文還根據 SCCL 的順序版本(SCCL-seq)評估 SCCL,在該版本中,首先使用 Instance-CL 訓練模型,然后使用 Clustering 對它進行優化。
如 Figure3 所示,Instance-CL 還將語義上相似的實例分組在一起。然而,這種分組效應是隱性的,依賴于數據。相比之下,SCCL 的性能始終大大優于 Instance-CL 和 Clustering。此外,SCCL 還獲得了比其順序版本 SCCL-seq 更好的性能。結果驗證了所提出的聯合優化框架在充分利用 Instance-CL 和 Clustering 兩種優化方法的優勢、相互補充方面的有效性和重要性。
SCCL leads to better separated and less dispersed clusters?
為了進一步研究是什么使得 SCCL 具有更好的性能,本文在整個學習過程中跟蹤了在表示空間中評估的簇內距離和簇間距離。對于一個給定的簇,簇內距離是質心和所有歸入該簇的樣本之間的平均距離,簇間距離是到其最近的鄰居簇的距離。計算每一種類型的距離及其平均值,其平均值是通過對所有聚類求平均值而獲得的,其中聚類是根據真實標簽(實線)或模型預測的標簽(虛線)來定義的。
當對預測的簇進行評估時,Clustering 實現了更小的簇內距離和更大的簇間距離。它展示了聚類的能力,使每個自學習的聚類緊密,并分開不同的聚類。然而,本文觀察到相反的評價在 ground-truth 聚類,連同較差的準確性和 NMI 分數。一種可能的解釋是,來自不同 ground-truth 聚類的數據在聚類開始之前,在嵌入空間中經常有顯著的重疊(見圖 1 左上圖),這使得基于距離的聚類方法很難有效地將它們分離。
雖然隱式分組效應允許 Instance-CL 獲得更好的準確率和 NMI 評分,但結果簇之間的距離更小,每個簇更分散,這表明簇間距離更小,簇內距離更大。這個結果并不奇怪,因為 instance-cl 只關注實例區分,這通常會導致更分散的嵌入空間。相反,本文利用 Clustering 和 Instance-CL 的優點來相互補充。因此,Figure 4 顯示 SCCL 導致更好地分離類,每個類更不分散。
Data Augmentation?
為了研究數據增強的影響,本文探索了三種不同的無監督文本增強:
(1)WordNet Augmenter 通過將輸入文本中的單詞替換為 WordNet 的同義詞來轉換輸入文本。
(2)Contextual Augmenter 利用預先訓練的 Transformer 找到輸入文本的前 n 個合適的單詞進行插入或替換。本文通過詞替換來擴充數據,并選擇 Bert-base 和 Roberta 來生成擴充對。
(3)釋義通過反譯產生釋義輸入文本,首先將其翻譯為另一種語言(法語),然后返回到英語。當翻譯回英語時,本文使用混合專家模型(Shen et al., 2019)為每個輸入生成 10 個候選釋義,以增加多樣性。
對于 WordNet Augmenter 和 Contextual Augmenter,本文嘗試了三種不同的設置,分別將每個文本實例的單詞替換率設置為 10%、20% 和 30%。對于反向翻譯的段短語,本文計算了每個文本實例與其 10 個候選釋義之間的 BLEU 分數。然后從每組 10 對候選對象中選出三對 BLEU 得分最高、中等和最低的。
表 3 總結了每種增強技術的最佳結果,其中 context Augmenter 明顯優于其他兩種。本文推測,這是由于上下文增強器和 SCCL 都利用預先訓練的 Transformer 作為主體,這允許上下文增強器產生更多的信息增強。
Composition of Data Augmentations?
Figure 5 顯示了使用合成數據增強的影響,其中探討了 contexttual Augmenter 和 CharSwap Augmenter。在 GoogleNews-TS 上使用數據增強組合確實提高了 SCCL 的性能,每個文本實例的平均單詞數為 28(見表2)。然而,在 StackOverflow 上觀察到相反的情況,每個實例的平均單詞數為 8。這一結果不同于在圖像領域觀察到的,其中使用數據增強的合成是關鍵的對比學習,以獲得良好的性能。
可能的解釋是,為文本數據生成高質量的擴充內容更具挑戰性,因為更改一個單詞可能會顛倒整個實例的語義。當第二輪擴展應用于非常短的文本實例(例如 StackOverflow)時,這種挑戰就會加劇。本文在圖 5(右)中進一步演示了這一點,其中 StackOverflow 的擴充對在第二輪擴充后在表示空間中很大程度上偏離了原始文本。
Conclusion?
本文提出了一個利用實例對比學習來支持無監督集群的新框架。在 8 個基準短文本聚類數據集上對本文模型進行了全面的評估,并表明改模型在性能上大大優于或與最先進的方法相當。此外,還進行了消融研究,以更好地驗證模型的有效性。
本文證明,通過整合自底向上實例識別和自頂向下集群的優點,模型能夠生成具有更好的集群內和集群間距離的高質量集群。雖然本文只在短文本數據上評估模型,但所提出的框架是通用的,并且有望對各種文本聚類問題有效。
在這項工作中,本文探索了不同的數據增強策略,并進行了廣泛的比較。然而,由于自然語言的離散性,為文本數據設計有效的轉換相對于計算機視覺領域的對應對象更具挑戰性。一個有希望的方向是利用數據混合策略來獲得更強的數據增強或減輕數據增強的沉重負擔。
特別鳴謝
感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
?????稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
?????投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的NAACL 2021 | AWS AI 提出基于对比学习的端到端无监督聚类方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 如何做出一桌高大上的宴客菜?
- 下一篇: 长春塑料打包站有几家,在线等?