當前位置：首頁 >

label-embedding在文本分类中的应用

發布時間：2024/10/8 60 豆豆

生活随笔收集整理的這篇文章主要介紹了 label-embedding在文本分类中的应用小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?PaperWeekly 原創 ·?作者｜蔡杰

學校｜北京大學碩士生

研究方向｜QA

最近在做文本分類相關的工作，目標是想提高分類器泛化新樣本的能力，當有新樣本產生的時候能夠不需要重新訓練分類器。所以挖了挖這個領域的研究，不挖不知道，一挖嚇一跳，沒想到這個坑還挺深的，看著看著就從普通的分類延續到 few-shot，zero-shot 以及 meta-learning 去了。在這里先介紹幾篇與 label-embedding 相關的工作，以后有時間了其他的方法有時間了慢慢碼字。

LEAM

論文標題：Joint Embedding of Words and Labels for Text Classification

論文來源：ACL 2018

論文鏈接：https://arxiv.org/abs/1805.04174

代碼鏈接：https://github.com/guoyinwang/LEAM

1.1 概述

這篇文章作者將文本分類看作是一個 label-word 的聯合嵌入問題：可以將每個 label embedding 到 word 向量相同的空間中。

作者提出了一個注意力框架 Label-Embedding Attentive Model (LEAM) 的模型，該模型能夠學習 word 和 label 在同一空間的 representation，并且可以用來衡量文本序列和 label 之間 embedding 的兼容性。其中注意力是在標記樣本的訓練集上學習的，以確保在給定的文本序列中，相關詞的權重高于不相關詞。

該方法保證了 word-embedding 的可解釋性，并具有利用除了輸入文本序列之外的其他信息源的能力。

在 Zero-Shot learning 中，label embedding 是一個很經典的方法，通過學習 label embedding，模型可以預測在訓練集中未曾出現過的類別。

1.2 方法

首先作者介紹了，一般的方法將文本分類看做以下幾個步驟：

f0：將句子 embedding 的過程。L 是序列長度，P 是 embedding 的維度。

f1：將句子 embedding 進行各種操作的過程，一般就是模型（TextCNN，BERT...）。

f2：模型輸出之后的 ffn，用于映射到最后的 label 空間。

一般方法在?f1?只利用了來自輸入文本序列的信息，而忽略了 label 的信息。作者發現使用標簽信息只發生在最后一步?f2，因此作者提出一種新的 pipeline，將label信息納入每一步，如下圖所示:

作者提出的方法將文本分類看做以下幾個新的步驟：

f0：學習 label 的 embedding 作為“anchor points”來影響 word embedding。

f1：利用 label 和 word 之間的相關性進行 word embedding 的聚合。

f2：保持不變。

V?為 sequence embedding 的矩陣，C?為 label embedding 的矩陣，利用?cosine 相似度計算每個 label-word 之間的相似度：

進一步獲取連續詞（即連續詞）之間的相對空間信息，對于以 l 為中心長度為?2r+1?的文本做如下操作：

之后利用 max-pooling，可以得到最大相關的系數：

ml 是長度為 l 的向量，整個文本序列的兼容性/注意力得分為:

1.3 實驗

MTLE

論文標題：Multi-Task Label Embedding for Text Classification

論文來源：ACL 2018

論文鏈接：https://arxiv.org/abs/1710.07210

本文作者指出了文本分類的三個缺陷：

缺少 label 信息：每個任務的標簽都用獨立的、沒有意義的單熱點向量來表示，例如情緒分析中的正、負，編碼為 [1,0] 和 [0,1]，可能會造成潛在標簽信息的丟失。
不能 scaling（不造咋翻譯了，縮放？）：網絡結構被精心設計來建模多任務學習的各種關聯，但大多數網絡結構是固定的，只能處理兩個任務之間的交互，即成對交互。當引入新的任務時，網絡結構必須被修改，整個網絡必須再次被訓練。
不能遷移：對于人類來說，在學習了幾個相關的任務之后，我們可以很容易的就可以處理一個全新的任務，這就是遷移學習的能力。以往大多數模型的網絡結構都是固定的，不兼容的，以致于無法處理新的任務。

因此，作者提出了多任務 label embedding (MTLE)，將每個任務的 label 也映射到語義向量中，類似于 word embedding 表示單詞序列，從而將原始的文本分類任務轉化為向量匹配任務。

作者提出了三種模型：

第一種假設對于每個任務，我們只有 N 個輸入序列和 C 個分類標簽，但是缺少每個輸入序列和對應標簽的具體標注。在這種情況下，只能以無監督的方式實現 MTLE。包含三個部分：input encoder, label encoder, matcher。兩個 encoder 將文本編碼成定長的向量。

第一種由于使用了非監督方法，performance 不如有監督的。

第二種就是有監督的了，兩個 LSTM 分別對 label 和句子進行編碼，之后分別 concat，過一層全連接（），得到 logits，個人感覺這個交互做的過于簡單。

第三種則是基于 MTLE 的半監督學習模型。

第二種和第三種之間唯一的不同是它們處理新任務的方式。如果新任務有標簽，可以選擇第二種的 Hot-Update 或 Cold-Update。如果新的任務完全沒有標記，仍然可以使用第二種進行向量映射，無需進一步訓練就可以為每個輸入序列找到最佳的標記（但是還是映射到原來就有的 label 里），作者將其定義為 Zero-Update。

Hot-Update、Cold-Update 和 Zero-Update 之間的區別如下圖所示，其中， Before Update 表示在引入新任務之前對舊任務進行訓練的模型。

Hot-Update: 在訓練過多個 task 的模型基礎上進行 finetune。
Cold-Update: 在所有的 tasks 上重新訓練。
Zero update: 不更新模型。利用訓練過的模型在新 task 上直接得出結果。

實驗結果如下：

第二種在多個數據集也碾壓了很多當時不錯的 model。

EXAM

論文標題：Explicit Interaction Model towards Text Classi?cation

論文來源：AAAI 2019

論文鏈接：https://arxiv.org/abs/1811.09386

代碼鏈接：https://github.com/NonvolatileMemory/AAAI_2019_EXAM

該文章的 idea 和以上的幾篇類似，文本分類中沒有充分利用 label 信息的問題，也都指出了對 label 做 encoding 的方法，作者提出了一個新的框架?EXplicit interAction Model (EXAM)，加入了 interaction mechanism。

3.1 概述

如下圖所示，傳統分類的解決方案通過 dot-product 操作將文本級表示與 label 表示匹配。在數學上，FC 層的參數矩陣可以解釋為一組類表示（每個列與一個類關聯）。

因此，文本屬于某個類的概率在很大程度上取決于其整體匹配得分，而與單詞級匹配信號無關，單詞級匹配信號會為分類提供明確的信號（例如，missile 強烈暗示了軍事的主題）。

針對上述情況，作者引入了交互機制，該機制能夠將單詞級匹配信號納入文本分類中。交互機制背后的關鍵思想是顯式計算單詞和類之間的匹配分數。從單詞級別的表示中，它會計算一個交互矩陣，其中每個條目是單詞和類（dot-product）之間的匹配得分。

3.2 模型

3.2.1 字級編碼器（Encoder），用于將輸入文本 d_i 投影到字級表示 H。

Gated Recurrent Unit
Region Embedding 來學習和利用 Ngrams 的任務特定的分布式表示。

3.2.2 交互層（Interaction），用于計算單詞和類之間的交互信號的交互層。

3.2.3 聚合層（Aggregation），用于聚合每個類的交互信號并進行最終預測。

該層的設計目的是將每個類的交互特性聚合到一個 logits 中，表示類與輸入文本之間的匹配分數。聚合層可以通過不同的方式實現，如 CNN 和 LSTM。但是，為了保持考試的簡單性和效率，這里作者只使用了一個具有兩個 FC 層的 MLP，其中 ReLU 被用作第一層的激活函數。在形式上，MLP對類的交互特性進行聚合，并計算其關聯 logits 如下:

3.2.4 Loss（Cross Entropy）

3.3 實驗結果

3.4 結論

本文使用交互機制來明確地計算文本分類的單詞級交互信號，并將 EXAM 應用于多類和多標簽文本分類。對幾個基準數據集的實驗驗證了該機制的有效性。

3.5 相關論文

論文標題：GILE: A Generalized Input-Label Embedding for Text Classification

論文來源：TACL 2019

論文鏈接：https://arxiv.org/abs/1806.06219

代碼鏈接：https://github.com/idiap/gile

更多閱讀

#投稿?通道#

?讓你的論文被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學習心得或技術干貨。我們的目的只有一個，讓知識真正流動起來。

?????來稿標準：

? 稿件確系個人原創作品，來稿需注明作者個人信息（姓名+學校/工作單位+學歷/職位+研究方向）?

? 如果文章并非首發，請在投稿時提醒并附上所有已發布鏈接?

? PaperWeekly 默認每篇文章都是首發，均會添加“原創”標志

?????投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請單獨在附件中發送?

? 請留下即時聯系方式（微信或手機），以便我們在編輯發布時和作者溝通

????

現在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公眾號后臺點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

總結

以上是生活随笔為你收集整理的label-embedding在文本分类中的应用的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：联想g50-80怎么安装win7 如何在
下一篇： NLP预训练模型学习全攻略（内附前沿论文