日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

label-embedding在文本分类中的应用

發布時間:2024/10/8 60 豆豆
生活随笔 收集整理的這篇文章主要介紹了 label-embedding在文本分类中的应用 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?PaperWeekly 原創 ·?作者|蔡杰

學校|北京大學碩士生

研究方向|QA

最近在做文本分類相關的工作,目標是想提高分類器泛化新樣本的能力,當有新樣本產生的時候能夠不需要重新訓練分類器。所以挖了挖這個領域的研究,不挖不知道,一挖嚇一跳,沒想到這個坑還挺深的,看著看著就從普通的分類延續到 few-shot,zero-shot 以及 meta-learning 去了。在這里先介紹幾篇與 label-embedding 相關的工作,以后有時間了其他的方法有時間了慢慢碼字。

LEAM

論文標題:Joint Embedding of Words and Labels for Text Classification

論文來源:ACL 2018

論文鏈接:https://arxiv.org/abs/1805.04174

代碼鏈接:https://github.com/guoyinwang/LEAM

1.1 概述

這篇文章作者將文本分類看作是一個 label-word 的聯合嵌入問題:可以將每個 label embedding 到 word 向量相同的空間中。

作者提出了一個注意力框架 Label-Embedding Attentive Model (LEAM) 的模型,該模型能夠學習 word 和 label 在同一空間的 representation,并且可以用來衡量文本序列和 label 之間 embedding 的兼容性。其中注意力是在標記樣本的訓練集上學習的,以確保在給定的文本序列中,相關詞的權重高于不相關詞。

該方法保證了 word-embedding 的可解釋性,并具有利用除了輸入文本序列之外的其他信息源的能力。

在 Zero-Shot learning 中,label embedding 是一個很經典的方法,通過學習 label embedding,模型可以預測在訓練集中未曾出現過的類別。

1.2 方法

首先作者介紹了,一般的方法將文本分類看做以下幾個步驟:

f0:將句子 embedding 的過程。L 是序列長度,P 是 embedding 的維度。

f1:將句子 embedding 進行各種操作的過程,一般就是模型(TextCNN,BERT...)。

f2:模型輸出之后的 ffn,用于映射到最后的 label 空間。

一般方法在?f1?只利用了來自輸入文本序列的信息,而忽略了 label 的信息。作者發現使用標簽信息只發生在最后一步?f2,因此作者提出一種新的 pipeline,將label信息納入每一步,如下圖所示:

作者提出的方法將文本分類看做以下幾個新的步驟:

f0:學習 label 的 embedding 作為“anchor points”來影響 word embedding。

f1:利用 label 和 word 之間的相關性進行 word embedding 的聚合。

f2:保持不變。

V?為 sequence embedding 的矩陣,C?為 label embedding 的矩陣,利用?cosine 相似度計算每個 label-word 之間的相似度:

進一步獲取連續詞(即連續詞)之間的相對空間信息,對于以 l 為中心長度為?2r+1?的文本做如下操作:

之后利用 max-pooling,可以得到最大相關的系數:

ml 是長度為 l 的向量,整個文本序列的兼容性/注意力得分為:

1.3 實驗

MTLE

論文標題:Multi-Task Label Embedding for Text Classification

論文來源:ACL 2018

論文鏈接:https://arxiv.org/abs/1710.07210

本文作者指出了文本分類的三個缺陷:

  • 缺少 label 信息:每個任務的標簽都用獨立的、沒有意義的單熱點向量來表示,例如情緒分析中的正、負,編碼為 [1,0] 和 [0,1],可能會造成潛在標簽信息的丟失。

  • 不能 scaling(不造咋翻譯了,縮放?):網絡結構被精心設計來建模多任務學習的各種關聯,但大多數網絡結構是固定的,只能處理兩個任務之間的交互,即成對交互。當引入新的任務時,網絡結構必須被修改,整個網絡必須再次被訓練。

  • 不能遷移:對于人類來說,在學習了幾個相關的任務之后,我們可以很容易的就可以處理一個全新的任務,這就是遷移學習的能力。以往大多數模型的網絡結構都是固定的,不兼容的,以致于無法處理新的任務。

因此,作者提出了多任務 label embedding (MTLE),將每個任務的 label 也映射到語義向量中,類似于 word embedding 表示單詞序列,從而將原始的文本分類任務轉化為向量匹配任務。

作者提出了三種模型:

第一種假設對于每個任務,我們只有 N 個輸入序列和 C 個分類標簽,但是缺少每個輸入序列和對應標簽的具體標注。在這種情況下,只能以無監督的方式實現 MTLE。包含三個部分:input encoder, label encoder, matcher。兩個 encoder 將文本編碼成定長的向量。

第一種由于使用了非監督方法,performance 不如有監督的。

第二種就是有監督的了,兩個 LSTM 分別對 label 和句子進行編碼,之后分別 concat,過一層全連接(),得到 logits,個人感覺這個交互做的過于簡單。

第三種則是基于 MTLE 的半監督學習模型。

第二種第三種之間唯一的不同是它們處理新任務的方式。如果新任務有標簽,可以選擇第二種的 Hot-Update 或 Cold-Update。如果新的任務完全沒有標記,仍然可以使用第二種進行向量映射,無需進一步訓練就可以為每個輸入序列找到最佳的標記(但是還是映射到原來就有的 label 里),作者將其定義為 Zero-Update。

Hot-Update、Cold-Update 和 Zero-Update 之間的區別如下圖所示,其中, Before Update 表示在引入新任務之前對舊任務進行訓練的模型。

  • Hot-Update: 在訓練過多個 task 的模型基礎上進行 finetune。

  • Cold-Update: 在所有的 tasks 上重新訓練。

  • Zero update: 不更新模型。利用訓練過的模型在新 task 上直接得出結果。

實驗結果如下:

第二種在多個數據集也碾壓了很多當時不錯的 model。

EXAM

論文標題:Explicit Interaction Model towards Text Classi?cation

論文來源:AAAI 2019

論文鏈接:https://arxiv.org/abs/1811.09386

代碼鏈接:https://github.com/NonvolatileMemory/AAAI_2019_EXAM

該文章的 idea 和以上的幾篇類似,文本分類中沒有充分利用 label 信息的問題,也都指出了對 label 做 encoding 的方法,作者提出了一個新的框架?EXplicit interAction Model (EXAM),加入了 interaction mechanism。

3.1 概述

如下圖所示,傳統分類的解決方案通過 dot-product 操作將文本級表示與 label 表示匹配。在數學上,FC 層的參數矩陣可以解釋為一組類表示(每個列與一個類關聯)。

因此,文本屬于某個類的概率在很大程度上取決于其整體匹配得分,而與單詞級匹配信號無關,單詞級匹配信號會為分類提供明確的信號(例如,missile 強烈暗示了軍事的主題)。

針對上述情況,作者引入了交互機制,該機制能夠將單詞級匹配信號納入文本分類中。交互機制背后的關鍵思想是顯式計算單詞和類之間的匹配分數。從單詞級別的表示中,它會計算一個交互矩陣,其中每個條目是單詞和類(dot-product)之間的匹配得分。

3.2 模型

3.2.1 字級編碼器(Encoder),用于將輸入文本 d_i 投影到字級表示 H。
  • Gated Recurrent Unit

  • Region Embedding 來學習和利用 Ngrams 的任務特定的分布式表示。

3.2.2 交互層(Interaction),用于計算單詞和類之間的交互信號的交互層。

3.2.3 聚合層(Aggregation),用于聚合每個類的交互信號并進行最終預測。

該層的設計目的是將每個類的交互特性聚合到一個 logits 中,表示類與輸入文本之間的匹配分數。聚合層可以通過不同的方式實現,如 CNN 和 LSTM。但是,為了保持考試的簡單性和效率,這里作者只使用了一個具有兩個 FC 層的 MLP,其中 ReLU 被用作第一層的激活函數。在形式上,MLP對類的交互特性進行聚合,并計算其關聯 logits 如下:

3.2.4 Loss(Cross Entropy)

3.3 實驗結果

3.4 結論

本文使用交互機制來明確地計算文本分類的單詞級交互信號,并將 EXAM 應用于多類和多標簽文本分類。對幾個基準數據集的實驗驗證了該機制的有效性。

3.5 相關論文

論文標題:GILE: A Generalized Input-Label Embedding for Text Classification

論文來源:TACL 2019

論文鏈接:https://arxiv.org/abs/1806.06219

代碼鏈接:https://github.com/idiap/gile

更多閱讀

#投 稿?通 道#

?讓你的論文被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得技術干貨。我們的目的只有一個,讓知識真正流動起來。

?????來稿標準:

? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?

? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?

? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志

?????投稿郵箱:

? 投稿郵箱:hr@paperweekly.site?

? 所有文章配圖,請單獨在附件中發送?

? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通

????

現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

總結

以上是生活随笔為你收集整理的label-embedding在文本分类中的应用的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。