日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

多标签文本分类数据集_标签感知的文档表示用于多标签文本分类(EMNLP 2019)...

發(fā)布時間:2023/12/10 编程问答 22 豆豆
生活随笔 收集整理的這篇文章主要介紹了 多标签文本分类数据集_标签感知的文档表示用于多标签文本分类(EMNLP 2019)... 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

原文:

Label-Speci?c Document Representation for Multi-Label Text Classi?cation(EMNLP 2019)

多標簽文本分類

摘要:

本文使用標簽相關的注意力網絡學習文檔表示。

該方法在構建文檔表示時使用了標簽的語義信息來決定標簽和文檔的語義聯(lián)系。

并且,根據(jù)文檔內容信息,使用了自注意力機制識別標簽特定的文檔表示。

為了整合以上兩部分,使用了自適應的融合機制,這樣可以輸出全面的文檔表示。

1 Introduction:

類似CNN、RNN、注意力機制的方法已經很好的實現(xiàn)了文檔的表示。但是其中的大多數(shù)方法僅僅關注文檔而忽略了標簽。

近期的一些工作通過探索標簽結構或標簽內容捕獲標簽相關性。盡管其已經取得了一些成果,但是這些方法無法在標簽文本有巨大差異的情況下,取得好的效果。

比如Management vs Management moves,就很難區(qū)分。

2 Label-Speci?c Attention Network model (LSAN)

模型包含兩部分。第一部分通過利用文檔內容和標簽文本,從每一個文檔中,捕獲標簽相關的部分。第二部分旨在從兩個方面自適應的提取正確的信息。最終,分類器基于融合的標簽特定的文檔表示。

2.1 Input Text Representation:

使用Bi-LSTM捕獲雙向的語義信息,從而學習每一個輸入文檔的word embedding。

在第p個時間步,隱藏狀態(tài)可以被更新。

是第p個單詞的embedding向量,是其相應的正向/反向詞表示。從而,整個文檔可以被表示為:

2.2 Label-Speci?c Attention Network

這一部分旨在于獲取每個文檔的標簽相關的內容。這種策略受啟發(fā)于文本分類。

例子:

June a Friday, in the lawn, a war between the young boys of the football game start.

屬于類別youth和sports。內容young boys與youth更相關而不是sports。而football game直接與sports相關。

2.2.1 Self-attention Mechanism

一篇文檔中的每一個單詞對每一個標簽的貢獻程度不同。為了捕獲文檔與每個標簽的相關性,本文采取自注意力機制。標簽-單詞注意力分數(shù)可以通過以下公式獲得:

是自注意力參數(shù)。代表著所有詞對第j個標簽的貢獻度。

接下來,可以獲取文本單詞對每一個標簽的加權和:

是輸入文檔結合第j個標簽的表示。就是標簽特定的文檔表示,

2.2.2 Label-Attention Mechanism

剛剛的自注意力部分可以看作是基于內容的注意力機制,只考慮到了文檔內容信息。

然而,標簽在文本分類中具有特定的語義信息。為了利用到標簽的語義信息,他們被預處理和表示為一個可訓練的矩陣,在同一個潛在的k維空間:

一旦得到Bi-LSTM輸出的word embedding,以及標簽embedding C,我們可以顯式的得到每一對單詞和標簽的語義聯(lián)系。一個簡單的方法是計算詞表示和標簽表示的點積:

以上兩者分別是詞和標簽正向和反向的語義聯(lián)系。與剛剛的自注意力機制類似,標簽特定的文檔表示可以通過標簽詞的線性組合被構建:

最后,文檔可以被重表示:

這一部分的表示是基于標簽文本,所以我們將其命名為標簽注意力機制。

2.3 Adaptive Attention Fusion Strategy

為了對以上兩者(基于內容的注意力機制,基于標簽的注意力機制)結合,在這一部分我們探究使用了注意力融合機制,自適應的從以上兩部分中提取正確的信息,并建立更全面的文檔表示。

具體來講,兩個權重向量用于得到以上兩部分文檔表示的重要程度,可以通過一個全連接層得到:

兩個W是參數(shù)。分別是自注意力機制和標簽注意力機制的重要程度(沿著第j個標簽)。所以為這兩對參數(shù)添加限制:

得到最終的文檔表示:

2.4 Label Prediction

在得到最終的文檔表示后,我們可以通過含兩個全連接層的多層感知機建立一個多標簽文本分類器。每個標簽的預測概率可以通過如下公式得到:

Sigmoid輸出的值可以看作概率,所以我們最后使用交叉熵損失。

N是訓練集文檔數(shù)目,是標簽數(shù)量,是零一變量,代表文檔是否有標簽。

3 Experiments

Datasets:

不同數(shù)據(jù)集的標簽數(shù)量L有多有少。

Baseline Models:

一些經典的文本多標簽分類方法:XML-CNN: (Liu et al., 2017),SGM: (Yang et al., 2018),DXML: (Zhang et al., 2018)。

AttentionXML: (You et al., 2018) 可以看作本文模型的特殊情況,即只考慮到了文本內容,沒有考慮到標簽語義。

EXAM: (Du et al., 2018) 與本文模型最接近的工作,但是本文模型處理的更好。

3.2 Comparison Results and Discussion

XML-CNN的效果最差,原因是其沒有考慮到標簽相關性。

在RCV1和Kanshan-Cup數(shù)據(jù)集上,AttentionXML比EXAM效果好。因為這兩個數(shù)據(jù)集具有層級標簽結構。此時父標簽和子標簽可能包含相同的文本內容,使得其更難區(qū)分。

在EUR-Lex數(shù)據(jù)集上,AttentionXML效果最差,因為其只關注文檔內容信息,EXAM和LSAN都受益于標簽文本信息,所以效果更好。

3.3 Comparison on Sparse Data

為了驗證本文方法LSAN在低頻標簽上的效果,我們將EUR-Lex根據(jù)頻率劃分為三個組。

三個方法在三個組上的效果:

特別是在低頻標簽上,本文提出的方法獲得了更大的提升。

3.4 Ablation Test

文本提出的LSAN方法可以看作是三部分的結合:自注意力部分(A),標簽注意力部分(L)和融合注意力部分(W)。

自注意力部分A用來找到有用的文檔內容,標簽注意力部分L利用到了標簽文本信息顯式得得到了文檔和標簽的語義聯(lián)系。然而,有些標簽不易被區(qū)分(e.g., Management vs. Management movies).,所以結合兩者也很重要。

注意力權重展示:

為了進一步展示融合注意力機制的重要性,展示自注意力和標簽注意力在兩個數(shù)據(jù)集上的權重分布。其中EUR-Lex數(shù)據(jù)比較稀疏,AAPD不稀疏。

正如我們預料的,在稀疏數(shù)據(jù)集上,標簽注意力機制比自注意力機制更有效。在不稀疏的數(shù)據(jù)集上,每個標簽有充分的文檔,所以自注意力機制就夠了。

可視化:

探究標簽注意力機制的效果。Computer Vision和Neural and Evolutionary Computing是該例子的兩個類別,我們可以看出其各自在文本中對應的單詞。

啟發(fā):

注意力機制可以拿來進行自適應學習,學習兩部分的動態(tài)加權。但是需要兩部分都有好的性能才能取得更好的效果。

總結

以上是生活随笔為你收集整理的多标签文本分类数据集_标签感知的文档表示用于多标签文本分类(EMNLP 2019)...的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。