日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

多标签文本分类数据集_标签感知的文档表示用于多标签文本分类(EMNLP 2019)...

發(fā)布時(shí)間:2023/12/10 编程问答 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 多标签文本分类数据集_标签感知的文档表示用于多标签文本分类(EMNLP 2019)... 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

原文:

Label-Speci?c Document Representation for Multi-Label Text Classi?cation(EMNLP 2019)

多標(biāo)簽文本分類

摘要:

本文使用標(biāo)簽相關(guān)的注意力網(wǎng)絡(luò)學(xué)習(xí)文檔表示。

該方法在構(gòu)建文檔表示時(shí)使用了標(biāo)簽的語義信息來決定標(biāo)簽和文檔的語義聯(lián)系。

并且,根據(jù)文檔內(nèi)容信息,使用了自注意力機(jī)制識別標(biāo)簽特定的文檔表示。

為了整合以上兩部分,使用了自適應(yīng)的融合機(jī)制,這樣可以輸出全面的文檔表示。

1 Introduction:

類似CNN、RNN、注意力機(jī)制的方法已經(jīng)很好的實(shí)現(xiàn)了文檔的表示。但是其中的大多數(shù)方法僅僅關(guān)注文檔而忽略了標(biāo)簽。

近期的一些工作通過探索標(biāo)簽結(jié)構(gòu)或標(biāo)簽內(nèi)容捕獲標(biāo)簽相關(guān)性。盡管其已經(jīng)取得了一些成果,但是這些方法無法在標(biāo)簽文本有巨大差異的情況下,取得好的效果。

比如Management vs Management moves,就很難區(qū)分。

2 Label-Speci?c Attention Network model (LSAN)

模型包含兩部分。第一部分通過利用文檔內(nèi)容和標(biāo)簽文本,從每一個(gè)文檔中,捕獲標(biāo)簽相關(guān)的部分。第二部分旨在從兩個(gè)方面自適應(yīng)的提取正確的信息。最終,分類器基于融合的標(biāo)簽特定的文檔表示。

2.1 Input Text Representation:

使用Bi-LSTM捕獲雙向的語義信息,從而學(xué)習(xí)每一個(gè)輸入文檔的word embedding。

在第p個(gè)時(shí)間步,隱藏狀態(tài)可以被更新。

是第p個(gè)單詞的embedding向量,是其相應(yīng)的正向/反向詞表示。從而,整個(gè)文檔可以被表示為:

2.2 Label-Speci?c Attention Network

這一部分旨在于獲取每個(gè)文檔的標(biāo)簽相關(guān)的內(nèi)容。這種策略受啟發(fā)于文本分類。

例子:

June a Friday, in the lawn, a war between the young boys of the football game start.

屬于類別youth和sports。內(nèi)容young boys與youth更相關(guān)而不是sports。而football game直接與sports相關(guān)。

2.2.1 Self-attention Mechanism

一篇文檔中的每一個(gè)單詞對每一個(gè)標(biāo)簽的貢獻(xiàn)程度不同。為了捕獲文檔與每個(gè)標(biāo)簽的相關(guān)性,本文采取自注意力機(jī)制。標(biāo)簽-單詞注意力分?jǐn)?shù)可以通過以下公式獲得:

是自注意力參數(shù)。代表著所有詞對第j個(gè)標(biāo)簽的貢獻(xiàn)度。

接下來,可以獲取文本單詞對每一個(gè)標(biāo)簽的加權(quán)和:

是輸入文檔結(jié)合第j個(gè)標(biāo)簽的表示。就是標(biāo)簽特定的文檔表示,

2.2.2 Label-Attention Mechanism

剛剛的自注意力部分可以看作是基于內(nèi)容的注意力機(jī)制,只考慮到了文檔內(nèi)容信息。

然而,標(biāo)簽在文本分類中具有特定的語義信息。為了利用到標(biāo)簽的語義信息,他們被預(yù)處理和表示為一個(gè)可訓(xùn)練的矩陣,在同一個(gè)潛在的k維空間:

一旦得到Bi-LSTM輸出的word embedding,以及標(biāo)簽embedding C,我們可以顯式的得到每一對單詞和標(biāo)簽的語義聯(lián)系。一個(gè)簡單的方法是計(jì)算詞表示和標(biāo)簽表示的點(diǎn)積:

以上兩者分別是詞和標(biāo)簽正向和反向的語義聯(lián)系。與剛剛的自注意力機(jī)制類似,標(biāo)簽特定的文檔表示可以通過標(biāo)簽詞的線性組合被構(gòu)建:

最后,文檔可以被重表示:

這一部分的表示是基于標(biāo)簽文本,所以我們將其命名為標(biāo)簽注意力機(jī)制。

2.3 Adaptive Attention Fusion Strategy

為了對以上兩者(基于內(nèi)容的注意力機(jī)制,基于標(biāo)簽的注意力機(jī)制)結(jié)合,在這一部分我們探究使用了注意力融合機(jī)制,自適應(yīng)的從以上兩部分中提取正確的信息,并建立更全面的文檔表示。

具體來講,兩個(gè)權(quán)重向量用于得到以上兩部分文檔表示的重要程度,可以通過一個(gè)全連接層得到:

兩個(gè)W是參數(shù)。分別是自注意力機(jī)制和標(biāo)簽注意力機(jī)制的重要程度(沿著第j個(gè)標(biāo)簽)。所以為這兩對參數(shù)添加限制:

得到最終的文檔表示:

2.4 Label Prediction

在得到最終的文檔表示后,我們可以通過含兩個(gè)全連接層的多層感知機(jī)建立一個(gè)多標(biāo)簽文本分類器。每個(gè)標(biāo)簽的預(yù)測概率可以通過如下公式得到:

Sigmoid輸出的值可以看作概率,所以我們最后使用交叉熵?fù)p失。

N是訓(xùn)練集文檔數(shù)目,是標(biāo)簽數(shù)量,是零一變量,代表文檔是否有標(biāo)簽。

3 Experiments

Datasets:

不同數(shù)據(jù)集的標(biāo)簽數(shù)量L有多有少。

Baseline Models:

一些經(jīng)典的文本多標(biāo)簽分類方法:XML-CNN: (Liu et al., 2017),SGM: (Yang et al., 2018),DXML: (Zhang et al., 2018)。

AttentionXML: (You et al., 2018) 可以看作本文模型的特殊情況,即只考慮到了文本內(nèi)容,沒有考慮到標(biāo)簽語義。

EXAM: (Du et al., 2018) 與本文模型最接近的工作,但是本文模型處理的更好。

3.2 Comparison Results and Discussion

XML-CNN的效果最差,原因是其沒有考慮到標(biāo)簽相關(guān)性。

在RCV1和Kanshan-Cup數(shù)據(jù)集上,AttentionXML比EXAM效果好。因?yàn)檫@兩個(gè)數(shù)據(jù)集具有層級標(biāo)簽結(jié)構(gòu)。此時(shí)父標(biāo)簽和子標(biāo)簽可能包含相同的文本內(nèi)容,使得其更難區(qū)分。

在EUR-Lex數(shù)據(jù)集上,AttentionXML效果最差,因?yàn)槠渲魂P(guān)注文檔內(nèi)容信息,EXAM和LSAN都受益于標(biāo)簽文本信息,所以效果更好。

3.3 Comparison on Sparse Data

為了驗(yàn)證本文方法LSAN在低頻標(biāo)簽上的效果,我們將EUR-Lex根據(jù)頻率劃分為三個(gè)組。

三個(gè)方法在三個(gè)組上的效果:

特別是在低頻標(biāo)簽上,本文提出的方法獲得了更大的提升。

3.4 Ablation Test

文本提出的LSAN方法可以看作是三部分的結(jié)合:自注意力部分(A),標(biāo)簽注意力部分(L)和融合注意力部分(W)。

自注意力部分A用來找到有用的文檔內(nèi)容,標(biāo)簽注意力部分L利用到了標(biāo)簽文本信息顯式得得到了文檔和標(biāo)簽的語義聯(lián)系。然而,有些標(biāo)簽不易被區(qū)分(e.g., Management vs. Management movies).,所以結(jié)合兩者也很重要。

注意力權(quán)重展示:

為了進(jìn)一步展示融合注意力機(jī)制的重要性,展示自注意力和標(biāo)簽注意力在兩個(gè)數(shù)據(jù)集上的權(quán)重分布。其中EUR-Lex數(shù)據(jù)比較稀疏,AAPD不稀疏。

正如我們預(yù)料的,在稀疏數(shù)據(jù)集上,標(biāo)簽注意力機(jī)制比自注意力機(jī)制更有效。在不稀疏的數(shù)據(jù)集上,每個(gè)標(biāo)簽有充分的文檔,所以自注意力機(jī)制就夠了。

可視化:

探究標(biāo)簽注意力機(jī)制的效果。Computer Vision和Neural and Evolutionary Computing是該例子的兩個(gè)類別,我們可以看出其各自在文本中對應(yīng)的單詞。

啟發(fā):

注意力機(jī)制可以拿來進(jìn)行自適應(yīng)學(xué)習(xí),學(xué)習(xí)兩部分的動態(tài)加權(quán)。但是需要兩部分都有好的性能才能取得更好的效果。

總結(jié)

以上是生活随笔為你收集整理的多标签文本分类数据集_标签感知的文档表示用于多标签文本分类(EMNLP 2019)...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。