多标签文本分类数据集_标签感知的文档表示用于多标签文本分类(EMNLP 2019)...
原文:
Label-Speci?c Document Representation for Multi-Label Text Classi?cation(EMNLP 2019)
多標(biāo)簽文本分類
摘要:
本文使用標(biāo)簽相關(guān)的注意力網(wǎng)絡(luò)學(xué)習(xí)文檔表示。
該方法在構(gòu)建文檔表示時(shí)使用了標(biāo)簽的語義信息來決定標(biāo)簽和文檔的語義聯(lián)系。
并且,根據(jù)文檔內(nèi)容信息,使用了自注意力機(jī)制識別標(biāo)簽特定的文檔表示。
為了整合以上兩部分,使用了自適應(yīng)的融合機(jī)制,這樣可以輸出全面的文檔表示。
1 Introduction:
類似CNN、RNN、注意力機(jī)制的方法已經(jīng)很好的實(shí)現(xiàn)了文檔的表示。但是其中的大多數(shù)方法僅僅關(guān)注文檔而忽略了標(biāo)簽。
近期的一些工作通過探索標(biāo)簽結(jié)構(gòu)或標(biāo)簽內(nèi)容捕獲標(biāo)簽相關(guān)性。盡管其已經(jīng)取得了一些成果,但是這些方法無法在標(biāo)簽文本有巨大差異的情況下,取得好的效果。
比如Management vs Management moves,就很難區(qū)分。
2 Label-Speci?c Attention Network model (LSAN)
模型包含兩部分。第一部分通過利用文檔內(nèi)容和標(biāo)簽文本,從每一個(gè)文檔中,捕獲標(biāo)簽相關(guān)的部分。第二部分旨在從兩個(gè)方面自適應(yīng)的提取正確的信息。最終,分類器基于融合的標(biāo)簽特定的文檔表示。
2.1 Input Text Representation:
使用Bi-LSTM捕獲雙向的語義信息,從而學(xué)習(xí)每一個(gè)輸入文檔的word embedding。
在第p個(gè)時(shí)間步,隱藏狀態(tài)可以被更新。
是第p個(gè)單詞的embedding向量,是其相應(yīng)的正向/反向詞表示。從而,整個(gè)文檔可以被表示為:
2.2 Label-Speci?c Attention Network
這一部分旨在于獲取每個(gè)文檔的標(biāo)簽相關(guān)的內(nèi)容。這種策略受啟發(fā)于文本分類。
例子:
June a Friday, in the lawn, a war between the young boys of the football game start.
屬于類別youth和sports。內(nèi)容young boys與youth更相關(guān)而不是sports。而football game直接與sports相關(guān)。
2.2.1 Self-attention Mechanism
一篇文檔中的每一個(gè)單詞對每一個(gè)標(biāo)簽的貢獻(xiàn)程度不同。為了捕獲文檔與每個(gè)標(biāo)簽的相關(guān)性,本文采取自注意力機(jī)制。標(biāo)簽-單詞注意力分?jǐn)?shù)可以通過以下公式獲得:
是自注意力參數(shù)。代表著所有詞對第j個(gè)標(biāo)簽的貢獻(xiàn)度。
接下來,可以獲取文本單詞對每一個(gè)標(biāo)簽的加權(quán)和:
是輸入文檔結(jié)合第j個(gè)標(biāo)簽的表示。就是標(biāo)簽特定的文檔表示,
2.2.2 Label-Attention Mechanism
剛剛的自注意力部分可以看作是基于內(nèi)容的注意力機(jī)制,只考慮到了文檔內(nèi)容信息。
然而,標(biāo)簽在文本分類中具有特定的語義信息。為了利用到標(biāo)簽的語義信息,他們被預(yù)處理和表示為一個(gè)可訓(xùn)練的矩陣,在同一個(gè)潛在的k維空間:
一旦得到Bi-LSTM輸出的word embedding,以及標(biāo)簽embedding C,我們可以顯式的得到每一對單詞和標(biāo)簽的語義聯(lián)系。一個(gè)簡單的方法是計(jì)算詞表示和標(biāo)簽表示的點(diǎn)積:
以上兩者分別是詞和標(biāo)簽正向和反向的語義聯(lián)系。與剛剛的自注意力機(jī)制類似,標(biāo)簽特定的文檔表示可以通過標(biāo)簽詞的線性組合被構(gòu)建:
最后,文檔可以被重表示:
這一部分的表示是基于標(biāo)簽文本,所以我們將其命名為標(biāo)簽注意力機(jī)制。
2.3 Adaptive Attention Fusion Strategy
為了對以上兩者(基于內(nèi)容的注意力機(jī)制,基于標(biāo)簽的注意力機(jī)制)結(jié)合,在這一部分我們探究使用了注意力融合機(jī)制,自適應(yīng)的從以上兩部分中提取正確的信息,并建立更全面的文檔表示。
具體來講,兩個(gè)權(quán)重向量用于得到以上兩部分文檔表示的重要程度,可以通過一個(gè)全連接層得到:
兩個(gè)W是參數(shù)。分別是自注意力機(jī)制和標(biāo)簽注意力機(jī)制的重要程度(沿著第j個(gè)標(biāo)簽)。所以為這兩對參數(shù)添加限制:
得到最終的文檔表示:
2.4 Label Prediction
在得到最終的文檔表示后,我們可以通過含兩個(gè)全連接層的多層感知機(jī)建立一個(gè)多標(biāo)簽文本分類器。每個(gè)標(biāo)簽的預(yù)測概率可以通過如下公式得到:
Sigmoid輸出的值可以看作概率,所以我們最后使用交叉熵?fù)p失。
N是訓(xùn)練集文檔數(shù)目,是標(biāo)簽數(shù)量,是零一變量,代表文檔是否有標(biāo)簽。
3 Experiments
Datasets:
不同數(shù)據(jù)集的標(biāo)簽數(shù)量L有多有少。
Baseline Models:
一些經(jīng)典的文本多標(biāo)簽分類方法:XML-CNN: (Liu et al., 2017),SGM: (Yang et al., 2018),DXML: (Zhang et al., 2018)。
AttentionXML: (You et al., 2018) 可以看作本文模型的特殊情況,即只考慮到了文本內(nèi)容,沒有考慮到標(biāo)簽語義。
EXAM: (Du et al., 2018) 與本文模型最接近的工作,但是本文模型處理的更好。
3.2 Comparison Results and Discussion
XML-CNN的效果最差,原因是其沒有考慮到標(biāo)簽相關(guān)性。
在RCV1和Kanshan-Cup數(shù)據(jù)集上,AttentionXML比EXAM效果好。因?yàn)檫@兩個(gè)數(shù)據(jù)集具有層級標(biāo)簽結(jié)構(gòu)。此時(shí)父標(biāo)簽和子標(biāo)簽可能包含相同的文本內(nèi)容,使得其更難區(qū)分。
在EUR-Lex數(shù)據(jù)集上,AttentionXML效果最差,因?yàn)槠渲魂P(guān)注文檔內(nèi)容信息,EXAM和LSAN都受益于標(biāo)簽文本信息,所以效果更好。
3.3 Comparison on Sparse Data
為了驗(yàn)證本文方法LSAN在低頻標(biāo)簽上的效果,我們將EUR-Lex根據(jù)頻率劃分為三個(gè)組。
三個(gè)方法在三個(gè)組上的效果:
特別是在低頻標(biāo)簽上,本文提出的方法獲得了更大的提升。
3.4 Ablation Test
文本提出的LSAN方法可以看作是三部分的結(jié)合:自注意力部分(A),標(biāo)簽注意力部分(L)和融合注意力部分(W)。
自注意力部分A用來找到有用的文檔內(nèi)容,標(biāo)簽注意力部分L利用到了標(biāo)簽文本信息顯式得得到了文檔和標(biāo)簽的語義聯(lián)系。然而,有些標(biāo)簽不易被區(qū)分(e.g., Management vs. Management movies).,所以結(jié)合兩者也很重要。
注意力權(quán)重展示:
為了進(jìn)一步展示融合注意力機(jī)制的重要性,展示自注意力和標(biāo)簽注意力在兩個(gè)數(shù)據(jù)集上的權(quán)重分布。其中EUR-Lex數(shù)據(jù)比較稀疏,AAPD不稀疏。
正如我們預(yù)料的,在稀疏數(shù)據(jù)集上,標(biāo)簽注意力機(jī)制比自注意力機(jī)制更有效。在不稀疏的數(shù)據(jù)集上,每個(gè)標(biāo)簽有充分的文檔,所以自注意力機(jī)制就夠了。
可視化:
探究標(biāo)簽注意力機(jī)制的效果。Computer Vision和Neural and Evolutionary Computing是該例子的兩個(gè)類別,我們可以看出其各自在文本中對應(yīng)的單詞。
啟發(fā):
注意力機(jī)制可以拿來進(jìn)行自適應(yīng)學(xué)習(xí),學(xué)習(xí)兩部分的動態(tài)加權(quán)。但是需要兩部分都有好的性能才能取得更好的效果。
總結(jié)
以上是生活随笔為你收集整理的多标签文本分类数据集_标签感知的文档表示用于多标签文本分类(EMNLP 2019)...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 游戏总监透露《暗黑破坏神4》战役长达35
- 下一篇: 机载计算机结构,机载计算机