當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

多标签文本分类数据集_标签感知的文档表示用于多标签文本分类（EMNLP 2019）...

發(fā)布時(shí)間：2023/12/10 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了多标签文本分类数据集_标签感知的文档表示用于多标签文本分类（EMNLP 2019）... 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

原文：

Label-Speci?c Document Representation for Multi-Label Text Classi?cation（EMNLP 2019）

多標(biāo)簽文本分類

摘要：

本文使用標(biāo)簽相關(guān)的注意力網(wǎng)絡(luò)學(xué)習(xí)文檔表示。

該方法在構(gòu)建文檔表示時(shí)使用了標(biāo)簽的語義信息來決定標(biāo)簽和文檔的語義聯(lián)系。

并且，根據(jù)文檔內(nèi)容信息，使用了自注意力機(jī)制識別標(biāo)簽特定的文檔表示。

為了整合以上兩部分，使用了自適應(yīng)的融合機(jī)制，這樣可以輸出全面的文檔表示。

1 Introduction：

類似CNN、RNN、注意力機(jī)制的方法已經(jīng)很好的實(shí)現(xiàn)了文檔的表示。但是其中的大多數(shù)方法僅僅關(guān)注文檔而忽略了標(biāo)簽。

近期的一些工作通過探索標(biāo)簽結(jié)構(gòu)或標(biāo)簽內(nèi)容捕獲標(biāo)簽相關(guān)性。盡管其已經(jīng)取得了一些成果，但是這些方法無法在標(biāo)簽文本有巨大差異的情況下，取得好的效果。

比如Management vs Management moves，就很難區(qū)分。

2 Label-Speci?c Attention Network model (LSAN)

模型包含兩部分。第一部分通過利用文檔內(nèi)容和標(biāo)簽文本，從每一個(gè)文檔中，捕獲標(biāo)簽相關(guān)的部分。第二部分旨在從兩個(gè)方面自適應(yīng)的提取正確的信息。最終，分類器基于融合的標(biāo)簽特定的文檔表示。

2.1 Input Text Representation:

使用Bi-LSTM捕獲雙向的語義信息，從而學(xué)習(xí)每一個(gè)輸入文檔的word embedding。

在第p個(gè)時(shí)間步，隱藏狀態(tài)可以被更新。

是第p個(gè)單詞的embedding向量，是其相應(yīng)的正向/反向詞表示。從而，整個(gè)文檔可以被表示為：

2.2 Label-Speci?c Attention Network

這一部分旨在于獲取每個(gè)文檔的標(biāo)簽相關(guān)的內(nèi)容。這種策略受啟發(fā)于文本分類。

例子：

June a Friday, in the lawn, a war between the young boys of the football game start.

屬于類別youth和sports。內(nèi)容young boys與youth更相關(guān)而不是sports。而football game直接與sports相關(guān)。

2.2.1 Self-attention Mechanism

一篇文檔中的每一個(gè)單詞對每一個(gè)標(biāo)簽的貢獻(xiàn)程度不同。為了捕獲文檔與每個(gè)標(biāo)簽的相關(guān)性，本文采取自注意力機(jī)制。標(biāo)簽-單詞注意力分?jǐn)?shù)可以通過以下公式獲得：

是自注意力參數(shù)。代表著所有詞對第j個(gè)標(biāo)簽的貢獻(xiàn)度。

接下來，可以獲取文本單詞對每一個(gè)標(biāo)簽的加權(quán)和：

是輸入文檔結(jié)合第j個(gè)標(biāo)簽的表示。就是標(biāo)簽特定的文檔表示，

2.2.2 Label-Attention Mechanism

剛剛的自注意力部分可以看作是基于內(nèi)容的注意力機(jī)制，只考慮到了文檔內(nèi)容信息。

然而，標(biāo)簽在文本分類中具有特定的語義信息。為了利用到標(biāo)簽的語義信息，他們被預(yù)處理和表示為一個(gè)可訓(xùn)練的矩陣，在同一個(gè)潛在的k維空間：

一旦得到Bi-LSTM輸出的word embedding，以及標(biāo)簽embedding C，我們可以顯式的得到每一對單詞和標(biāo)簽的語義聯(lián)系。一個(gè)簡單的方法是計(jì)算詞表示和標(biāo)簽表示的點(diǎn)積：

以上兩者分別是詞和標(biāo)簽正向和反向的語義聯(lián)系。與剛剛的自注意力機(jī)制類似，標(biāo)簽特定的文檔表示可以通過標(biāo)簽詞的線性組合被構(gòu)建：

最后，文檔可以被重表示：

這一部分的表示是基于標(biāo)簽文本，所以我們將其命名為標(biāo)簽注意力機(jī)制。

2.3 Adaptive Attention Fusion Strategy

為了對以上兩者（基于內(nèi)容的注意力機(jī)制，基于標(biāo)簽的注意力機(jī)制）結(jié)合，在這一部分我們探究使用了注意力融合機(jī)制，自適應(yīng)的從以上兩部分中提取正確的信息，并建立更全面的文檔表示。

具體來講，兩個(gè)權(quán)重向量用于得到以上兩部分文檔表示的重要程度，可以通過一個(gè)全連接層得到：

兩個(gè)W是參數(shù)。分別是自注意力機(jī)制和標(biāo)簽注意力機(jī)制的重要程度（沿著第j個(gè)標(biāo)簽）。所以為這兩對參數(shù)添加限制：

得到最終的文檔表示：

2.4 Label Prediction

在得到最終的文檔表示后，我們可以通過含兩個(gè)全連接層的多層感知機(jī)建立一個(gè)多標(biāo)簽文本分類器。每個(gè)標(biāo)簽的預(yù)測概率可以通過如下公式得到：

Sigmoid輸出的值可以看作概率，所以我們最后使用交叉熵?fù)p失。

N是訓(xùn)練集文檔數(shù)目，是標(biāo)簽數(shù)量，是零一變量，代表文檔是否有標(biāo)簽。

3 Experiments

Datasets:

不同數(shù)據(jù)集的標(biāo)簽數(shù)量L有多有少。

Baseline Models:

一些經(jīng)典的文本多標(biāo)簽分類方法：XML-CNN: (Liu et al., 2017)，SGM: (Yang et al., 2018)，DXML: (Zhang et al., 2018)。

AttentionXML: (You et al., 2018) 可以看作本文模型的特殊情況，即只考慮到了文本內(nèi)容，沒有考慮到標(biāo)簽語義。

EXAM: (Du et al., 2018) 與本文模型最接近的工作，但是本文模型處理的更好。

3.2 Comparison Results and Discussion

XML-CNN的效果最差，原因是其沒有考慮到標(biāo)簽相關(guān)性。

在RCV1和Kanshan-Cup數(shù)據(jù)集上，AttentionXML比EXAM效果好。因?yàn)檫@兩個(gè)數(shù)據(jù)集具有層級標(biāo)簽結(jié)構(gòu)。此時(shí)父標(biāo)簽和子標(biāo)簽可能包含相同的文本內(nèi)容，使得其更難區(qū)分。

在EUR-Lex數(shù)據(jù)集上，AttentionXML效果最差，因?yàn)槠渲魂P(guān)注文檔內(nèi)容信息，EXAM和LSAN都受益于標(biāo)簽文本信息，所以效果更好。

3.3 Comparison on Sparse Data

為了驗(yàn)證本文方法LSAN在低頻標(biāo)簽上的效果，我們將EUR-Lex根據(jù)頻率劃分為三個(gè)組。

三個(gè)方法在三個(gè)組上的效果：

特別是在低頻標(biāo)簽上，本文提出的方法獲得了更大的提升。

3.4 Ablation Test

文本提出的LSAN方法可以看作是三部分的結(jié)合：自注意力部分（A），標(biāo)簽注意力部分（L）和融合注意力部分（W）。

自注意力部分A用來找到有用的文檔內(nèi)容，標(biāo)簽注意力部分L利用到了標(biāo)簽文本信息顯式得得到了文檔和標(biāo)簽的語義聯(lián)系。然而，有些標(biāo)簽不易被區(qū)分(e.g., Management vs. Management movies).，所以結(jié)合兩者也很重要。

注意力權(quán)重展示：

為了進(jìn)一步展示融合注意力機(jī)制的重要性，展示自注意力和標(biāo)簽注意力在兩個(gè)數(shù)據(jù)集上的權(quán)重分布。其中EUR-Lex數(shù)據(jù)比較稀疏，AAPD不稀疏。

正如我們預(yù)料的，在稀疏數(shù)據(jù)集上，標(biāo)簽注意力機(jī)制比自注意力機(jī)制更有效。在不稀疏的數(shù)據(jù)集上，每個(gè)標(biāo)簽有充分的文檔，所以自注意力機(jī)制就夠了。

可視化：

探究標(biāo)簽注意力機(jī)制的效果。Computer Vision和Neural and Evolutionary Computing是該例子的兩個(gè)類別，我們可以看出其各自在文本中對應(yīng)的單詞。

啟發(fā)：

注意力機(jī)制可以拿來進(jìn)行自適應(yīng)學(xué)習(xí)，學(xué)習(xí)兩部分的動態(tài)加權(quán)。但是需要兩部分都有好的性能才能取得更好的效果。

總結(jié)

以上是生活随笔為你收集整理的多标签文本分类数据集_标签感知的文档表示用于多标签文本分类（EMNLP 2019）...的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：游戏总监透露《暗黑破坏神4》战役长达35
下一篇：机载计算机结构,机载计算机