當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

SGM:Sequence Generation Model for Multi-Label Classification(SGM)

發(fā)布時(shí)間：2025/4/5 编程问答 37 豆豆

生活随笔收集整理的這篇文章主要介紹了 SGM:Sequence Generation Model for Multi-Label Classification(SGM) 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

SGM歷史意義:

? ? ? ?1、提出一種新奇的模型SGM

? ? ? ?2、給多標(biāo)簽文本分類提供一種新的解決思路

? ? ? ?3、在兩個(gè)多標(biāo)簽分類的數(shù)據(jù)集上取得了很好的結(jié)果

論文主要結(jié)構(gòu):

一、Abstract

? ? ? 多標(biāo)簽文本分類因?yàn)闃?biāo)簽之間的相關(guān)性所以是一個(gè)非常有挑戰(zhàn)性的工作，并且文本不同部分對于標(biāo)簽的預(yù)測的重要性不同，基于這兩點(diǎn)，這篇論文提出一種基于注意力機(jī)制的序列生成模型來做多標(biāo)簽文本分類

二、Introduction

? ? ? (任務(wù)重要性 -> 前人缺點(diǎn) -> 本文提出相關(guān)模型 -> 實(shí)驗(yàn))

? ? ? 1、多標(biāo)簽文本分類是自然語言處理的重要任務(wù)，多標(biāo)簽文本分類可以用到文本分類、推薦領(lǐng)域以及信息檢索任務(wù)中

? ? ? 2、目前的多標(biāo)簽文本分類模型存在兩個(gè)問題：沒有注意到標(biāo)簽之間的相關(guān)性以及不同文本對于不同標(biāo)簽分類的重要性不同

? ? ? 3、為了解決這兩個(gè)問題，這篇論文使用SeqSeq模型模型學(xué)習(xí)標(biāo)簽之間的相關(guān)性，使用注意力機(jī)制學(xué)習(xí)不同文本的重要性

? ? ?4、實(shí)驗(yàn)證明-模型能夠在兩個(gè)多標(biāo)簽文本分類數(shù)據(jù)集上大幅度領(lǐng)先基準(zhǔn)模型并且實(shí)驗(yàn)結(jié)果表明可以解決上述問題

三、Proposed Model

? ? ? 本文提出SGM模型

? ? ? 本文首先總體概括一下主要做了什么工作

? ? ??

?

主要介紹了一句話是多標(biāo)簽，會(huì)有一個(gè)標(biāo)簽序列L，會(huì)根據(jù)訓(xùn)練集按照label出現(xiàn)的次數(shù)進(jìn)行統(tǒng)計(jì)，然后每一個(gè)文本對應(yīng)的標(biāo)簽序列，出現(xiàn)頻率比較高的標(biāo)簽放在標(biāo)簽序列的前面，“bos”、“eos”分別表示標(biāo)簽序列的開始和結(jié)束，整體流程主要是首先輸入文本序列x，然后編碼獲取隱藏層狀態(tài)，利用注意力機(jī)制獲得向量ct，解碼部分是根據(jù)向量ct、上一層的隱藏狀態(tài)st-1以及解碼向量g(yt-1)獲得t時(shí)刻的隱藏層狀態(tài)st，最后通過一個(gè)mask softmax獲得輸出yt的概率分布。

模型整體結(jié)構(gòu)圖:

具體結(jié)構(gòu)細(xì)分包括: Encoder部分、Attention部分、Decoder部分、global embedding部分

1）Encoder部分

Encoder部分主要是輸入一個(gè)句子，把每一個(gè)詞embedding化，然后把每一個(gè)詞的embedding輸入到雙向LSTM網(wǎng)絡(luò)中，并將正向和反向的隱藏層狀態(tài)做concat作為該詞的最后隱藏層狀態(tài)表示(也就是上圖中的hi)

2)?Attention部分

?每個(gè)詞對標(biāo)簽的貢獻(xiàn)不一樣，所以在隱藏層狀態(tài)表示部分添加一個(gè)注意力機(jī)制獲取每一個(gè)編碼隱藏層的權(quán)重(對應(yīng)圖中ati)，va相當(dāng)于注意力機(jī)制中的query在這里也是一個(gè)動(dòng)態(tài)的可學(xué)習(xí)的參數(shù)矩陣，wa、ua也是參數(shù)矩陣，ct表示attention value

3）?Decoder部分

?

g(yt-1)表示在yt-1的最大概率分布label的embedding，yt-1是在時(shí)間t-1的時(shí)刻標(biāo)簽序列的概率分布，并且為了在標(biāo)簽序列中防止相同的標(biāo)簽被多次預(yù)測，在softmax部分添加一個(gè)It

4）global embedding部分

? ? ?

?

說的主要目的是當(dāng)前時(shí)刻的標(biāo)簽部分依賴于這個(gè)標(biāo)簽序列上一時(shí)刻的標(biāo)簽，如果上一時(shí)刻預(yù)測標(biāo)簽有問題，那么這個(gè)標(biāo)簽序列下一時(shí)刻也有很大的問題，相當(dāng)于一錯(cuò)再錯(cuò)下去，提出的global embedding表示不在僅僅依賴與上一時(shí)刻而是依賴于全局，具體做法是對embeding進(jìn)行加權(quán)求和也就是上述圖中的e',e表示上一時(shí)刻的embedding

四、Experiment

? ? ? 兩個(gè)數(shù)據(jù)集上實(shí)驗(yàn)及實(shí)驗(yàn)結(jié)果

?

介紹了兩個(gè)數(shù)據(jù)集以及多標(biāo)簽評價(jià)指標(biāo)以及后續(xù)介紹相關(guān)實(shí)驗(yàn)設(shè)置、對比模型-baseline、主要實(shí)驗(yàn)結(jié)果、實(shí)驗(yàn)分析(不同參數(shù)取值對結(jié)果的影響、attention可視化等內(nèi)容)

五、Related Work

? ? ? 介紹了前人在多標(biāo)簽分類的相關(guān)論文以及內(nèi)容

六、Conclusion and Feature work

? ? ?全文總結(jié)并對未來展望

? ? 關(guān)鍵點(diǎn):

? ? ? ? 1、之前的模型沒有注意到標(biāo)簽之間的相關(guān)性以及不同標(biāo)簽分類的文本重要性不同

? ? ? ? 2、本文通過SeqSeq 學(xué)習(xí)標(biāo)簽之間的相關(guān)性，通過注意力機(jī)制學(xué)習(xí)不同標(biāo)簽得到重要相關(guān)文本

? ? ? ? 3、SGM模型

? ?創(chuàng)新點(diǎn):

? ? ? ?1、將多標(biāo)簽分類任務(wù)看成文本生成任務(wù)，可以學(xué)習(xí)標(biāo)簽之間的相關(guān)性

? ? ? ?2、本文提出一種新的decoder結(jié)構(gòu)，不僅可以獲取標(biāo)簽之間的關(guān)系，并且可以自適應(yīng)選擇不同的文本去分類不同的標(biāo)簽

? ? ? ?3、實(shí)驗(yàn)結(jié)果表明SGM模型能夠大幅度提高多標(biāo)簽文本分類的效果

? ?啟發(fā)點(diǎn):

? ? ? ?1、前人忽略標(biāo)簽之間的相關(guān)性，并且沒有注意不同文本對于預(yù)測不同標(biāo)簽的重要性不同

? ? ? ?2、beam search不能從根本上解決曝光誤差問題，因?yàn)檫@一誤差可能會(huì)出現(xiàn)在每一條可能的路徑上，而beam search只是選擇幾條最好的路徑

七、代碼實(shí)現(xiàn)

? ? 論文中公開了源碼:https://github.com/lancopku/SGM

總結(jié)

以上是生活随笔為你收集整理的SGM:Sequence Generation Model for Multi-Label Classification(SGM)的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： Hierarchical Attenti
下一篇： Attention Is All You