SGM:Sequence Generation Model for Multi-Label Classification(SGM)
SGM歷史意義:
? ? ? ?1、提出一種新奇的模型SGM
? ? ? ?2、給多標(biāo)簽文本分類提供一種新的解決思路
? ? ? ?3、在兩個(gè)多標(biāo)簽分類的數(shù)據(jù)集上取得了很好的結(jié)果
?
論文主要結(jié)構(gòu):
?
一、Abstract
? ? ? 多標(biāo)簽文本分類因?yàn)闃?biāo)簽之間的相關(guān)性所以是一個(gè)非常有挑戰(zhàn)性的工作,并且文本不同部分對于標(biāo)簽的預(yù)測的重要性不同,基于這兩點(diǎn),這篇論文提出一種基于注意力機(jī)制的序列生成模型來做多標(biāo)簽文本分類
二、Introduction
? ? ? (任務(wù)重要性 -> 前人缺點(diǎn) -> 本文提出相關(guān)模型 -> 實(shí)驗(yàn))
? ? ? 1、多標(biāo)簽文本分類是自然語言處理的重要任務(wù),多標(biāo)簽文本分類可以用到文本分類、推薦領(lǐng)域以及信息檢索任務(wù)中
? ? ? 2、目前的多標(biāo)簽文本分類模型存在兩個(gè)問題:沒有注意到標(biāo)簽之間的相關(guān)性以及不同文本對于不同標(biāo)簽分類的重要性不同
? ? ? 3、為了解決這兩個(gè)問題,這篇論文使用SeqSeq模型模型學(xué)習(xí)標(biāo)簽之間的相關(guān)性,使用注意力機(jī)制學(xué)習(xí)不同文本的重要性
? ? ?4、實(shí)驗(yàn)證明-模型能夠在兩個(gè)多標(biāo)簽文本分類數(shù)據(jù)集上大幅度領(lǐng)先基準(zhǔn)模型并且實(shí)驗(yàn)結(jié)果表明可以解決上述問題
三、Proposed Model
? ? ? 本文提出SGM模型
? ? ? 本文首先總體概括一下主要做了什么工作
? ? ??
?
主要介紹了一句話是多標(biāo)簽,會(huì)有一個(gè)標(biāo)簽序列L,會(huì)根據(jù)訓(xùn)練集按照label出現(xiàn)的次數(shù)進(jìn)行統(tǒng)計(jì),然后每一個(gè)文本對應(yīng)的標(biāo)簽序列,出現(xiàn)頻率比較高的標(biāo)簽放在標(biāo)簽序列的前面,“bos”、“eos”分別表示標(biāo)簽序列的開始和結(jié)束,整體流程主要是首先輸入文本序列x,然后編碼獲取隱藏層狀態(tài),利用注意力機(jī)制獲得向量ct,解碼部分是根據(jù)向量ct、上一層的隱藏狀態(tài)st-1以及解碼向量g(yt-1)獲得t時(shí)刻的隱藏層狀態(tài)st,最后通過一個(gè)mask softmax獲得輸出yt的概率分布。
模型整體結(jié)構(gòu)圖:
具體結(jié)構(gòu)細(xì)分包括: Encoder部分、Attention部分、Decoder部分、global embedding部分
1)Encoder部分
?
Encoder部分主要是輸入一個(gè)句子,把每一個(gè)詞embedding化,然后把每一個(gè)詞的embedding輸入到雙向LSTM網(wǎng)絡(luò)中,并將正向和反向的隱藏層狀態(tài)做concat作為該詞的最后隱藏層狀態(tài)表示(也就是上圖中的hi)
?
2)?Attention部分
?每個(gè)詞對標(biāo)簽的貢獻(xiàn)不一樣,所以在隱藏層狀態(tài)表示部分添加一個(gè)注意力機(jī)制獲取每一個(gè)編碼隱藏層的權(quán)重(對應(yīng)圖中ati),va相當(dāng)于注意力機(jī)制中的query在這里也是一個(gè)動(dòng)態(tài)的可學(xué)習(xí)的參數(shù)矩陣,wa、ua也是參數(shù)矩陣,ct表示attention value
3)?Decoder部分
?
g(yt-1)表示在yt-1的最大概率分布label的embedding,yt-1是在時(shí)間t-1的時(shí)刻標(biāo)簽序列的概率分布,并且為了在標(biāo)簽序列中防止相同的標(biāo)簽被多次預(yù)測,在softmax部分添加一個(gè)It
?
4)global embedding部分
? ? ?
?
說的主要目的是當(dāng)前時(shí)刻的標(biāo)簽部分依賴于這個(gè)標(biāo)簽序列上一時(shí)刻的標(biāo)簽,如果上一時(shí)刻預(yù)測標(biāo)簽有問題,那么這個(gè)標(biāo)簽序列下一時(shí)刻也有很大的問題,相當(dāng)于一錯(cuò)再錯(cuò)下去,提出的global embedding表示不在僅僅依賴與上一時(shí)刻而是依賴于全局,具體做法是對embeding進(jìn)行加權(quán)求和也就是上述圖中的e',e表示上一時(shí)刻的embedding
?
四、Experiment
? ? ? 兩個(gè)數(shù)據(jù)集上實(shí)驗(yàn)及實(shí)驗(yàn)結(jié)果
?
介紹了兩個(gè)數(shù)據(jù)集以及多標(biāo)簽評價(jià)指標(biāo)以及后續(xù)介紹相關(guān)實(shí)驗(yàn)設(shè)置、對比模型-baseline、主要實(shí)驗(yàn)結(jié)果、實(shí)驗(yàn)分析(不同參數(shù)取值對結(jié)果的影響、attention可視化等內(nèi)容)
五、Related Work
? ? ? 介紹了前人在多標(biāo)簽分類的相關(guān)論文以及內(nèi)容
六、Conclusion and Feature work
? ? ?全文總結(jié)并對未來展望
? ? 關(guān)鍵點(diǎn):
? ? ? ? 1、之前的模型沒有注意到標(biāo)簽之間的相關(guān)性以及不同標(biāo)簽分類的文本重要性不同
? ? ? ? 2、本文通過SeqSeq 學(xué)習(xí)標(biāo)簽之間的相關(guān)性,通過注意力機(jī)制學(xué)習(xí)不同標(biāo)簽得到重要相關(guān)文本
? ? ? ? 3、SGM模型
? ?創(chuàng)新點(diǎn):
? ? ? ?1、將多標(biāo)簽分類任務(wù)看成文本生成任務(wù),可以學(xué)習(xí)標(biāo)簽之間的相關(guān)性
? ? ? ?2、本文提出一種新的decoder結(jié)構(gòu),不僅可以獲取標(biāo)簽之間的關(guān)系,并且可以自適應(yīng)選擇不同的文本去分類不同的標(biāo)簽
? ? ? ?3、實(shí)驗(yàn)結(jié)果表明SGM模型能夠大幅度提高多標(biāo)簽文本分類的效果
? ?啟發(fā)點(diǎn):
? ? ? ?1、前人忽略標(biāo)簽之間的相關(guān)性,并且沒有注意不同文本對于預(yù)測不同標(biāo)簽的重要性不同
? ? ? ?2、beam search不能從根本上解決曝光誤差問題,因?yàn)檫@一誤差可能會(huì)出現(xiàn)在每一條可能的路徑上,而beam search只是選擇幾條最好的路徑
?
七、代碼實(shí)現(xiàn)
? ? 論文中公開了源碼:https://github.com/lancopku/SGM
?
?
?
?
總結(jié)
以上是生活随笔為你收集整理的SGM:Sequence Generation Model for Multi-Label Classification(SGM)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Hierarchical Attenti
- 下一篇: Attention Is All You