日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) >

文本基线怎样去掉_ICML 2020 | 基于类别描述的文本分类模型

發(fā)布時(shí)間:2025/4/5 68 豆豆
生活随笔 收集整理的這篇文章主要介紹了 文本基线怎样去掉_ICML 2020 | 基于类别描述的文本分类模型 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

論文標(biāo)題:

Description Based Text Classification with Reinforcement Learning

論文作者:

Duo Chai, Wei Wu, Qinghong Han, Fei Wu and Jiwei Li

論文鏈接:

https://arxiv.org/pdf/2002.03067.pdf

收錄情況:

ICML 2020


一般來(lái)說(shuō),模型越深效果越好。但是同時(shí),模型越深也更難訓(xùn)練——即無(wú)法收斂到訓(xùn)練集上一個(gè)好的值。

今天,我們給大家介紹近期香儂科技被ICML2020接受的的一篇文章基于類別描述的文本分類模型

該模型的主要思想是:通過(guò)顯式地引入對(duì)分類標(biāo)簽的描述提高文本分類的效果。我們提出了三種方法引入這種描述:

  • 模板法——對(duì)每個(gè)標(biāo)簽靜態(tài)地指定一個(gè)描述;

  • 抽取法——對(duì)每個(gè)標(biāo)簽在輸入文本中抽取一段文字作為描述;

  • 生成法——?jiǎng)討B(tài)地根據(jù)輸入的文本為每個(gè)標(biāo)簽生成一段描述。

使用這種技術(shù),我們能夠在單標(biāo)簽文本分類、多標(biāo)簽文本分類和多角度情感分析任務(wù)的10個(gè)數(shù)據(jù)集上取得顯著更好的效果

文本分類中的標(biāo)簽

文本分類是自然語(yǔ)言處理中非常重要的一項(xiàng)任務(wù),它要求模型判斷輸入文本的類別,如情感、評(píng)分、類型等。

從分類數(shù)量上說(shuō),分為單標(biāo)簽分類和多標(biāo)簽分類,前者指每個(gè)文本只有一個(gè)標(biāo)簽類,后者指每個(gè)文本可以有多個(gè)標(biāo)簽類。

從任務(wù)類型講,可以分為文檔分類、情感分析等,前者指對(duì)整個(gè)輸入文本分類(可以是單標(biāo)簽或多標(biāo)簽),后者指對(duì)文本的多種情感判斷類別。

經(jīng)典的文本分類方法是把待分類標(biāo)簽視為簡(jiǎn)單的下標(biāo)。如當(dāng)前的輸入文本是“這個(gè)電影真好看”,需要分類的標(biāo)簽是{1:積極,0:消極},模型接受文本之后,輸出的是0或者1,代表分類結(jié)果。

顯然,用這種分類方法,模型完全無(wú)視了“積極”和“消極”的語(yǔ)義,對(duì)更復(fù)雜標(biāo)簽,這無(wú)疑是一種“語(yǔ)義浪費(fèi)”。我們想要把標(biāo)簽提供的信息利用起來(lái)。

鑒于此,我們提出在輸入文本的同時(shí),也輸入對(duì)標(biāo)簽本身的描述,比如牛津詞典對(duì)“positive”的定義(描述)是:“full of hope and confidence, or giving cause for hope and confidence”。

把這個(gè)描述和原始文本拼接在一起,送入模型,模型輸出一個(gè)概率值,代表當(dāng)前文本具有該標(biāo)簽類的可能性。如此,我們就能充分利用標(biāo)簽本身提供的語(yǔ)義。

但是如果待分類文本的標(biāo)簽數(shù)很多(甚至上百個(gè)標(biāo)簽),一個(gè)一個(gè)為他們?nèi)斯?gòu)造描述也是件麻煩的事情,況且人工構(gòu)造的也不一定“準(zhǔn)確”。

為此,我們期望模型能動(dòng)態(tài)地、根據(jù)輸入句子的不同自動(dòng)構(gòu)造出一個(gè)描述來(lái)。

因而,我們又提出了兩種方法:抽取文本中的一段作為描述,和使用一個(gè)語(yǔ)言模型從頭生成一段描述。這兩種方法都可以使用強(qiáng)化學(xué)習(xí)得以實(shí)現(xiàn)。

這三種方法的一個(gè)例子如下。對(duì)當(dāng)前輸入的文本,我們現(xiàn)在要去判斷它是否屬于“car”這個(gè)標(biāo)簽,而“car”的模板描述、抽取描述和生成描述分別如圖所示。

這種基于標(biāo)簽描述的方法有以下好處:

  • 融入了標(biāo)簽語(yǔ)義,而不僅僅是簡(jiǎn)單的下標(biāo),使得模型更好地進(jìn)行分類;

  • 可以很輕松地進(jìn)行多分類,只需要一個(gè)一個(gè)判斷標(biāo)簽即可;

  • 得到標(biāo)簽描述具有一定的靈活性,不限于人工定義的標(biāo)簽描述。

用這種方法,我們能夠在單標(biāo)簽分類數(shù)據(jù)集AGNews, 20news, DBPedia, Yahoo, YelpP,IMDB,多標(biāo)簽分類數(shù)據(jù)集Reuters,AAPD,和多方面情感分析數(shù)據(jù)集BeerAdvocate,TripAdvisor取得顯著更好的效果。

使用強(qiáng)化學(xué)習(xí)來(lái)學(xué)習(xí)標(biāo)簽描述

下面的問(wèn)題是:對(duì)每個(gè)標(biāo)簽和每個(gè)輸入,如何得到該標(biāo)簽的描述。模板法(Tem.)不必多說(shuō),我們簡(jiǎn)單使用維基百科的定義作為模板。

由于我們沒(méi)有顯式提供每個(gè)標(biāo)簽應(yīng)該抽取或生成怎樣的描述,我們自然想到使用強(qiáng)化學(xué)習(xí)。

?| 抽取式模型(Ext.)

首先我們來(lái)看如何從文本中抽取一段作為標(biāo)簽描述。設(shè)輸入文本是,對(duì)每個(gè)標(biāo)簽,我們要構(gòu)造一個(gè)描述,這個(gè)描述是輸入文本中的一段,記為。這就等價(jià)于選取一個(gè)初始下標(biāo)和一個(gè)終止下標(biāo),可以參數(shù)化為:

就是對(duì)標(biāo)簽,從文本中選取下標(biāo)作為起始下標(biāo)的概率;而就是選取為終止下標(biāo)的概率。這樣,把這兩個(gè)相乘,就得到了選取整個(gè)文本段作為描述的概率:

在選取了描述之后,就把描述和文本拼接起來(lái)一起送入模型,讓模型輸出一個(gè)概率值,判斷文本是否具有該標(biāo)簽,這就可以作為強(qiáng)化學(xué)習(xí)中的獎(jiǎng)勵(lì)(Reward),記為。如此一來(lái),我們就可以用REINFORCE算法去更新參數(shù):

?| 生成式模型(Abs.)

同樣地,生成式模型使用一個(gè)序列到序列的模型去從頭生成描述,而不是從輸入文本中選取下標(biāo)。

具體地說(shuō),對(duì)每個(gè)標(biāo)簽,我們使用一個(gè)公有的序列到序列模型生成它的描述:

對(duì)不同的,我們?cè)诰幋a端和解碼端的每一步額外添加一個(gè)標(biāo)簽表示向量。

和抽取式模型不同,生成式模型每次的?行為(Action)?是從詞表中選取一個(gè)詞,而詞表往往非常大,這就可能導(dǎo)致方差變大,使得訓(xùn)練不穩(wěn)定。

為此,我們使用REGS——Reward for Every Generation Step去緩解這個(gè)問(wèn)題。

在REINFORCE里,一個(gè)句子的reward在生成結(jié)束之后才能得到,換句話說(shuō),對(duì)解碼端的每一步,它們收到的reward是相同的。

而在REGS里,我們使用一個(gè)判別器,對(duì)每一步賦予不同的reward:

序列到序列模型使用標(biāo)簽?zāi)0宄跏蓟?即將文本作為輸入,將標(biāo)簽?zāi)0遄鳛檩敵?。

實(shí)驗(yàn)

為了驗(yàn)證該方法的有效性,我們?cè)谌愇谋痉诸惾蝿?wù)上實(shí)驗(yàn):單標(biāo)簽分類、多標(biāo)簽分類和多方面情感分析。

  • 單標(biāo)簽分類指每個(gè)輸入文本只有一個(gè)標(biāo)簽。數(shù)據(jù)集有AGNews, 20newsgroups, DBPedia, YahooAnswers, YelpReviewPolarity, IMDB。

  • 多標(biāo)簽分類指每個(gè)輸入文本可能有多個(gè)標(biāo)簽。數(shù)據(jù)集有Reuters, AAPD。

  • 多方面情感分析指輸入文本可能涉及多個(gè)方面,每個(gè)方面需要分類各自的標(biāo)簽。數(shù)據(jù)集有BeerAdvocate和TripAdvisor。

我們的基線模型主要有LSTM和BERT-base。我們同樣使用BERT-base作為主干模型。

下表是在單標(biāo)簽分類任務(wù)上的結(jié)果(錯(cuò)誤率,越小越好)。首先可以看到,基于標(biāo)簽描述的方法都優(yōu)于BERT-base;其次,抽取式和生成式的描述生成方法平均優(yōu)于基于模板的方法。

下表是多標(biāo)簽分類任務(wù)上的結(jié)果,基于標(biāo)簽描述的方法具有顯著更小的F1錯(cuò)誤率。

然后是多方面情感分析任務(wù)的結(jié)果。和BERT-base相比,我們的方法可以取得大幅度的提高,這是因?yàn)槲覀兡軓娜舾傻那楦蟹矫嬷嗅槍?duì)每個(gè)不同的方面,從文本中提取關(guān)于它的最重要信息,而不是一次性考慮所有的方面。

接下來(lái)看看如果我們把模板法中的模板替換會(huì)有怎樣的變化。

具體地,我們嘗試了四種不同的模板:下標(biāo)(類似最傳統(tǒng)的方法,把每個(gè)標(biāo)簽視為一個(gè)字符串似的數(shù)字,如"one","two")、關(guān)鍵詞(把每個(gè)標(biāo)簽描述為單個(gè)關(guān)鍵詞)、關(guān)鍵詞拓展(把每個(gè)標(biāo)簽用多個(gè)近義的關(guān)鍵詞描述)和維基百科定義(本文的方法)。

結(jié)果如下表所示:

顯然,下標(biāo)模板和傳統(tǒng)方法沒(méi)有區(qū)別,而其他方法都有所提升;多個(gè)關(guān)鍵詞好于單個(gè)關(guān)鍵詞,而更完備的描述(如維基百科定義)會(huì)提供更豐富的標(biāo)簽語(yǔ)義信息,故得到最好的效果。

下面再來(lái)看看文本長(zhǎng)度、訓(xùn)練集大小和收斂速度的影響。如下圖所示,我們不難得到以下結(jié)論:

  • 隨著文本長(zhǎng)度的增加,原始方法(BERT)的效果迅速下降,而使用標(biāo)簽描述的方法由于標(biāo)簽本身具有的語(yǔ)義,模型的效果比BERT顯著更好;

  • 訓(xùn)練集越小,各模型效果越差,但相比BERT,基于標(biāo)簽描述的方法具有更好的小樣本表現(xiàn),這說(shuō)明基于標(biāo)簽描述的方法在小樣本上有更好的泛化能力;

  • 模板法由于提供的是靜態(tài)的標(biāo)簽描述,故模型能夠快速收斂,相比之下,生成式模型需要去學(xué)習(xí)如何生成標(biāo)簽描述,故開(kāi)始訓(xùn)練時(shí)效果并不好,但隨著訓(xùn)練的進(jìn)行,它最終也能夠收斂并取得更好的結(jié)果。

最后來(lái)探究不同初始化方法的影響。眾所周知,強(qiáng)化學(xué)習(xí)難以訓(xùn)練和收斂,所以一個(gè)號(hào)的初始化可以極大加快收斂。

我們?cè)赮ahoo和AAPD兩個(gè)數(shù)據(jù)集上,對(duì)抽取式和生成式模型進(jìn)行不同的初始化,然后用強(qiáng)化學(xué)習(xí)訓(xùn)練。

對(duì)抽取式(Ext),我們探究三種初始化方法:dummy Init是以選擇dummy token的方法初始化模型,ROUGE-L Init是選擇和模板描述相比得到最大的ROUGE-L得分的文段,random Init是隨機(jī)初始化。

對(duì)生成式(Abs),template Init是用模板作為要生成的描述去初始化模型。結(jié)果如下圖所示。

可以看到,幾種初始化方法對(duì)抽取式而言差別不是很大,即使是隨機(jī)初始化也可以實(shí)現(xiàn)可以接受的準(zhǔn)確率,但是對(duì)生成式而言,隨機(jī)初始化無(wú)法使模型收斂。

這是因?yàn)槌槿∈侥P偷乃阉骺臻g更小,因?yàn)樗恍枰x擇文段,而生成式模型的搜索空間是所有可能的句子,隨機(jī)初始化無(wú)法導(dǎo)致收斂。

小結(jié)

我們提出了基于標(biāo)簽描述的文本分類方法,該方法為每個(gè)標(biāo)簽提供一段文本描述,或是由模板得到,或是文本中的一段,或者是動(dòng)態(tài)生成的一個(gè)句子。

我們使用強(qiáng)化學(xué)習(xí)訓(xùn)練標(biāo)簽描述生成模型,然后把生成的標(biāo)簽和文本拼接在一起,讓模型判斷文本是否具有該標(biāo)簽。

實(shí)驗(yàn)表明,這種方法能夠在單標(biāo)簽分類、多標(biāo)簽分類和多方面情感分析任務(wù)上取得顯著的效果,尤其是對(duì)復(fù)雜的標(biāo)簽(如多方面情感分析)體系,該方法具有突出的優(yōu)勢(shì)。

實(shí)際上,這種方法可以看作是一種廣義的問(wèn)答(QA),Question就是標(biāo)簽描述,Document就是輸入文本,Answer就是輸出概率。從這個(gè)角度講,其他許多任務(wù)都可以統(tǒng)一到這種框架下。

?

現(xiàn)在,在「知乎」也能找到我們了

進(jìn)入知乎首頁(yè)搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

總結(jié)

以上是生活随笔為你收集整理的文本基线怎样去掉_ICML 2020 | 基于类别描述的文本分类模型的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。