让预训练模型学习知识:使用多学习器增强知识建模能力
論文標(biāo)題:
K-Adapter: Infusing Knowledge into Pre-Trained Models with Adapters
論文作者:
Ruize Wang, Duyu Tang, Nan Duan, Zhongyu Wei, Xuanjing Huang, Jianshu ji, Cuihong Cao, Daxin Jiang, Ming Zhou
論文鏈接:
https://arxiv.org/abs/2002.01808
近年來(lái),預(yù)訓(xùn)練模型取得了巨大成功,然而它們還是缺乏知識(shí)建模的能力。
為了增強(qiáng)預(yù)訓(xùn)練模型的語(yǔ)言知識(shí)建模能力,本文提出K-Adapter,用不同的學(xué)習(xí)器去學(xué)習(xí)不同的知識(shí)型任務(wù),從而緩解知識(shí)遺忘的問(wèn)題。
本文方法在實(shí)體分類、問(wèn)答等任務(wù)上取得了顯著的效果提升。
預(yù)訓(xùn)練模型的知識(shí)建模能力
近年來(lái),大規(guī)模的預(yù)訓(xùn)練模型在NLP各類任務(wù)上大放異彩,如大家喜聞樂(lè)見(jiàn)的BERT及其變體。
這些預(yù)訓(xùn)練模型的基本思路是:將文本中的部分內(nèi)容抹去,讓模型通過(guò)上下文預(yù)測(cè)被抹去的部分。
這樣的過(guò)程完全是無(wú)監(jiān)督的,所以得以利用大規(guī)模的語(yǔ)料進(jìn)行訓(xùn)練,從而增強(qiáng)下游各任務(wù)的效果。
注意到這個(gè)過(guò)程可以看成是一種“完形填空”的過(guò)程:從上下文推定缺省處的詞。
就像我們做完形填空一樣,如果模型也能非常準(zhǔn)確地填出空白處的詞,那么我們說(shuō)模型就具備一定的語(yǔ)言知識(shí)建模能力(無(wú)論是“記住”這些知識(shí)還是“推理”這些知識(shí))。
然而,當(dāng)前有很多文獻(xiàn)表明,單純的預(yù)訓(xùn)練模型不具備這種能力。比如在我們之前的文章當(dāng)下主流的預(yù)訓(xùn)練語(yǔ)言模型推理能力對(duì)比中介紹的那樣,大多數(shù)模型不具備“否定推斷”能力,不具備“數(shù)字推導(dǎo)”能力,也不具備“比較”能力等等。
增強(qiáng)預(yù)訓(xùn)練模型的語(yǔ)言知識(shí)建模能力,對(duì)于促進(jìn)NLP模型在實(shí)際生活中的應(yīng)用大有裨益。
為此,本文提出K-Adapter,在預(yù)訓(xùn)練模型的基礎(chǔ)上使其更好地學(xué)習(xí)各類語(yǔ)言知識(shí)。
不同于之前直接在預(yù)訓(xùn)練模型上訓(xùn)練的方法(這會(huì)導(dǎo)致過(guò)去學(xué)習(xí)的知識(shí)的遺忘),本文把預(yù)訓(xùn)練模型固定,然后分別獨(dú)立學(xué)習(xí)不同的知識(shí),從而緩解“知識(shí)遺忘”的問(wèn)題,增強(qiáng)模型的語(yǔ)言知識(shí)建模能力。
總的來(lái)說(shuō),本文貢獻(xiàn)如下:
提出K-Adapter,可以持續(xù)地將語(yǔ)言知識(shí)融入到預(yù)訓(xùn)練模型中;
為不同的任務(wù)使用不同的學(xué)習(xí)器,從而緩解“知識(shí)遺忘”問(wèn)題;
在分類、問(wèn)答等任務(wù)上取得了顯著的效果,并且具備一定的知識(shí)建模能力。
K-Adapter模型
下圖是多任務(wù)學(xué)習(xí)模型(a)和K-Adapter模型(b)示意圖。可以看到,多任務(wù)學(xué)習(xí)是直接在預(yù)訓(xùn)練的模型上訓(xùn)練、學(xué)習(xí),從而,學(xué)習(xí)的先后就會(huì)導(dǎo)致模型參數(shù)的更新,就造成了“知識(shí)遺忘”問(wèn)題。
而K-Adapter為每個(gè)任務(wù)單獨(dú)配置一個(gè)Adapter(學(xué)習(xí)器),在該任務(wù)的學(xué)習(xí)只更新相關(guān)的學(xué)習(xí)器,且整個(gè)過(guò)程中預(yù)訓(xùn)練模型參數(shù)是固定的,這樣就有利于避免“知識(shí)遺忘”問(wèn)題。下面來(lái)具體看K-Adapter的結(jié)構(gòu)。
每個(gè)學(xué)習(xí)器由K個(gè)學(xué)習(xí)層組成,每個(gè)學(xué)習(xí)層由一個(gè)全連接層、N個(gè)Transformer層和最后一個(gè)全連接層組成(下圖所示)。注意,這里的Transformer層是來(lái)自預(yù)訓(xùn)練模型中的,目的是為了融合二者。
最后,只需要把學(xué)習(xí)器的最后一層的特征和預(yù)訓(xùn)練模型最后一層的特征拼接起來(lái),送入下游任務(wù)訓(xùn)練即可。有幾個(gè)任務(wù),就用幾個(gè)獨(dú)立的學(xué)習(xí)器。
本文使用了兩種任務(wù),事實(shí)性任務(wù)(Factual Adapter)和語(yǔ)言學(xué)任務(wù)(Linguistic Adapter)。
對(duì)事實(shí)性任務(wù),本文從關(guān)系抽取數(shù)據(jù)集T-REx中抽取出一個(gè)子集,包含50個(gè)實(shí)體對(duì)和430個(gè)關(guān)系。
對(duì)于語(yǔ)言學(xué)任務(wù),本文用Book Corpus中選取1M個(gè)實(shí)例,并用Standford Parser構(gòu)造依存關(guān)系數(shù)據(jù)。
K-Adapter方法簡(jiǎn)單,那么它效果如何呢?本文將RoBERTa作為預(yù)訓(xùn)練模型來(lái)檢驗(yàn)K-Adapter的實(shí)際效果。
實(shí)驗(yàn)
實(shí)體分類
實(shí)體分類指給定實(shí)體及其上下文,要求判斷實(shí)體的類型。我們?cè)跀?shù)據(jù)集Open Entity和FIGER上實(shí)驗(yàn)。
下表是實(shí)驗(yàn)結(jié)果,RoBERTa+Multitask指在RoBERTa上用多任務(wù)學(xué)習(xí)的方法學(xué)習(xí)。
和之前的最好結(jié)果相比,K-Adapter的方法能取得顯著的效果提升,而和Multitask的方法比,也有較大的漲幅。
問(wèn)答
下面再在問(wèn)答任務(wù)上實(shí)驗(yàn)。我們?cè)诔WR(shí)推理問(wèn)答數(shù)據(jù)集CosmosQA和開(kāi)放領(lǐng)域問(wèn)答數(shù)據(jù)集Quasar-T和SearchQA上實(shí)驗(yàn)。下表是實(shí)驗(yàn)結(jié)果:
從常識(shí)推理來(lái)看,K-Adapter的最好結(jié)果是顯著優(yōu)于Multitask的;在開(kāi)放領(lǐng)域問(wèn)答上,K-Adapter更是好于Multitask,尤其是在數(shù)據(jù)集Quasar-T上。
知識(shí)建模能力
最后,我們來(lái)檢驗(yàn)各模型的知識(shí)建模能力。這個(gè)任務(wù)類似完形填空,即要預(yù)測(cè)句子中空缺的詞,比如“Simon Bowman was born in [MASK]”。
我們?cè)跀?shù)據(jù)集LAMA-Google-RE和LAMA-T-REx上實(shí)驗(yàn)。下表是實(shí)驗(yàn)結(jié)果:
可以看到,K-Adapter比RoBERTa具有一些優(yōu)勢(shì),然而卻弱于BERT。
這是因?yàn)?#xff0c;BERT使用的是字符級(jí)別的BPE編碼,而RoBERTa使用的是Byte級(jí)別的BPE編碼,這會(huì)導(dǎo)致一些詞匯會(huì)被切分為若干bytes,不利于知識(shí)的學(xué)習(xí)。
最后來(lái)看看一些例子,如下圖所示。從這些例子可以看到,k-Adapter可以預(yù)測(cè)得更加準(zhǔn)確。
小結(jié)
本文提出一種方便簡(jiǎn)單的用于增強(qiáng)預(yù)訓(xùn)練模型知識(shí)建模能力的方法——K-Adapter。
在訓(xùn)練的時(shí)候,為不同的任務(wù)設(shè)置不同的、獨(dú)立的學(xué)習(xí)器,并且固定預(yù)訓(xùn)練模型的參數(shù),這樣一來(lái),不同任務(wù)的學(xué)習(xí)都可以同時(shí)融合到語(yǔ)言模型中。
本文在實(shí)體分類、問(wèn)答等任務(wù)上取得了較為顯著的效果提升,在知識(shí)建模能力任務(wù)上也有一定的進(jìn)步。
正如我們?cè)陂_(kāi)篇講的那樣,目前預(yù)訓(xùn)練模型的一大不足就是知識(shí)建模能力十分欠缺,如果增強(qiáng)其知識(shí)建模能力、使得文本和知識(shí)完全貫通,是未來(lái)NLP發(fā)展的一大研究點(diǎn)所在。
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的让预训练模型学习知识:使用多学习器增强知识建模能力的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 马斯克盯上了盲人,Neuralink 下
- 下一篇: 迁移学习领域自适应:具有类间差异的联合概