日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

让预训练模型学习知识:使用多学习器增强知识建模能力

發(fā)布時(shí)間:2024/10/8 编程问答 47 豆豆
生活随笔 收集整理的這篇文章主要介紹了 让预训练模型学习知识:使用多学习器增强知识建模能力 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

論文標(biāo)題:

K-Adapter: Infusing Knowledge into Pre-Trained Models with Adapters

論文作者:

Ruize Wang, Duyu Tang, Nan Duan, Zhongyu Wei, Xuanjing Huang, Jianshu ji, Cuihong Cao, Daxin Jiang, Ming Zhou

論文鏈接:

https://arxiv.org/abs/2002.01808


近年來(lái),預(yù)訓(xùn)練模型取得了巨大成功,然而它們還是缺乏知識(shí)建模的能力。

為了增強(qiáng)預(yù)訓(xùn)練模型的語(yǔ)言知識(shí)建模能力,本文提出K-Adapter,用不同的學(xué)習(xí)器去學(xué)習(xí)不同的知識(shí)型任務(wù),從而緩解知識(shí)遺忘的問(wèn)題。

本文方法在實(shí)體分類、問(wèn)答等任務(wù)上取得了顯著的效果提升。

預(yù)訓(xùn)練模型的知識(shí)建模能力

近年來(lái),大規(guī)模的預(yù)訓(xùn)練模型在NLP各類任務(wù)上大放異彩,如大家喜聞樂(lè)見(jiàn)的BERT及其變體。

這些預(yù)訓(xùn)練模型的基本思路是:將文本中的部分內(nèi)容抹去,讓模型通過(guò)上下文預(yù)測(cè)被抹去的部分。

這樣的過(guò)程完全是無(wú)監(jiān)督的,所以得以利用大規(guī)模的語(yǔ)料進(jìn)行訓(xùn)練,從而增強(qiáng)下游各任務(wù)的效果。

注意到這個(gè)過(guò)程可以看成是一種“完形填空”的過(guò)程:從上下文推定缺省處的詞。

就像我們做完形填空一樣,如果模型也能非常準(zhǔn)確地填出空白處的詞,那么我們說(shuō)模型就具備一定的語(yǔ)言知識(shí)建模能力(無(wú)論是“記住”這些知識(shí)還是“推理”這些知識(shí))。

然而,當(dāng)前有很多文獻(xiàn)表明,單純的預(yù)訓(xùn)練模型不具備這種能力。比如在我們之前的文章當(dāng)下主流的預(yù)訓(xùn)練語(yǔ)言模型推理能力對(duì)比中介紹的那樣,大多數(shù)模型不具備“否定推斷”能力,不具備“數(shù)字推導(dǎo)”能力,也不具備“比較”能力等等。

增強(qiáng)預(yù)訓(xùn)練模型的語(yǔ)言知識(shí)建模能力,對(duì)于促進(jìn)NLP模型在實(shí)際生活中的應(yīng)用大有裨益。

為此,本文提出K-Adapter,在預(yù)訓(xùn)練模型的基礎(chǔ)上使其更好地學(xué)習(xí)各類語(yǔ)言知識(shí)。

不同于之前直接在預(yù)訓(xùn)練模型上訓(xùn)練的方法(這會(huì)導(dǎo)致過(guò)去學(xué)習(xí)的知識(shí)的遺忘),本文把預(yù)訓(xùn)練模型固定,然后分別獨(dú)立學(xué)習(xí)不同的知識(shí),從而緩解“知識(shí)遺忘”的問(wèn)題,增強(qiáng)模型的語(yǔ)言知識(shí)建模能力

總的來(lái)說(shuō),本文貢獻(xiàn)如下:

  • 提出K-Adapter,可以持續(xù)地將語(yǔ)言知識(shí)融入到預(yù)訓(xùn)練模型中;

  • 為不同的任務(wù)使用不同的學(xué)習(xí)器,從而緩解“知識(shí)遺忘”問(wèn)題;

  • 在分類、問(wèn)答等任務(wù)上取得了顯著的效果,并且具備一定的知識(shí)建模能力。

K-Adapter模型

下圖是多任務(wù)學(xué)習(xí)模型(a)和K-Adapter模型(b)示意圖。可以看到,多任務(wù)學(xué)習(xí)是直接在預(yù)訓(xùn)練的模型上訓(xùn)練、學(xué)習(xí),從而,學(xué)習(xí)的先后就會(huì)導(dǎo)致模型參數(shù)的更新,就造成了“知識(shí)遺忘”問(wèn)題。

而K-Adapter為每個(gè)任務(wù)單獨(dú)配置一個(gè)Adapter(學(xué)習(xí)器),在該任務(wù)的學(xué)習(xí)只更新相關(guān)的學(xué)習(xí)器,且整個(gè)過(guò)程中預(yù)訓(xùn)練模型參數(shù)是固定的,這樣就有利于避免“知識(shí)遺忘”問(wèn)題。下面來(lái)具體看K-Adapter的結(jié)構(gòu)。

每個(gè)學(xué)習(xí)器由K個(gè)學(xué)習(xí)層組成,每個(gè)學(xué)習(xí)層由一個(gè)全連接層、N個(gè)Transformer層和最后一個(gè)全連接層組成(下圖所示)。注意,這里的Transformer層是來(lái)自預(yù)訓(xùn)練模型中的,目的是為了融合二者。

最后,只需要把學(xué)習(xí)器的最后一層的特征和預(yù)訓(xùn)練模型最后一層的特征拼接起來(lái),送入下游任務(wù)訓(xùn)練即可。有幾個(gè)任務(wù),就用幾個(gè)獨(dú)立的學(xué)習(xí)器。

本文使用了兩種任務(wù),事實(shí)性任務(wù)(Factual Adapter)和語(yǔ)言學(xué)任務(wù)(Linguistic Adapter)。

對(duì)事實(shí)性任務(wù),本文從關(guān)系抽取數(shù)據(jù)集T-REx中抽取出一個(gè)子集,包含50個(gè)實(shí)體對(duì)和430個(gè)關(guān)系。

對(duì)于語(yǔ)言學(xué)任務(wù),本文用Book Corpus中選取1M個(gè)實(shí)例,并用Standford Parser構(gòu)造依存關(guān)系數(shù)據(jù)。

K-Adapter方法簡(jiǎn)單,那么它效果如何呢?本文將RoBERTa作為預(yù)訓(xùn)練模型來(lái)檢驗(yàn)K-Adapter的實(shí)際效果。

實(shí)驗(yàn)

實(shí)體分類

實(shí)體分類指給定實(shí)體及其上下文,要求判斷實(shí)體的類型。我們?cè)跀?shù)據(jù)集Open Entity和FIGER上實(shí)驗(yàn)。

下表是實(shí)驗(yàn)結(jié)果,RoBERTa+Multitask指在RoBERTa上用多任務(wù)學(xué)習(xí)的方法學(xué)習(xí)。

和之前的最好結(jié)果相比,K-Adapter的方法能取得顯著的效果提升,而和Multitask的方法比,也有較大的漲幅。

問(wèn)答

下面再在問(wèn)答任務(wù)上實(shí)驗(yàn)。我們?cè)诔WR(shí)推理問(wèn)答數(shù)據(jù)集CosmosQA和開(kāi)放領(lǐng)域問(wèn)答數(shù)據(jù)集Quasar-T和SearchQA上實(shí)驗(yàn)。下表是實(shí)驗(yàn)結(jié)果:

從常識(shí)推理來(lái)看,K-Adapter的最好結(jié)果是顯著優(yōu)于Multitask的;在開(kāi)放領(lǐng)域問(wèn)答上,K-Adapter更是好于Multitask,尤其是在數(shù)據(jù)集Quasar-T上。

知識(shí)建模能力

最后,我們來(lái)檢驗(yàn)各模型的知識(shí)建模能力。這個(gè)任務(wù)類似完形填空,即要預(yù)測(cè)句子中空缺的詞,比如“Simon Bowman was born in [MASK]”。

我們?cè)跀?shù)據(jù)集LAMA-Google-RE和LAMA-T-REx上實(shí)驗(yàn)。下表是實(shí)驗(yàn)結(jié)果:

可以看到,K-Adapter比RoBERTa具有一些優(yōu)勢(shì),然而卻弱于BERT。

這是因?yàn)?#xff0c;BERT使用的是字符級(jí)別的BPE編碼,而RoBERTa使用的是Byte級(jí)別的BPE編碼,這會(huì)導(dǎo)致一些詞匯會(huì)被切分為若干bytes,不利于知識(shí)的學(xué)習(xí)。

最后來(lái)看看一些例子,如下圖所示。從這些例子可以看到,k-Adapter可以預(yù)測(cè)得更加準(zhǔn)確。

小結(jié)

本文提出一種方便簡(jiǎn)單的用于增強(qiáng)預(yù)訓(xùn)練模型知識(shí)建模能力的方法——K-Adapter。

在訓(xùn)練的時(shí)候,為不同的任務(wù)設(shè)置不同的、獨(dú)立的學(xué)習(xí)器,并且固定預(yù)訓(xùn)練模型的參數(shù),這樣一來(lái),不同任務(wù)的學(xué)習(xí)都可以同時(shí)融合到語(yǔ)言模型中。

本文在實(shí)體分類、問(wèn)答等任務(wù)上取得了較為顯著的效果提升,在知識(shí)建模能力任務(wù)上也有一定的進(jìn)步。

正如我們?cè)陂_(kāi)篇講的那樣,目前預(yù)訓(xùn)練模型的一大不足就是知識(shí)建模能力十分欠缺,如果增強(qiáng)其知識(shí)建模能力、使得文本和知識(shí)完全貫通,是未來(lái)NLP發(fā)展的一大研究點(diǎn)所在。

????

現(xiàn)在,在「知乎」也能找到我們了

進(jìn)入知乎首頁(yè)搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

總結(jié)

以上是生活随笔為你收集整理的让预训练模型学习知识:使用多学习器增强知识建模能力的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。