论文浅尝 - ICLR2020 | Pretrained Encyclopedia: 弱监督知识预训练语言模型
論文筆記整理:陳想,浙江大學(xué)博士,研究方向?yàn)樽匀徽Z(yǔ)言處理,知識(shí)圖譜。
Wenhan Xiong, Jingfei Du, William Yang Wang, Veselin Stoyanov.Pretrained Encyclopedia: Weakly Supervised Knowledge-Pretrained Language Model
來(lái)源:ICLR2020
鏈接:https://arxiv.org/abs/1912.09637
Motivation
近年來(lái)在大規(guī)模數(shù)據(jù)集上預(yù)訓(xùn)練的的語(yǔ)言模型(以BERT和XLNET為代表)在多項(xiàng)NLP任務(wù)上達(dá)到SOTA水平。研究發(fā)現(xiàn)預(yù)訓(xùn)練,過(guò)程可以使模型學(xué)到語(yǔ)言的語(yǔ)法和語(yǔ)義信息并遷移至下游任務(wù)。有趣的是,經(jīng)過(guò)預(yù)訓(xùn)練的模型在需要基礎(chǔ)語(yǔ)言和對(duì)現(xiàn)實(shí)世界進(jìn)行推理的任務(wù)上也能獲得較好的效果。
但是,現(xiàn)有的預(yù)訓(xùn)練目標(biāo)通常是在token級(jí)別定義的,并沒(méi)有明確的以實(shí)體為中心的知識(shí)建模。在本文中,作者調(diào)查了是否可以進(jìn)一步實(shí)施預(yù)訓(xùn)練模型,以專注于現(xiàn)實(shí)世界實(shí)體的百科知識(shí),以便它們可以更好地從自然語(yǔ)言中捕獲實(shí)體信息,并應(yīng)用于改進(jìn)與實(shí)體相關(guān)的NLP任務(wù)。
與此同時(shí),目前的預(yù)訓(xùn)練語(yǔ)言模型通常專注于基于最大似然估計(jì)(MLE)的Masked Language Model(MLM)作為目標(biāo)任務(wù),即采用的“生成式模型”。然而MLM的損失計(jì)算都是基于token-level的,對(duì)于高層次的抽象理解較難學(xué)習(xí)到。
因此本文提出了嘗試將判別式的對(duì)比學(xué)習(xí)目標(biāo)函數(shù)作為NLP預(yù)訓(xùn)練的目標(biāo),具體的,采用Replaced Entity Detection(RED),基于維基百科用相同類型的其他實(shí)體的名稱替換原始文檔中的實(shí)體提及,訓(xùn)練模型區(qū)分正確的實(shí)體提及和隨機(jī)選擇的其他實(shí)體提及以設(shè)法讓模型能夠理解entity-level的特征。相比先前的工作采用的利用外部知識(shí)庫(kù)獲取實(shí)體知識(shí)的方法,該方法能夠直接從非結(jié)構(gòu)化文本中獲取真實(shí)世界的知識(shí)。
Model/Methods
(1)數(shù)據(jù)準(zhǔn)備
使用英文維基百科作為訓(xùn)練數(shù)據(jù),文檔中的實(shí)體根據(jù)維基百科中的錨鏈接和Wikidata(三元組知識(shí)庫(kù))的實(shí)體名來(lái)識(shí)別。即首先檢索由錨鏈接注釋的實(shí)體,然后通過(guò)字符串匹配它們?cè)赪ikidata中的名稱,以檢索其他提到這些實(shí)體的地方。通過(guò)此方法可以使用現(xiàn)成的實(shí)體鏈接工具,很容易擴(kuò)展至其他語(yǔ)料庫(kù)
(2)替換策略
如圖1所示,進(jìn)行實(shí)體替換時(shí)首先需通過(guò)Wikidata知識(shí)庫(kù)確定其實(shí)體類型,并隨機(jī)選取該實(shí)體類型下的其他實(shí)體替換原實(shí)體,每個(gè)實(shí)體會(huì)通過(guò)同樣的方式進(jìn)行10次替換,生成10個(gè)不同的負(fù)例。相鄰實(shí)體不會(huì)被同時(shí)替換,以避免多個(gè)連續(xù)的負(fù)例組成了符合事實(shí)的描述。
(3)訓(xùn)練目標(biāo)
對(duì)于在上下文C中提到的某個(gè)實(shí)體e,我們訓(xùn)練模型進(jìn)行二進(jìn)制預(yù)測(cè),以指示該實(shí)體是否已被替換:
Experiments
本文在事實(shí)補(bǔ)全、四個(gè)與實(shí)體相關(guān)的問(wèn)題回答數(shù)據(jù)集(WebQuestions,TriviaQA,SearchQA和QuasarT)和一個(gè)標(biāo)準(zhǔn)的細(xì)粒度實(shí)體類型數(shù)據(jù)集設(shè)置了實(shí)驗(yàn)。實(shí)驗(yàn)及結(jié)果介紹如下:
(1)事實(shí)補(bǔ)全任務(wù)
基于Wikidata中的事實(shí)三元組,篩選了10種重要關(guān)系,人工構(gòu)建三元組的自然語(yǔ)言表述,以此訓(xùn)練模型進(jìn)行實(shí)體補(bǔ)全。本文對(duì)每種關(guān)系構(gòu)建了1000例數(shù)據(jù),對(duì)比了使用生成式語(yǔ)言模型目標(biāo)進(jìn)行預(yù)訓(xùn)練的原始BERT和GPT-2,使用傳統(tǒng)三元組補(bǔ)全任務(wù)的評(píng)估指標(biāo)hits@10進(jìn)行評(píng)估,結(jié)果如下:
(2)QA
本文在4個(gè)基于實(shí)體答案的開(kāi)放領(lǐng)域問(wèn)答數(shù)據(jù)集上進(jìn)行了微調(diào)實(shí)驗(yàn),如表4所示,WKLM在3個(gè)QA任務(wù)上達(dá)到了SOTA,說(shuō)明了基于實(shí)體替換的判別式對(duì)比學(xué)習(xí)的有效性。
(3)實(shí)體類型判別
該任務(wù)的目標(biāo)是從自然語(yǔ)言句子中發(fā)現(xiàn)所提到的實(shí)體的細(xì)粒度類型信息,模型在遠(yuǎn)程監(jiān)督訓(xùn)練數(shù)據(jù)上進(jìn)行了最小化二元交叉熵?fù)p失的訓(xùn)練
(4)消融研究
該部分主要驗(yàn)證本文提出的實(shí)體替換目標(biāo)函數(shù)相對(duì)于原始BERT的效果有明顯提升,以及不同程度上搭配BERT原始的MLM loss對(duì)應(yīng)的效果。
結(jié)果表明提出的實(shí)體替換目標(biāo)有效提高了模型在QA和實(shí)體類型判別任務(wù)上????? 的性能,而對(duì)于遮蔽語(yǔ)言模型任務(wù),過(guò)高或過(guò)低的遮蔽比例均會(huì)不同程度上????? 損害模在QA任務(wù)上的表現(xiàn)。
Conclusion
本文提出將判別式的對(duì)比學(xué)習(xí)目標(biāo)函數(shù)作為NLP預(yù)訓(xùn)練目標(biāo),通過(guò)完善的實(shí)驗(yàn)證明了這一訓(xùn)練范式的有效性和可行性,即對(duì)于更注重實(shí)體相關(guān)信息的NLP任務(wù),采取本文提出的對(duì)比式實(shí)體替換目標(biāo)進(jìn)行預(yù)訓(xùn)練優(yōu)于生成式的遮蔽語(yǔ)言模型預(yù)訓(xùn)練。
?
?
OpenKG
開(kāi)放知識(shí)圖譜(簡(jiǎn)稱 OpenKG)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開(kāi)放與互聯(lián),促進(jìn)知識(shí)圖譜和語(yǔ)義技術(shù)的普及和廣泛應(yīng)用。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 - ICLR2020 | Pretrained Encyclopedia: 弱监督知识预训练语言模型的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 论文浅尝 | KG Embedding
- 下一篇: 论文浅尝 - WSDM20 | 基于弱监