當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 - ICLR2020 | Pretrained Encyclopedia: 弱监督知识预训练语言模型

發(fā)布時(shí)間：2024/7/5 编程问答 30 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 - ICLR2020 | Pretrained Encyclopedia: 弱监督知识预训练语言模型小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

論文筆記整理：陳想，浙江大學(xué)博士，研究方向?yàn)樽匀徽Z(yǔ)言處理，知識(shí)圖譜。

Wenhan Xiong, Jingfei Du, William Yang Wang, Veselin Stoyanov.Pretrained Encyclopedia: Weakly Supervised Knowledge-Pretrained Language Model

來(lái)源：ICLR2020

鏈接：https://arxiv.org/abs/1912.09637

Motivation

近年來(lái)在大規(guī)模數(shù)據(jù)集上預(yù)訓(xùn)練的的語(yǔ)言模型（以BERT和XLNET為代表）在多項(xiàng)NLP任務(wù)上達(dá)到SOTA水平。研究發(fā)現(xiàn)預(yù)訓(xùn)練，過(guò)程可以使模型學(xué)到語(yǔ)言的語(yǔ)法和語(yǔ)義信息并遷移至下游任務(wù)。有趣的是，經(jīng)過(guò)預(yù)訓(xùn)練的模型在需要基礎(chǔ)語(yǔ)言和對(duì)現(xiàn)實(shí)世界進(jìn)行推理的任務(wù)上也能獲得較好的效果。

但是，現(xiàn)有的預(yù)訓(xùn)練目標(biāo)通常是在token級(jí)別定義的，并沒(méi)有明確的以實(shí)體為中心的知識(shí)建模。在本文中，作者調(diào)查了是否可以進(jìn)一步實(shí)施預(yù)訓(xùn)練模型，以專注于現(xiàn)實(shí)世界實(shí)體的百科知識(shí)，以便它們可以更好地從自然語(yǔ)言中捕獲實(shí)體信息，并應(yīng)用于改進(jìn)與實(shí)體相關(guān)的NLP任務(wù)。

與此同時(shí)，目前的預(yù)訓(xùn)練語(yǔ)言模型通常專注于基于最大似然估計(jì)（MLE）的Masked Language Model（MLM）作為目標(biāo)任務(wù)，即采用的“生成式模型”。然而MLM的損失計(jì)算都是基于token-level的，對(duì)于高層次的抽象理解較難學(xué)習(xí)到。

因此本文提出了嘗試將判別式的對(duì)比學(xué)習(xí)目標(biāo)函數(shù)作為NLP預(yù)訓(xùn)練的目標(biāo)，具體的，采用Replaced Entity Detection（RED），基于維基百科用相同類型的其他實(shí)體的名稱替換原始文檔中的實(shí)體提及，訓(xùn)練模型區(qū)分正確的實(shí)體提及和隨機(jī)選擇的其他實(shí)體提及以設(shè)法讓模型能夠理解entity-level的特征。相比先前的工作采用的利用外部知識(shí)庫(kù)獲取實(shí)體知識(shí)的方法，該方法能夠直接從非結(jié)構(gòu)化文本中獲取真實(shí)世界的知識(shí)。

Model/Methods

（1）數(shù)據(jù)準(zhǔn)備

使用英文維基百科作為訓(xùn)練數(shù)據(jù)，文檔中的實(shí)體根據(jù)維基百科中的錨鏈接和Wikidata（三元組知識(shí)庫(kù)）的實(shí)體名來(lái)識(shí)別。即首先檢索由錨鏈接注釋的實(shí)體，然后通過(guò)字符串匹配它們?cè)赪ikidata中的名稱，以檢索其他提到這些實(shí)體的地方。通過(guò)此方法可以使用現(xiàn)成的實(shí)體鏈接工具，很容易擴(kuò)展至其他語(yǔ)料庫(kù)

（2）替換策略

如圖1所示，進(jìn)行實(shí)體替換時(shí)首先需通過(guò)Wikidata知識(shí)庫(kù)確定其實(shí)體類型，并隨機(jī)選取該實(shí)體類型下的其他實(shí)體替換原實(shí)體，每個(gè)實(shí)體會(huì)通過(guò)同樣的方式進(jìn)行10次替換，生成10個(gè)不同的負(fù)例。相鄰實(shí)體不會(huì)被同時(shí)替換，以避免多個(gè)連續(xù)的負(fù)例組成了符合事實(shí)的描述。

（3）訓(xùn)練目標(biāo)

對(duì)于在上下文C中提到的某個(gè)實(shí)體e，我們訓(xùn)練模型進(jìn)行二進(jìn)制預(yù)測(cè)，以指示該實(shí)體是否已被替換：

Experiments

本文在事實(shí)補(bǔ)全、四個(gè)與實(shí)體相關(guān)的問(wèn)題回答數(shù)據(jù)集（WebQuestions，TriviaQA，SearchQA和QuasarT）和一個(gè)標(biāo)準(zhǔn)的細(xì)粒度實(shí)體類型數(shù)據(jù)集設(shè)置了實(shí)驗(yàn)。實(shí)驗(yàn)及結(jié)果介紹如下：

（1）事實(shí)補(bǔ)全任務(wù)

基于Wikidata中的事實(shí)三元組，篩選了10種重要關(guān)系，人工構(gòu)建三元組的自然語(yǔ)言表述，以此訓(xùn)練模型進(jìn)行實(shí)體補(bǔ)全。本文對(duì)每種關(guān)系構(gòu)建了1000例數(shù)據(jù)，對(duì)比了使用生成式語(yǔ)言模型目標(biāo)進(jìn)行預(yù)訓(xùn)練的原始BERT和GPT-2，使用傳統(tǒng)三元組補(bǔ)全任務(wù)的評(píng)估指標(biāo)hits@10進(jìn)行評(píng)估，結(jié)果如下：

（2）QA

本文在4個(gè)基于實(shí)體答案的開(kāi)放領(lǐng)域問(wèn)答數(shù)據(jù)集上進(jìn)行了微調(diào)實(shí)驗(yàn)，如表4所示，WKLM在3個(gè)QA任務(wù)上達(dá)到了SOTA，說(shuō)明了基于實(shí)體替換的判別式對(duì)比學(xué)習(xí)的有效性。

（3）實(shí)體類型判別

該任務(wù)的目標(biāo)是從自然語(yǔ)言句子中發(fā)現(xiàn)所提到的實(shí)體的細(xì)粒度類型信息，模型在遠(yuǎn)程監(jiān)督訓(xùn)練數(shù)據(jù)上進(jìn)行了最小化二元交叉熵?fù)p失的訓(xùn)練

（4）消融研究

該部分主要驗(yàn)證本文提出的實(shí)體替換目標(biāo)函數(shù)相對(duì)于原始BERT的效果有明顯提升，以及不同程度上搭配BERT原始的MLM loss對(duì)應(yīng)的效果。

結(jié)果表明提出的實(shí)體替換目標(biāo)有效提高了模型在QA和實(shí)體類型判別任務(wù)上????? 的性能，而對(duì)于遮蔽語(yǔ)言模型任務(wù)，過(guò)高或過(guò)低的遮蔽比例均會(huì)不同程度上????? 損害模在QA任務(wù)上的表現(xiàn)。

Conclusion

本文提出將判別式的對(duì)比學(xué)習(xí)目標(biāo)函數(shù)作為NLP預(yù)訓(xùn)練目標(biāo)，通過(guò)完善的實(shí)驗(yàn)證明了這一訓(xùn)練范式的有效性和可行性，即對(duì)于更注重實(shí)體相關(guān)信息的NLP任務(wù)，采取本文提出的對(duì)比式實(shí)體替換目標(biāo)進(jìn)行預(yù)訓(xùn)練優(yōu)于生成式的遮蔽語(yǔ)言模型預(yù)訓(xùn)練。

OpenKG

開(kāi)放知識(shí)圖譜（簡(jiǎn)稱 OpenKG）旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開(kāi)放與互聯(lián)，促進(jìn)知識(shí)圖譜和語(yǔ)義技術(shù)的普及和廣泛應(yīng)用。

點(diǎn)擊閱讀原文，進(jìn)入 OpenKG 博客。

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 - ICLR2020 | Pretrained Encyclopedia: 弱监督知识预训练语言模型的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：论文浅尝 | KG Embedding
下一篇：论文浅尝 - WSDM20 | 基于弱监