论文浅尝 - IJCAI | Knowledge is NOT always you need: 外部知识注入预训练模型的利与弊...
轉(zhuǎn)載公眾號(hào) |?浙大KG
論文題目:Drop Redundant, Shrink Irrelevant: Selective Knowledge Injection for Language Model Pretraining
本文作者:張寧豫(浙江大學(xué))、鄧淑敏(浙江大學(xué))、張亦弛(阿里巴巴)、張偉(阿里巴巴)、陳華鈞(浙江大學(xué))等
發(fā)表會(huì)議:IJCAI?2021?(歡迎轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)注明出處)
引言
近年來,有很多工作嘗試將知識(shí)圖譜等外部知識(shí)融入到BERT為代表的預(yù)訓(xùn)練語言模型中。但是,不少外部知識(shí)存在一定程度的噪音,且不少實(shí)體存在歧義。事實(shí)上,先前工作已發(fā)現(xiàn)預(yù)訓(xùn)練語言模型中捕獲了相當(dāng)數(shù)量的實(shí)體、常識(shí)知識(shí),那么不加選擇地將所有的外部知識(shí)融入語言模型真的最優(yōu)么?本文探討了語言模型中融入知識(shí)噪音的問題,并提出了一種基于頻率采樣和譜正則化的選擇性知識(shí)融入方法。在基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,我們的方法可以增強(qiáng)最新的知識(shí)注入的預(yù)訓(xùn)練語言模型。
一、前言
2018年以來,預(yù)訓(xùn)練語言模型的研究風(fēng)起云涌。由于預(yù)訓(xùn)練過程缺乏對(duì)知識(shí)的捕捉,學(xué)者們提出不少將知識(shí)融合預(yù)訓(xùn)練語言模型的方法如ERNIE[1]、KnowBERT[2]、CoLake[3]等。知識(shí)的融入的確提升了不少知識(shí)密集型任務(wù)如關(guān)系抽取、實(shí)體分類等的效果。然而,外部知識(shí)中存在相當(dāng)程度的噪音。一方面,由于實(shí)體的歧義性,文本可能會(huì)被融入完全錯(cuò)誤、不相關(guān)的實(shí)體知識(shí)。比如,對(duì)于“qq飛車小橘子”這句話,如果將水果“小橘子”的實(shí)體知識(shí)融入語言模型,對(duì)語義理解反而可能會(huì)其負(fù)面作用。另一方面,并不是所有的三元組知識(shí)都能促進(jìn)語義理解。比如對(duì)于“斯蒂芬·庫里和克萊·湯普森帶領(lǐng)勇士隊(duì)勇奪2015年nbva冠軍”這句話,三元組知識(shí)(斯蒂芬·庫里,女兒,賴?yán)?#xff09;在可能對(duì)理解語義起不到多少幫助。事實(shí)上,CokeBERT[4]和K-BERT[5]都曾在實(shí)驗(yàn)中發(fā)現(xiàn),不加選擇的融入知識(shí)并非最優(yōu)。
從另一個(gè)角度,2019年Allan 發(fā)表在EMNLP2019的論文[6]及一些后續(xù)工作[7,8,9]指出,預(yù)訓(xùn)練語言模型在參數(shù)空間其實(shí)學(xué)習(xí)到了大量的實(shí)體、常識(shí)知識(shí),甚至可以作為一個(gè)連續(xù)型知識(shí)庫,這啟發(fā)了我們思考:語言模型注入的知識(shí)真的越多越好么?外部的噪音知識(shí)對(duì)模型有什么影響呢?我們有沒有辦法對(duì)知識(shí)加以選擇更好地進(jìn)行知識(shí)注入呢?其實(shí),[10]中有學(xué)者發(fā)現(xiàn),不加選擇的注入實(shí)體知識(shí)并不一定會(huì)帶來知識(shí)密集型任務(wù)性能的提升。受到這些工作啟發(fā),我們首先分析了知識(shí)中噪音對(duì)預(yù)訓(xùn)練語言模型的影響。
二、分析
我們首先采樣了部分實(shí)體和實(shí)例,并根據(jù)實(shí)體頻率分析不同知識(shí)注入的差異,其次分析了知識(shí)噪音對(duì)模型的影響。由于很難判斷知識(shí)圖譜中究竟有多少噪音,因此我們采取人工控制噪音的方式來分析,這里的噪音主要是指實(shí)體的歧義性。我們通過實(shí)體替換的方式來人工制造知識(shí)噪音。
如上圖a所示,我們發(fā)現(xiàn)對(duì)于低頻實(shí)體而言,注入實(shí)體的增益相對(duì)較大,這一發(fā)現(xiàn)也同[10]中的結(jié)論類似。在圖b中,我們發(fā)現(xiàn),隨著噪音的注入,模型性能顯著下降。這一發(fā)現(xiàn)也同[11]中的隨機(jī)擾動(dòng)知識(shí)圖譜導(dǎo)致的結(jié)論一致。由此我們發(fā)現(xiàn),一般來說,知識(shí)噪音會(huì)損害模型性能(極少數(shù)情況噪音會(huì)修復(fù)知識(shí)圖譜中錯(cuò)誤的關(guān)聯(lián)關(guān)系進(jìn)而提升魯棒性,見[11])。基于此發(fā)現(xiàn),我們可以通過頻率對(duì)知識(shí)進(jìn)行選擇,以注入對(duì)模型更加有用的知識(shí),減少噪音注入的可能性。
受到遷移學(xué)習(xí)中負(fù)遷移理論的啟發(fā)[12,13],我們進(jìn)行進(jìn)一步分析。我們對(duì)知識(shí)注入模型的權(quán)重和特征及其奇異值進(jìn)行分析,以驗(yàn)證語言模型是否可以適用于負(fù)遷移理論。
具體的說,我們對(duì)預(yù)訓(xùn)練語言模型的最后一層輸出特征進(jìn)行SVD分解,并比較模型在給定15%、30%、50%和100%訓(xùn)練樣本時(shí)奇異值的情況,如下公式所示:
如下圖所示,我們發(fā)現(xiàn)在下游任務(wù)微調(diào)過程中,模型特征的尾部奇異值往往會(huì)自動(dòng)下降,這一發(fā)現(xiàn)也和論文[13]中結(jié)論一致,也就說注入的噪音知識(shí)可以類比成遷移學(xué)習(xí)中造成負(fù)遷移的原因之一。基于此發(fā)現(xiàn),我們可以直接對(duì)尾部奇異值進(jìn)行約束,以減輕源領(lǐng)域(注入了噪音的語言模型)對(duì)下有任務(wù)的影響。
三、方法
方法包含兩部分,首先我們提出一種基于頻率的實(shí)體采樣算法來選擇知識(shí)(這一方法不需要額外參數(shù),也可以基于注意力機(jī)制來選擇知識(shí)如[14])。先前的工作表明,語言模型其實(shí)已經(jīng)掌握了大部分高頻實(shí)體知識(shí),因此我們對(duì)預(yù)訓(xùn)練語料(維基百科)中的高頻實(shí)體設(shè)置一個(gè)較低的權(quán)重,鼓勵(lì)模型注入低頻實(shí)體。
然而,由于知識(shí)圖譜中存在大量一對(duì)多、多對(duì)一的事實(shí)知識(shí),這部分知識(shí)高頻實(shí)體也較難習(xí)得,且這些實(shí)體包含的信息相對(duì)較為豐富,因此,我們提高同一個(gè)文檔內(nèi)的實(shí)體間跳數(shù)較少的實(shí)體的采樣權(quán)重(超參數(shù)控制),具體采樣公式如下:
其次,我們采用了一種譜正則技術(shù)來減輕噪音對(duì)微調(diào)的影響。一般來說傳統(tǒng)的機(jī)器學(xué)習(xí)模型可以通過對(duì)參數(shù)或特征進(jìn)行正則來減輕遷移學(xué)習(xí)的負(fù)遷移現(xiàn)象,然而對(duì)于語言模型,其參數(shù)維度遠(yuǎn)大于特征維度,因此我們僅對(duì)特征進(jìn)行正則。我們對(duì)語言模型的輸出特征進(jìn)行SVD分解,并對(duì)尾部k個(gè)特征值進(jìn)行約束:
整體的模型圖如下:
四、實(shí)驗(yàn)
我們基于維基百科重新進(jìn)行了知識(shí)注入預(yù)訓(xùn)練(ERNIR,KnowBERT),并在多個(gè)知識(shí)密集型數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),如下表所示,我們的方法在大多數(shù)數(shù)據(jù)集上都取得了較好的效果。此外,我們還發(fā)現(xiàn),通過知識(shí)選擇和正則化,我們的方法在GLUE上的性能下降小于原始的知識(shí)注入模型。
五、總結(jié)與展望
在本文中,我們分析了知識(shí)噪音對(duì)語言模型性能的影響,并提出一種基于知識(shí)選擇的知識(shí)融入方法。隨著人工神經(jīng)網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,數(shù)據(jù)驅(qū)動(dòng)漸入天花板。盡管超大規(guī)模的預(yù)訓(xùn)練語言模型如GPT-3取得了令人驚艷的效果,它仍然經(jīng)常鬧笑話。數(shù)據(jù)+知識(shí)是驅(qū)動(dòng)未來認(rèn)知AI的重要路線之一。對(duì)于通用的、高頻的實(shí)體、常識(shí)等知識(shí),也許可以通過大規(guī)模預(yù)訓(xùn)練習(xí)得,然而更多的低頻長(zhǎng)尾知識(shí)、多元關(guān)聯(lián)知識(shí)、復(fù)雜邏輯知識(shí),數(shù)據(jù)驅(qū)動(dòng)的方法較難使模型具備相應(yīng)的能力,可能知識(shí)注入和融合符號(hào)化推理的方式更加有效。我們的工作探討了如何更好的利用知識(shí),但仍然有模型訓(xùn)練慢、知識(shí)選擇相對(duì)Ad hoc等不足。在未來很多可以改進(jìn)的方向如:
1)深入探索哪些知識(shí)對(duì)神經(jīng)網(wǎng)絡(luò)更有用?
神經(jīng)網(wǎng)絡(luò)通過海量的數(shù)據(jù)預(yù)訓(xùn)練可能已經(jīng)在參數(shù)空間習(xí)得部分知識(shí),這些連續(xù)空間的參數(shù)更加有利于機(jī)器去適應(yīng)下有任務(wù),[15]探索了模型究竟掌握了哪些常識(shí)知識(shí),仍需要更多的工作去探索神經(jīng)網(wǎng)絡(luò)的能與不能。
2)如何高效注入知識(shí)?
符號(hào)化知識(shí)和向量化表征存在顯著的異構(gòu)性,[16]提出了一種基于Graph-to-text的方式減輕了數(shù)據(jù)差異,然而對(duì)于大多數(shù)人類可讀的知識(shí),如何高效的將其轉(zhuǎn)換為機(jī)器可理解的方式,并注入模型中,仍面臨較大挑戰(zhàn)。
3)如何更新模型中的知識(shí)?
互聯(lián)網(wǎng)每天會(huì)產(chǎn)生海量的新文本,人類知識(shí)也在不斷更新,比如在不同時(shí)間階段三元組知識(shí)(美國,現(xiàn)任總統(tǒng),特朗普)會(huì)更新為(美國,現(xiàn)任總統(tǒng),拜登)。因此,如何更新預(yù)訓(xùn)練語言模型參數(shù)空間的知識(shí)面臨研究挑戰(zhàn)。[17]對(duì)這一問題進(jìn)行了初步探索。事實(shí)上,降低預(yù)訓(xùn)練語言模型的迭代成本,使得模型低碳、經(jīng)濟(jì)、環(huán)保具有非常重要的現(xiàn)實(shí)意義。
4)如何解耦模式識(shí)別和符號(hào)推理?
神經(jīng)網(wǎng)絡(luò)由于其強(qiáng)大的非線性擬合能力,使其在一定程度上具備超越人類的模式識(shí)別能力。然而,對(duì)于一些基本的常識(shí)、數(shù)值、邏輯推理問題,預(yù)訓(xùn)練語言模型經(jīng)常鬧笑話。融合數(shù)據(jù)和知識(shí),進(jìn)行神經(jīng)符號(hào)化學(xué)習(xí)可能是使機(jī)器具備推理能力的重要技術(shù)路線之一。然而神經(jīng)網(wǎng)絡(luò)的向量空間高度抽象,符號(hào)空間相對(duì)離散,如何針對(duì)具體任務(wù)將符號(hào)表示Grounding到向量空間,解耦模式識(shí)別和符號(hào)推理仍面臨嚴(yán)峻挑戰(zhàn)。
[1] ERNIE: Enhanced Language Representation with Informative Entities. ACL2019
[2] Knowledge Enhanced Contextual Word Representations. EMNLP2019
[3] CoLAKE: Contextualized Language and Knowledge Embedding.COLING2020
[4] CokeBERT: Contextual Knowledge Selection and Embedding towards Enhanced Pre-Trained Language Models
[5] K-BERT: Enabling Language Representation with Knowledge Graph.AAAI2020
[6] Language Models as Knowledge Bases? EMNLP2019
[7] Language Models as Knowledge Bases: On Entity Representations, Storage Capacity, and Paraphrased Queries.
[8] How can we know what language models know
[9] Language Models are Open Knowledge Graphs.
[10] KEPLER: A Unified Model for Knowledge Embedding and Pre-trained Language Representation. TACL2020
[11] Learning to Deceive Knowledge Graph Augmented Models via Targeted Perturbation ICLR2020
[12] Transferability vs. Discriminability: Batch Spectral Penalization for Adversarial Domain Adaptation. ICML2019
[13] Catastrophic Forgetting Meets Negative Transfer: Batch Spectral Shrinkage for Safe Transfer Learning. NeurIPS 2020
[14] Commonsense Knowledge Aware Conversation Generation with Graph Attention. IJCAI2018
[15] Dimensions of Commonsense Knowledge
[16] Benchmarking Knowledge-enhanced Commonsense Question Answering via Knowledge-to-Text Transformation. AAAI2021
[17] Knowledge Neurons in Pretrained Transformers
?
OpenKG
開放知識(shí)圖譜(簡(jiǎn)稱 OpenKG)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識(shí)圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 網(wǎng)站。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 - IJCAI | Knowledge is NOT always you need: 外部知识注入预训练模型的利与弊...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 会议交流 | IJCKG 2021 日程
- 下一篇: 高并发编程系列:NIO、BIO、AIO的