當(dāng)前位置：首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

论文浅尝 - IJCAI | Knowledge is NOT always you need: 外部知识注入预训练模型的利与弊...

發(fā)布時(shí)間：2024/7/5 ChatGpt 76 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 - IJCAI | Knowledge is NOT always you need: 外部知识注入预训练模型的利与弊... 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

轉(zhuǎn)載公眾號(hào) |?浙大KG

論文題目：Drop Redundant, Shrink Irrelevant: Selective Knowledge Injection for Language Model Pretraining

本文作者：張寧豫（浙江大學(xué)）、鄧淑敏（浙江大學(xué)）、張亦弛（阿里巴巴）、張偉（阿里巴巴）、陳華鈞（浙江大學(xué)）等

發(fā)表會(huì)議：IJCAI?2021?（歡迎轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)注明出處）

引言

近年來，有很多工作嘗試將知識(shí)圖譜等外部知識(shí)融入到BERT為代表的預(yù)訓(xùn)練語言模型中。但是，不少外部知識(shí)存在一定程度的噪音，且不少實(shí)體存在歧義。事實(shí)上，先前工作已發(fā)現(xiàn)預(yù)訓(xùn)練語言模型中捕獲了相當(dāng)數(shù)量的實(shí)體、常識(shí)知識(shí)，那么不加選擇地將所有的外部知識(shí)融入語言模型真的最優(yōu)么？本文探討了語言模型中融入知識(shí)噪音的問題，并提出了一種基于頻率采樣和譜正則化的選擇性知識(shí)融入方法。在基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，我們的方法可以增強(qiáng)最新的知識(shí)注入的預(yù)訓(xùn)練語言模型。

一、前言

2018年以來，預(yù)訓(xùn)練語言模型的研究風(fēng)起云涌。由于預(yù)訓(xùn)練過程缺乏對(duì)知識(shí)的捕捉，學(xué)者們提出不少將知識(shí)融合預(yù)訓(xùn)練語言模型的方法如ERNIE[1]、KnowBERT[2]、CoLake[3]等。知識(shí)的融入的確提升了不少知識(shí)密集型任務(wù)如關(guān)系抽取、實(shí)體分類等的效果。然而，外部知識(shí)中存在相當(dāng)程度的噪音。一方面，由于實(shí)體的歧義性，文本可能會(huì)被融入完全錯(cuò)誤、不相關(guān)的實(shí)體知識(shí)。比如，對(duì)于“qq飛車小橘子”這句話，如果將水果“小橘子”的實(shí)體知識(shí)融入語言模型，對(duì)語義理解反而可能會(huì)其負(fù)面作用。另一方面，并不是所有的三元組知識(shí)都能促進(jìn)語義理解。比如對(duì)于“斯蒂芬·庫里和克萊·湯普森帶領(lǐng)勇士隊(duì)勇奪2015年nbva冠軍”這句話，三元組知識(shí)（斯蒂芬·庫里，女兒，賴?yán)?#xff09;在可能對(duì)理解語義起不到多少幫助。事實(shí)上，CokeBERT[4]和K-BERT[5]都曾在實(shí)驗(yàn)中發(fā)現(xiàn)，不加選擇的融入知識(shí)并非最優(yōu)。

從另一個(gè)角度，2019年Allan 發(fā)表在EMNLP2019的論文[6]及一些后續(xù)工作[7,8,9]指出，預(yù)訓(xùn)練語言模型在參數(shù)空間其實(shí)學(xué)習(xí)到了大量的實(shí)體、常識(shí)知識(shí)，甚至可以作為一個(gè)連續(xù)型知識(shí)庫，這啟發(fā)了我們思考：語言模型注入的知識(shí)真的越多越好么？外部的噪音知識(shí)對(duì)模型有什么影響呢？我們有沒有辦法對(duì)知識(shí)加以選擇更好地進(jìn)行知識(shí)注入呢？其實(shí)，[10]中有學(xué)者發(fā)現(xiàn)，不加選擇的注入實(shí)體知識(shí)并不一定會(huì)帶來知識(shí)密集型任務(wù)性能的提升。受到這些工作啟發(fā)，我們首先分析了知識(shí)中噪音對(duì)預(yù)訓(xùn)練語言模型的影響。

二、分析

我們首先采樣了部分實(shí)體和實(shí)例，并根據(jù)實(shí)體頻率分析不同知識(shí)注入的差異，其次分析了知識(shí)噪音對(duì)模型的影響。由于很難判斷知識(shí)圖譜中究竟有多少噪音，因此我們采取人工控制噪音的方式來分析，這里的噪音主要是指實(shí)體的歧義性。我們通過實(shí)體替換的方式來人工制造知識(shí)噪音。

如上圖a所示，我們發(fā)現(xiàn)對(duì)于低頻實(shí)體而言，注入實(shí)體的增益相對(duì)較大，這一發(fā)現(xiàn)也同[10]中的結(jié)論類似。在圖b中，我們發(fā)現(xiàn)，隨著噪音的注入，模型性能顯著下降。這一發(fā)現(xiàn)也同[11]中的隨機(jī)擾動(dòng)知識(shí)圖譜導(dǎo)致的結(jié)論一致。由此我們發(fā)現(xiàn)，一般來說，知識(shí)噪音會(huì)損害模型性能（極少數(shù)情況噪音會(huì)修復(fù)知識(shí)圖譜中錯(cuò)誤的關(guān)聯(lián)關(guān)系進(jìn)而提升魯棒性，見[11]）。基于此發(fā)現(xiàn)，我們可以通過頻率對(duì)知識(shí)進(jìn)行選擇，以注入對(duì)模型更加有用的知識(shí)，減少噪音注入的可能性。

受到遷移學(xué)習(xí)中負(fù)遷移理論的啟發(fā)[12,13],我們進(jìn)行進(jìn)一步分析。我們對(duì)知識(shí)注入模型的權(quán)重和特征及其奇異值進(jìn)行分析，以驗(yàn)證語言模型是否可以適用于負(fù)遷移理論。

具體的說，我們對(duì)預(yù)訓(xùn)練語言模型的最后一層輸出特征進(jìn)行SVD分解，并比較模型在給定15%、30%、50%和100%訓(xùn)練樣本時(shí)奇異值的情況，如下公式所示：

如下圖所示，我們發(fā)現(xiàn)在下游任務(wù)微調(diào)過程中，模型特征的尾部奇異值往往會(huì)自動(dòng)下降，這一發(fā)現(xiàn)也和論文[13]中結(jié)論一致，也就說注入的噪音知識(shí)可以類比成遷移學(xué)習(xí)中造成負(fù)遷移的原因之一。基于此發(fā)現(xiàn)，我們可以直接對(duì)尾部奇異值進(jìn)行約束，以減輕源領(lǐng)域（注入了噪音的語言模型）對(duì)下有任務(wù)的影響。

三、方法

方法包含兩部分，首先我們提出一種基于頻率的實(shí)體采樣算法來選擇知識(shí)（這一方法不需要額外參數(shù)，也可以基于注意力機(jī)制來選擇知識(shí)如[14]）。先前的工作表明，語言模型其實(shí)已經(jīng)掌握了大部分高頻實(shí)體知識(shí)，因此我們對(duì)預(yù)訓(xùn)練語料（維基百科）中的高頻實(shí)體設(shè)置一個(gè)較低的權(quán)重，鼓勵(lì)模型注入低頻實(shí)體。

然而，由于知識(shí)圖譜中存在大量一對(duì)多、多對(duì)一的事實(shí)知識(shí)，這部分知識(shí)高頻實(shí)體也較難習(xí)得，且這些實(shí)體包含的信息相對(duì)較為豐富，因此，我們提高同一個(gè)文檔內(nèi)的實(shí)體間跳數(shù)較少的實(shí)體的采樣權(quán)重（超參數(shù)控制），具體采樣公式如下：

其次，我們采用了一種譜正則技術(shù)來減輕噪音對(duì)微調(diào)的影響。一般來說傳統(tǒng)的機(jī)器學(xué)習(xí)模型可以通過對(duì)參數(shù)或特征進(jìn)行正則來減輕遷移學(xué)習(xí)的負(fù)遷移現(xiàn)象，然而對(duì)于語言模型，其參數(shù)維度遠(yuǎn)大于特征維度，因此我們僅對(duì)特征進(jìn)行正則。我們對(duì)語言模型的輸出特征進(jìn)行SVD分解，并對(duì)尾部k個(gè)特征值進(jìn)行約束：

整體的模型圖如下：

四、實(shí)驗(yàn)

我們基于維基百科重新進(jìn)行了知識(shí)注入預(yù)訓(xùn)練（ERNIR，KnowBERT），并在多個(gè)知識(shí)密集型數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)，如下表所示，我們的方法在大多數(shù)數(shù)據(jù)集上都取得了較好的效果。此外，我們還發(fā)現(xiàn)，通過知識(shí)選擇和正則化，我們的方法在GLUE上的性能下降小于原始的知識(shí)注入模型。

五、總結(jié)與展望

在本文中，我們分析了知識(shí)噪音對(duì)語言模型性能的影響，并提出一種基于知識(shí)選擇的知識(shí)融入方法。隨著人工神經(jīng)網(wǎng)絡(luò)技術(shù)的不斷發(fā)展，數(shù)據(jù)驅(qū)動(dòng)漸入天花板。盡管超大規(guī)模的預(yù)訓(xùn)練語言模型如GPT-3取得了令人驚艷的效果，它仍然經(jīng)常鬧笑話。數(shù)據(jù)+知識(shí)是驅(qū)動(dòng)未來認(rèn)知AI的重要路線之一。對(duì)于通用的、高頻的實(shí)體、常識(shí)等知識(shí)，也許可以通過大規(guī)模預(yù)訓(xùn)練習(xí)得，然而更多的低頻長(zhǎng)尾知識(shí)、多元關(guān)聯(lián)知識(shí)、復(fù)雜邏輯知識(shí)，數(shù)據(jù)驅(qū)動(dòng)的方法較難使模型具備相應(yīng)的能力，可能知識(shí)注入和融合符號(hào)化推理的方式更加有效。我們的工作探討了如何更好的利用知識(shí)，但仍然有模型訓(xùn)練慢、知識(shí)選擇相對(duì)Ad hoc等不足。在未來很多可以改進(jìn)的方向如：

1）深入探索哪些知識(shí)對(duì)神經(jīng)網(wǎng)絡(luò)更有用？

神經(jīng)網(wǎng)絡(luò)通過海量的數(shù)據(jù)預(yù)訓(xùn)練可能已經(jīng)在參數(shù)空間習(xí)得部分知識(shí)，這些連續(xù)空間的參數(shù)更加有利于機(jī)器去適應(yīng)下有任務(wù)，[15]探索了模型究竟掌握了哪些常識(shí)知識(shí)，仍需要更多的工作去探索神經(jīng)網(wǎng)絡(luò)的能與不能。

2）如何高效注入知識(shí)？

符號(hào)化知識(shí)和向量化表征存在顯著的異構(gòu)性，[16]提出了一種基于Graph-to-text的方式減輕了數(shù)據(jù)差異，然而對(duì)于大多數(shù)人類可讀的知識(shí)，如何高效的將其轉(zhuǎn)換為機(jī)器可理解的方式，并注入模型中，仍面臨較大挑戰(zhàn)。

3）如何更新模型中的知識(shí)？

互聯(lián)網(wǎng)每天會(huì)產(chǎn)生海量的新文本，人類知識(shí)也在不斷更新，比如在不同時(shí)間階段三元組知識(shí)（美國，現(xiàn)任總統(tǒng)，特朗普）會(huì)更新為（美國，現(xiàn)任總統(tǒng)，拜登）。因此，如何更新預(yù)訓(xùn)練語言模型參數(shù)空間的知識(shí)面臨研究挑戰(zhàn)。[17]對(duì)這一問題進(jìn)行了初步探索。事實(shí)上，降低預(yù)訓(xùn)練語言模型的迭代成本，使得模型低碳、經(jīng)濟(jì)、環(huán)保具有非常重要的現(xiàn)實(shí)意義。

4）如何解耦模式識(shí)別和符號(hào)推理？

神經(jīng)網(wǎng)絡(luò)由于其強(qiáng)大的非線性擬合能力，使其在一定程度上具備超越人類的模式識(shí)別能力。然而，對(duì)于一些基本的常識(shí)、數(shù)值、邏輯推理問題，預(yù)訓(xùn)練語言模型經(jīng)常鬧笑話。融合數(shù)據(jù)和知識(shí)，進(jìn)行神經(jīng)符號(hào)化學(xué)習(xí)可能是使機(jī)器具備推理能力的重要技術(shù)路線之一。然而神經(jīng)網(wǎng)絡(luò)的向量空間高度抽象，符號(hào)空間相對(duì)離散，如何針對(duì)具體任務(wù)將符號(hào)表示Grounding到向量空間，解耦模式識(shí)別和符號(hào)推理仍面臨嚴(yán)峻挑戰(zhàn)。

[1] ERNIE: Enhanced Language Representation with Informative Entities. ACL2019

[2] Knowledge Enhanced Contextual Word Representations. EMNLP2019

[3] CoLAKE: Contextualized Language and Knowledge Embedding.COLING2020

[4] CokeBERT: Contextual Knowledge Selection and Embedding towards Enhanced Pre-Trained Language Models

[5] K-BERT: Enabling Language Representation with Knowledge Graph.AAAI2020

[6] Language Models as Knowledge Bases? EMNLP2019

[7] Language Models as Knowledge Bases: On Entity Representations, Storage Capacity, and Paraphrased Queries.

[8] How can we know what language models know

[9] Language Models are Open Knowledge Graphs.

[10] KEPLER: A Unified Model for Knowledge Embedding and Pre-trained Language Representation. TACL2020

[11] Learning to Deceive Knowledge Graph Augmented Models via Targeted Perturbation ICLR2020

[12] Transferability vs. Discriminability: Batch Spectral Penalization for Adversarial Domain Adaptation. ICML2019

[13] Catastrophic Forgetting Meets Negative Transfer: Batch Spectral Shrinkage for Safe Transfer Learning. NeurIPS 2020

[14] Commonsense Knowledge Aware Conversation Generation with Graph Attention. IJCAI2018

[15] Dimensions of Commonsense Knowledge

[16] Benchmarking Knowledge-enhanced Commonsense Question Answering via Knowledge-to-Text Transformation. AAAI2021

[17] Knowledge Neurons in Pretrained Transformers

OpenKG

開放知識(shí)圖譜（簡(jiǎn)稱 OpenKG）旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開放與互聯(lián)，促進(jìn)知識(shí)圖譜和語義技術(shù)的普及和廣泛應(yīng)用。

點(diǎn)擊閱讀原文，進(jìn)入 OpenKG 網(wǎng)站。

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 - IJCAI | Knowledge is NOT always you need: 外部知识注入预训练模型的利与弊...的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：会议交流 | IJCKG 2021 日程
下一篇：高并发编程系列：NIO、BIO、AIO的

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

ChatGpt

论文浅尝 - IJCAI | Knowledge is NOT always you need: 外部知识注入预训练模型的利与弊...

論文題目：Drop Redundant, Shrink Irrelevant: Selective Knowledge Injection for Language Model Pretraining

總結(jié)