论文阅读《Do Pre-trained Models Benefit Knowledge Graph Completion?A Reliable Evaluation and a Reasonab》
Do Pre-trained Models Benefit Knowledge Graph Completion? A Reliable Evaluation and a Reasonable Approach.(Finding of ACL 2022)
論文開源代碼-github
提出背景
預(yù)訓(xùn)練模型被證明可以從文本中獲得真實(shí)的知識(shí),這促使著基于PLM的知識(shí)圖譜補(bǔ)全(Knowledge graph completion, KGC)模型的提出,然而這些模型在性能上遠(yuǎn)遠(yuǎn)落后于KGC任務(wù)的SOTA。
比KGE的Hits@10中的SOTA模型低約20.8%
作者認(rèn)為主要有以下兩個(gè)原因:
1.封閉世界假設(shè)(Closed World Assumption, CWA)的設(shè)置會(huì)限制基于PLM的KGC模型,預(yù)訓(xùn)練模型引入了很多的外部知識(shí)。
2.大多數(shù)基于PLM的KGC模型只是簡單拼接實(shí)體和關(guān)系的標(biāo)簽作為輸入,導(dǎo)致句子不連貫,沒有充分利用PLM中的隱性知識(shí)。
封閉世界假設(shè) (Closed-world assumption, CWA)認(rèn)為, 在給定的知識(shí)圖譜中沒有出現(xiàn)的三元組是錯(cuò)誤的。我們可以很容易在 CWA 下評估沒有標(biāo)注的模型的性能。然而,CWA 本質(zhì)上是一種近似,不能保證評估結(jié)果的準(zhǔn)確性。
開放世界假設(shè) (Open-world assumption, OWA)認(rèn)為知識(shí)圖譜中包含的三元組是不完備的。因此,開放世界假設(shè)下的評估更準(zhǔn)確、更接近真實(shí)場景,但需要額外的人工標(biāo)注,仔細(xì)驗(yàn)證知識(shí)圖譜中不存在的完整三元組是否正確。
對于一個(gè)三元查詢(England, contains, ?),基于PLM的KGC模型給出了許多正確的尾實(shí)體,但在CWA下只有Pontefract 被認(rèn)為是正確的,因?yàn)樗嬖谟贙Gs中。模型介紹
基于PLM的KGC模型PKGC,可以更好的誘導(dǎo)隱藏在PLM參數(shù)中的隱性知識(shí)和KGs中的結(jié)構(gòu)化知識(shí)。
給定一個(gè)三元組,我們將它的信息填入到三元組模板(triple prompts)和支持模板(support prompts)中。
最終模板T = [CLS] P^T P^S[SEP],[CLS]的輸出用來預(yù)測給定三元組的類別(label)。
另一方面我們將正/負(fù)例的三元組輸入到我們的模型中進(jìn)行三元組分類。
三元組模板?P^T? :對于每個(gè)關(guān)系,手動(dòng)為其設(shè)計(jì)了一個(gè)hard模板,以關(guān)聯(lián)三元組的語義。例如體育關(guān)系成員的hard模板為“[X] plays for [Y]”,將[X]和[Y]替換成頭實(shí)體和尾實(shí)體,同時(shí)在其中添加一些soft提示。
支持模板P^S:除了知識(shí)圖譜本身的三元組信息,我們還為模板中添加如定義和屬性的支持信息。為了避免模型過于復(fù)雜,為實(shí)體隨機(jī)選擇一個(gè)屬性。模型并不要求所有支持信息都要呈現(xiàn)。如果不存在,就不要添加相應(yīng)的信息。
模型下三元組分類任務(wù)示意圖 soft prompt 嵌入位置示意 支持模板的設(shè)計(jì)數(shù)據(jù)集構(gòu)建及實(shí)現(xiàn)細(xì)節(jié)
在實(shí)驗(yàn)中,本文使用了兩個(gè)主要的數(shù)據(jù)集,分別來自 Wikidata 和 Freebase。
Wiki27K構(gòu)建的詳細(xì)步驟:
(1)從四個(gè)方面對實(shí)體進(jìn)行評分:實(shí)體出現(xiàn)頻率、實(shí)體是否有英文維基百科鏈接、實(shí)體是否有非英文維基百科鏈接、實(shí)體是否有 Freebase鏈接,從得分排名前3萬個(gè)實(shí)體中隨機(jī)選取27122個(gè)實(shí)體形成我們的實(shí)體集 E。
(2)將關(guān)系按頻率由高到低選出前 200 個(gè)關(guān)系,與CoDEx和LAMA中的數(shù)據(jù)集中的關(guān)系并在一起組成關(guān)系集合R。
(3)在wikidata里選擇在存在于E和R中的句子中提取三元組。
(4)隨機(jī)洗牌它們,并以8:1:1的比例組成訓(xùn)練集/驗(yàn)證集/測試集。
(5)R中如果存在對稱關(guān)系(即如果(h, r, t)成立,那么(t, r, h)也成立),如果(h, r, t)存在于訓(xùn)練集,(t, r, h)存在于驗(yàn)證集或測試集,模型就能夠輕松做出預(yù)測。為了避免這種信息泄露,對于每個(gè)對稱關(guān)系 r,如果(t, r, h)在 驗(yàn)證集或測試集,我們從訓(xùn)練集中刪除(h, r, t)。
FB15K-237和FB15K237-N構(gòu)建的詳細(xì)步驟:
(1)Freebase中存在許多CVT節(jié)點(diǎn)(CVT可以被認(rèn)為是一個(gè)不需要展示名稱的主題),這些節(jié)點(diǎn)會(huì)不恰當(dāng)?shù)靥岣吣P偷臏?zhǔn)確性。文中通過去除FB15K-237中的CVT節(jié)點(diǎn)獲得數(shù)據(jù)集FB15K237-N。
(2)為了增加三分類的難度,我們在FB15K-237-N的基礎(chǔ)上增加負(fù)例三元組構(gòu)建數(shù)據(jù)集FB15K237-NH。該數(shù)據(jù)集僅用于三元分類。具體來說,對于驗(yàn)證集和測試集中的每一個(gè)正例三元組(h, r, t),我們使用TransE做鏈接預(yù)測,并使用概率最高的非答案實(shí)體替換缺失實(shí)體,做負(fù)例。
召回和重排序框架
?????? 鏈接預(yù)測需要大量的計(jì)算,基于PLM的模型的運(yùn)行效率遠(yuǎn)遠(yuǎn)低于KGE模型。為了緩解這一問題,對于三元組查詢(h, r,? ?),我們首先使用KGE模型(實(shí)驗(yàn)中使用TuckER)來獲得頭尾部實(shí)體的排序。之后,我們選擇排名前X的實(shí)體,并使用基于PLM的KGC模型重新計(jì)算得分。基于這些分?jǐn)?shù),我們可以對排名前X的實(shí)體重新排序。
最終數(shù)據(jù)集示意訓(xùn)練任務(wù)及評價(jià)方法
知識(shí)圖譜補(bǔ)全認(rèn)為旨在為知識(shí)圖譜補(bǔ)全缺失的三元組,評估這一任務(wù)主要有兩種方法,即鏈接預(yù)測和三元組分類,前者主要為三元查詢(h, r, ?)或(?, r, t),后者旨在判斷給定的三元組(h, r, t)是否正確。
模型在包含正例/負(fù)例的三元組數(shù)據(jù)集上進(jìn)行任務(wù)。
負(fù)例三元組由兩種類別的數(shù)據(jù)組成:(1)隨機(jī)替換原三元組中的頭實(shí)體或尾實(shí)體。(2)通過將頭實(shí)體或尾實(shí)體替換為KGE模型認(rèn)為概率高的另一個(gè)實(shí)體。
用一個(gè)超參數(shù)α來控制兩種負(fù)例的比例,同時(shí)用一個(gè)超參數(shù)K來控制正例和負(fù)例的比例。
鏈接預(yù)測任務(wù):給出每個(gè)實(shí)體為缺失實(shí)體的概率的降序排列,使用MRR、Hits@N、CR@1(新的基于開放世界假設(shè)的評估方法)作為評價(jià)指標(biāo)。
三元組分類任務(wù):本質(zhì)上是一個(gè)二元分類任務(wù),使用準(zhǔn)確率和 F1 作為評價(jià)指標(biāo)。
鏈接預(yù)測結(jié)果對比 三元組分類結(jié)果對比?分析與展望
Q1:PLMs 在海量的文本中看到了很多事實(shí)。是不是因?yàn)樗鼈冇涀×诉@些事實(shí),才幫助我們的模型取得了更好的結(jié)果??
A:有一定的原因
設(shè)計(jì)一個(gè)基于遠(yuǎn)程監(jiān)督的實(shí)驗(yàn),具體的來說,對于一個(gè)三元組(h, r, t),如果h和t出現(xiàn)在Wikipedia的一個(gè)句子中,我們認(rèn)為這句話暗示了(h, r, t)的事實(shí)。
使用BERT-large作為模型的基座模型,因?yàn)樗饕窃?/span>Wikipedia上預(yù)訓(xùn)練。
將測試集分成幾個(gè)不相交的部分,并測試PKCG、ConvE和TuckER在測試集上的性能。PLMs見過更多的三元組所以表現(xiàn)更好。
Q2:引入的PLMs能使我們的模型對訓(xùn)練數(shù)據(jù)量不那么敏感嗎??
A:是的
本文的模型是基于PLMs。因此我們推測基于PLMs的模型對訓(xùn)練數(shù)據(jù)量不敏感。為了驗(yàn)證這一點(diǎn),我們使用不同比例的訓(xùn)練集訓(xùn)練模型,并測試其性能。
PKCG只是隨著用于訓(xùn)練的數(shù)據(jù)量的減少而略有下降,具有用于稀疏知識(shí)圖譜補(bǔ)全的潛力。作為對比, KGE 模型ConvE和TuckER的性能都顯著下降。
Q3:近年來出現(xiàn)了一些包含知識(shí)的PLMs。使用它們能給我們的模型帶來更好的結(jié)果嗎??
A:有一定作用的
我們通過改變基座模型在 FB15K-237-N和 Wiki27K上進(jìn)行實(shí)驗(yàn)。
BERT 主要在維基百科語料庫上訓(xùn)練,包含更多的事實(shí)知識(shí)。
KEPLER:結(jié)合掩蔽語言建模和知識(shí)表示學(xué)習(xí)這兩個(gè)訓(xùn)練目標(biāo),基座模型Roberta。
LUKE:大量實(shí)體注釋語料,提出實(shí)體感知自注意力機(jī)制,基座模型Roberta。
Q1和Q2的實(shí)驗(yàn)結(jié)果圖 Q3的對比實(shí)驗(yàn)總結(jié)
以上是生活随笔為你收集整理的论文阅读《Do Pre-trained Models Benefit Knowledge Graph Completion?A Reliable Evaluation and a Reasonab》的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 大学生计算机应用基础考试,大学计算机应用
- 下一篇: 网络课大学计算机基础考试,《大学计算机基