當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 通过阅读实体描述进行零样本的实体链接

發(fā)布時(shí)間：2024/7/5 编程问答 46 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 | 通过阅读实体描述进行零样本的实体链接小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

筆記整理 |?賴(lài)澤升，東南大學(xué)本科生

來(lái)源：ACL2019

動(dòng)機(jī)

??先前實(shí)體鏈接的大多數(shù)工作都著重于與通用實(shí)體數(shù)據(jù)庫(kù)的鏈接，通常希望鏈接到專(zhuān)門(mén)的實(shí)體詞典，例如法律案件，公司項(xiàng)目描述，小說(shuō)中的字符集或術(shù)語(yǔ)表。

但這些工作的不足之處在于，對(duì)于這些專(zhuān)用實(shí)體詞典，帶標(biāo)簽的數(shù)據(jù)不易獲得，而且獲取起來(lái)往往相當(dāng)昂貴。

因此，為了解決上述問(wèn)題，論文提出了一種新的實(shí)體鏈接模型，以將其推廣到看不見(jiàn)的專(zhuān)業(yè)實(shí)體。但是，該任務(wù)的難度在于：在沒(méi)有可用的完整別名表或頻率統(tǒng)計(jì)數(shù)據(jù)和元數(shù)據(jù)的情況下，模型必須閱讀實(shí)體描述并推斷實(shí)體mention與其上下文的對(duì)應(yīng)關(guān)系；由于帶有標(biāo)簽的mention對(duì)于測(cè)試實(shí)體是不可用的，因此模型必須適應(yīng)新mention的上下文和實(shí)體描述。

為了解決上述難題，論文提出了一種新的預(yù)訓(xùn)練模型DAP，去解決如何將不可見(jiàn)的實(shí)體鏈接到一個(gè)新的領(lǐng)域的問(wèn)題，從而完成零樣本的實(shí)體鏈接任務(wù)。

貢獻(xiàn)

文章的主要貢獻(xiàn)：

（1）提出了一個(gè)新的零樣本實(shí)體鏈接任務(wù)，旨在以最小的假設(shè)條件下，挑戰(zhàn)實(shí)體鏈接系統(tǒng)的泛化能力。并且為此任務(wù)構(gòu)建了一個(gè)數(shù)據(jù)集，該數(shù)據(jù)集將公開(kāi)提供。

（2）通過(guò)使用最前沿的閱讀理解模型為實(shí)體鏈接任務(wù)來(lái)建立強(qiáng)大的基準(zhǔn)。此外，論文還發(fā)現(xiàn)上下文和實(shí)體描述之間的attention對(duì)于此任務(wù)至關(guān)重要，而在以前的實(shí)體鏈接工作中并未使用attention。

（3）提出了一種簡(jiǎn)單但新穎的適應(yīng)策略，該策略稱(chēng)為領(lǐng)域自適應(yīng)預(yù)訓(xùn)練策略（DAP），并通過(guò)實(shí)驗(yàn)表明它可以進(jìn)一步提高實(shí)體鏈接的性能。

模型

論文將實(shí)體鏈接任務(wù)分為兩個(gè)階段，第一階段是快速產(chǎn)生候選實(shí)體，第二階段是對(duì)每個(gè)候選實(shí)體計(jì)算得分，選出得分最高的即為目標(biāo)實(shí)體。

對(duì)于第一階段，論文使用BM25（TF-IDF的一種變體）來(lái)衡量mention字符串和候選文檔之間的相似性。通過(guò)Lucene的BM25評(píng)分檢索到的前k個(gè)實(shí)體用于培訓(xùn)和評(píng)估。在論文的實(shí)驗(yàn)中，k設(shè)置為64。排名前64位的候選實(shí)體的平均覆蓋率小于77％。這說(shuō)明任務(wù)艱巨，并且在候選實(shí)體生成階段仍有很大的改進(jìn)空間。

對(duì)于第二階段，論文中使用了基于Transformer結(jié)構(gòu)的BERT。在BERT中，mention用m表示，候選實(shí)體的描述用e表示，兩者都由128個(gè)詞標(biāo)記表示，被連接起來(lái)并作為序列對(duì)連同特殊的開(kāi)始和分隔符一起輸入到模型中：Mention中的單詞被特殊的嵌入向量標(biāo)記，該向量被添加到mention的單詞嵌入中。Transformer編碼器對(duì)輸入的信息產(chǎn)生向量hm，e，它是最后一個(gè)隱藏層輸出的特殊表示。在候選實(shí)體集合中，每一個(gè)實(shí)體的得分由公式：得出，此處的是經(jīng)過(guò)學(xué)習(xí)的參數(shù)向量。選出得分最高的候選實(shí)體即為目標(biāo)實(shí)體。該模型的訓(xùn)練方法是使用softmax loss。在論文中，使用了具有12層，隱藏層數(shù)為768和12個(gè)attention的體系結(jié)構(gòu),此結(jié)構(gòu)模型稱(chēng)為Full-Transformer。

為了評(píng)估這種新穎模型的價(jià)值，論文中還使用了Full-Transformer兩個(gè)變種模型作對(duì)比實(shí)驗(yàn)。一個(gè)被稱(chēng)為Pool-Transformer，原理是分別將mention和候選實(shí)體描述輸入到Transformer中，在最后的隱藏層分別輸出hm和he。該mention和候選實(shí)體之間的相似度用公式：計(jì)算，然后選出得分最高的候選實(shí)體。另外一個(gè)被稱(chēng)為：Cand-Pool-Transformer，原理是使用單個(gè)向量表示實(shí)體，但可以單獨(dú)使用mention及其上下文。該模型還使用了兩個(gè)Transformer編碼器，但引入了一個(gè)額外的attention模塊，該模塊使hm可以在上下文中參與mention的單個(gè)token表示。

實(shí)驗(yàn)

論文中，作者引入了一系列符號(hào)來(lái)描述組成預(yù)訓(xùn)練階段的各種方式。

Usrc表示來(lái)自源世界文檔的一系列的文本段

Utgt表示目標(biāo)世界文檔中的文本片段

Usrc+tgt表示從Usrc和Utgt中隨機(jī)交錯(cuò)抽取的文本段

Uwb表示在開(kāi)源語(yǔ)料庫(kù)中的文本段，在此實(shí)驗(yàn)中語(yǔ)料庫(kù)指的是Wikipedia和BookCorpus

如下表4所示，零樣本實(shí)體鏈接的基準(zhǔn)結(jié)果如下。在所有驗(yàn)證域上的平均歸一化實(shí)體鏈接準(zhǔn)確度中最高的是：Full-Transformer+Uwb組合，達(dá)到了76.06

下圖2（a）表示，使用DAP模型對(duì)實(shí)體鏈接任務(wù)的準(zhǔn)確度相比其他模型要高，，并且經(jīng)過(guò)對(duì)模型的微調(diào)后，準(zhǔn)確度會(huì)比原來(lái)上升一些。圖（b）表示了在目標(biāo)域上評(píng)估的預(yù)訓(xùn)練模型的MLM（Masked LM）準(zhǔn)確性與微調(diào)模型的實(shí)體鏈接性能之間的關(guān)系。可以看出。兩者呈正相關(guān)的關(guān)系。

下表5顯示了Full-Transformer（Uwb）對(duì)訓(xùn)練集和測(cè)試集中可見(jiàn)實(shí)體和不可見(jiàn)實(shí)體的預(yù)測(cè)準(zhǔn)確度

下表6顯示了Full-Transformer在測(cè)試域?qū)?shí)體鏈接的準(zhǔn)確度

總結(jié)

本文提出了一種零樣本實(shí)體鏈接的新任務(wù)，并為此構(gòu)建了一個(gè)多世界數(shù)據(jù)集。該數(shù)據(jù)集可以用作實(shí)體鏈接研究的共享基準(zhǔn)，該鏈接任務(wù)主要用于專(zhuān)門(mén)的專(zhuān)業(yè)領(lǐng)域，在領(lǐng)域中其中沒(méi)有帶有標(biāo)注的mention，并且實(shí)體僅通過(guò)描述進(jìn)行定義。并且文章還通過(guò)將強(qiáng)大的神經(jīng)閱讀理解與領(lǐng)域自適應(yīng)預(yù)訓(xùn)練（DAP）相結(jié)合，提出了一個(gè)強(qiáng)大的基準(zhǔn)。經(jīng)過(guò)實(shí)驗(yàn)證明，論文中提出的模型比之前的實(shí)體鏈接工作準(zhǔn)確率更好，驗(yàn)證了模型的有效性。但與此同時(shí)，候選實(shí)體生成階段留有很大的改進(jìn)空間。

OpenKG

開(kāi)放知識(shí)圖譜（簡(jiǎn)稱(chēng) OpenKG）旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開(kāi)放與互聯(lián)，促進(jìn)知識(shí)圖譜和語(yǔ)義技術(shù)的普及和廣泛應(yīng)用。

點(diǎn)擊閱讀原文，進(jìn)入 OpenKG 網(wǎng)站。

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 | 通过阅读实体描述进行零样本的实体链接的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：图谱实战 | 斯坦福黄柯鑫：图机器学习在
下一篇：论文浅尝 - ECIR2021 | 两种

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

论文浅尝 | 通过阅读实体描述进行零样本的实体链接

總結(jié)