當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ACL 2020 | 用于链接预测的开放知识图谱嵌入

發布時間：2024/10/8 编程问答 49 豆豆

生活随笔收集整理的這篇文章主要介紹了 ACL 2020 | 用于链接预测的开放知识图谱嵌入小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?PaperWeekly 原創 ·?作者｜舒意恒

學校｜南京大學碩士生

研究方向｜知識圖譜

當前大量的知識圖譜都是通過文本直接構建的。由于當前的知識圖譜構建方法的局限性，其中難免包含對同一實體或關系的多種表述。

知識圖譜嵌入模型的發展，長期關注于如何設計更好的評分函數、如何反映知識圖譜的內在結構，但非常少的研究關注于知識圖譜的實體和關系本身具有多種描述形式。本文提出的嵌入方法和基準測試，針對當前知識圖譜構建的特點，提供了值得關注的見解。

論文標題：Can We Predict New Facts with Open Knowledge Graph Embeddings: A Benchmark for Open Link Prediction

論文來源：ACL 2020

論文鏈接：https://www.aclweb.org/anthology/2020.acl-main.209/

介紹

知識圖譜是三元組的集合，其中，主語或賓語以結點表示，關系以帶標簽的邊表示。當前知識圖譜的構建通常需要豐富的文本鏈接和信息框，但它們并不是在每個領域都可用。因此，作者想要探索通過原始文本而沒有中間步驟構建起來的知識圖譜上，是否能夠做鏈接預測，例如藥物發現等領域。

開放信息提取系統自動地從非結構化數據中提取三元組，例如文本是一種非結構化數據。作者將這樣提取出的數據稱為開放知識圖譜。作者嘗試探索在沒有規范和監督的情況下，如何在開放知識圖譜上推理出潛在的事實知識。

鏈接預測是知識圖譜上需要推理的一個常見任務。它的目標是預測知識圖譜上缺失的事實。而當前知識圖譜嵌入模型已成功用于預測知識圖譜中的缺失事實。

開放知識圖譜

開放知識圖譜可以完全自動地被構建。它們不需要實體和關系的詞典，因此他們能夠捕捉更多信息。例如，不同的實體描述在不同的時間段指的是不同的實體版本。類似地，關系的描述也可能是多變的。

相比于一般的知識圖譜，開放知識圖譜包含豐富的概念知識。開放知識圖譜可能包含更多的噪聲，并且事實知識可能更加不確定。

如圖，一般的知識圖譜（curated KGs）對比開放知識圖譜（open KGs）。

開放鏈接預測

在開放鏈接預測中，模型對一個有序的陳述進行預測。但是問題可能有多個等價的正確答案，即多個答案可能指代的是同一個實體，但有不同的表述。作者將其評估準則稱為指代排序準則（mention-ranking protocol）。

作者的評估準則基于正確答案描述的最高排名。在過濾的設置上，除了被評價的實體外，已知答案實體的多種表述都將從排名中被過濾。該準則使用評價三元組實體的不同表述的知識來獲得合適的排名，消除一個實體多種表述對排序的影響。

因此，該準則需要（1）待評價三元組的頭實體和尾實體的注解，以及（2）這些實體的全面的表述集合。

構建開放鏈接預測的基準測試

4.1 數據源

作者將其提出的基準測試，稱為 OLPBENCH，它基于 OPIEC [1] 構建，后者是一個最近發布的數據集，它從英文維基百科的文本構建得到。

4.2 評估數據

數據質量 從數據集中，作者構建了滿足以下要求的驗證集和測試集。評估數據中的噪聲應該盡量的被限制，作者選擇了一種簡單有效的準則。在采樣評估數據中的候選項中，不考慮 token 數量小于 3 的非常短的關系。作者給出了三個理由：

短關系通常歸屬于長關系。
長關系更少地被簡單的應用于知識圖譜構建方法的模式所捕捉。
自動提取的實體注解，對于短關系來說略顯嘈雜。

數據構建中的人為干預 為了保證數據的質量，作者認為，對于規模較小的驗證數據，人類經驗的干預是必要的。因此，作者將驗證數據分為三類。

VALID-ALL：沒有人類的工作
VALID-MENTION：其中有部分人類的工作。
VALID-LINKED：大多數是人類的工作。

如圖是 OLPBENCH 中鏈接數據與非鏈接數據的樣例。

4.3 訓練數據

為了評估知識圖譜上的鏈接預測模型，評估事實通常通過對知識圖譜的三元組進行采樣生成。最簡單的避免訓練數據泄露到測試數據中的方法是直接刪除評估三元組的訓練數據。

但這種簡單的方法可能并不能完全避免泄露，訓練三元組仍然可能直接被推斷到。例如，評估三元組 (a, siblingOf, b) 可以輕松地被訓練三元組 (b, siblingOf, a) 回答到。

在開放知識圖譜中，關系的轉述導致了另外一種泄漏。例如，關系 “is in” 和 “located in” 可能包含許多相同的實體對。

作者使用了三個級別的泄漏移除方法，稱為 SIMPLE、BASIC 和 THOROUGH，即簡單的、基本的和徹底的泄漏移除。例如，訓練數據中存在三元組 (i, k, j) 的情況：

簡單移除：只有三元組 (i, k, j) 被移除，i 和 j 的其他表述不被移除。
基本移除：三元組 (i, k, j) 和 (j, k, i) 都被移除，i 和 j 的其他表述也都被移除。
徹底移除：在基本移除的基礎上，按以下模式移除評估數據中的三元組：
- (i, *, j) 和 (j, * i)，即刪掉兩實體間任何方向的任何形式的關系，例如，三元組 (“J. Smith”, “is player of”, “Liverpool”).
- (i, k + j,?) 和 (?, k + i, j)，例如，三元組，(“J. Smith”, “is Liverpool’s defender on”, “Saturday”).
- (i + k + j, ?, ?) 和 (?, ?, i + k + j)，例如，三元組 (“Liverpool defender J. Smith”, “kicked”, “the ball”).

這三種移除方式將生成三個不同的訓練集。

開放知識圖譜嵌入

知識圖譜嵌入模型已經成功地應用于知識圖譜的鏈接預測，而作者將它擴展到開放知識圖譜的鏈接預測當中。

知識圖譜嵌入模型 知識圖譜嵌入模型將每個實體和關系與一個嵌入關聯起來，嵌入是以鏈接預測為目標學習到的稠密向量表示。這些模型為三元組計算分數，它的目標是為正確的三元組學習到高分數，為錯誤到三元組學習到低分數。

組合得到的知識圖譜嵌入模型 作者考慮用組合函數從表面形式的標記中創建實體和關系表征。只要在訓練過程中觀察到標記，一個讀取表述和開放關系標記的模型原則上可以處理任何表述和開放關系。

作者使用一個通用的模型架構，它組合了關系模型和組合函數。關系模型用于對三元組的評分，組合函數用于對一個實體或關系的多個 token 的組合。

使用組合的知識圖譜嵌入模型。三元組的 token 首先被分別的嵌入，然后組合為一個表述或關系嵌入。最后，一個知識圖譜嵌入模型被用于計算三元組的分數。

實驗

作者使用 ComplEx [2] 作為關系模型，它是一個高效的雙線性模型（bilinear model）。對于組合函數，作者使用一層 LSTM，hidden size 等于 token embedding 大小。作者將其稱為 ComplEx-LSTM 模型。

對比模型 為了測試出有多少問題不需要通過整個問題的信息直接回答，作者提出兩個對比模型。給定一個問題 (i, k, ?)，PREDICT-WITH-REL 通過 (r, ?) 進行評分。例如問題，(“Jamie Carragher”, “is defender of”, ?)，我們詢問 (“is defender of”, ?). 而類似地，PREDICT-WITH-ENT 忽略關系而只計算實體對的分數。

如圖是測試集上的結果，同時利用實體和關系的 ComplEx-LSTM 超越了作為對比的 PRED-WITH-ENT / PRED-WITH-REL。同時，泄露移除的程度越大，鏈接預測的效果越差，一定程度說明現有方法不能很好地處理開放知識圖譜。人類對數據集的干預同時對模型表現的提升有影響。

如圖是驗證集上的結果。效果略高于測試集。

結論

作者提出了開放鏈接預測任務，以及一種構建開放鏈接預測基準測試的方法，并構建了一個基準測試 OLPBENCH。作者研究了評估事實的泄露、非關系信息和實體知識對鏈接預測任務的影響，并通過實驗證明其方法預測出的事實基本是新的事實，而不是知識圖譜中原有的。

參考文獻

[1] Kiril Gashteovski, Sebastian Wanner, Sven Hertling, Samuel Broscheit, and Rainer Gemulla. 2019. OPIEC: an open information extraction corpus. CoRR, abs/1904.12324.

[2] The ?o Trouillon, Johannes Welbl, Sebastian Riedel, Eric Gaussier, and Guillaume Bouchard. 2016. Complex embeddings for simple link prediction. In Proceedings of the 33nd International Conference on Machine Learning, ICML 2016, New York City, NY, USA, June 19-24, 2016, pages 2071–2080.

更多閱讀

#投稿?通道#

?讓你的論文被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學習心得或技術干貨。我們的目的只有一個，讓知識真正流動起來。

?????來稿標準：

? 稿件確系個人原創作品，來稿需注明作者個人信息（姓名+學校/工作單位+學歷/職位+研究方向）?

? 如果文章并非首發，請在投稿時提醒并附上所有已發布鏈接?

? PaperWeekly 默認每篇文章都是首發，均會添加“原創”標志

?????投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請單獨在附件中發送?

? 請留下即時聯系方式（微信或手機），以便我們在編輯發布時和作者溝通

????

現在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公眾號后臺點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

總結

以上是生活随笔為你收集整理的ACL 2020 | 用于链接预测的开放知识图谱嵌入的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：银行卡里的钱怎么查
下一篇： Word Embedding News｜

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

ACL 2020 | 用于链接预测的开放知识图谱嵌入

總結