论文浅尝 | Knowledge Vault: 全网规模的知识概率融合方法
論文筆記整理:吳桐桐,東南大學博士生,研究方向為自然語言處理。
鏈接:https://www.cs.ubc.ca/~murphyk/Papers/kv-kdd14.pdf
?
基于機器學習,Knowledge Vault不僅能夠從多個來源(文本,表格數據,頁面結構,人工注釋)中提取數據,而且還可以根據所有可用數據推斷事實和關系。網絡當然包含大量的錯誤數據,因此框架依賴于現有的知識庫(例如Freebase),以便在評估過程的其中一個步驟中驗證事實。研究人員將該過程描述為“圖中的鏈接預測”,并試圖通過采用兩種不同的方法來解決它:a)路徑排序算法(PRA)和b)神經網絡模型(MLP)[1]
?
結構
Knowledge Vault主要由以下三個主要構件組成:
1.????提取器?- 從大型數據集中提取三元組(主語,謂語,對象)并分配置信度分數。
2.????基于圖形的先驗?- 從現有知識庫中學習
3.????知識融合?- 事實概率的最終得分
通過結合現有知識庫和自身提取過程中的數據,研究人員已設法減少事實不確定性的數量,如下圖所示:
Knowledge Vault 相比于知識圖譜的優勢
Knowledge Vault 對當前知識圖的關鍵優勢在于其設計允許其擴展。到目前為止,Knowledge Vault設法推斷了大約 271,000,000 個“可信的事實”,這些事實被認為是真實的,至少有90%的可能性。為了提煉這些事實,Knowledge Vault 提取了 1,600,000,000 三元組,4469種關系類型和1100種實體。
關于知識圖譜的思考
本文作為知識圖譜領域的核心論文之一,文中所提出的幾點思考放在論文發表5年之后的今天仍具有借鑒意義。
?
1.如何建模事實之間的互斥性:目前,我們將每個事實視為獨立的二進制隨機變量,無論是真是假。然而在現實中許多三元組之間是互斥的。
2.建模事實之間的軟相關性:對于某些關系,它們的價值將受到軟約束。如某個人物的出生時間一定在其父母出生時間的至少10年之后。
3.值可以在多個抽象層次上表示:我們可以用不同的粒度來表示世界。
4.如何處理相關的數據源:當數據源數目較多且相互重疊時,則需要考慮更復雜的數據拷貝機制。
5.有些事實只是暫時的事實。在某些情況下,事實的“真相”可能會改變。例如,谷歌目前的首席執行官是拉里·佩奇,但從2001年到2011年,他就是埃里克·施密特。這兩個事實都是正確的,但只是在指定的時間間隔內。
6.如何發現并添加新實體和關系。除了遺漏的事實之外,還有許多實體在網絡上被提及,但不在Freebase中,因此也不在 knowledge vault 中。
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的论文浅尝 | Knowledge Vault: 全网规模的知识概率融合方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 阿里P8架构师谈:Quartz调度框架详
- 下一篇: 阿里P8架构师谈:分布式、集群、负载均衡