當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | Knowledge Vault: 全网规模的知识概率融合方法

發(fā)布時(shí)間：2024/7/5 编程问答 45 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 | Knowledge Vault: 全网规模的知识概率融合方法小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

論文筆記整理：吳桐桐，東南大學(xué)博士生，研究方向?yàn)樽匀徽Z言處理。

鏈接：https://www.cs.ubc.ca/~murphyk/Papers/kv-kdd14.pdf

基于機(jī)器學(xué)習(xí)，Knowledge Vault不僅能夠從多個(gè)來源（文本，表格數(shù)據(jù)，頁面結(jié)構(gòu)，人工注釋）中提取數(shù)據(jù)，而且還可以根據(jù)所有可用數(shù)據(jù)推斷事實(shí)和關(guān)系。網(wǎng)絡(luò)當(dāng)然包含大量的錯(cuò)誤數(shù)據(jù)，因此框架依賴于現(xiàn)有的知識庫（例如Freebase），以便在評估過程的其中一個(gè)步驟中驗(yàn)證事實(shí)。研究人員將該過程描述為“圖中的鏈接預(yù)測”，并試圖通過采用兩種不同的方法來解決它：a）路徑排序算法（PRA）和b）神經(jīng)網(wǎng)絡(luò)模型（MLP）[1]

結(jié)構(gòu)

Knowledge Vault主要由以下三個(gè)主要構(gòu)件組成：

1.????提取器?- 從大型數(shù)據(jù)集中提取三元組（主語，謂語，對象）并分配置信度分?jǐn)?shù)。

2.????基于圖形的先驗(yàn)?- 從現(xiàn)有知識庫中學(xué)習(xí)

3.????知識融合?- 事實(shí)概率的最終得分

通過結(jié)合現(xiàn)有知識庫和自身提取過程中的數(shù)據(jù)，研究人員已設(shè)法減少事實(shí)不確定性的數(shù)量，如下圖所示：

Knowledge Vault 相比于知識圖譜的優(yōu)勢

Knowledge Vault 對當(dāng)前知識圖的關(guān)鍵優(yōu)勢在于其設(shè)計(jì)允許其擴(kuò)展。到目前為止，Knowledge Vault設(shè)法推斷了大約 271,000,000 個(gè)“可信的事實(shí)”，這些事實(shí)被認(rèn)為是真實(shí)的，至少有90％的可能性。為了提煉這些事實(shí)，Knowledge Vault 提取了 1,600,000,000 三元組，4469種關(guān)系類型和1100種實(shí)體。

關(guān)于知識圖譜的思考

本文作為知識圖譜領(lǐng)域的核心論文之一，文中所提出的幾點(diǎn)思考放在論文發(fā)表5年之后的今天仍具有借鑒意義。

1.如何建模事實(shí)之間的互斥性：目前，我們將每個(gè)事實(shí)視為獨(dú)立的二進(jìn)制隨機(jī)變量，無論是真是假。然而在現(xiàn)實(shí)中許多三元組之間是互斥的。

2.建模事實(shí)之間的軟相關(guān)性：對于某些關(guān)系，它們的價(jià)值將受到軟約束。如某個(gè)人物的出生時(shí)間一定在其父母出生時(shí)間的至少10年之后。

3.值可以在多個(gè)抽象層次上表示：我們可以用不同的粒度來表示世界。

4.如何處理相關(guān)的數(shù)據(jù)源：當(dāng)數(shù)據(jù)源數(shù)目較多且相互重疊時(shí)，則需要考慮更復(fù)雜的數(shù)據(jù)拷貝機(jī)制。

5.有些事實(shí)只是暫時(shí)的事實(shí)。在某些情況下，事實(shí)的“真相”可能會改變。例如，谷歌目前的首席執(zhí)行官是拉里·佩奇，但從2001年到2011年，他就是埃里克·施密特。這兩個(gè)事實(shí)都是正確的，但只是在指定的時(shí)間間隔內(nèi)。

6.如何發(fā)現(xiàn)并添加新實(shí)體和關(guān)系。除了遺漏的事實(shí)之外，還有許多實(shí)體在網(wǎng)絡(luò)上被提及，但不在Freebase中，因此也不在 knowledge vault 中。

OpenKG

開放知識圖譜（簡稱 OpenKG）旨在促進(jìn)中文知識圖譜數(shù)據(jù)的開放與互聯(lián)，促進(jìn)知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。

點(diǎn)擊閱讀原文，進(jìn)入 OpenKG 博客。

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來咯，堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 | Knowledge Vault: 全网规模的知识概率融合方法的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：阿里P8架构师谈：Quartz调度框架详
下一篇：阿里P8架构师谈：分布式、集群、负载均衡