论文浅尝 | How to Keep a Knowledge Base Synchronized
Citation: Liang, J.,Zhang, S. & Xiao, Y. (2017). How to Keep a Knowledge Base Synchronized withIts Encyclopedia Source. Proceedings of the Twenty-Sixth International JointConference on Artificial Intelligence, 3749–3755.
論文鏈接:https://www.ijcai.org/proceedings/2017/0524.pdf
動機
隨著知識圖譜技術的快速發展,知識圖譜正在越來越多的應用中扮演重要的角色。但是現有的知識圖譜存在一個很明顯的缺陷:圖譜中的數據的實時性很差。絕大多數知識圖譜從構建完成開始,其中的數據便不再更新。即使有更新,更新的周期也非常長。每一次的更新都是一次費時費力的、類似于重新構建知識圖譜的過程。這樣的更新機制一方面需要消耗大量網絡帶寬和計算資源,另一方面由于每次更新所消耗的代價太大,這就限制了更新的頻率,使得知識圖譜中數據的實時性非常差。由于缺乏一個實施的更新機制,圖譜中這些沒有同步更新的數據中存在大量的錯誤,這使得這些數據無法被利用。這種數據的滯后性給知識圖譜的應用帶來了很大的局限性。
貢獻
(1)本文提出一個實時更新知識圖譜數據的方法框架,可以以較高的準確率預測出哪些實體需要被更新,從而以較低的代價和較高的頻率對知識圖譜進行更新,從而實現了知識圖譜的實時、動態更新。
(2)本文將其提出的知識圖譜更新框架部署在 cn-dbpedia 上,用于對 cn-dbpedia 的實時更新,更新頻率設置為每天更新一次,實踐結果表明,更新的效果非常好。
?
方法
本文所提出的知識圖譜更新框架主要分為4個步驟:
1.????從互聯網上抽取、識別出最近一段時間內熱門的實體。(下面簡稱熱詞)
熱詞的抽取來源包括:熱門新聞的標題、搜索引擎的熱門搜索以及門戶網站的熱門話題。從這些來源抽取出熱門的短語或句子,利用命名實體識別(NER)技術抽取出其中的實體。由于現有的 NER 技術的召回率都小于 90%,因此為了提高熱詞抽取的召回率,可以采用一種極端的方法:利用分詞技術直接對這些句子和短語進行分詞,然后窮舉分詞后得到的所有實體。如果百科頁面中有該實體相關的頁面,則該實體便抽取成功。
?
2.????根據第一步中抽取出的熱詞,對知識庫做更新。
更新的原則是如果知識庫中已經存在該實體,就到百科網站中對該實體做知識庫實時更新,如果知識庫中不存在該實體,就將該實體及其相關的百科信息添加到知識庫中。
?
3.????從前兩步被更新的實體的百科頁面中的超鏈接中擴展得到和這些實體語義相關的更多實體,作為候選的待更新實體。
因為某一時間段的熱詞數量都是有限的,因此通過前兩步抽取出的熱詞數量很少,為了更新更多的實體,需要對熱詞進行擴展抽取。擴展抽取的方法就是從已經抽取出來的熱詞的百科頁面中的超鏈接中獲取更多的實體。這一抽取方法是基于這樣的原理:如果一個實體在某一時間段內屬于熱詞,它的屬性值有可能會被經常更新,那么和它語義相關的實體的屬性也很有可能需要被更新。而實體百科頁面中的鏈接正是表達了這樣一種語義相關的關系。
?
4.????對第3步得到的候選的待更新實體進行優先級排序,按優先級從高到底,依次對候選隊列中的實體到知識庫進行更新。
本論文所提出的知識圖譜更新框架追求一種實時性,即它對知識庫更新的頻率的要求是很高的。由于更新的頻率非常高,再加上百科網站也存在一定的反爬取策略,因此每次能更新的實體數量是有上限的,本論文假定每天所挑選出的待更新的實體數量為 K。雖然并不能保證這 K 個實體最終都會有數據被更新,但是要想辦法使得最后所挑選出的 K 個待更新實體中,有盡可能多的實體最終得到了更新,而盡可能減少挑選出那些最后不需要被更新的實體,減少無用功。因此所有待更新的實體中,只能挑出部分優先級高的進行更新。
本論文所提出的更新策略為:第1步中直接抽取出的熱詞具有最高的優先級,優先進行更新。對于后面擴展抽取出的相關實體,按照優先級由高到低依次進行更新,直至更新總數達到K或者待更新實體隊列為空為止。本文提出的優先級刻畫模型為:
其中 x 為實體,E[u(x)]是實體 x 的優先級,P(x) 是實體 x 的預測更新頻率,該值由本論文設計并訓練的回歸模型預測得出,ts (x) 是知識圖譜中 x 最后一次被更新的時間。如果實體 x 不在知識圖譜中,ts (x) 定義為負無窮。由此可以看出,如果候選實體更新隊列中的有新的實體(現有知識圖譜中沒有的實體),那么這些新的實體的更新優先級會很高。
預測 P(x) 值得回歸模型通過監督學習的方式訓練得到。本論文為每個實體設計了8 個特征,包括實體在百科中存在的時長、總計被更新次數、用戶訪問次數、實體頁面中所有超鏈接總數、實體百科頁面長度等這些可以反應實體熱度的特征。通過這些特征刻畫實體的熱度,然后通過監督學習的方式訓練生成回歸模型并用于預測實體的 P(x) 值。P(x) 值反映的是實體的被更新頻率,該值越大,代表實體的熱度越高,那么它被更新的優先級也更高。
?
實驗
本文實驗采用的數據集是 cn-dbpedia,將本文所提出的更新框架部署在 cn-dbpedia上,并將更新頻率設置為每天更新一次。更新效果如下表所示:
一次成功的更新是指檢查實體對應的百科頁面中的相關信息,如果該實體的屬性發生了改變、需要被更新,那么這次檢查是成功的。實驗結果表明,該框架在 cn-dbpedia 上更新的成功率較高,能夠有效地對知識圖譜進行動態的更新。
?
論文筆記整理:李丞,東南大學碩士,研究方向為知識圖譜構建及更新。
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
轉載須知:轉載需注明來源“OpenKG.CN”、作者及原文鏈接。如需修改標題,請注明原標題。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | How to Keep a Knowledge Base Synchronized的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2019年招聘过程的种种酸甜苦辣历程
- 下一篇: pip加速+百度镜像|清华镜像