论文浅尝 | 基于表示学习的大规模知识库规则挖掘
鏈接:www.ict.griffith.edu.au/zhe/pub/OmranWW18.pdf
動機
傳統的規則挖掘算法因計算量過大等原因無法應用在大規模KG上。為了解決這個問題,本文提出了一種新的規則挖掘模型RLvLR(Rule Learning via LearningRepresentation),通過利用表示學習的embedding和一種新的子圖采樣方法來解決之前工作不能在大規模KG上scalable的問題。
亮點
文章的亮點主要包括:
(1)采樣只與對應規則相關的子圖,在保存了必要信息的前提下極大減少了算法的搜索空間和計算量;
(2)提出了argument embedding,將規則表示為predicate sequence;
概念
1.?? closed-pathrule,LHS記為body(r),RHS記為head(r)
2.???? supportdegree of r,滿足 r 的實體對個數
3. standard confidence 和 head coverage
方法
⒈ Sampling Method
以head predicate Pt為輸入,把KG看成無向圖,選擇到Pt的頭尾實體路徑長不超過len-1的實體和關系組成子圖K’=(E’,F’),后面所有的計算都基于這個子圖。
?
⒉ argument embedding
?對于謂詞P,它的subject argument定義為所有出現在subject上實體的embedding的加權平均,object argument則為尾實體上實體的embedding的加權平均,這個主要用在后面的score function上,即本文引入了共現的信息,對于路徑(P1,P2)來說,P1的object argument與P2的subject argument應該很相似,這里就應用到了下面說的基于argument embedding的score function。
⒊ co-occurrence score function
????? 這個 score function 就是基于上面的 argument embedding,以上圖這個長為 3 的 rule 為例,path p=P1,P2的embedding是P1*P2,之前通用的synonymy scoring function就是讓 p 和 Pt 的 embedding 相似,再與這個本文提出的co-occurrence scorefunction,結合起來就是最后的score function,下圖左邊的就是利用了路徑的同義信息,即 body(r) 的 predicate embedding path 的乘積應當與 head 的 predicate embedding 相似。
⒋ Rule Evaluation
根據 score function 抽出來的 rule 還要進過篩選,具體做法是先排除掉 support degree 小于 1 的 rule,再過濾掉 standard confidence<minSC 和 head coverage<minHC 的 rule。
?
實驗
??????????????????????????????????????????????????????????????????
⑴. 數據集
本文的關注點是 scalable,所以選取做比較的數據集都是大規模知識庫
⑵. 實驗結果
作者與 AMIE+ 在三個規模較大的知識庫上進行了比較,具體做法是隨機選取 20 個 target predicate 進行挖掘,其中 R 是 SC>0.1&HC>0.01 的規則,QC 是 SC>0.7 的規則,結果顯示了 RLvLR 在大規模 KG 上的效率和挖掘規則的能力。
總結??????????????????????????????????????????????????
本文提出了一種可以在大規模 KG 上可以以較小計算量進行規則挖掘的模型,減少計算量的方式包括子圖采樣,argument embedding 和 co-occurrence? score function。
?
論文筆記整理:汪寒,浙江大學碩士,研究方向為知識圖譜、自然語言處理。
?
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | 基于表示学习的大规模知识库规则挖掘的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: CNCC 技术论坛 | 知识图谱赋能数字
- 下一篇: 科普 | 知识图谱相关的名词解释