论文浅尝 | 知识图谱的不确定性衡量
論文筆記整理:譚亦鳴,東南大學(xué)博士。
來源:Knowledge and Information Systems volume?62,?pages611–637(2020)
鏈接:https://link.springer.com/article/10.1007/s10115-019-01363-0
概要
本文的核心工作是利用知識結(jié)構(gòu)來衡量知識庫的不確定性。文章的內(nèi)容涵蓋了以下幾個部分:
1.首先隊知識庫的知識結(jié)構(gòu)進(jìn)行介紹;
2.以包含度特征為基礎(chǔ),提出知識結(jié)構(gòu)與知識庫之間的依賴以及獨(dú)立性;
3.研究給定知識庫的不確定性度量(并證明該度量方法是以知識庫的知識結(jié)構(gòu)為基礎(chǔ));
4.最后,通過實驗驗證了本文方法的有效性,并從統(tǒng)計學(xué)的離散型和相關(guān)性兩個方面做有效性分析。
動機(jī)與思路
作者用自問自答的形式對知識庫不確定進(jìn)行論述:
為何研究知識庫不確定性的度量?因為知識庫本身具有不確定性。
為何研究知識庫的知識結(jié)構(gòu)?因為知識結(jié)構(gòu)有助于從知識庫中發(fā)現(xiàn)知識。
為何使用知識結(jié)構(gòu)衡量知識庫的不確定性?因為很難對比給定知識庫的不確定性值(原文是“This is because it is hard to compare the size of measure values of uncertainty for a given knowledge base.”,這句話沒看明白,我的理解是:由于不同知識庫的實體/關(guān)系規(guī)模差異較大,直接對知識庫做不確定性衡量得到的量化結(jié)果不適合(不能夠)反映出不同知識庫之間的不確定性差異,因此要使用一個高層特征(知識結(jié)構(gòu)),來代表并對不確定性的量化衡量做一個類似歸一化的效果。),而且如果獲取到兩個知識結(jié)構(gòu)之間的依賴關(guān)系,可以利用這個關(guān)系參與比較知識庫之間的不確定性差異。
概念與定義
首先,作者使用矩陣M對于二元關(guān)系R進(jìn)行了如下描述:
我們可以將矩陣中的x理解為知識庫中的實體,R表明實體之間的關(guān)系,當(dāng)R(xi, xj) =1時,表明x1,x2之間存在關(guān)系R.
可以看到,R在矩陣中可能構(gòu)成三種關(guān)系場景(令實體集合為U,x, y∈U):
1.xRx (Re?exive)
2.xRy且yRx(Symmetric)
3.xRy,yRz,且xRz(Transitive)
當(dāng)R滿足上述三種情況時,被稱為“equivalence relation on U”,R?(U)則代表所有equivalence relation on U”的集合的族(我理解為子集的集合)
對于一個equivalence relation R,通過以下公式,可以抽取實體集U在R上對應(yīng)的類別子集:
因此,利用equivalence relation R可以對U進(jìn)行類別劃分,即:
故作者在這里提出定義:
2.1當(dāng)R是U的一個equivalence relation,那么(U, R)被視作一個Pawlak近似空間(這里需要對粗糙集的概念做一個初步了解),在此基礎(chǔ)上,X∈2U(U的所有子集的族)的近似上下界可以通過以下公式定義:
2.2 當(dāng)R∈2R*(U)時(R*(U)指U上所有的equivalence relation的集合),(U, R)可以表示一個知識庫,舉個栗子來看:
可以看到這個知識庫里有6個實體,4種關(guān)系,對應(yīng)得到了四組矩陣。
因此對應(yīng)可以得到知識庫對應(yīng)的近似空間的上下界:
知識結(jié)構(gòu)定義:
對于一個知識庫(U, R),對于r∈R,可以通過以下公式描述r的知識結(jié)構(gòu):
因此整個知識庫的知識結(jié)構(gòu)為:
對于兩個知識庫(U, P)與(U, Q),當(dāng):
則
知識結(jié)構(gòu)之間的依賴性與獨(dú)立性:
(參數(shù)在前文均已介紹過,這里不再贅述)
Inclusion degree(是一種衡量inclusion relationship質(zhì)量的標(biāo)準(zhǔn)),以下定義給出了兩個集合向量之間的Inclusion degree(3.9取值范圍及定義,3.10計算方式):
作者描述了一個計算inclusiondegree的例子:
1.首先給出兩個知識庫的知識結(jié)構(gòu):
2.計算inclusiondegree的過程為:
模型與算法
知識庫粒度檢測:
(首先給出粒度定義)
?
粒度的量化值如以下公式得到(作者在原文中對獲取過程做了證明):
并提出定理:
作者認(rèn)為,知識粒化符合粒運(yùn)算特征,并且從不同的層次重新定義了知識和信息。粒度測量值隨類別增加而遞減。缺陷在于無法區(qū)分粒度相似但結(jié)構(gòu)不同的知識庫。
知識庫的熵檢測:
(也是先給出了定義及知識熵的計算方式,可以看到這里的熵是完全基于知識結(jié)構(gòu)的(定理4.8))
并且知識結(jié)構(gòu)的關(guān)系與熵的關(guān)聯(lián)性如下(原文附帶了證明過程):
這里還給出知識結(jié)構(gòu)對應(yīng)的粗糙熵定義及計算過程:
知識庫的知識量(注意知識量是E,上面的粗糙熵是Er):
一些屬性:
實驗與結(jié)果
實驗數(shù)據(jù)
為了驗證上述測量方式對于知識庫不確定性的量化衡量能力,作者在三個UCI數(shù)據(jù)集上進(jìn)行了實驗,數(shù)據(jù)集的統(tǒng)計信息如下表:
實驗結(jié)果
首先對于三個數(shù)據(jù)集,均獲取到上一節(jié)介紹過的四種測量方式如下(以Nursery為例),|U|=12960,|A|=8,Pi=ind({ai})(i = 1,2,…,8), Pi={P1,P2,…,Pi}(i = 1,2,…,8):
圖3,4描述了這三種不同知識庫(不同不確定性)的測量結(jié)果:
從各個指標(biāo)的散度來看,知識量在衡量知識庫不確定上表現(xiàn)出了更好的性能。
?
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進(jìn)中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅持創(chuàng)作打卡瓜分現(xiàn)金大獎總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | 知识图谱的不确定性衡量的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java程序员必看经典书单,以及各个阶段
- 下一篇: 论文浅尝 - ACL2020 | 利用知