梁家卿 | 百科知识图谱同步更新
本文轉(zhuǎn)載自公眾號知識工場。
本文整理自復(fù)旦大學(xué)知識工場梁家卿博士在IJCAI 2017 會(huì)議上的論文報(bào)告,題目為《How to Keep a Knowledge Base Synchronized with Its Encyclopedia Source》,作者包括:梁家卿博士(復(fù)旦大學(xué),上海數(shù)眼科技發(fā)展有限公司),張圣碩士(復(fù)旦大學(xué)),肖仰華教授(復(fù)旦大學(xué),上海互聯(lián)網(wǎng)大數(shù)據(jù)工程技術(shù)研究中心,小i機(jī)器人)
IJCAI(International Joint Conference on Artificial Intelligence,國際人工智能聯(lián)合會(huì)議)是人工智能領(lǐng)域最頂級的學(xué)術(shù)會(huì)議之一,被中國計(jì)算機(jī)學(xué)會(huì)推薦國際學(xué)術(shù)會(huì)議列表認(rèn)定為 A 類會(huì)議。該會(huì)議聚集了人工智能領(lǐng)域最頂尖的研究者和優(yōu)秀從業(yè)者,關(guān)注研討領(lǐng)域涵蓋機(jī)器學(xué)習(xí)、計(jì)算可持續(xù)性、圖像識別、語音技術(shù)、視頻技術(shù)等,對全球人工智能行業(yè)具有巨大影響力。8月19日-8月25日,IJCAI 2017在澳大利亞墨爾本正式開啟。
梁家卿:大家下午好,我的這篇文章主要講的是如何讓百科知識庫和它對應(yīng)的百科數(shù)據(jù)源保持同步更新。
大家都知道,知識庫在很多應(yīng)用中都擔(dān)任著非常重要的角色。有些知識庫使用百科類網(wǎng)站(如:維基百科)作為數(shù)據(jù)源,像DBpedia、Freebase,CN-DBpedia等。由于百科類網(wǎng)站的質(zhì)量都很高,所以在此基礎(chǔ)上構(gòu)建的百科知識圖譜質(zhì)量也很高。
知識庫中的知識并不是一成不變的,很多事實(shí)都會(huì)發(fā)生變化。例如,美國總統(tǒng)從奧巴馬變成了特朗普;特朗普的職業(yè)從商人變成了總統(tǒng)。這樣一來,知識圖譜的更新就顯得非常重要。如果不知道特朗普是總統(tǒng),機(jī)器在閱讀最新文章時(shí),可能只會(huì)把他認(rèn)為是一個(gè)普通商人發(fā)表的政治意見。還有很多新詞,比如說iPhone8,你將永遠(yuǎn)不知道它是什么。
我們都知道,很多數(shù)據(jù)源(維基百科)一直是志愿者在更新的,那么我們只需要將知識庫與維基百科進(jìn)行同步即可。這里的關(guān)鍵問題在于,如何保持知識庫與在線百科網(wǎng)站的同步更新呢?
目前傳統(tǒng)有兩種方法來進(jìn)行知識庫與在線百科的同步,第一種方法是下載最新的網(wǎng)站Dump數(shù)據(jù),但是這個(gè)方法要求我們下載GB級的數(shù)據(jù),然后每個(gè)周期都會(huì)生成新的Dump數(shù)據(jù),不僅如此,還有許多的百科類網(wǎng)站是不會(huì)提供Dump數(shù)據(jù)的。第二個(gè)方法是爬網(wǎng)站,但是這個(gè)方法的工作量太大了,有太多的網(wǎng)頁需要爬,而且還會(huì)有很多網(wǎng)站會(huì)封鎖我們的爬蟲。
知識庫的更新固然重要,但也不是說庫中的每個(gè)實(shí)體都需要更新,因?yàn)榇蠖鄶?shù)實(shí)體都具有穩(wěn)定的性質(zhì),它的關(guān)系很少會(huì)發(fā)生變化,例如,“橙子”,這是一個(gè)基本概念;“牛頓”,這是一個(gè)不會(huì)改變的歷史人物。
我們真正需要更新的是一些會(huì)發(fā)生改變的實(shí)體,像一些非常熱門的實(shí)體就很有可能發(fā)生改變,比如特朗普。所以一個(gè)更好的策略就是先將實(shí)體區(qū)分為穩(wěn)定實(shí)體和易變實(shí)體(比如:熱門實(shí)體),然后把易變實(shí)體更新即可。現(xiàn)在有一個(gè)關(guān)鍵的問題,就是如何去估算百科網(wǎng)站中實(shí)體的更新頻率?
我們將這套策略用在了CN-DBpedia知識庫中。CN-DBpedia是一個(gè)以百度百科作為數(shù)據(jù)源構(gòu)建的中文百科知識庫。為了解決上述的這個(gè)問題,我們在CN-DBpedia上建立了一個(gè)系統(tǒng),這個(gè)系統(tǒng)每天只需要更新很少的熱門實(shí)體即可。
接下來是具體實(shí)現(xiàn)細(xì)節(jié)。我們首先將這個(gè)問題定義為一個(gè)最大化問題,選擇最需要更新的K個(gè)實(shí)體。一個(gè)實(shí)體是否需要更新就看在線百科網(wǎng)站上實(shí)體的最近更新時(shí)間是否晚于我們知識庫中的上一次同步時(shí)間。
為什么要設(shè)置K值呢?這主要是由于獲取資源的能力是有限的,并且很多網(wǎng)站也有訪問次數(shù)限制。所以我們設(shè)置了每天能訪問的實(shí)體次數(shù)上限K。
現(xiàn)在,假設(shè)我們可以預(yù)測每個(gè)實(shí)體的更新頻率,那么將如何找到這些待更新的K個(gè)實(shí)體呢?
一個(gè)基本方法是對每個(gè)數(shù)據(jù)庫中的實(shí)體都預(yù)測它的更新頻率,然后取最大的K個(gè)。但這種做法太耗時(shí)了,并且只能對已有的數(shù)據(jù)進(jìn)行更新,無法更新新詞。
一個(gè)改進(jìn)的方法是對互聯(lián)網(wǎng)上的熱詞進(jìn)行監(jiān)控。因?yàn)槲覀冋J(rèn)為,一個(gè)實(shí)體之所以變成熱詞,會(huì)有兩個(gè)原因。一個(gè)是新詞,比如即將發(fā)布的iPhone8。另一個(gè)是舊詞,但知識發(fā)生了變化,比如說特朗普變成美國總統(tǒng)了。
整體框架如下:首先監(jiān)控?zé)嵩~獲得種子實(shí)體,然后同步這些種子實(shí)體。接下來通過實(shí)體的相關(guān)實(shí)體來擴(kuò)展得到更多的待更新實(shí)體,最后根據(jù)這些待更新實(shí)體的優(yōu)先級來進(jìn)行更新。
先來看種子發(fā)現(xiàn)和種子同步。
我們發(fā)現(xiàn)一個(gè)現(xiàn)象,如果一個(gè)實(shí)體突然頻繁地出現(xiàn)在互聯(lián)網(wǎng)上,關(guān)于它的知識很可能就會(huì)發(fā)生變化。因此,我們從互聯(lián)網(wǎng)上搜集熱門新聞,熱門搜索關(guān)鍵字和熱點(diǎn)話題,通過分詞等方法,提取出其中的熱門實(shí)體,然后加以同步。
但是,每天的熱門話題數(shù)量太少,所以我們需要通過擴(kuò)展的方式得到更多的待更新實(shí)體。
我們遵循的一個(gè)原則是:與最近更新的實(shí)體相關(guān)的實(shí)體更可能更新。例如,特朗普成為總統(tǒng)后,特朗普的妻子成為第一夫人。
我們做了一個(gè)實(shí)驗(yàn)來驗(yàn)證這一原則。
優(yōu)先級設(shè)置的原則是這樣的,如果是一個(gè)新詞,那么優(yōu)先級設(shè)置為最高,如果是一個(gè)舊詞,估計(jì)其上一次更新結(jié)束到當(dāng)前時(shí)間內(nèi)可能更新的次數(shù),將這個(gè)次數(shù)作為優(yōu)先級的指標(biāo)。指標(biāo)為更新頻率乘以更新間隔。
接下來,就是要估計(jì)每個(gè)實(shí)體的更新頻率了。最開始,我們基于這樣一個(gè)基本假設(shè):實(shí)體更新頻率遵循泊松分布。但后來實(shí)驗(yàn)發(fā)現(xiàn),這個(gè)分布并不成立。
我們把這個(gè)問題看作是一個(gè)回歸問題。選擇了表中的8個(gè)特征,分別使用了線性回歸和隨機(jī)森林回歸兩種來估計(jì)更新頻率。
最后,實(shí)驗(yàn)結(jié)果表明,我們提出的隨機(jī)森林回歸模型取得了最好的效果。
我們將系統(tǒng)部署到CN-DBpedia上,設(shè)置K值為1000。結(jié)果發(fā)現(xiàn),68.7%的實(shí)體中的知識都發(fā)生了改變。
最后,我們再對本文進(jìn)行一下簡單的總結(jié)。
首先,?許多知識庫都是使用百科網(wǎng)站作為數(shù)據(jù)源,但是這些知識庫往往不能及時(shí)更新。每個(gè)都重新構(gòu)建一遍代價(jià)巨大。
第二,我們提出了一個(gè)知識庫更新系統(tǒng),包含了一組有效的更新策略。
第三,我們將這套策略部署到了中文知識庫CN-DBpedia中,提高了知識庫的時(shí)效性。
最后,這個(gè)系統(tǒng)每天更新一千個(gè)實(shí)體,統(tǒng)計(jì)發(fā)現(xiàn),其中70%的實(shí)體的知識確實(shí)發(fā)生了變化。
獲取完整PPT
關(guān)注“知識工場”微信公眾號,回復(fù)“20170819”獲取下載鏈接。
以上就是梁家卿博士在IJCAI為大家?guī)淼娜績?nèi)容。知識工場實(shí)驗(yàn)室后續(xù)將為大家?guī)砀实奈恼?#xff0c;請大家關(guān)注。
?? ? ? ? ? ??
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進(jìn)中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的梁家卿 | 百科知识图谱同步更新的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 快速的找出元素是否在list中 pyth
- 下一篇: 商汤科技2020数据分析师0820笔试题