第二章 知识图谱——机器大脑中的知识库
第二章 知識(shí)圖譜——機(jī)器大腦中的知識(shí)庫(kù)
Published by??liuzy?on?July 6, 2015作者:劉知遠(yuǎn)(清華大學(xué));整理:林穎(RPI)
版權(quán)所有,轉(zhuǎn)載請(qǐng)注明出處
知識(shí)就是力量。——[英]弗蘭西斯·培根
1 什么是知識(shí)圖譜
在互聯(lián)網(wǎng)時(shí)代,搜索引擎是人們?cè)诰€獲取信息和知識(shí)的重要工具。當(dāng)用戶(hù)輸入一個(gè)查詢(xún)?cè)~,搜索引擎會(huì)返回它認(rèn)為與這個(gè)關(guān)鍵詞最相關(guān)的網(wǎng)頁(yè)。從誕生之日起,搜索引擎就是這樣的模式,直到2012年5月,搜索引擎巨頭谷歌在它的搜索頁(yè)面中首次引入“知識(shí)圖譜”:用戶(hù)除了得到搜索網(wǎng)頁(yè)鏈接外,還將看到與查詢(xún)?cè)~有關(guān)的更加智能化的答-案。如下圖所示,當(dāng)用戶(hù)輸入“Marie Curie”(瑪麗·居里)這個(gè)查詢(xún)?cè)~,谷歌會(huì)在右側(cè)提供了居里夫人的詳細(xì)信息,如個(gè)人簡(jiǎn)介、出生地點(diǎn)、生卒年月等,甚至還包括一些與居里夫人有關(guān)的歷史人物,例如愛(ài)因斯坦、皮埃爾·居里(居里夫人的丈夫)等。
圖1-1 谷歌搜索引擎知識(shí)圖譜
谷歌知識(shí)圖譜一出激起千層浪,美國(guó)的微軟必應(yīng),中國(guó)的百度、搜狗等搜索引擎公司在短短的一年內(nèi)紛紛宣布了各自的“知識(shí)圖譜”產(chǎn)品,如百度“知心“、搜狗“知立方“等。為什么這些搜索引擎巨頭紛紛跟進(jìn)知識(shí)圖譜,在這上面一擲千金,甚至把它視為搜索引擎的未來(lái)呢?這就需要從傳統(tǒng)搜索引擎的原理講起。以百度為例,在過(guò)去當(dāng)我們想知道“泰山”的相關(guān)信息的時(shí)候,我們會(huì)在百度上搜索“泰山”,它會(huì)嘗試將這個(gè)字符串與百度抓取的大規(guī)模網(wǎng)頁(yè)做比對(duì),根據(jù)網(wǎng)頁(yè)與這個(gè)查詢(xún)?cè)~的相關(guān)程度,以及網(wǎng)頁(yè)本身的重要性,對(duì)網(wǎng)頁(yè)進(jìn)行排序,作為搜索結(jié)果返回給用戶(hù)。而用戶(hù)所需的與“泰山”相關(guān)的信息,就還要他們自己動(dòng)手,去訪問(wèn)這些網(wǎng)頁(yè)來(lái)找了。
當(dāng)然,與搜索引擎出現(xiàn)之前相比,搜索引擎由于大大縮小了用戶(hù)查找信息的范圍,隨著網(wǎng)絡(luò)信息的爆炸式增長(zhǎng),日益成為人們遨游信息海洋的不可或缺的工具。但是,傳統(tǒng)搜索引擎的工作方式表明,它只是機(jī)械地比對(duì)查詢(xún)?cè)~和網(wǎng)頁(yè)之間的匹配關(guān)系,并沒(méi)有真正理解用戶(hù)要查詢(xún)的到底是什么,遠(yuǎn)遠(yuǎn)不夠“聰明”,當(dāng)然經(jīng)常會(huì)被用戶(hù)嫌棄了。
而知識(shí)圖譜則會(huì)將“泰山”理解為一個(gè)“實(shí)體”(entity),也就是一個(gè)現(xiàn)實(shí)世界中的事物。這樣,搜索引擎會(huì)在搜索結(jié)果的右側(cè)顯示它的基本資料,例如地理位置、海拔高度、別名,以及百科鏈接等等,此外甚至還會(huì)告訴你一些相關(guān)的“實(shí)體”,如嵩山、華山、衡山和恒山等其他三山五岳等。當(dāng)然,用戶(hù)輸入的查詢(xún)?cè)~并不見(jiàn)得只對(duì)應(yīng)一個(gè)實(shí)體,例如當(dāng)在谷歌中查詢(xún)“apple”(蘋(píng)果)時(shí),谷歌不止展示IT巨頭“Apple-Corporation”(蘋(píng)果公司)的相關(guān)信息,還會(huì)在其下方列出“apple-plant”(蘋(píng)果-植物)的另外一種實(shí)體的信息。
從雜亂的網(wǎng)頁(yè)到結(jié)構(gòu)化的實(shí)體知識(shí),搜索引擎利用知識(shí)圖譜能夠?yàn)橛脩?hù)提供更具條理的信息,甚至順著知識(shí)圖譜可以探索更深入、廣泛和完整的知識(shí)體系,讓用戶(hù)發(fā)現(xiàn)他們意想不到的知識(shí)。谷歌高級(jí)副總裁艾米特·辛格博士一語(yǔ)道破知識(shí)圖譜的重要意義所在:“構(gòu)成這個(gè)世界的是實(shí)體,而非字符串(things, not strings)”。
很明顯,以谷歌為代表的搜索引擎公司希望利用知識(shí)圖譜為查詢(xún)?cè)~賦予豐富的語(yǔ)義信息,建立與現(xiàn)實(shí)世界實(shí)體的關(guān)系,從而幫助用戶(hù)更快找到所需的信息。谷歌知識(shí)圖譜不僅從 Freebase和維基百科等知識(shí)庫(kù)中獲取專(zhuān)業(yè)信息,同時(shí)還通過(guò)分析大規(guī)模網(wǎng)頁(yè)內(nèi)容抽取知識(shí)。現(xiàn)在谷歌的這幅知識(shí)圖譜已經(jīng)將5億個(gè)實(shí)體編織其中,建立了35 億個(gè)屬性和相互關(guān)系,并在不斷高速擴(kuò)充。
谷歌知識(shí)圖譜正在不斷融入其各大產(chǎn)品中服務(wù)廣大用戶(hù)。最近,谷歌在Google Play Store的Google Play Movies & TV應(yīng)用中添加了一個(gè)新的功能,當(dāng)用戶(hù)使用安卓系統(tǒng)觀看視頻時(shí),暫停播放,視頻旁邊就會(huì)自動(dòng)彈出該屏幕上人物或者配樂(lè)的信息。這些信息就是來(lái)自谷歌知識(shí)圖譜。谷歌會(huì)圈出播放器窗口所有人物的臉部,用戶(hù)可以點(diǎn)擊每一個(gè)人物的臉來(lái)查看相關(guān)信息。此前,Google Books 已經(jīng)應(yīng)用此功能。
圖1-2 Google利用知識(shí)圖譜標(biāo)示視頻中的人物和音樂(lè)信息
?
2 知識(shí)圖譜的構(gòu)建
最初知識(shí)圖譜是谷歌推出的產(chǎn)品名稱(chēng),與Facebook提出的社交圖譜(Social Graph)異曲同工。由于其表意形象,現(xiàn)在知識(shí)圖譜已經(jīng)被用來(lái)泛指各種大規(guī)模知識(shí)庫(kù)。
我們應(yīng)當(dāng)如何構(gòu)建知識(shí)圖譜呢?首先,我們先了解一下,知識(shí)圖譜的數(shù)據(jù)來(lái)源都有哪些。知識(shí)圖譜的最重要的數(shù)據(jù)來(lái)源之一是以維基百科、百度百科為代表的大規(guī)模知識(shí)庫(kù),在這些由網(wǎng)民協(xié)同編輯構(gòu)建的知識(shí)庫(kù)中,包含了大量結(jié)構(gòu)化的知識(shí),可以高效地轉(zhuǎn)化到知識(shí)圖譜中。此外,互聯(lián)網(wǎng)的海量網(wǎng)頁(yè)中也蘊(yùn)藏了海量知識(shí),雖然相對(duì)知識(shí)庫(kù)而言這些知識(shí)更顯雜亂,但通過(guò)自動(dòng)化技術(shù),也可以將其抽取出來(lái)構(gòu)建知識(shí)圖譜。接下來(lái),我們分別詳細(xì)介紹這些識(shí)圖譜數(shù)據(jù)來(lái)源。
2.1 大規(guī)模知識(shí)庫(kù)
大規(guī)模知識(shí)庫(kù)以詞條作為基本組織單位,每個(gè)詞條對(duì)應(yīng)現(xiàn)實(shí)世界的某個(gè)概念,由世界各地的編輯者義務(wù)協(xié)同編纂內(nèi)容。隨著互聯(lián)網(wǎng)的普及和Web 2.0理念深入人心,這類(lèi)協(xié)同構(gòu)建的知識(shí)庫(kù),無(wú)論是數(shù)量、質(zhì)量還是更新速度,都早已超越傳統(tǒng)由專(zhuān)家編輯的百科全書(shū),成為人們獲取知識(shí)的主要來(lái)源之一。目前,維基百科已經(jīng)收錄了超過(guò)2200萬(wàn)詞條,而僅英文版就收錄了超過(guò)400萬(wàn)條,遠(yuǎn)超過(guò)英文百科全書(shū)中最權(quán)威的大英百科全書(shū)的50萬(wàn)條,是全球?yàn)g覽人數(shù)排名第6的網(wǎng)站。值得一提的是,2012年大英百科全書(shū)宣布停止印刷版發(fā)行,全面轉(zhuǎn)向電子化。這也從一個(gè)側(cè)面說(shuō)明在線大規(guī)模知識(shí)庫(kù)的影響力。人們?cè)谥R(shí)庫(kù)中貢獻(xiàn)了大量結(jié)構(gòu)化的知識(shí)。如下圖所示,是維基百科關(guān)于“清華大學(xué)”的詞條內(nèi)容。可以看到,在右側(cè)有一個(gè)列表,標(biāo)注了與清華有關(guān)的各類(lèi)重要信息,如校訓(xùn)、創(chuàng)建時(shí)間、校慶日、學(xué)校類(lèi)型、校長(zhǎng),等等。在維基百科中,這個(gè)列表被稱(chēng)為信息框(infobox),是由編輯者們共同編輯而成。信息框中的結(jié)構(gòu)化信息是知識(shí)圖譜的直接數(shù)據(jù)來(lái)源。
除了維基百科等大規(guī)模在線百科外,各大搜索引擎公司和機(jī)構(gòu)還維護(hù)和發(fā)布了其他各類(lèi)大規(guī)模知識(shí)庫(kù),例如谷歌收購(gòu)的Freebase,包含3900萬(wàn)個(gè)實(shí)體和18億條實(shí)體關(guān)系;DBpedia是德國(guó)萊比錫大學(xué)等機(jī)構(gòu)發(fā)起的項(xiàng)目,從維基百科中抽取實(shí)體關(guān)系,包括1千萬(wàn)個(gè)實(shí)體和14億條實(shí)體關(guān)系;YAGO則是德國(guó)馬克斯·普朗克研究所發(fā)起的項(xiàng)目,也是從維基百科和WordNet等知識(shí)庫(kù)中抽取實(shí)體,到2010年該項(xiàng)目已包含1千萬(wàn)個(gè)實(shí)體和1.2億條實(shí)體關(guān)系。此外,在眾多專(zhuān)門(mén)領(lǐng)域還有領(lǐng)域?qū)<艺淼念I(lǐng)域知識(shí)庫(kù)。
圖2-1 維基百科詞條“清華大學(xué)”部分內(nèi)容
?
2.2 互聯(lián)網(wǎng)鏈接數(shù)據(jù)
國(guó)際萬(wàn)維網(wǎng)組織W3C在2007年發(fā)起了開(kāi)放互聯(lián)數(shù)據(jù)項(xiàng)目(Linked Open Data,LOD)。該項(xiàng)目旨在將由互聯(lián)文檔組成的萬(wàn)維網(wǎng)(Web of documents)擴(kuò)展成由互聯(lián)數(shù)據(jù)組成的知識(shí)空間(Web of data)。LOD以RDF(Resource Description Framework)形式在Web上發(fā)布各種開(kāi)放數(shù)據(jù)集,RDF是一種描述結(jié)構(gòu)化知識(shí)的框架,它將實(shí)體間的關(guān)系表示為 (實(shí)體1, 關(guān)系, 實(shí)體2) 的三元組。LOD還允許在不同來(lái)源的數(shù)據(jù)項(xiàng)之間設(shè)置RDF鏈接,實(shí)現(xiàn)語(yǔ)義Web知識(shí)庫(kù)。目前世界各機(jī)構(gòu)已經(jīng)基于LOD標(biāo)準(zhǔn)發(fā)布了數(shù)千個(gè)數(shù)據(jù)集,包含數(shù)千億RDF三元組。隨著LOD項(xiàng)目的推廣和發(fā)展,互聯(lián)網(wǎng)會(huì)有越來(lái)越多的信息以鏈接數(shù)據(jù)形式發(fā)布,然而各機(jī)構(gòu)發(fā)布的鏈接數(shù)據(jù)之間存在嚴(yán)重的異構(gòu)和冗余等問(wèn)題,如何實(shí)現(xiàn)多數(shù)據(jù)源的知識(shí)融合,是LOD項(xiàng)目面臨的重要問(wèn)題。
圖2-2 開(kāi)放互聯(lián)數(shù)據(jù)項(xiàng)目發(fā)布數(shù)據(jù)集示意圖
?
2.3 互聯(lián)網(wǎng)網(wǎng)頁(yè)文本數(shù)據(jù)
與整個(gè)互聯(lián)網(wǎng)相比,維基百科等知識(shí)庫(kù)仍只能算滄海一粟。因此,人們還需要從海量互聯(lián)網(wǎng)網(wǎng)頁(yè)中直接抽取知識(shí)。與上述知識(shí)庫(kù)的構(gòu)建方式不同,很多研究者致力于直接從無(wú)結(jié)構(gòu)的互聯(lián)網(wǎng)網(wǎng)頁(yè)中抽取結(jié)構(gòu)化信息,如華盛頓大學(xué)Oren Etzioni教授主導(dǎo)的“開(kāi)放信息抽取”(open information extraction,OpenIE)項(xiàng)目,以及卡耐基梅隆大學(xué)Tom Mitchell教授主導(dǎo)的“永不停止的語(yǔ)言學(xué)習(xí)”(never-ending language learning, NELL)項(xiàng)目。OpenIE項(xiàng)目所開(kāi)發(fā)的演示系統(tǒng)TextRunner已經(jīng)從1億個(gè)網(wǎng)頁(yè)中抽取出了5億條事實(shí),而NELL項(xiàng)目也抽取了超過(guò)5千萬(wàn)條事實(shí)。
顯而易見(jiàn),與從維基百科中抽取的知識(shí)庫(kù)相比,開(kāi)放信息抽取從無(wú)結(jié)構(gòu)網(wǎng)頁(yè)中抽取的信息準(zhǔn)確率還很低,其主要原因在于網(wǎng)頁(yè)形式多樣,噪音信息較多,信息可信度較低。因此,也有一些研究者嘗試限制抽取的范圍,例如只從網(wǎng)頁(yè)表格等內(nèi)容中抽取結(jié)構(gòu)信息,并利用互聯(lián)網(wǎng)的多個(gè)來(lái)源互相印證,從而大大提高抽取信息的可信度和準(zhǔn)確率。當(dāng)然這種做法也會(huì)大大降低抽取信息的覆蓋面。天下沒(méi)有免費(fèi)的午餐,在大數(shù)據(jù)時(shí)代,我們需要在規(guī)模和質(zhì)量之間尋找一個(gè)最佳的平衡點(diǎn)。
2.4 多數(shù)據(jù)源的知識(shí)融合
從以上數(shù)據(jù)來(lái)源進(jìn)行知識(shí)圖譜構(gòu)建并非孤立進(jìn)行。在商用知識(shí)圖譜構(gòu)建過(guò)程中,需要實(shí)現(xiàn)多數(shù)據(jù)源的知識(shí)融合。以谷歌最新發(fā)布的Knowledge Vault(Dong, et al. 2014)技術(shù)為例,其知識(shí)圖譜的數(shù)據(jù)來(lái)源包括了文本、DOM Trees、HTML表格、RDF語(yǔ)義數(shù)據(jù)等多個(gè)來(lái)源。多來(lái)源數(shù)據(jù)的融合,能夠更有效地判定抽取知識(shí)的可信性。
知識(shí)融合主要包括實(shí)體融合、關(guān)系融合和實(shí)例融合。對(duì)于實(shí)體,人名、地名、機(jī)構(gòu)名往往有多個(gè)名稱(chēng)。例如“中國(guó)移動(dòng)通信集團(tuán)公司”有“中國(guó)移動(dòng)”、“中移動(dòng)”、“移動(dòng)通信”等名稱(chēng)。我們需要將這些不同名稱(chēng)規(guī)約到同一個(gè)實(shí)體下。同一個(gè)實(shí)體在不同語(yǔ)言、不同國(guó)家和地區(qū)往往會(huì)有不同命名,例如著名足球明星Beckham在大陸漢語(yǔ)中稱(chēng)作“貝克漢姆”,在香港譯作“碧咸”,而在臺(tái)灣則被稱(chēng)為“貝克漢”。與此對(duì)應(yīng)的,同一個(gè)名字在不同語(yǔ)境下可能會(huì)對(duì)應(yīng)不同實(shí)體,這是典型的一詞多義問(wèn)題,例如“蘋(píng)果”有時(shí)是指一種水果,有時(shí)則指的是一家著名IT公司。在這樣復(fù)雜的多對(duì)多對(duì)應(yīng)關(guān)系中,如何實(shí)現(xiàn)實(shí)體融合是非常復(fù)雜而重要的課題。如前面開(kāi)放信息抽取所述,同一種關(guān)系可能會(huì)有不同的命名,這種現(xiàn)象在不同數(shù)據(jù)源中抽取出的關(guān)系中尤其顯著。與實(shí)體融合類(lèi)似,關(guān)系融合對(duì)于知識(shí)融合至關(guān)重要。在實(shí)現(xiàn)了實(shí)體和關(guān)系融合之后,我們就可以實(shí)現(xiàn)三元組實(shí)例的融合。不同數(shù)據(jù)源會(huì)抽取出相同的三元組,并給出不同的評(píng)分。根據(jù)這些評(píng)分,以及不同數(shù)據(jù)源的可信度,我們就可以實(shí)現(xiàn)三元組實(shí)例的融合與抽取。
知識(shí)融合既有重要的研究挑戰(zhàn),又需要豐富的工程經(jīng)驗(yàn)。知識(shí)融合是實(shí)現(xiàn)大規(guī)模知識(shí)圖譜的必由之路。知識(shí)融合的好壞,往往決定了知識(shí)圖譜項(xiàng)目的成功與否,值得任何有志于大規(guī)模知識(shí)圖譜構(gòu)建與應(yīng)用的人士高度重視。
?
3 知識(shí)圖譜的典型應(yīng)用
知識(shí)圖譜將搜索引擎從字符串匹配推進(jìn)到實(shí)體層面,可以極大地改進(jìn)搜索效率和效果,為下一代搜索引擎的形態(tài)提供了巨大的想象空間。知識(shí)圖譜的應(yīng)用前景遠(yuǎn)不止于此,目前知識(shí)圖譜已經(jīng)被廣泛應(yīng)用于以下幾個(gè)任務(wù)中。
3.1 查詢(xún)理解(Query Understanding)
谷歌等搜索引擎巨頭之所以致力于構(gòu)建大規(guī)模知識(shí)圖譜,其重要目標(biāo)之一就是能夠更好地理解用戶(hù)輸入的查詢(xún)?cè)~。用戶(hù)查詢(xún)?cè)~是典型的短文本(short text),一個(gè)查詢(xún)?cè)~往往僅由幾個(gè)關(guān)鍵詞構(gòu)成。傳統(tǒng)的關(guān)鍵詞匹配技術(shù)沒(méi)有理解查詢(xún)?cè)~背后的語(yǔ)義信息,查詢(xún)效果可能會(huì)很差。
例如,對(duì)于查詢(xún)?cè)~“李娜 大滿(mǎn)貫”,如果僅用關(guān)鍵詞匹配的方式,搜索引擎根本不懂用戶(hù)到底希望尋找哪個(gè)“李娜”,而只會(huì)機(jī)械地返回所有含有“李娜”這個(gè)關(guān)鍵詞的網(wǎng)頁(yè)。但通過(guò)利用知識(shí)圖譜識(shí)別查詢(xún)?cè)~中的實(shí)體及其屬性,搜索引擎將能夠更好地理解用戶(hù)搜索意圖。現(xiàn)在,我們到谷歌中查詢(xún)“李娜 大滿(mǎn)貫”,會(huì)發(fā)現(xiàn),首先谷歌會(huì)利用知識(shí)圖譜在頁(yè)面右側(cè)呈現(xiàn)中國(guó)網(wǎng)球運(yùn)動(dòng)員李娜的基本信息,我們可以知道這個(gè)李娜是指的中國(guó)網(wǎng)球女運(yùn)動(dòng)員。同時(shí),谷歌不僅像傳統(tǒng)搜索引擎那樣返回匹配的網(wǎng)頁(yè),更會(huì)直接在頁(yè)面最頂端返回李娜贏得大滿(mǎn)貫的次數(shù)“2”。
圖3-1 谷歌中對(duì)“李娜 大滿(mǎn)貫”的查詢(xún)結(jié)果
主流商用搜索引擎基本都支持這種直接返回查詢(xún)結(jié)果而非網(wǎng)頁(yè)的功能,這背后都離不開(kāi)大規(guī)模知識(shí)圖譜的支持。以百度為例,下圖是百度中對(duì)“珠穆朗瑪峰高度”的查詢(xún)結(jié)果,百度直接告訴用戶(hù)珠穆朗瑪峰的高度是8844.43米。
圖3-2 百度中對(duì)“珠穆朗瑪峰高度”的查詢(xún)結(jié)果
基于知識(shí)圖譜,搜索引擎還能獲得簡(jiǎn)單的推理能力。例如,下圖是百度中對(duì)“梁?jiǎn)⒊膬鹤拥钠拮印钡牟樵?xún)結(jié)果,百度能夠利用知識(shí)圖譜知道梁?jiǎn)⒊膬鹤邮橇核汲?#xff0c;梁思成的妻子是林徽因等人。
圖3-3 百度中對(duì)“梁?jiǎn)⒊膬鹤拥钠拮印钡牟樵?xún)結(jié)果
采用知識(shí)圖譜理解查詢(xún)意圖,不僅可以返回更符合用戶(hù)需求的查詢(xún)結(jié)果,還能更好地匹配商業(yè)廣告信息,提高廣告點(diǎn)擊率,增加搜索引擎受益。因此,知識(shí)圖譜對(duì)搜索引擎公司而言,是一舉多得的重要資源和技術(shù)。
3.2 自動(dòng)問(wèn)答(Question Answering)
人們一直在探索比關(guān)鍵詞查詢(xún)更高效的互聯(lián)網(wǎng)搜索方式。很多學(xué)者預(yù)測(cè),下一代搜索引擎將能夠直接回答人們提出的問(wèn)題,這種形式被稱(chēng)為自動(dòng)問(wèn)答。例如著名計(jì)算機(jī)學(xué)者、美國(guó)華盛頓大學(xué)計(jì)算機(jī)科學(xué)與工程系教授、圖靈中心主任Oren Etzioni于2011年就在Nature雜志上發(fā)表文章“搜索需要一場(chǎng)變革“(Search Needs a Shake-Up)。該文指出,一個(gè)可以理解用戶(hù)問(wèn)題,從網(wǎng)絡(luò)信息中抽取事實(shí),并最終選出一個(gè)合適答-案的搜索引擎,才能將我們帶到信息獲取的制高點(diǎn)。如上節(jié)所述,目前搜索引擎已經(jīng)支持對(duì)很多查詢(xún)直接返回精確答-案而非海量網(wǎng)頁(yè)而已。
關(guān)于自動(dòng)問(wèn)答,我們將有專(zhuān)門(mén)的章節(jié)介紹。這里,我們需要著重指出的是,知識(shí)圖譜的重要應(yīng)用之一就是作為自動(dòng)問(wèn)答的知識(shí)庫(kù)。在搜狗推出中文知識(shí)圖譜服務(wù)”知立方“的時(shí)候,曾經(jīng)以回答”梁?jiǎn)⒊膬鹤拥奶那槿说母赣H是誰(shuí)?“這種近似腦筋急轉(zhuǎn)彎似的問(wèn)題作為案例,來(lái)展示其知識(shí)圖譜的強(qiáng)大推理能力。雖然大部分用戶(hù)不會(huì)這樣拐彎抹角的提問(wèn),但人們會(huì)經(jīng)常需要尋找諸如”劉德華的妻子是誰(shuí)?“、”侏羅紀(jì)公園的主演是誰(shuí)?“、“姚明的身高?”以及”北京有幾個(gè)區(qū)?“等問(wèn)題的答-案。而這些問(wèn)題都需要利用知識(shí)圖譜中實(shí)體的復(fù)雜關(guān)系推理得到。無(wú)論是理解用戶(hù)查詢(xún)意圖,還是探索新的搜索形式,都毫無(wú)例外需要進(jìn)行語(yǔ)義理解和知識(shí)推理,而這都需要大規(guī)模、結(jié)構(gòu)化的知識(shí)圖譜的有力支持,因此知識(shí)圖譜成為各大互聯(lián)網(wǎng)公司的必爭(zhēng)之地。
最近,微軟聯(lián)合創(chuàng)始人Paul Allen投資創(chuàng)建了艾倫人工智能研究院(Allen Institute for Artificial Intelligence),致力于建立具有學(xué)習(xí)、推理和閱讀能力的智能系統(tǒng)。2013年底,Paul Allen任命Oren Etzioni教授擔(dān)任艾倫人工智能研究院的執(zhí)行主任,該任命所釋放的信號(hào)頗值得我們思考。
3.3 文檔表示(Document Representation)
經(jīng)典的文檔表示方案是空間向量模型(Vector Space Model),該模型將文檔表示為詞匯的向量,而且采用了詞袋(Bag-of-Words,BOW)假設(shè),不考慮文檔中詞匯的順序信息。這種文檔表示方案與上述的基于關(guān)鍵詞匹配的搜索方案相匹配,由于其表示簡(jiǎn)單,效率較高,是目前主流搜索引擎所采用的技術(shù)。文檔表示是自然語(yǔ)言處理很多任務(wù)的基礎(chǔ),如文檔分類(lèi)、文檔摘要、關(guān)鍵詞抽取,等等。
經(jīng)典文檔表示方案已經(jīng)在實(shí)際應(yīng)用中暴露出很多固有的嚴(yán)重缺陷,例如無(wú)法考慮詞匯之間的復(fù)雜語(yǔ)義關(guān)系,無(wú)法處理對(duì)短文本(如查詢(xún)?cè)~)的稀疏問(wèn)題。人們一直在嘗試解決這些問(wèn)題,而知識(shí)圖譜的出現(xiàn)和發(fā)展,為文檔表示帶來(lái)新的希望,那就是基于知識(shí)的文檔表示方案。一篇文章不再只是由一組代表詞匯的字符串來(lái)表示,而是由文章中的實(shí)體及其復(fù)雜語(yǔ)義關(guān)系來(lái)表示(Schuhmacher, et al. 2014)。該文檔表示方案實(shí)現(xiàn)了對(duì)文檔的深度語(yǔ)義表示,為文檔深度理解打下基礎(chǔ)。一種最簡(jiǎn)單的基于知識(shí)圖譜的文檔表示方案,可以將文檔表示為知識(shí)圖譜的一個(gè)子圖(sub-graph),即用該文檔中出現(xiàn)或涉及的實(shí)體及其關(guān)系所構(gòu)成的圖表示該文檔。這種知識(shí)圖譜的子圖比詞匯向量擁有更豐富的表示空間,也為文檔分類(lèi)、文檔摘要和關(guān)鍵詞抽取等應(yīng)用提供了更豐富的可供計(jì)算和比較的信息。
知識(shí)圖譜為計(jì)算機(jī)智能信息處理提供了巨大的知識(shí)儲(chǔ)備和支持,將讓現(xiàn)在的技術(shù)從基于字符串匹配的層次提升至知識(shí)理解層次。以上介紹的幾個(gè)應(yīng)用可以說(shuō)只能窺豹一斑。知識(shí)圖譜的構(gòu)建與應(yīng)用是一個(gè)龐大的系統(tǒng)工程,其所蘊(yùn)藏的潛力和可能的應(yīng)用,將伴隨著相關(guān)技術(shù)的日漸成熟而不斷涌現(xiàn)。
?
4 知識(shí)圖譜的主要技術(shù)
大規(guī)模知識(shí)圖譜的構(gòu)建與應(yīng)用需要多種智能信息處理技術(shù)的支持,以下簡(jiǎn)單介紹其中若干主要技術(shù)。
4.1 實(shí)體鏈指(Entity Linking)
互聯(lián)網(wǎng)網(wǎng)頁(yè),如新聞、博客等內(nèi)容里涉及大量實(shí)體。大部分網(wǎng)頁(yè)本身并沒(méi)有關(guān)于這些實(shí)體的相關(guān)說(shuō)明和背景介紹。為了幫助人們更好地了解網(wǎng)頁(yè)內(nèi)容,很多網(wǎng)站或作者會(huì)把網(wǎng)頁(yè)中出現(xiàn)的實(shí)體鏈接到相應(yīng)的知識(shí)庫(kù)詞條上,為讀者提供更詳盡的背景材料。這種做法實(shí)際上將互聯(lián)網(wǎng)網(wǎng)頁(yè)與實(shí)體之間建立了鏈接關(guān)系,因此被稱(chēng)為實(shí)體鏈指。
手工建立實(shí)體鏈接關(guān)系非常費(fèi)力,因此如何讓計(jì)算機(jī)自動(dòng)實(shí)現(xiàn)實(shí)體鏈指,成為知識(shí)圖譜得到大規(guī)模應(yīng)用的重要技術(shù)前提。例如,谷歌等在搜索引擎結(jié)果頁(yè)面呈現(xiàn)知識(shí)圖譜時(shí),需要該技術(shù)自動(dòng)識(shí)別用戶(hù)輸入查詢(xún)?cè)~中的實(shí)體并鏈接到知識(shí)圖譜的相應(yīng)節(jié)點(diǎn)上。
實(shí)體鏈指的主要任務(wù)有兩個(gè),實(shí)體識(shí)別(Entity Recognition)與實(shí)體消歧(Entity Disambiguation),都是自然語(yǔ)言處理領(lǐng)域的經(jīng)典問(wèn)題。
實(shí)體識(shí)別旨在從文本中發(fā)現(xiàn)命名實(shí)體,最典型的包括人名、地名、機(jī)構(gòu)名等三類(lèi)實(shí)體。近年來(lái),人們開(kāi)始嘗試識(shí)別更豐富的實(shí)體類(lèi)型,如電影名、產(chǎn)品名,等等。此外,由于知識(shí)圖譜不僅涉及實(shí)體,還有大量概念(concept),因此也有研究者提出對(duì)這些概念進(jìn)行識(shí)別。
不同環(huán)境下的同一個(gè)實(shí)體名稱(chēng)可能會(huì)對(duì)應(yīng)不同實(shí)體,例如“蘋(píng)果”可能指某種水果,某個(gè)著名IT公司,也可能是一部電影。這種一詞多義或者歧義問(wèn)題普遍存在于自然語(yǔ)言中。將文檔中出現(xiàn)的名字鏈接到特定實(shí)體上,就是一個(gè)消歧的過(guò)程。消歧的基本思想是充分利用名字出現(xiàn)的上下文,分析不同實(shí)體可能出現(xiàn)在該處的概率。例如某個(gè)文檔如果出現(xiàn)了iphone,那么”蘋(píng)果“就有更高的概率指向知識(shí)圖譜中的叫”蘋(píng)果“的IT公司。
實(shí)體鏈指并不局限于文本與實(shí)體之間,如下圖所示,還可以包括圖像、社交媒體等數(shù)據(jù)與實(shí)體之間的關(guān)聯(lián)。可以看到,實(shí)體鏈指是知識(shí)圖譜構(gòu)建與應(yīng)用的基礎(chǔ)核心技術(shù)。
圖4-1 實(shí)體鏈指實(shí)現(xiàn)實(shí)體與文本、圖像、社交媒體等數(shù)據(jù)的關(guān)聯(lián)
?
4.2 關(guān)系抽取(Relation Extraction)
構(gòu)建知識(shí)圖譜的重要來(lái)源之一是從互聯(lián)網(wǎng)網(wǎng)頁(yè)文本中抽取實(shí)體關(guān)系。關(guān)系抽取是一種典型的信息抽取任務(wù)。
典型的開(kāi)放信息抽取方法采用自舉(bootstrapping)的思想,按照“模板生成實(shí)例抽取”的流程不斷迭代直至收斂。例如,最初可以通過(guò)“X是Y的首都”模板抽取出(中國(guó),首都,北京)、(美國(guó),首都,華盛頓)等三元組實(shí)例;然后根據(jù)這些三元組中的實(shí)體對(duì)“中國(guó)-北京”和“美國(guó)-華盛頓”可以發(fā)現(xiàn)更多的匹配模板,如“Y的首都是X”、“X是Y的政治中心”等等;進(jìn)而用新發(fā)現(xiàn)的模板抽取更多新的三元組實(shí)例,通過(guò)反復(fù)迭代不斷抽取新的實(shí)例與模板。這種方法直觀有效,但也面臨很多挑戰(zhàn)性問(wèn)題,如在擴(kuò)展過(guò)程中很容易引入噪音實(shí)例與模板,出現(xiàn)語(yǔ)義漂移現(xiàn)象,降低抽取準(zhǔn)確率。研究者針對(duì)這一問(wèn)題提出了很多解決方案:提出同時(shí)擴(kuò)展多個(gè)互斥類(lèi)別的知識(shí),例如同時(shí)擴(kuò)展人物、地點(diǎn)和機(jī)構(gòu),要求一個(gè)實(shí)體只能屬于一個(gè)類(lèi)別;也有研究提出引入負(fù)實(shí)例來(lái)限制語(yǔ)義漂移。
我們還可以通過(guò)識(shí)別表達(dá)語(yǔ)義關(guān)系的短語(yǔ)來(lái)抽取實(shí)體間關(guān)系。例如,我們通過(guò)句法分析,可以從文本中發(fā)現(xiàn)“華為”與“深圳”的如下關(guān)系:(華為,總部位于,深圳)、(華為,總部設(shè)置于,深圳)、以及(華為,將其總部建于,深圳)。通過(guò)這種方法抽取出的實(shí)體間關(guān)系非常豐富而自由,一般是一個(gè)以動(dòng)詞為核心的短語(yǔ)。該方法的優(yōu)點(diǎn)是,我們無(wú)需預(yù)先人工定義關(guān)系的種類(lèi),但這種自由度帶來(lái)的代價(jià)是,關(guān)系語(yǔ)義沒(méi)有歸一化,同一種關(guān)系可能會(huì)有多種不同的表示。例如,上述發(fā)現(xiàn)的“總部位于”、“總部設(shè)置于”以及“將其總部建于”等三個(gè)關(guān)系實(shí)際上是同一種關(guān)系。如何對(duì)這些自動(dòng)發(fā)現(xiàn)的關(guān)系進(jìn)行聚類(lèi)規(guī)約是一個(gè)挑戰(zhàn)性問(wèn)題。
我們還可以將所有關(guān)系看做分類(lèi)標(biāo)簽,把關(guān)系抽取轉(zhuǎn)換為對(duì)實(shí)體對(duì)的關(guān)系分類(lèi)問(wèn)題。這種關(guān)系抽取方案的主要挑戰(zhàn)在于缺乏標(biāo)注語(yǔ)料。2009年斯坦福大學(xué)研究者提出遠(yuǎn)程監(jiān)督(Distant Supervision)思想,使用知識(shí)圖譜中已有的三元組實(shí)例啟發(fā)式地標(biāo)注訓(xùn)練語(yǔ)料。遠(yuǎn)程監(jiān)督思想的假設(shè)是,每個(gè)同時(shí)包含兩個(gè)實(shí)體的句子,都表述了這兩個(gè)實(shí)體在知識(shí)庫(kù)中的對(duì)應(yīng)關(guān)系。例如,根據(jù)知識(shí)圖譜中的三元組實(shí)例(蘋(píng)果,創(chuàng)始人,喬布斯)和(蘋(píng)果,CEO,庫(kù)克),我們可以將以下四個(gè)包含對(duì)應(yīng)實(shí)體對(duì)的句子分別標(biāo)注為包含“創(chuàng)始人”和“CEO”關(guān)系:
| 蘋(píng)果-喬布斯 | 蘋(píng)果公司的創(chuàng)始人是喬布斯。 | 創(chuàng)始人 |
| 蘋(píng)果-喬布斯 | 喬布斯創(chuàng)立了蘋(píng)果公司。 | 創(chuàng)始人 |
| 蘋(píng)果-庫(kù)克 | 蘋(píng)果公司的CEO是庫(kù)克。 | CEO |
| 蘋(píng)果-庫(kù)克 | 庫(kù)克現(xiàn)在是蘋(píng)果公司的CEO。 | CEO |
我們將知識(shí)圖譜三元組中每個(gè)實(shí)體對(duì)看做待分類(lèi)樣例,將知識(shí)圖譜中實(shí)體對(duì)關(guān)系看做分類(lèi)標(biāo)簽。通過(guò)從出現(xiàn)該實(shí)體對(duì)的所有句子中抽取特征,我們可以利用機(jī)器學(xué)習(xí)分類(lèi)模型(如最大熵分類(lèi)器、SVM等)構(gòu)建信息抽取系統(tǒng)。對(duì)于任何新的實(shí)體對(duì),根據(jù)所出現(xiàn)該實(shí)體對(duì)的句子中抽取的特征,我們就可以利用該信息抽取系統(tǒng)自動(dòng)判斷其關(guān)系。遠(yuǎn)程監(jiān)督能夠根據(jù)知識(shí)圖譜自動(dòng)構(gòu)建大規(guī)模標(biāo)注語(yǔ)料庫(kù),因此取得了矚目的信息抽取效果。
與自舉思想面臨的挑戰(zhàn)類(lèi)似,遠(yuǎn)程監(jiān)督方法會(huì)引入大量噪音訓(xùn)練樣例,嚴(yán)重?fù)p害模型準(zhǔn)確率。例如,對(duì)于(蘋(píng)果,創(chuàng)始人,喬布斯)我們可以從文本中匹配以下四個(gè)句子:
| 蘋(píng)果公司的創(chuàng)始人是喬布斯。 | 創(chuàng)始人 | 正確 |
| 喬布斯創(chuàng)立了蘋(píng)果公司。 | 創(chuàng)始人 | 正確 |
| 喬布斯回到了蘋(píng)果公司。 | 創(chuàng)始人 | 錯(cuò)誤 |
| 喬布斯曾擔(dān)任蘋(píng)果的CEO。 | 創(chuàng)始人 | 錯(cuò)誤 |
在這四個(gè)句子中,前兩個(gè)句子的確表明蘋(píng)果與喬布斯之間的創(chuàng)始人關(guān)系;但是,后兩個(gè)句子則并沒(méi)有表達(dá)這樣的關(guān)系。很明顯,由于遠(yuǎn)程監(jiān)督只能機(jī)械地匹配出現(xiàn)實(shí)體對(duì)的句子,因此會(huì)大量引入錯(cuò)誤訓(xùn)練樣例。為了解決這個(gè)問(wèn)題,人們提出很多去除噪音實(shí)例的辦法,來(lái)提升遠(yuǎn)程監(jiān)督性能。例如,研究發(fā)現(xiàn),一個(gè)正確訓(xùn)練實(shí)例往往位于語(yǔ)義一致的區(qū)域,也就是其周邊的實(shí)例應(yīng)當(dāng)擁有相同的關(guān)系;也有研究提出利用因子圖、矩陣分解等方法,建立數(shù)據(jù)內(nèi)部的關(guān)聯(lián)關(guān)系,有效實(shí)現(xiàn)降低噪音的目標(biāo)。
關(guān)系抽取是知識(shí)圖譜構(gòu)建的核心技術(shù),它決定了知識(shí)圖譜中知識(shí)的規(guī)模和質(zhì)量。關(guān)系抽取是知識(shí)圖譜研究的熱點(diǎn)問(wèn)題,還有很多挑戰(zhàn)性問(wèn)題需要解決,包括提升從高噪音的互聯(lián)網(wǎng)數(shù)據(jù)中抽取關(guān)系的魯棒性,擴(kuò)大抽取關(guān)系的類(lèi)型與抽取知識(shí)的覆蓋面,等等。
4.3 知識(shí)推理(Knowledge Reasoning)
推理能力是人類(lèi)智能的重要特征,能夠從已有知識(shí)中發(fā)現(xiàn)隱含知識(shí)。推理往往需要相關(guān)規(guī)則的支持,例如從“配偶”+“男性”推理出“丈夫”,從“妻子的父親”推理出“岳父”,從出生日期和當(dāng)前時(shí)間推理出年齡,等等。
這些規(guī)則可以通過(guò)人們手動(dòng)總結(jié)構(gòu)建,但往往費(fèi)時(shí)費(fèi)力,人們也很難窮舉復(fù)雜關(guān)系圖譜中的所有推理規(guī)則。因此,很多人研究如何自動(dòng)挖掘相關(guān)推理規(guī)則或模式。目前主要依賴(lài)關(guān)系之間的同現(xiàn)情況,利用關(guān)聯(lián)挖掘技術(shù)來(lái)自動(dòng)發(fā)現(xiàn)推理規(guī)則。
實(shí)體關(guān)系之間存在豐富的同現(xiàn)信息。如下圖,在康熙、雍正和乾隆三個(gè)人物之間,我們有(康熙,父親,雍正)、(雍正,父親,乾隆)以及(康熙,祖父,乾隆)三個(gè)實(shí)例。根據(jù)大量類(lèi)似的實(shí)體X、Y、Z間出現(xiàn)的(X,父親,Y)、(Y,父親,Z)以及(X,祖父,Z)實(shí)例,我們可以統(tǒng)計(jì)出“父親+父親=>祖父”的推理規(guī)則。類(lèi)似的,我們還可以根據(jù)大量(X,首都,Y)和(X,位于,Y)實(shí)例統(tǒng)計(jì)出“首都=>位于”的推理規(guī)則,根據(jù)大量(X,總統(tǒng),美國(guó))和(X,是,美國(guó)人)統(tǒng)計(jì)出“美國(guó)總統(tǒng)=>是美國(guó)人”的推理規(guī)則。
圖4-2 知識(shí)推理舉例
知識(shí)推理可以用于發(fā)現(xiàn)實(shí)體間新的關(guān)系。例如,根據(jù)“父親+父親=>祖父”的推理規(guī)則,如果兩實(shí)體間存在“父親+父親”的關(guān)系路徑,我們就可以推理它們之間存在“祖父”的關(guān)系。利用推理規(guī)則實(shí)現(xiàn)關(guān)系抽取的經(jīng)典方法是Path Ranking Algorithm?(Lao & Cohen 2010),該方法將每種不同的關(guān)系路徑作為一維特征,通過(guò)在知識(shí)圖譜中統(tǒng)計(jì)大量的關(guān)系路徑構(gòu)建關(guān)系分類(lèi)的特征向量,建立關(guān)系分類(lèi)器進(jìn)行關(guān)系抽取,取得不錯(cuò)的抽取效果,成為近年來(lái)的關(guān)系抽取的代表方法之一。但這種基于關(guān)系的同現(xiàn)統(tǒng)計(jì)的方法,面臨嚴(yán)重的數(shù)據(jù)稀疏問(wèn)題。
在知識(shí)推理方面還有很多的探索工作,例如采用謂詞邏輯(Predicate Logic)等形式化方法和馬爾科夫邏輯網(wǎng)絡(luò)(Markov Logic Network)等建模工具進(jìn)行知識(shí)推理研究。目前來(lái)看,這方面研究仍處于百家爭(zhēng)鳴階段,大家在推理表示等諸多方面仍為達(dá)成共識(shí),未來(lái)路徑有待進(jìn)一步探索。
4.4 知識(shí)表示(Knowledge Representation)
在計(jì)算機(jī)中如何對(duì)知識(shí)圖譜進(jìn)行表示與存儲(chǔ),是知識(shí)圖譜構(gòu)建與應(yīng)用的重要課題。
如“知識(shí)圖譜”字面所表示的含義,人們往往將知識(shí)圖譜作為復(fù)雜網(wǎng)絡(luò)進(jìn)行存儲(chǔ),這個(gè)網(wǎng)絡(luò)的每個(gè)節(jié)點(diǎn)帶有實(shí)體標(biāo)簽,而每條邊帶有關(guān)系標(biāo)簽。基于這種網(wǎng)絡(luò)的表示方案,知識(shí)圖譜的相關(guān)應(yīng)用任務(wù)往往需要借助于圖算法來(lái)完成。例如,當(dāng)我們嘗試計(jì)算兩實(shí)體之間的語(yǔ)義相關(guān)度時(shí),我們可以通過(guò)它們?cè)诰W(wǎng)絡(luò)中的最短路徑長(zhǎng)度來(lái)衡量,兩個(gè)實(shí)體距離越近,則越相關(guān)。而面向“梁?jiǎn)⒊膬鹤拥钠拮印边@樣的推理查詢(xún)問(wèn)題時(shí),則可以從“梁?jiǎn)⒊惫?jié)點(diǎn)出發(fā),通過(guò)尋找特定的關(guān)系路徑“梁?jiǎn)⒊?>兒子->妻子->?”,來(lái)找到答-案。
然而,這種基于網(wǎng)絡(luò)的表示方法面臨很多困難。首先,該表示方法面臨嚴(yán)重的數(shù)據(jù)稀疏問(wèn)題,對(duì)于那些對(duì)外連接較少的實(shí)體,一些圖方法可能束手無(wú)策或效果不佳。此外,圖算法往往計(jì)算復(fù)雜度較高,無(wú)法適應(yīng)大規(guī)模知識(shí)圖譜的應(yīng)用需求。
最近,伴隨著深度學(xué)習(xí)和表示學(xué)習(xí)的革命性發(fā)展,研究者也開(kāi)始探索面向知識(shí)圖譜的表示學(xué)習(xí)方案。其基本思想是,將知識(shí)圖譜中的實(shí)體和關(guān)系的語(yǔ)義信息用低維向量表示,這種分布式表示(Distributed Representation)方案能夠極大地幫助基于網(wǎng)絡(luò)的表示方案。其中,最簡(jiǎn)單有效的模型是最近提出的TransE(Bordes, et al. 2013)。TransE基于實(shí)體和關(guān)系的分布式向量表示,將每個(gè)三元組實(shí)例(head,relation,tail)中的關(guān)系relation看做從實(shí)體head到實(shí)體tail的翻譯,通過(guò)不斷調(diào)整h、r和t(head、relation和tail的向量),使(h + r) 盡可能與 t 相等,即 h + r = t。該優(yōu)化目標(biāo)如下圖所示。
圖4-3 基于分布式表示的知識(shí)表示方案
通過(guò)TransE等模型學(xué)習(xí)得到的實(shí)體和關(guān)系向量,能夠很大程度上緩解基于網(wǎng)絡(luò)表示方案的稀疏性問(wèn)題,應(yīng)用于很多重要任務(wù)中。
首先,利用分布式向量,我們可以通過(guò)歐氏距離或余弦距離等方式,很容易地計(jì)算實(shí)體間、關(guān)系間的語(yǔ)義相關(guān)度。這將極大的改進(jìn)開(kāi)放信息抽取中實(shí)體融合和關(guān)系融合的性能。通過(guò)尋找給定實(shí)體的相似實(shí)體,還可用于查詢(xún)擴(kuò)展和查詢(xún)理解等應(yīng)用。
其次,知識(shí)表示向量可以用于關(guān)系抽取。以TransE為例,由于我們的優(yōu)化目標(biāo)是讓 h + r = t,因此,當(dāng)給定兩個(gè)實(shí)體 h 和 t 的時(shí)候,我們可以通過(guò)尋找與 t - h 最相似的 r,來(lái)尋找兩實(shí)體間的關(guān)系。(Bordes, et al. 2013)中的實(shí)驗(yàn)證明,該方法的抽取性能較高。而且我們可以發(fā)現(xiàn),該方法僅需要知識(shí)圖譜作為訓(xùn)練數(shù)據(jù),不需要外部的文本數(shù)據(jù),因此這又稱(chēng)為知識(shí)圖譜補(bǔ)全(Knowledge Graph Completion),與復(fù)雜網(wǎng)絡(luò)中的鏈接預(yù)測(cè)(Link Prediction)類(lèi)似,但是要復(fù)雜得多,因?yàn)樵谥R(shí)圖譜中每個(gè)節(jié)點(diǎn)和連邊上都有標(biāo)簽(標(biāo)記實(shí)體名和關(guān)系名)。
最后,知識(shí)表示向量還可以用于發(fā)現(xiàn)關(guān)系間的推理規(guī)則。例如,對(duì)于大量X、Y、Z間出現(xiàn)的(X,父親,Y)、(Y,父親,Z)以及(X,祖父,Z)實(shí)例,我們?cè)赥ransE中會(huì)學(xué)習(xí)X+父親=Y,Y+父親=Z,以及X+祖父=Z等目標(biāo)。根據(jù)前兩個(gè)等式,我們很容易得到X+父親+父親=Z,與第三個(gè)公式相比,就能夠得到“父親+父親=>祖父”的推理規(guī)則。前面我們介紹過(guò),基于關(guān)系的同現(xiàn)統(tǒng)計(jì)學(xué)習(xí)推理規(guī)則的思想,存在嚴(yán)重的數(shù)據(jù)稀疏問(wèn)題。如果利用關(guān)系向量表示提供輔助,可以顯著緩解稀疏問(wèn)題。
?
5 前景與挑戰(zhàn)
如果未來(lái)的智能機(jī)器擁有一個(gè)大腦,知識(shí)圖譜就是這個(gè)大腦中的知識(shí)庫(kù),對(duì)于大數(shù)據(jù)智能具有重要意義,將對(duì)自然語(yǔ)言處理、信息檢索和人工智能等領(lǐng)域產(chǎn)生深遠(yuǎn)影響。
現(xiàn)在以商業(yè)搜索引擎公司為首的互聯(lián)網(wǎng)巨頭已經(jīng)意識(shí)到知識(shí)圖譜的戰(zhàn)略意義,紛紛投入重兵布局知識(shí)圖譜,并對(duì)搜索引擎形態(tài)日益產(chǎn)生重要的影響。同時(shí),我們也強(qiáng)烈地感受到,知識(shí)圖譜還處于發(fā)展初期,大多數(shù)商業(yè)知識(shí)圖譜的應(yīng)用場(chǎng)景非常有限,例如搜狗知立方更多聚焦在娛樂(lè)和健康等領(lǐng)域。根據(jù)各搜索引擎公司提供的報(bào)告來(lái)看,為了保證知識(shí)圖譜的準(zhǔn)確率,仍然需要在知識(shí)圖譜構(gòu)建過(guò)程中采用較多的人工干預(yù)。
可以看到,在未來(lái)的一段時(shí)間內(nèi),知識(shí)圖譜將是大數(shù)據(jù)智能的前沿研究問(wèn)題,有很多重要的開(kāi)放性問(wèn)題亟待學(xué)術(shù)界和產(chǎn)業(yè)界協(xié)力解決。我們認(rèn)為,未來(lái)知識(shí)圖譜研究有以下幾個(gè)重要挑戰(zhàn)。
?
6 內(nèi)容回顧與推薦閱讀
本章系統(tǒng)地介紹了知識(shí)圖譜的產(chǎn)生背景、數(shù)據(jù)來(lái)源、應(yīng)用場(chǎng)景和主要技術(shù)。通過(guò)本章我們主要有以下結(jié)論:
- 知識(shí)圖譜是下一代搜索引擎、自動(dòng)問(wèn)答等智能應(yīng)用的基礎(chǔ)設(shè)施。
- 互聯(lián)網(wǎng)大數(shù)據(jù)是知識(shí)圖譜的重要數(shù)據(jù)來(lái)源。
- 知識(shí)表示是知識(shí)圖譜構(gòu)建與應(yīng)用的基礎(chǔ)技術(shù)。
- 實(shí)體鏈指、關(guān)系抽取和知識(shí)推理是知識(shí)圖譜構(gòu)建與應(yīng)用的核心技術(shù)。
知識(shí)圖譜與本體(Ontology)和語(yǔ)義網(wǎng)(Semantic Web)等密切相關(guān),有興趣的讀者可以搜索與之相關(guān)的文獻(xiàn)閱讀。知識(shí)表示(Knowledge Representation)是人工智能的重要課題,讀者可以通過(guò)人工智能專(zhuān)著(Russell & Norvig 2009)了解其發(fā)展歷程。在關(guān)系抽取方面,讀者可以閱讀(Nauseates, et al. 2013)、(Nickel, et al. 2015)詳細(xì)了解相關(guān)技術(shù)。
參考文獻(xiàn)
-
(Bordes, et al. 2013) Bordes, A., Usunier, N., Garcia-Duran, A., Weston, J., & Yakhnenko, O. (2013). Translating embeddings for modeling multi-relational data. In Proceedings of NIPS.
-
(Dong, et al. 2014) Dong, X., Gabrilovich, E., Heitz, G., Horn, W., et al. Knowledge Vault A web-scale approach to probabilistic knowledge fusion. In Proceedings of KDD.
-
(Lao & Cohen 2010) Lao, N., & Cohen, W. W. (2010). Relational retrieval using a combination of path-constrained random walks. Machine learning, 81(1), 53-67.
-
(Nauseates, et al. 2013) Nastase, V., Nakov, P., Seaghdha, D. O., & Szpakowicz, S. (2013). Semantic relations between nominals. Synthesis Lectures on Human Language Technologies, 6(1), 1-119.
-
(Nickel, et al. 2015) Nickel, M., Murphy, K., Tresp, V., & Gabrilovich, E. A Review of Relational Machine Learning for Knowledge Graphs.
-
(Russell & Norvig 2009) Russell, S., & Norvig, P. (2009). Artificial Intelligence: A Modern Approach, 3rd Edition. Pearson Press. (中文譯名:人工智能——一種現(xiàn)代方法).
-
(Schuhmacher, et al. 2014) Schuhmacher, M., & Ponzetto, S. P. Knowledge-based graph document modeling. In Proceedings of the 7th ACM international conference on Web search and data mining. In Proceedings of WSDM.
-
(Tenenbaum, et al. 2011) Tenenbaum, J. B., Kemp, C., Griffiths, T. L., & Goodman, N. D. (2011). How to grow a mind: Statistics, structure, and abstraction. science, 331(6022), 1279-1285.
總結(jié)
以上是生活随笔為你收集整理的第二章 知识图谱——机器大脑中的知识库的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 什么是用户画像?
- 下一篇: 贝叶斯估计和最大后验估计