當(dāng)前位置：首頁 >

肖仰华 | 知识图谱研究的回顾与展望

發(fā)布時間：2024/7/5 44 豆豆

生活随笔收集整理的這篇文章主要介紹了肖仰华 | 知识图谱研究的回顾与展望小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

本文轉(zhuǎn)載自公眾號知識工場。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

本文整理自2017年10月19日肖仰華教授在知識圖譜前沿技術(shù)課程（華東師范大學(xué)站）所做的報告，報告的題目為《知識圖譜研究的回顧與展望》。

大家好，很多人在對知識圖譜的研究或者落地方面都表現(xiàn)出了極大的興趣，我從知識圖譜綜述的角度給今天的研討會開個頭。

我們先從知識圖譜的概念和定義講起。知識圖譜本質(zhì)上是一種大規(guī)模語義網(wǎng)絡(luò)，它包含了各種各樣的實(shí)體，概念以及語義關(guān)系。比如說C羅，他是一個實(shí)體，人物和運(yùn)動員是他的基本概念，“金球獎”也是一個實(shí)體，它是一個獎項，那么C羅和金球獎之間的關(guān)系就是C羅曾經(jīng)獲得這個獎項。所謂知識圖譜就是這樣一個語義網(wǎng)絡(luò)。

知識圖譜為什么這么重要？可以從兩個方面來講，首先從它的學(xué)科體系來看，如果把知識圖譜置于整個人工智能的學(xué)科框架里面來看，它有著非常清晰的學(xué)科定位。在人工智能這個非常龐大的學(xué)科體系里，知識圖譜有著非常清晰的學(xué)科路徑，人工智能的基本目標(biāo)是希望機(jī)器能像人一樣理性地思考或者行為。知識工程是人工智能學(xué)科體系的一個分支，它從上世紀(jì)五六十年代開始，到七八十年代達(dá)到頂峰，Feigenbaum是知識工程的鼻祖，做了一系列開創(chuàng)性的工作，在很多領(lǐng)域，尤其是醫(yī)療、診斷領(lǐng)域取得了突破性的進(jìn)展。知識工程的目的是讓知識能夠融入到計算機(jī)系統(tǒng)中，使得計算機(jī)系統(tǒng)一定程度上可以像專家一樣，利用專家的知識去做診斷和治療等。在整個知識工程的分支下，知識表示是一個非常重要的任務(wù)，我們想要把知識應(yīng)用到計算機(jī)系統(tǒng)中去，首先要解決知識是怎么表示的，尤其在計算機(jī)系統(tǒng)中是怎么表示的。大家都知道，計算機(jī)想要處理問題，首先要把邏輯表示出來，要有適當(dāng)?shù)臄?shù)據(jù)結(jié)構(gòu)來表達(dá)這個數(shù)據(jù)，機(jī)器才有可能去處理這個數(shù)據(jù)，所以知識表示是最關(guān)鍵的問題。知識工程的發(fā)展離不開知識表示，先要有知識表示，才可能有知識工程的巨大發(fā)展，所以在知識工程的體系下，一個很重要的分支是如何去表示知識。而在知識表示下有個很重要的方式，就是知識圖譜。知識圖譜本質(zhì)上只是一種知識表示的方式，它側(cè)重在用一種關(guān)聯(lián)方式來表達(dá)實(shí)體與概念之間的語義關(guān)系。這樣一來大家就能看到知識圖譜在整個人工智能體系下是有很清晰的脈絡(luò)的。需要強(qiáng)調(diào)的是，知識圖譜只是知識表示的一種，并不是全部。事實(shí)上，現(xiàn)在整個國際學(xué)術(shù)界也一直希望能夠提出有更強(qiáng)表達(dá)能力，更小計算復(fù)雜性的知識表示方式，很多團(tuán)體都在做這方面的努力。

我們再從時間維度來看知識圖譜，人工智能發(fā)展到今天，進(jìn)入了大數(shù)據(jù)人工智能時代，由于大數(shù)據(jù)的出現(xiàn)，計算能力的升級，造就了一批新型的人工智能技術(shù)，尤其以深度學(xué)習(xí)和知識圖譜為代表。從技術(shù)層次來看，狹義上講，知識圖譜本質(zhì)上就是一種語義網(wǎng)絡(luò)，是大數(shù)據(jù)時代知識表示最重要的一種方式，可以說是大數(shù)據(jù)的出現(xiàn)造就了知識圖譜。從技術(shù)體系來看，廣義上講，知識圖譜是一種技術(shù)體系，就跟深度學(xué)習(xí)一樣，它不是指某一特定的模型，是指一類模型，一類技術(shù)。知識圖譜某種程度上被當(dāng)作是大數(shù)據(jù)時代知識工程具有代表性的一脈技術(shù)。所以從狹義和廣義這兩個角度來理解知識圖譜，可以是一種語義網(wǎng)絡(luò)，也可以是一種技術(shù)體系。它是典型的大數(shù)據(jù)時代的產(chǎn)物。

我們知道，在計算機(jī)領(lǐng)域，知識圖譜最早是2012年5月份Google正式提出，并且發(fā)布了自己的知識圖譜。Google作為互聯(lián)網(wǎng)巨頭，當(dāng)時的核心訴求是搜索通往答案，就是用戶搜索一個關(guān)鍵字，可以直接得到答案，而不是給出包含關(guān)鍵字的網(wǎng)頁。為什么在知識圖譜出現(xiàn)之前，只能返回包含關(guān)鍵字的網(wǎng)頁呢？因為在知識圖譜出現(xiàn)之前，“Obama”和“birthday”只是一個字符串而已，機(jī)器無法知道Obama是一個人，birthday是一個屬性。知識圖譜的出現(xiàn)，使得搜索引擎可以理解搜索的關(guān)鍵字，并返回精準(zhǔn)的答案。這對搜索引擎是至關(guān)重要的，是搜索引擎真正意義上實(shí)現(xiàn)從搜索通往答案的一個必備技術(shù)。在知識圖譜出現(xiàn)之前，搜索引擎做不到搜索通往答案的根本原因，就是缺乏像知識圖譜這樣能提供大量背景知識的數(shù)據(jù)庫。這實(shí)際上啟發(fā)了我們語言理解是需要背景知識庫支撐的，知識圖譜在很多場合上被用作讓機(jī)器理解語言的背景知識庫，它的根本意義就是能幫助機(jī)器理解語言。

機(jī)器理解語言是一件非常復(fù)雜的事情，現(xiàn)在最多能說自然語言處理，還談不上自然語言理解。語言理解是有歧義的，比如說“蘋果”可以指公司，也可以指水果；語言理解往往是需要上下文的；很多語言是隱式的，表達(dá)的很委婉；語言表達(dá)具有多樣性等等，這些都決定了自然語言理解困難重重。

語言的理解是建立在認(rèn)知的基礎(chǔ)之上，在座的能聽懂我在說什么，是因為我們有著共同的認(rèn)知，有著相類似的對世界的體驗和教育背景。假想一個外星人來聽報告，他就不能聽懂，因為我們沒有共同的認(rèn)知。認(rèn)知的不同決定了語言理解的不同。由于體驗和認(rèn)知，我們積累了大量的背景知識，如今我們想要機(jī)器也具備語言認(rèn)知能力，那么機(jī)器也需要具備與人類差不多的背景知識庫。這個背景知識庫就是知識圖譜，知識圖譜的歷史使命是作為一個巨大的背景知識庫讓機(jī)器具備語言認(rèn)知能力。整個語言理解就好比是冰山一角，我們看到的是表面各種各樣的字符串，而實(shí)際上理解表面的字符串，需要冰山下面非常龐大的背景知識。有了知識圖譜，機(jī)器看到的不再僅僅是字符串，而是可以把這些字符串映射到各種各樣的實(shí)體、概念，從而建立機(jī)器自己的認(rèn)知世界，就是知識圖譜使能機(jī)器語言認(rèn)知。

在知識圖譜出現(xiàn)之前，已經(jīng)有各種各樣的知識表示，像本體、語義網(wǎng)、文本等等，它們都是更為龐大的知識表示形式。那為什么傳統(tǒng)的知識表示不足以作為機(jī)器理解語言的強(qiáng)大背景知識呢？那是因為并不是任何知識庫都可以有效地作為背景知識庫。事實(shí)上，想讓機(jī)器具備語言認(rèn)知能力，背景知識庫必須滿足幾個條件，第一個是規(guī)模要足夠大，必須涵蓋足夠多的實(shí)體和概念。第二個是知識庫語義關(guān)系要足夠豐富，描述現(xiàn)實(shí)世界的語義關(guān)系是豐富多樣的，知識庫要涵蓋常見的語義關(guān)系。第三個就是知識庫表示結(jié)構(gòu)要十分友好。文本是一個巨大的載體，但是文本是一個非結(jié)構(gòu)化數(shù)據(jù)表現(xiàn)形式，機(jī)器很難處理，而知識圖譜往往表達(dá)為RDF結(jié)構(gòu)，是一種結(jié)構(gòu)友好的表達(dá)形式，是能夠被計算機(jī)有效處理的。第四，受益于大數(shù)據(jù)的多源異構(gòu)性，知識圖譜的質(zhì)量很高，我們還可以用眾包的手段來進(jìn)行質(zhì)量的保證。

正是因為知識圖譜具有這些特性，才使知識圖譜使能機(jī)器語言認(rèn)知成為可能。

再來看看知識圖譜的優(yōu)勢，首先，知識圖譜規(guī)模很大，很多知識圖譜動輒數(shù)千萬，很多企業(yè)像google，微軟都有上十億、百億的實(shí)體，對實(shí)體的覆蓋規(guī)模是十分巨大的。

第二個就是語義關(guān)系豐富。不同的在線知識庫涵蓋了各種各樣的語義關(guān)系，再互聯(lián)到一起，就基本能涵蓋我們常見的語義關(guān)系。

第三個就是質(zhì)量很高。通過眾包和多源校驗使得知識圖譜的質(zhì)量非常高，CN-DBpedia還可以通過用戶的反饋來校驗。在大數(shù)據(jù)時代，我們可以通過很多的手段來確保知識庫的質(zhì)量。

第四個就是結(jié)構(gòu)很友好。知識庫表示出來都是一個個三元組，是RDF或者圖的結(jié)構(gòu)。

現(xiàn)在有越來越多的知識圖譜出現(xiàn)，三月份的數(shù)據(jù)顯示至少有一千種常用的知識圖譜，這個數(shù)據(jù)量還在不斷的增長。

到了今天，我們要重新審視一下知識圖譜技術(shù)的發(fā)展。在2012年至今五年的時間里，我們看到了一系列的變革。

從兩個方面來講，一方面是應(yīng)用場景，另一個方面就是技術(shù)生態(tài)。隨著應(yīng)用場景和技術(shù)生態(tài)的變化，整個知識圖譜面臨著全新的挑戰(zhàn)，以前的技術(shù)手段在應(yīng)對現(xiàn)在智能化大潮給我們提出的挑戰(zhàn)的時候，已經(jīng)有些力不從心，所以我們要研發(fā)一些新技術(shù)。

從應(yīng)用的角度來講，知識圖譜的應(yīng)用趨勢越來越從通用領(lǐng)域走向行業(yè)領(lǐng)域，現(xiàn)在的局面是通用與行業(yè)應(yīng)用百花齊放，各行各業(yè)都在討論適合自己的知識圖譜。今天展示給大家的是我們自己實(shí)驗室的知識圖譜，在通用領(lǐng)域，我們實(shí)驗室有CN-DBpedia，Probase plus。CN-DBpedia是一種通用百科知識圖譜。通用知識庫在通用人工智能中扮演著重要的角色，是未來競爭的戰(zhàn)略制高點(diǎn)，即掌握了通用人工智能技術(shù)，可以從一個戰(zhàn)略制高點(diǎn)向下俯沖，這樣收獲領(lǐng)域知識圖譜的成果是相對容易的。但是如果只具備領(lǐng)域人工智能的能力，未必可以掌握通用人工智能能力。雖然領(lǐng)域/行業(yè)人工智能技術(shù)更容易落地，但是從戰(zhàn)略層面上來講，一定要對通用人工智能予以高度的關(guān)注。領(lǐng)域人工智能在很多領(lǐng)域已經(jīng)落地開花，但領(lǐng)域圖譜的應(yīng)用也不是簡單的事，還具有很多挑戰(zhàn)性的研究問題，領(lǐng)域知識庫構(gòu)建的語料往往比較稀疏，比如在某個領(lǐng)域提到某個事實(shí)，某類關(guān)系的樣本非常少，這個時候利用關(guān)系去構(gòu)建有效的抽取模型就會變的十分困難，在樣本稀疏的環(huán)境下去做領(lǐng)域知識圖譜的自動化構(gòu)建仍然是件非常困難的事情。

第二個應(yīng)用場景發(fā)生變化是從搜索延伸至推薦、問答等復(fù)雜任務(wù)。舉個例子，圖中知識圖譜幫助搜索代碼，如果能利用知識圖譜理解搜索意圖，并返回準(zhǔn)確的代碼，這樣效率將大有提升。用戶搜索輸入關(guān)鍵字，機(jī)器給出答案，還可以為用戶做智能推薦。將來更智能的形式就是直接問答，我們實(shí)驗室研發(fā)的“小Cui問答”就是這樣的問答系統(tǒng)。

整個知識圖譜將來會在越來越復(fù)雜和多元的場景下發(fā)揮重要的作用。

再進(jìn)一步就是交互方式發(fā)生變化。以前的交互方式更多是基于關(guān)鍵字，現(xiàn)在越來越多的是自然語言的處理，對話式的處理，像Google Now，Apple Siri，Amazon Alexa等等，很多大公司都在研發(fā)自然語言交互的產(chǎn)品，這意味著自然語言交互成為未來人機(jī)交互的主流方式。對知識圖譜提出的挑戰(zhàn)就是，對自然語言的認(rèn)知到了一個新的高度，需要能夠利用知識圖譜幫助平臺和系統(tǒng)更好的理解問答，上下文對話等等。

進(jìn)而就是從用戶提的問題來看，呈現(xiàn)出從簡單的陳述類問題到解釋類問題的變化趨勢。以前用戶喜歡問“what”、“who”、“when”、“where”這樣簡單陳述性問題，現(xiàn)在越來越多的問“why”、“how”。用戶對系統(tǒng)智能性的期望越來越高，很多用戶在Google上問why類問題，但是很遺憾，Google還不能進(jìn)行回答，只能回答陳述類問題。隨著“why”、“how”問題越來越多，解釋就變的很重要，可解釋是未來人工智能發(fā)展的核心訴求之一，是人機(jī)互信的前提。

再進(jìn)一步就是，以前在實(shí)體之間找到一些簡單關(guān)系就行了，比如王寶強(qiáng)的老婆是馬蓉，但現(xiàn)在不滿足于簡單關(guān)系的揭示，而是希望能夠推理出一些深層關(guān)系，比如王寶強(qiáng)離婚案，為什么王寶強(qiáng)會請張起淮當(dāng)律師？王寶強(qiáng)和馮小剛是好朋友，馮小剛有個御用演員叫徐靜蕾，張起淮是徐靜蕾的法律顧問，所以王寶強(qiáng)會請張起淮當(dāng)律師，這個就是深層關(guān)系推理。隱式關(guān)系發(fā)現(xiàn)、深層關(guān)系推理將成為智能的主要體現(xiàn)之一。

再從技術(shù)生態(tài)的角度來看，人工智能也發(fā)生了很大的變化。從機(jī)器學(xué)習(xí)來看，雖然深度學(xué)習(xí)發(fā)展非常迅速，并且在樣本數(shù)據(jù)豐富的場景下取得了很好的效果，但是機(jī)器學(xué)習(xí)仍然存在很多問題，小樣本學(xué)習(xí)、無監(jiān)督學(xué)習(xí)手段有限，現(xiàn)有模型難以有效利用大量先驗知識。再從自然語言處理角度來看，雖然自然語言處理在深度學(xué)習(xí)的推動下取得了很大的進(jìn)展，但是自然語言處理離實(shí)際應(yīng)用需求還很遠(yuǎn)，還只是在處理階段，遠(yuǎn)遠(yuǎn)談不上理解。從知識庫本身來看，英文圖譜積累迅速，發(fā)展得相當(dāng)成熟，并且在很多應(yīng)用中發(fā)揮了巨大的作用，但是其他語種的知識圖譜十分缺乏。雖然現(xiàn)在知識圖譜很多，但是大部分都側(cè)重在簡單事實(shí)，對于常識的覆蓋仍然十分有限。很多知識圖譜都是依賴手工構(gòu)建的，如何從大規(guī)模數(shù)據(jù)里用數(shù)據(jù)挖掘的方法自動挖掘出知識圖譜的手段仍然缺乏。

時至今日，對知識圖譜的研究必須要進(jìn)行反思，在變化下我們將面臨怎樣的機(jī)遇和挑戰(zhàn)呢？

第一個挑戰(zhàn)是知識圖譜構(gòu)建的有效策略和方案。知識圖譜涉及的領(lǐng)域很多，構(gòu)建的有效策略和方案顯得格外重要，一個有效的策略往往可以顯著地彌補(bǔ)模型上的不足。如何充分利用知識的跨語言特性；如何區(qū)別對待數(shù)據(jù)來源的不同結(jié)構(gòu)化程度；基于概念模板的迭代式抽取；基于語義與語法混合模式的抽取都需要一個有效的策略和方案，我們初步實(shí)驗下來，有效的策略和方案是可以顯著提升知識圖譜自動化構(gòu)建的效果的。

第二個挑戰(zhàn)是大規(guī)模常識的獲取和理解。隨著知識庫應(yīng)用越來越深入，對于智能化要求越來越高，其對于常識的需求也會越來越顯著。現(xiàn)在大規(guī)模人工智能技術(shù)是缺乏常識理解能力的，常識缺乏是人工智能研究的重大制約瓶頸。

第三個挑戰(zhàn)是在樣本稀疏環(huán)境下的領(lǐng)域知識獲取。很多領(lǐng)域知識圖譜缺乏有效的樣本，如何將高頻知識的獲取模型有效遷移到樣本稀疏的低頻知識，是當(dāng)前知識獲取領(lǐng)域面臨的重大難題。

第四個挑戰(zhàn)是數(shù)據(jù)驅(qū)動與知識引導(dǎo)深度融合的新型機(jī)器學(xué)習(xí)模型。因為不能有效利用先驗知識，當(dāng)前機(jī)器學(xué)習(xí)的模型效果越來越接近天花板，如何把先驗知識與機(jī)器深度學(xué)習(xí)結(jié)合到一起，這是個挑戰(zhàn)。

第五個挑戰(zhàn)是基于知識圖譜的可解釋人工智能。是否能利用知識圖譜去解釋機(jī)器產(chǎn)生的結(jié)果，這個將來會越來越重要。

第六個挑戰(zhàn)是知識獲取中的人機(jī)協(xié)作機(jī)制與方法。人機(jī)邊界問題，這實(shí)際上是一個非常重要的問題。

還有就是知識驅(qū)動的機(jī)器語言理解。如何利用知識幫助機(jī)器理解語言，做有效的搜索和推薦。以前的搜索和推薦是基于用戶的行為，將來會越來越多的利用背景知識來開展搜索和推薦。

我們初步進(jìn)行了一些工作，在知識圖譜構(gòu)建的策略和方案方面，充分利用知識的跨語言特性，把其他語言的知識遷移到中文里，從而有效地構(gòu)建知識庫。遵循先易后難的順序，盡量避免從零開始，可以從通用知識庫導(dǎo)出某個領(lǐng)域作為種子，還可以做跨領(lǐng)域遷移，從鄰近領(lǐng)域遷移。

在可解釋人工智能這塊，國際上已經(jīng)在做很多事情。以后給出一張貓的圖片，機(jī)器不僅會告訴用戶這是貓，還會告訴用戶是因為觀察到了爪子和耳朵來推斷這是貓。

機(jī)器學(xué)習(xí)模型將來必須具備解釋性，用戶才會相信這個模型，在這個方面，我們現(xiàn)在可以做可解釋的推薦，比如用戶搜索“三星S8”、“蘋果8”，機(jī)器會推薦“華為P9”，因為機(jī)器知道用戶在搜索高端手機(jī)。機(jī)器不僅給你推薦，還告訴你推薦的原因。

對于現(xiàn)在領(lǐng)域知識圖譜樣本都很稀疏的問題，現(xiàn)在有兩個基本思路，一個是從高頻向長尾的遷移，有些關(guān)系樣本很少，但也有些關(guān)系樣本很多，把樣本多的關(guān)系遷移到樣本比較少的關(guān)系。還有一個就是富樣本向窮樣本領(lǐng)域遷移，把人類先驗知識和規(guī)則與深度學(xué)習(xí)模型有效融合在一起，從而能夠有效生成自然語言模型。

在常識獲取和理解上，我們已經(jīng)在常識抽取、推斷、判定等方面做了一些工作。

最后，套用Edward Feigenbaum的一句話“Knowledge is Power in AI”，知識在整個AI中是非常重要的，還有一句話要送給大家，卡爾?雅斯貝斯在《時代的精神狀況》里提到的“即將到來的是一個終點(diǎn)，還是一個起點(diǎn)？它會不會是一個起點(diǎn)，其重要性相當(dāng)于人最初成為人的時候，所不同的只是人現(xiàn)在擁有大量新獲得的工具以及在一個新的、更高的水準(zhǔn)上的經(jīng)驗?zāi)芰?#xff1f;”

我的報告就到這里，謝謝大家！

獲取完整PPT

關(guān)注“知識工場”微信公眾號，回復(fù)“20171101”獲取下載鏈接。

OpenKG.CN

中文開放知識圖譜（簡稱OpenKG.CN）旨在促進(jìn)中文知識圖譜數(shù)據(jù)的開放與互聯(lián)，促進(jìn)知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。

點(diǎn)擊閱讀原文，進(jìn)入 OpenKG 博客。

總結(jié)

以上是生活随笔為你收集整理的肖仰华 | 知识图谱研究的回顾与展望的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： elasticsearch7使用指导
下一篇：各种服务常用端口号的含义

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

肖仰华 | 知识图谱研究的回顾与展望

總結(jié)