日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

肖仰华 | 知识图谱研究的回顾与展望

發(fā)布時間:2024/7/5 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 肖仰华 | 知识图谱研究的回顾与展望 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

本文轉(zhuǎn)載自公眾號知識工場


? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

本文整理自2017年10月19日肖仰華教授在知識圖譜前沿技術(shù)課程(華東師范大學站)所做的報告,報告的題目為《知識圖譜研究的回顧與展望》。



大家好,很多人在對知識圖譜的研究或者落地方面都表現(xiàn)出了極大的興趣,我從知識圖譜綜述的角度給今天的研討會開個頭。


我們先從知識圖譜的概念和定義講起。知識圖譜本質(zhì)上是一種大規(guī)模語義網(wǎng)絡,它包含了各種各樣的實體,概念以及語義關(guān)系。比如說C羅,他是一個實體,人物和運動員是他的基本概念,“金球獎”也是一個實體,它是一個獎項,那么C羅和金球獎之間的關(guān)系就是C羅曾經(jīng)獲得這個獎項。所謂知識圖譜就是這樣一個語義網(wǎng)絡。


知識圖譜為什么這么重要?可以從兩個方面來講,首先從它的學科體系來看,如果把知識圖譜置于整個人工智能的學科框架里面來看,它有著非常清晰的學科定位。在人工智能這個非常龐大的學科體系里,知識圖譜有著非常清晰的學科路徑,人工智能的基本目標是希望機器能像人一樣理性地思考或者行為。知識工程是人工智能學科體系的一個分支,它從上世紀五六十年代開始,到七八十年代達到頂峰,Feigenbaum是知識工程的鼻祖,做了一系列開創(chuàng)性的工作,在很多領域,尤其是醫(yī)療、診斷領域取得了突破性的進展。知識工程的目的是讓知識能夠融入到計算機系統(tǒng)中,使得計算機系統(tǒng)一定程度上可以像專家一樣,利用專家的知識去做診斷和治療等。在整個知識工程的分支下,知識表示是一個非常重要的任務,我們想要把知識應用到計算機系統(tǒng)中去,首先要解決知識是怎么表示的,尤其在計算機系統(tǒng)中是怎么表示的。大家都知道,計算機想要處理問題,首先要把邏輯表示出來,要有適當?shù)臄?shù)據(jù)結(jié)構(gòu)來表達這個數(shù)據(jù),機器才有可能去處理這個數(shù)據(jù),所以知識表示是最關(guān)鍵的問題。知識工程的發(fā)展離不開知識表示,先要有知識表示,才可能有知識工程的巨大發(fā)展,所以在知識工程的體系下,一個很重要的分支是如何去表示知識。而在知識表示下有個很重要的方式,就是知識圖譜。知識圖譜本質(zhì)上只是一種知識表示的方式,它側(cè)重在用一種關(guān)聯(lián)方式來表達實體與概念之間的語義關(guān)系。這樣一來大家就能看到知識圖譜在整個人工智能體系下是有很清晰的脈絡的。需要強調(diào)的是,知識圖譜只是知識表示的一種,并不是全部。事實上,現(xiàn)在整個國際學術(shù)界也一直希望能夠提出有更強表達能力,更小計算復雜性的知識表示方式,很多團體都在做這方面的努力。


我們再從時間維度來看知識圖譜,人工智能發(fā)展到今天,進入了大數(shù)據(jù)人工智能時代,由于大數(shù)據(jù)的出現(xiàn),計算能力的升級,造就了一批新型的人工智能技術(shù),尤其以深度學習和知識圖譜為代表。從技術(shù)層次來看,狹義上講,知識圖譜本質(zhì)上就是一種語義網(wǎng)絡,是大數(shù)據(jù)時代知識表示最重要的一種方式,可以說是大數(shù)據(jù)的出現(xiàn)造就了知識圖譜。從技術(shù)體系來看,廣義上講,知識圖譜是一種技術(shù)體系,就跟深度學習一樣,它不是指某一特定的模型,是指一類模型,一類技術(shù)。知識圖譜某種程度上被當作是大數(shù)據(jù)時代知識工程具有代表性的一脈技術(shù)。所以從狹義和廣義這兩個角度來理解知識圖譜,可以是一種語義網(wǎng)絡,也可以是一種技術(shù)體系。它是典型的大數(shù)據(jù)時代的產(chǎn)物。


我們知道,在計算機領域,知識圖譜最早是2012年5月份Google正式提出,并且發(fā)布了自己的知識圖譜。Google作為互聯(lián)網(wǎng)巨頭,當時的核心訴求是搜索通往答案,就是用戶搜索一個關(guān)鍵字,可以直接得到答案,而不是給出包含關(guān)鍵字的網(wǎng)頁。為什么在知識圖譜出現(xiàn)之前,只能返回包含關(guān)鍵字的網(wǎng)頁呢?因為在知識圖譜出現(xiàn)之前,“Obama”和“birthday”只是一個字符串而已,機器無法知道Obama是一個人,birthday是一個屬性。知識圖譜的出現(xiàn),使得搜索引擎可以理解搜索的關(guān)鍵字,并返回精準的答案。這對搜索引擎是至關(guān)重要的,是搜索引擎真正意義上實現(xiàn)從搜索通往答案的一個必備技術(shù)。在知識圖譜出現(xiàn)之前,搜索引擎做不到搜索通往答案的根本原因,就是缺乏像知識圖譜這樣能提供大量背景知識的數(shù)據(jù)庫。這實際上啟發(fā)了我們語言理解是需要背景知識庫支撐的,知識圖譜在很多場合上被用作讓機器理解語言的背景知識庫,它的根本意義就是能幫助機器理解語言。


機器理解語言是一件非常復雜的事情,現(xiàn)在最多能說自然語言處理,還談不上自然語言理解。語言理解是有歧義的,比如說“蘋果”可以指公司,也可以指水果;語言理解往往是需要上下文的;很多語言是隱式的,表達的很委婉;語言表達具有多樣性等等,這些都決定了自然語言理解困難重重。

語言的理解是建立在認知的基礎之上,在座的能聽懂我在說什么,是因為我們有著共同的認知,有著相類似的對世界的體驗和教育背景。假想一個外星人來聽報告,他就不能聽懂,因為我們沒有共同的認知。認知的不同決定了語言理解的不同。由于體驗和認知,我們積累了大量的背景知識,如今我們想要機器也具備語言認知能力,那么機器也需要具備與人類差不多的背景知識庫。這個背景知識庫就是知識圖譜,知識圖譜的歷史使命是作為一個巨大的背景知識庫讓機器具備語言認知能力。整個語言理解就好比是冰山一角,我們看到的是表面各種各樣的字符串,而實際上理解表面的字符串,需要冰山下面非常龐大的背景知識。有了知識圖譜,機器看到的不再僅僅是字符串,而是可以把這些字符串映射到各種各樣的實體、概念,從而建立機器自己的認知世界,就是知識圖譜使能機器語言認知。


在知識圖譜出現(xiàn)之前,已經(jīng)有各種各樣的知識表示,像本體、語義網(wǎng)、文本等等,它們都是更為龐大的知識表示形式。那為什么傳統(tǒng)的知識表示不足以作為機器理解語言的強大背景知識呢?那是因為并不是任何知識庫都可以有效地作為背景知識庫。事實上,想讓機器具備語言認知能力,背景知識庫必須滿足幾個條件,第一個是規(guī)模要足夠大,必須涵蓋足夠多的實體和概念。第二個是知識庫語義關(guān)系要足夠豐富,描述現(xiàn)實世界的語義關(guān)系是豐富多樣的,知識庫要涵蓋常見的語義關(guān)系。第三個就是知識庫表示結(jié)構(gòu)要十分友好。文本是一個巨大的載體,但是文本是一個非結(jié)構(gòu)化數(shù)據(jù)表現(xiàn)形式,機器很難處理,而知識圖譜往往表達為RDF結(jié)構(gòu),是一種結(jié)構(gòu)友好的表達形式,是能夠被計算機有效處理的。第四,受益于大數(shù)據(jù)的多源異構(gòu)性,知識圖譜的質(zhì)量很高,我們還可以用眾包的手段來進行質(zhì)量的保證。

正是因為知識圖譜具有這些特性,才使知識圖譜使能機器語言認知成為可能。


再來看看知識圖譜的優(yōu)勢,首先,知識圖譜規(guī)模很大,很多知識圖譜動輒數(shù)千萬,很多企業(yè)像google,微軟都有上十億、百億的實體,對實體的覆蓋規(guī)模是十分巨大的。


第二個就是語義關(guān)系豐富。不同的在線知識庫涵蓋了各種各樣的語義關(guān)系,再互聯(lián)到一起,就基本能涵蓋我們常見的語義關(guān)系。


第三個就是質(zhì)量很高。通過眾包和多源校驗使得知識圖譜的質(zhì)量非常高,CN-DBpedia還可以通過用戶的反饋來校驗。在大數(shù)據(jù)時代,我們可以通過很多的手段來確保知識庫的質(zhì)量。


第四個就是結(jié)構(gòu)很友好。知識庫表示出來都是一個個三元組,是RDF或者圖的結(jié)構(gòu)。


現(xiàn)在有越來越多的知識圖譜出現(xiàn),三月份的數(shù)據(jù)顯示至少有一千種常用的知識圖譜,這個數(shù)據(jù)量還在不斷的增長。


到了今天,我們要重新審視一下知識圖譜技術(shù)的發(fā)展。在2012年至今五年的時間里,我們看到了一系列的變革。

從兩個方面來講,一方面是應用場景,另一個方面就是技術(shù)生態(tài)。隨著應用場景和技術(shù)生態(tài)的變化,整個知識圖譜面臨著全新的挑戰(zhàn),以前的技術(shù)手段在應對現(xiàn)在智能化大潮給我們提出的挑戰(zhàn)的時候,已經(jīng)有些力不從心,所以我們要研發(fā)一些新技術(shù)。


從應用的角度來講,知識圖譜的應用趨勢越來越從通用領域走向行業(yè)領域,現(xiàn)在的局面是通用與行業(yè)應用百花齊放,各行各業(yè)都在討論適合自己的知識圖譜。今天展示給大家的是我們自己實驗室的知識圖譜,在通用領域,我們實驗室有CN-DBpedia,Probase plus。CN-DBpedia是一種通用百科知識圖譜。通用知識庫在通用人工智能中扮演著重要的角色,是未來競爭的戰(zhàn)略制高點,即掌握了通用人工智能技術(shù),可以從一個戰(zhàn)略制高點向下俯沖,這樣收獲領域知識圖譜的成果是相對容易的。但是如果只具備領域人工智能的能力,未必可以掌握通用人工智能能力。雖然領域/行業(yè)人工智能技術(shù)更容易落地,但是從戰(zhàn)略層面上來講,一定要對通用人工智能予以高度的關(guān)注。領域人工智能在很多領域已經(jīng)落地開花,但領域圖譜的應用也不是簡單的事,還具有很多挑戰(zhàn)性的研究問題,領域知識庫構(gòu)建的語料往往比較稀疏,比如在某個領域提到某個事實,某類關(guān)系的樣本非常少,這個時候利用關(guān)系去構(gòu)建有效的抽取模型就會變的十分困難,在樣本稀疏的環(huán)境下去做領域知識圖譜的自動化構(gòu)建仍然是件非常困難的事情。


第二個應用場景發(fā)生變化是從搜索延伸至推薦、問答等復雜任務。舉個例子,圖中知識圖譜幫助搜索代碼,如果能利用知識圖譜理解搜索意圖,并返回準確的代碼,這樣效率將大有提升。用戶搜索輸入關(guān)鍵字,機器給出答案,還可以為用戶做智能推薦。將來更智能的形式就是直接問答,我們實驗室研發(fā)的“小Cui問答”就是這樣的問答系統(tǒng)。

整個知識圖譜將來會在越來越復雜和多元的場景下發(fā)揮重要的作用。


再進一步就是交互方式發(fā)生變化。以前的交互方式更多是基于關(guān)鍵字,現(xiàn)在越來越多的是自然語言的處理,對話式的處理,像Google Now,Apple Siri,Amazon Alexa等等,很多大公司都在研發(fā)自然語言交互的產(chǎn)品,這意味著自然語言交互成為未來人機交互的主流方式。對知識圖譜提出的挑戰(zhàn)就是,對自然語言的認知到了一個新的高度,需要能夠利用知識圖譜幫助平臺和系統(tǒng)更好的理解問答,上下文對話等等。


進而就是從用戶提的問題來看,呈現(xiàn)出從簡單的陳述類問題到解釋類問題的變化趨勢。以前用戶喜歡問“what”、“who”、“when”、“where”這樣簡單陳述性問題,現(xiàn)在越來越多的問“why”、“how”。用戶對系統(tǒng)智能性的期望越來越高,很多用戶在Google上問why類問題,但是很遺憾,Google還不能進行回答,只能回答陳述類問題。隨著“why”、“how”問題越來越多,解釋就變的很重要,可解釋是未來人工智能發(fā)展的核心訴求之一,是人機互信的前提。


再進一步就是,以前在實體之間找到一些簡單關(guān)系就行了,比如王寶強的老婆是馬蓉,但現(xiàn)在不滿足于簡單關(guān)系的揭示,而是希望能夠推理出一些深層關(guān)系,比如王寶強離婚案,為什么王寶強會請張起淮當律師?王寶強和馮小剛是好朋友,馮小剛有個御用演員叫徐靜蕾,張起淮是徐靜蕾的法律顧問,所以王寶強會請張起淮當律師,這個就是深層關(guān)系推理。隱式關(guān)系發(fā)現(xiàn)、深層關(guān)系推理將成為智能的主要體現(xiàn)之一。


再從技術(shù)生態(tài)的角度來看,人工智能也發(fā)生了很大的變化。從機器學習來看,雖然深度學習發(fā)展非常迅速,并且在樣本數(shù)據(jù)豐富的場景下取得了很好的效果,但是機器學習仍然存在很多問題,小樣本學習、無監(jiān)督學習手段有限,現(xiàn)有模型難以有效利用大量先驗知識。再從自然語言處理角度來看,雖然自然語言處理在深度學習的推動下取得了很大的進展,但是自然語言處理離實際應用需求還很遠,還只是在處理階段,遠遠談不上理解。從知識庫本身來看,英文圖譜積累迅速,發(fā)展得相當成熟,并且在很多應用中發(fā)揮了巨大的作用,但是其他語種的知識圖譜十分缺乏。雖然現(xiàn)在知識圖譜很多,但是大部分都側(cè)重在簡單事實,對于常識的覆蓋仍然十分有限。很多知識圖譜都是依賴手工構(gòu)建的,如何從大規(guī)模數(shù)據(jù)里用數(shù)據(jù)挖掘的方法自動挖掘出知識圖譜的手段仍然缺乏。


時至今日,對知識圖譜的研究必須要進行反思,在變化下我們將面臨怎樣的機遇和挑戰(zhàn)呢?

第一個挑戰(zhàn)是知識圖譜構(gòu)建的有效策略和方案。知識圖譜涉及的領域很多,構(gòu)建的有效策略和方案顯得格外重要,一個有效的策略往往可以顯著地彌補模型上的不足。如何充分利用知識的跨語言特性;如何區(qū)別對待數(shù)據(jù)來源的不同結(jié)構(gòu)化程度;基于概念模板的迭代式抽取;基于語義與語法混合模式的抽取都需要一個有效的策略和方案,我們初步實驗下來,有效的策略和方案是可以顯著提升知識圖譜自動化構(gòu)建的效果的。

第二個挑戰(zhàn)是大規(guī)模常識的獲取和理解。隨著知識庫應用越來越深入,對于智能化要求越來越高,其對于常識的需求也會越來越顯著。現(xiàn)在大規(guī)模人工智能技術(shù)是缺乏常識理解能力的,常識缺乏是人工智能研究的重大制約瓶頸。

第三個挑戰(zhàn)是在樣本稀疏環(huán)境下的領域知識獲取。很多領域知識圖譜缺乏有效的樣本,如何將高頻知識的獲取模型有效遷移到樣本稀疏的低頻知識,是當前知識獲取領域面臨的重大難題。


第四個挑戰(zhàn)是數(shù)據(jù)驅(qū)動與知識引導深度融合的新型機器學習模型。因為不能有效利用先驗知識,當前機器學習的模型效果越來越接近天花板,如何把先驗知識與機器深度學習結(jié)合到一起,這是個挑戰(zhàn)。

第五個挑戰(zhàn)是基于知識圖譜的可解釋人工智能。是否能利用知識圖譜去解釋機器產(chǎn)生的結(jié)果,這個將來會越來越重要。

第六個挑戰(zhàn)是知識獲取中的人機協(xié)作機制與方法。人機邊界問題,這實際上是一個非常重要的問題。


還有就是知識驅(qū)動的機器語言理解。如何利用知識幫助機器理解語言,做有效的搜索和推薦。以前的搜索和推薦是基于用戶的行為,將來會越來越多的利用背景知識來開展搜索和推薦。


我們初步進行了一些工作,在知識圖譜構(gòu)建的策略和方案方面,充分利用知識的跨語言特性, 把其他語言的知識遷移到中文里,從而有效地構(gòu)建知識庫。遵循先易后難的順序,盡量避免從零開始,可以從通用知識庫導出某個領域作為種子,還可以做跨領域遷移,從鄰近領域遷移。


在可解釋人工智能這塊,國際上已經(jīng)在做很多事情。以后給出一張貓的圖片,機器不僅會告訴用戶這是貓,還會告訴用戶是因為觀察到了爪子和耳朵來推斷這是貓。


機器學習模型將來必須具備解釋性,用戶才會相信這個模型,在這個方面,我們現(xiàn)在可以做可解釋的推薦,比如用戶搜索“三星S8”、“蘋果8”,機器會推薦“華為P9”,因為機器知道用戶在搜索高端手機。機器不僅給你推薦,還告訴你推薦的原因。


對于現(xiàn)在領域知識圖譜樣本都很稀疏的問題,現(xiàn)在有兩個基本思路,一個是從高頻向長尾的遷移,有些關(guān)系樣本很少,但也有些關(guān)系樣本很多,把樣本多的關(guān)系遷移到樣本比較少的關(guān)系。還有一個就是富樣本向窮樣本領域遷移,把人類先驗知識和規(guī)則與深度學習模型有效融合在一起,從而能夠有效生成自然語言模型。


在常識獲取和理解上,我們已經(jīng)在常識抽取、推斷、判定等方面做了一些工作。

最后,套用Edward Feigenbaum的一句話“Knowledge is Power in AI”,知識在整個AI中是非常重要的,還有一句話要送給大家,卡爾?雅斯貝斯在《時代的精神狀況》里提到的“即將到來的是一個終點,還是一個起點?它會不會是一個起點,其重要性相當于人最初成為人的時候,所不同的只是人現(xiàn)在擁有大量新獲得的工具以及在一個新的、更高的水準上的經(jīng)驗能力?”

我的報告就到這里,謝謝大家!


獲取完整PPT

關(guān)注“知識工場”微信公眾號,回復“20171101”獲取下載鏈接。



OpenKG.CN


中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進知識圖譜和語義技術(shù)的普及和廣泛應用。

點擊閱讀原文,進入 OpenKG 博客。

總結(jié)

以上是生活随笔為你收集整理的肖仰华 | 知识图谱研究的回顾与展望的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。