日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

技术动态 | 事理图谱,下一代知识图谱

發(fā)布時(shí)間:2024/7/5 编程问答 52 豆豆
生活随笔 收集整理的這篇文章主要介紹了 技术动态 | 事理图谱,下一代知识图谱 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

本文轉(zhuǎn)載自公眾號(hào):DataHorizon? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?




人工智能與認(rèn)知智能


當(dāng)前人工智能時(shí)代下,機(jī)器與人類(lèi)之間的博弈一直在進(jìn)行著。如圖1所示,從1926年達(dá)特茅斯會(huì)議的召開(kāi)標(biāo)志人工智能誕生到深度學(xué)習(xí)模型在若干人工智能領(lǐng)域大規(guī)模應(yīng)用的如今,人工智能已經(jīng)走過(guò)近60年的時(shí)間。人工智能的發(fā)展先后經(jīng)歷了兩次黃金期以及兩次低谷。1957年第一款神經(jīng)網(wǎng)絡(luò)的發(fā)明點(diǎn)燃了第一次人工智能的高潮,而隨后在20世紀(jì)70年代,受限于當(dāng)時(shí)的運(yùn)算資源,并不能完成大規(guī)模的數(shù)據(jù)訓(xùn)練,人工智能一度陷入低谷,直到1982年德普摩爾神經(jīng)網(wǎng)絡(luò)的提出以及BP算法的出現(xiàn)使得大規(guī)模神經(jīng)網(wǎng)絡(luò)訓(xùn)練成為可能后,人工智能才逐漸緩過(guò)神來(lái),并提出了全面實(shí)現(xiàn)人工智能計(jì)算機(jī)的目標(biāo),掀起了第二個(gè)黃金時(shí)期。但直到21世紀(jì)初,人工智能計(jì)算機(jī)并未實(shí)現(xiàn)以及政府的撤資,又一次將人工智能拉入低谷。隨后,在2006年深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)取得突破性進(jìn)展,一直到2015年深度學(xué)習(xí)算法在語(yǔ)音和視覺(jué)識(shí)別上取得的成功,再次引領(lǐng)了以深度學(xué)習(xí)為主流的人工智能時(shí)代第三個(gè)黃金期。


圖1


人工智能起起落落,但人工智能進(jìn)步的步伐從未停歇。從人工智能的發(fā)展階段來(lái)看,人工智能先后經(jīng)歷了從計(jì)算智能到感知智能再到認(rèn)知智能的三個(gè)發(fā)展階段。在計(jì)算智能時(shí)代,以神經(jīng)網(wǎng)絡(luò)、遺傳算法為代表的學(xué)習(xí)算法,讓機(jī)器能夠幫助人類(lèi)存儲(chǔ)和快速處理海量數(shù)據(jù),使得機(jī)器開(kāi)始像人類(lèi)一樣“能說(shuō)會(huì)算”。感知智能時(shí)代,機(jī)器能夠開(kāi)始看懂和聽(tīng)懂,并采取一些行動(dòng)和聽(tīng)懂語(yǔ)音的音箱,幫助人類(lèi)高效地完成看和聽(tīng)的相關(guān)工作。認(rèn)知智能時(shí)代,是人工智能的終極目標(biāo),即機(jī)器能夠像人一樣思考,并采取行動(dòng),如完全獨(dú)立駕駛的無(wú)人駕駛汽車(chē)、自主行動(dòng)的機(jī)器人等,完成全面輔助或替代人類(lèi)的工作。隨著數(shù)據(jù)、模型、計(jì)算能力的全面提升,計(jì)算智能和感知智能已經(jīng)初步實(shí)現(xiàn),而真正實(shí)現(xiàn)機(jī)器的認(rèn)知智能依然面臨著諸多挑戰(zhàn)。


認(rèn)知智能與知識(shí)圖譜


認(rèn)知智能的核心在于機(jī)器的辨識(shí)、思考以及主動(dòng)學(xué)習(xí)。其中,辨識(shí)指能夠基于掌握的知識(shí)進(jìn)行識(shí)別、判斷、感知,思考強(qiáng)調(diào)機(jī)器能夠運(yùn)用知識(shí)進(jìn)行推理和決策,主動(dòng)學(xué)習(xí)突出機(jī)器進(jìn)行知識(shí)運(yùn)用和學(xué)習(xí)的自動(dòng)化和自主化。這三個(gè)方面概括起來(lái),就是強(qiáng)大的知識(shí)庫(kù)、強(qiáng)大的知識(shí)計(jì)算能力以及計(jì)算資源。


知識(shí)存在于我們的大腦當(dāng)中,我們?cè)趶氖律鐣?huì)活動(dòng)的過(guò)程中,實(shí)際上是對(duì)知識(shí)的獲取和使用過(guò)程。就知識(shí)庫(kù)言,大致兩類(lèi)知識(shí),一類(lèi)是常識(shí)知識(shí)庫(kù)(commonsense knowledgebase),另一類(lèi)是百科類(lèi)知識(shí)庫(kù)(cyclopedia knowledgebase)。常識(shí)知識(shí)庫(kù)包括人類(lèi)認(rèn)知系統(tǒng)中的概念、語(yǔ)言規(guī)則知識(shí)庫(kù),如現(xiàn)在的wordnet ,mindnet ,Framenet, Probase等,另一類(lèi)百科知識(shí)庫(kù),則描述了現(xiàn)實(shí)生活中的事實(shí)知識(shí)(fact)。如Freebase , YAGO , DBpedia等。


以描述實(shí)體與實(shí)體、實(shí)體與屬性值為形式化表示的知識(shí)圖譜目前已是大家耳熟能詳?shù)囊粋€(gè)概念,而何謂知識(shí)圖譜?我們可以從幾個(gè)方面來(lái)看,從AI的視角來(lái)看,知識(shí)圖譜是一種理解人類(lèi)語(yǔ)言的知識(shí)庫(kù),從數(shù)據(jù)庫(kù)視角來(lái)看,知識(shí)圖譜是一種新型的知識(shí)存儲(chǔ)結(jié)構(gòu);從知識(shí)表示視角來(lái)看,知識(shí)圖譜是計(jì)算機(jī)理解知識(shí)的一種方法;從web視角來(lái)看,知識(shí)圖譜是知識(shí)數(shù)據(jù)之間的一種語(yǔ)義互聯(lián)。從最初的邏輯語(yǔ)義網(wǎng)(semantic-net)、到語(yǔ)義網(wǎng)絡(luò)(semantic-web)再到Linked-data,在到現(xiàn)在的大規(guī)模應(yīng)用的知識(shí)圖譜,已經(jīng)前前后后經(jīng)歷了將近50年的時(shí)間。而知識(shí)圖譜真正作為一個(gè)突出熱點(diǎn)走進(jìn)大家眼球的,還是在2012年以收購(gòu)freebase作為后臺(tái)知識(shí)圖譜的google,以簡(jiǎn)潔答案、知識(shí)卡片的方式顛覆傳統(tǒng)文檔搜索形式的橫空出世,從這個(gè)時(shí)間算起,也就7年的時(shí)間,所以知識(shí)圖譜既是年老又是年輕的。


知識(shí)圖譜,是實(shí)現(xiàn)認(rèn)知智能的知識(shí)庫(kù),是武裝認(rèn)知智能機(jī)器人的大腦,這是知識(shí)圖譜與認(rèn)知智能的最本質(zhì)聯(lián)系,知識(shí)圖譜,與以深度神經(jīng)網(wǎng)絡(luò)為代表的連接主義不同,作為符號(hào)主義,從一開(kāi)始提出就注定了要從知識(shí)表示、知識(shí)描述、知識(shí)計(jì)算與推理上不斷前行。目前知識(shí)圖譜在諸如問(wèn)答、金融、教育、銀行、旅游、司法等領(lǐng)域中取得了大規(guī)模的運(yùn)用。基于知識(shí)圖譜的智能問(wèn)答、在抓捕本拉登時(shí)斬獲戰(zhàn)功的Palantir、戰(zhàn)勝人類(lèi)的IBM深藍(lán)機(jī)器人、顛覆傳統(tǒng)網(wǎng)頁(yè)搜索模式的谷歌知識(shí)圖譜等等,都顯示出了知識(shí)圖譜的強(qiáng)大生命力。目前,我們以金融領(lǐng)域和全行業(yè)領(lǐng)域?yàn)樵圏c(diǎn),開(kāi)展了相關(guān)對(duì)研發(fā)工作,構(gòu)建起了全行業(yè)11個(gè)主流產(chǎn)業(yè)鏈知識(shí)圖譜,主要包括246個(gè)行業(yè)、上萬(wàn)個(gè)商品品種的行業(yè)知識(shí)圖譜和涵蓋A股的上市公司金融知識(shí)圖譜。


? 1、全行業(yè)產(chǎn)業(yè)鏈知識(shí)圖譜

?????? 產(chǎn)業(yè)鏈知識(shí)圖譜,目標(biāo)是構(gòu)建起全行的上下行業(yè)圖譜,行業(yè)之間的上下游關(guān)系,行業(yè)中個(gè)大元素之間的關(guān)系,例如行業(yè)下產(chǎn)品、公司之間的關(guān)聯(lián)等等。為了保證產(chǎn)業(yè)鏈中數(shù)據(jù)的準(zhǔn)確性,我們通過(guò)行業(yè)研究員人工定義本體,耗時(shí)半年時(shí)間,構(gòu)建起了全行業(yè)11個(gè)主流產(chǎn)業(yè)鏈知識(shí)圖譜,主要包括246個(gè)行業(yè)、上萬(wàn)個(gè)商品品種,幾千家上市公司,共計(jì)幾百萬(wàn)條關(guān)系邊的產(chǎn)業(yè)鏈知識(shí)圖譜,如下圖2所示:


圖2


2、上市公司金融知識(shí)圖譜

??? 公司金融領(lǐng)域研究的核心對(duì)象,公司作為金融中的重要角色,構(gòu)建起公司知識(shí)全景圖譜對(duì)于進(jìn)一步知識(shí)整合、公司監(jiān)測(cè)、公司運(yùn)營(yíng)等具有顯著作用。我們以A股上市公司為基本數(shù)據(jù)來(lái)源和研究對(duì)象,構(gòu)建起涵蓋公司、行業(yè)、板塊、人物、原料、產(chǎn)品等共17類(lèi)實(shí)體,并購(gòu)、競(jìng)爭(zhēng)、供應(yīng)、投資等共16類(lèi)實(shí)體關(guān)系,規(guī)模達(dá)百萬(wàn)級(jí)的A股上市公司知識(shí)圖譜,如下圖3所示:


圖3

從知識(shí)圖譜到事理圖譜


從知識(shí)圖譜的本質(zhì)上來(lái)說(shuō),是以傳統(tǒng)本體概念為基礎(chǔ)進(jìn)行知識(shí)組織的,而在知識(shí)處理領(lǐng)域,這種傳統(tǒng)本體概念依然存在著一些局限性,傳統(tǒng)本體對(duì)于概念的描述著重對(duì)其靜態(tài)特征的描述,缺乏對(duì)動(dòng)態(tài)特征的描述,經(jīng)典的“網(wǎng)球”問(wèn)題就是典型的例子。實(shí)際上,許多哲學(xué)家認(rèn)為世界是物質(zhì)和運(yùn)動(dòng)的,物質(zhì)和運(yùn)動(dòng)的世界是由事物和事件組成,物質(zhì)是相對(duì)靜態(tài)的知識(shí)形式,反映了客觀世界中事物存在的規(guī)律。然而,人類(lèi)的命題記憶是以“事件”為存儲(chǔ)單位的,存儲(chǔ)的是組成事件的概念及其之間的關(guān)系以及事件及其之間的關(guān)系。以事件作為知識(shí)的基本單元更能反映客觀世界的知識(shí),特別是知識(shí)的動(dòng)態(tài)性,從認(rèn)知心理學(xué)的角度來(lái)看,事件更符合人類(lèi)的理解與思維習(xí)慣。人類(lèi)主要是以“事件”為單位進(jìn)行記憶和理解現(xiàn)實(shí)世界的,事件關(guān)系到多方面的概念,是比概念粒度更大的知識(shí)單元。傳統(tǒng)本體所使用的概念模型難以反映事件這一更高層次和更復(fù)雜的語(yǔ)義信息,模型缺少了更高層次的結(jié)構(gòu)。


從知識(shí)刻畫(huà)上來(lái)說(shuō),知識(shí)圖譜的局限主要體現(xiàn)在兩個(gè)方面:一是對(duì)人類(lèi)知識(shí)的刻畫(huà)上上不具備動(dòng)態(tài)屬性。知識(shí)圖譜中所刻畫(huà)和描述的知識(shí)是靜態(tài)的非黑即白的一種確定性事實(shí),而現(xiàn)實(shí)人類(lèi)社會(huì)當(dāng)中,知識(shí)是動(dòng)態(tài)變化的,知識(shí)本身會(huì)因?yàn)橥獠織l件的變化而失真。另一個(gè)是知識(shí)圖譜在應(yīng)用上的一種局限性,知識(shí)圖譜只能回答什么是什么的問(wèn)題,對(duì)包括基于已知知識(shí)推斷未知知識(shí),對(duì)已知知識(shí)進(jìn)行正確性校驗(yàn)的知識(shí)推理,從根本上來(lái)說(shuō)也沒(méi)有跳出“靜態(tài)”這一屬性。在諸如“怎么了”,“接下來(lái)會(huì)怎么樣?”,“為什么”,“怎么做”等問(wèn)題上,知識(shí)圖譜顯得有些乏力。

?

事實(shí)上,目前關(guān)于這方面的知識(shí)需求應(yīng)用場(chǎng)景有很多,如金融投資領(lǐng)域有捕捉外部事件、根據(jù)事件的邏輯關(guān)系進(jìn)行推理、推演和預(yù)測(cè)的需求,例如“智利發(fā)生地震會(huì)對(duì)哪些商品標(biāo)的造成何種影響?”,情報(bào)輿情領(lǐng)域有預(yù)測(cè)事件后續(xù)影響的需求、尋找事件發(fā)生原因的需求,如“目標(biāo)市場(chǎng)區(qū)域內(nèi)棉花采購(gòu)量突然增多、可能的原因有哪些?”。客服及咨詢領(lǐng)域有正確定義、刻畫(huà)客戶服務(wù)過(guò)程中的狀態(tài)變化,以提高服務(wù)精準(zhǔn)化的需求,如“客戶購(gòu)買(mǎi)了此產(chǎn)品,如果中途贖回,哪些產(chǎn)品適合再次推薦給客戶?”等等。

?

傳統(tǒng)知識(shí)圖譜中的知識(shí)是靜態(tài)的,描述的是實(shí)體以及實(shí)體之間的關(guān)系,這些關(guān)系是相對(duì)確定和靜態(tài)的知識(shí),這個(gè)可以作為強(qiáng)大的知識(shí)庫(kù)讓機(jī)器人“才高八斗,學(xué)富五車(chē)”。但如何使這“八斗才”和“五車(chē)學(xué)”給“弄活”,讓機(jī)器學(xué)會(huì)知識(shí)的運(yùn)用,真正學(xué)會(huì)思考。那么就需要給這個(gè)知識(shí)再加上知識(shí)的“把玩規(guī)則”,形象的來(lái)說(shuō),就是一套邏輯規(guī)則。


圖4


?舉例來(lái)說(shuō),如圖4所示,我們?cè)谒伎嫉倪^(guò)程當(dāng)中,腦海里經(jīng)常會(huì)比如“為什么”,“按以往的經(jīng)驗(yàn)”、“八成會(huì)”、“據(jù)我分析”、“這個(gè)應(yīng)該是”、“怎么可能”等詞,這些詞很形象的表現(xiàn)表示出了我們思考的過(guò)程,我們將思考的過(guò)程,定義為運(yùn)用“事理”的過(guò)程,所謂“事理”,就是“事情”的道理,是思考的那條路徑,這個(gè)“事情”就是我們所需要的事件。對(duì)于事理,我們可以有多種理解,事理是一套經(jīng)驗(yàn)總結(jié),是一套對(duì)知識(shí)的規(guī)則,是一套邏輯推理的方法論,是對(duì)特定環(huán)境下知識(shí)在時(shí)空域上的展開(kāi)。圖5展示了知識(shí)、事件、實(shí)體、事理之間的關(guān)系,事件高于實(shí)體,實(shí)體是事件的組成部分,事件是事理的重要組成部分,事理和實(shí)體共同組成了知識(shí)。


圖5


目前,“事理圖譜”還是較新的概念,國(guó)內(nèi)多家公司和科研機(jī)構(gòu)都在“事理圖譜”的相關(guān)研究上進(jìn)行了探索,如哈爾濱工業(yè)大學(xué)信息檢索實(shí)驗(yàn)室劉挺老師團(tuán)隊(duì)首先提出了“事理圖譜”這一概念,并做了一些實(shí)驗(yàn)和基礎(chǔ)性的工作[1][2][3];中科院自動(dòng)化所趙軍老師團(tuán)隊(duì),上海大學(xué)劉宗田老師團(tuán)隊(duì)分別在事件抽取[4]和事件本體表示[5]上取得了豐碩的成果。


與知識(shí)圖譜的組織形式相仿,實(shí)體通過(guò)頭尾相連,可以組織形成圖譜狀的知識(shí)圖譜,事理采用類(lèi)似的組織方式,可以形成事理圖譜。知識(shí)圖譜與事理圖譜兩者之間存在著諸多異同之處,我們?cè)趨⒖记叭说墓ぷ魃?#xff0c;結(jié)合自己的研究工作,從描述知識(shí)、研究對(duì)象、構(gòu)建目標(biāo)、知識(shí)形式等共10個(gè)方面進(jìn)行了總結(jié),如圖6所示:


圖6


知識(shí)圖譜描述知識(shí)是萬(wàn)物實(shí)體,所研究的對(duì)象是名詞性實(shí)體及其屬性、關(guān)系。事理圖譜所要描繪的是一個(gè)邏輯社會(huì),研究對(duì)象是謂詞性事件及其內(nèi)外聯(lián)系。兩者都是有向圖的組織性質(zhì),在知識(shí)的確定性上,知識(shí)圖譜中的知識(shí)是以事實(shí)三元組為存儲(chǔ)型的、確定的,知識(shí)狀態(tài)相對(duì)靜態(tài),變化緩慢,但精度要求極高,實(shí)時(shí)性要求極高。事理圖譜中的知識(shí)時(shí)一個(gè)包含事件、論元集合、邏輯關(guān)系等的多元組,知識(shí)邏輯是不確定的,存在一種轉(zhuǎn)移概率。在應(yīng)用上,知識(shí)圖譜可以完成when / who/ what/ where等常識(shí)問(wèn)題。事理圖譜可以回答Why/How等動(dòng)態(tài)問(wèn)題。傳統(tǒng)概念之間的分類(lèi)關(guān)系即上下文關(guān)系不同,事件與事件之間除了上下位等分類(lèi)關(guān)系外,還存在非分類(lèi)關(guān)系,包括組成關(guān)系、因果關(guān)系、并發(fā)關(guān)系、條件關(guān)系、排斥關(guān)系等,這些關(guān)系一起對(duì)現(xiàn)實(shí)動(dòng)態(tài)知識(shí)種的邏輯知識(shí)進(jìn)行了描述。圖7主要列舉了事理邏輯的幾種類(lèi)型主要包括因果事理、條件事理、反轉(zhuǎn)事理、順承事理、順承事理、上下位事理、組成事理、并發(fā)事理共七類(lèi)事理:


圖7


因果事理描述的是認(rèn)知體系中的一種前因后果聯(lián)系,前面一個(gè)事件會(huì)導(dǎo)致后面一事件的發(fā)生;條件事理描述的是認(rèn)知體系中的一種條件結(jié)果關(guān)系,是一種預(yù)設(shè)與結(jié)果邏輯;反轉(zhuǎn)事理往往描述的是認(rèn)知體系中的一種互斥邏輯,是一種真假值邏輯;順承事理描述的認(rèn)知體系中的一種時(shí)間上的偏序關(guān)系,是一種先后動(dòng)作邏輯;組成事理,刻畫(huà)的是事件之間整體與部分的邏輯;上下位事理,描述的是事件在分類(lèi)體系中一種邏輯;并發(fā)事理,描述的是事件在時(shí)間上的一種共生關(guān)系,指一個(gè)事件發(fā)生下另一個(gè)事件一定發(fā)生;


事理圖譜的構(gòu)建


目前關(guān)于事理圖譜的構(gòu)建方式上,主要包括領(lǐng)域?qū)<沂謩?dòng)構(gòu)建以及基于海量文本自動(dòng)化獲取兩種方法。前者準(zhǔn)確率高但構(gòu)建成本較大,且規(guī)模難以快速增長(zhǎng);后者所見(jiàn)即所得,構(gòu)建成本較低,規(guī)模可快速擴(kuò)充,能夠迅速挖掘出海量邏輯,但缺點(diǎn)是精確度受多方面因素影響,準(zhǔn)確率較前者要低。事實(shí)上,目前事理邏輯廣泛存在于海量文本當(dāng)中,當(dāng)我們打開(kāi)百度或者谷歌搜索引擎,輸入“導(dǎo)致”或者“l(fā)ead to”這一詞時(shí),會(huì)返回多個(gè)包含因果事理的結(jié)果,如圖8所示。此外,問(wèn)答社區(qū)等資源也為基于海量文本自動(dòng)化獲取事理邏輯提供了可能。


圖8


事理邏輯的挖掘,可以分成基于顯式因果邏輯的挖掘和隱式因果邏輯的邏輯兩種。前者通過(guò)人工設(shè)定因果模式可以獲取大量的因果事件對(duì),例如對(duì)于句子“受范冰冰陰陽(yáng)合同事件牽連,唐德影視、華誼兄弟開(kāi)盤(pán)大跌”,可以結(jié)構(gòu)化出<范冰冰陰陽(yáng)合同事件,導(dǎo)致,唐德影視、華誼兄弟開(kāi)盤(pán)大跌>這樣的因果事件對(duì)。通過(guò)對(duì)原因事件和結(jié)果事件進(jìn)行進(jìn)一步解析,我們可以得到原因事件的關(guān)聯(lián)主體是人物,即影視明星“范冰冰”,事件的動(dòng)作是“陰陽(yáng)合同”,結(jié)果事件中關(guān)聯(lián)的主體是兩家傳媒上市公司,華德影視和華誼兄弟,事件的動(dòng)作是股價(jià)大跌。結(jié)合上下文,可進(jìn)一步明確事件發(fā)生的時(shí)間信息,為2018年6月4日。對(duì)這樣的事件對(duì),可進(jìn)一步抽象泛化成一種邏輯規(guī)則,即影視明星“陰陽(yáng)合同->傳媒公司股價(jià)下跌”這樣一條因果模式鏈。更進(jìn)一步,通過(guò)對(duì)動(dòng)作本身的情感極性進(jìn)行泛化,我們可以發(fā)現(xiàn),“陰陽(yáng)合同”屬于負(fù)面消息,股價(jià)下跌這一事件屬于負(fù)面影響,因此,可以進(jìn)一步泛化成“明星負(fù)面消息->公司利空”這條更為抽象的因果模式鏈。這樣,通過(guò)大量的顯示模式對(duì)事理邏輯進(jìn)行結(jié)構(gòu)化,對(duì)不同來(lái)源的事理知識(shí)進(jìn)行融合并層層抽象,可以得到大規(guī)模不同層級(jí)的事理邏輯,借助知識(shí)圖譜首尾相接的方式,我們對(duì)構(gòu)建好的一條條事理邏輯進(jìn)行鏈接,就形成了一個(gè)圖譜形式的事理邏輯脈絡(luò),即事理圖譜。


說(shuō)到事理圖譜,就不得不說(shuō)事件表示。事件表示是事理圖譜中的重要問(wèn)題之一,目前學(xué)界和業(yè)界正在尋求一種盡可能靈活、簡(jiǎn)單的方式去表示事件。在事件表示上,有上海大學(xué)劉宗田老師團(tuán)隊(duì)提出的“事件六要素本體模型”[5],即將事件建模成e = { A,O,T,V,P,L}的表示形式, 其中: A?為動(dòng)作要素; O?為對(duì)象要素; T?為時(shí)間要素; V?為環(huán)境要素; P?為斷言要素; L?為語(yǔ)言表現(xiàn)。?而這種表示方式無(wú)法直接用于圖譜節(jié)點(diǎn)表示,更可能成為一種事件描述信息隱藏于圖譜事件節(jié)點(diǎn)背后。我們?cè)趯?shí)際的工作當(dāng)中,嘗試了幾種事件表示方式,如含義、舉例、優(yōu)缺點(diǎn)如圖9所示:


圖9


當(dāng)前人工智能時(shí)代下,機(jī)器與人類(lèi)之間的博弈一直在進(jìn)行著。如圖1所示,從1926年達(dá)特茅斯會(huì)議的召開(kāi)標(biāo)志人工智能誕生到深度學(xué)習(xí)模型在若干人工智能領(lǐng)域大規(guī)模應(yīng)用的如今,人工智能已經(jīng)走過(guò)近60年的時(shí)間。人工智能的發(fā)展先后經(jīng)歷了兩次黃金期以及兩次低谷。1957年第一款神經(jīng)網(wǎng)絡(luò)的發(fā)明點(diǎn)燃了第一次人工智能的高潮,而隨后在20世紀(jì)70年代,受限于當(dāng)時(shí)的運(yùn)算資源,并不能完成大規(guī)模的數(shù)據(jù)訓(xùn)練,人工智能一度陷入低谷,直到1982年德普摩爾神經(jīng)網(wǎng)絡(luò)的提出以及BP算法的出現(xiàn)使得大規(guī)模神經(jīng)網(wǎng)絡(luò)訓(xùn)練成為可能后,人工智能才逐漸緩過(guò)神來(lái),并提出了全面實(shí)現(xiàn)人工智能計(jì)算機(jī)的目標(biāo),掀起了第二個(gè)黃金時(shí)期。但直到21世紀(jì)初,人工智能計(jì)算機(jī)并未實(shí)現(xiàn)以及政府的撤資,又一次將人工智能拉入低谷。隨后,在2006年深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)取得突破性進(jìn)展,一直到2015年深度學(xué)習(xí)算法在語(yǔ)音和視覺(jué)識(shí)別上取得的成功,再次引領(lǐng)了以深度學(xué)習(xí)為主流的人工智能時(shí)代第三個(gè)黃金期。


我們從漢語(yǔ)句法學(xué)和語(yǔ)義學(xué)的角度出發(fā),全面梳理了上千條事件邏輯關(guān)系顯示表達(dá)模式,構(gòu)建起了兩千萬(wàn)領(lǐng)域新聞資訊庫(kù),運(yùn)用事件抽取、事件對(duì)齊、事件融合以及泛化技術(shù),形成了規(guī)模約400萬(wàn)的事理圖譜,并實(shí)現(xiàn)了事理圖譜的動(dòng)態(tài)更新。接下來(lái),我們分別介紹在順承事理圖譜和因果事理圖譜上的一些成果:


圖10分別是部分“出行”和“烹飪”兩個(gè)順承子圖譜。從中我們看到,圍繞著“去麗江”這一事件所產(chǎn)生的順承邏輯,如“拿#身份證”->“去#售票口”-> “去#買(mǎi)票”->“遇上#旺季”->“去#麗江”這一順承邏輯,“去#麗江”-> “預(yù)訂#客棧”->“看過(guò)#攻略”->“結(jié)合#眼光”->“沒(méi)有#價(jià)值”->“擦亮#眼睛”這一順承邏輯結(jié)構(gòu)。“去#莊園”->“去#竹林”->“挖#冬筍”->“切成#塊”->“配上#鳊魚(yú)”-> “勻以#薯粉”->“成#棒狀”->“入#油鍋”->“炸成#小塊”這一順承事件鏈形象地描述了“烹飪”這一事件的時(shí)序關(guān)系。這種順承事理邏輯在揭示敘述性與步驟型事務(wù)的刻畫(huà)上是一種很好的形式。


圖10


以下分別是以“銀行降準(zhǔn)”和“智利地震”事件為核心所關(guān)聯(lián)的因果事理邏輯鏈,今年10月07日,央行宣布銀行降準(zhǔn),這勢(shì)必會(huì)造成多骨諾米牌效應(yīng),如圖11中所示:


圖11


銀行降準(zhǔn)會(huì)導(dǎo)致保險(xiǎn)股高開(kāi)、銀行股持續(xù)走強(qiáng),銀行股持續(xù)走強(qiáng)先后帶來(lái)銀行板塊集體拉升、板塊個(gè)股出現(xiàn)普漲狀態(tài)等結(jié)果。在“智利地震”這一事件因果事理圖譜中,我們可以看到受波及的一些列后續(xù)事件,如高檔魚(yú)粉價(jià)格上浮、早盤(pán)稀土板塊高開(kāi)、國(guó)際紙漿價(jià)格大幅上漲等事件,這些事件又進(jìn)一步傳導(dǎo),最終導(dǎo)致之家集體反彈、北京生活用紙普遍提價(jià)、滬鋁價(jià)格波動(dòng)區(qū)間上移等結(jié)果。這些因果邏輯在普通人看來(lái),并不能立刻想到,相反的,只有具有專(zhuān)業(yè)背景的人員才能有這種邏輯推導(dǎo)思維。如此看來(lái),事理圖譜對(duì)于這類(lèi)專(zhuān)業(yè)的邏輯鏈條可以進(jìn)行良好的組織和刻畫(huà)。


事理圖譜和知識(shí)圖譜的融合


如上面所介紹到的事理圖譜中是以事件為單位一種邏輯鏈路,而實(shí)體識(shí)事件的一個(gè)重組成部分,通過(guò)實(shí)體識(shí)別和實(shí)體鏈接技術(shù)可以將事件中的實(shí)體鏈接到相應(yīng)的實(shí)體知識(shí)庫(kù)當(dāng)中。如圖12所示:“范冰冰陰陽(yáng)合同違法”這一事件當(dāng)中,人物“范冰冰”可以鏈接到包含“范冰冰”這個(gè)人物的人物關(guān)系圖譜,如搜狗人物關(guān)系圖譜,導(dǎo)致光線傳媒、華誼嘉信、華誼兄弟等傳媒公司的股價(jià)下跌這一事件中,光線傳媒、華誼嘉信以及華誼兄弟這些公司類(lèi)實(shí)體,實(shí)體可以進(jìn)一步連接到以公司為實(shí)體的公司金融知識(shí)圖譜,該圖譜中包含了公司的主營(yíng)產(chǎn)品、所屬板塊、競(jìng)爭(zhēng)對(duì)手等各方面的信息,圖13顯示了融合后的狀態(tài)。


圖12


圖12顯示了事理圖譜和知識(shí)圖譜融合后的狀態(tài)(部分),通過(guò)因果關(guān)系事件,將事件中的實(shí)體進(jìn)行關(guān)聯(lián),結(jié)合實(shí)體之間的關(guān)聯(lián),可以進(jìn)一步進(jìn)行拓展,查詢,從而實(shí)現(xiàn)整體圖譜的聯(lián)動(dòng)。



圖13


除公司知識(shí)圖譜與事理圖譜的融合之外,我們?cè)诋a(chǎn)業(yè)鏈知識(shí)圖譜和事理圖譜融合的工作上進(jìn)行了嘗試,如圖14所示展示了“澳大利亞鋅礦執(zhí)行復(fù)產(chǎn)計(jì)劃事件”的融合效果子圖(部分),從“澳大利亞鋅礦執(zhí)行復(fù)產(chǎn)計(jì)劃事件”緩解相關(guān)鉛產(chǎn)量恢復(fù)等事件出發(fā),可以將事件與“鉛”商品這一商品、有色產(chǎn)業(yè)鏈等行業(yè)板塊類(lèi)實(shí)體與行業(yè)相鏈接,進(jìn)一步找到相應(yīng)的商品、個(gè)股等信息,通過(guò)這種鏈接和融合,可以進(jìn)一步對(duì)事件進(jìn)行知識(shí)信息的擴(kuò)展,形成從事理到知識(shí)概念的通路。


圖14

事理圖譜的應(yīng)用探討


事理圖譜有多種應(yīng)用場(chǎng)景,我們?cè)趯?shí)踐過(guò)程中,主要總結(jié)出了以下5種應(yīng)用形式:

1、基于事理圖譜的知識(shí)問(wèn)答。由于后臺(tái)有以事件和靜態(tài)知識(shí)為核心的事理邏輯,可以在完成“when”,“who”,“what”,“where”等常識(shí)問(wèn)題的同時(shí),進(jìn)一步回答“how”以及“why”的問(wèn)題,這種問(wèn)答的形式既可以是可視化搜索式,也可以是問(wèn)答形式,如圖15所示:


圖15


?當(dāng)用戶輸入“特朗普和金正恩又罵戰(zhàn)了會(huì)怎么樣?”這一問(wèn)句后,系統(tǒng)能夠給出直接的回答“這很有可能會(huì)是的美國(guó)朝鮮局勢(shì)更為緊張,朝鮮局勢(shì)緊張可能會(huì)帶來(lái)全球股市走低、避險(xiǎn)情緒升溫、金價(jià)上漲等一系列影響”。通過(guò)對(duì)該回答,再配以可視化因果邏輯鏈的展示方式,可以進(jìn)一步為這一回答提供佐證。

2、基于事理圖譜的消費(fèi)意圖識(shí)別。本文在前面說(shuō)到,順承事理圖譜對(duì)具有時(shí)序特征的敘述性事件能夠很好的刻畫(huà),它描繪了敘述性事件的整個(gè)階段。而我們正好可以利用這種階段性的特征,完成消費(fèi)推薦的任務(wù)。如圖16所示:


圖16


例如,當(dāng)用戶發(fā)出“麗江是個(gè)好地方,我想去看看”的狀態(tài)時(shí),通過(guò)分析該用戶的消費(fèi)意圖,將消費(fèi)意圖識(shí)別為一個(gè)出行事件時(shí),通過(guò)游走以“麗江出行”這一個(gè)順承圖譜可以推出多種消費(fèi)行為。例如“出機(jī)場(chǎng)、看到接待點(diǎn)”這個(gè)子事件可以推出“機(jī)票預(yù)訂與推薦”與“接送機(jī)”服務(wù);“預(yù)訂#客棧”這一子事件可以引出“酒店預(yù)訂”服務(wù),“買(mǎi)臥鋪票”這一子事件可引出“火車(chē)票預(yù)訂”這項(xiàng)需求。全局的來(lái)看,整個(gè)出行圖譜可以作為一個(gè)整體的出行指南提供給用戶,充當(dāng)用戶規(guī)劃的“探路者”與“規(guī)劃師”。

?

3、基于事理圖譜的重要新聞判別與推薦。大數(shù)據(jù)時(shí)代下,海量新聞在網(wǎng)絡(luò)上快速傳播,新聞個(gè)性化推薦以及重要新聞篩選成為了新聞檢索中的兩個(gè)重要任務(wù)。目前的推薦算法主要基于協(xié)同過(guò)濾、基于內(nèi)容推薦和混合推薦方法,這幾種方法從本質(zhì)上來(lái)說(shuō)都是對(duì)內(nèi)容與用戶進(jìn)行建模并進(jìn)行相似性計(jì)算得到的一種結(jié)果。事理圖譜的出現(xiàn),提供了一種重要性判別方式和新聞推薦方式。“歷史總是相似的,重要的事情總是周而復(fù)始的出現(xiàn)”,在這一假設(shè)下,通過(guò)對(duì)新聞文本進(jìn)行事件提取,并結(jié)合背后的事理圖譜,根據(jù)事件后續(xù)產(chǎn)生影響的重要性可以為整個(gè)新聞進(jìn)行重要性評(píng)分,并給出該新聞事件所蘊(yùn)含的已有事件和未來(lái)事件信息。通過(guò)這種方式對(duì)新聞資訊進(jìn)行建模和篩選,并結(jié)合用戶興趣模型,可以完成重要新聞的判別和推薦,如圖17所示:


圖17


4、基于事理圖譜的知識(shí)管理

知識(shí)圖譜的本質(zhì)上是一種以實(shí)體、實(shí)體屬性、實(shí)體與實(shí)體/屬性之間關(guān)系形成的一個(gè)知識(shí)庫(kù)。而由于知識(shí)圖譜中的知識(shí)是動(dòng)態(tài)變化的,尤其在多源知識(shí)融合、知識(shí)對(duì)齊當(dāng)中,為了保證知識(shí)的準(zhǔn)確性、實(shí)時(shí)性,通常需要進(jìn)行知識(shí)管理和編輯,這種操作可以類(lèi)似成數(shù)據(jù)庫(kù)的增、刪、改、查操作,圖18是我們開(kāi)發(fā)的一個(gè)知識(shí)圖譜編輯和管理工具,該工具可以支持對(duì)知識(shí)圖譜中知識(shí)數(shù)據(jù)的CRUD操作。當(dāng)然,這種知識(shí)更新的方式是人工自動(dòng)發(fā)現(xiàn)并進(jìn)行編輯,本質(zhì)上來(lái)說(shuō),并沒(méi)有實(shí)現(xiàn)知識(shí)圖譜中數(shù)據(jù)的全自動(dòng)更新。


圖18


與知識(shí)圖譜不同,事理圖譜這一以事件為實(shí)體節(jié)點(diǎn),并融入靜態(tài)實(shí)體的知識(shí)組織方式將靜態(tài)的知識(shí)和動(dòng)態(tài)的邏輯規(guī)則(前面說(shuō)到的多種事件關(guān)系)形緊密相連,形成一個(gè)強(qiáng)大的邏輯鏈路網(wǎng)絡(luò),使得事理圖譜天生具備了知識(shí)更新指導(dǎo)能力。將事理圖譜與實(shí)際的業(yè)務(wù)邏輯系統(tǒng)相結(jié)合,并不斷賦予事理更全面、更精細(xì)的邏輯體系,能夠在一方面對(duì)根據(jù)外界事件知識(shí)的變化而對(duì)已有靜態(tài)知識(shí)進(jìn)行及時(shí)動(dòng)態(tài)更新,如銀行客服系統(tǒng)中的會(huì)話流程控制、互斥業(yè)務(wù)控制,用戶郵儲(chǔ)狀態(tài)的更新等,這將提升銀行客戶系統(tǒng)的體驗(yàn)和智能水平。舉一個(gè)實(shí)際的例子:銀行業(yè)務(wù)中知識(shí)圖譜中有一條知識(shí)數(shù)據(jù),即用戶同時(shí)辦理了業(yè)務(wù)A和業(yè)務(wù)B,而實(shí)際上,辦理業(yè)務(wù)A和辦理業(yè)務(wù)B兩者之間存在一種互斥關(guān)系,那么則可以通過(guò)兩個(gè)業(yè)務(wù)辦理的先后順序,更新用戶的業(yè)務(wù)知識(shí)信息,將辦理業(yè)務(wù)B這條知識(shí)進(jìn)行移除。類(lèi)似的例子還有很多。

?

5、基于事理圖譜的推理與輔助決策

知識(shí)推理是知識(shí)圖譜的終極目標(biāo),基于過(guò)去已知知識(shí)進(jìn)行知識(shí)推理,采用如事件驅(qū)動(dòng)傳導(dǎo)路徑等進(jìn)行知識(shí)發(fā)現(xiàn),能夠在業(yè)務(wù)的推理和輔助決策上也能帶來(lái)一定幫助,如智能投研中的未知風(fēng)險(xiǎn)預(yù)警、公司輿論控制等,如圖19展示了我們目前開(kāi)發(fā)形成的事件驅(qū)動(dòng)工具,通過(guò)人工自定義構(gòu)造傳導(dǎo)鏈,進(jìn)行既定模式檢索,可以完成對(duì)既定知識(shí)邏輯路線的發(fā)現(xiàn)與探索。


圖19


以上圖中描述的“尋跡”模式進(jìn)行邏輯鏈條傳導(dǎo)的方式不同,基于事理圖譜的事件傳導(dǎo)中的邏輯聯(lián)系更為接近于人腦中的真實(shí)邏輯鏈條。前者傳導(dǎo)的路徑存在著一個(gè)基本型的假設(shè),即知識(shí)與知識(shí)之間的屬性或關(guān)系通過(guò)人工方式強(qiáng)制地進(jìn)行映射和編制,其中有個(gè)十分明顯的缺陷就是傳導(dǎo)邊上的邏輯概率量化問(wèn)題。

?

“事理圖譜”的出現(xiàn),則從事件狀態(tài)的邏輯轉(zhuǎn)移上為這種推理機(jī)制提供了一個(gè)新的方向。如圖20所示的demo所示,用戶輸入一個(gè)事件點(diǎn)擊提交之后,運(yùn)用事件規(guī)范化和事件相似性計(jì)算等方法,我們會(huì)在后臺(tái)400萬(wàn)個(gè)事理圖譜找到一個(gè)與用戶輸入事件最為相似的一個(gè)事件,以該事件為核心會(huì)返回多條相似事件所造成的影響事件。針對(duì)影響事件,我們運(yùn)用事件重要性判定技術(shù)和事件實(shí)體鏈接技術(shù)對(duì)影響事件進(jìn)行過(guò)濾,使得造成的事件中一定是某種商品或者公司的類(lèi)似事件,這種方式能夠就用戶給定的事件,給出一個(gè)最為直接了當(dāng)?shù)臉?biāo)的結(jié)果。圖20中展示了以“螺紋鋼價(jià)格上漲”為核心的因果邏輯傳導(dǎo)推理鏈條,在經(jīng)過(guò)不斷進(jìn)行鏈條的推理擴(kuò)展之后,步步推理至各類(lèi)實(shí)體事件后最終產(chǎn)生的結(jié)果圖。從一度推理的“螺紋鋼價(jià)格上漲”導(dǎo)致廢鋼庫(kù)存小幅減少,到小麥期貨小幅收低等多層推理結(jié)果等,能夠在一定程度上描繪出整個(gè)邏輯鏈條的傳導(dǎo)機(jī)制。


圖20


當(dāng)然,基于因果事理圖譜的邏輯影響推理仍然存在著諸多不足,比如多層邏輯推理上的效應(yīng)傳導(dǎo)量化與誤差傳播問(wèn)題,事件對(duì)齊與泛化問(wèn)題,這些對(duì)事理邏輯的準(zhǔn)確性都有著較大的影響,這都是后續(xù)努力攻克的方向。


事理圖譜的未來(lái)和挑戰(zhàn)


知識(shí)圖譜從提出至今,經(jīng)過(guò)技術(shù)的更新和體系的逐步完善,已經(jīng)在各方面得到了一定規(guī)模的運(yùn)用,但在描述動(dòng)態(tài)現(xiàn)實(shí)社會(huì)知識(shí)和認(rèn)知智能思考上還存在一定不足,如何解決以上兩個(gè)問(wèn)題,賦予知識(shí)圖譜更大的力量,將是未來(lái)知識(shí)圖譜努力的方向。就知識(shí)而言,靜態(tài)的知識(shí)需要一個(gè)上層的知識(shí)運(yùn)用邏輯體系,一個(gè)知識(shí)邏輯體系需要底層強(qiáng)大的知識(shí)庫(kù)作為有效承載,事理圖譜,作為一個(gè)新的知識(shí)組織、表示和管理方式,是認(rèn)知智能的一個(gè)重要突破口。事理圖譜是知識(shí)圖譜“動(dòng)起來(lái)”的神經(jīng),知識(shí)圖譜是事理圖譜運(yùn)行的血肉載體,描述知識(shí)邏輯架構(gòu)的事理圖譜與刻畫(huà)靜態(tài)概念知識(shí)內(nèi)容的知識(shí)圖譜攜手并進(jìn)將是未來(lái)的一個(gè)趨勢(shì)。


事理圖譜是一個(gè)龐大的課題,未來(lái)還有很長(zhǎng)的路要走,如何找到一種靈活的事件表示方式,事理的執(zhí)行、預(yù)測(cè)和推演機(jī)制,構(gòu)造出一種知識(shí)的自我更新和生長(zhǎng)方式,最終實(shí)現(xiàn)機(jī)器知識(shí)的自我更新和生長(zhǎng),將是未來(lái)漫漫長(zhǎng)路中需要攻克的難題。得益于前人在事理圖譜上的一系列非常有啟發(fā)性的探索工作,我們?cè)谥R(shí)圖譜、事理圖譜上的應(yīng)用場(chǎng)景、技術(shù)理論、技術(shù)實(shí)現(xiàn)上做了一些基礎(chǔ)性的推進(jìn)工作,未來(lái),我們將進(jìn)一步細(xì)化事理關(guān)系,完善事理圖譜各方面的技術(shù)體系,深化事理圖譜的構(gòu)建以及在場(chǎng)景中的應(yīng)用,愿同各位一道,在通往認(rèn)知智能的道路上,努力前行!

?

我們將實(shí)現(xiàn)動(dòng)態(tài)更新的400萬(wàn)事理圖譜與商品產(chǎn)業(yè)鏈圖譜、上市公司金融圖譜進(jìn)行融合,并運(yùn)用事件標(biāo)準(zhǔn)化、實(shí)體鏈接、融合以及事件重要性判定等技術(shù)對(duì)事理邏輯進(jìn)行約束,研制上線了商品金融領(lǐng)域事理圖譜Demo,Demo地址:http://39.106.1.94:8080? (請(qǐng)復(fù)制鏈接到PC瀏覽器中打開(kāi)),歡迎體驗(yàn)并提出寶貴意見(jiàn)。


參考文獻(xiàn)

[1]中科院趙軍,《開(kāi)放域事件抽取》, https://www.leiphone.com/news/201807/2QQZ2aRIZNHFODBY.html

[2]哈工大信息檢索實(shí)驗(yàn)室,《事理圖譜:事件演化的規(guī)律和模式》, http://blog.sina.com.cn/s/blog_72d083c70102y3jv.html

[3]哈工大信息檢索實(shí)驗(yàn)室,《抽象因果事理圖譜的構(gòu)建和應(yīng)用》, http://www.sohu.com/a/137802985_657157

[4]哈工大信息檢索實(shí)驗(yàn)室,《從知識(shí)圖譜到事理圖譜》,https://www.leiphone.com/news/201711/Fx6Mgs9WRPBshnIG.html

[5]劉宗田等,《面向事件的本體研究》[J],計(jì)算機(jī)科學(xué),2009, vol.36



OpenKG.CN


中文開(kāi)放知識(shí)圖譜(簡(jiǎn)稱OpenKG.CN)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開(kāi)放與互聯(lián),促進(jìn)知識(shí)圖譜和語(yǔ)義技術(shù)的普及和廣泛應(yīng)用。

點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。

總結(jié)

以上是生活随笔為你收集整理的技术动态 | 事理图谱,下一代知识图谱的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。