日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

李涓子 | 机器智能加速器:大数据环境下知识工程的机遇和挑战

發(fā)布時間:2024/7/5 编程问答 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 李涓子 | 机器智能加速器:大数据环境下知识工程的机遇和挑战 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

本文轉(zhuǎn)載自公眾號:數(shù)據(jù)派THU。 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?


導(dǎo)讀:知識圖譜已經(jīng)成為推動人工智能發(fā)展的核心驅(qū)動力之一。本文選自清華大學(xué)計算機科學(xué)與技術(shù)系教授、清華-青島數(shù)據(jù)科學(xué)研究院科技大數(shù)據(jù)研究中心主任李涓子老師于2017年12月20日在阿里聯(lián)合中文信息學(xué)會語言與知識計算專委會舉辦的知識圖譜研討會上做的以“知識工程:機器智能的加速器”為題的報告。李涓子老師在報告中概述了與知識圖譜密切相關(guān)的在大數(shù)據(jù)環(huán)境下的知識工程在知識表示、知識獲取、知識推理計算以及知識服務(wù)中面臨的研究挑戰(zhàn),并介紹了在知識圖譜的相關(guān)研究工作。

?

李涓子,清華大學(xué)計算機科學(xué)與技術(shù)系教授,博士生導(dǎo)師。清華-青島數(shù)據(jù)科學(xué)研究院科技大數(shù)據(jù)研究中心主任、中國中文信息學(xué)會語言與知識計算專委會主任、中國計算機學(xué)會術(shù)語委員會執(zhí)行委員。研究興趣是語義 Web,新聞挖掘與跨語言知識圖譜構(gòu)建。多篇論文在重要國際會議(WWW、IJCAI、SIGIR、SIGKDD)和學(xué)術(shù)期刊(TKDE、TKDD)上發(fā)表。主持多項國家級、部委級和國際合作項目研究,包括國家自然科學(xué)基金重點項目、歐盟第七合作框架、新華社項目等。獲得 2013 年人工智能學(xué)會科技進(jìn)步一等獎,2013年電子學(xué)會自然科學(xué)二等獎。

?

以下是演講實錄:

?

今天我的演講主題是“知識工程:機器智能的加速器”,下面我將結(jié)合數(shù)據(jù)、信息、知識、智能等相關(guān)概念及其關(guān)系回顧知識工程四十年來的研究和應(yīng)用發(fā)展,包括大數(shù)據(jù)時代知識工程的挑戰(zhàn)以及我們的部分相關(guān)工作。

?

一、知識工程四十年:讓機器更智能

?

我們迎來了大數(shù)據(jù)時代,大數(shù)據(jù)具有規(guī)模性、多樣性、快速性和真實性等特點。大數(shù)據(jù)正在改變我們的生活、工作和思考方式。

?

?

在這樣的背景下,大數(shù)據(jù)對智能服務(wù)的需求已經(jīng)從單純的搜集獲取信息,轉(zhuǎn)變?yōu)樽詣踊闹R提供服務(wù),這也給知識工程提出了很多挑戰(zhàn)性的問題。我們需要利用知識工程為大數(shù)據(jù)添加語義/知識,使數(shù)據(jù)產(chǎn)生智慧(smart data),完成從數(shù)據(jù)到信息再到知識,最終到智能應(yīng)用的轉(zhuǎn)變過程,從而實現(xiàn)對大數(shù)據(jù)的洞察、提供用戶關(guān)心問題的答案、為決策提供支持、改進(jìn)用戶體驗等目標(biāo)。

?

?

今年恰逢知識工程提出40年,我們梳理了知識工程的四十年發(fā)展歷程,總結(jié)知識工程的演進(jìn)過程、技術(shù)進(jìn)展以及為機器智能所做的貢獻(xiàn)。

?

?

1950-1970年代 圖靈測試:

人工智能旨在讓機器能夠像人一樣解決復(fù)雜問題,智能的評測是圖靈測試。這一階段主要涌現(xiàn)出兩種人工智能方法:符號主義和連結(jié)主義。通用問題求解程序(GPS)成為當(dāng)時代表性的方法:將問題進(jìn)行形式化的表達(dá),通過搜索,從問題的初始狀態(tài),結(jié)合定義的規(guī)則或表示,得到目標(biāo)狀態(tài)。典型應(yīng)用是博弈論和機器定理證明等。這一時期的知識表達(dá)主要有邏輯知識表示、產(chǎn)生式規(guī)則、語義網(wǎng)絡(luò)等。

?

?

1970-1990年代 專家系統(tǒng):

只有通用問題求解不足以支持實現(xiàn)智能,Feigenbaum認(rèn)為知識是機器實現(xiàn)智能的核心,在70年代中后期年正式提出以專家系統(tǒng)為代表的知識工程概念,通過知識庫+推理實現(xiàn)更智能的系統(tǒng)。這表明在求解問題過程中還需要注入領(lǐng)域知識,以此確立知識工程在人工智能領(lǐng)域的核心地位。這一時期知識表示有新的演進(jìn),包括框架和腳本等。80年代后期出現(xiàn)很多專家系統(tǒng)的開發(fā)平臺,可以幫助將專家領(lǐng)域的知識轉(zhuǎn)變成計算機可以處理的知識。

?

?

1990-2000年代 Web1.0萬維網(wǎng):

萬維網(wǎng)(World Wide Web)的產(chǎn)生為人們提供了一個開放平臺,使用HTML定義文本內(nèi)容,通過超鏈接把文本連接起來,以此共享信息。隨后出現(xiàn)了XML—標(biāo)簽語言,對內(nèi)容結(jié)構(gòu)通過定義標(biāo)簽進(jìn)行標(biāo)記,為后續(xù)互聯(lián)網(wǎng)環(huán)境下知識表示奠定了基礎(chǔ)。

?

?

2000-2006年代 Web2.0 群體智能:

這一時期是信息爆炸式增長的過程,萬維網(wǎng)的出現(xiàn)使得我們的知識從封閉走向開放,從集中成為分布。原來專家系統(tǒng)是系統(tǒng)內(nèi)部定義的知識,現(xiàn)在可以實現(xiàn)知識源之間相互連接,可以通過關(guān)聯(lián)來產(chǎn)生更多更豐富的知識,而非完全由確定的人或者單位生產(chǎn)。這個過程就是群體智能,最典型的代表就是維基百科,大眾用戶去建立知識,體現(xiàn)了互聯(lián)網(wǎng)大眾用戶對知識的貢獻(xiàn),也今天的大規(guī)模知識圖譜的基礎(chǔ)。同時,在2001年萬維網(wǎng)發(fā)明人、2016年圖靈獎獲得者Tim Berners-Lee提出語義Web的概念,旨在對互聯(lián)網(wǎng)內(nèi)容進(jìn)行結(jié)構(gòu)化語義表示,而RDF和OWL就是對內(nèi)容結(jié)構(gòu)化表示的標(biāo)識定義,在這樣的語義表示支持下,人和機器才能夠更好協(xié)同工作。

?

?

2006年至今 知識圖譜:

這一時期有很多工作在對維基百科進(jìn)行結(jié)構(gòu)化,例如DBpedia、YAGO和Freebase等。Google的知識圖譜(knowledge graph)就是收購了Freebase之后產(chǎn)生的大規(guī)模知識圖譜。現(xiàn)在我們看知識圖譜的發(fā)展和應(yīng)用狀況,除了通用的大規(guī)模知識圖譜,各行各業(yè)也在建立行業(yè)和領(lǐng)域的知識圖譜。我們也看到了恨到大規(guī)模知識圖譜的應(yīng)用,包括語義搜索、問答系統(tǒng)與聊天、大數(shù)據(jù)語義分析以及智能知識服務(wù)等,更多知識圖譜的創(chuàng)新應(yīng)用還有待開發(fā)。

?

?

二、知識工程與大數(shù)據(jù)機器學(xué)習(xí)的結(jié)合

?

隨著信息技術(shù)進(jìn)步和大數(shù)據(jù)時代的到來,大數(shù)據(jù)機器學(xué)習(xí)也得到快速發(fā)展,基于表示學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)的機器學(xué)習(xí)方法獲得了巨大成果,并已經(jīng)成功應(yīng)用于語音識別、圖像識別和機器翻譯等。



?

總結(jié)大數(shù)據(jù)驅(qū)動的深度學(xué)習(xí)的優(yōu)點和局限性可以看出,當(dāng)前大數(shù)據(jù)驅(qū)動的機器學(xué)習(xí)是一個黑盒的學(xué)習(xí)過程。而計算機若要實現(xiàn)智能,就意味著能夠幫助人類做完成復(fù)雜工作或則做出決策。目前的大數(shù)據(jù)機器學(xué)習(xí)能夠給予一些決策支持,但用戶不會滿足于只給推薦結(jié)果,用戶希望的習(xí)得的模型解釋給出的模型為何成功何時成功等。這就是可解釋的人工智能,這就需要與人的認(rèn)知進(jìn)行結(jié)合。

?

?

比如機器自動識別出一張圖片中的物體是貓,它還需要告訴我們?yōu)槭裁磁袛酁樨?#xff0c;如應(yīng)為貓有毛、有胡須有爪子等毛的特征,也就是告訴人們機器做決策的依據(jù)是什么。

?

?

由此,大數(shù)據(jù)深度學(xué)習(xí)學(xué)到的是事物底層特征空間,人能理解的對應(yīng)的是事物語義空間,這當(dāng)中存在語義鴻溝,而知識圖譜可以用來彌合這個鴻溝。

?

?

現(xiàn)在我們來看以知識驅(qū)動為代表的專家系統(tǒng)的典型結(jié)構(gòu):知識庫、推理引擎和人機接口。當(dāng)時專家系統(tǒng)沒有發(fā)展起來主要受限于專家知識難以獲得以及計算機計算能力的限制。

?

?

在大數(shù)據(jù)環(huán)境下,我們可以采用自動或者半自動方法利用大數(shù)據(jù)機器學(xué)習(xí)方法從大數(shù)據(jù)中獲得知識,由此建立大數(shù)據(jù)環(huán)境下智能系統(tǒng)。

?

?

三、大數(shù)據(jù)環(huán)境下知識工程的研究和挑戰(zhàn)


在大數(shù)據(jù)環(huán)境下,我們希望能夠從互聯(lián)網(wǎng)開放環(huán)境下的大數(shù)據(jù)獲得知識,用這些知識提供智能服務(wù)反哺互聯(lián)網(wǎng)/行業(yè)。這是一個迭代的相互增強過程,最終的目的是實現(xiàn)從互聯(lián)網(wǎng)信息服務(wù)到智能知識服務(wù)的躍遷。

?

?

因為提出知識工程而在1994年獲得圖靈獎的Feigenbaum教授將知識工程定義為:將知識集成到計算機系統(tǒng)完成只有特定領(lǐng)域?qū)<也拍芡瓿傻膹?fù)雜任務(wù)。在大數(shù)據(jù)時代,我們對此進(jìn)一步改進(jìn):知識工程是從大數(shù)據(jù)中自動或半自動獲取知識,建立基于知識的系統(tǒng),以此提供互聯(lián)網(wǎng)智能知識服務(wù),如語義搜索和問答系統(tǒng)等。

?

?

總結(jié)當(dāng)前知識驅(qū)動和數(shù)據(jù)驅(qū)動的人工智能方法,以符號表示為代表的知識驅(qū)動方法表示的知識明確、可以舉一反三、進(jìn)行解釋和推理。而大數(shù)據(jù)深度學(xué)習(xí)為代表的數(shù)據(jù)驅(qū)動方法可以進(jìn)行感知和記憶,進(jìn)行關(guān)聯(lián)計算,但是難以解釋其推理計算過程。因此兩種方法的融合為我們研究基于知識的智能技術(shù)提供了契機。

?


?

同時,兩種方法的融合也帶來許多挑戰(zhàn)性問題。下面從組成知識工程生命周期的知識建模、知識獲取、知識存儲和計算、以及知識重用的四個階段看每個階段所面臨的挑戰(zhàn)。


知識表示方面,主要是研究大數(shù)據(jù)知識表示的理論與方法,使知識既具有顯式的語義定義,又便于大數(shù)據(jù)環(huán)境下的知識計算與推理。

?

?

知識獲取與融合方面,主要研究知識獲取和語義關(guān)聯(lián)技術(shù)。目前符號表示的知識是稀疏的,如何在知識稀疏和大數(shù)據(jù)環(huán)境下研究知識引導(dǎo)的知識獲取方,獲得大規(guī)模和高精度的知識是我們面臨的挑戰(zhàn)。


?

在知識計算和推理方面,當(dāng)前基于符號的推理雖然有一些很好的推理工具,但是大規(guī)模知識推理效率還很受約束。深度學(xué)習(xí)或概率的推理方法方便計算但是難以解釋。大數(shù)據(jù)環(huán)境下知識計算和推理需要研究深度學(xué)習(xí)和邏輯規(guī)則相結(jié)合的知識推理和演化方法,以提升新知識發(fā)現(xiàn)的能力。

?


?

知識工程的最終目標(biāo)是實現(xiàn)知識驅(qū)動的個性化智能服務(wù)。以知識圖譜關(guān)聯(lián)和分析用戶行為,通過情景感知分析用戶需求,以提供不同形式的個性化服務(wù)如知識導(dǎo)航、語義搜索和問答等。


?

知識工程發(fā)展趨勢可以歸納為四個方面。

?

?

四、我們的相關(guān)工作


下面首先介紹我們實驗室在ACL2017上發(fā)表論文基于實體提及表示學(xué)習(xí)的實體鏈接工作。實體鏈接是知識圖譜中的基礎(chǔ)研究問題。有兩個挑戰(zhàn),一是文本中同一個實體會有多個提及形式,例如獨立日可以用Independence Day,也可以July First。二是同一個短語可能會對應(yīng)不同的實體,獨立日有可能指電影,也可能是節(jié)日。因此,組成實體提及的詞或者短語具有多義性。

?


?

我們提出一種詞、實體提及和實體的聯(lián)合表示學(xué)習(xí)模型,學(xué)習(xí)實體提及不同語義的向量表示,實現(xiàn)了基于實體提及的無監(jiān)督實體鏈接方法,取得了高精度的實體鏈接結(jié)果。以此為主要技術(shù)研制實現(xiàn)的跨語言實體鏈接工具XLink已經(jīng)應(yīng)用于我們開發(fā)的跨語言知識圖譜系統(tǒng)XLORE中,并提供中英文文本的實體鏈接服務(wù)。


?

另一項工作,是我們實驗室唐杰主持的從2006年就開始上線運行的科技大數(shù)據(jù)的挖掘和服務(wù)平臺AMiner。AMiner目標(biāo)一是建立科技領(lǐng)域知識圖譜,二是對研究者進(jìn)行畫像,獲取研究者興趣和研究者信息,最終實現(xiàn)知識推薦等智能服務(wù)。

?

?

Aminer在專家搜索方面利用專家結(jié)構(gòu)化信息提供精細(xì)化的搜索服務(wù)。例如輸入“美國”、“數(shù)據(jù)挖掘”和“華裔女性”就能得到滿足用戶需求的結(jié)果。Aminer 還可以通過專家基本信息、研究成果等進(jìn)行專家畫像,做研究者研究興趣的演化分析;可以根據(jù)用戶需求動態(tài)建立全球人才分布地圖;可以做會議影響力分析;提供論文、研究報告評審專家推薦等。AMiner還建立了100余個專家智庫。

?


總結(jié)匯報內(nèi)容。首先,從數(shù)據(jù)、信息、知識到智能概念及關(guān)系看知識工程的在機器智能中重要性;其次,知識圖譜將互聯(lián)網(wǎng)信息表達(dá)成更接近人類認(rèn)知世界的形式,可以將互聯(lián)網(wǎng)內(nèi)容從符號轉(zhuǎn)化為計算機可理解和計算的語義信息,可以更好地理解互聯(lián)網(wǎng)內(nèi)容;然后,知識工程從大數(shù)據(jù)中挖掘知識,可以彌合大數(shù)據(jù)機器學(xué)習(xí)底層特征與人類認(rèn)知的鴻溝;最后,構(gòu)建大數(shù)據(jù)環(huán)境下由數(shù)據(jù)向知識轉(zhuǎn)化的知識引擎,是實現(xiàn)從互聯(lián)網(wǎng)信息服務(wù)到知識服務(wù)新業(yè)態(tài)的核心技術(shù)。

?

整理:劉文清



OpenKG.CN


中文開放知識圖譜(簡稱OpenKG.CN)旨在促進(jìn)中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。

點擊閱讀原文,進(jìn)入 OpenKG 博客。

總結(jié)

以上是生活随笔為你收集整理的李涓子 | 机器智能加速器:大数据环境下知识工程的机遇和挑战的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。