李涓子 | 机器智能加速器:大数据环境下知识工程的机遇和挑战
本文轉載自公眾號:數據派THU。 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
導讀:知識圖譜已經成為推動人工智能發展的核心驅動力之一。本文選自清華大學計算機科學與技術系教授、清華-青島數據科學研究院科技大數據研究中心主任李涓子老師于2017年12月20日在阿里聯合中文信息學會語言與知識計算專委會舉辦的知識圖譜研討會上做的以“知識工程:機器智能的加速器”為題的報告。李涓子老師在報告中概述了與知識圖譜密切相關的在大數據環境下的知識工程在知識表示、知識獲取、知識推理計算以及知識服務中面臨的研究挑戰,并介紹了在知識圖譜的相關研究工作。
?
李涓子,清華大學計算機科學與技術系教授,博士生導師。清華-青島數據科學研究院科技大數據研究中心主任、中國中文信息學會語言與知識計算專委會主任、中國計算機學會術語委員會執行委員。研究興趣是語義 Web,新聞挖掘與跨語言知識圖譜構建。多篇論文在重要國際會議(WWW、IJCAI、SIGIR、SIGKDD)和學術期刊(TKDE、TKDD)上發表。主持多項國家級、部委級和國際合作項目研究,包括國家自然科學基金重點項目、歐盟第七合作框架、新華社項目等。獲得 2013 年人工智能學會科技進步一等獎,2013年電子學會自然科學二等獎。
?
以下是演講實錄:
?
今天我的演講主題是“知識工程:機器智能的加速器”,下面我將結合數據、信息、知識、智能等相關概念及其關系回顧知識工程四十年來的研究和應用發展,包括大數據時代知識工程的挑戰以及我們的部分相關工作。
?
一、知識工程四十年:讓機器更智能
?
我們迎來了大數據時代,大數據具有規模性、多樣性、快速性和真實性等特點。大數據正在改變我們的生活、工作和思考方式。
?
?
在這樣的背景下,大數據對智能服務的需求已經從單純的搜集獲取信息,轉變為自動化的知識提供服務,這也給知識工程提出了很多挑戰性的問題。我們需要利用知識工程為大數據添加語義/知識,使數據產生智慧(smart data),完成從數據到信息再到知識,最終到智能應用的轉變過程,從而實現對大數據的洞察、提供用戶關心問題的答案、為決策提供支持、改進用戶體驗等目標。
?
?
今年恰逢知識工程提出40年,我們梳理了知識工程的四十年發展歷程,總結知識工程的演進過程、技術進展以及為機器智能所做的貢獻。
?
?
1950-1970年代 圖靈測試:
人工智能旨在讓機器能夠像人一樣解決復雜問題,智能的評測是圖靈測試。這一階段主要涌現出兩種人工智能方法:符號主義和連結主義。通用問題求解程序(GPS)成為當時代表性的方法:將問題進行形式化的表達,通過搜索,從問題的初始狀態,結合定義的規則或表示,得到目標狀態。典型應用是博弈論和機器定理證明等。這一時期的知識表達主要有邏輯知識表示、產生式規則、語義網絡等。
?
?
1970-1990年代 專家系統:
只有通用問題求解不足以支持實現智能,Feigenbaum認為知識是機器實現智能的核心,在70年代中后期年正式提出以專家系統為代表的知識工程概念,通過知識庫+推理實現更智能的系統。這表明在求解問題過程中還需要注入領域知識,以此確立知識工程在人工智能領域的核心地位。這一時期知識表示有新的演進,包括框架和腳本等。80年代后期出現很多專家系統的開發平臺,可以幫助將專家領域的知識轉變成計算機可以處理的知識。
?
?
1990-2000年代 Web1.0萬維網:
萬維網(World Wide Web)的產生為人們提供了一個開放平臺,使用HTML定義文本內容,通過超鏈接把文本連接起來,以此共享信息。隨后出現了XML—標簽語言,對內容結構通過定義標簽進行標記,為后續互聯網環境下知識表示奠定了基礎。
?
?
2000-2006年代 Web2.0 群體智能:
這一時期是信息爆炸式增長的過程,萬維網的出現使得我們的知識從封閉走向開放,從集中成為分布。原來專家系統是系統內部定義的知識,現在可以實現知識源之間相互連接,可以通過關聯來產生更多更豐富的知識,而非完全由確定的人或者單位生產。這個過程就是群體智能,最典型的代表就是維基百科,大眾用戶去建立知識,體現了互聯網大眾用戶對知識的貢獻,也今天的大規模知識圖譜的基礎。同時,在2001年萬維網發明人、2016年圖靈獎獲得者Tim Berners-Lee提出語義Web的概念,旨在對互聯網內容進行結構化語義表示,而RDF和OWL就是對內容結構化表示的標識定義,在這樣的語義表示支持下,人和機器才能夠更好協同工作。
?
?
2006年至今 知識圖譜:
這一時期有很多工作在對維基百科進行結構化,例如DBpedia、YAGO和Freebase等。Google的知識圖譜(knowledge graph)就是收購了Freebase之后產生的大規模知識圖譜。現在我們看知識圖譜的發展和應用狀況,除了通用的大規模知識圖譜,各行各業也在建立行業和領域的知識圖譜。我們也看到了恨到大規模知識圖譜的應用,包括語義搜索、問答系統與聊天、大數據語義分析以及智能知識服務等,更多知識圖譜的創新應用還有待開發。
?
?
二、知識工程與大數據機器學習的結合
?
隨著信息技術進步和大數據時代的到來,大數據機器學習也得到快速發展,基于表示學習和深度神經網絡的機器學習方法獲得了巨大成果,并已經成功應用于語音識別、圖像識別和機器翻譯等。
?
總結大數據驅動的深度學習的優點和局限性可以看出,當前大數據驅動的機器學習是一個黑盒的學習過程。而計算機若要實現智能,就意味著能夠幫助人類做完成復雜工作或則做出決策。目前的大數據機器學習能夠給予一些決策支持,但用戶不會滿足于只給推薦結果,用戶希望的習得的模型解釋給出的模型為何成功何時成功等。這就是可解釋的人工智能,這就需要與人的認知進行結合。
?
?
比如機器自動識別出一張圖片中的物體是貓,它還需要告訴我們為什么判斷為貓,如應為貓有毛、有胡須有爪子等毛的特征,也就是告訴人們機器做決策的依據是什么。
?
?
由此,大數據深度學習學到的是事物底層特征空間,人能理解的對應的是事物語義空間,這當中存在語義鴻溝,而知識圖譜可以用來彌合這個鴻溝。
?
?
現在我們來看以知識驅動為代表的專家系統的典型結構:知識庫、推理引擎和人機接口。當時專家系統沒有發展起來主要受限于專家知識難以獲得以及計算機計算能力的限制。
?
?
在大數據環境下,我們可以采用自動或者半自動方法利用大數據機器學習方法從大數據中獲得知識,由此建立大數據環境下智能系統。
?
?
三、大數據環境下知識工程的研究和挑戰
在大數據環境下,我們希望能夠從互聯網開放環境下的大數據獲得知識,用這些知識提供智能服務反哺互聯網/行業。這是一個迭代的相互增強過程,最終的目的是實現從互聯網信息服務到智能知識服務的躍遷。
?
?
因為提出知識工程而在1994年獲得圖靈獎的Feigenbaum教授將知識工程定義為:將知識集成到計算機系統完成只有特定領域專家才能完成的復雜任務。在大數據時代,我們對此進一步改進:知識工程是從大數據中自動或半自動獲取知識,建立基于知識的系統,以此提供互聯網智能知識服務,如語義搜索和問答系統等。
?
?
總結當前知識驅動和數據驅動的人工智能方法,以符號表示為代表的知識驅動方法表示的知識明確、可以舉一反三、進行解釋和推理。而大數據深度學習為代表的數據驅動方法可以進行感知和記憶,進行關聯計算,但是難以解釋其推理計算過程。因此兩種方法的融合為我們研究基于知識的智能技術提供了契機。
?
?
同時,兩種方法的融合也帶來許多挑戰性問題。下面從組成知識工程生命周期的知識建模、知識獲取、知識存儲和計算、以及知識重用的四個階段看每個階段所面臨的挑戰。
知識表示方面,主要是研究大數據知識表示的理論與方法,使知識既具有顯式的語義定義,又便于大數據環境下的知識計算與推理。
?
?
知識獲取與融合方面,主要研究知識獲取和語義關聯技術。目前符號表示的知識是稀疏的,如何在知識稀疏和大數據環境下研究知識引導的知識獲取方,獲得大規模和高精度的知識是我們面臨的挑戰。
?
在知識計算和推理方面,當前基于符號的推理雖然有一些很好的推理工具,但是大規模知識推理效率還很受約束。深度學習或概率的推理方法方便計算但是難以解釋。大數據環境下知識計算和推理需要研究深度學習和邏輯規則相結合的知識推理和演化方法,以提升新知識發現的能力。
?
?
知識工程的最終目標是實現知識驅動的個性化智能服務。以知識圖譜關聯和分析用戶行為,通過情景感知分析用戶需求,以提供不同形式的個性化服務如知識導航、語義搜索和問答等。
?
知識工程發展趨勢可以歸納為四個方面。
?
?
四、我們的相關工作
下面首先介紹我們實驗室在ACL2017上發表論文基于實體提及表示學習的實體鏈接工作。實體鏈接是知識圖譜中的基礎研究問題。有兩個挑戰,一是文本中同一個實體會有多個提及形式,例如獨立日可以用Independence Day,也可以July First。二是同一個短語可能會對應不同的實體,獨立日有可能指電影,也可能是節日。因此,組成實體提及的詞或者短語具有多義性。
?
?
我們提出一種詞、實體提及和實體的聯合表示學習模型,學習實體提及不同語義的向量表示,實現了基于實體提及的無監督實體鏈接方法,取得了高精度的實體鏈接結果。以此為主要技術研制實現的跨語言實體鏈接工具XLink已經應用于我們開發的跨語言知識圖譜系統XLORE中,并提供中英文文本的實體鏈接服務。
?
另一項工作,是我們實驗室唐杰主持的從2006年就開始上線運行的科技大數據的挖掘和服務平臺AMiner。AMiner目標一是建立科技領域知識圖譜,二是對研究者進行畫像,獲取研究者興趣和研究者信息,最終實現知識推薦等智能服務。
?
?
Aminer在專家搜索方面利用專家結構化信息提供精細化的搜索服務。例如輸入“美國”、“數據挖掘”和“華裔女性”就能得到滿足用戶需求的結果。Aminer 還可以通過專家基本信息、研究成果等進行專家畫像,做研究者研究興趣的演化分析;可以根據用戶需求動態建立全球人才分布地圖;可以做會議影響力分析;提供論文、研究報告評審專家推薦等。AMiner還建立了100余個專家智庫。
?
總結匯報內容。首先,從數據、信息、知識到智能概念及關系看知識工程的在機器智能中重要性;其次,知識圖譜將互聯網信息表達成更接近人類認知世界的形式,可以將互聯網內容從符號轉化為計算機可理解和計算的語義信息,可以更好地理解互聯網內容;然后,知識工程從大數據中挖掘知識,可以彌合大數據機器學習底層特征與人類認知的鴻溝;最后,構建大數據環境下由數據向知識轉化的知識引擎,是實現從互聯網信息服務到知識服務新業態的核心技術。
?
整理:劉文清
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的李涓子 | 机器智能加速器:大数据环境下知识工程的机遇和挑战的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 技术动态 | 知识可视化,连接和探究知
- 下一篇: 论文浅尝 | Distant Super