虚拟专题:知识图谱 | 流程工业控制系统的知识图谱构建
來源:智能科學與技術(shù)學報
流程工業(yè)控制系統(tǒng)的知識圖譜構(gòu)建
牟天昊1,?李少遠1,2
1?上海交通大學電子信息與電氣工程學院
2?上海交通大學系統(tǒng)控制與信息處理教育部重點實驗室
?摘要:近年來,工業(yè)控制系統(tǒng)智能化的趨勢方興未艾,相關(guān)新技術(shù)新思想不斷被提出。知識圖譜是人工智能應(yīng)用的基礎(chǔ)資源,構(gòu)建專業(yè)領(lǐng)域知識圖譜已經(jīng)成為研究熱點。然而,控制系統(tǒng)知識圖譜構(gòu)建尚處于發(fā)展初期。對控制系統(tǒng)的結(jié)構(gòu)特點和任務(wù)要求進行分析,給出控制系統(tǒng)的知識圖譜構(gòu)建的方法框架。首先對已有的流程工業(yè)控制系統(tǒng)知識圖譜構(gòu)建的工作進行總結(jié),闡述了工業(yè)控制系統(tǒng)的特點,給出了控制系統(tǒng)知識圖譜構(gòu)建的基本原則和流程,并以控制系統(tǒng)信息物理資產(chǎn)管理任務(wù)為例進行了詳細的知識圖譜構(gòu)建說明。最后,對未來的研究方向進行了展望。
關(guān)鍵詞:控制系統(tǒng) ; 領(lǐng)域知識圖譜 ; 物理信息系統(tǒng) ; 構(gòu)建技術(shù)
論文引用格式:
牟天昊, 李少遠. 流程工業(yè)控制系統(tǒng)的知識圖譜構(gòu)建[J]. 智能科學與技術(shù)學報, 2022, 4(1): 129-141.
MOU T H, LI S Y. Knowledge graph construction for control systems in process industry[J]. Chinese Journal of Intelligent Science and Technology, 2022, 4(1): 129-141.
0 引言
2011 年,國際商業(yè)機器公司(international business machines corporation,IBM)的Watson贏得“Jeopardy”電視智力競賽,用于支持其知識發(fā)現(xiàn)的知識圖譜技術(shù)引發(fā)了研究者的廣泛關(guān)注;2012年谷歌公司發(fā)布了包含570億實體的大規(guī)模知識圖譜,展示了知識圖譜在知識工程中的巨大應(yīng)用潛力。在剛剛過去的 10 年間,知識圖譜因為其處理多源異構(gòu)數(shù)據(jù)的能力、高效的知識檢索、深入的知識挖掘和分析以及直觀的知識可視化的能力,受到了學術(shù)界和工業(yè)界的廣泛關(guān)注,取得了迅猛的發(fā)展。
知識圖譜可以定義為由實體(節(jié)點)和關(guān)系(邊)組成的多關(guān)系的圖形知識庫。在知識圖譜中,知識以三元組(實體-關(guān)系-實體或者實體-屬性-值)的形式存儲。按照知識領(lǐng)域和應(yīng)用范圍的不同,知識圖譜可以分為通用知識圖譜和領(lǐng)域知識圖譜。通用知識圖譜涉及知識范圍廣,知識量大,且多為常識知識,已經(jīng)有DBpedia、Freebase、YAGO、NELL等代表性的工作;在領(lǐng)域知識圖譜上,出現(xiàn)了一批針對醫(yī)療、教育、金融和社會研究領(lǐng)域知識圖譜構(gòu)建和應(yīng)用的工作。
毫無疑問,知識圖譜在知識存儲和應(yīng)用上的強大能力也吸引了控制領(lǐng)域的學者。這是因為,在實際的流程工業(yè)控制系統(tǒng)中,人員、物料、裝置和設(shè)備、能量流等生產(chǎn)要素和它們之間的關(guān)聯(lián)關(guān)系中包含了系統(tǒng)正常運行所依賴的知識。知識圖譜作為一種關(guān)系型知識的有力表達形式,有望提升控制系統(tǒng)的知識自動化的程度。一方面,知識圖譜可作為信息集成平臺,對各生產(chǎn)要素及其關(guān)系進行統(tǒng)一的表達,從而成為解決生產(chǎn)過程的信息感知集成和人機物協(xié)同問題的基礎(chǔ)資源之一;另一方面,知識圖譜能夠?qū)崿F(xiàn)知識存儲、知識檢索和知識推理,能為操作人員提供知識查詢服務(wù),還可以為生產(chǎn)指標預(yù)測、運行狀態(tài)檢測和故障診斷提供支持,從而實現(xiàn)信息物理系統(tǒng)的自感知。
在控制系統(tǒng)領(lǐng)域,有一些針對特定對象特定任務(wù)的知識圖譜構(gòu)建的文章陸續(xù)發(fā)表。比如,Mao S等人針對延遲焦化生產(chǎn)過程中的風險分析和安全控制問題,構(gòu)建了過程安全知識圖譜;Zhou L等人設(shè)計了面向石油化工生產(chǎn)過程仿真的本體,并在此基礎(chǔ)上構(gòu)建了柴油生產(chǎn)知識圖譜;Chen Z Y等人針對冷滾軋生產(chǎn)過程的鋼帶斷裂問題,提取了相關(guān)特征并構(gòu)建了知識圖譜,實現(xiàn)了鋼帶斷裂的建模;Shen G W等人針對工業(yè)控制系統(tǒng)的網(wǎng)絡(luò)安全問題,利用數(shù)據(jù)驅(qū)動的關(guān)系提取方法,構(gòu)建了工業(yè)控制系統(tǒng)的網(wǎng)絡(luò)安全知識圖譜。然而,目前有關(guān)控制系統(tǒng)的知識圖譜構(gòu)建的研究多聚焦于控制系統(tǒng)的某個具體任務(wù),尚無綜述文章對這個主題進行系統(tǒng)深入的分析和總結(jié)。另外,現(xiàn)有的知識圖譜構(gòu)建方面的綜述文章多關(guān)注于通用知識圖譜構(gòu)建技術(shù),注意力多放在知識圖譜構(gòu)建的一般性技術(shù)上。本文基于以上出發(fā)點,希望對控制系統(tǒng)的結(jié)構(gòu)特點和任務(wù)要求進行分析,進而提出面向控制系統(tǒng)的知識圖譜構(gòu)建的一般性方法框架。
本文結(jié)構(gòu)如下:第1節(jié)簡要介紹領(lǐng)域知識圖譜構(gòu)建的一般方法,介紹控制系統(tǒng)的結(jié)構(gòu)特點和任務(wù)特點,并給出控制系統(tǒng)知識圖譜構(gòu)建的基本原則和一般框架;第2節(jié)以信息物理資產(chǎn)管理的具體任務(wù)為例,詳細闡明控制系統(tǒng)的知識圖譜構(gòu)建的具體方法和流程;第3節(jié)給出未來可能的研究方向;第4節(jié)對全文進行總結(jié)。
1 流程工業(yè)控制系統(tǒng)知識圖譜的構(gòu)建方法
1.1 領(lǐng)域知識圖譜構(gòu)建的一般方法
知識圖譜可以分為數(shù)據(jù)層和模式層。數(shù)據(jù)層包含具體的知識實例。模式層通常指知識圖譜的本體,其中定義了概念和關(guān)系的類型、屬性和范圍。根據(jù)構(gòu)建數(shù)據(jù)層和模式層的先后順序,知識圖譜構(gòu)建分為兩種方法:自底向上和自頂向下。自底向上的方法直接從結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和其他知識庫中進行知識抽取,對抽取到的實體、關(guān)系和屬性進行審核后將其加入知識圖譜,再構(gòu)建上層的本體。自頂向下的方法首先根據(jù)專家經(jīng)驗構(gòu)建領(lǐng)域本體,然后在本體的約束下將知識實例加入知識圖譜。自頂向下的方法能保證知識圖譜中的實體之間滿足良好的層次結(jié)構(gòu),減少錯誤和歧義,但是對人工經(jīng)驗的依賴性較大,設(shè)計本體也可能是一項繁重的任務(wù)。自底向上的方法適用于從大量數(shù)據(jù)中抽取知識。但是,自底向上的方法提取的知識圖譜通常精度不高,概念完備性不足,層次結(jié)構(gòu)不清楚。
領(lǐng)域知識圖譜知識深度深,知識精細度細,對知識的準確性要求嚴苛。因此,常采用自頂向下的方法構(gòu)建領(lǐng)域知識圖譜。比如,Fu L J等人使用自頂向下的方法構(gòu)建了非傳統(tǒng)機械加工行業(yè)的垂直知識圖譜;Liang H等人提出了一種自頂向下的基于KKS (kraftwerk-kennzeichen system)描述框架的發(fā)電知識圖譜構(gòu)建方法;Kou C等人使用七步法的本體構(gòu)建方法,搭建了應(yīng)用于航天器發(fā)射的領(lǐng)域知識圖譜;Jia Y 等人針對網(wǎng)絡(luò)安全知識圖譜的構(gòu)建,設(shè)計了資產(chǎn)本體、漏洞本體和攻擊本體,共包含漏洞、資產(chǎn)、軟件、操作系統(tǒng)、攻擊5個實體類型。近年來,自底向上的知識圖譜構(gòu)建技術(shù)取得了長足發(fā)展,一些研究者將自頂向下和自底向上技術(shù)結(jié)合,希望在保持自頂向下方法的概念層次清晰、準確性高的優(yōu)勢的同時,又具有自底向上的方法的更新速度快的特點和可以處理大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的能力。比如,參考文獻在過程安全知識圖譜的本體設(shè)計中,首先借助專家經(jīng)驗構(gòu)建大部分本體,然后再從關(guān)系數(shù)據(jù)庫和文檔數(shù)據(jù)(比如操作規(guī)程和技術(shù)規(guī)范)中提取其他本體;參考文獻在進行危化品管理知識圖譜的本體設(shè)計時,同樣將專家經(jīng)驗構(gòu)建和數(shù)據(jù)抽取補全結(jié)合。
1.2 流程工業(yè)控制系統(tǒng)的結(jié)構(gòu)與要求
從功能的角度,工業(yè)控制系統(tǒng)可以分為5層結(jié)構(gòu)。參考IEC 62264-1標準,從上到下分別為企業(yè)資源層、生產(chǎn)管理層、過程監(jiān)控層、現(xiàn)場控制層和現(xiàn)場設(shè)備層,如圖1所示。不同層的主要功能和聯(lián)系如下。
圖1???工業(yè)控制系統(tǒng)的功能分層
企業(yè)資源層主要包括企業(yè)資源管理(enterprise resource planning,ERP)、產(chǎn)品生命周期管理(product lifecycle management,PLM)等功能單元,負責企業(yè)和工廠級別的生產(chǎn)計劃,為企業(yè)決策層提供決策運行手段。
生產(chǎn)管理層主要包括制造執(zhí)行系統(tǒng)(manufacturing execution system,MES)、倉庫管理系統(tǒng)(warehouse manage system,WMS)功能單元,用于對生產(chǎn)過程進行管理,如制造數(shù)據(jù)管理、生產(chǎn)調(diào)度管理等。該層接受企業(yè)資源層下達的生產(chǎn)計劃,產(chǎn)生車間級別的生產(chǎn)計劃。該層不直接控制生產(chǎn)過程,但是負責監(jiān)控生產(chǎn)狀態(tài)和生產(chǎn)目標,并上報企業(yè)資源層。
過程監(jiān)控層主要包括 SCADA(supervisory control and data acquisition)與人機界面(human machine interface,HMI)功能單元,用于對生產(chǎn)過程數(shù)據(jù)進行采集與監(jiān)控,并通過 HMI 系統(tǒng)給操作人員提供監(jiān)控和控制功能。該層接收生產(chǎn)管理層下達的生產(chǎn)指令,并獲得現(xiàn)場控制層上傳的實時運行數(shù)據(jù),給出各回路的設(shè)定值。
現(xiàn)場控制層主要包括各類控制單元,如可編程邏輯控制器(programmable logic controller,PLC)、分散控制系統(tǒng)(distributed control system,DCS)控制單元等,用于對各執(zhí)行設(shè)備進行控制。該層接收過程監(jiān)控層下達的回路設(shè)定值,獲得現(xiàn)場設(shè)備層上傳的傳感數(shù)據(jù),使用模型預(yù)測控制(model predictive control,MPC)、比例微分積分(proportional integral differential,PID)等控制算法,產(chǎn)生控制量。
現(xiàn)場設(shè)備層主要包括各類過程傳感設(shè)備和執(zhí)行設(shè)備單元,用于對生產(chǎn)過程進行感知與操作;該層接收現(xiàn)場控制層的控制量,由執(zhí)行設(shè)備執(zhí)行控制指令,對工藝流程進行操作。該層的傳感設(shè)備收集實時生產(chǎn)數(shù)據(jù),并上報現(xiàn)場控制層。
工業(yè)控制系統(tǒng)有兩個基本要求:實時性和可靠性。實時性表現(xiàn)為控制系統(tǒng)必須在規(guī)定的循環(huán)周期內(nèi)完成任務(wù)。可靠性表現(xiàn)為系統(tǒng)必須保證連續(xù)工作。從上層到下層,控制系統(tǒng)對實時性和可靠性的要求逐漸提高。一般要求現(xiàn)場控制層和現(xiàn)場設(shè)備層的響應(yīng)時間為毫秒級別。
1.3 流程工業(yè)控制系統(tǒng)知識圖譜構(gòu)建的基本原則
結(jié)合前文提到的流程工業(yè)控制系統(tǒng)的結(jié)構(gòu)特點和運行要求,知識圖譜構(gòu)建應(yīng)當考慮如下的基本原則。
① 知識圖譜應(yīng)當面向企業(yè)資源層、生產(chǎn)管理層、過程監(jiān)控層的任務(wù)需求。這是因為上層的任務(wù)涉及的知識范圍更廣,知識多樣性更強,事實性的知識較多,適合用知識圖譜進行知識表示;上層的信息處理能力較強,方便知識圖譜的存儲和使用;上層任務(wù)對實時性要求不高,容錯力強,有專業(yè)人員參與,適合知識圖譜發(fā)揮其知識發(fā)現(xiàn)和推理能力。
② 知識圖譜應(yīng)當采用自頂向下和自底向上結(jié)合的構(gòu)建方法。這是因為:一方面,經(jīng)驗知識對于流程工業(yè)控制系統(tǒng)至關(guān)重要,專家參與的自頂向下的構(gòu)建能充分考慮這部分知識,保證知識的準確性、完備性和層次性;另一方面,流程工業(yè)控制系統(tǒng)包含大量以非結(jié)構(gòu)化文本為載體的機理知識和結(jié)構(gòu)化的數(shù)據(jù)知識,自底向上的方法適合處理這些數(shù)據(jù),是對專家經(jīng)驗的補充。
③ 知識圖譜應(yīng)當充分考慮控制系統(tǒng)的信息和物理要素。信息物理系統(tǒng)是物理過程與計算過程的整合。隨著通信技術(shù)的發(fā)展和計算能力的提高,物理與信息的結(jié)合將越發(fā)緊密,因此從信息物理系統(tǒng)的角度考慮控制系統(tǒng)是必要的。物理層面涉及各類人員、裝置和設(shè)備(比如反應(yīng)釜、閥門、傳感器、邏輯控制器等)、物料以及能量等;信息層面涉及系統(tǒng)層次模型(比如生產(chǎn)過程功能層次、裝置設(shè)備的物理層次等)、信息流(包括生產(chǎn)目標和系統(tǒng)設(shè)定數(shù)據(jù)、實時運行和診斷數(shù)據(jù)、物料和能量需求數(shù)據(jù)、終端生產(chǎn)指標數(shù)據(jù)等)、功能模型(包括各類參數(shù)估計算法、指標預(yù)測算法、生產(chǎn)控制算法和各類專業(yè)軟件等)和靜態(tài)信息(包括過程機理信息、生產(chǎn)操作信息和設(shè)備裝置說明等)等。這些都是控制系統(tǒng)的構(gòu)成要件,應(yīng)當在構(gòu)建知識圖譜的時候按任務(wù)需求考慮它們的概念和聯(lián)系。
1.4 流程工業(yè)控制系統(tǒng)知識圖譜構(gòu)建的一般框架
基于以上3個構(gòu)建原則,給出控制系統(tǒng)知識圖譜構(gòu)建的一般框架,如圖2所示。
圖2???控制系統(tǒng)知識圖譜構(gòu)建的一般框架
整個框架將自頂向下和自底向上方法結(jié)合。在自頂向下部分,由控制領(lǐng)域?qū)<液椭R工程師共同構(gòu)建圖譜的模式層。模式層的構(gòu)建主要依賴于專家對控制系統(tǒng)的操作和過程的認識,同時可以參考行業(yè)標準規(guī)范,比如IEC 62264標準中對控制系統(tǒng)功能分層的定義和IEC 62794中對工業(yè)控制系統(tǒng)的概念劃分,還可以參考軟件模型,比如Aspen Plus、Aspen HYSYS、PetroFine等商用軟件對過程控制系統(tǒng)的定義。在自底向上部分,構(gòu)建過程類似于一般的領(lǐng)域知識圖譜構(gòu)建。針對控制系統(tǒng)中的工業(yè)歷史數(shù)據(jù)庫、結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),經(jīng)過數(shù)據(jù)集成、知識提取和知識融合步驟,獲得知識實例。針對流程工業(yè)非結(jié)構(gòu)化數(shù)據(jù)中包含的圖、表和公式,尚無高效的自動知識抽取方法,需要手工構(gòu)建。圖譜構(gòu)建完成后,需要進行質(zhì)量評估,再將獲得的知識保存到合適的數(shù)據(jù)庫中。至此完成知識圖譜的構(gòu)建。
在自頂向下的專家本體構(gòu)建的部分,常用的方法包括七步法、骨架法、企業(yè)建模法和Methontology 法等。參考文獻中對比了常用的本體構(gòu)建方法的出發(fā)點和適用范圍。以領(lǐng)域本體開發(fā)中常用的七步法為例,其步驟主要包括:①確定本體的領(lǐng)域和范圍;②考慮復用現(xiàn)有的本體;③列出知識本體中的重要術(shù)語;④定義類和類的等級體系;⑤定義類的屬性;⑥定義屬性的分面;⑦創(chuàng)建實例。Kou C等人給出了使用七步法進行本體設(shè)計的一個具體的例子。常用的可視化的知識圖譜構(gòu)建工具包括 Protégé、OilEd、WebODE和OntoEdit等。
在自底向上的本體構(gòu)建的部分,需要對第三方數(shù)據(jù)庫和結(jié)構(gòu)化數(shù)據(jù)進行數(shù)據(jù)集成,還需要對半結(jié)構(gòu)化數(shù)據(jù)(比如控制系統(tǒng)運行日志)和非結(jié)構(gòu)化數(shù)據(jù)(比如系統(tǒng)說明和操作手冊)進行知識抽取,然后經(jīng)過實體對齊步驟,獲得知識實例,再從中提取本體。下面對其主要步驟的常用方法和工具進行介紹。
①數(shù)據(jù)集成是對結(jié)構(gòu)化數(shù)據(jù)進行格式變換,使其滿足知識圖譜構(gòu)建的格式要求。常用的數(shù)據(jù)集成方法包括直接映射(direct mapping,DM)和R2RML。常用的工具包括 D2RQ、MASTRO、Ultrawrap、Morph-RDB等。
②實體抽取就是命名實體識別,旨在從控制系統(tǒng)涉及的數(shù)據(jù)源中抽取命名實體。實體抽取方法可以分為基于規(guī)則、基于統(tǒng)計和基于深度學習三大類。基于規(guī)則的方法需要由控制專家和知識工程師來制定規(guī)則集,通過將數(shù)據(jù)與規(guī)則集匹配來獲得命名實體。基于統(tǒng)計的方法通過使用語料庫訓練統(tǒng)計模型來計算某個詞是命名實體的概率。常用的方法包括條件隨機場模型(conditional random field,CRF)、最大熵模型、隱馬爾可夫模型、條件馬爾可夫模型和決策樹方法等。基于深度學習的方法使用深度神經(jīng)網(wǎng)絡(luò)自動地從數(shù)據(jù)中學習隱藏特征,其常用的方法有卷積神經(jīng)網(wǎng)絡(luò)、長短期記憶(long short time memory,LSTM)神經(jīng)網(wǎng)絡(luò)和圖神經(jīng)網(wǎng)絡(luò)。在控制系統(tǒng)知識圖譜的構(gòu)建中,基于規(guī)則的方法適用于規(guī)模小、專業(yè)性強、結(jié)構(gòu)性好的數(shù)據(jù)(比如設(shè)備清單和系統(tǒng)運行日志);基于統(tǒng)計和深度學習的方法適用于規(guī)模大、通用性強、結(jié)構(gòu)性差的數(shù)據(jù)(比如關(guān)于被控對象的介紹)。
③關(guān)系和屬性抽取旨在從控制系統(tǒng)涉及的數(shù)據(jù)源中抽取實體之間的語義關(guān)系。抽取方法可以分為基于規(guī)則和基于機器學習兩大類。基于規(guī)則的方法首先通過人工編輯或者學習獲得模板,然后基于模板匹配對實體關(guān)系進行抽取和判別。根據(jù)含標簽樣本的多少,基于機器學習的方法又可以分為有監(jiān)督方法和弱監(jiān)督方法兩大類。有監(jiān)督方法包括基于核函數(shù)的方法和基于神經(jīng)網(wǎng)絡(luò)的方法等,弱監(jiān)督方法中具有代表性的是基于距離監(jiān)督的方法。
④實體消歧旨在消除多個命名實體指代同一個實體或多個實體對應(yīng)同一個命名實體的情況。比如“PLC#018”和“18 號控制器”均指代號為 18的可編程邏輯控制器;同一個控制系統(tǒng)中可能有多個“監(jiān)控室”;不同傳感器的“采樣時間”可能不同。目前實體消歧的方法主要分為基于聚類的方法和基于實體鏈接的方法。
質(zhì)量評估是對新知識的可信度進行評估,保留可信度高的知識,從而保證圖譜的質(zhì)量。在自動質(zhì)量評估方面,已有強化學習(reinforcement learning, RL)和Logistic回歸等方法。但是現(xiàn)有的自動評估方法還不能代替人工審核,部分知識仍要由專家進行人工審核。
在數(shù)據(jù)存儲方面,知識圖譜常用的存儲格式為RDF 表結(jié)構(gòu)數(shù)據(jù)庫和圖數(shù)據(jù)庫。RDF 表結(jié)構(gòu)數(shù)據(jù)庫的優(yōu)點是簡單直接、容易理解,缺點是占用空間大、增刪改和復雜查詢開銷大。RDF表結(jié)構(gòu)數(shù)據(jù)庫已經(jīng)有不少成熟的產(chǎn)品,包括Jena、Oracle和3store等。圖數(shù)據(jù)庫的優(yōu)點是對知識圖譜的結(jié)構(gòu)描述明確、支持圖挖掘算法、復雜查詢效率高,缺點是數(shù)據(jù)更新慢、大節(jié)點的處理開銷大。常用的圖數(shù)據(jù)庫有Neo4j、OrientDB和HyperGraphDB等。此外,劉寶珠等人提出了統(tǒng)一的數(shù)據(jù)存儲方案,支持兩種數(shù)據(jù)模型的高效存儲和不同查詢語言的互操作。
2 流程工業(yè)控制系統(tǒng)的知識圖譜構(gòu)建案例——以信息物理資產(chǎn)管理任務(wù)為例
本節(jié)聚焦流程工業(yè)控制系統(tǒng)的信息物理資產(chǎn)管理任務(wù),介紹信息物理資產(chǎn)知識圖譜的構(gòu)建流程和構(gòu)建方法。信息物理資產(chǎn)管理的主要任務(wù)是從信息物理系統(tǒng)的角度,將控制系統(tǒng)涉及的硬件、軟件和算法信息集成到知識圖譜中,以實現(xiàn)資產(chǎn)信息的高效管理。本節(jié)包含知識來源、本體構(gòu)建、知識抽取、實體消歧和質(zhì)量評估、知識存儲5個方面。
2.1 知識來源
在知識來源上,用于構(gòu)建信息物理資產(chǎn)知識圖譜的知識可以分為兩部分:開放性知識和特異性知識。開放性知識指與控制系統(tǒng)相關(guān),能夠在外部語料中找到的知識。特異性知識指與控制系統(tǒng)相關(guān),但是無法在外部語料庫找到的知識,這類知識一般來自企業(yè)內(nèi)部。
在流程工業(yè)控制系統(tǒng)的信息物理資產(chǎn)管理任務(wù)中,開放性知識包括某些常用物料的信息和通用物理化學反應(yīng)機理等,通常可以在科學技術(shù)文檔或相關(guān)網(wǎng)站中找到。特異性數(shù)據(jù)包括人員信息過程反應(yīng)設(shè)備的詳細信息(包括容器、塔器、反應(yīng)釜、換熱器等)、控制設(shè)備的詳細信息(包括控制器、開關(guān)、起動器、接觸器、驅(qū)動器、電機、泵、網(wǎng)絡(luò)等)、信息流(包括生產(chǎn)目標和系統(tǒng)設(shè)定數(shù)據(jù)、實時運行和診斷數(shù)據(jù)、物料和能量需求數(shù)據(jù)、終端生產(chǎn)指標數(shù)據(jù)等)及其說明、過程機理說明、控制系統(tǒng)說明、控制系統(tǒng)操作手冊、各類算法和軟件的技術(shù)參考文檔等。上述信息來源中,既包含清單、列表和數(shù)據(jù)庫數(shù)據(jù)等結(jié)構(gòu)化數(shù)據(jù),也包含文檔、說明和手冊等非結(jié)構(gòu)化數(shù)據(jù)。
2.2 本體構(gòu)建
本體構(gòu)建使用自頂向下和自底向上結(jié)合的方式。在自頂向下部分,由專家定義知識圖譜的模式層;這里使用七步法進行本體構(gòu)建。在自底向上部分,從數(shù)據(jù)中提取本體。最后,所有本體都要經(jīng)過專家的審核。
控制系統(tǒng)信息物理資產(chǎn)知識圖譜本體自頂向下的構(gòu)建流程如圖3所示。
圖3???控制系統(tǒng)信息物理資產(chǎn)知識圖譜本體自頂向下的構(gòu)建流程
首先確定本體的領(lǐng)域范圍。本知識圖譜的領(lǐng)域是流程工業(yè)控制系統(tǒng)的信息物理資產(chǎn)管理,目標是通過構(gòu)建信息物理資產(chǎn)知識圖譜來提高控制系統(tǒng)資產(chǎn)庫的管理效率。
然后考慮復用已有的本體。這里考慮復用OntoCAPE 本體庫。它是針對化工過程工程構(gòu)建的大規(guī)模本體,其中描述了一部分流程工業(yè)信息物理資產(chǎn)管理中涉及的概念,比如反應(yīng)物質(zhì)、反應(yīng)裝置和工廠設(shè)備。OntoCAPE 中的“夾具(Fixture)”類及其常用子類如圖4所示,以工廠固定設(shè)備“Fixture”概念為例,給出了 OntoCAPE本體庫的一個簡單例子。然而從信息物理系統(tǒng)的角度來看,OntoCAPE 主要考慮了物理側(cè)的概念和屬性,對信息側(cè)討論較少。OntoCAPE 中未包含的概念和屬性需要單獨構(gòu)建。
圖4???OntoCAPE中的“Fixture”類及其常用子類
最后列出控制系統(tǒng)信息物理資產(chǎn)管理的概念術(shù)語,定義類間的層次關(guān)系,定義類屬性,定義本體中的關(guān)系。控制系統(tǒng)信息物理資產(chǎn)知識圖譜的部分類的結(jié)構(gòu)示意圖如圖5所示,其中概念共分為數(shù)據(jù)、算法、通信和算力四大類,每一大類又可以細分為若干子類。類屬性可以從機械和結(jié)構(gòu)屬性、功能屬性、性能屬性、商業(yè)屬性、位置屬性5個方面考慮。類間關(guān)系可以從結(jié)構(gòu)關(guān)系和功能關(guān)系兩個方面考慮。控制系統(tǒng)信息物理資產(chǎn)知識圖譜的部分類和關(guān)系示意圖如圖6所示。圖6中的“包含部分” “測量設(shè)備”“監(jiān)控設(shè)備”“包含子類”“包含變量”和“隸屬機構(gòu)”為結(jié)構(gòu)關(guān)系;“上傳”“輸入”“輸出” “監(jiān)控變量”“產(chǎn)生”和“負責人員”為功能關(guān)系。
圖5???控制系統(tǒng)信息物理資產(chǎn)知識圖譜的部分類的結(jié)構(gòu)示意圖
圖6???控制系統(tǒng)信息物理資產(chǎn)知識圖譜的部分類和類關(guān)系示意圖
在自底向上的本體構(gòu)建中,使用基于規(guī)則的方法從結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)中提取概念和關(guān)系,進而構(gòu)建本體。比如,為了避免不同數(shù)據(jù)中對化學物質(zhì)名稱不一致引起的歧義,將 CAS 編號作為標準名來提取化學物質(zhì)實體;類似地,使用設(shè)備統(tǒng)一編號作為參照來抽取反應(yīng)裝置實體。對于非結(jié)構(gòu)化數(shù)據(jù),首先進行知識抽取,然后對抽取到的實體和關(guān)系進行專家人工審核,最后完成本體構(gòu)建。
2.3 知識抽取
知識抽取分為兩個步驟。首先,從數(shù)據(jù)中抽取命名實體;然后,抽取命名實體的關(guān)系和屬性。正確的命名實體抽取是知識抽取的關(guān)鍵。對于結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),使用基于規(guī)則的方法進行抽取,比如“溫度傳感器”“熱敏電阻”“熱電偶”“電磁流量計”“霍爾傳感器”等詞匯都應(yīng)當被識別為傳感器名,這種方法抽取速度快,準確率高。對于非結(jié)構(gòu)化的文本數(shù)據(jù),可以使用基于深度學習的方法進行命名實體識別。具體來說,首先對文本數(shù)據(jù)進行句子分割和字符分解,然后進行手動命名實體標注從而構(gòu)建語料庫,最后使用語料庫中的帶標簽數(shù)據(jù)對深度學習模型進行訓練。在模型選擇上,LSTM網(wǎng)絡(luò)和CRF結(jié)合的方法和預(yù)訓練BERT(bidirectional encoder representations from transformer)+CRF都是有效的深度學習模型。抽取命名實體關(guān)系時,對于結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),可以使用專家編寫的模板進行關(guān)系抽取。對于非結(jié)構(gòu)化的文本數(shù)據(jù),同樣使用利用文本數(shù)據(jù)構(gòu)建的語料庫進行深度學習模型的抽取。在模型的選擇上,將雙向長短期記憶神經(jīng)網(wǎng)絡(luò)和注意力機制結(jié)合的模型表現(xiàn)出了良好的效果。
2.4 實體消歧和質(zhì)量評估
信息物理知識圖譜中的歧義一方面來自自底向上構(gòu)建時造成的多指和共指,另一方面來自自頂向下構(gòu)建時的專家經(jīng)驗的主觀性或疏忽。相比于開放域知識圖譜,本任務(wù)中圖譜構(gòu)建有較多的專家參與,在構(gòu)建時就考慮了其在流程工業(yè)控制系統(tǒng)中的適用性,因此結(jié)構(gòu)性較好。因此,基于社會化網(wǎng)絡(luò)的實體消歧方法是一種行之有效的方法。
在質(zhì)量評估中,可以采用從業(yè)者眾包校驗的方法。具體來說,將知識圖譜按照生產(chǎn)工藝流程或者控制功能層次分解,讓相關(guān)從業(yè)人員根據(jù)經(jīng)驗對圖譜質(zhì)量進行判斷。對于錯誤或置信度較低的知識,由工藝專家和知識工程師進行進一步的判斷。
2.5 知識存儲
常用的知識圖譜存儲方式包括以 Jena 和3store為代表的RDF表數(shù)據(jù)庫和以Neo4j為代表的圖數(shù)據(jù)庫。這里展示田納西-伊斯曼(Tennessee Eastman,TE)化工過程控制系統(tǒng)信息物理資產(chǎn)知識圖譜的一部分,如圖7 所示,其中明黃色節(jié)點代表操縱變量,粉紅色節(jié)點代表測量變量,灰黃色節(jié)點代表反應(yīng)裝置,綠色節(jié)點代表傳感器,紫色節(jié)點代表算法,其包含操縱變量、測量變量、反應(yīng)裝置、傳感器、監(jiān)控算法5類實體共71個節(jié)點,152條邊,308個節(jié)點屬性和177個邊屬性。該知識圖譜存儲于 Neo4j 圖數(shù)據(jù)庫。TE 化工工過程控制系統(tǒng)信息物理資產(chǎn)知識圖譜的部分類屬性見表1。
圖7???Tennessee Eastman化工過程控制系統(tǒng)信息物理資產(chǎn)知識圖譜部分示意圖
3 未來研究展望
知識圖譜能夠有效地處理控制系統(tǒng)中涉及的多源異構(gòu)數(shù)據(jù),集成控制系統(tǒng)的認知和經(jīng)驗知識。它有望在以下幾個方向發(fā)揮重要的作用。
3.1 信息物理資產(chǎn)管理
現(xiàn)代工業(yè)控制系統(tǒng)是集成了物理對象和信息資源的信息物理系統(tǒng),涉及物質(zhì)輸入輸出、物理化學反應(yīng)、生產(chǎn)裝置、測量設(shè)備、控制設(shè)備、計算設(shè)備、存儲設(shè)備、通信設(shè)備、數(shù)據(jù)、算法、算力、通信和軟件資源。將這些資源信息都納入知識圖譜表達形式,有助于對控制系統(tǒng)信息物理資產(chǎn)進行高效管理。比如,知識圖譜可以方便地以圖的形式直觀地展示資源實體和資源實體間的關(guān)系;借助圖搜索算法,可以對資源依照關(guān)聯(lián)關(guān)系進行復雜的搜索;借助圖推理算法,可以發(fā)掘資源之間的隱藏關(guān)聯(lián)關(guān)系。在這方面,Zhou X C等人探索了化工生產(chǎn)領(lǐng)域的代理服務(wù)管理的知識圖譜構(gòu)建。Farazi F等人將燃燒化學機理模型集成到知識圖譜中。
3.2 虛擬制造
數(shù)字孿生和虛擬制造是流程工業(yè)邁向智能化的重要技術(shù)。現(xiàn)代流程工業(yè)控制系統(tǒng)在功能上具有分層結(jié)構(gòu),包含了信息物理方面的諸多要素。知識圖譜是關(guān)系型數(shù)據(jù)的有力描述形式,能為不同功能層次之間提供信息對接平臺,對關(guān)鍵生產(chǎn)要素及其關(guān)系進行集成,從而為虛擬制造提供支撐。在這方面,基于知識圖譜的J-Park Simulator仿真平臺是具有代表性的工作成果,已經(jīng)被用于石化生產(chǎn)過程的仿真和優(yōu)化。
3.3 運行風險分析
控制系統(tǒng)的運行風險常由專家根據(jù)經(jīng)驗推理判斷,利用專家經(jīng)驗和從數(shù)據(jù)中提取的知識構(gòu)建運行風險知識圖譜,有助于對風險事件進行自動分析和及時處置。比如,利用控制系統(tǒng)運行所積累的歷史風險數(shù)據(jù),提取相關(guān)裝置、涉及物質(zhì)、故障發(fā)生時的操作條件、故障原因、故障類型癥狀、處置策略等信息,再結(jié)合專家制定的風險分析規(guī)則,從而構(gòu)建運行風險知識圖譜。當風險因素出現(xiàn)時,借助圖檢索算法,可以實現(xiàn)快速的風險因素的嚴重性分析、原因追溯和處置方案制定。此外,借助知識推理算法,還可以從已有運行風險知識中挖掘未被發(fā)現(xiàn)的風險因果關(guān)系。在這方面,參考文獻針對延遲焦化生產(chǎn)過程構(gòu)建了安全知識圖譜用于風險分析;參考文獻針對化工生產(chǎn)中的危化品事故風險構(gòu)建了危化品管理知識圖譜。
3.4 關(guān)鍵指標預(yù)測
工業(yè)控制系統(tǒng)常常機理復雜,無法得到精確的數(shù)學模型。利用工藝專家、控制專家和一線技術(shù)人員的關(guān)于系統(tǒng)機理的經(jīng)驗,構(gòu)建過程機理知識圖譜,可以為關(guān)鍵生產(chǎn)指標的準確預(yù)測提供支持。比如,將專家和技術(shù)人員關(guān)于變量之間影響強弱和時延關(guān)系的經(jīng)驗存儲在知識圖譜當中,然后借助圖神經(jīng)網(wǎng)絡(luò)等方法構(gòu)建關(guān)鍵指標預(yù)測模型。這樣充分利用了專家經(jīng)驗,有望提升關(guān)鍵生產(chǎn)指標的預(yù)測精度。在這方面,Wu D Y等人在將圖譜結(jié)構(gòu)與預(yù)測模型結(jié)合方面做出了探索性的工作。
3.5 控制算法自適應(yīng)調(diào)整
現(xiàn)代工業(yè)控制系統(tǒng)一般變量數(shù)目多,被控對象復雜。為了滿足不同回路和層級的任務(wù)要求,達到不同回路和層級的控制目的,控制系統(tǒng)中常用到PID、模型預(yù)測控制和自適應(yīng)控制多種控制方法,控制方法及其參數(shù)的選擇往往依賴專家經(jīng)驗。將專家的控制算法設(shè)計經(jīng)驗(包括各個控制算法的適用條件、算法流程、基本參數(shù)及其選定依據(jù)等)保存到知識圖譜中,有助于實現(xiàn)控制算法的自適應(yīng)調(diào)整。比如,將專家關(guān)于PID控制器主要參數(shù)的調(diào)節(jié)規(guī)則保存到知識圖譜中,當系統(tǒng)監(jiān)視器返回異常結(jié)果時,知識圖譜使用圖檢索推薦最適宜的算法參數(shù),或者推薦合適的備選控制算法。
4 結(jié)束語
知識圖譜使用圖的數(shù)據(jù)結(jié)構(gòu),結(jié)合圖論方法和自然語言處理技術(shù),既能夠組織和表達控制專家積累的經(jīng)驗,也能夠處理和挖掘控制系統(tǒng)中多源異構(gòu)數(shù)據(jù)中的知識。在工業(yè)智能化發(fā)展方興未艾的今天,知識圖譜是推動控制系統(tǒng)智能化發(fā)展不可或缺的基礎(chǔ)資源,引起了研究者廣泛的關(guān)注。本文首先對現(xiàn)有的控制系統(tǒng)知識圖譜構(gòu)建工作進行了回顧和總結(jié),簡要介紹了領(lǐng)域知識圖譜的構(gòu)建方法。然后,本文分析了控制系統(tǒng)的結(jié)構(gòu)和特點,提出了控制系統(tǒng)知識圖譜的構(gòu)建原則和構(gòu)建流程,并以控制系統(tǒng)信息物理資產(chǎn)知識圖譜為例進行了比較詳細的說明。最后,本文給出了控制系統(tǒng)知識圖譜可能產(chǎn)生的重要影響的研究方向。
知識圖譜仍是一門新技術(shù),其在控制系統(tǒng)中的應(yīng)用也處于發(fā)展初期。本文希望能拋磚引玉,吸引更多研究者投入控制系統(tǒng)的知識圖譜的研究中。
作者簡介
牟天昊(1998?),男,上海交通大學電子信息與電氣工程學院博士生,主要研究方向為知識圖譜、機器學習以及它們在流程工業(yè)中的應(yīng)用 。
李少遠(1965?),男,博士,上海交通大學電子信息與電氣工程學院講席教授,國家杰出青年科學基金獲得者,科技創(chuàng)新2030—“新一代人工智能”重大項目負責人。主要研究方向為預(yù)測控制、工業(yè)智能、滿意優(yōu)化控制、分布式優(yōu)化等 。
聯(lián)系我們:
Tel:010-81055448
? ? ? ?010-81055490
? ? ? ?010-81055534
E-mail:bdr@bjxintong.com.cn?
http://www.infocomm-journal.com/bdr
http://www.j-bigdataresearch.com.cn/
轉(zhuǎn)載、合作:010-81055307
大數(shù)據(jù)期刊
《大數(shù)據(jù)(Big Data Research,BDR)》雙月刊是由中華人民共和國工業(yè)和信息化部主管,人民郵電出版社主辦,中國計算機學會大數(shù)據(jù)專家委員會學術(shù)指導,北京信通傳媒有限責任公司出版的期刊,已成功入選中國科技核心期刊、中國計算機學會會刊、中國計算機學會推薦中文科技期刊,以及信息通信領(lǐng)域高質(zhì)量科技期刊分級目錄、計算領(lǐng)域高質(zhì)量科技期刊分級目錄,并多次被評為國家哲學社會科學文獻中心學術(shù)期刊數(shù)據(jù)庫“綜合性人文社會科學”學科最受歡迎期刊。
關(guān)注《大數(shù)據(jù)》期刊微信公眾號,獲取更多內(nèi)容
總結(jié)
以上是生活随笔為你收集整理的虚拟专题:知识图谱 | 流程工业控制系统的知识图谱构建的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: npm ERR! cb.apply is
- 下一篇: 在Windows环境下安装hyperle