石油勘探开发知识图谱技术实现思路探讨
石油勘探開發知識圖譜技術實現思路探討
一、石油勘探開發知識圖譜概念
有關知識圖譜的定義有很多,在維基百科的官方詞條中:“知識圖譜是Google用于增強其搜索引擎功能的知識庫。本質上, 知識圖譜旨在描述真實世界中存在的各種實體或概念及其關系,其構成一張巨大的語義網絡圖,節點表示實體或概念,邊則由屬性或關系構成?!?/p>
(一)本體與知識圖譜
知識圖譜本質上是利用語義網絡圖對數據的一種表達手段,在建立知識圖譜之前首先需要建立本體,本體是語義數據模型,用于定義業務中事物的類型以及可用于描述它們的屬性。本體是廣義的數據模型,這意味著它們僅對具有某些屬性的事物的一般類型進行建模,而并不包含有關我們業務中具體個體的信息。
本體是一個抽象概念,用計算機術語本體就是知識圖譜的 schema。本體描述了最基本的業務概念模型,它是構建知識圖譜最基礎的工作。
使用本體作為一個框架,我們可以添加具體業務的真實數據來創建一個知識圖譜。從這個意義上講本體+數據資源=知識圖譜。
(二)石油勘探開發本體構建
本體是對業務的高度抽象,石油勘探開發本體建設是要用一個高度抽象的模型去描述勘探開發所有的數據資源,由于勘探開發數據類型、存儲方式差異巨大,如果希望從數據技術角度抽象一個通用模型來描述所有數據難度太大。根據石油數據的特點分析,我們知道所有的石油數據都是與某一個石油業務節點相對應的,也就是說一個業務節點對應著一個石油數據,我們可以轉換一個思路,首先建立石油業務的本體,通過石油業務與數據之間的一一對應關系,將該本體轉換為石油數據的通用描述模型(語義描述模型)。
因此石油本體建設實際上是對石油業務的抽象和描述。我們關注的是石油業務的本體建設,因此本體的類要圍繞業務來設計,針對一個具體的業務,我們一般關心該業務的幾個維度,如業務的對象目標是什么?業務處于勘探開發業務哪個階段;業務屬于哪個工作方面,是作業生產、研究還是管理;業務處于哪個工作流程階段;該業務是屬于哪個專業等。根據這個思路我們可以抽象出石油業務的本體如下:
1.類
任何一個業務工作節點都可以通過這六個類進行描述。實際工作中由于業務節點和業務數據是一一對應的關系,我們用業務數據代替業務節點。
2.關系
關系是連接兩個類的屬性,如井對象與鉆井工作流程之間就有一組關系。
上述類關系中業務節點和每一個其它類都有一個對應關系,另外幾個之間兩兩之間也有對應的關系,通過這些關系的建立就能夠構建整個石油業務關系網絡。
描述一個對象(和類)所可能具有的屬性、特征、特性、特點和參數。如井的基礎數據等。
站在石油勘探開發業務角度,石油勘探開發知識圖譜是描述石油勘探開發業務的各種實體或者業務概念及其關系,包括地下、地上各種對象目標及在這些工作目標上開展的各種生產作業、專業研究、工作管理工作等實體以及這些實體之間的業務關系。這個概念包含幾個方面的意思:
(1) 石油勘探開發業務實體: 指的是石油勘探開發業務中所有的業務工作節點,間接以該業務工作節點產生的數據為代表(由于石油業務特點,每一個業務節點一定對應一個業務數據。)。石油勘探開發業務實體是石油勘探開發知識圖譜中的最基本元素,不同的石油勘探開發業務實體間存在不同的業務關系。
(2) 石油勘探開發業務語義類(概念):石油勘探開發中具有同種特性的實體構成的集合,如盆地、圈閉、井、鉆井作業、油藏評價等。
(3) 石油勘探開發業務內容: 通常作為實體和語義類的名字、描述、解釋等,可以由文本、圖形、表格等專業方式來表達。
(4) 石油勘探開發實體屬性(值): 石油勘探開發業務中一個實體一般有多個屬性,每一個屬性有其對應的屬性值,如井有鉆井信息、錄井信息、測井信息等屬性,又分別用鉆井數據表、錄井圖、測井圖等屬性值表達。不同的屬性類型對應于不同類型屬性的邊。
(5) 石油勘探開發實體關系: 石油勘探開發實體之間都有其特定的業務關系,如測井解釋結果是由多個測井原始數據解釋得到,圈閉的含油性是由圈閉所包含井的含油性決定的等等。關系是石油勘探開發圖譜的靈魂。
Google知識圖譜的宣傳語“things not strings”給出了知識圖譜的精髓,即,不要無意義的字符串,而是獲取字符串背后隱含的對象或事物。從上述內容看,石油勘探開發知識圖譜本質上是反映勘探開發業務內容,石油勘探開發知識圖譜是用通用的語義網絡圖表達勘探開發業務之間的業務邏輯關系。
二、石油勘探開發知識圖譜建立方法
知識圖譜的建立有自頂向下(top-down)與自底向上(bottom-up)兩種構建方式。自頂向下指的是先為知識圖譜定義好本體與數據模式,再將實體加入到知識庫。該構建方式需要利用首先有業務知識庫作為其基礎知識庫。自底向上指的是從一些開放鏈接數據中提取出實體,選擇其中置信度較高的加入到知識庫,再構建頂層的本體模式。
目前,互聯網企業大多數知識圖譜都采用自底向上的方式進行構建,其中最典型就是Google的Knowledge Vault和微軟的Satori知識庫。
石油勘探開發業務是一個典型的先有知識體系,后有數據的特點,也就是所有的石油勘探開發信息都是主動設計出來的,并且所有的數據及知識的產生都是按照石油地質理論及石油工程理論設計的,因此石油勘探開發知識圖譜建設只能用自頂向下(top-down)的建設方法。
(一)本體與知識圖譜
在通用的知識圖譜綜合了眾多方面的技術和方法,有知識表示(RDF、OWL…)、知識抽取(D2R、NER命名實體識別、關系抽取…)、知識融合(實體對齊Entity Alignment…)、知識存儲(圖數據庫存儲、RDF存儲…)、知識推理(歸納推理、演繹推理、符號推理…)、圖計算(子圖匹配、最短路徑…)、可視化、語義搜索、知識問答、知識眾包等。這些技術是一個常規知識圖譜建立的必要技術環節。我們的OiO數據中臺幾乎囊括了上述技術的解決辦法,因此通過OiO數據中臺可以很容易地實現石油知識圖譜。
1.本體模型
按照上述基本模型確定本體模型6個大類,具體內容在下一步實現。
2.編輯本體,給出業務知識表示框架
(1)編輯類內容
根據上述概念類,我們將每一個類的具體內容進行梳理,如業務對象可以分為地質對象、工程對象等,地質對象又進一步分為盆地、區帶、圈閉、油氣藏、地層、砂層等等,其它類也是這樣逐步按照一定的方法和原則進行分解。
該工作需要將勘探開發所有的工作域、業務域、業務流程及專業全部細節梳理清楚,是一個專業技術強,工作量極大的工作。目前我們的E&P模型梳理工作主體已經完成,需要在項目中逐步完善補充。
(2)編輯關系
根據業務規則定義類與類之間兩兩關系,關系又進一步分為若干類型。
編輯關系需要將上述類內容中每一個內容與另外類內容一一建立關系,同時需要定義關系類型。
(3)編輯屬性
定義每一個具體類的屬性維度及屬性值。如果將業務節點作為一個類,與之對應的業務數據內容就是其主要的屬性內容。
本體具體內容也可以作為一種特殊的知識圖譜,也就是模型知識圖譜。
(二)實際知識(數據)準備
實際數據準備就是如何將我們現實中的數據按照本體的思路進行標準化,在標準化基礎上將數據實例一一與模型內容進行對應,建立真正的實例知識圖譜。
知識表示是通過概念化的方式表達一個知識的內容。對于石油業務來講(其它業務都一樣),一個完整的知識片段實際上就是一個完整的業務數據也就是我們OiO平臺中的定義的標準業務數據(成果類型)。
在一個知識表示中需要描述實體、實體屬性、對象、關系、關系類型等多種內容,這些在現在的知識圖譜技術中都有特定的定義和描述模型。
對應到OiO的數據坐標、業務數據(成果類型)定義等,數據坐標和業務數據(成果類型)基本將知識表示的內容全部涵蓋,并且有具體的實現辦法。也就是說如果在OiO基礎上建立知識圖譜,最基本的知識表示已經定義完成。
由于石油業務的復雜性,在具體技術實現上參考OWL技術規范。
知識抽提就是在原始數據中抽取標準化的知識片段,這是知識圖譜建立最難也是最關鍵的一項技術。在石油業務中由于數據的復雜性如何自動抽取標準化的知識體一直是難以解決的問題,我們的OiO數據中臺最核心的貢獻就是解決了這個難點。通過我們的數據坐標定義及自動識別和獲取技術可以自動從原始數據中得到一個一個業務數據(成果類型),完成知識抽取的任務和目標。
石油勘探開發知識圖譜技術實現思路探討
數據中臺中的業務數據(成果類型)定義及數據萃取就是解決這個問題。
在抽取知識實體時也可以通過數據坐標理論方法建立各個知識實體之間的關系抽取。
不同于互聯網數據,石油勘探開發數據對知識抽提結果有嚴格的質量要求,也就是不能有任何的業務含義偏差。因此在具體技術實現上互聯網數據抽提所采用的的實體識別、關系識別等通用技術不適用于石油勘探開發知識的提取,需要制定更加嚴格的,業務規則明確的知識抽提方法。在關系識別上也不能采用常規的關系識別方法,要充分利用本體構建中建立的業務關系模型,自動實現所有實例知識的關系識別。
3.知識融合(實體對齊Entity Alignment)
知識融合就是將所有的知識處理為統一、可識別的、統一的表達含義。包括以下幾個部分內容:
(1)本體匹配(ontology matching)
側重發現模式層等價或相似的類、屬性或關系,也成為本體映射(mapping)、本體對齊(alignment)。
由于勘探開發數據源比較規范,可以通過映射的方式建立知識與本體的匹配。
(2)實體對齊(entity alignment)
側重發現指稱真實世界相同對象的不同實例,也稱為實體消解(resolution)、實例匹配(instance matching)。
在業務數據定義中充分考慮石油數據特點,一方面通過別名管理統一不同名稱的實體,同時通過版本標記及管理解決不同版本實體問題。
(3)知識融合(knowledge fusion)
一般通過沖突檢測、真值發現等技術消解知識圖譜融合過程中的沖突,再對知識進行關聯與合并,最終形成一個一致的結果。
主要通過數據中臺業務數據標準化定義解決知識一致性問題,同時通過數據接入解決不同數據源知識融合問題。數據中臺就是解決這個關鍵問題的。
由于石油數據的相對規范性及業務的穩定性,知識融合工作可以找到規律并可以通過一系列的工具實現。
(三)知識圖譜實現
1.知識存儲(圖數據庫存儲)
這是計算機技術層面的問題,目前已有成熟的技術解決。
石油勘探開發數據內容復雜,業務關系復雜,需要用到圖數據庫存儲知識。
2.知識推理(歸納推理、演繹推理、符號推理…)
知識推理是知識圖譜的應用,這個需要在本體中建立各種專業推理規則,目前我們還沒有開展這方面的工作。
這是計算機層面的技術,目前已有成熟解決方案。
4.可視化
可視化包括兩個方面的內容,一是圖譜的可視化,這是有知識圖譜軟件解決的問題,目前已有成熟技術,二是知識實體的可視化,這個在OiO平臺數據中臺中解決了這個問題,可以實現各種數據的業務化展示。
語義搜索時能夠以業務的語言搜索數據,重點是要建立石油業務各種名詞之間的復雜語義關系,這個問題我們通過Sooil已經解決。
知識問答是知識圖譜的一個應用場景,是通過知識推理及知識關系等建立的應用,對于基于知識關系的知識問答可以通過語義分析及智能搜索解決,這部分規則我們已經解決。對于基于知識推理的知識問答需要建立知識推理規則,這方面規則還在研究。
7.知識眾包
知識眾包是通過大眾的力量完成知識圖譜的建設工作。在石油知識圖譜建設工作中有兩種知識圖譜,一是業務概念知識圖譜,二是實例知識圖譜,兩種圖譜眾包方式不一樣。
(1)業務概念知識圖譜眾包實現
業務概念知識圖譜(具體本體內容)是描述石油業務含義及相互關系的圖譜,由于對一個業務的理解差異以及不同地方業務特點的不同,業務概念知識圖譜可能會有擴展以及有不同的業務知識體系及表達方式。這個知識圖譜可以采用眾包的方式開放給大眾進行補充、完善及個性化。
在眾包之前一定要制定一套能夠被大眾理解的概念模型及建設規則。
(2)實例知識圖譜眾包實現
石油行業知識實例數據分為內部數據和外部數據,對于內部數據有著嚴格的質量管理及控制體系,其眾包實現實際上是建立一個數據自動生成、上傳給數據中臺的機制,通過數據中臺加工后實現圖譜內容的擴充。因此對于內部數據眾包實際上內部員工的參與。
還有一部分數據是外部公共數據,如互聯網數據、機構數據等,這些數據比較合適眾包理念及方式。但是這些數據有一個很大的問題就是缺少標準,需要解決的最大的問題就是前面說的識別、抽取等工作。
對于我們數據中臺實現該技術的最大突破點就是成果類型的自動識別技術,如果能夠解決網上數據的成果類型自動識別問題,互聯網數據的眾包問題就解決了。這方面我們已有一些初步方案,后期將安排技術力量實施。
三、核心技術
石油勘探開發知識圖譜建設是一件技術復雜,工作量極大的工作,在具體工作中一方面要充分利用成熟的知識圖譜概念及技術,另外一方面要對石油勘探開發知識體系及數據體系有著極深的理解。在勘探開發圖譜建設中有幾個關鍵技術非常重要:
(一)石油勘探開發本體技術
本體是知識的核心模型,石油勘探開發本體建設有別于互聯網本體構建,需要充分了解石油業務,能夠用一個抽象的模型描述所有的石油數據。目前業界還沒有公認的成熟可用的模型可用,侏羅紀公司設計的業務數據描述模型是在這方面的創新和實踐。經過多年的工作,目前該模型已在多個重點項目中得到了實際應用,充分證明了該模型的合理性和可用性,后續侏羅紀公司將把該模型詳細成果公布,希望逐步成為一個通用的石油勘探開發業務描述模型。
(二)知識自動生成技術
知識自動生成是知識圖譜建設的基礎,沒有這個基礎,只能建立概念化的知識圖譜,不能建設工業化應用的系統。知識自動生成包括知識識別、知識抽提、知識標準化、知識關系建立等一系列的工作,如何用通用的技術實現這些工作的自動化、標準化是最大的技術難點。侏羅紀公司經過近10年的研究,開發的石油勘探開發數據中臺可以很好地解決這些問題,目前該技術平臺已在多個項目中得到成功應用。
(三)智能搜索技術
智能搜索是知識圖譜一個主要應用,也是一個石油勘探開發業務中普遍使用的技術。該技術要充分利用語義模型及知識關系,能夠按照業務需要提供所有數據的智能搜索。目前侏羅紀公司的Sooil3.0版本產品是一個按照知識圖譜技術建立的通用搜索產品,可以滿足日常數據搜索需要。
(四)石油勘探開發知識推理技術
知識圖譜一個主要應用就是知識推理,這需要在本體模型中建立各種業務規則,目前該項工作還是一個空白,還需要在后續工作中展開研究。
四、結語
在石油勘探開發領域知識圖譜建立及使用是一個新興發展的領域,很多專家在不同專業領域開展了工作,如何將互聯網先進技術應用到石油勘探開發領域一方面需要我們對新技術有深入的了解,同時也需要我們對石油勘探開發業務有深刻的理解,在深刻理解石油業務的前提下找到適合勘探開發業務的落地解決方案是我們石油信息化工作者的責任和義務。近幾年我們在大數據、知識圖譜等新技術方面做了一些工作,取得了一些初步的成果,但是還有很多關鍵的技術沒有突破,需要我們大家在今后的工作中共同努力。本文檔是我們工作中的一些粗淺認識,有很多不成熟的地方希望同仁指正。
總結
以上是生活随笔為你收集整理的石油勘探开发知识图谱技术实现思路探讨的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Qt开发人机象棋
- 下一篇: HarmonyOS USB DDK助你轻