KnowIME: A System to Construct a Knowledge Graph for Intelligent Manufacturing Equipment-学习笔记
KnowIME: A System to Construct a Knowledge Graph for Intelligent Manufacturing Equipment
構建智能制造設備知識圖譜的系統
系統架構
顯示了構建KnowIME信息系統的架構圖。
智能制造設備的非結構化數據(例如文本,圖像)和結構化數據(例如數值數據)是從互聯網,百度百科以及相關的智能制造網站獲得的。
數據與關系數據一起保存到Redis數據庫中。
從多個來源(例如數據庫和Hadoop File System)中提取知識實體和數據關系。
提取的實體和關系將保存到特殊格式的文件中,并通過APOC工具和load csv文件導入到Neo4j非關系數據庫中。
最后,為了提高用戶查詢知識的效率,首先完成了圖數據庫中實體與關系之間的知識存儲,并盡可能優化了圖結構。
建筑KG的技術
如圖所示提出的智能制造設備信息系統主要包括兩個方面,即制造設備領域中的實體提取和設備領域中實體之間的關系提取。
數據準備階段是關于獲取數據和清潔數據。
然后,構造知識單元的操作主要包括文本中的命名實體信息和單元實體之間的關系提取。
結構化顯示是使用數據可視化技術在提取的實體和關系之間進行可視化的過程。
最后,最短路徑算法用于計算圖節點的最接近距離,以推薦相關設備信息并為用戶提供搜索服務。
文本數據的預處理主要使用NLP的常用方法,包括文本的提取和詞性標記。
對于從網頁抓取的文本數據,通過分詞,停用詞的去除和詞性標記的處理,獲得了關系提取所需的句子集。
G成為無向圖?,V?是一組節點,E?是一組無向邊。
V?對應于隨機變量Y_v,其范圍是可能的標記集{y}。
p?表示狀態轉換概率。?ω???v?表示圖G上的相鄰點。
其含義是,當一個隨機過程在給定現在狀態及所有過去狀態情況下,其未來狀態的條件概率分布僅依賴于當前狀態;換句話說,在給定現在狀態時,它與過去狀態(即該過程的歷史路徑)是條件獨立的,那么此隨機過程即具有馬爾可夫性質。
如圖所示,圖G的結構可以是任意的,只要在標記序列上方描述了某些條件獨立性即可。 通過對序列進行建模,可以形成簡單的普通鏈結構圖,并且節點對應于標記序列中的元素。
tj(yi-1,yi,X,i)是轉換特征函數,表示觀察到的序列X的標記序列在i到i-1位置的轉移概率。sk(yi,X,i)是一個狀態特征函數,表示對位置為i的觀察序列X進行標記的概率。βj和μk是tj和sk的權重。
觀察到的序列代表訓練樣本中特征的分布。
i代表X的維數或特征。
當yi-1和yi滿足轉移條件且Xi是特定詞時,轉移特征函數取1; 否則為0。
為了便于描述,狀態功能可以編寫如下:
如果轉換特征函數和狀態特征函數都抽象為f(x),則:
z(x)?是歸一化因子,并且?βj代表相應的系數。
中文句子以多種方式表達。為了更充分地準備提取關系,首先進行以??下定義:
根據以上定義,本文通過語料庫分析,自然語言處理和漢語語法知識介紹以下提取規則:
規則1:假設中文句子符合“(設備實體,特征,屬性值)”模式。如圖所示,O(NN),?F?(NN / VV),N(CD)分別表示實體,要素和屬性值,并且該關系提取的路徑沒有多余的選項。根據漢語語法,除量詞,名詞和動詞外,其他所有單詞均被刪除,其余部分根據其在原始句子中的位置進行排序,并提取結果。
規則2:如果文本中的句子符合“((實體1,實體2,…,實體i),特征值,屬性值)”模式,則謂詞前面的介詞機構指向主題。
如圖所示,?1個?(NN),??2?(NN),??3?(NN),??4?(NN)分別代表實體1,實體2,實體3,實體4。和F?(NN / VV),???(CD)分別表示特征和屬性值。
使用分詞工具進行分詞時,謂詞之前的部分可能會分為多個名詞,這可能是特征對象的一部分。
同時,對應于多個實體之間的關系,多個實體以并排關系位于特征詞的前面。
因此,提取特征對象候選集合的結果是從“(實體1,實體2,…,實體n)”中依次選擇幾個組合,整個實體關系提取為“(實體組合選項,特征詞,屬性值”)。
主要使用語法分析的功能來手動提取制造設備實體之間的屬性關系。
案例分析
從智能制造的新聞語料庫中,我們使用了上面提出的無監督語法分析方法來獲取相關關系,如圖所示。
由于適合提取設備實體之間關系的語料庫數據非常小,因此該設備的新數據有偏斜,并且只有與表類似的簡單關系可以獲得。在構建過程中,還需要人為地添加一些設備信息的關聯數據,并根據附加信息完成設備KG信息。
entity1{Id: String, product_Name: String, company: String, product_Price: String, product_place: String}.
車床子類設備的KG信息,綠色圓圈代表子類設備,藍色圓圈代表父類。
設備KG檢索的整個過程
?
總結
以上是生活随笔為你收集整理的KnowIME: A System to Construct a Knowledge Graph for Intelligent Manufacturing Equipment-学习笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 腊鱼怎么做好吃(水煮腊鱼怎么做好吃)
- 下一篇: 装备保障性验证知识图谱构建方法研究-学习