知识图谱 (1)基本概念
1 . 定義
知識圖譜是由一些相互連接的實體和它們的屬性構成的,是用可視化技術描述知識資源及其載體,挖掘、分析、構建、繪制和顯示知識及它們之間的相互聯系。
用來揭示實體之間關系的語義網絡
- 信息是指外部的客觀事實。舉例:這里有一瓶水,它現在是7°。
- 知識是對外部客觀規律的歸納和總結。舉例:水在零度的時候會結冰。
三元組:實體entity,實體關系relation,實體entity
2. 幾個過程
原始數據類型一般來說有三類(也是互聯網上的三類原始數據):
- 結構化數據(Structed Data):如關系數據庫
- 半結構化數據(Semi-Structed Data):如XML、JSON、百科
- 非結構化數據(UnStructed Data):如圖片、音頻、視頻、文本
要做好KG要綜合利用好KR、NLP、Web、ML、DB等多方面的方法和技術。
2.1 知識抽取
信息抽取:從各種類型的半結構化、非結構化的數據源中提取出實體、屬性以及實體間的相互關系,在此基礎上形成本體化的知識表達;
2.1.1 結構化數據處理
針對結構化數據,通常是關系型數據庫的數據,數據結構清晰,把關系型數據庫中的數據轉換為RDF數據(linked data),普遍采用的技術是D2R技術。
2.1.2 半結構化數據處理
半結構化數據:具有一定的數據結構,但需要進一步提取整理的數據。
eg. 百科的數據,網頁中的數據等。
包裝器是一個能夠將數據從HTML網頁中抽取出來,并且將它們還原為結構化的數據的軟件程序。網頁數據輸入到包裝器中,通過包裝器的處理,輸出為我們需要的信息。
2.1.3 非結構化數據處理
對于非結構化的文本數據,我們抽取的知識包括實體、關系、屬性。
- 實體抽取
也稱為命名實體識別,此處的實體包括概念,人物,組織,地名,時間等等。 - 關系抽取
實體和實體之間的關系,也是文本中的重要知識,需要采用一定的技術手段將關系信息提取出來。 - 屬性抽取
也就是實體的屬性信息,和關系比較類似,關系反映實體的外部聯系,屬性體現實體的內部特征。
2.2 知識融合
知識融合,就是將多個知識庫中的知識進行整合,形成一個知識庫的過程,在獲得新知識之后,需要對其進行整合,以消除矛盾和歧義,比如某些實體可能有多種表達,某個特定稱謂也許對應于多個不同的實體等;形成高質量的知識庫。
知識融合的目的就是將不同知識庫對實體的描述進行整合,從而獲得實體的完整描述。主要包括:實體對齊,也包括關系對齊,屬性對齊,可以通過相似度計算,聚合,聚類等技術來實現。
2.3 數據模型構建
知識圖譜的數據=數據模型+具體數據
數據模型: 知識圖譜的數據組織框架
2.4 知識推理
對于經過融合的新知識,進一步挖掘隱含的知識。
知識推理,根據已有的數據模型和數據,依據推理規則,獲取新的知識或者結論,新的知識或結論應該是滿足語義的。
eg. 比如實體的分類包含關系,一個電腦椅是椅子,椅子是家具,可以說,一個電腦椅是家具。常識規則的推理,一個男人的孩子是A,一個女人的孩子是A,可以知道,這個男人和女人是配偶。
2.5 質量評估
對最后的結果數據進行評估,將合格的數據放入知識圖譜中。
eg. 對于公共領域的知識圖譜,知識的獲取采用了眾包的方法,對于同一個知識點,可能會有很多人來完成,如果這個知識點只有一個答案,可以采用的一種策略是,將多人的標注結果進行比較,取投票多的結果作為最終的結果。
【參考】
[1] 知識圖譜入門 (一) 知識圖譜與語義技術概覽, Pelhans, csdn
總結
以上是生活随笔為你收集整理的知识图谱 (1)基本概念的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 以太坊知识教程------智能合约的5种
- 下一篇: Bitcoin 地址原理(2)私钥、公钥