當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

知识图谱入门视频（三）

發(fā)布時間：2024/7/5 编程问答 37 豆豆

生活随笔收集整理的這篇文章主要介紹了知识图谱入门视频（三）小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

學習內(nèi)容

小象學院 b站第三章
【其實后面的方法學習只是一個框架式的學習，并不明白具體的操作】
鏈接

問題：

知識圖譜究竟是什么？
可以看看開放知識圖譜
其實就是將我們的語言拆分轉換為符號表達，之后經(jīng)過機器學習來將離散式的數(shù)據(jù)轉化為可分布式的表達。
而知識圖譜的構建，是可以不同的，根據(jù)需要來定！比如只是關于人際關系的，再比如關于某個人的所有的新聞，再比如全部是關于政府部門的或者是事故的，所以也就有了知識的融合

企業(yè)構建知識圖譜需要根據(jù)需求來的

自然語言轉化為sql（知識圖譜），后面會講

開放數(shù)據(jù)是不能直接用的

schema和本體關系：schema是輕量級本體；

圖數(shù)據(jù)庫是用來存儲知識圖譜；
多庫存儲的難點：是在于存儲的問題還有查詢問題，本體需要不需要切分，消除歧義等；

知識庫和知識圖譜有什么區(qū)別？
知識圖譜是一個大的系統(tǒng)；知識圖譜里面關于知識構建、知識融合之后就產(chǎn)生了知識庫，而知識庫我們就需要對它進行存儲，就會產(chǎn)生圖數(shù)據(jù)庫。

怎么確保數(shù)據(jù)的準確性
對于開放數(shù)據(jù)庫等進行領域建模、領域知識進行篩選

第三部分：知識圖譜技術概覽

1. 簡介

由于數(shù)據(jù)源的不同，比如眾包、傳感器、多媒體等流，我們又可以分別使用不同的方法來得到更加規(guī)范的數(shù)據(jù)表示、更強的數(shù)據(jù)關聯(lián)，并存儲到Hbase等數(shù)據(jù)庫中，之后根據(jù)具體的需要再利用這些知識進行知識表示、知識抽取、知識問答等應用。
而知識表示是根本

2. 知識表示

知識表示研究怎樣用計算機符號來表示人腦中的知識，以及怎樣通過符號之間的運算來模擬人腦的推理過程。
現(xiàn)在一般基于數(shù)理邏輯的知識表示–》基于向量空間學習的分布式知識表示。
語義網(wǎng)知識表示框架

w3C可以看到最新的語義網(wǎng)知識表示框架。

2.1 知識表示的離散分布

2.1.1 RDF：Triplet-based Assertion model （基于三元組的斷言模型）

鏈接
RDF： (資源描述框架，Resource Description Framework)是描述網(wǎng)絡資源的 W3C 標準, ，比如網(wǎng)頁的標題、作者、修改日期、內(nèi)容以及版權信息等。
RDF的含義就是描述資源的框架（Framework for Describing Resources），下面我們逐個來看這三個詞的意思。
資源（Resource）：所有在Web上被命名、具有URI(Unified Resource Identifier 統(tǒng)一資源描述符)的東西。如網(wǎng)頁、XML文檔中的元素等；
描述（Decription）：對資源屬性（Property）的一個陳述（Statement），以表明資源的特性或者資源之間的聯(lián)系；
框架（Frameword）：與被描述資源無關的通用模型，以包容和管理資源的多樣性、不一致性和重復性。
綜合起來，RDF就是定義了一種通用的框架，即資源-屬性-值的三元組，一不變應萬變，來描述Web上的各種資源。
下面我們來看一個簡單的RDF的例子：
(指明被描述資源的URI)
Tim Bray （被描述資源有一個叫Author即作者的屬性，其值是Tim Bray）
（被描述資源有一叫Home-Page即主頁的屬性，其值指向另一資源）
（結束標志）

RDF Graph: Directed Labeled Graph（有向標記圖）

2.1.2 RDFS:Simple Vocabulary and Schema（簡單的詞匯和模式）

RDF的序列化格式
schema：和數(shù)據(jù)庫中表的設計類似！
常用的格式： RDF/XML、RDFa
具體實現(xiàn)

下面是RDF語法的一個實例，用序列語法表示如下：
就只是包含了title、creator、data三個屬性

<?xml version=“1.0”?><RDF xmlns=http://www.w3.org/1999/02/22-rdf-syntax-ns#xmlna:DC=http://purl.org/metadata/dublin-core#><Description about=http://www.dlib.org/dlib/may98/miller><DC:title>An introduction to the Resource Description Framework</DC:title><DC:creator>Eric Miller</DC:creator><DC:date>1998-0501</DC:date></Description></RDF>

這個例子如果以RDF簡略語法來表示則為：

<?xml version=“1.0”?><RDF xmlns=http://www.w3.org/1999/02/22-rdf-syntax-ns#xmlna:DC=http://purl.org/metadata/dublin-core#><Description about=http://www.dlib.org/dlib/may98/miller>DC:title = “An introduction to the Resource Description Framework"DC:creator = "Eric Miller"DC:date = "1998-0501"</Description></RDF>

2.1.3 OWL：Web Ontology Language

本體 == 哲學的概念
但是不能直接用。是描述語言。多人進行描述
OWL extends RDF schema

OWL:OWL Web本體語言，W3C推薦標準
這種本體描述語言，可以用來描述Web文檔和應用中內(nèi)在的類和關系。
為什么使用OWL語言？

通過定義類以及類的屬性來形式化某個領域；
定義個體并說明它們之間的屬性；
在OWL語言的形式化語義允許的層次上，對類和個體進行推理。
推理規(guī)則：比如屬性鏈，姚明的父親的父親。

SPARQL簡介
上面做了知識庫，那么就會有知識庫的查詢；
SPARQL(SPARQL Protocol and RDF Query Language)，是為RDF開發(fā)的一種查詢語言和數(shù)據(jù)獲取協(xié)議，它是為W3C所開發(fā)的RDF數(shù)據(jù)模型所定義，但是可以用于任何可以用RDF來表示的信息資源。

怎么去查詢和存儲在后面去講解。

這里的？其實是可以被替代的，需要我們?nèi)ヌ畛渌?#xff1b; 所以知識圖譜上的查詢更多的是主圖匹配，怎么快速的去完成主圖匹配，在圖中有同構的判斷其實是一個np hard問題。所以我們在nlp中要學會怎么去轉化為spaRQL問題
這里的spaRQL也可以寫成圖的形
JSON-LD：數(shù)據(jù)交換格式

6. RDFa、HTML5 MicroData：在網(wǎng)頁中嵌入語義數(shù)據(jù)

上面的一句話是對一個電影的描述，我們可以將每句話的每個詞進行分類。
做結構化信息，放到一些排序的函數(shù)當中，通過知識眾包去驗證這是一個高質量的知識之后，搜索引擎會幫你免費的優(yōu)化，使得你可以根據(jù)關鍵詞進行排序搜索。

2.2. 知識圖譜的分布式表示KG Embedding

前面的都是分布式的表示，下面的是知識圖譜的分布式表示-KG Embedding

在保留語義的同時，將知識圖譜中的實體和關系映射到連續(xù)的稠密的低維向量空間。在這個過程中我們使用三種方法：張量分解、神經(jīng)網(wǎng)絡、距離模型。

張量分解：多維的矩陣我們稱為張量，它不是一個二維的，因為二維指針是二維的；所以是用來刻畫我本身的entity和relation之間的關聯(lián)，并且選出它們之間低維的標注，這里的A其實就是entity，R則是relation，每個relation和各個entity之間的交互
神經(jīng)網(wǎng)絡：基于neural Tensor Layer的知識圖譜。使得一些正確的三元組勢能更高，錯誤的三元組勢能更低；
距離模型：是經(jīng)常用到的方法，用在在低維的向量和原本的低維向量語義的距離；是在翻譯中決定的。

3. 知識抽取： NLP + KR

從下往上看；

3.1 主要方法

模板的選取必須是準確的，有選擇的；

4. 知識存儲

5. 知識融合

6. 知識問答

6.1 KBQA例子：

姚明的身高；
誰是第三十五屆美國總統(tǒng)；

6.2 KBQA基本實現(xiàn)流程：

7. 知識推理

簡單而言，推理是指基于已知事實推出未知的事實的計算過程；
大部分搜索引擎目前都已經(jīng)支持了一定的推理能力；
百度輸入：姚明的女兒的媽媽的老公
這就是屬性鏈，前面的本體的屬性

7.1 基于描述邏輯的推理：本體推理

7.2 基于規(guī)則挖掘的推理

比如小明和小紅是小王和小李的孩子，那也可以說小王和小李是小明和小紅的父親；

7.3 基于表示學習的推理

8. 語義搜索

9. 知識融合

Data Linking、Knowledge Fusion、Record Linkage、Entity Alignment。。。
主要目的是不同數(shù)據(jù)源中的實體信息進行整合，形成更加全面的實體信息。
比如一個人改變了發(fā)型或者是戴上墨鏡等都是他本人。
比如維基百科、百度百科、互動百科都有類似的表達，或者其它沒有的內(nèi)容。

9.1 知識融合：典型工具-Dedupe

主要處理流程是對所有records進行clustering，然后在組內(nèi)部通過計算相似度特征和機器學習分類模型對任意一對records進行預測是否為同一實體。
要求兩個數(shù)據(jù)集有相似的結構

9.2 知識融合：典型工具-LIMES

不要求兩個數(shù)據(jù)集的實體具有相似的結構，
可靈活配置匹配規(guī)則，自定義距離計算模型。

10.知識眾包：Wikibase、Schema.ORG

結構化數(shù)據(jù)協(xié)同編輯叫wikibase；

總結

以上是生活随笔為你收集整理的知识图谱入门视频（三）的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：李宏毅机器学习（八）自编码器（Auto-
下一篇： c语言数据类型_C语言基础数据类型