知识图谱入门视频(三)
學習內容
小象學院 b站 第三章
【其實后面的方法學習只是一個框架式的學習,并不明白具體的操作】
鏈接
問題:
可以看看開放知識圖譜
其實就是將我們的語言拆分轉換為符號表達,之后經過機器學習來將離散式的數據轉化為可分布式的表達。
而知識圖譜的構建,是可以不同的,根據需要來定!比如只是關于人際關系的,再比如關于某個人的所有的新聞,再比如全部是關于政府部門的或者是事故的,所以也就有了知識的融合
多庫存儲的難點:是在于存儲的問題還有查詢問題,本體需要不需要切分,消除歧義等;
知識圖譜是一個大的系統; 知識圖譜里面關于知識構建、知識融合之后就產生了知識庫,而知識庫我們就需要對它進行存儲,就會產生圖數據庫。
對于開放數據庫等進行領域建模、領域知識進行篩選
第三部分: 知識圖譜技術概覽
1. 簡介
由于數據源的不同,比如眾包、傳感器、多媒體等流,我們又可以分別使用不同的方法來得到更加規范的數據表示、更強的數據關聯,并存儲到Hbase等數據庫中,之后根據具體的需要再利用這些知識進行知識表示、知識抽取、知識問答等應用。
而知識表示是根本
2. 知識表示
知識表示研究怎樣用計算機符號來表示人腦中的知識,以及怎樣通過符號之間的運算來模擬人腦的推理過程。
現在一般基于數理邏輯的知識表示–》基于向量空間學習的分布式知識表示。
語義網知識表示框架
w3C可以看到最新的語義網知識表示框架。
2.1 知識表示的離散分布
2.1.1 RDF:Triplet-based Assertion model (基于三元組的斷言模型)
鏈接
RDF: (資源描述框架,Resource Description Framework)是描述網絡資源的 W3C 標準, ,比如網頁的標題、作者、修改日期、內容以及版權信息等。
RDF的含義就是描述資源的框架(Framework for Describing Resources),下面我們逐個來看這三個詞的意思。
資源(Resource):所有在Web上被命名、具有URI(Unified Resource Identifier 統一資源描述符)的東西。如網頁、XML文檔中的元素等;
描述(Decription):對資源屬性(Property)的一個陳述(Statement),以表明資源的特性或者資源之間的聯系;
框架(Frameword):與被描述資源無關的通用模型,以包容和管理資源的多樣性、不一致性和重復性。
綜合起來,RDF就是定義了一種通用的框架,即資源-屬性-值的三元組,一不變應萬變,來描述Web上的各種資源。
下面我們來看一個簡單的RDF的例子:
(指明被描述資源的URI)
Tim Bray (被描述資源有一個叫Author即作者的屬性,其值是Tim Bray)
(被描述資源有一叫Home-Page即主頁的屬性,其值指向另一資源)
(結束標志)
RDF Graph: Directed Labeled Graph(有向標記圖)
2.1.2 RDFS:Simple Vocabulary and Schema(簡單的詞匯和模式)
RDF的序列化格式
schema: 和數據庫中表的設計類似!
常用的格式: RDF/XML、RDFa
具體實現
下面是RDF語法的一個實例,用序列語法表示如下:
就只是包含了title、creator、data三個屬性
這個例子如果以RDF簡略語法來表示則為:
<?xml version=“1.0”?><RDF xmlns=http://www.w3.org/1999/02/22-rdf-syntax-ns#xmlna:DC=http://purl.org/metadata/dublin-core#><Description about=http://www.dlib.org/dlib/may98/miller>DC:title = “An introduction to the Resource Description Framework"DC:creator = "Eric Miller"DC:date = "1998-0501"</Description></RDF>2.1.3 OWL:Web Ontology Language
本體 == 哲學的概念
但是不能直接用。是描述語言。 多人進行描述
OWL extends RDF schema
OWL:OWL Web本體語言,W3C推薦標準
這種本體描述語言,可以用來描述Web文檔和應用中內在的類和關系。
為什么使用OWL語言?
- 通過定義類以及類的屬性來形式化某個領域;
- 定義個體并說明它們之間的屬性;
- 在OWL語言的形式化語義允許的層次上,對類和個體進行推理。
推理規則: 比如屬性鏈,姚明的父親的父親。
SPARQL簡介
上面做了知識庫,那么就會有知識庫的查詢;
SPARQL(SPARQL Protocol and RDF Query Language),是為RDF開發的一種查詢語言和數據獲取協議,它是為W3C所開發的RDF數據模型所定義,但是可以用于任何可以用RDF來表示的信息資源。
怎么去查詢和存儲在后面去講解。
這里的 ?其實是可以被替代的,需要我們去填充它; 所以知識圖譜上的查詢更多的是主圖匹配,怎么快速的去完成主圖匹配,在圖中有同構的判斷其實是一個np hard問題。所以我們在nlp中要學會怎么去轉化為spaRQL問題
這里的spaRQL也可以寫成圖的形
JSON-LD:數據交換格式
6. RDFa、HTML5 MicroData:在網頁中嵌入語義數據
上面的一句話是對一個電影的描述, 我們可以將每句話的每個詞進行分類。
做結構化信息,放到一些排序的函數當中,通過知識眾包去驗證這是一個高質量的知識之后,搜索引擎會幫你免費的優化,使得你可以根據關鍵詞進行排序搜索。
2.2. 知識圖譜的分布式表示KG Embedding
前面的都是分布式的表示,下面的是知識圖譜的分布式表示-KG Embedding
在保留語義的同時,將知識圖譜中的實體和關系映射到連續的稠密的低維向量空間。 在這個過程中我們使用三種方法:張量分解、神經網絡、距離模型。
張量分解: 多維的矩陣我們稱為張量,它不是一個二維的,因為二維指針是二維的;所以是用來刻畫我本身的entity和relation之間的關聯,并且選出它們之間低維的標注,這里的A其實就是entity,R則是relation,每個relation和各個entity之間的交互
神經網絡:基于neural Tensor Layer的知識圖譜。使得一些正確的三元組勢能更高,錯誤的三元組勢能更低;
距離模型: 是經常用到的方法,用在在低維的向量和原本的低維向量語義的距離; 是在翻譯中決定的。
3. 知識抽取: NLP + KR
從下往上看;
3.1 主要方法
模板的選取必須是準確的,有選擇的;
4. 知識存儲
5. 知識融合
6. 知識問答
6.1 KBQA例子:
姚明的身高;
誰是第三十五屆美國總統;
6.2 KBQA基本實現流程:
7. 知識推理
簡單而言,推理是指基于已知事實推出未知的事實的計算過程;
大部分搜索引擎目前都已經支持了一定的推理能力;
百度輸入:姚明的女兒的媽媽的老公
這就是屬性鏈,前面的本體的屬性
7.1 基于描述邏輯的推理:本體推理
7.2 基于規則挖掘的推理
比如小明和小紅是小王和小李的孩子,那也可以說小王和小李是小明和小紅的父親;
7.3 基于表示學習的推理
8. 語義搜索
9. 知識融合
Data Linking、Knowledge Fusion、Record Linkage、Entity Alignment。。。
主要目的是不同數據源中的實體信息進行整合,形成更加全面的實體信息。
比如一個人改變了發型或者是戴上墨鏡等都是他本人。
比如維基百科、百度百科、互動百科都有類似的表達,或者其它沒有的內容。
9.1 知識融合:典型工具-Dedupe
主要處理流程是對所有records進行clustering,然后在組內部通過計算相似度特征和機器學習分類模型對任意一對records進行預測是否為同一實體。
要求兩個數據集有相似的結構
9.2 知識融合:典型工具-LIMES
不要求兩個數據集的實體具有相似的結構,
可靈活配置匹配規則,自定義距離計算模型。
10.知識眾包:Wikibase、Schema.ORG
結構化數據協同編輯叫wikibase;
總結
以上是生活随笔為你收集整理的知识图谱入门视频(三)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 李宏毅机器学习(八)自编码器(Auto-
- 下一篇: c语言数据类型_C语言基础数据类型