第五章 知识图谱
5.1 簡介
5.2 知識表示學習(基礎模型)
5.2.1 表示學習
5.2.2 基于語義匹配
語義模型:RESCAL
語義模型:DistMult
語義模型:HolE
5.2.3 基于平移距離
平移模型:TransE
5.3 前沿發展和關鍵挑戰
5.3.1 處理復雜關系
5.3.1.1 投影
5.3.1.2 嵌入空間
5.3.1.3 編碼模型
5.3.2 融合外部信息
5.3.2.1?文本信息
5.3.2.2 結構信息
5.3.2.3 圖像信息
5.3.3 知識推理
5.3.3.1?基于路徑的方法
5.3.3.2?基于邏輯規則的方法
5.4 總結
5.1 簡介
定義:知識圖譜提供了關于某個主題的結構化的詳細信息。(維基百科)
知識圖譜以圖形式組織知識,每個節點對應一個實體,每條邊對應一條關系,知識圖譜的基本單位是事實(頭實體、關系、尾實體)。
發展歷程:
?
特征:
- 知識圖譜以圖結構形式組織
- 關系性、靈活性、可學習性強
- 數據的含義和圖一起編碼
- 更接近自然語言、可讀性強
應用:
- 問答系統
- 搜索引擎
- 推薦系統
5.2 知識表示學習(基礎模型)
5.2.1 表示學習
機器學習 = 表示 + 目標 + 優化
表示學習即通過相關算法學習到對象的分布式表示(嵌入),將對象抽象為稠密、實值和低維的向量的過程。例如embedding等。
知識圖譜符號三元組RDF不能高效地衡量實體之間的語義相似性,面向知識圖譜的表示學習能夠將知識圖譜編碼到低維向量空間,能夠通過用高頻對象表示低頻對象,緩解稀疏性問題,緩解長尾分布問題,進一步能夠通過實現跨域和跨對象的知識遷移。
5.2.2 基于語義匹配
如何衡量一個三元組的可信度?
語義模型:RESCAL
語義模型:DistMult
語義模型:HolE
?
5.2.3 基于平移距離
如何衡量一個三元組的可信度?啟發于word2vec:對每個三元組,關系將頭實體平移到尾實體。
平移模型:TransE
學習目標:h + r = t
學習出h、r、t的表示后,可以通過任意去預測另外一者,TransE簡單,只需要學習出hrt的向量表示,參數少但效果很好。
5.3 前沿發展和關鍵挑戰
5.3.1 處理復雜關系
現實生活中,頭實體和尾實體的對應不只是1對1的,如下圖所示:
傳統的方法會使Obama和Trump的相似度變高,影響模型效果。
5.3.1.1 投影
投影的思想是構建與給定關系的實體表示,即不同關系下,實體表示不同。
???????
5.3.1.2 嵌入空間
5.3.1.3 編碼模型
思想:引入其他DL方法進行編碼。
?
?
5.3.2 融合外部信息
知識圖譜蘊含著網絡結構以外的許多信息。
5.3.2.1?文本信息
思想:通過實體描述、實體文本建立對應的表示。
5.3.2.2 結構信息
每個實體有多個層級類別結構,層級類別提升了在長尾上的實體表現。
?利用屬性信息學習實體表示:
?
5.3.2.3 圖像信息
5.3.3 知識推理
實體之間可能通過多個路徑連接,有著復雜的推理路徑。
5.3.3.1?基于路徑的方法
Path-Ranking算法:用隨機游走派生出多條路徑,用監督訓練為路徑排序,可解釋性強,但存在關系的排列組合,產生組合爆炸,故不能規模化。
5.3.3.2?基于邏輯規則的方法
思想:將路徑嵌入到模型中
?
5.4 總結
- 知識表示學習是構建和應用圖譜的重要方法?
- 知識表示學習仍在快速發展,有很多開放問題?
- 關鍵是如何從人類的泛化和抽象能力中學習知識
- 深度學習 &知識圖譜會為自然語言處理帶來變革,指導語言理解、語言生成等
總結
- 上一篇: MediaRecorder之视频录制
- 下一篇: java中:统计字符串大串中小串出现的次