日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

知识图谱入门知识(一)知识图谱应用以及常用方法概述

發布時間:2024/7/5 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 知识图谱入门知识(一)知识图谱应用以及常用方法概述 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

學習內容

搜集各種博客,理解實體識別、關系分類、關系抽取、實體鏈指、知識推理等,并且總結各種分類中最常用的方法、思路。
由于自己剛剛接觸知識圖譜,對該領域的概念和方法的描述還不是很清楚,所以只是簡單的列出框架和添加鏈接,之后會進行補充。

1. 實體識別

原文地址:鏈接
介紹相關概念的: 鏈接

1.1 方法概述


早期的命名實體識別方法大都是基于規則的,系統的實現代價較高;
但是進入21世紀后,基于大規模語料庫的統計方法逐漸成為自然語言處理的主流,一大批機器學習方法被成功地應用于自然語言處理的各個方面。根據使用的機器學習方法的不同,我們可以粗略地將基于機器學習的命名實體識別方法劃分為如下四種:有監督的學習方法、半監督的學習方法、無監督的學習方法、混合方法。

1.2 命名實體識別方法

1.2.1 基于CRF的命名實體識別方法

CRF:條件隨機場; 也是最成功的命名實體識別方法,受到工業界的廣泛使用。
基于CRF的命名實體識別與前面介紹的基于字的漢語分詞原理一樣,就是把命名實體識別過程看作一個序列標注問題。 基本思路是:將給定的文本首先進行分詞處理,然后對人名、簡單地名和簡單的組織機構名進行識別,最后識別復合地名和復合組織機構名。

1.2.2 基于多特征的命名實體識別方法

在命名實體識別中,無論采用哪一種方法,都是試圖充分發現和利用實體所在的上下文特征和實體的內部特征,只不過特征的顆粒度有大(詞性和角色級特征)有小(詞形特征)的問題。考慮到大顆粒度特征和小顆粒度特征有互相補充的作用,應該兼顧使用的問題,提出了基于多特征相融合的漢語命名實體識別方法,該方法是在分詞和詞性標注的基礎上進一步進行命名實體的識別,由詞形上下文模型、詞性上下文模型、詞形實體模型和詞性實體模型4個子模型組成的。其中,詞形上下文模型估計在給定詞形上下文語境中產生實體的概率;詞性上下文模型估計在給定詞性上下文語境中產生實體的概率;詞形實體模型估計在給定實體類型的情況下詞形串作為實體的概率;詞性實體模型估計在給定實體類型的情況下詞性串作為實體的概率。

2.關系分類

原文地址: 鏈接

2.1 簡介

給定一段自然語言文本以及該文本中出現的若干實體(e1...ene_{1}...e_{n}e1?...en?),關系分類(relation classification)任務的目的是識別這些實體(e1...ene_{1}...e_{n}e1?...en?)之間滿足的語義關系關系分類也叫做關系抽取、關系識別等)。由于全部可能的關系集合通常是預先指定好的(例如知識圖譜中的全部謂詞(邊上的標注/關系)),因此該任務可以采用分類方法完成。最基本的關系分類任務是判斷文本中同時出現的兩個實體(e1,ene_{1},e_{n}e1?,en?)之間的關系。
2012年,Google對外發布了基于知識圖譜(free base)的語義搜索和智能問答服務,并開放了該知識圖譜供工業界和學術界使用。大規模知識圖譜的出現極大地推動了智能問答研究的發展。基于此類知識圖譜,斯坦福、Facebook 和微軟等研究機構分別構建并開放了基于知識圖譜的智能問答評測數據集,包括WebQuestions、SimpleQuestions、NLPCC-KBQA等,這些數據集涉及的問答任務需要問答系統能夠針對輸人問題進行準確的關系分類。由于知識圖譜中包含的關系(即謂詞)數目遠超上述關系分類任務涉及的關系數目,因此近年來出現了很多新型的關系分類方法。主要包括模板匹配方法、監督學習方法和半監督學習方法。

2.2 方法

2.2.1 模板匹配方法

模板匹配方法是關系分類任務中最常見的方法。該類方法使用一個模板庫對輸入文本中兩個給定實體進行上下文匹配,如果該上下文片段與模板庫中某個模板匹配成功,那么可以將該匹配模板對應的關系作為這兩個實體之間滿足的關系。
兩種常用的模板匹配方法: 第一種方法是基于人工模板完成關系分類任務,第二種方法是基于統計模板完成關系分類任務
基于人工模板的關系分類主要用于判斷實體間是否存在上下位關系(Hyponymy).
基于人工模板的關系分類在給定關系列表的基礎上,從大規模數據中自動抽取和總結模板,并將抽取出來的高質量模板用于關系分類任務。該過程無需過多人工干預

2.2.2 監督學習方法

監督學習(supervised learning)方法使用帶有關系標注的數據訓練分析分類模型。本節把該類方法分為三類進行介紹:基于特征的方法、基于核函數的方法和基于深度學習的方法

2.2.3 半監督學習方法

基于自舉的方法和基于遠監督的方法。

3.實體鏈指

原文地址:鏈接

3.1簡介

實體鏈接,就是把文本中的mention鏈接到KG里的entity的任務。如下圖所示[1]:

  • Knowledge Graph (知識圖譜):一種語義網絡,旨在描述客觀世界的概念實體及其之間的關系,有時也稱為Knowledge Base (知識庫)。
  • 圖譜由三元組構成:<實體1,關系,實體2> 或者 <實體,屬性,屬性值>;
    例如:<姚明,plays-in,NBA>、<姚明,身高,2.29m>;
    常見的KB有:Wikidata、DBpedia、YAGO。
  • Entity (實體):實體是知識圖譜的基本單元,也是文本中承載信息的重要語言單位。
  • Mention (提及):自然文本中表達實體的語言片段。
    回過頭再看,上面的這個圖中,“喬丹”、“美國”、“NBA”這些藍色的片段都是mention,其箭頭所指的“塊塊”就是它們在圖譜里對應的entity。

3.2 方法

  • End-to-End:先從文本中提取到實體mention (即NER),對應到候選實體,然后將提取到的entities消除歧義,映射到給定的KB中。
  • Linking-Only:與第一種方法對比,跳過了第一步。該方法直接將text和mention作為輸入,找到候選實體并消除歧義,映射到給定的KB中。
    由于端到端的工作比較少,且NER也沒太多可講的。Linking-Only的相關技術方向和工作現在比較火。

3.3 難點以及對應的解決方法

EL的工作非常有挑戰性,主要有兩個原因:

  • Mention Variations:同一實體有不同的mention。(<科比>:小飛俠、黑曼巴、科鐵、蝸殼、老科。)
  • Entity Ambiguity:同一mention對應不同的實體。(“蘋果”:中關村蘋果不錯;山西蘋果不錯。)

針對上述兩個問題,一般會用Candidate Entity Generation (CEG) 和Entity Disambiguation (ED) 兩個模塊[2]來分別解決:

  • Candidate Entity Generation:從mention出發,找到KB中所有可能的實體,組成候選實體集 (candidate entities);
  • Entity Disambiguation:從candidate entities中,選擇最可能的實體作為預測實體。

其中,CEG的方法都比較樸素,沒什么可講的,筆者會把重點放在ED上。
詳細請看原文

4. 關系抽取

原文地址:鏈接

4.1 簡介

信息抽取旨在從大規模非結構或半結構的自然語言文本中抽取結構化信息。關系抽取是其中的重要子任務之一,主要目的是從文本中識別實體并抽取實體之間的語義關系。比如:

International Business Machines Corporation (IBM or the company) was
incorporated in the State of New York on June 16, 1911.

我們可以從上面這段文本中抽取出如下三元組(triples)關系:

  • Founding-year (IBM, 1911)
  • Founding-location (IBM, New York)

為什么要進行關系抽取?
創建新的結構化知識庫(knowledge base)并且增強現有知識庫
構建垂直領域知識圖譜:醫療,化工,農業,教育等
支持上層應用:問答,搜索,推理等。比如,對于這樣一個提問:

The granddaughter of which actor starred in the movie “E.T.”?

可以用如下的關系推理表示:

(acted-in ?x "E.T.") && (is-a ?y actor) && (granddaughter-of ?x ?y)

4.2 方法

基于規則的模式匹配(Using Hand-built Patterns)
基于監督學習的方法(Supervised Method)
我們可以把關系抽取當成一個多分類問題,每一種關系都是一個類別,通過對標簽數據的學習訓練出一個分類器(classifier)即可。主要難點有兩個:特征的構建和標簽數據的獲取
半監督和無監督學習方法(Semi-supervised && unsupervised)
基于種子的啟發式算法(Seed--based or bootstrapping approach)

遠程監督學習(Distant Supervision)

5. 知識推理

原文地址:鏈接

5.1 簡介

OWL本體語言是知識圖譜中最規范(W3C制定)、最嚴謹(采用描述邏輯)。表達能力最強的語言(是一階謂詞邏輯的子集),它基于RDF語法,使表示出來的文檔具有語義理解的結構基礎。促進了統一詞匯表的使用,定義了豐富的語義詞匯。同時允許邏輯推理

所謂推理就是通過各種方法獲取新的知識或者結論,這些知識和結論滿足語義。其具體任務可分為可滿足性(satisfiability)、分類(classification)、實例化(materialization)

可滿足性可體現在本體上或概念上,在本體上即本體可滿足性是檢查一個本體是否可滿足,即檢查該本體是否有模型。如果本體不滿足,說明存在不一致。概念可滿足性即檢查某一概念的可滿足性,即檢查是否具有模型,使得針對該概念的解釋不是空集。
分類,針對Tbox的推理,計算新的概念包含關系
實例化即計算屬于某個概念或關系的所有實例的集合

5.2 方法

基于Tableaux運算
基于一階查詢重寫的方法
基于產生式規則的方法

總結

以上是生活随笔為你收集整理的知识图谱入门知识(一)知识图谱应用以及常用方法概述的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。