當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

知识图谱入门知识（一）知识图谱应用以及常用方法概述

發(fā)布時(shí)間：2024/7/5 编程问答 35 豆豆

生活随笔收集整理的這篇文章主要介紹了知识图谱入门知识（一）知识图谱应用以及常用方法概述小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

學(xué)習(xí)內(nèi)容

搜集各種博客，理解實(shí)體識(shí)別、關(guān)系分類(lèi)、關(guān)系抽取、實(shí)體鏈指、知識(shí)推理等，并且總結(jié)各種分類(lèi)中最常用的方法、思路。
由于自己剛剛接觸知識(shí)圖譜，對(duì)該領(lǐng)域的概念和方法的描述還不是很清楚，所以只是簡(jiǎn)單的列出框架和添加鏈接，之后會(huì)進(jìn)行補(bǔ)充。

1. 實(shí)體識(shí)別

原文地址：鏈接
介紹相關(guān)概念的：鏈接

1.1 方法概述

早期的命名實(shí)體識(shí)別方法大都是基于規(guī)則的，系統(tǒng)的實(shí)現(xiàn)代價(jià)較高；
但是進(jìn)入21世紀(jì)后，基于大規(guī)模語(yǔ)料庫(kù)的統(tǒng)計(jì)方法逐漸成為自然語(yǔ)言處理的主流，一大批機(jī)器學(xué)習(xí)方法被成功地應(yīng)用于自然語(yǔ)言處理的各個(gè)方面。根據(jù)使用的機(jī)器學(xué)習(xí)方法的不同，我們可以粗略地將基于機(jī)器學(xué)習(xí)的命名實(shí)體識(shí)別方法劃分為如下四種：有監(jiān)督的學(xué)習(xí)方法、半監(jiān)督的學(xué)習(xí)方法、無(wú)監(jiān)督的學(xué)習(xí)方法、混合方法。

1.2 命名實(shí)體識(shí)別方法

1.2.1 基于CRF的命名實(shí)體識(shí)別方法

CRF：條件隨機(jī)場(chǎng)；也是最成功的命名實(shí)體識(shí)別方法，受到工業(yè)界的廣泛使用。
基于CRF的命名實(shí)體識(shí)別與前面介紹的基于字的漢語(yǔ)分詞原理一樣，就是把命名實(shí)體識(shí)別過(guò)程看作一個(gè)序列標(biāo)注問(wèn)題。基本思路是：將給定的文本首先進(jìn)行分詞處理，然后對(duì)人名、簡(jiǎn)單地名和簡(jiǎn)單的組織機(jī)構(gòu)名進(jìn)行識(shí)別，最后識(shí)別復(fù)合地名和復(fù)合組織機(jī)構(gòu)名。

1.2.2 基于多特征的命名實(shí)體識(shí)別方法

在命名實(shí)體識(shí)別中，無(wú)論采用哪一種方法，都是試圖充分發(fā)現(xiàn)和利用實(shí)體所在的上下文特征和實(shí)體的內(nèi)部特征，只不過(guò)特征的顆粒度有大（詞性和角色級(jí)特征）有小（詞形特征）的問(wèn)題。考慮到大顆粒度特征和小顆粒度特征有互相補(bǔ)充的作用，應(yīng)該兼顧使用的問(wèn)題，提出了基于多特征相融合的漢語(yǔ)命名實(shí)體識(shí)別方法，該方法是在分詞和詞性標(biāo)注的基礎(chǔ)上進(jìn)一步進(jìn)行命名實(shí)體的識(shí)別，由詞形上下文模型、詞性上下文模型、詞形實(shí)體模型和詞性實(shí)體模型4個(gè)子模型組成的。其中，詞形上下文模型估計(jì)在給定詞形上下文語(yǔ)境中產(chǎn)生實(shí)體的概率；詞性上下文模型估計(jì)在給定詞性上下文語(yǔ)境中產(chǎn)生實(shí)體的概率；詞形實(shí)體模型估計(jì)在給定實(shí)體類(lèi)型的情況下詞形串作為實(shí)體的概率；詞性實(shí)體模型估計(jì)在給定實(shí)體類(lèi)型的情況下詞性串作為實(shí)體的概率。

2.關(guān)系分類(lèi)

原文地址： 鏈接

2.1 簡(jiǎn)介

給定一段自然語(yǔ)言文本以及該文本中出現(xiàn)的若干實(shí)體（ $e_{1}...e_{n}$ ），關(guān)系分類(lèi)（relation classification）任務(wù)的目的是識(shí)別這些實(shí)體（ $e_{1}...e_{n}$ ）之間滿(mǎn)足的語(yǔ)義關(guān)系（關(guān)系分類(lèi)也叫做關(guān)系抽取、關(guān)系識(shí)別等）。由于全部可能的關(guān)系集合通常是預(yù)先指定好的（例如知識(shí)圖譜中的全部謂詞（邊上的標(biāo)注/關(guān)系）），因此該任務(wù)可以采用分類(lèi)方法完成。最基本的關(guān)系分類(lèi)任務(wù)是判斷文本中同時(shí)出現(xiàn)的兩個(gè)實(shí)體（ $e_{1},e_{n}$ ）之間的關(guān)系。
2012年，Google對(duì)外發(fā)布了基于知識(shí)圖譜（free base）的語(yǔ)義搜索和智能問(wèn)答服務(wù)，并開(kāi)放了該知識(shí)圖譜供工業(yè)界和學(xué)術(shù)界使用。大規(guī)模知識(shí)圖譜的出現(xiàn)極大地推動(dòng)了智能問(wèn)答研究的發(fā)展。基于此類(lèi)知識(shí)圖譜，斯坦福、Facebook 和微軟等研究機(jī)構(gòu)分別構(gòu)建并開(kāi)放了基于知識(shí)圖譜的智能問(wèn)答評(píng)測(cè)數(shù)據(jù)集，包括WebQuestions、SimpleQuestions、NLPCC-KBQA等，這些數(shù)據(jù)集涉及的問(wèn)答任務(wù)需要問(wèn)答系統(tǒng)能夠針對(duì)輸人問(wèn)題進(jìn)行準(zhǔn)確的關(guān)系分類(lèi)。由于知識(shí)圖譜中包含的關(guān)系（即謂詞）數(shù)目遠(yuǎn)超上述關(guān)系分類(lèi)任務(wù)涉及的關(guān)系數(shù)目，因此近年來(lái)出現(xiàn)了很多新型的關(guān)系分類(lèi)方法。主要包括模板匹配方法、監(jiān)督學(xué)習(xí)方法和半監(jiān)督學(xué)習(xí)方法。

2.2 方法

2.2.1 模板匹配方法

模板匹配方法是關(guān)系分類(lèi)任務(wù)中最常見(jiàn)的方法。該類(lèi)方法使用一個(gè)模板庫(kù)對(duì)輸入文本中兩個(gè)給定實(shí)體進(jìn)行上下文匹配，如果該上下文片段與模板庫(kù)中某個(gè)模板匹配成功，那么可以將該匹配模板對(duì)應(yīng)的關(guān)系作為這兩個(gè)實(shí)體之間滿(mǎn)足的關(guān)系。
兩種常用的模板匹配方法：第一種方法是基于人工模板完成關(guān)系分類(lèi)任務(wù)，第二種方法是基于統(tǒng)計(jì)模板完成關(guān)系分類(lèi)任務(wù)
基于人工模板的關(guān)系分類(lèi)主要用于判斷實(shí)體間是否存在上下位關(guān)系（Hyponymy).
基于人工模板的關(guān)系分類(lèi)在給定關(guān)系列表的基礎(chǔ)上，從大規(guī)模數(shù)據(jù)中自動(dòng)抽取和總結(jié)模板，并將抽取出來(lái)的高質(zhì)量模板用于關(guān)系分類(lèi)任務(wù)。該過(guò)程無(wú)需過(guò)多人工干預(yù)

2.2.2 監(jiān)督學(xué)習(xí)方法

監(jiān)督學(xué)習(xí)（supervised learning)方法使用帶有關(guān)系標(biāo)注的數(shù)據(jù)訓(xùn)練分析分類(lèi)模型。本節(jié)把該類(lèi)方法分為三類(lèi)進(jìn)行介紹：基于特征的方法、基于核函數(shù)的方法和基于深度學(xué)習(xí)的方法。

2.2.3 半監(jiān)督學(xué)習(xí)方法

基于自舉的方法和基于遠(yuǎn)監(jiān)督的方法。

3.實(shí)體鏈指

原文地址：鏈接

3.1簡(jiǎn)介

實(shí)體鏈接，就是把文本中的mention鏈接到KG里的entity的任務(wù)。如下圖所示[1]：

Knowledge Graph (知識(shí)圖譜)：一種語(yǔ)義網(wǎng)絡(luò)，旨在描述客觀(guān)世界的概念實(shí)體及其之間的關(guān)系，有時(shí)也稱(chēng)為Knowledge Base (知識(shí)庫(kù))。
圖譜由三元組構(gòu)成：<實(shí)體1，關(guān)系，實(shí)體2> 或者 <實(shí)體，屬性，屬性值>；
例如：<姚明，plays-in，NBA>、<姚明，身高，2.29m>；
常見(jiàn)的KB有：Wikidata、DBpedia、YAGO。
Entity (實(shí)體)：實(shí)體是知識(shí)圖譜的基本單元，也是文本中承載信息的重要語(yǔ)言單位。
Mention (提及)：自然文本中表達(dá)實(shí)體的語(yǔ)言片段。
回過(guò)頭再看，上面的這個(gè)圖中，“喬丹”、“美國(guó)”、“NBA”這些藍(lán)色的片段都是mention，其箭頭所指的“塊塊”就是它們?cè)趫D譜里對(duì)應(yīng)的entity。

3.2 方法

End-to-End：先從文本中提取到實(shí)體mention (即NER)，對(duì)應(yīng)到候選實(shí)體，然后將提取到的entities消除歧義，映射到給定的KB中。
Linking-Only：與第一種方法對(duì)比，跳過(guò)了第一步。該方法直接將text和mention作為輸入，找到候選實(shí)體并消除歧義，映射到給定的KB中。
由于端到端的工作比較少，且NER也沒(méi)太多可講的。Linking-Only的相關(guān)技術(shù)方向和工作現(xiàn)在比較火。

3.3 難點(diǎn)以及對(duì)應(yīng)的解決方法

EL的工作非常有挑戰(zhàn)性，主要有兩個(gè)原因：

Mention Variations：同一實(shí)體有不同的mention。（<科比>：小飛俠、黑曼巴、科鐵、蝸殼、老科。）
Entity Ambiguity：同一mention對(duì)應(yīng)不同的實(shí)體。（“蘋(píng)果”：中關(guān)村蘋(píng)果不錯(cuò)；山西蘋(píng)果不錯(cuò)。）

針對(duì)上述兩個(gè)問(wèn)題，一般會(huì)用Candidate Entity Generation (CEG) 和Entity Disambiguation (ED) 兩個(gè)模塊[2]來(lái)分別解決：

Candidate Entity Generation：從mention出發(fā)，找到KB中所有可能的實(shí)體，組成候選實(shí)體集 (candidate entities)；
Entity Disambiguation：從candidate entities中，選擇最可能的實(shí)體作為預(yù)測(cè)實(shí)體。

其中，CEG的方法都比較樸素，沒(méi)什么可講的，筆者會(huì)把重點(diǎn)放在ED上。
詳細(xì)請(qǐng)看原文

4. 關(guān)系抽取

原文地址：鏈接

4.1 簡(jiǎn)介

信息抽取旨在從大規(guī)模非結(jié)構(gòu)或半結(jié)構(gòu)的自然語(yǔ)言文本中抽取結(jié)構(gòu)化信息。關(guān)系抽取是其中的重要子任務(wù)之一，主要目的是從文本中識(shí)別實(shí)體并抽取實(shí)體之間的語(yǔ)義關(guān)系。比如：

International Business Machines Corporation (IBM or the company) was
incorporated in the State of New York on June 16, 1911.

我們可以從上面這段文本中抽取出如下三元組（triples）關(guān)系：

Founding-year (IBM, 1911)
Founding-location (IBM, New York)

為什么要進(jìn)行關(guān)系抽取？
創(chuàng)建新的結(jié)構(gòu)化知識(shí)庫(kù)(knowledge base)并且增強(qiáng)現(xiàn)有知識(shí)庫(kù)
構(gòu)建垂直領(lǐng)域知識(shí)圖譜：醫(yī)療，化工，農(nóng)業(yè)，教育等
支持上層應(yīng)用：問(wèn)答，搜索，推理等。比如，對(duì)于這樣一個(gè)提問(wèn)：

The granddaughter of which actor starred in the movie “E.T.”?

可以用如下的關(guān)系推理表示：

(acted-in ?x "E.T.") && (is-a ?y actor) && (granddaughter-of ?x ?y)

4.2 方法

基于規(guī)則的模式匹配（Using Hand-built Patterns）
基于監(jiān)督學(xué)習(xí)的方法（Supervised Method）
我們可以把關(guān)系抽取當(dāng)成一個(gè)多分類(lèi)問(wèn)題，每一種關(guān)系都是一個(gè)類(lèi)別，通過(guò)對(duì)標(biāo)簽數(shù)據(jù)的學(xué)習(xí)訓(xùn)練出一個(gè)分類(lèi)器（classifier）即可。主要難點(diǎn)有兩個(gè)：特征的構(gòu)建和標(biāo)簽數(shù)據(jù)的獲取
半監(jiān)督和無(wú)監(jiān)督學(xué)習(xí)方法（Semi-supervised && unsupervised）
基于種子的啟發(fā)式算法（Seed--based or bootstrapping approach）
遠(yuǎn)程監(jiān)督學(xué)習(xí)（Distant Supervision）

5. 知識(shí)推理

原文地址：鏈接

5.1 簡(jiǎn)介

OWL本體語(yǔ)言是知識(shí)圖譜中最規(guī)范(W3C制定)、最嚴(yán)謹(jǐn)(采用描述邏輯)。表達(dá)能力最強(qiáng)的語(yǔ)言(是一階謂詞邏輯的子集)，它基于RDF語(yǔ)法，使表示出來(lái)的文檔具有語(yǔ)義理解的結(jié)構(gòu)基礎(chǔ)。促進(jìn)了統(tǒng)一詞匯表的使用，定義了豐富的語(yǔ)義詞匯。同時(shí)允許邏輯推理

所謂推理就是通過(guò)各種方法獲取新的知識(shí)或者結(jié)論，這些知識(shí)和結(jié)論滿(mǎn)足語(yǔ)義。其具體任務(wù)可分為可滿(mǎn)足性(satisfiability)、分類(lèi)(classification)、實(shí)例化(materialization)。

可滿(mǎn)足性可體現(xiàn)在本體上或概念上，在本體上即本體可滿(mǎn)足性是檢查一個(gè)本體是否可滿(mǎn)足，即檢查該本體是否有模型。如果本體不滿(mǎn)足，說(shuō)明存在不一致。概念可滿(mǎn)足性即檢查某一概念的可滿(mǎn)足性，即檢查是否具有模型，使得針對(duì)該概念的解釋不是空集。
分類(lèi)，針對(duì)Tbox的推理，計(jì)算新的概念包含關(guān)系
實(shí)例化即計(jì)算屬于某個(gè)概念或關(guān)系的所有實(shí)例的集合

5.2 方法

基于Tableaux運(yùn)算
基于一階查詢(xún)重寫(xiě)的方法
基于產(chǎn)生式規(guī)則的方法

總結(jié)

以上是生活随笔為你收集整理的知识图谱入门知识（一）知识图谱应用以及常用方法概述的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：同花顺如何切换k线_K线之形态学：浅谈纸
下一篇：小米10pro第二个摄像头下面_小米10

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

知识图谱入门知识（一）知识图谱应用以及常用方法概述

學(xué)習(xí)內(nèi)容

1. 實(shí)體識(shí)別

1.1 方法概述

1.2 命名實(shí)體識(shí)別方法

1.2.1 基于CRF的命名實(shí)體識(shí)別方法

1.2.2 基于多特征的命名實(shí)體識(shí)別方法

2.關(guān)系分類(lèi)

2.1 簡(jiǎn)介

2.2 方法

2.2.1 模板匹配方法

2.2.2 監(jiān)督學(xué)習(xí)方法

2.2.3 半監(jiān)督學(xué)習(xí)方法

3.實(shí)體鏈指

3.1簡(jiǎn)介

3.2 方法

3.3 難點(diǎn)以及對(duì)應(yīng)的解決方法

4. 關(guān)系抽取

4.1 簡(jiǎn)介

4.2 方法

5. 知識(shí)推理

5.1 簡(jiǎn)介

5.2 方法

總結(jié)