知识图谱入门知识(一)知识图谱应用以及常用方法概述
學(xué)習(xí)內(nèi)容
搜集各種博客,理解實(shí)體識(shí)別、關(guān)系分類(lèi)、關(guān)系抽取、實(shí)體鏈指、知識(shí)推理等,并且總結(jié)各種分類(lèi)中最常用的方法、思路。
由于自己剛剛接觸知識(shí)圖譜,對(duì)該領(lǐng)域的概念和方法的描述還不是很清楚,所以只是簡(jiǎn)單的列出框架和添加鏈接,之后會(huì)進(jìn)行補(bǔ)充。
1. 實(shí)體識(shí)別
原文地址:鏈接
介紹相關(guān)概念的: 鏈接
1.1 方法概述
早期的命名實(shí)體識(shí)別方法大都是基于規(guī)則的,系統(tǒng)的實(shí)現(xiàn)代價(jià)較高;
但是進(jìn)入21世紀(jì)后,基于大規(guī)模語(yǔ)料庫(kù)的統(tǒng)計(jì)方法逐漸成為自然語(yǔ)言處理的主流,一大批機(jī)器學(xué)習(xí)方法被成功地應(yīng)用于自然語(yǔ)言處理的各個(gè)方面。根據(jù)使用的機(jī)器學(xué)習(xí)方法的不同,我們可以粗略地將基于機(jī)器學(xué)習(xí)的命名實(shí)體識(shí)別方法劃分為如下四種:有監(jiān)督的學(xué)習(xí)方法、半監(jiān)督的學(xué)習(xí)方法、無(wú)監(jiān)督的學(xué)習(xí)方法、混合方法。
1.2 命名實(shí)體識(shí)別方法
1.2.1 基于CRF的命名實(shí)體識(shí)別方法
CRF:條件隨機(jī)場(chǎng); 也是最成功的命名實(shí)體識(shí)別方法,受到工業(yè)界的廣泛使用。
基于CRF的命名實(shí)體識(shí)別與前面介紹的基于字的漢語(yǔ)分詞原理一樣,就是把命名實(shí)體識(shí)別過(guò)程看作一個(gè)序列標(biāo)注問(wèn)題。 基本思路是:將給定的文本首先進(jìn)行分詞處理,然后對(duì)人名、簡(jiǎn)單地名和簡(jiǎn)單的組織機(jī)構(gòu)名進(jìn)行識(shí)別,最后識(shí)別復(fù)合地名和復(fù)合組織機(jī)構(gòu)名。
1.2.2 基于多特征的命名實(shí)體識(shí)別方法
在命名實(shí)體識(shí)別中,無(wú)論采用哪一種方法,都是試圖充分發(fā)現(xiàn)和利用實(shí)體所在的上下文特征和實(shí)體的內(nèi)部特征,只不過(guò)特征的顆粒度有大(詞性和角色級(jí)特征)有小(詞形特征)的問(wèn)題。考慮到大顆粒度特征和小顆粒度特征有互相補(bǔ)充的作用,應(yīng)該兼顧使用的問(wèn)題,提出了基于多特征相融合的漢語(yǔ)命名實(shí)體識(shí)別方法,該方法是在分詞和詞性標(biāo)注的基礎(chǔ)上進(jìn)一步進(jìn)行命名實(shí)體的識(shí)別,由詞形上下文模型、詞性上下文模型、詞形實(shí)體模型和詞性實(shí)體模型4個(gè)子模型組成的。其中,詞形上下文模型估計(jì)在給定詞形上下文語(yǔ)境中產(chǎn)生實(shí)體的概率;詞性上下文模型估計(jì)在給定詞性上下文語(yǔ)境中產(chǎn)生實(shí)體的概率;詞形實(shí)體模型估計(jì)在給定實(shí)體類(lèi)型的情況下詞形串作為實(shí)體的概率;詞性實(shí)體模型估計(jì)在給定實(shí)體類(lèi)型的情況下詞性串作為實(shí)體的概率。
2.關(guān)系分類(lèi)
原文地址: 鏈接
2.1 簡(jiǎn)介
給定一段自然語(yǔ)言文本以及該文本中出現(xiàn)的若干實(shí)體(e1...ene_{1}...e_{n}e1?...en?),關(guān)系分類(lèi)(relation classification)任務(wù)的目的是識(shí)別這些實(shí)體(e1...ene_{1}...e_{n}e1?...en?)之間滿(mǎn)足的語(yǔ)義關(guān)系(關(guān)系分類(lèi)也叫做關(guān)系抽取、關(guān)系識(shí)別等)。由于全部可能的關(guān)系集合通常是預(yù)先指定好的(例如知識(shí)圖譜中的全部謂詞(邊上的標(biāo)注/關(guān)系)),因此該任務(wù)可以采用分類(lèi)方法完成。最基本的關(guān)系分類(lèi)任務(wù)是判斷文本中同時(shí)出現(xiàn)的兩個(gè)實(shí)體(e1,ene_{1},e_{n}e1?,en?)之間的關(guān)系。
2012年,Google對(duì)外發(fā)布了基于知識(shí)圖譜(free base)的語(yǔ)義搜索和智能問(wèn)答服務(wù),并開(kāi)放了該知識(shí)圖譜供工業(yè)界和學(xué)術(shù)界使用。大規(guī)模知識(shí)圖譜的出現(xiàn)極大地推動(dòng)了智能問(wèn)答研究的發(fā)展。基于此類(lèi)知識(shí)圖譜,斯坦福、Facebook 和微軟等研究機(jī)構(gòu)分別構(gòu)建并開(kāi)放了基于知識(shí)圖譜的智能問(wèn)答評(píng)測(cè)數(shù)據(jù)集,包括WebQuestions、SimpleQuestions、NLPCC-KBQA等,這些數(shù)據(jù)集涉及的問(wèn)答任務(wù)需要問(wèn)答系統(tǒng)能夠針對(duì)輸人問(wèn)題進(jìn)行準(zhǔn)確的關(guān)系分類(lèi)。由于知識(shí)圖譜中包含的關(guān)系(即謂詞)數(shù)目遠(yuǎn)超上述關(guān)系分類(lèi)任務(wù)涉及的關(guān)系數(shù)目,因此近年來(lái)出現(xiàn)了很多新型的關(guān)系分類(lèi)方法。主要包括模板匹配方法、監(jiān)督學(xué)習(xí)方法和半監(jiān)督學(xué)習(xí)方法。
2.2 方法
2.2.1 模板匹配方法
模板匹配方法是關(guān)系分類(lèi)任務(wù)中最常見(jiàn)的方法。該類(lèi)方法使用一個(gè)模板庫(kù)對(duì)輸入文本中兩個(gè)給定實(shí)體進(jìn)行上下文匹配,如果該上下文片段與模板庫(kù)中某個(gè)模板匹配成功,那么可以將該匹配模板對(duì)應(yīng)的關(guān)系作為這兩個(gè)實(shí)體之間滿(mǎn)足的關(guān)系。
兩種常用的模板匹配方法: 第一種方法是基于人工模板完成關(guān)系分類(lèi)任務(wù),第二種方法是基于統(tǒng)計(jì)模板完成關(guān)系分類(lèi)任務(wù)
基于人工模板的關(guān)系分類(lèi)主要用于判斷實(shí)體間是否存在上下位關(guān)系(Hyponymy).
基于人工模板的關(guān)系分類(lèi)在給定關(guān)系列表的基礎(chǔ)上,從大規(guī)模數(shù)據(jù)中自動(dòng)抽取和總結(jié)模板,并將抽取出來(lái)的高質(zhì)量模板用于關(guān)系分類(lèi)任務(wù)。該過(guò)程無(wú)需過(guò)多人工干預(yù)
2.2.2 監(jiān)督學(xué)習(xí)方法
監(jiān)督學(xué)習(xí)(supervised learning)方法使用帶有關(guān)系標(biāo)注的數(shù)據(jù)訓(xùn)練分析分類(lèi)模型。本節(jié)把該類(lèi)方法分為三類(lèi)進(jìn)行介紹:基于特征的方法、基于核函數(shù)的方法和基于深度學(xué)習(xí)的方法。
2.2.3 半監(jiān)督學(xué)習(xí)方法
基于自舉的方法和基于遠(yuǎn)監(jiān)督的方法。
3.實(shí)體鏈指
原文地址:鏈接
3.1簡(jiǎn)介
實(shí)體鏈接,就是把文本中的mention鏈接到KG里的entity的任務(wù)。如下圖所示[1]:
- Knowledge Graph (知識(shí)圖譜):一種語(yǔ)義網(wǎng)絡(luò),旨在描述客觀(guān)世界的概念實(shí)體及其之間的關(guān)系,有時(shí)也稱(chēng)為Knowledge Base (知識(shí)庫(kù))。
- 圖譜由三元組構(gòu)成:<實(shí)體1,關(guān)系,實(shí)體2> 或者 <實(shí)體,屬性,屬性值>;
例如:<姚明,plays-in,NBA>、<姚明,身高,2.29m>;
常見(jiàn)的KB有:Wikidata、DBpedia、YAGO。 - Entity (實(shí)體):實(shí)體是知識(shí)圖譜的基本單元,也是文本中承載信息的重要語(yǔ)言單位。
- Mention (提及):自然文本中表達(dá)實(shí)體的語(yǔ)言片段。
回過(guò)頭再看,上面的這個(gè)圖中,“喬丹”、“美國(guó)”、“NBA”這些藍(lán)色的片段都是mention,其箭頭所指的“塊塊”就是它們?cè)趫D譜里對(duì)應(yīng)的entity。
3.2 方法
- End-to-End:先從文本中提取到實(shí)體mention (即NER),對(duì)應(yīng)到候選實(shí)體,然后將提取到的entities消除歧義,映射到給定的KB中。
- Linking-Only:與第一種方法對(duì)比,跳過(guò)了第一步。該方法直接將text和mention作為輸入,找到候選實(shí)體并消除歧義,映射到給定的KB中。
由于端到端的工作比較少,且NER也沒(méi)太多可講的。Linking-Only的相關(guān)技術(shù)方向和工作現(xiàn)在比較火。
3.3 難點(diǎn)以及對(duì)應(yīng)的解決方法
EL的工作非常有挑戰(zhàn)性,主要有兩個(gè)原因:
- Mention Variations:同一實(shí)體有不同的mention。(<科比>:小飛俠、黑曼巴、科鐵、蝸殼、老科。)
- Entity Ambiguity:同一mention對(duì)應(yīng)不同的實(shí)體。(“蘋(píng)果”:中關(guān)村蘋(píng)果不錯(cuò);山西蘋(píng)果不錯(cuò)。)
針對(duì)上述兩個(gè)問(wèn)題,一般會(huì)用Candidate Entity Generation (CEG) 和Entity Disambiguation (ED) 兩個(gè)模塊[2]來(lái)分別解決:
- Candidate Entity Generation:從mention出發(fā),找到KB中所有可能的實(shí)體,組成候選實(shí)體集 (candidate entities);
- Entity Disambiguation:從candidate entities中,選擇最可能的實(shí)體作為預(yù)測(cè)實(shí)體。
其中,CEG的方法都比較樸素,沒(méi)什么可講的,筆者會(huì)把重點(diǎn)放在ED上。
詳細(xì)請(qǐng)看原文
4. 關(guān)系抽取
原文地址:鏈接
4.1 簡(jiǎn)介
信息抽取旨在從大規(guī)模非結(jié)構(gòu)或半結(jié)構(gòu)的自然語(yǔ)言文本中抽取結(jié)構(gòu)化信息。關(guān)系抽取是其中的重要子任務(wù)之一,主要目的是從文本中識(shí)別實(shí)體并抽取實(shí)體之間的語(yǔ)義關(guān)系。比如:
International Business Machines Corporation (IBM or the company) was
incorporated in the State of New York on June 16, 1911.
我們可以從上面這段文本中抽取出如下三元組(triples)關(guān)系:
- Founding-year (IBM, 1911)
- Founding-location (IBM, New York)
為什么要進(jìn)行關(guān)系抽取?
創(chuàng)建新的結(jié)構(gòu)化知識(shí)庫(kù)(knowledge base)并且增強(qiáng)現(xiàn)有知識(shí)庫(kù)
構(gòu)建垂直領(lǐng)域知識(shí)圖譜:醫(yī)療,化工,農(nóng)業(yè),教育等
支持上層應(yīng)用:問(wèn)答,搜索,推理等。比如,對(duì)于這樣一個(gè)提問(wèn):
The granddaughter of which actor starred in the movie “E.T.”?
可以用如下的關(guān)系推理表示:
(acted-in ?x "E.T.") && (is-a ?y actor) && (granddaughter-of ?x ?y)4.2 方法
基于規(guī)則的模式匹配(Using Hand-built Patterns)
基于監(jiān)督學(xué)習(xí)的方法(Supervised Method)
我們可以把關(guān)系抽取當(dāng)成一個(gè)多分類(lèi)問(wèn)題,每一種關(guān)系都是一個(gè)類(lèi)別,通過(guò)對(duì)標(biāo)簽數(shù)據(jù)的學(xué)習(xí)訓(xùn)練出一個(gè)分類(lèi)器(classifier)即可。主要難點(diǎn)有兩個(gè):特征的構(gòu)建和標(biāo)簽數(shù)據(jù)的獲取
半監(jiān)督和無(wú)監(jiān)督學(xué)習(xí)方法(Semi-supervised && unsupervised)
基于種子的啟發(fā)式算法(Seed--based or bootstrapping approach)
遠(yuǎn)程監(jiān)督學(xué)習(xí)(Distant Supervision)
5. 知識(shí)推理
原文地址:鏈接
5.1 簡(jiǎn)介
OWL本體語(yǔ)言是知識(shí)圖譜中最規(guī)范(W3C制定)、最嚴(yán)謹(jǐn)(采用描述邏輯)。表達(dá)能力最強(qiáng)的語(yǔ)言(是一階謂詞邏輯的子集),它基于RDF語(yǔ)法,使表示出來(lái)的文檔具有語(yǔ)義理解的結(jié)構(gòu)基礎(chǔ)。促進(jìn)了統(tǒng)一詞匯表的使用,定義了豐富的語(yǔ)義詞匯。同時(shí)允許邏輯推理
所謂推理就是通過(guò)各種方法獲取新的知識(shí)或者結(jié)論,這些知識(shí)和結(jié)論滿(mǎn)足語(yǔ)義。其具體任務(wù)可分為可滿(mǎn)足性(satisfiability)、分類(lèi)(classification)、實(shí)例化(materialization)。
可滿(mǎn)足性可體現(xiàn)在本體上或概念上,在本體上即本體可滿(mǎn)足性是檢查一個(gè)本體是否可滿(mǎn)足,即檢查該本體是否有模型。如果本體不滿(mǎn)足,說(shuō)明存在不一致。概念可滿(mǎn)足性即檢查某一概念的可滿(mǎn)足性,即檢查是否具有模型,使得針對(duì)該概念的解釋不是空集。
分類(lèi),針對(duì)Tbox的推理,計(jì)算新的概念包含關(guān)系
實(shí)例化即計(jì)算屬于某個(gè)概念或關(guān)系的所有實(shí)例的集合
5.2 方法
基于Tableaux運(yùn)算
基于一階查詢(xún)重寫(xiě)的方法
基于產(chǎn)生式規(guī)則的方法
總結(jié)
以上是生活随笔為你收集整理的知识图谱入门知识(一)知识图谱应用以及常用方法概述的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 同花顺如何切换k线_K线之形态学:浅谈纸
- 下一篇: 小米10pro第二个摄像头下面_小米10