當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 基于知识库的自然语言理解 03#

發(fā)布時(shí)間：2024/7/5 编程问答 36 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 | 基于知识库的自然语言理解 03# 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

本文轉(zhuǎn)載自公眾號(hào): 知識(shí)工場。

羅康琦，上海交通大學(xué)計(jì)算機(jī)系2019屆博士，研究方向?yàn)樽匀徽Z義理解和知識(shí)圖譜。2012年獲得華中科技大學(xué)軟件工程學(xué)士學(xué)位，現(xiàn)就職于京東數(shù)據(jù)科學(xué)實(shí)驗(yàn)室（Data Science Lab）。他曾在AAAI，IJCAI，EMNLP等國際頂級(jí)會(huì)議上發(fā)表多篇論文。

第 4 章??自然語言關(guān)系的語義理解研究

本章的研究中，我們關(guān)注從海量純文本數(shù)據(jù)中挖掘出的關(guān)系三元組。二元關(guān)系是一個(gè)三元組的語義核心，它扮演謂語的成分，描述了主語和賓語實(shí)體間具有的特定聯(lián)系。然而，由于關(guān)系具有多義性，以及知識(shí)庫與自然語言間存在的語義間隔，我們很難直接像實(shí)體理解那樣，建立關(guān)系和知識(shí)庫謂詞的一一對(duì)應(yīng)。因此，我們嘗試從多個(gè)角度出發(fā)，尋找關(guān)系與知識(shí)庫之間存在的復(fù)雜匹配。

4.1 關(guān)系的主賓語類型搭配挖掘

這一節(jié)的研究中，我們旨在尋找不同關(guān)系連接的實(shí)體所具有的類型偏好，并利用知識(shí)庫中的實(shí)體信息構(gòu)建豐富的類型層次關(guān)系，從而挖掘具有代表性的(主語，賓語)類型搭配，在粗粒度上展現(xiàn)關(guān)系的不同含義。

4.1.1 引言?

開放式信息抽取（ Open Information Extraction ）任務(wù)的目標(biāo)是從從開放領(lǐng)域的文本語料庫中挖掘命名實(shí)體或概念，并抽取出連接這些實(shí)體的各種不同的自然語言關(guān)系。之所以稱為開放式抽取，是因?yàn)橐诰虻年P(guān)系不局限于特定領(lǐng)域也不基于固定的匹配規(guī)則。學(xué)術(shù)界中，較為先進(jìn)的開放式信息抽取系統(tǒng)[1-4]可以從海量互聯(lián)網(wǎng)語料庫中，以很高的準(zhǔn)確率提取百萬甚至更高級(jí)別數(shù)量的關(guān)系實(shí)例，(??,??,??)三元組形式，我們將其稱為關(guān)系三元組。其中，為二元關(guān)系，一般表示為短語（詞級(jí)別描述）或依存語法路徑（語法級(jí)別描述）。和是關(guān)系的兩個(gè)參數(shù)，即主語和賓語，同樣表現(xiàn)為短語形式。?

開放式信息抽取提供給我們海量關(guān)系實(shí)例的同時(shí)，我們有興趣將這些實(shí)例進(jìn)行歸納，尋找更加抽象的語義表示。我們關(guān)注的重點(diǎn)就是這些關(guān)系所具有的不同含義。以關(guān)系 “play in” 為例，開放式信息抽取系統(tǒng)可以提供一系列具有 (?, play in,?) 形式的三元組。例如 ReVerb 系統(tǒng)[2] 可抽取出三元組 ( Goel Grey, played in, Cabaret ) 以及( Tom Brady, play in, National Football League )。給定某關(guān)系已有的三元組實(shí)例，我們可以推理出一系列由類型三元組描述的關(guān)系模式，即主賓語類型搭配(?,playin,?)。其中以及為標(biāo)準(zhǔn)化的實(shí)體類型，其來源為含有類型定義的知識(shí)庫，例如 WordNet [5]，Yago [117]， Freebase [9] 以及 Probase [118]。每一個(gè)關(guān)系模式都可以用來表示一組特定的 “play in” 關(guān)系實(shí)例，其中主賓語分別屬于對(duì)應(yīng)的類型。對(duì)于上例“play in”，我們可以給出兩個(gè)可能的模式：( film_actor, play in, film )，以及( pro_athlete, play in,? sports_league )。由此可見，二元關(guān)系 “play in” 具有明顯歧義，不僅可以描述 “運(yùn)動(dòng)員—體育聯(lián)盟” 聯(lián)系，還可以描述 “演員—電影” 之間的聯(lián)系。對(duì)于歧義較少的關(guān)系，我們依然可以推理出不同的主賓語類型搭配，例如關(guān)系 “is the mayor of” 可以推理出 ( person, is the mayor of, location )，以及( politician, is the mayor of, city )等不同模式，在類型上具有不同的粒度，后者顯然更加具體。?

對(duì)于自然語言理解任務(wù)，例如上下文相關(guān)的實(shí)體消歧，還有開放領(lǐng)域自動(dòng)問答，關(guān)系模式是一個(gè)有用的信息。假設(shè)我們要對(duì)句子 “ Granger played in the NBA ” 進(jìn)行實(shí)體識(shí)別。“ Granger ”對(duì)應(yīng)一個(gè)人名，但由于只提供了姓氏，因此具有較高歧義。而“ the NBA ” 幾乎可以確定是人們熟知的體育聯(lián)盟。再結(jié)合上面列舉的 “ play in ” 所具有的關(guān)系模式，實(shí)體識(shí)別模型便可以獲得額外特征，即“ Granger ”更有可能代表運(yùn)動(dòng)員，也就使得籃球運(yùn)動(dòng)員 “ Danny Granger ” 更容易被正確識(shí)別。考慮到這個(gè)實(shí)體并不非常著名，與之相關(guān)的關(guān)系實(shí)例數(shù)量可能較少，但類型特征依然可以提供很大的幫助。?

為了生成關(guān)系模式，一種已有的方案是基于選擇偏好（Selectional? Preference）技術(shù)[119-121]，它可以對(duì)關(guān)系中的主賓語實(shí)體計(jì)算各自具代表性的類型。選擇偏好技術(shù)主要思路來自關(guān)系與類型之間的互信息計(jì)算[120]，這種方式傾向于選擇當(dāng)前關(guān)系所獨(dú)有的類型，換句話說，如果一個(gè)類型普遍適用于不同關(guān)系中的實(shí)體描述，那么它便不容易被選為代表類型。然而在開放式信息抽取中，很多關(guān)系實(shí)際上是相關(guān)的，甚至非常相近，例如 “ play in ”,“ take part in ” 以及 “ is involved in ” 。這些關(guān)系實(shí)際上具有相同的語義，因此主賓語的類型搭配也應(yīng)該相似，而選擇偏好技術(shù)會(huì)因?yàn)殛P(guān)系的不同而對(duì)這些類型都進(jìn)行弱化。?

因此本章中，給定一個(gè)關(guān)系和一系列具體的三元組，我們的任務(wù)是尋找那些最具體的類型搭配，而同時(shí)包含盡可能多的關(guān)系實(shí)例。我們的方法首先將關(guān)系實(shí)例中的主賓語映射為知識(shí)庫中的實(shí)體，即為每個(gè)三元組生成 (??,?) 實(shí)體對(duì)。接著根據(jù)不同實(shí)體所屬的類型，尋找可以覆蓋盡可能多實(shí)體對(duì)的類型搭配(??,?)。最后，當(dāng)不同的類型搭配覆蓋的實(shí)體對(duì)較為接近或一致時(shí)，我們利用知識(shí)庫中已有的 IsA 關(guān)系，擴(kuò)充知識(shí)庫中類型之間的層次結(jié)構(gòu)，以此尋找更加具體的類型搭配。?

本章的貢獻(xiàn)可以總結(jié)為以下三個(gè)部分：?

1. 我們具體定義了基于開放式信息抽取的二元關(guān)系模式推理問題；?

2. 我們?cè)O(shè)計(jì)了基于 Freebase 和實(shí)體鏈接任務(wù)的方法，對(duì)一類關(guān)系的主賓語所具有的類型分布進(jìn)行聯(lián)合建模；?

3. 我們?cè)?ReVerb 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，根據(jù)人工標(biāo)注的類型搭配結(jié)果，對(duì)不同二元關(guān)系生成的最佳模式進(jìn)行測評(píng)。與傳統(tǒng)選擇偏好方法比較，我們的模型在 MRR 指標(biāo)上得到了10%的相對(duì)提升。

4.1.2 我們的方法

二元關(guān)系模式挖掘的系統(tǒng)架構(gòu)如圖4–1所示。整個(gè)系統(tǒng)的輸入為開放式信息抽取系統(tǒng)中的所有關(guān)系三元組，經(jīng)過實(shí)體鏈接、關(guān)系分組以及模式排序三個(gè)步驟之后，這些三元組將會(huì)轉(zhuǎn)換為一系列排好序的主賓語類型搭配。每個(gè)步驟概括如下，本節(jié)將對(duì)它們進(jìn) 行具體描述。?

(1)實(shí)體鏈接：關(guān)系三元組中的參數(shù)實(shí)體均為字符串形式。我們通過模糊字符串匹配的方式，將主賓語分別映射到知識(shí)庫中的不同實(shí)體。

(2)關(guān)系分組：經(jīng)過鏈接之后，關(guān)系表達(dá)形式相近的三元組將聚集在一起，形成一個(gè)大的分組。并且，每一個(gè)分組會(huì)從內(nèi)部的不同關(guān)系中選擇一個(gè)，作為整組的代表關(guān)系。

(3)關(guān)系模式排序：對(duì)分組內(nèi)的每一個(gè)具有鏈接的關(guān)系實(shí)例，其主賓語將轉(zhuǎn)換為知識(shí)庫中對(duì)應(yīng)的類型。根據(jù)不同的類型搭配所覆蓋的三元組數(shù)量，以及各個(gè)類型的寬泛或具體程度，對(duì)所有候選的關(guān)系模式進(jìn)行排序并輸出。

圖4–1 二元關(guān)系模式挖掘的流程框圖。

4.1.2.1 實(shí)體鏈接?

在實(shí)體鏈接步驟中，一個(gè)關(guān)系三元組的主賓語將分別映射到知識(shí)庫中的實(shí)體，形成帶鏈接的三元組(??,??, )，并配有對(duì)應(yīng)的鏈接分值。由于每一個(gè)三元組所具有的信息較少，并沒有提供足夠的上下文，因此實(shí)體鏈接過程主要基于主賓語名稱以及實(shí)體在知識(shí)庫中名稱的模糊匹配。

實(shí)體在知識(shí)庫中存在至多一個(gè)標(biāo)準(zhǔn)名稱以及多個(gè)別名，例如 Freebase 中，實(shí)體的標(biāo)準(zhǔn)名稱和別名分別對(duì)應(yīng)??以及??屬性。我們利用這些屬性值構(gòu)建了從單詞指向不同名稱的倒排索引，并進(jìn)一步生成每個(gè)關(guān)系參數(shù)的候選實(shí)體。我們用??表示知識(shí)庫中的一個(gè)名稱（或別名），若將其看做單詞的集合（ bag-of-words），那么顯然單詞之間具有不同的重要性。直觀上看，若中某單詞出現(xiàn)在極少數(shù)的名稱中，那么它對(duì)整個(gè)名稱而言更加重要；反之類似“ of ”,“ the ”等停止詞會(huì)出現(xiàn)在大多數(shù)名稱里，那么在模糊匹配的過程中，其權(quán)重就很低。因此我們利用文檔頻率倒數(shù)（ Inverted Document Frequency ）用于擬合單詞??的權(quán)重：?

（4-1）

此外，我們直接從知識(shí)庫的名稱中過濾停止詞，相當(dāng)于它們的 idf 分值為 0。為了衡量關(guān)系三元組中的關(guān)系參數(shù)??與知識(shí)庫名稱間的模糊匹配程度，我們計(jì)算兩者之間的帶權(quán)重疊分值：?

（4-2）

對(duì)于候選實(shí)體?，我們分別計(jì)算其不同名稱與關(guān)系參數(shù)的模糊匹配分值，最終選取最高分代表實(shí)體 ?與關(guān)系參數(shù) 的匹配度：

（4-3）

為了控制候選實(shí)體的質(zhì)量，對(duì)于由??個(gè)單詞構(gòu)成的關(guān)系參數(shù)（停止詞忽略不計(jì)），我們僅考慮那些存在至少一個(gè)名稱具有 ?1 個(gè)單詞重疊，同時(shí)模糊匹配度高于閾值??的候選實(shí)體。對(duì)于每個(gè)關(guān)系三元組中的主賓語，我們分別抽取匹配度排名前 10 的候選實(shí)體，用于后續(xù)的計(jì)算。?

對(duì)單個(gè)關(guān)系參數(shù)進(jìn)行匹配計(jì)算之后，我們將計(jì)算關(guān)系三元組 (??, ?,?) 與實(shí)體對(duì) (??, ?) 之間的聯(lián)合匹配度。聯(lián)合匹配度的定義方式有兩種。第一種匹配方式較為樸素（ Naive ），僅考慮關(guān)系中的兩個(gè)參數(shù)與各自實(shí)體的匹配程度，主賓語實(shí)體互相之間并無直接影響：?

（4-4）

第二種匹配方式除了考慮和各自的匹配分?jǐn)?shù)，還考慮到了這兩個(gè)實(shí)體之間存在的聯(lián)系，在知識(shí)庫上體現(xiàn)為連接它們的謂詞或謂詞序列。我們以??表示? 的所有單詞，??表示知識(shí)庫中連接? 和? 的謂詞路徑，其長度至多為 2 。若實(shí)體? 與??可以通過長度為1的路徑相連，則意味著知識(shí)庫中存在通過某謂詞??連接的事實(shí)三元組 (?,?)。類似地，若和之間通過長度為 2 的路徑相連，則意味著存在??,??以及中間實(shí)體，使得事實(shí) (?,?) 以及 (?,?) 存在于知識(shí)庫中。我們利用樸素貝葉斯模型，利用條件概率的形式定義謂詞序列與關(guān)系之間的相關(guān)程度：

（4-5）

Yao 等人[35] 將知識(shí)庫謂詞序列與關(guān)系的對(duì)應(yīng)建模為機(jī)器翻譯模型，并根據(jù)對(duì)齊模型 IBM Model 1[122] 學(xué)習(xí)謂詞的先驗(yàn)概率??以及轉(zhuǎn)移概率??。基于已有工作的概率模型，給定關(guān)系后預(yù)測謂詞序列的條件概率??便可計(jì)算得出。對(duì)于候選實(shí)體和?，它們之間的謂詞序列與關(guān)系? 越接近，則實(shí)體鏈接結(jié)果越有可能正確。因此，我們通過枚舉和? 之間所有滿足長度條件的謂詞序列，計(jì)算關(guān)系實(shí)例與實(shí)體對(duì)之間的相似度：?

（4-6）

由于條件概率的計(jì)算涉及到大量連乘，其數(shù)值在不同實(shí)體對(duì)之間的的差別較為明顯，這也使得其在公式4–6中具有較高的地位。而當(dāng)所有候選實(shí)體間的謂詞序列與當(dāng)前關(guān)系都不相似的時(shí)候，條件概率的隨機(jī)波動(dòng)反而會(huì)帶來不小的干擾。因此，我們采用了一種集成（ Ensemble ）方案：首先定義條件概率閾值??，對(duì)于當(dāng)前關(guān)系實(shí)例的所有候選實(shí)體對(duì)，若其中存在至少一條與關(guān)系足夠相近的謂詞序列，即滿足??時(shí)，模型使用公式4–6進(jìn)行整體匹配度計(jì)算，否則模型退回到公式4–4，使用樸素的方式尋找最佳實(shí)體對(duì)。最后，我們選擇分?jǐn)?shù)最高的實(shí)體對(duì)，作為關(guān)系三元組的唯一鏈接結(jié)果。

4.1.2.2 關(guān)系分組?

這個(gè)步驟對(duì)所有已鏈接的關(guān)系三元組進(jìn)行聚類，擁有相似關(guān)系描述的三元組將歸為同一分組。每個(gè)三元組僅存在于唯一一個(gè)分組中。?

這個(gè)步驟的思路是通過語法轉(zhuǎn)換，將復(fù)雜的關(guān)系描述進(jìn)行簡化。如果兩個(gè)不同的關(guān)系具有相同的簡化形式，那么視為其語義相同，并歸為同一分組。首先考慮到形容詞、副詞以及情態(tài)動(dòng)詞的存在與否，基本上不會(huì)改變一個(gè)關(guān)系中主賓語實(shí)體所屬的類型，因此我們將這些詞從關(guān)系描述中移除。此外，大多數(shù)關(guān)系包含動(dòng)詞，但時(shí)態(tài)并不一致，因此我們將所有時(shí)態(tài)統(tǒng)一為現(xiàn)在時(shí)。此外，關(guān)系中的被動(dòng)語態(tài)將會(huì)被保留，不做形式轉(zhuǎn)變。例如經(jīng)過語法轉(zhuǎn)換之后，下列關(guān)系實(shí)例將歸為同一組：( X, resign from, Y ), ( X, had resigned from, Y ) 以及 ( X, ?nally resignd from, Y )。最后，每一個(gè)分組的代表關(guān)系為組內(nèi)關(guān)系的統(tǒng)一簡化形式。如上例所示，三個(gè)關(guān)系實(shí)例屬于“ resign from ”組。

4.1.2.3 類型搭配排序?

給定一個(gè)關(guān)系分組??，這一步驟將生成排好序的主賓語類型對(duì)，即該關(guān)系的代表性模式。以二元關(guān)系“ play in ”舉例，理想情況下，生成的結(jié)果里會(huì)包含模式? actor, film ? 以及? pro_athlete, sports_league ?。?

對(duì)于帶鏈接的三元組 (?, , ?)，若在知識(shí)庫中，具有類型??，而具有類型??，那么該三元組為類型搭配? , ?的一個(gè)支持實(shí)例。一個(gè)實(shí)體有可能從屬于多種類型，無論類型寬泛或具體，因此一個(gè)三元組可以支持多種類型搭配。對(duì)關(guān)系分組? 中的所有實(shí)例進(jìn)行處理，我們可以得到每一種類型搭配所對(duì)應(yīng)的支持集合：

（4-7）

得到所有可能的類型搭配之后，我們可以根據(jù)支持集合的大小進(jìn)行排序。由于每個(gè)實(shí)體從屬于多種類型，因此顯然更加寬泛的類型搭配通常會(huì)被排在前列。但是，對(duì)于人類或是機(jī)器理解一個(gè)自然語言關(guān)系，寬泛的關(guān)系模式所具有的信息量相對(duì)不足，尤其是當(dāng)兩種類型對(duì)具有幾乎一致的支持集合時(shí)，往往更具體的類型對(duì)具有更好的代表性。例如對(duì)于關(guān)系“ X die in Y ”，在開放式信息抽取和實(shí)體鏈接均不產(chǎn)生錯(cuò)誤的情況下，類型對(duì) ? person, location ?和? deceased_person, location ?將對(duì)應(yīng)完全一致的支持集合。后者對(duì)關(guān)系的描述更加具體，在不丟失支持實(shí)例的同時(shí)，盡可能縮小主語在知識(shí)庫中的范圍。?

由此可見，對(duì)候選類型對(duì)的排序需要考慮每個(gè)類型的相對(duì)粒度。接下來的目標(biāo)就是提取知識(shí)庫中類型之間的包含關(guān)系，建立更加完整的層次結(jié)構(gòu)。我們定義所有屬于類型??的實(shí)體為??。理想情況中，若? 包含于?，那么所有? 中的實(shí)體都從屬于??，即??. 這樣的包含規(guī)則稱為“嚴(yán)格類型包含”。例如在 Freebase 中，類型 person 所包含的其它類型包括 actor，politician 以及 deceased_person 等。?

然而，嚴(yán)格類型包含在知識(shí)庫中并不多見，主要原因是知識(shí)庫的類型定義和人類對(duì)自然界的歸納存在一定差別，以 Freebase 中的 award_winner 為例，類型中絕大多數(shù)實(shí)體都為自然人，但依然包含少量的組織實(shí)體在內(nèi)。基于嚴(yán)格類型包含的規(guī)則，award_winner 與 person 之間毫無包含關(guān)系，但事實(shí)上，考慮到非自然人實(shí)體僅存在極少數(shù)，兩個(gè)類別之間在很大程度上依然構(gòu)成從屬關(guān)系。另一方面，由于實(shí)體的類型涉及到人工標(biāo)記，一旦出現(xiàn)類型標(biāo)記錯(cuò)誤，就有可能導(dǎo)致類型之間無法滿足嚴(yán)格包含條件。

為了能更好地建立類型層次關(guān)系，我們使用一種更加松弛的類型包含定義方式。具體而言，若? 中足夠數(shù)量的實(shí)體從屬于?，那么就認(rèn)為包含關(guān)系成立。因此，我們定義包含于? 的度，即對(duì)應(yīng)實(shí)體包含的比例：

（4-8）

若??，則包含于 ?。閾值 ? 表示松弛程度，若 ? = 1，則松弛包含退化為嚴(yán)格包含。若 ? 太小，那么類型之間將具有非常豐富的層次關(guān)系，但其有效性則會(huì)下降。最后，遍歷知識(shí)庫中所有的類型，我們就可以得到特定松弛程度下的類型層次圖。?

隨著類型層次關(guān)系建立完畢，我們就可以定義不同類型搭配之間的包含關(guān)系。若類型對(duì)? , ?被另一個(gè)類型對(duì)??,???，則意味著以下條件之一成立：i) ??， ??；ii) ??， = ；iii) ?t4， = 。最終的類型對(duì)排名體現(xiàn)為支持集合大小和類型對(duì)包含關(guān)系的共同作用。以支持集合降序排列為基礎(chǔ)，若類型對(duì)??= ? , ?包含于另一個(gè)類型對(duì)??，且各自的支持集合大小 (??) 幾乎一致，那么將排在之前。我們同樣可以根據(jù)重疊關(guān)系實(shí)例的覆蓋程度，來定義兩個(gè)支持集合是否幾乎一致：?

（4-9）

其中??為判斷集合中的元素是否一致的閾值。

4.1.3 實(shí)驗(yàn)?

4.1.3.1 實(shí)驗(yàn)設(shè)置?

我們?cè)趯?shí)驗(yàn)中使用的知識(shí)庫為 Freebase [9]在2014年2月16日的版本，包含了大約 40,000,000 個(gè)不同實(shí)體，以及 1,700 個(gè)主要類型。實(shí)驗(yàn)中使用的開放式信息抽取系統(tǒng)為 ReVerb [2]，ReVerb 數(shù)據(jù)集提供了多種版本，我們使用的版本包含了置信度最高的 14,000,000 個(gè)關(guān)系三元組。?

ReVerb 抽取的三元組中，部分關(guān)系參數(shù)無法鏈接到 Freebase 中的某一個(gè)實(shí)體，例如三元組 ( Metro Manila, consists of, 12 cities )，其賓語顯然不是一個(gè)實(shí)體，而是用自然語言描述的類型。這部分三元組不是我們的研究對(duì)象，需要進(jìn)行過濾。考慮到在自然語言中，概念通常對(duì)應(yīng)非專有單詞，并且多為小寫，因此我們根據(jù) WordNet 收集了常用的非專有單詞。若一個(gè)三元組中包含純小寫，或純粹由非專有單詞構(gòu)成的主賓語，那么該三元組將被過濾。除此之外，ReVerb 三元組中還具有時(shí)間或日期作為關(guān)系參數(shù)的情況，例如“ Jan. 16th,1981 ”作為賓語，但同樣不對(duì)應(yīng) Freebase 的某個(gè)實(shí)體。為應(yīng)對(duì)這種情況，我們使用 SUTime [123] 工具識(shí)別時(shí)間或日期，將它們替換為具有 type.datetime 類型的虛擬實(shí)體。經(jīng)過清理之后，系統(tǒng)共收集了 3,234,208 個(gè)三元組，對(duì)應(yīng) 171,168 個(gè)不同的關(guān)系分組。?

實(shí)驗(yàn)中具體使用的參數(shù)值為：τ = 0.667，ρ =?，? = 0.6 以及 λ = 5%。關(guān)系分組步驟中，我們使用 Stanford Parser [124] 對(duì)每個(gè)關(guān)系進(jìn)行詞性標(biāo)注、語法分析以及時(shí)態(tài)轉(zhuǎn)換。

4.1.3.2 結(jié)果分析?

我們首先對(duì)實(shí)體鏈接進(jìn)行評(píng)測。由于 ReVerb 沒有提供主賓語的鏈接結(jié)果，我們從所有關(guān)系實(shí)例中隨機(jī)挑選 200 個(gè)三元組，并人工標(biāo)注這些主賓語所鏈接的實(shí)體。我們對(duì)比實(shí)體鏈接過程的樸素方法和集成方法，使用準(zhǔn)確率（ Precision ），召回率（ Recall ）， F1 分值，以及 MRR [125]作為評(píng)價(jià)指標(biāo)。MRR 為平均排名倒數(shù)（ Mean Reciprocal Rank )，即統(tǒng)計(jì)正確的鏈接結(jié)果在輸出列表中的排名，再計(jì)算所有三元組上排名倒數(shù)值的平均。當(dāng)一個(gè)三元組的主賓語均鏈接正確時(shí)，我們才認(rèn)為該三元組鏈接正確。實(shí)驗(yàn)結(jié)果比較如表4–1所示。不同于常規(guī)文本的實(shí)體鏈接，由于每個(gè)三元組的上下文極少，鏈接具有一定難度。基于集成的鏈接方法引入了關(guān)系與實(shí)體間語義的匹配模型，使主賓語的鏈接實(shí)體互相影響，鏈接過程的準(zhǔn)確率和召回率均得到穩(wěn)定提升。

表4–1 ReVerb 三元組的實(shí)體鏈接實(shí)驗(yàn)結(jié)果。?

接下來我們衡量二元關(guān)系的主賓語搭配結(jié)果，主要關(guān)注具有較多實(shí)例的關(guān)系分組。我們首先從包含至少500個(gè)三元組的關(guān)系分組中，隨機(jī)選擇50個(gè)分組，對(duì)于每個(gè)分組，我們挑選出支持集合數(shù)量最大的100個(gè)類型對(duì)作為評(píng)測的對(duì)象。我們將這些類型對(duì)分配給3位對(duì) Freebase 類型有了解的標(biāo)注者，每個(gè)標(biāo)注者根據(jù)自己的理解，判斷類型對(duì)是否適合于描述對(duì)應(yīng)關(guān)系，并標(biāo)注0到3的分值。將三位標(biāo)注者的打分進(jìn)行平均，即可得到這50個(gè)關(guān)系分組的類型對(duì)排序。?

我們使用點(diǎn)對(duì)點(diǎn)互信息（ Pointwise Mutual Information ）[126] 作為基線模型，該模型在選擇偏好任務(wù)中被使用，例如文獻(xiàn)[119]。 PMI 模型使用以下公式定義一個(gè)關(guān)系與類型對(duì)? 的關(guān)聯(lián)度：?

（4-10）

其中??代表聯(lián)合概率，即關(guān)系分組為?，且支持 ?的三元組占所有三元組的比重， ? 代表任意關(guān)系或類型對(duì)。?

我們使用 MRR 分?jǐn)?shù)進(jìn)行評(píng)測，衡量不同方法生成的最佳關(guān)系模式在標(biāo)注列表中的位置。如表4–2所示，和基線模型進(jìn)行比較，我們的方法在 MRR 指標(biāo)上獲得了10.1%的相對(duì)提升。

表4–2 二元關(guān)系模式推理的評(píng)測結(jié)果。

最后，表4–3列舉了一些具體的關(guān)系分組，以及我們系統(tǒng)抽取的關(guān)系模式。我們可以看出，當(dāng)構(gòu)建了 Freebase 的類型層次結(jié)構(gòu)之后，系統(tǒng)能夠同時(shí)得到粗粒度和細(xì)粒度的類型信息，因此最終生成的類型對(duì)具有更加豐富的信息量。

表4–3 生成的二元關(guān)系模式舉例。

4.2 關(guān)系的結(jié)構(gòu)化語義挖掘

上一節(jié)的研究目標(biāo)是挖掘一個(gè)關(guān)系所存在的主賓語類型搭配，用于區(qū)分不同的語義。本節(jié)的研究重點(diǎn)放在了深入理解關(guān)系本身，用結(jié)構(gòu)化的符號(hào)代替字符形式的描述。我們提出了基于模式圖的語義表示方法，與傳統(tǒng)路徑規(guī)則相比，圖結(jié)構(gòu)具有的分支可以更好地支持復(fù)雜語義，具有良好可解釋性的同時(shí)，也可被用于知識(shí)庫補(bǔ)全任務(wù)中。

4.2.1 概述?

以 DBPedia、Freebase 等為代表的開放領(lǐng)域知識(shí)庫包含了預(yù)先定義好的標(biāo)準(zhǔn)化的知識(shí)庫謂詞，用于連接知識(shí)庫中的實(shí)體、類型和概念。知識(shí)庫中的事實(shí)采用三元組形式表示，與關(guān)系三元組保持一致。本節(jié)中，我們假定每個(gè)關(guān)系三元組均已完成了實(shí)體鏈接步驟，用(??, ,??)來表示。那么很顯然，事實(shí)三元組和關(guān)系三元組的區(qū)別僅體現(xiàn)在謂語成分上。因此，利用知識(shí)庫謂詞來表示自然語言關(guān)系的語義，是一個(gè)很自然的想法，若能將開放式信息抽取中的每一個(gè)關(guān)系實(shí)例都映射為知識(shí)庫中的三元組，那么機(jī)器將很容易理解海量非結(jié)構(gòu)化文本中蘊(yùn)含的結(jié)構(gòu)化信息。這種基于直接對(duì)應(yīng)的思路非常直觀，但是對(duì)于現(xiàn)有的知識(shí)庫，例如 Freebase [9]，即便其中包含十億級(jí)別的事實(shí)三元組，仍然會(huì)面臨兩個(gè)主要的挑戰(zhàn)。?

首先，知識(shí)庫和自然語言關(guān)系之間存在著語義鴻溝。以關(guān)系“ has? grandfather ” 為例，Freebase 中并不存在一個(gè)謂詞能與之完全匹配，但存在一些和它相關(guān)的謂詞，例如 parents 以及 gender 。這是因?yàn)橹R(shí)庫的構(gòu)建過程較為嚴(yán)謹(jǐn)，為了避免歧義，每一種謂詞的語義都更加單一，同時(shí)為了避免信息冗余，能通過其它謂詞進(jìn)行描述的語義，通常不會(huì)對(duì)應(yīng)一個(gè)單獨(dú)的謂詞。?

其次，知識(shí)庫的構(gòu)建還遠(yuǎn)不夠完整。即便擁有海量的事實(shí)三元組，但依然存在很多長尾的謂詞，并沒有多少事實(shí)與之相關(guān)。這個(gè)挑戰(zhàn)也引入了另一個(gè)開放的研究課題，即知識(shí)庫補(bǔ)全（ Knowledge Base Completion ）[25,26,127]。該課題的目標(biāo)是，給定知識(shí)庫中的目標(biāo)謂詞，根據(jù)其擁有的少量事實(shí)三元組進(jìn)行學(xué)習(xí)，為其補(bǔ)充新的事實(shí)，這些新事實(shí)的主語和賓語均為知識(shí)庫中已存在的實(shí)體。換言之，在已有的實(shí)體之間連接更多的謂詞，使知識(shí)庫更加稠密。?

為了應(yīng)對(duì)以上兩個(gè)挑戰(zhàn)，我們關(guān)注的重點(diǎn)在于能否利用知識(shí)庫中已經(jīng)存在的謂詞，描述一個(gè)自然語言關(guān)系所具有的語義。已有的相關(guān)研究方法主要可以分為兩大類。第一類方法為知識(shí)庫的向量表示學(xué)習(xí)。這種方法類似于詞向量技術(shù)，利用知識(shí)庫中的三元組作為訓(xùn)練數(shù)據(jù)，學(xué)習(xí)每個(gè)實(shí)體以及謂詞在連續(xù)空間中的特征表示，使得每個(gè)三元組的兩個(gè)實(shí)體和謂詞表示之間滿足特定的代數(shù)關(guān)系。將開放式信息抽取的關(guān)系三元組與知識(shí)庫已有的事實(shí)三元組合并，這類方法可以獲取每一個(gè)目標(biāo)關(guān)系的隱含語義。但考慮到知識(shí)庫表示學(xué)習(xí)中涉及到的參數(shù)數(shù)量非常龐大，這種方法需要大量的訓(xùn)練數(shù)據(jù)以應(yīng)對(duì)長尾實(shí)體，同時(shí)訓(xùn)練的時(shí)間開銷也不可忽略。已有的研究工作主要集中在了較小的知識(shí)庫上，例如 FB15K [29,128]。

另一類方法為規(guī)則推導(dǎo)，每個(gè)目標(biāo)謂詞或關(guān)系的語義表達(dá)由明確的規(guī)則構(gòu)建而成。這里的規(guī)則等價(jià)于知識(shí)庫的子結(jié)構(gòu)，用于連接自然語言關(guān)系中的主語和賓語實(shí)體。其中最基本的結(jié)構(gòu)為路徑的形式，即通過一個(gè)或多個(gè)謂詞組成序列，連接主語和賓語。規(guī)則推導(dǎo)方法的優(yōu)勢在于高度可解釋性。一方面，知識(shí)庫的子結(jié)構(gòu)可以轉(zhuǎn)換為知識(shí)庫上的查詢語言例如 SPARQL ，因此可以通過在知識(shí)庫上運(yùn)行查詢的方式，明確得知特定的兩個(gè)實(shí)體之間是否可能存在某種關(guān)系。另一方面，相比知識(shí)庫向量學(xué)習(xí)方式，基于規(guī)則推導(dǎo)的方法允許使用多條規(guī)則描述同一個(gè)關(guān)系，更好地適應(yīng)自然語言中的多義性。此外，必要的情況下，人類可以對(duì)輸出的規(guī)則進(jìn)行微調(diào)。?

根據(jù)以上論述，本節(jié)的研究建立在規(guī)則推導(dǎo)的基礎(chǔ)之上。因此，我們將傳統(tǒng)的基于路徑的規(guī)則進(jìn)行擴(kuò)展，而是以樹形結(jié)構(gòu)的形式，不僅連接主語和賓語，同時(shí)還連接了其余相關(guān)實(shí)體，用于表示目標(biāo)關(guān)系所具有的隱藏語義限制。這種樹形結(jié)構(gòu)是具有相同邊結(jié)構(gòu)的知識(shí)庫中具體子圖的抽象表示，我們將其稱為模式圖（ Schema Graph ）。圖4–2是二元關(guān)系“ has grandfather ” 的模式圖，通過謂詞路徑 [ parents, parents ] 表示主賓語之間的祖孫關(guān)系，同時(shí)利用 gender 限制賓語的性別，以此精確描述關(guān)系語義。

圖4–2 二元關(guān)系“ has grandfather ”的語義表示。

具體而言，給定自然語言中的關(guān)系r 以及抽取出的三元組 (??,??,??)，本章的研究任務(wù)是在知識(shí)庫中挖掘出一系列與之相關(guān)的模式圖，并且用概率分布的形式，描述用特定模式圖代表該關(guān)系語義的可能性。在進(jìn)行模式圖推理的過程中，我們主要會(huì)面臨以下三個(gè)技術(shù)性挑戰(zhàn)：?

首先，候選模式圖的數(shù)量非常龐大。傳統(tǒng)的規(guī)則推導(dǎo)中只考慮謂詞路徑，雖然候選路徑的數(shù)量隨長度呈指數(shù)增長，但在知識(shí)庫中能夠連接兩個(gè)特定實(shí)體的路徑僅有少數(shù)，因此簡單遍歷可以得到所有的候選路徑。然而，具有樹形結(jié)構(gòu)的模式圖中，不僅存在額外的謂詞作為分支，而且包括用于語義限制的實(shí)體, 任何一個(gè)實(shí)體的改變，都會(huì)產(chǎn)生一個(gè)新的模式圖。若使用暴力枚舉生成模式圖，時(shí)間復(fù)雜度上無法承受，同時(shí)還會(huì)生成大量偏離語義的模式圖。?

其次，模式圖推理需要做好粒度上的平衡。當(dāng)一個(gè)模式圖缺少足夠的語義限制，它雖然能匹配已知的三元組，但也可能混淆了錯(cuò)誤的三元組。反之，若一個(gè)模式圖包含了不必要的語義限制，就很可能無法匹配已知的三元組。很顯然，太具體或?qū)挿旱哪Ｊ綀D都無法精確表示一個(gè)關(guān)系的語義，但是如何兼顧這兩點(diǎn)，并通過概率分布描述不同粒度候選的語義匹配程度，這成為了模式圖推理過程中的另一個(gè)難點(diǎn)。

最后，模式圖推理模型僅有三元組作為訓(xùn)練數(shù)據(jù)，不存在標(biāo)注好的模式圖，同時(shí)沒有明確給出不符合特定關(guān)系的錯(cuò)誤三元組數(shù)據(jù)，這給學(xué)習(xí)過程增添了難度。一種規(guī)避方法是使用封閉世界假設(shè)（ Closed World Assumption ），即假定所有未見過的三元組都是錯(cuò)誤的。但考慮到知識(shí)庫本身遠(yuǎn)不夠完整，封閉世界假設(shè)會(huì)帶來大量的錯(cuò)誤反例，這并不是一個(gè)最好的解決方案。?

本章提出的基于模式圖的規(guī)則推導(dǎo)模型旨在解決應(yīng)對(duì)以上三個(gè)挑戰(zhàn)，其主要貢獻(xiàn)可以分為以下四個(gè)部分：?

1. 我們定義了自然語言關(guān)系的模式圖。和傳統(tǒng)規(guī)則推導(dǎo)模型相比，模式圖是謂詞路徑形式的規(guī)則擴(kuò)展，通過挖掘隱藏的關(guān)聯(lián)實(shí)體，在路徑之上構(gòu)建分支，準(zhǔn)確描述關(guān)系的復(fù)雜語義；

2. 我們提出了一種基于局部搜索的啟發(fā)式方法，通過高效的剪枝策略，快速生成關(guān)系所對(duì)應(yīng)的候選模式圖；?

3. 我們提出了一種基于數(shù)據(jù)驅(qū)動(dòng)的方法，將模式推理問題轉(zhuǎn)化為查詢?nèi)蝿?wù)進(jìn)行建模，并在不明確生成負(fù)面訓(xùn)練數(shù)據(jù)的情況下，學(xué)習(xí)候選模式圖之間的概率分布，實(shí)現(xiàn)不同粒度模式圖的統(tǒng)一比較；?

4. 我們對(duì)自然語言關(guān)系以及知識(shí)庫中已有的謂詞進(jìn)行了知識(shí)庫補(bǔ)全任務(wù)的測評(píng)，包括主賓語預(yù)測和三元組分類兩個(gè)子任務(wù)，我們的模型在這兩個(gè)測評(píng)任務(wù)上均顯著優(yōu)于已有方法。具體生成的模式圖結(jié)果表明，我們提出的模型能夠挖掘出具體且精確的語義。

4.2.2 相關(guān)工作?

隨著大規(guī)模結(jié)構(gòu)化知識(shí)庫的提出與廣泛使用，知識(shí)庫補(bǔ)全任務(wù)成為了近年來的熱門研究課題。該任務(wù)旨在對(duì)知識(shí)庫中已有的謂詞進(jìn)行建模，通過預(yù)測潛在的 (?, , ?) 三元組，實(shí)現(xiàn)擴(kuò)充知識(shí)庫的最終目的。到目前位置，在該課題上的研究方法主要分為兩類：基于知識(shí)庫表示學(xué)習(xí)和基于規(guī)則推導(dǎo)。?

知識(shí)庫表示學(xué)習(xí)受到詞向量技術(shù)[59,60]的啟發(fā)，將知識(shí)庫中的實(shí)體類比為單詞，每個(gè)實(shí)體具有一個(gè)向量表示，對(duì)應(yīng)連續(xù)語義空間上的一個(gè)點(diǎn)。作為連接不同實(shí)體的橋梁，知識(shí)庫中的每個(gè)謂詞都對(duì)應(yīng)著各自的向量或矩陣表示。通過定義不同的向量或矩陣之間的運(yùn)算方式，這類方法可以計(jì)算每個(gè)三元組的置信度，以此實(shí)現(xiàn)對(duì)實(shí)體及謂詞的表示學(xué)習(xí)。?

RESCAL 模型[28]是一個(gè)基礎(chǔ)的知識(shí)庫向量模型，它基于實(shí)體向量和謂詞矩陣表示的雙線性運(yùn)算。HOLE 模型[82]是 RESCAL 模型的改進(jìn)，使用向量循環(huán)平移的技巧計(jì)算實(shí)體間的組合語義向量，大幅度降低了謂詞的表示維度。在眾多知識(shí)庫表示學(xué)習(xí)的方法中，有一組方法稱為隱距離模型，它們對(duì)三元組置信度的計(jì)算方式主要基于連續(xù)空間中的距離度量：將主賓語向量經(jīng)過某種方式的映射（翻譯）之后，距離越小，置信度越高。最典型的研究工作為 TransE ，其核心思路在于盡可能使每個(gè)三元組 ( h, r, t ) 對(duì)應(yīng)的向量計(jì)算滿足??，即利用謂詞向量將連續(xù)空間中的主語進(jìn)行平移，使其盡量與賓語重合。為了能更好地表示多對(duì)多的關(guān)系，相關(guān)文獻(xiàn) [30,31] 對(duì) TransE 模型進(jìn)行了改良。Wang 等人提出了 TEKE 模型[129]，它對(duì)已有的翻譯模型進(jìn)行改良，充分利用結(jié)構(gòu)化文本的知識(shí)，尋找三元組中單詞級(jí)別的共現(xiàn)，并利用共現(xiàn)上下文微調(diào)實(shí)體和謂詞的向量表示。

基于規(guī)則推導(dǎo)的方法旨在用邏輯規(guī)則的形式表達(dá)謂詞的語義。例如 parent(??) ∧ parent(??) → grandparent(??) 是一個(gè)常識(shí)性的規(guī)則，我們可以通過規(guī)則的左側(cè)部分，在知識(shí)庫中尋找出更多的祖孫間的關(guān)系。Jiang 等人的工作[23]基于馬爾科夫邏輯，通過挖掘的規(guī)則對(duì)自動(dòng)構(gòu)建的知識(shí)庫進(jìn)行信息過濾。其它一些方法使用概率軟邏輯或關(guān)聯(lián)規(guī)則挖掘完成類似的任務(wù)[130,131]。Galárraga 等人提出的 AMIE [22]以及 AMIE+[132]系統(tǒng)則直接根據(jù)知識(shí)庫的三元組尋找置信度較高的一階邏輯規(guī)則。最新的一些研究著眼于在知識(shí)庫中尋找路徑形式的規(guī)則，通過挖掘大量可能的路徑，作為表示語義的特征。Lao 等人提出了 PRA 模型[25]，通過在謂詞路徑上的隨機(jī)游走策略，衡量其連接一對(duì)實(shí)體的好壞程度，目標(biāo)關(guān)系的語義等同于不同路徑特征的帶權(quán)組合。Gardner 等人對(duì) PRA 模型進(jìn)行改進(jìn)，提出了 SFE 模型[26]，除了捕捉連接主賓語的路徑以外，還從主賓語各自的知識(shí)庫子圖中挖掘獨(dú)立的特征，同時(shí)謂詞路徑的定義更加寬泛，允許在其中使用通配符表示任意謂詞。此外，Wang 等人提出了 CPRA 模型[79]，這是對(duì) PRA 模型的另一種改進(jìn)，通過挖掘目標(biāo)關(guān)系中的相關(guān)性，使得相似關(guān)系之間的路徑挖掘結(jié)果可以互相影響。然而，通過開放式信息抽取獲得的三元組數(shù)量相對(duì)有限，不同的關(guān)系之間幾乎不存在重疊的實(shí)體對(duì)，在這種場景下，CPRA 模型效果等價(jià)于原始的 PRA 模型。

一些相關(guān)的研究嘗試在知識(shí)庫向量學(xué)習(xí)的基礎(chǔ)之上加入一定的邏輯規(guī)則。Guo 等人提出了 KALE 模型[133]，其主要思想是將規(guī)則轉(zhuǎn)換為多個(gè)三元組之間的與或非邏輯操作，因此基于翻譯模型計(jì)算的三元組置信度得以在邏輯規(guī)則級(jí)別產(chǎn)生交互。TRESCAL 模型[134]在經(jīng)典的 RESCAL 模型中加入了知識(shí)庫的類型限制。而 Wang 等人的工作[135]使用整數(shù)線性規(guī)劃技術(shù)，將知識(shí)庫向量表示和規(guī)則挖掘進(jìn)行統(tǒng)一。?

狹義的知識(shí)庫補(bǔ)全任務(wù)只考慮知識(shí)庫中的謂詞，我們的工作將知識(shí)庫補(bǔ)全的場景進(jìn)行了擴(kuò)展。考慮到為了降低知識(shí)庫結(jié)構(gòu)與自然語言描述的差距，知識(shí)庫補(bǔ)全任務(wù)也可以針對(duì)自然語言中的二元關(guān)系。開放式信息抽取與這樣的任務(wù)相契合，既提供了全新謂詞，又有一定量的三元組用于補(bǔ)全學(xué)習(xí)。一些已有的工作也關(guān)注了自然語言關(guān)系到知識(shí)庫的映射。Zou 等人的工作[136]使用了非監(jiān)督學(xué)習(xí)的方式，利用 TF-IDF 特征尋找關(guān)系到謂詞路徑的匹配。Zhang 等人的工作[24]利用馬爾科夫邏輯網(wǎng)絡(luò)[137]，學(xué)習(xí)自然語言關(guān)系對(duì)應(yīng)于不同候選謂詞路徑的概率。這些方法對(duì)關(guān)系的表示局限于路徑的形式，無法準(zhǔn)確地描述一個(gè)形式簡單但具有組合語義的關(guān)系。我們的工作旨在理解具有復(fù)雜語義的關(guān)系，挖掘其包含的隱含限制條件，并通過具有 “路徑 + 分支” 結(jié)構(gòu)的模式圖進(jìn)行語義建模。

4.2.3 任務(wù)定義?

在本章中，我們定義知識(shí)庫為 KB = { E, L, P }三部分組成，具體如下：E 為知識(shí)庫 KB 中所有實(shí)體集合；L 為 KB 中所有不同謂詞的集合; P 為 KB 中所有事實(shí)三元組集合，每一個(gè)三元組表示為 (?,?)，其中 ?,? ∈ E，并且 ∈ L. 此外，知識(shí)庫中存在用于描述一個(gè)實(shí)體所擁有類型的謂詞 IsA，為了簡化描述，本章中我們將不同類型也看做實(shí)體，同屬于集合 E 中。?

一個(gè)模式圖 S 同樣由三部分構(gòu)成，S = {?, X,??}，具體如下： ? E，為模式圖中出現(xiàn)的具體的實(shí)體集合；為實(shí)體變量的集合，每一個(gè)變量?∈?在模式圖中等同于占位符，為特定實(shí)體??∈ E 的抽象；模式圖中包含兩個(gè)特殊變量，即??,??∈ ，分別代表目標(biāo)關(guān)系的主語和賓語實(shí)體；??為模式圖中的抽象三元組集合，每一個(gè)抽象三元組為 (??,??)，其中 ∈ ， ∈ ∪? 以及??∈ L。此外，模式圖 S 具有以下性質(zhì)：?

? S 的表現(xiàn)形式為有向樹形結(jié)構(gòu)，且根節(jié)點(diǎn)一定為主語的實(shí)體變量；?

? 連接主語變量和賓語變量的謂詞路徑，稱為模式圖 S 的骨架；?

? 骨架之外的所有抽象三元組稱為模式圖的限制（或分支）；?

? 一個(gè)僅具有骨架而不包含任何限制的模式圖，稱為簡單模式圖，等價(jià)于謂詞路徑。

圖4–3 模式圖的一般形式。

圖4–3顯示了模式圖的一般形式。可以發(fā)現(xiàn)，其中的每一條邊都至少連接了一個(gè)實(shí)體變量。模式圖代表著知識(shí)庫中，滿足相同特定結(jié)構(gòu)的一系列具體子圖。這些具體子圖稱為實(shí)例圖（ Grounded Garph ），作為模式圖的實(shí)例化形式，所有的實(shí)體變量被替換為特定的實(shí)體??∈ E，且每一個(gè)抽象三元組 (??, ?) 在實(shí)例化之后均對(duì)應(yīng)存在于知識(shí)庫中的事實(shí) ?(?,?) ∈ 。例如圖4–2中的模式圖，其不同的實(shí)例圖囊括了知識(shí)庫中所有已知的（個(gè)人，雙親，雙親父親）知識(shí)。對(duì)于實(shí)例圖中的主賓語對(duì) (??,??)，我們稱其為模式圖的一個(gè)支持實(shí)例。?

根據(jù)以上符號(hào)定義，給定知識(shí)庫 KB，自然語言關(guān)系以及多個(gè)關(guān)系三元組{(?, , ?)}，我們對(duì)關(guān)系的深度語義挖掘任務(wù)為，推導(dǎo)出一系列描述其語義的候選模式圖，并學(xué)習(xí)模式圖上的概率分布，以此表示自然語言關(guān)系所具有的多義性。

4.2.4 我們的方法?

本節(jié)主要介紹將自然語言關(guān)系映射為模式圖的具體方式。給定關(guān)系以及其一系列關(guān)系實(shí)例作為訓(xùn)練數(shù)據(jù)，我們首先依據(jù)給定的主賓語對(duì)(?,?)，從它們支持的所有模式圖中尋找可能性較高的候選模式圖，然后對(duì)具有不同粒度的模式圖進(jìn)行重要性衡量。由于沒有直接的<關(guān)系，模式圖>對(duì)作為訓(xùn)練數(shù)據(jù)，我們提出了一種基于遠(yuǎn)距離監(jiān)督學(xué)習(xí)的方式，學(xué)習(xí)所有候選圖上的概率分布。

4.2.4.1 候選模式圖生成?

根據(jù)已有的關(guān)系實(shí)例，我們提出了一種高效的搜索算法，在知識(shí)庫上挖掘可能表示關(guān)系語義的候選模式圖。其基本思路在于，首先通過主賓語對(duì)尋找僅由骨架（謂詞路徑）構(gòu)成的簡單模式圖，帶有限制的模式圖生成則以簡單模式圖為起點(diǎn)，不斷尋找與關(guān)系三元組契合的限制，并通過遞歸的形式將新的限制連接到已有的候選上，一步步生成具有復(fù)雜結(jié)構(gòu)的模式圖。?

簡單模式圖的生成基于實(shí)體對(duì)在知識(shí)庫中的直接連接。我們使用雙向廣度優(yōu)先搜索，為每個(gè)實(shí)體對(duì)提取由主語連接到賓語的所有謂詞路徑。考慮到一個(gè)自然語言關(guān)系通常由短語構(gòu)成，通常不會(huì)具有太多的語義跳躍，因此我們對(duì)謂詞路徑長度進(jìn)行限制，避免生成大量無意義的路徑。基于前人的工作[24]，我們限制謂詞路徑最長不超過3。此外，為了盡可能保證每一個(gè)候選圖的質(zhì)量，我們需要排除那些僅由偶然數(shù)據(jù)生成，實(shí)則偏離語義的候選圖。一個(gè)有效的識(shí)別方式利用了候選圖的支持率，即支持候選圖的實(shí)體對(duì)占目標(biāo)關(guān)系所有已知實(shí)體對(duì)的比例，記做??。我們?cè)谏蛇^程中指定支持率閾值??，并移除那些支持率小于的模式圖。綜上，對(duì)謂詞路徑和支持率的限制，可以使候選生成步驟過濾大量的干擾模式圖。?

在生成僅包含骨架的簡單模式圖之后，我們采用深度優(yōu)先搜索的方式獲取更多更加具體的模式圖。如圖4–4所示，“ has grandfater ”關(guān)系可以生成多種不同的簡單模式圖，在此基礎(chǔ)上，我們逐步添加表示復(fù)雜語義的分支，讓模式圖更加具體。這個(gè)步驟的挑戰(zhàn)在于，即便骨架長度得到限制，模式圖擴(kuò)展的搜索空間仍然異常龐大。為了提高效率，我們使用優(yōu)先隊(duì)列維護(hù)搜索過程中獲取的高質(zhì)量模式圖，并進(jìn)行剪枝操作，壓縮候選圖的搜索空間。具體步驟的偽代碼流程如算法4–1所示。Q 為存放模式圖的優(yōu)先隊(duì)列，初始化為空，最大容量為 B，搜索過程中始終維護(hù)具有最大支持率的前 B 個(gè)候選圖（第8行）。使用支持率作為剪枝依據(jù)的原因有二：一方面如同骨架生成中的論述，支持率高的模式圖更不容易偏離語義，而支持率過低的候選圖更有可能引入了不必要的限制，導(dǎo)致無法匹配大量已知三元組；另一方面，隨著候選圖上添加的限制越多，支持率一定呈非嚴(yán)格單調(diào)遞減趨勢，因此這種單調(diào)性特征可以直接用于剪枝。函數(shù) Schema Expansion 以模式圖 S 為輸入，返回值為一個(gè)模式圖集合，其中每個(gè)模式圖均為在 S 上加入一條新的限制所形成的更復(fù)雜的候選，例如圖4–4中的 ( ,? gender,? Male )，( ,? profession,? Politician )等。?

圖4–4 “ has father ” 模式圖挖掘示例。?

為了使候選模式圖之間具有多樣性，我們期望最終保留的 B 個(gè)候選圖中能包含多種不同的骨架，因?yàn)椴煌羌艿哪Ｊ綀D通常代表更大的語義差別。因此在實(shí)際的搜索過程中，我們根據(jù)不同骨架的支持率，將整個(gè)大小為 B 的優(yōu)先隊(duì)列按比例分為多塊，每個(gè)骨架上的深度搜索將使用各自獨(dú)立的優(yōu)先隊(duì)列。這樣的做法可以提高并行工作效率，同時(shí)保證候選集合不被某個(gè)高支持率的骨架主導(dǎo)。

4.2.4.2 模式圖概率推理

當(dāng)關(guān)系的候選圖生成完成之后，下一步需要從中推理出最具有代表性的那些模式圖。我們的目標(biāo)是將關(guān)系的表示多義性表示為每個(gè)候選模式圖 S 的條件概率??，這樣不同粒度的模式圖之間可以直接比較。由于沒有直接的 < 關(guān)系，模式圖 > 訓(xùn)練數(shù)據(jù)，我們對(duì)概率分布的學(xué)習(xí)方式依靠三元組數(shù)據(jù)作為驅(qū)動(dòng)，將學(xué)習(xí)過程建模為知識(shí)庫查詢場景上的一個(gè)最優(yōu)化問題：給定的一個(gè)關(guān)系實(shí)例中的主語（或賓語）實(shí)體，尋找最為合適的模式圖概率分布，使得依照此分布在給定實(shí)體周圍進(jìn)行知識(shí)庫查詢時(shí)，能盡可能返回對(duì)應(yīng)的賓語（或主語）實(shí)體。?

為了能夠在不同粒度的候選模式圖之間得到平衡，我們使用最大化似然估計(jì)的方式定義目標(biāo)函數(shù)，尋找最優(yōu)的模式圖概率分布，使得查詢過程返回正確實(shí)體的概率最高。似然函數(shù)定義如下：

（4-11）

其中，向??表示候選模式圖的概率分布，即??對(duì)應(yīng)條件概率??，且滿足??= 1。?,??分別表示關(guān)系的第??個(gè)實(shí)例中的主語和賓語。?

接下來，我們通過兩階段的生成過程，對(duì)概率??進(jìn)行建模：首先根據(jù)模式圖上的多項(xiàng)分布，隨機(jī)挑選出一個(gè)模式圖 S ～??，然后對(duì)模式圖 S?進(jìn)行查詢（即在知識(shí)庫上進(jìn)行實(shí)例化），在所有主語為?的實(shí)例圖中，隨機(jī)挑選其中的一個(gè)實(shí)例圖，將其賓語實(shí)體返回。第一個(gè)階段中，模式圖的選取與主語條件獨(dú)立，第二個(gè)階段由于固定了模式圖，因而與? 也條件獨(dú)立。考慮這些條件獨(dú)立之后，??的生成過程定義如下：?

（4-12）

概率??的值對(duì)應(yīng)模式圖??在知識(shí)庫上的查詢結(jié)果：令??代表模式圖的實(shí)例圖中，所有主語實(shí)體為的對(duì)應(yīng)賓語集合，以均勻分布從中挑選一個(gè)實(shí)體??，公式展開如下：?

（4-13）

公式中的 α 為平滑參數(shù)，在目標(biāo)賓語無法通過得到時(shí)，我們將概率定位很小的數(shù)值，防止整個(gè)似然函數(shù)值變?yōu)?0。觀察可知，對(duì)于過于寬泛的模式圖，? 集合數(shù)量很大，從中隨機(jī)選擇到目標(biāo)賓語的概率會(huì)因此降低；而對(duì)于過于具體的模式圖，會(huì)使得較多的實(shí)體對(duì)無法被支持，因此同樣會(huì)對(duì)似然帶來降低。由此可見，基于兩階段生成的概率建模方式，可以實(shí)現(xiàn)寬泛與具體模式圖之間的平衡，找到最適合的語義結(jié)構(gòu)。此外，??的定義為公式4–12的對(duì)稱版，代表著給定賓語實(shí)體，查詢得到目標(biāo)主語的概率。?

綜上，我們將模式圖推理問題轉(zhuǎn)化為了基于最大似然估計(jì)的最優(yōu)化任務(wù)，并利用梯度下降算法對(duì)模型參數(shù)? 進(jìn)行更新，使目標(biāo)函數(shù)??值最大。具體使用的梯度下降算法為 RMSProp [138]。

4.2.5 實(shí)驗(yàn)?

本節(jié)中，我們首先對(duì)推理出的模式圖進(jìn)行直接的質(zhì)量測評(píng)，然后使用主賓語預(yù)測和三元組分類這兩個(gè)任務(wù)定量評(píng)估模式圖的語義表達(dá)能力，最后我們分析一些錯(cuò)誤例子，討論當(dāng)前模型的不足之處。

4.2.5.1 實(shí)驗(yàn)設(shè)置

知識(shí)庫：為了和已有的知識(shí)庫向量表示方法進(jìn)行公平比較，我們?cè)趯?shí)驗(yàn)中使用了兩個(gè) Freebase 的子集：FB3m 以及 FB15k 。FB15k 由 Bordes 等人提出[29]，它包含了 14,951 個(gè)實(shí)體，1345 種不同謂詞，以及 483,142 個(gè)事實(shí)三元組。FB15k 的三元組被分為了訓(xùn)練集、驗(yàn)證集、測試集三部分，我們僅選用訓(xùn)練集部分作為使用的知識(shí)庫。與此同時(shí)，我們從 Freebase 2015年6月的版本抽取出最主要的 3,000,000 個(gè)不同的實(shí)體，并提取這些實(shí)體之間的聯(lián)系，構(gòu)成 FB3m 子集。FB3m 包含大約 50,000,000 個(gè)三元組，是 FB15 k的100倍。和完整的 Freebase 相比，FB3m 更加輕量化，但依然包含了大量有價(jià)值的信息。

關(guān)系數(shù)據(jù)集：我們使用了三個(gè)不同的關(guān)系數(shù)據(jù)集進(jìn)行知識(shí)庫補(bǔ)全的相關(guān)實(shí)驗(yàn)。在自然語言場景中，目標(biāo)關(guān)系來源于開放式信息抽取系統(tǒng) PATTY [4]，包含了大約 200,000 種不同的自然語言關(guān)系，以及百萬級(jí)別以上的三元組。由于 PATTY 使用維基百科作為語料庫，三元組中的所有實(shí)體均為維基百科頁面，因此每個(gè)實(shí)體均自動(dòng)鏈接至 Freebase。我們從 PATTY 中抽取子集“ PATTY-100 ”以及“??”用于實(shí)驗(yàn)，PATTY-100 數(shù)據(jù)集與 FB15k 相匹配，其包含了100個(gè)具有較多數(shù)量三元組的關(guān)系，且三元組中所有實(shí)體均存在于 FB15k 中，平均每個(gè)關(guān)系包含180個(gè)關(guān)系實(shí)例。相對(duì)應(yīng)地，?與 FB3m 相匹配，同樣包含100個(gè)自然語言關(guān)系，平均每個(gè)關(guān)系包含388個(gè)實(shí)例。兩個(gè)數(shù)據(jù)集中，每一個(gè)關(guān)系的三元組均被分為訓(xùn)練集、驗(yàn)證集、測試集（64%: 16%: 20%）。第三個(gè)關(guān)系數(shù)據(jù)集屬于知識(shí)庫場景，我們從 FB15k 的“ people ”、“ location ”以及“ sports ”三個(gè)領(lǐng) 域內(nèi)挑選出37個(gè)熱門謂詞，并將它們的所有三元組抽取出，組合為數(shù)據(jù)集“ FB15k-37 ” 。每一個(gè)三元組出現(xiàn)在訓(xùn)練集、驗(yàn)證集、測試集的位置與FB15k 保持一致。FB15k-37 是 FB122 [133]的一個(gè)子集，保證其中每一個(gè)關(guān)系在測試集中都具有至少10個(gè)三元組。

用于比較的已有方法：對(duì)于知識(shí)庫向量表示的方法，我們與 TransE [29]，KALE [133]，TEKE [129] 以及 HOLE [82]進(jìn)行比較。對(duì)于規(guī)則推導(dǎo)的方法，我們與 SFE [26]以及 AMIE+ [132]這兩個(gè)系統(tǒng)進(jìn)行比較。我們考慮使用 CPRA 模型[79]作為另一個(gè)比較方法。但在 PATTY 相關(guān)的數(shù)據(jù)集中，不同關(guān)系之間幾乎不存在相同的實(shí)體對(duì)，因此 CPRA 模型將會(huì)退化為傳統(tǒng)的 PRA 模型[25]，被更優(yōu)秀的 SFE 嚴(yán)格取代。這些模型在2.2節(jié)或4.2.2節(jié)中已有論述。

模型實(shí)現(xiàn)細(xì)節(jié)：我們?cè)u(píng)估了模型的兩個(gè)變種，分別為生成帶限制的模式圖的 OursSC ，以及僅生成簡單模式圖的 Ours-SK 。以下是具體調(diào)參細(xì)節(jié)：?

? 候選模式圖的數(shù)量，即優(yōu)先隊(duì)列容量 B 設(shè)為5000；?

? 模式圖骨架長度限制 τ 設(shè)為3，我們的方法可以支持更長的骨架，但具體測試中無明顯的效果提升，同時(shí)候選生成時(shí)間顯著增長，這里不展開討論；?

? 支持率閾值 γ 調(diào)參范圍為{ 5%,10%,15%,20% }；?

? 平滑參數(shù) α 調(diào)參范圍為{ 1e-6,1e-5,1e-4 }；?

? 學(xué)習(xí)率 η 調(diào)參范圍為{ 0.02,0.05,0.1 }。

用于比較的系統(tǒng)中，具有開源代碼的方法包括 AMIE+ ，SFE 以及 HOLE 。KALE 的代碼由作者提供，TransE 基于 HOLE 的代碼運(yùn)行，并且我們?cè)?TransE 的基礎(chǔ)上自行實(shí)現(xiàn)了 TEKE 模型。以上基于知識(shí)庫向量表示的模型均使用最大間隔損失進(jìn)行訓(xùn)練，對(duì)于 KALE 模型，學(xué)習(xí)率調(diào)參范圍為 { 0.02, 0.05, 0.1 }，最大間隔參數(shù)范圍為{ 0.1, 0.12, 0.15, 0.2 }；對(duì)于TransE，TEKE 以及 HOLE ，學(xué)習(xí)率調(diào)參范圍為{ 0.05,0.1,0.2 }，最大間隔參數(shù)范圍為{ 0.5,1.0,1.5,2.0,2.5 }。

4.2.5.2 模式圖質(zhì)量測評(píng)

這一部分的實(shí)驗(yàn)中，我們主要關(guān)注具有明確結(jié)構(gòu)的模式圖是否可以彌補(bǔ) Freebase 和之間的語義差距。我們首先通過具體的例子觀察不同的規(guī)則推導(dǎo)方法，即 Ours-SC，Ours-SK，AMIE+ 以及 SFE 所生成的代表性結(jié)構(gòu)。我們從數(shù)據(jù)集中挑選出四個(gè)具有一定復(fù)雜性的關(guān)系，并在較大結(jié)構(gòu)的 FB3m 上學(xué)習(xí)各自的規(guī)則。對(duì)于 Ours-SC 和 Ours-SK，我們使用選擇概率最高的模式圖作為代表性結(jié)構(gòu)。SFE 模型中，每個(gè)規(guī)則（謂詞路徑）都對(duì)應(yīng)一個(gè)特征，我們選擇特征權(quán)重最高的規(guī)則作為代表性結(jié)構(gòu)。 AMIE+ 依靠準(zhǔn)確率對(duì)規(guī)則進(jìn)行排序，因此我們挑選準(zhǔn)確率最高的規(guī)則，若多個(gè)規(guī)則準(zhǔn)確率相同，我們則從中手動(dòng)選擇最合適的規(guī)則。

圖4–5 不同的規(guī)則推導(dǎo)系統(tǒng)對(duì)四個(gè)復(fù)雜關(guān)系生成的代表性結(jié)構(gòu)。?

圖4–5列出了四個(gè)自然語言關(guān)系，以及不同系統(tǒng)生成的最佳結(jié)構(gòu)。其中，圓點(diǎn)表示實(shí)體或變量，左右兩個(gè)黑色圓點(diǎn)分別代表??和??。方塊代表知識(shí)庫中的類型，菱形則代表用于維護(hù)多元關(guān)系的輔助節(jié)點(diǎn)。從這些例子中可以發(fā)現(xiàn)，Ours-SC 的模式圖所具有的分支結(jié)構(gòu)，可以帶來更加精確的語義。對(duì)比僅生成骨架的 Ours-SK ，帶有限制的查詢圖在每個(gè)例子上都表達(dá)了幾乎完全正確的語義。另一方面，AMIE+ 和 SFE 輸出的最佳結(jié)構(gòu)不盡如人意。AMIE+ 按照準(zhǔn)確率對(duì)規(guī)則排序，因此總是傾向于更具體的規(guī)則，但犧牲了召回率。同時(shí)隨著規(guī)則長度提升至 4 甚至更高，AMIE+ 系統(tǒng)消耗了大量內(nèi)存，無法返回任何結(jié)果。SFE 生成的規(guī)則中包含 [ Any-Rel ] 代表任意謂詞，因此可以生成更多靈活的路徑作為特征，但顯然其中的大部分都不具有清晰的語義，人類難以直接理解。?

作為補(bǔ)充實(shí)驗(yàn)，我們對(duì) Ours-SC 和 Ours-SK 生成的模式圖進(jìn)行了人工測評(píng)。對(duì)每一個(gè)自然語言關(guān)系，我們從中抽取出至多前 5 個(gè)概率值至少為 0.05 的模式圖，并由三位標(biāo)注者進(jìn)行人工打分，分值選擇范圍為{ 0,0.5,1 }，分別代表“不相關(guān)模式圖”（骨架層次已出現(xiàn)語義偏離），“部分匹配”（骨架語義正確，但其余限制需要改善）以及“完全匹配”（骨架和限制的語義均無明顯偏差）。我們將三位標(biāo)注者的打分進(jìn)行平均，得到每一個(gè)模式圖的標(biāo)注分值，并計(jì)算排名前 n 的所有模式圖的平均分值，記做AvgSc@n 。三位標(biāo)注者之間的 Kappa 系數(shù)為 0.541，具有穩(wěn)定的相關(guān)性。表4–4列出了不同的 AvgSc@n 分值，Ours-SC 在骨架的基礎(chǔ)上挖掘額外的語義限制，將結(jié)果提高了約13%。

表4–4 模式圖列表的 AvgSc@n 測評(píng)結(jié)果。

4.2.5.3 主賓語預(yù)測任務(wù)測評(píng)?

主賓語預(yù)測任務(wù)的目標(biāo)是預(yù)測三元組??或??所缺失的賓語或主語。測試集中的每一個(gè)三元組都對(duì)應(yīng)兩個(gè)這樣的預(yù)測任務(wù)。公式4–12代表著給定一端實(shí)體，生成另一端未知實(shí)體的概率，因此對(duì)每一個(gè)帶有未知實(shí)體的待預(yù)測三元組，我們根據(jù)該公式計(jì)算生成不同實(shí)體的概率，并衡量答案實(shí)體的概率排名高低。我們?cè)趯?shí)驗(yàn)中使用了兩個(gè)評(píng)價(jià)指標(biāo)，分別為 MRR 和 Hits@n ，前者衡量答案實(shí)體在所有預(yù)測任務(wù)中的平均排名，后者關(guān)注在多少比例的預(yù)測任務(wù)中，答案實(shí)體的概率排在前 n 位。不同的實(shí)驗(yàn)方法通過驗(yàn)證集的 MRR 分值進(jìn)行獨(dú)立調(diào)參。

以上對(duì)排名高低的衡量暗含著一個(gè)假設(shè)：除了答案實(shí)體之外，其余實(shí)體均為錯(cuò)誤實(shí)體。然而考慮到關(guān)系可能具有的一對(duì)多性質(zhì)，對(duì)于一個(gè)待預(yù)測的三元組，除了答案實(shí)體之外，還可能存在其它實(shí)體與給定的已知實(shí)體匹配，嚴(yán)格來講，這些實(shí)體雖然不同于唯一的答案，但也不應(yīng)該算作錯(cuò)誤。因此，我們使用和 TransE [29]相同的設(shè)定，在測評(píng)中引入兩種不同的模式，分別為原始模式和過濾模式：在過濾模式中，計(jì)算每個(gè)預(yù)測的答案實(shí)體排名時(shí)，均忽略不同于答案的其余正確實(shí)體，因此過濾模式下，排名值可能會(huì)提高；而原始模式則不做任何的過濾。

我們使用 FB15k 作為知識(shí)庫進(jìn)行實(shí)驗(yàn)，并與其余模型進(jìn)行比較。在接下來的實(shí)驗(yàn)中，為了方便比較，我們的模型同一參數(shù) γ = 10%，α = 1e?4，以及 η = 0.1，對(duì)應(yīng)著 PATTY100 驗(yàn)證集上，在過濾模式下的最高 MRR 結(jié)果。表4–5和表4–6分別展示了在 PATTY-100 和 FB15k-37 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。在兩個(gè)數(shù)據(jù)集上，SFE 模型的代碼均碰到了內(nèi)存問題，因此表格中沒有列出對(duì)應(yīng)的結(jié)果。對(duì)于 PATTY-100 中的關(guān)系，我們基于模式圖的語義表示方法，其效果優(yōu)于其它用于比較的規(guī)則推導(dǎo)與知識(shí)庫向量表示模型，以及僅生成簡單模式圖的變種。在 FB15k-37 數(shù)據(jù)集上，Ours-SC與 Ours-SK 的結(jié)果十分接近，這主要是因?yàn)橹R(shí)庫上的一部分謂詞具有等價(jià)形式，例如??和??互為相反關(guān)系，對(duì)于這些關(guān)系，只需要依靠骨架結(jié)構(gòu)就可以精確描述語義。對(duì)比兩張表格可以發(fā)現(xiàn)，對(duì)于所有不同的模型和實(shí)驗(yàn)?zāi)Ｊ?#xff0c;自然語言關(guān)系上的主賓語預(yù)測結(jié)果都低于對(duì)應(yīng)的知識(shí)庫謂詞上的結(jié)果。主要原因有兩點(diǎn)：1) FB15k-37 上的每一個(gè)謂詞平均包含接近千級(jí)別的訓(xùn)練三元組，而 PATTY-100 中的每個(gè)關(guān)系平均只有115個(gè)訓(xùn)練數(shù)據(jù)；2)自然語言關(guān)系具有更多歧義，開放式信息抽取的結(jié)果會(huì)包含多種語義，而且還要考慮抽取錯(cuò)誤的情況，相比之下，知識(shí)庫上的謂詞及三元組的制定經(jīng)過了部分人工干預(yù)，因此歧義更少。

?表4–5 在 PATTY-100 上進(jìn)行主賓語預(yù)測的測評(píng)結(jié)果。?

表4–6 在 FB15k-37 上進(jìn)行主賓語預(yù)測任務(wù)的測評(píng)結(jié)果。?

4.2.5.4 三元組分類任務(wù)測評(píng)

三元組分類任務(wù)的目標(biāo)是預(yù)測一個(gè)未知三元組 (?, , ?) 是否描述了一個(gè)正確的客觀事實(shí)。考慮到這是個(gè)二分類任務(wù)，測試數(shù)據(jù)中需要包含負(fù)樣本三元組，因此我們使用和 KALE [133] 相同的生成策略，對(duì)測試集和驗(yàn)證集中的每個(gè)三元組生成10個(gè)不同的負(fù)樣本，其中5個(gè)三元組替換了主語，另外5個(gè)替換了賓語。為了保證負(fù)樣本不至于顯得過于錯(cuò)誤，我們保證用于替換的主語（或賓語）都曾出現(xiàn)在目標(biāo)關(guān)系的某個(gè)已知三元組的同樣位置上。

對(duì)于每一個(gè)目標(biāo)關(guān)系，我們通過公式4–11計(jì)算各個(gè)未知三元組的似然值，以此作為置信度對(duì)所有測試集的所有正負(fù)樣本進(jìn)行排序。我們使用 FB15k 作為知識(shí)庫進(jìn)行了實(shí)驗(yàn)，并使用 MAP（ Mean Average Precision ）作為測評(píng)指標(biāo)，衡量不同的模型在三元組分類任務(wù)上的效果。表4–7列出了 PATTY-100 和 FB15k-37 數(shù)據(jù)集上的效果，我們的模型在兩個(gè)數(shù)據(jù)集上均大幅度優(yōu)于其它方法。此外我們發(fā)現(xiàn)，僅生成簡單模式圖的方法效果要優(yōu)于生成完整模式圖的做法。我們對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行了分析，造成這個(gè)現(xiàn)象的原因源于負(fù)樣本生成方式的天然缺陷。例如對(duì)于“ father of ”關(guān)系，我們期望負(fù)樣本中能包含表示母子關(guān)系的實(shí)例，識(shí)別這種負(fù)樣本需要較高難度，必須依靠額外限制才能和正樣本進(jìn)行區(qū)分。然而，負(fù)樣本的生成方式?jīng)Q定了主語只能替換為某個(gè)隨機(jī)小孩的父親，判斷三元組正確與否主要依靠骨架的正確性，因而很難體現(xiàn)模式圖的額外限制為給語義理解帶來的優(yōu)勢，減少候選模式圖的數(shù)量和復(fù)雜度反而能得到更好的效果。

表4–7 三元組分類任務(wù)的 MAP 測評(píng)結(jié)果。

4.2.5.5 錯(cuò)誤分析

對(duì)于一些自然語言關(guān)系，我們的模型可能難以尋找出較為正確的模式圖。我們對(duì)結(jié)果進(jìn)行了分析，并總結(jié)出以下幾類主要錯(cuò)誤。?

1. 開放式信息抽取提供的關(guān)系三元組存在錯(cuò)誤。考慮到 PATTY 主要利用依存語法分析對(duì)句子進(jìn)行關(guān)系識(shí)別，語法分析本身的偏差將導(dǎo)致生成錯(cuò)誤的三元組。例如對(duì)于關(guān)系 “ served as ”，給定句子 “ Dennison served as the 24th Governor of Ohio and as U.S. PostmasterGeneral... ”，PATTY 提取的實(shí)體對(duì)( William Dennison Jr.,Ohio )有誤，正確的賓語應(yīng)為“Governor of Ohio”。?

2. PATTY 數(shù)據(jù)集中，每個(gè)關(guān)系實(shí)際代表著一個(gè)關(guān)系同義集，即由多個(gè)具有相似結(jié)構(gòu)的關(guān)系組成的組合，這導(dǎo)致部分關(guān)系同義集混入了語法相似但語義不同的關(guān)系，產(chǎn)生本不存在的歧義。以 PATTY 中的關(guān)系同義集“ ’s wife ”為例，其中混入了少部分可能由 “ the wife of ” 產(chǎn)生的三元組，其中主語為妻子，賓語反而為丈夫。在混入的三元組干擾下，模型會(huì)誤以為該關(guān)系的準(zhǔn)確語義為不帶有性別限制的配偶關(guān)系，因此正確的模式圖很難獲得較高的概率。?

3. 對(duì)于部分關(guān)系，知識(shí)庫本身缺乏用于描述其語義的謂詞。對(duì)于一些瑣碎的自然語言關(guān)系例如“ talk to ”，知識(shí)庫顯然不包含這類事實(shí)。但即便對(duì)于一些不那么瑣碎的關(guān)系，知識(shí)庫依然可能缺乏必要的謂詞。例如關(guān)系“ ( singer ) performed in ( LOC ) ”描述的是歌手和演唱會(huì)舉辦地的聯(lián)系，但Freebase 中并不包含類似于 place_visited 或 hold_concerts_in 的謂詞，因此難以通過已有知識(shí)表示目標(biāo)關(guān)系的語義。?

4. 由于搜索空間的限制，部分有意義的模式圖無法在候選生成步驟被過濾。例如關(guān)系“ ( actor ) starring with ( actor ) ”，由于 Freebase 通過輔助節(jié)點(diǎn)（ Mediator ）維護(hù)多元關(guān)系，這使得最合適的骨架長度為4，并不滿足候選生成的骨架長度限制，因此模型無法得到這樣的模式圖。

4.3 本章小結(jié)?

本章的研究著眼于自然語言中的二元關(guān)系，根據(jù)關(guān)系已有的三元組實(shí)例，推理出其所具有的語義。第一部分的工作將關(guān)系模式定義為知識(shí)庫中的主賓語類型搭配，并利用知識(shí)庫的類型層次結(jié)構(gòu)實(shí)現(xiàn)模式推理。我們提出的方法基于一個(gè)直觀的思路，即盡可能使用具體的模式匹配更多的已知實(shí)例。在 ReVerb 上進(jìn)行的人工測評(píng)實(shí)驗(yàn)表明，此方法推理出的最具有代表性的模式具有較高的準(zhǔn)確度，效果優(yōu)于傳統(tǒng)的選擇偏好模型。?

第二部分的工作直接挖掘關(guān)系語義和結(jié)構(gòu)化知識(shí)之間的匹配。為了使語義理解具有良好的可解釋性，我們提出了基于模式圖的規(guī)則推導(dǎo)模型，模式圖是對(duì)傳統(tǒng)路徑規(guī)則的泛化，以 “路徑 + 分支” 的結(jié)構(gòu)描述具有更多限制的復(fù)雜語義。該模型將關(guān)系語義表示為多個(gè)模式圖的概率分布，以適應(yīng)關(guān)系的多義性。我們對(duì) PATTY 中的熱門關(guān)系進(jìn)行模式圖推理，多個(gè)具體例子表明，基于模式圖的結(jié)構(gòu)表示有能力描述更加細(xì)化的關(guān)系語義，而且質(zhì)量優(yōu)于其它已有的規(guī)則推導(dǎo)模型。此外，基于模式圖的語義表示還可用于知識(shí)庫補(bǔ)全任務(wù)中，在主賓語預(yù)測和三元組分類兩個(gè)子任務(wù)上，效果優(yōu)于其它規(guī)則推導(dǎo)及知識(shí)庫向量模型。?

后續(xù)的研究主要包括兩部分：數(shù)據(jù)預(yù)處理方面，關(guān)系三元組的實(shí)體鏈接需要優(yōu)化，主語和賓語都可能存在不可鏈接實(shí)體，需要進(jìn)行識(shí)別從而過濾雜亂三元組；語義理解模型方面，本章的兩個(gè)工作均基于數(shù)據(jù)驅(qū)動(dòng)，對(duì)于已知三元組較少的長尾關(guān)系，模型效果會(huì)明顯降低，如何利用關(guān)系本身的短語信息作為額外特征進(jìn)行推理，是值得研究的方向。?

參考文獻(xiàn)：

（文中提及的部分參考文獻(xiàn)在01#02#）

了解更多信息請(qǐng)點(diǎn)擊知識(shí)工場網(wǎng)站主頁：http://kw.fudan.edu.cn/

合作意向、反饋建議請(qǐng)聯(lián)系：

info.knowledgeworks@gmail.com

OpenKG

開放知識(shí)圖譜（簡稱 OpenKG）旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開放與互聯(lián)，促進(jìn)知識(shí)圖譜和語義技術(shù)的普及和廣泛應(yīng)用。

點(diǎn)擊閱讀原文，進(jìn)入 OpenKG 博客。

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 | 基于知识库的自然语言理解 03#的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：论文浅尝 | 面向 cQA 的跨语言问题
下一篇：图谱实战 | 徐美兰：深度应用驱动的医学

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

论文浅尝 | 基于知识库的自然语言理解 03#

總結(jié)