日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 基于知识库的自然语言理解 03#

發(fā)布時(shí)間:2024/7/5 编程问答 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 | 基于知识库的自然语言理解 03# 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

本文轉(zhuǎn)載自公眾號(hào): 知識(shí)工場


羅康琦,上海交通大學(xué)計(jì)算機(jī)系2019屆博士,研究方向?yàn)樽匀徽Z義理解和知識(shí)圖譜。2012年獲得華中科技大學(xué)軟件工程學(xué)士學(xué)位,現(xiàn)就職于京東數(shù)據(jù)科學(xué)實(shí)驗(yàn)室(Data Science Lab)。他曾在AAAI,IJCAI,EMNLP等國際頂級(jí)會(huì)議上發(fā)表多篇論文。




第 4 章??自然語言關(guān)系的語義理解研究



本章的研究中,我們關(guān)注從海量純文本數(shù)據(jù)中挖掘出的關(guān)系三元組。二元關(guān)系是一個(gè)三元組的語義核心,它扮演謂語的成分,描述了主語和賓語實(shí)體間具有的特定聯(lián)系。 然而,由于關(guān)系具有多義性,以及知識(shí)庫與自然語言間存在的語義間隔,我們很難直接像實(shí)體理解那樣,建立關(guān)系和知識(shí)庫謂詞的一一對(duì)應(yīng)。因此,我們嘗試從多個(gè)角度出發(fā),尋找關(guān)系與知識(shí)庫之間存在的復(fù)雜匹配。


4.1 關(guān)系的主賓語類型搭配挖掘


這一節(jié)的研究中,我們旨在尋找不同關(guān)系連接的實(shí)體所具有的類型偏好,并利用知識(shí)庫中的實(shí)體信息構(gòu)建豐富的類型層次關(guān)系,從而挖掘具有代表性的(主語,賓語)類型搭配,在粗粒度上展現(xiàn)關(guān)系的不同含義。


4.1.1 引言?


開放式信息抽取( Open Information Extraction )任務(wù)的目標(biāo)是從從開放領(lǐng)域的文本語料庫中挖掘命名實(shí)體或概念,并抽取出連接這些實(shí)體的各種不同的自然語言關(guān)系。之所以稱為開放式抽取,是因?yàn)橐诰虻年P(guān)系不局限于特定領(lǐng)域也不基于固定的匹配規(guī)則。學(xué)術(shù)界中,較為先進(jìn)的開放式信息抽取系統(tǒng)[1-4]可以從海量互聯(lián)網(wǎng)語料庫中,以很高的準(zhǔn)確率提取百萬甚至更高級(jí)別數(shù)量的關(guān)系實(shí)例,(??,??,??)三元組形式,我們將其稱為關(guān)系三元組。其中, 為二元關(guān)系,一般表示為短語(詞級(jí)別描述)或依存 語法路徑(語法級(jí)別描述)。 是關(guān)系的兩個(gè)參數(shù),即主語和賓語,同樣表現(xiàn)為短語形式。?

開放式信息抽取提供給我們海量關(guān)系實(shí)例的同時(shí),我們有興趣將這些實(shí)例進(jìn)行歸納,尋找更加抽象的語義表示。我們關(guān)注的重點(diǎn)就是這些關(guān)系所具有的不同含義。以關(guān)系 “play in” 為例,開放式信息抽取系統(tǒng)可以提供一系列具有 (?, play in,?) 形式的三元組。例如 ReVerb 系統(tǒng)[2] 可抽取出三元組 ( Goel Grey, played in, Cabaret ) 以及( Tom Brady, play in, National Football League )。給定某關(guān)系已有的三元組實(shí)例,我們可以推理 出一系列由類型三元組描述的關(guān)系模式,即主賓語類型搭配(?,playin,?)。其中以及為標(biāo)準(zhǔn)化的實(shí)體類型,其來源為含有類型定義的知識(shí)庫,例如 WordNet [5],Yago [117], Freebase [9] 以及 Probase [118]。每一個(gè)關(guān)系模式都可以用來表示一組特定的 “play in” 關(guān)系實(shí)例,其中主賓語分別屬于對(duì)應(yīng)的類型。對(duì)于上例“play in”,我們可以給出兩個(gè)可能的模式:( film_actor, play in, film ),以及( pro_athlete, play in,? sports_league )。由此可見,二元關(guān)系 “play in” 具有明顯歧義,不僅可以描述 “運(yùn)動(dòng)員—體育聯(lián)盟” 聯(lián)系,還可以描述 “演員—電影” 之間的聯(lián)系。對(duì)于歧義較少的關(guān)系,我們依然可以推理出不同的主賓語類型搭配,例如關(guān)系 “is the mayor of” 可以推理出 ( person, is the mayor of, location ), 以及( politician, is the mayor of, city )等不同模式,在類型上具有不同的粒度,后者顯然更加具體。?

對(duì)于自然語言理解任務(wù),例如上下文相關(guān)的實(shí)體消歧,還有開放領(lǐng)域自動(dòng)問答,關(guān)系模式是一個(gè)有用的信息。假設(shè)我們要對(duì)句子 “ Granger played in the NBA ” 進(jìn)行實(shí)體識(shí)別。“ Granger ”對(duì)應(yīng)一個(gè)人名,但由于只提供了姓氏,因此具有較高歧義。而“ the NBA ” 幾乎可以確定是人們熟知的體育聯(lián)盟。再結(jié)合上面列舉的 “ play in ” 所具有的關(guān)系模式, 實(shí)體識(shí)別模型便可以獲得額外特征,即“ Granger ”更有可能代表運(yùn)動(dòng)員,也就使得籃球運(yùn)動(dòng)員 “ Danny Granger ” 更容易被正確識(shí)別。考慮到這個(gè)實(shí)體并不非常著名,與之相關(guān)的關(guān)系實(shí)例數(shù)量可能較少,但類型特征依然可以提供很大的幫助。?

為了生成關(guān)系模式,一種已有的方案是基于選擇偏好(Selectional? Preference)技術(shù)[119-121],它可以對(duì)關(guān)系中的主賓語實(shí)體計(jì)算各自具代表性的類型。選擇偏好技術(shù)主要思路來自關(guān)系與類型之間的互信息計(jì)算[120],這種方式傾向于選擇當(dāng)前關(guān)系所獨(dú)有的類型,換句話說,如果一個(gè)類型普遍適用于不同關(guān)系中的實(shí)體描述,那么它便不容易被選為代表類型。然而在開放式信息抽取中,很多關(guān)系實(shí)際上是相關(guān)的,甚至非常相近,例 如 “ play in ”,“ take part in ” 以及 “ is involved in ” 。這些關(guān)系實(shí)際上具有相同的語義,因此主賓語的類型搭配也應(yīng)該相似,而選擇偏好技術(shù)會(huì)因?yàn)殛P(guān)系的不同而對(duì)這些類型都進(jìn)行弱化。?

因此本章中,給定一個(gè)關(guān)系和一系列具體的三元組,我們的任務(wù)是尋找那些最具體的類型搭配,而同時(shí)包含盡可能多的關(guān)系實(shí)例。我們的方法首先將關(guān)系實(shí)例中的主賓語映射為知識(shí)庫中的實(shí)體,即為每個(gè)三元組生成 (??,?) 實(shí)體對(duì)。接著根據(jù)不同實(shí)體所屬 的類型,尋找可以覆蓋盡可能多實(shí)體對(duì)的類型搭配(??,?)。最后,當(dāng)不同的類型搭配覆蓋的實(shí)體對(duì)較為接近或一致時(shí),我們利用知識(shí)庫中已有的 IsA 關(guān)系,擴(kuò)充知識(shí)庫中類型之間的層次結(jié)構(gòu),以此尋找更加具體的類型搭配。?

本章的貢獻(xiàn)可以總結(jié)為以下三個(gè)部分:?

1. 我們具體定義了基于開放式信息抽取的二元關(guān)系模式推理問題;?

2. 我們?cè)O(shè)計(jì)了基于 Freebase 和實(shí)體鏈接任務(wù)的方法,對(duì)一類關(guān)系的主賓語所具有的類型分布進(jìn)行聯(lián)合建模;?

3. 我們?cè)?ReVerb 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),根據(jù)人工標(biāo)注的類型搭配結(jié)果,對(duì)不同二元關(guān)系生成的最佳模式進(jìn)行測評(píng)。與傳統(tǒng)選擇偏好方法比較,我們的模型在 MRR 指標(biāo)上得到了10%的相對(duì)提升。


4.1.2 我們的方法


二元關(guān)系模式挖掘的系統(tǒng)架構(gòu)如圖4–1所示。整個(gè)系統(tǒng)的輸入為開放式信息抽取系統(tǒng)中的所有關(guān)系三元組,經(jīng)過實(shí)體鏈接、關(guān)系分組以及模式排序三個(gè)步驟之后,這些三 元組將會(huì)轉(zhuǎn)換為一系列排好序的主賓語類型搭配。每個(gè)步驟概括如下,本節(jié)將對(duì)它們進(jìn) 行具體描述。?

(1)實(shí)體鏈接: 關(guān)系三元組中的參數(shù)實(shí)體均為字符串形式。我們通過模糊字符串匹 配的方式,將主賓語分別映射到知識(shí)庫中的不同實(shí)體。

(2)關(guān)系分組: 經(jīng)過鏈接之后,關(guān)系表達(dá)形式相近的三元組將聚集在一起,形成一個(gè)大的分組。并且,每一個(gè)分組會(huì)從內(nèi)部的不同關(guān)系中選擇一個(gè),作為整組的代表關(guān)系。

(3)關(guān)系模式排序: 對(duì)分組內(nèi)的每一個(gè)具有鏈接的關(guān)系實(shí)例,其主賓語將轉(zhuǎn)換為知識(shí)庫中對(duì)應(yīng)的類型。根據(jù)不同的類型搭配所覆蓋的三元組數(shù)量,以及各個(gè)類型的寬泛或具體程度,對(duì)所有候選的關(guān)系模式進(jìn)行排序并輸出。


圖4–1 二元關(guān)系模式挖掘的流程框圖。


4.1.2.1 實(shí)體鏈接?


在實(shí)體鏈接步驟中,一個(gè)關(guān)系三元組的主賓語將分別映射到知識(shí)庫中的實(shí)體,形成 帶鏈接的三元組(??,??, ),并配有對(duì)應(yīng)的鏈接分值。由于每一個(gè)三元組所具有的信息較少,并沒有提供足夠的上下文,因此實(shí)體鏈接過程主要基于主賓語名稱以及實(shí)體在知識(shí)庫中名稱的模糊匹配。

實(shí)體在知識(shí)庫中存在至多一個(gè)標(biāo)準(zhǔn)名稱以及多個(gè)別名,例如 Freebase 中,實(shí)體的標(biāo)準(zhǔn)名稱和別名分別對(duì)應(yīng)??以及??屬性。我們利用這些屬性值構(gòu)建了從單詞指向不同名稱的倒排索引,并進(jìn)一步生成每個(gè)關(guān)系參數(shù)的候選實(shí)體。我們用??表示知識(shí)庫中的一個(gè)名稱(或別名),若將其看做單詞的集合( bag-of-words),那么顯然單詞之間具有不同的重要性。直觀上看,若 中某單詞 出現(xiàn)在極少數(shù)的名稱中,那么它對(duì)整個(gè)名稱而言更加重要;反之類似“ of ”,“ the ”等停止詞會(huì)出現(xiàn)在大多數(shù)名稱里,那么在模糊匹配的過程中,其權(quán)重就很低。因此我們利用文檔頻率倒數(shù)( Inverted Document Frequency )用于擬合單詞??的權(quán)重:?


(4-1)


此外,我們直接從知識(shí)庫的名稱中過濾停止詞,相當(dāng)于它們的 idf 分值為 0。為了衡量 關(guān)系三元組中的關(guān)系參數(shù)??與知識(shí)庫名稱 間的模糊匹配程度,我們計(jì)算兩者之間的帶權(quán)重疊分值:?


(4-2)


對(duì)于候選實(shí)體?,我們分別計(jì)算其不同名稱與關(guān)系參數(shù)的模糊匹配分值,最終選取最高分代表實(shí)體 ?與關(guān)系參數(shù) 的匹配度:


(4-3)


為了控制候選實(shí)體的質(zhì)量,對(duì)于由??個(gè)單詞構(gòu)成的關(guān)系參數(shù)(停止詞忽略不計(jì)),我們僅考慮那些存在至少一個(gè)名稱具有 ?1 個(gè)單詞重疊,同時(shí)模糊匹配度高于閾值??的候選實(shí)體。對(duì)于每個(gè)關(guān)系三元組中的主賓語,我們分別抽取匹配度排名前 10 的候選實(shí)體,用于后續(xù)的計(jì)算。?

對(duì)單個(gè)關(guān)系參數(shù)進(jìn)行匹配計(jì)算之后,我們將計(jì)算關(guān)系三元組 (??, ?,?) 與實(shí)體對(duì) (??, ?) 之間的聯(lián)合匹配度。聯(lián)合匹配度的定義方式有兩種。第一種匹配方式較為樸素( Naive ),僅考慮關(guān)系中的兩個(gè)參數(shù)與各自實(shí)體的匹配程度,主賓語實(shí)體互相之間并無直接影響:?


(4-4)


第二種匹配方式除了考慮 各自的匹配分?jǐn)?shù),還考慮到了這兩個(gè)實(shí)體之間存在的聯(lián)系,在知識(shí)庫上體現(xiàn)為連接它們的謂詞或謂詞序列。我們以??表示? 的所有單詞,??表示知識(shí)庫中連接? 和? 的謂詞路徑,其長度至多為 2 。若實(shí)體? 與??可以通過長度為1的路徑相連,則意味著知識(shí)庫中存在通過某謂詞??連接的事實(shí)三元組 (?,?)。 類似地,若 之間通過長度為 2 的路徑相連,則意味著存在??,??以及中間實(shí)體,使得事實(shí) (?,?) 以及 (?,?) 存在于知識(shí)庫中。我們利用樸素貝葉斯模型,利用條件概率的形式定義謂詞序列 與關(guān)系 之間的相關(guān)程度:


(4-5)


Yao 等人[35] 將知識(shí)庫謂詞序列與關(guān)系的對(duì)應(yīng)建模為機(jī)器翻譯模型,并根據(jù)對(duì)齊模型 IBM Model 1[122] 學(xué)習(xí)謂詞的先驗(yàn)概率??以及轉(zhuǎn)移概率??。基于已有工作的概率模型,給定關(guān)系后預(yù)測謂詞序列的條件概率??便可計(jì)算得出。對(duì)于候選實(shí)體 和?,它們之間的謂詞序列與關(guān)系? 越接近,則實(shí)體鏈接結(jié)果越有可能正確。因此,我們通過枚舉 和? 之間所有滿足長度條件的謂詞序列,計(jì)算關(guān)系實(shí)例與實(shí)體對(duì)之間的相似度:?


(4-6)


由于條件概率 的計(jì)算涉及到大量連乘,其數(shù)值在不同實(shí)體對(duì)之間的的差別較為明顯,這也使得其在公式4–6中具有較高的地位。而當(dāng)所有候選實(shí)體間的謂詞序列與當(dāng)前關(guān)系都不相似的時(shí)候,條件概率的隨機(jī)波動(dòng)反而會(huì)帶來不小的干擾。因此,我們采用了一種集成( Ensemble )方案:首先定義條件概率閾值??,對(duì)于當(dāng)前關(guān)系實(shí)例的所有候選實(shí)體對(duì),若其中存在至少一條與關(guān)系足夠相近的謂詞序列,即滿足??時(shí),模型使用公式4–6進(jìn)行整體匹配度計(jì)算,否則模型退回到公式4–4,使用樸素的方式尋找最佳實(shí)體對(duì)。最后,我們選擇分?jǐn)?shù)最高的實(shí)體對(duì),作為關(guān)系三元組的唯一鏈接結(jié)果。


4.1.2.2 關(guān)系分組?


這個(gè)步驟對(duì)所有已鏈接的關(guān)系三元組進(jìn)行聚類,擁有相似關(guān)系描述的三元組將歸為同一分組。每個(gè)三元組僅存在于唯一一個(gè)分組中。?

這個(gè)步驟的思路是通過語法轉(zhuǎn)換,將復(fù)雜的關(guān)系描述進(jìn)行簡化。如果兩個(gè)不同的關(guān)系具有相同的簡化形式,那么視為其語義相同,并歸為同一分組。首先考慮到形容詞、 副詞以及情態(tài)動(dòng)詞的存在與否,基本上不會(huì)改變一個(gè)關(guān)系中主賓語實(shí)體所屬的類型,因此我們將這些詞從關(guān)系描述中移除。此外,大多數(shù)關(guān)系包含動(dòng)詞,但時(shí)態(tài)并不一致,因此我們將所有時(shí)態(tài)統(tǒng)一為現(xiàn)在時(shí)。此外,關(guān)系中的被動(dòng)語態(tài)將會(huì)被保留,不做形式轉(zhuǎn)變。例如經(jīng)過語法轉(zhuǎn)換之后,下列關(guān)系實(shí)例將歸為同一組:( X, resign from, Y ), ( X, had resigned from, Y ) 以及 ( X, ?nally resignd from, Y )。最后,每一個(gè)分組的代表關(guān)系為組內(nèi)關(guān)系的統(tǒng)一簡化形式。如上例所示,三個(gè)關(guān)系實(shí)例屬于“ resign from ”組。


4.1.2.3 類型搭配排序?


給定一個(gè)關(guān)系分組??,這一步驟將生成排好序的主賓語類型對(duì),即該關(guān)系的代表性模式。以二元關(guān)系“ play in ”舉例,理想情況下,生成的結(jié)果里會(huì)包含模式? actor, film ? 以及? pro_athlete, sports_league ?。?

對(duì)于帶鏈接的三元組 (?, , ?),若在知識(shí)庫中, 具有類型??,而 具有類型??,那么該三元組為類型搭配? , ?的一個(gè)支持實(shí)例。一個(gè)實(shí)體有可能從屬于多種類型,無論類型寬泛或具體,因此一個(gè)三元組可以支持多種類型搭配。對(duì)關(guān)系分組? 中的所有實(shí)例進(jìn)行處理,我們可以得到每一種類型搭配所對(duì)應(yīng)的支持集合:


(4-7)


得到所有可能的類型搭配之后,我們可以根據(jù)支持集合的大小進(jìn)行排序。由于每個(gè)實(shí)體從屬于多種類型,因此顯然更加寬泛的類型搭配通常會(huì)被排在前列。但是,對(duì)于人類或是機(jī)器理解一個(gè)自然語言關(guān)系,寬泛的關(guān)系模式所具有的信息量相對(duì)不足,尤其是當(dāng)兩種類型對(duì)具有幾乎一致的支持集合時(shí),往往更具體的類型對(duì)具有更好的代表性。例如對(duì)于關(guān)系“ X die in Y ”,在開放式信息抽取和實(shí)體鏈接均不產(chǎn)生錯(cuò)誤的情況下,類型對(duì) ? person, location ?和? deceased_person, location ?將對(duì)應(yīng)完全一致的支持集合。后者對(duì)關(guān)系的描述更加具體,在不丟失支持實(shí)例的同時(shí),盡可能縮小主語在知識(shí)庫中的范圍。?

由此可見,對(duì)候選類型對(duì)的排序需要考慮每個(gè)類型的相對(duì)粒度。接下來的目標(biāo)就是提取知識(shí)庫中類型之間的包含關(guān)系,建立更加完整的層次結(jié)構(gòu)。我們定義所有屬于類型??的實(shí)體為??。理想情況中,若? 包含于?,那么所有? 中的實(shí)體都從屬于??,即??. 這樣的包含規(guī)則稱為“嚴(yán)格類型包含”。例如在 Freebase 中,類型 person 所包含的其它類型包括 actor,politician 以及 deceased_person 等。?

然而,嚴(yán)格類型包含在知識(shí)庫中并不多見,主要原因是知識(shí)庫的類型定義和人類對(duì)自然界的歸納存在一定差別,以 Freebase 中的 award_winner 為例,類型中絕大多數(shù)實(shí)體都為自然人,但依然包含少量的組織實(shí)體在內(nèi)。基于嚴(yán)格類型包含的規(guī)則,award_winner 與 person 之間毫無包含關(guān)系,但事實(shí)上,考慮到非自然人實(shí)體僅存在極少數(shù),兩個(gè)類別之間在很大程度上依然構(gòu)成從屬關(guān)系。另一方面,由于實(shí)體的類型涉及到人工標(biāo)記,一 旦出現(xiàn)類型標(biāo)記錯(cuò)誤,就有可能導(dǎo)致類型之間無法滿足嚴(yán)格包含條件。

為了能更好地建立類型層次關(guān)系,我們使用一種更加松弛的類型包含定義方式。具體而言,若? 中足夠數(shù)量的實(shí)體從屬于?,那么就認(rèn)為包含關(guān)系成立。因此,我們定義 包含于? 的度,即對(duì)應(yīng)實(shí)體包含的比例:


??

(4-8)


若??,則 包含于 ?。閾值 ? 表示松弛程度,若 ? = 1,則松弛包含退化 為嚴(yán)格包含。若 ? 太小,那么類型之間將具有非常豐富的層次關(guān)系,但其有效性則會(huì)下降。最后,遍歷知識(shí)庫中所有的類型,我們就可以得到特定松弛程度下的類型層次圖。?

隨著類型層次關(guān)系建立完畢,我們就可以定義不同類型搭配之間的包含關(guān)系。若類型對(duì)? , ?被另一個(gè)類型對(duì)??,???,則意味著以下條件之一成立:i) ?? ??;ii) ?? = ;iii) ?t4, = 。最終的類型對(duì)排名體現(xiàn)為支持集合大小和類型對(duì)包含關(guān)系的共同作用。以支持集合降序排列為基礎(chǔ),若類型對(duì)??= ? , ?包含于另一個(gè)類型對(duì)??,且各自的支持集合大小 (??) 幾乎一致,那么 將排在 之前。我們同樣可以根據(jù)重疊關(guān)系實(shí)例的覆蓋程度,來定義兩個(gè)支持集合是否幾乎一致:?


(4-9)


其中??為判斷集合中的元素是否一致的閾值。


4.1.3 實(shí)驗(yàn)?


4.1.3.1 實(shí)驗(yàn)設(shè)置?


我們?cè)趯?shí)驗(yàn)中使用的知識(shí)庫為 Freebase [9]在2014年2月16日的版本,包含了大約 40,000,000 個(gè)不同實(shí)體,以及 1,700 個(gè)主要類型。實(shí)驗(yàn)中使用的開放式信息抽取系統(tǒng)為 ReVerb [2],ReVerb 數(shù)據(jù)集提供了多種版本,我們使用的版本包含了置信度最高的 14,000,000 個(gè)關(guān)系三元組。?

ReVerb 抽取的三元組中,部分關(guān)系參數(shù)無法鏈接到 Freebase 中的某一個(gè)實(shí)體,例如三元組 ( Metro Manila, consists of, 12 cities ),其賓語顯然不是一個(gè)實(shí)體,而是用自然語言描述的類型。這部分三元組不是我們的研究對(duì)象,需要進(jìn)行過濾。考慮到在自然語言中,概念通常對(duì)應(yīng)非專有單詞,并且多為小寫,因此我們根據(jù) WordNet 收集了常用的非專有單詞。若一個(gè)三元組中包含純小寫,或純粹由非專有單詞構(gòu)成的主賓語,那么該 三元組將被過濾。除此之外,ReVerb 三元組中還具有時(shí)間或日期作為關(guān)系參數(shù)的情況, 例如“ Jan. 16th,1981 ”作為賓語,但同樣不對(duì)應(yīng) Freebase 的某個(gè)實(shí)體。為應(yīng)對(duì)這種情況,我們使用 SUTime [123] 工具識(shí)別時(shí)間或日期,將它們替換為具有 type.datetime 類型的虛擬實(shí)體。經(jīng)過清理之后,系統(tǒng)共收集了 3,234,208 個(gè)三元組,對(duì)應(yīng) 171,168 個(gè)不同的關(guān)系分組。?

實(shí)驗(yàn)中具體使用的參數(shù)值為:τ = 0.667,ρ =?,? = 0.6 以及 λ = 5%。關(guān)系分組步驟中,我們使用 Stanford Parser [124] 對(duì)每個(gè)關(guān)系進(jìn)行詞性標(biāo)注、語法分析以及時(shí)態(tài)轉(zhuǎn)換。


4.1.3.2 結(jié)果分析?


我們首先對(duì)實(shí)體鏈接進(jìn)行評(píng)測。由于 ReVerb 沒有提供主賓語的鏈接結(jié)果,我們從所有關(guān)系實(shí)例中隨機(jī)挑選 200 個(gè)三元組,并人工標(biāo)注這些主賓語所鏈接的實(shí)體。我們對(duì)比實(shí)體鏈接過程的樸素方法和集成方法,使用準(zhǔn)確率( Precision ),召回率( Recall ), F1 分值,以及 MRR [125]作為評(píng)價(jià)指標(biāo)。MRR 為平均排名倒數(shù)( Mean Reciprocal Rank ), 即統(tǒng)計(jì)正確的鏈接結(jié)果在輸出列表中的排名,再計(jì)算所有三元組上排名倒數(shù)值的平均。 當(dāng)一個(gè)三元組的主賓語均鏈接正確時(shí),我們才認(rèn)為該三元組鏈接正確。實(shí)驗(yàn)結(jié)果比較如表4–1所示。不同于常規(guī)文本的實(shí)體鏈接,由于每個(gè)三元組的上下文極少,鏈接具有一定難度。基于集成的鏈接方法引入了關(guān)系與實(shí)體間語義的匹配模型,使主賓語的鏈接實(shí)體互相影響,鏈接過程的準(zhǔn)確率和召回率均得到穩(wěn)定提升。


表4–1 ReVerb 三元組的實(shí)體鏈接實(shí)驗(yàn)結(jié)果。?


接下來我們衡量二元關(guān)系的主賓語搭配結(jié)果,主要關(guān)注具有較多實(shí)例的關(guān)系分組。我們首先從包含至少500個(gè)三元組的關(guān)系分組中,隨機(jī)選擇50個(gè)分組,對(duì)于每個(gè)分組,我們挑選出支持集合數(shù)量最大的100個(gè)類型對(duì)作為評(píng)測的對(duì)象。我們將這些類型對(duì)分配給3位對(duì) Freebase 類型有了解的標(biāo)注者,每個(gè)標(biāo)注者根據(jù)自己的理解,判斷類型對(duì)是否適合于描述對(duì)應(yīng)關(guān)系,并標(biāo)注0到3的分值。將三位標(biāo)注者的打分進(jìn)行平均,即可得到這50個(gè)關(guān)系分組的類型對(duì)排序。?

我們使用點(diǎn)對(duì)點(diǎn)互信息( Pointwise Mutual Information )[126] 作為基線模型,該模型在選擇偏好任務(wù)中被使用,例如文獻(xiàn)[119]。 PMI 模型使用以下公式定義一個(gè)關(guān)系 與類型對(duì)? 的關(guān)聯(lián)度:?


(4-10)


其中??代表聯(lián)合概率,即關(guān)系分組為?,且支持 ?的三元組占所有三元組的比重, ? 代表任意關(guān)系或類型對(duì)。?

我們使用 MRR 分?jǐn)?shù)進(jìn)行評(píng)測,衡量不同方法生成的最佳關(guān)系模式在標(biāo)注列表中的位置。如表4–2所示,和基線模型進(jìn)行比較,我們的方法在 MRR 指標(biāo)上獲得了10.1%的相對(duì)提升。


表4–2 二元關(guān)系模式推理的評(píng)測結(jié)果。


最后,表4–3列舉了一些具體的關(guān)系分組,以及我們系統(tǒng)抽取的關(guān)系模式。我們可以看出,當(dāng)構(gòu)建了 Freebase 的類型層次結(jié)構(gòu)之后,系統(tǒng)能夠同時(shí)得到粗粒度和細(xì)粒度的類型信息,因此最終生成的類型對(duì)具有更加豐富的信息量。


表4–3 生成的二元關(guān)系模式舉例。


4.2 關(guān)系的結(jié)構(gòu)化語義挖掘


上一節(jié)的研究目標(biāo)是挖掘一個(gè)關(guān)系所存在的主賓語類型搭配,用于區(qū)分不同的語義。本節(jié)的研究重點(diǎn)放在了深入理解關(guān)系本身,用結(jié)構(gòu)化的符號(hào)代替字符形式的描述。 我們提出了基于模式圖的語義表示方法,與傳統(tǒng)路徑規(guī)則相比,圖結(jié)構(gòu)具有的分支可以更好地支持復(fù)雜語義,具有良好可解釋性的同時(shí),也可被用于知識(shí)庫補(bǔ)全任務(wù)中。


4.2.1 概述?


以 DBPedia、Freebase 等為代表的開放領(lǐng)域知識(shí)庫包含了預(yù)先定義好的標(biāo)準(zhǔn)化的知識(shí)庫謂詞,用于連接知識(shí)庫中的實(shí)體、類型和概念。知識(shí)庫中的事實(shí)采用三元組形式表示,與關(guān)系三元組保持一致。本節(jié)中,我們假定每個(gè)關(guān)系三元組均已完成了實(shí)體鏈接步驟,用(??, ,??)來表示。那么很顯然,事實(shí)三元組和關(guān)系三元組的區(qū)別僅體現(xiàn)在謂 語成分上。因此,利用知識(shí)庫謂詞來表示自然語言關(guān)系的語義,是一個(gè)很自然的想法, 若能將開放式信息抽取中的每一個(gè)關(guān)系實(shí)例都映射為知識(shí)庫中的三元組,那么機(jī)器將很容易理解海量非結(jié)構(gòu)化文本中蘊(yùn)含的結(jié)構(gòu)化信息。這種基于直接對(duì)應(yīng)的思路非常直觀,但是對(duì)于現(xiàn)有的知識(shí)庫,例如 Freebase [9],即便其中包含十億級(jí)別的事實(shí)三元組,仍然會(huì)面臨兩個(gè)主要的挑戰(zhàn)。?

首先,知識(shí)庫和自然語言關(guān)系之間存在著語義鴻溝。以關(guān)系“ has? grandfather ” 為例,Freebase 中并不存在一個(gè)謂詞能與之完全匹配,但存在一些和它相關(guān)的謂詞,例如 parents 以及 gender 。這是因?yàn)橹R(shí)庫的構(gòu)建過程較為嚴(yán)謹(jǐn),為了避免歧義,每一種謂詞的語義都更加單一,同時(shí)為了避免信息冗余,能通過其它謂詞進(jìn)行描述的語義,通常不會(huì)對(duì)應(yīng)一個(gè)單獨(dú)的謂詞。?

其次,知識(shí)庫的構(gòu)建還遠(yuǎn)不夠完整。即便擁有海量的事實(shí)三元組,但依然存在很多長尾的謂詞,并沒有多少事實(shí)與之相關(guān)。這個(gè)挑戰(zhàn)也引入了另一個(gè)開放的研究課題,即知識(shí)庫補(bǔ)全( Knowledge Base Completion )[25,26,127]。該課題的目標(biāo)是,給定知識(shí)庫中的目標(biāo)謂詞,根據(jù)其擁有的少量事實(shí)三元組進(jìn)行學(xué)習(xí),為其補(bǔ)充新的事實(shí),這些新事實(shí)的主語和賓語均為知識(shí)庫中已存在的實(shí)體。換言之,在已有的實(shí)體之間連接更多的謂詞, 使知識(shí)庫更加稠密。?

為了應(yīng)對(duì)以上兩個(gè)挑戰(zhàn),我們關(guān)注的重點(diǎn)在于能否利用知識(shí)庫中已經(jīng)存在的謂詞, 描述一個(gè)自然語言關(guān)系所具有的語義。已有的相關(guān)研究方法主要可以分為兩大類。第一類方法為知識(shí)庫的向量表示學(xué)習(xí)。這種方法類似于詞向量技術(shù),利用知識(shí)庫中的三元組作為訓(xùn)練數(shù)據(jù),學(xué)習(xí)每個(gè)實(shí)體以及謂詞在連續(xù)空間中的特征表示,使得每個(gè)三元組的兩個(gè)實(shí)體和謂詞表示之間滿足特定的代數(shù)關(guān)系。將開放式信息抽取的關(guān)系三元組與知識(shí)庫已有的事實(shí)三元組合并,這類方法可以獲取每一個(gè)目標(biāo)關(guān)系的隱含語義。但考慮到知識(shí)庫表示學(xué)習(xí)中涉及到的參數(shù)數(shù)量非常龐大,這種方法需要大量的訓(xùn)練數(shù)據(jù)以應(yīng)對(duì)長尾實(shí)體,同時(shí)訓(xùn)練的時(shí)間開銷也不可忽略。已有的研究工作主要集中在了較小的知識(shí)庫上,例如 FB15K [29,128]。

另一類方法為規(guī)則推導(dǎo),每個(gè)目標(biāo)謂詞或關(guān)系的語義表達(dá)由明確的規(guī)則構(gòu)建而成。這里的規(guī)則等價(jià)于知識(shí)庫的子結(jié)構(gòu),用于連接自然語言關(guān)系中的主語和賓語實(shí)體。其中最基本的結(jié)構(gòu)為路徑的形式,即通過一個(gè)或多個(gè)謂詞組成序列,連接主語和賓語。規(guī)則推導(dǎo)方法的優(yōu)勢在于高度可解釋性。一方面,知識(shí)庫的子結(jié)構(gòu)可以轉(zhuǎn)換為知識(shí)庫上的查詢語言例如 SPARQL ,因此可以通過在知識(shí)庫上運(yùn)行查詢的方式,明確得知特定的兩個(gè)實(shí)體之間是否可能存在某種關(guān)系。另一方面,相比知識(shí)庫向量學(xué)習(xí)方式,基于規(guī)則推導(dǎo)的方法允許使用多條規(guī)則描述同一個(gè)關(guān)系,更好地適應(yīng)自然語言中的多義性。此外,必要的情況下,人類可以對(duì)輸出的規(guī)則進(jìn)行微調(diào)。?

根據(jù)以上論述,本節(jié)的研究建立在規(guī)則推導(dǎo)的基礎(chǔ)之上。因此,我們將傳統(tǒng)的基于路徑的規(guī)則進(jìn)行擴(kuò)展,而是以樹形結(jié)構(gòu)的形式,不僅連接主語和賓語,同時(shí)還連接了其余相關(guān)實(shí)體,用于表示目標(biāo)關(guān)系所具有的隱藏語義限制。這種樹形結(jié)構(gòu)是具有相同邊結(jié)構(gòu)的知識(shí)庫中具體子圖的抽象表示,我們將其稱為模式圖( Schema Graph )。圖4–2是二元關(guān)系“ has grandfather ” 的模式圖,通過謂詞路徑 [ parents, parents ] 表示主賓語之間的祖孫關(guān)系,同時(shí)利用 gender 限制賓語的性別,以此精確描述關(guān)系語義。

?

圖4–2 二元關(guān)系“ has grandfather ”的語義表示。


具體而言,給定自然語言中的關(guān)系r 以及抽取出的三元組 (??,??,??),本章的研究任務(wù)是在知識(shí)庫中挖掘出一系列與之相關(guān)的模式圖,并且用概率分布的形式,描述用特定模式圖代表該關(guān)系語義的可能性。在進(jìn)行模式圖推理的過程中,我們主要會(huì)面臨以下三個(gè)技術(shù)性挑戰(zhàn):?

首先,候選模式圖的數(shù)量非常龐大。傳統(tǒng)的規(guī)則推導(dǎo)中只考慮謂詞路徑,雖然候選路徑的數(shù)量隨長度呈指數(shù)增長,但在知識(shí)庫中能夠連接兩個(gè)特定實(shí)體的路徑僅有少數(shù), 因此簡單遍歷可以得到所有的候選路徑。然而,具有樹形結(jié)構(gòu)的模式圖中,不僅存在額外的謂詞作為分支,而且包括用于語義限制的實(shí)體, 任何一個(gè)實(shí)體的改變,都會(huì)產(chǎn)生一個(gè)新的模式圖。若使用暴力枚舉生成模式圖,時(shí)間復(fù)雜度上無法承受,同時(shí)還會(huì)生成大量偏離語義的模式圖。?

其次,模式圖推理需要做好粒度上的平衡。當(dāng)一個(gè)模式圖缺少足夠的語義限制,它雖然能匹配已知的三元組,但也可能混淆了錯(cuò)誤的三元組。反之,若一個(gè)模式圖包含了不必要的語義限制,就很可能無法匹配已知的三元組。很顯然,太具體或?qū)挿旱哪J綀D都無法精確表示一個(gè)關(guān)系的語義,但是如何兼顧這兩點(diǎn),并通過概率分布描述不同粒度候選的語義匹配程度,這成為了模式圖推理過程中的另一個(gè)難點(diǎn)。

最后,模式圖推理模型僅有三元組作為訓(xùn)練數(shù)據(jù),不存在標(biāo)注好的模式圖,同時(shí)沒有明確給出不符合特定關(guān)系的錯(cuò)誤三元組數(shù)據(jù),這給學(xué)習(xí)過程增添了難度。一種規(guī)避方法是使用封閉世界假設(shè)( Closed World Assumption ),即假定所有未見過的三元組都是錯(cuò)誤的。但考慮到知識(shí)庫本身遠(yuǎn)不夠完整,封閉世界假設(shè)會(huì)帶來大量的錯(cuò)誤反例,這并不是一個(gè)最好的解決方案。?

本章提出的基于模式圖的規(guī)則推導(dǎo)模型旨在解決應(yīng)對(duì)以上三個(gè)挑戰(zhàn),其主要貢獻(xiàn)可 以分為以下四個(gè)部分:?

1. 我們定義了自然語言關(guān)系的模式圖。和傳統(tǒng)規(guī)則推導(dǎo)模型相比,模式圖是謂詞路徑形式的規(guī)則擴(kuò)展,通過挖掘隱藏的關(guān)聯(lián)實(shí)體,在路徑之上構(gòu)建分支,準(zhǔn)確描述關(guān)系的復(fù)雜語義;

2. 我們提出了一種基于局部搜索的啟發(fā)式方法,通過高效的剪枝策略,快速生成 關(guān)系所對(duì)應(yīng)的候選模式圖;?

3. 我們提出了一種基于數(shù)據(jù)驅(qū)動(dòng)的方法,將模式推理問題轉(zhuǎn)化為查詢?nèi)蝿?wù)進(jìn)行建模,并在不明確生成負(fù)面訓(xùn)練數(shù)據(jù)的情況下,學(xué)習(xí)候選模式圖之間的概率分布,實(shí)現(xiàn)不同粒度模式圖的統(tǒng)一比較;?

4. 我們對(duì)自然語言關(guān)系以及知識(shí)庫中已有的謂詞進(jìn)行了知識(shí)庫補(bǔ)全任務(wù)的測評(píng), 包括主賓語預(yù)測和三元組分類兩個(gè)子任務(wù),我們的模型在這兩個(gè)測評(píng)任務(wù)上均顯著優(yōu)于已有方法。具體生成的模式圖結(jié)果表明,我們提出的模型能夠挖掘出具體且精確的語義。


4.2.2 相關(guān)工作?


隨著大規(guī)模結(jié)構(gòu)化知識(shí)庫的提出與廣泛使用,知識(shí)庫補(bǔ)全任務(wù)成為了近年來的熱門研究課題。該任務(wù)旨在對(duì)知識(shí)庫中已有的謂詞進(jìn)行建模,通過預(yù)測潛在的 (?, , ?) 三元組,實(shí)現(xiàn)擴(kuò)充知識(shí)庫的最終目的。到目前位置,在該課題上的研究方法主要分為兩類: 基于知識(shí)庫表示學(xué)習(xí)和基于規(guī)則推導(dǎo)。?

知識(shí)庫表示學(xué)習(xí)受到詞向量技術(shù)[59,60]的啟發(fā),將知識(shí)庫中的實(shí)體類比為單詞,每個(gè)實(shí)體具有一個(gè)向量表示,對(duì)應(yīng)連續(xù)語義空間上的一個(gè)點(diǎn)。作為連接不同實(shí)體的橋梁,知識(shí)庫中的每個(gè)謂詞都對(duì)應(yīng)著各自的向量或矩陣表示。通過定義不同的向量或矩陣之間的運(yùn)算方式,這類方法可以計(jì)算每個(gè)三元組的置信度,以此實(shí)現(xiàn)對(duì)實(shí)體及謂詞的表示學(xué)習(xí)。?

RESCAL 模型[28]是一個(gè)基礎(chǔ)的知識(shí)庫向量模型,它基于實(shí)體向量和謂詞矩陣表示的雙線性運(yùn)算。HOLE 模型[82]是 RESCAL 模型的改進(jìn),使用向量循環(huán)平移的技巧計(jì)算實(shí)體間的組合語義向量,大幅度降低了謂詞的表示維度。在眾多知識(shí)庫表示學(xué)習(xí)的方法中,有一組方法稱為隱距離模型,它們對(duì)三元組置信度的計(jì)算方式主要基于連續(xù)空間中的距離度量:將主賓語向量經(jīng)過某種方式的映射(翻譯)之后,距離越小,置信度越高。 最典型的研究工作為 TransE ,其核心思路在于盡可能使每個(gè)三元組 ( h, r, t ) 對(duì)應(yīng)的向量計(jì)算滿足??,即利用謂詞向量將連續(xù)空間中的主語進(jìn)行平移,使其盡量與賓語重合。 為了能更好地表示多對(duì)多的關(guān)系,相關(guān)文獻(xiàn) [30,31] 對(duì) TransE 模型進(jìn)行了改良。Wang 等人提出了 TEKE 模型[129],它對(duì)已有的翻譯模型進(jìn)行改良,充分利用結(jié)構(gòu)化文本的知識(shí),尋找三元組中單詞級(jí)別的共現(xiàn),并利用共現(xiàn)上下文微調(diào)實(shí)體和謂詞的向量表示。

基于規(guī)則推導(dǎo)的方法旨在用邏輯規(guī)則的形式表達(dá)謂詞的語義。例如 parent(??) ∧ parent(??) → grandparent(??) 是一個(gè)常識(shí)性的規(guī)則,我們可以通過規(guī)則的左側(cè)部分,在知識(shí)庫中尋找出更多的祖孫間的關(guān)系。Jiang 等人的工作[23]基于馬爾科夫邏輯,通過挖掘的規(guī)則對(duì)自動(dòng)構(gòu)建的知識(shí)庫進(jìn)行信息過濾。其它一些方法使用概率軟邏輯或關(guān)聯(lián)規(guī)則挖掘完成類似的任務(wù)[130,131]。Galárraga 等人提出的 AMIE [22]以及 AMIE+[132]系統(tǒng)則直接根據(jù)知識(shí)庫的三元組尋找置信度較高的一階邏輯規(guī)則。最新的一些研究著眼于在知識(shí)庫中尋找路徑形式的規(guī)則,通過挖掘大量可能的路徑,作為表示語義的特征。Lao 等人提出了 PRA 模型[25],通過在謂詞路徑上的隨機(jī)游走策略,衡量其連接一對(duì)實(shí)體的好壞程度,目標(biāo)關(guān)系的語義等同于不同路徑特征的帶權(quán)組合。Gardner 等人對(duì) PRA 模型進(jìn)行改進(jìn),提出了 SFE 模型[26],除了捕捉連接主賓語的路徑以外,還從主賓語各自的知識(shí)庫子圖中挖掘獨(dú)立的特征,同時(shí)謂詞路徑的定義更加寬泛,允許在其中使用通配符表示任意謂詞。此外,Wang 等人提出了 CPRA 模型[79],這是對(duì) PRA 模型的另一種改進(jìn),通過挖掘目標(biāo)關(guān)系中的相關(guān)性,使得相似關(guān)系之間的路徑挖掘結(jié)果可以互相影響。 然而,通過開放式信息抽取獲得的三元組數(shù)量相對(duì)有限,不同的關(guān)系之間幾乎不存在重疊的實(shí)體對(duì),在這種場景下,CPRA 模型效果等價(jià)于原始的 PRA 模型。

一些相關(guān)的研究嘗試在知識(shí)庫向量學(xué)習(xí)的基礎(chǔ)之上加入一定的邏輯規(guī)則。Guo 等人提出了 KALE 模型[133],其主要思想是將規(guī)則轉(zhuǎn)換為多個(gè)三元組之間的與或非邏輯操作,因此基于翻譯模型計(jì)算的三元組置信度得以在邏輯規(guī)則級(jí)別產(chǎn)生交互。TRESCAL 模型[134]在經(jīng)典的 RESCAL 模型中加入了知識(shí)庫的類型限制。而 Wang 等人的工作[135]使用整數(shù)線性規(guī)劃技術(shù),將知識(shí)庫向量表示和規(guī)則挖掘進(jìn)行統(tǒng)一。?

狹義的知識(shí)庫補(bǔ)全任務(wù)只考慮知識(shí)庫中的謂詞,我們的工作將知識(shí)庫補(bǔ)全的場景進(jìn)行了擴(kuò)展。考慮到為了降低知識(shí)庫結(jié)構(gòu)與自然語言描述的差距,知識(shí)庫補(bǔ)全任務(wù)也可以針對(duì)自然語言中的二元關(guān)系。開放式信息抽取與這樣的任務(wù)相契合,既提供了全新謂詞,又有一定量的三元組用于補(bǔ)全學(xué)習(xí)。一些已有的工作也關(guān)注了自然語言關(guān)系到知識(shí)庫的映射。Zou 等人的工作[136]使用了非監(jiān)督學(xué)習(xí)的方式,利用 TF-IDF 特征尋找關(guān)系到謂詞路徑的匹配。Zhang 等人的工作[24]利用馬爾科夫邏輯網(wǎng)絡(luò)[137],學(xué)習(xí)自然語言關(guān)系對(duì)應(yīng)于不同候選謂詞路徑的概率。這些方法對(duì)關(guān)系的表示局限于路徑的形式,無法準(zhǔn)確地描述一個(gè)形式簡單但具有組合語義的關(guān)系。我們的工作旨在理解具有復(fù)雜語義的關(guān)系,挖掘其包含的隱含限制條件,并通過具有 “路徑 + 分支” 結(jié)構(gòu)的模式圖進(jìn)行語義建模。


4.2.3 任務(wù)定義?


在本章中,我們定義知識(shí)庫為 KB = { E, L, P }三部分組成,具體如下:E 為知識(shí)庫 KB 中所有實(shí)體集合;L 為 KB 中所有不同謂詞的集合; P 為 KB 中所有事實(shí)三元組集合,每一個(gè)三元組表示為 (?,?),其中 ?,? ∈ E,并且 ∈ L. 此外,知識(shí)庫中存在用 于描述一個(gè)實(shí)體所擁有類型的謂詞 IsA,為了簡化描述,本章中我們將不同類型也看做實(shí)體,同屬于集合 E 中。?

一個(gè)模式圖 S 同樣由三部分構(gòu)成,S = {?, X,??},具體如下: ? E,為模式圖中出現(xiàn)的具體的實(shí)體集合; 為實(shí)體變量的集合,每一個(gè)變量?∈?在模式圖中等同于占位符,為特定實(shí)體??∈ E 的抽象;模式圖中包含兩個(gè)特殊變量,即??,??∈ ,分別代表目標(biāo)關(guān)系的主語和賓語實(shí)體;??為模式圖中的抽象三元組集合,每一個(gè)抽象三元組為 (??,??),其中 ∪? 以及??∈ L。此外,模式圖 S 具有以下性質(zhì):?

? S 的表現(xiàn)形式為有向樹形結(jié)構(gòu),且根節(jié)點(diǎn)一定為主語的實(shí)體變量 ;?

? 連接主語變量 和賓語變量 的謂詞路徑,稱為模式圖 S 的骨架;?

? 骨架之外的所有抽象三元組稱為模式圖的限制(或分支);?

? 一個(gè)僅具有骨架而不包含任何限制的模式圖,稱為簡單模式圖,等價(jià)于謂詞路徑。


圖4–3 模式圖的一般形式。


圖4–3顯示了模式圖的一般形式。可以發(fā)現(xiàn),其中的每一條邊都至少連接了一個(gè)實(shí)體變量。模式圖代表著知識(shí)庫中,滿足相同特定結(jié)構(gòu)的一系列具體子圖。這些具體子圖稱為實(shí)例圖( Grounded Garph ),作為模式圖的實(shí)例化形式,所有的實(shí)體變量被替換為特定的實(shí)體??∈ E,且每一個(gè)抽象三元組 (??, ?) 在實(shí)例化之后均對(duì)應(yīng)存在于知識(shí)庫中的事實(shí) ?(?,?) ∈ 。例如圖4–2中的模式圖,其不同的實(shí)例圖囊括了知識(shí)庫中所有已知的(個(gè)人,雙親,雙親父親)知識(shí)。對(duì)于實(shí)例圖中的主賓語對(duì) (??,??),我們稱其為模式圖的一個(gè)支持實(shí)例。?

根據(jù)以上符號(hào)定義,給定知識(shí)庫 KB,自然語言關(guān)系 以及多個(gè)關(guān)系三元組{(?, , ?)},我們對(duì)關(guān)系的深度語義挖掘任務(wù)為,推導(dǎo)出一系列描述其語義的候選模式圖,并學(xué)習(xí)模式圖上的概率分布,以此表示自然語言關(guān)系所具有的多義性。


4.2.4 我們的方法?


本節(jié)主要介紹將自然語言關(guān)系映射為模式圖的具體方式。給定關(guān)系 以及其一系列 關(guān)系實(shí)例作為訓(xùn)練數(shù)據(jù),我們首先依據(jù)給定的主賓語對(duì)(?,?),從它們支持的所有模式圖中尋找可能性較高的候選模式圖,然后對(duì)具有不同粒度的模式圖進(jìn)行重要性衡量。由于沒有直接的<關(guān)系,模式圖>對(duì)作為訓(xùn)練數(shù)據(jù),我們提出了一種基于遠(yuǎn)距離監(jiān)督學(xué)習(xí)的方式,學(xué)習(xí)所有候選圖上的概率分布。


4.2.4.1 候選模式圖生成?


根據(jù)已有的關(guān)系實(shí)例,我們提出了一種高效的搜索算法,在知識(shí)庫上挖掘可能表示關(guān)系語義的候選模式圖。其基本思路在于,首先通過主賓語對(duì)尋找僅由骨架(謂詞路徑) 構(gòu)成的簡單模式圖,帶有限制的模式圖生成則以簡單模式圖為起點(diǎn),不斷尋找與關(guān)系三元組契合的限制,并通過遞歸的形式將新的限制連接到已有的候選上,一步步生成具有復(fù)雜結(jié)構(gòu)的模式圖。?

簡單模式圖的生成基于實(shí)體對(duì)在知識(shí)庫中的直接連接。我們使用雙向廣度優(yōu)先搜索,為每個(gè)實(shí)體對(duì)提取由主語連接到賓語的所有謂詞路徑。考慮到一個(gè)自然語言關(guān)系通常由短語構(gòu)成,通常不會(huì)具有太多的語義跳躍,因此我們對(duì)謂詞路徑長度進(jìn)行限制,避免生成大量無意義的路徑。基于前人的工作[24],我們限制謂詞路徑最長不超過3。此外,為了盡可能保證每一個(gè)候選圖的質(zhì)量,我們需要排除那些僅由偶然數(shù)據(jù)生成,實(shí)則偏離語義的候選圖。一個(gè)有效的識(shí)別方式利用了候選圖的支持率,即支持候選圖的實(shí)體 對(duì)占目標(biāo)關(guān)系所有已知實(shí)體對(duì)的比例,記做??。我們?cè)谏蛇^程中指定支持率閾值??,并移除那些支持率 小于 的模式圖。綜上,對(duì)謂詞路徑和支持率的限制,可以使候選生成步驟過濾大量的干擾模式圖。?

在生成僅包含骨架的簡單模式圖之后,我們采用深度優(yōu)先搜索的方式獲取更多更加具體的模式圖。如圖4–4所示,“ has grandfater ”關(guān)系可以生成多種不同的簡單模式圖,在此基礎(chǔ)上,我們逐步添加表示復(fù)雜語義的分支,讓模式圖更加具體。這個(gè)步驟的挑戰(zhàn)在于,即便骨架長度得到限制,模式圖擴(kuò)展的搜索空間仍然異常龐大。為了提高效率,我們使用優(yōu)先隊(duì)列維護(hù)搜索過程中獲取的高質(zhì)量模式圖,并進(jìn)行剪枝操作,壓縮候選圖的搜索空間。具體步驟的偽代碼流程如算法4–1所示。Q 為存放模式圖的優(yōu)先隊(duì)列,初始化為空,最大容量為 B,搜索過程中始終維護(hù)具有最大支持率的前 B 個(gè)候選圖(第8行)。 使用支持率作為剪枝依據(jù)的原因有二:一方面如同骨架生成中的論述,支持率高的模式圖更不容易偏離語義,而支持率過低的候選圖更有可能引入了不必要的限制,導(dǎo)致無法匹配大量已知三元組;另一方面,隨著候選圖上添加的限制越多,支持率一定呈非嚴(yán)格單調(diào)遞減趨勢,因此這種單調(diào)性特征可以直接用于剪枝。函數(shù) Schema Expansion 以模式圖 S 為輸入,返回值為一個(gè)模式圖集合,其中每個(gè)模式圖均為在 S 上加入一條新的限制所形成的更復(fù)雜的候選,例如圖4–4中的 ( ,? gender,? Male ),( ,? profession,? Politician )等。?


圖4–4 “ has father ” 模式圖挖掘示例。?



為了使候選模式圖之間具有多樣性,我們期望最終保留的 B 個(gè)候選圖中能包含多種不同的骨架,因?yàn)椴煌羌艿哪J綀D通常代表更大的語義差別。因此在實(shí)際的搜索過程中,我們根據(jù)不同骨架的支持率,將整個(gè)大小為 B 的優(yōu)先隊(duì)列按比例分為多塊,每個(gè)骨架上的深度搜索將使用各自獨(dú)立的優(yōu)先隊(duì)列。這樣的做法可以提高并行工作效率,同時(shí)保證候選集合不被某個(gè)高支持率的骨架主導(dǎo)。


4.2.4.2 模式圖概率推理


當(dāng)關(guān)系的候選圖生成完成之后,下一步需要從中推理出最具有代表性的那些模式圖。我們的目標(biāo)是將關(guān)系的表示多義性表示為每個(gè)候選模式圖 S 的條件概率??,這樣不同粒度的模式圖之間可以直接比較。由于沒有直接的 < 關(guān)系,模式圖 > 訓(xùn)練數(shù)據(jù),我們對(duì)概率分布的學(xué)習(xí)方式依靠三元組數(shù)據(jù)作為驅(qū)動(dòng),將學(xué)習(xí)過程建模為知識(shí)庫查詢場景上的一個(gè)最優(yōu)化問題:給定的一個(gè)關(guān)系實(shí)例中的主語(或賓語)實(shí)體,尋找最為合適的模式圖概率分布,使得依照此分布在給定實(shí)體周圍進(jìn)行知識(shí)庫查詢時(shí),能盡可能返回對(duì)應(yīng)的賓語(或主語)實(shí)體。?

為了能夠在不同粒度的候選模式圖之間得到平衡,我們使用最大化似然估計(jì)的方式定義目標(biāo)函數(shù),尋找最優(yōu)的模式圖概率分布,使得查詢過程返回正確實(shí)體的概率最高。 似然函數(shù)定義如下:


(4-11)


其中,向??表示候選模式圖的概率分布,即??對(duì)應(yīng)條件概率??,且滿足??= 1。?,??分別表示關(guān)系的第??個(gè)實(shí)例中的主語和賓語。?

接下來,我們通過兩階段的生成過程,對(duì)概率??進(jìn)行建模:首先根據(jù)模式圖上的多項(xiàng)分布,隨機(jī)挑選出一個(gè)模式圖 S ~??,然后對(duì)模式圖 S?進(jìn)行查詢(即在知識(shí)庫上進(jìn)行實(shí)例化),在所有主語為?的實(shí)例圖中,隨機(jī)挑選其中的一個(gè)實(shí)例圖,將其賓語實(shí)體返回。第一個(gè)階段中,模式圖的選取與主語 條件獨(dú)立,第二個(gè)階段由于固定了模式圖,因而與? 也條件獨(dú)立。考慮這些條件獨(dú)立之后,??的生成過程定義如下:?


(4-12)


概率??的值對(duì)應(yīng)模式圖??在知識(shí)庫上的查詢結(jié)果:令??代表模式圖 的實(shí)例圖中,所有主語實(shí)體為 的對(duì)應(yīng)賓語集合,以均勻分布從中挑選 一個(gè)實(shí)體??,公式展開如下:?


(4-13)


公式中的 α 為平滑參數(shù),在目標(biāo)賓語無法通過 得到時(shí),我們將概率定位很小的數(shù)值, 防止整個(gè)似然函數(shù)值變?yōu)?0。觀察可知,對(duì)于過于寬泛的模式圖 ? 集合數(shù)量很大,從中隨機(jī)選擇到目標(biāo)賓語的概率會(huì)因此降低;而對(duì)于過于具體的模式圖,會(huì)使得較多的實(shí)體對(duì)無法被支持,因此同樣會(huì)對(duì)似然帶來降低。由此可見,基于兩階段生成的概率建模方式,可以實(shí)現(xiàn)寬泛與具體模式圖之間的平衡,找到最適合的語義結(jié)構(gòu)。此 外,??的定義為公式4–12的對(duì)稱版,代表著給定賓語實(shí)體,查詢得到目標(biāo)主語的概率。?

綜上,我們將模式圖推理問題轉(zhuǎn)化為了基于最大似然估計(jì)的最優(yōu)化任務(wù),并利用梯度下降算法對(duì)模型參數(shù)? 進(jìn)行更新,使目標(biāo)函數(shù)??值最大。具體使用的梯度下降算法為 RMSProp [138]。


4.2.5 實(shí)驗(yàn)?


本節(jié)中,我們首先對(duì)推理出的模式圖進(jìn)行直接的質(zhì)量測評(píng),然后使用主賓語預(yù)測和三元組分類這兩個(gè)任務(wù)定量評(píng)估模式圖的語義表達(dá)能力,最后我們分析一些錯(cuò)誤例子,討論當(dāng)前模型的不足之處。


4.2.5.1 實(shí)驗(yàn)設(shè)置


知識(shí)庫:為了和已有的知識(shí)庫向量表示方法進(jìn)行公平比較,我們?cè)趯?shí)驗(yàn)中使用了兩個(gè) Freebase 的子集:FB3m 以及 FB15k 。FB15k 由 Bordes 等人提出[29],它包含了 14,951 個(gè)實(shí)體,1345 種不同謂詞,以及 483,142 個(gè)事實(shí)三元組。FB15k 的三元組被分為了訓(xùn)練集、驗(yàn)證集、測試集三部分,我們僅選用訓(xùn)練集部分作為使用的知識(shí)庫。與此同時(shí),我 們從 Freebase 2015年6月的版本抽取出最主要的 3,000,000 個(gè)不同的實(shí)體,并提取這些實(shí)體之間的聯(lián)系,構(gòu)成 FB3m 子集。FB3m 包含大約 50,000,000 個(gè)三元組,是 FB15 k的100倍。和完整的 Freebase 相比,FB3m 更加輕量化,但依然包含了大量有價(jià)值的信息。

關(guān)系數(shù)據(jù)集:我們使用了三個(gè)不同的關(guān)系數(shù)據(jù)集進(jìn)行知識(shí)庫補(bǔ)全的相關(guān)實(shí)驗(yàn)。在自然語言場景中,目標(biāo)關(guān)系來源于開放式信息抽取系統(tǒng) PATTY [4],包含了大約 200,000 種不同的自然語言關(guān)系,以及百萬級(jí)別以上的三元組。由于 PATTY 使用維基百科作為語料庫,三元組中的所有實(shí)體均為維基百科頁面,因此每個(gè)實(shí)體均自動(dòng)鏈接至 Freebase。 我們從 PATTY 中抽取子集“ PATTY-100 ”以及“??”用于實(shí)驗(yàn),PATTY-100 數(shù)據(jù)集與 FB15k 相匹配,其包含了100個(gè)具有較多數(shù)量三元組的關(guān)系,且三元組中所有實(shí)體均存在于 FB15k 中,平均每個(gè)關(guān)系包含180個(gè)關(guān)系實(shí)例。相對(duì)應(yīng)地,?與 FB3m 相匹配,同樣包含100個(gè)自然語言關(guān)系,平均每個(gè)關(guān)系包含388個(gè)實(shí)例。兩個(gè)數(shù)據(jù)集中,每一個(gè)關(guān)系的三元組均被分為訓(xùn)練集、驗(yàn)證集、測試集(64%: 16%: 20%)。第三個(gè)關(guān)系數(shù)據(jù)集屬于知識(shí)庫場景,我們從 FB15k 的“ people ”、“ location ”以及“ sports ”三個(gè)領(lǐng) 域內(nèi)挑選出37個(gè)熱門謂詞,并將它們的所有三元組抽取出,組合為數(shù)據(jù)集“ FB15k-37 ” 。每一個(gè)三元組出現(xiàn)在訓(xùn)練集、驗(yàn)證集、測試集的位置與FB15k 保持一致。FB15k-37 是 FB122 [133]的一個(gè)子集,保證其中每一個(gè)關(guān)系在測試集中都具有至少10個(gè)三元組。

用于比較的已有方法:對(duì)于知識(shí)庫向量表示的方法,我們與 TransE [29],KALE [133],TEKE [129] 以及 HOLE [82]進(jìn)行比較。對(duì)于規(guī)則推導(dǎo)的方法,我們與 SFE [26]以及 AMIE+ [132]這兩個(gè)系統(tǒng)進(jìn)行比較。我們考慮使用 CPRA 模型[79]作為另一個(gè)比較方法。但在 PATTY 相關(guān)的數(shù)據(jù)集中,不同關(guān)系之間幾乎不存在相同的實(shí)體對(duì),因此 CPRA 模型將會(huì)退化為傳統(tǒng)的 PRA 模型[25],被更優(yōu)秀的 SFE 嚴(yán)格取代。這些模型在2.2節(jié)或4.2.2節(jié)中已有論述。

模型實(shí)現(xiàn)細(xì)節(jié):我們?cè)u(píng)估了模型的兩個(gè)變種,分別為生成帶限制的模式圖的 OursSC ,以及僅生成簡單模式圖的 Ours-SK 。以下是具體調(diào)參細(xì)節(jié):?

? 候選模式圖的數(shù)量,即優(yōu)先隊(duì)列容量 B 設(shè)為5000;?

? 模式圖骨架長度限制 τ 設(shè)為3,我們的方法可以支持更長的骨架,但具體測試中無明顯的效果提升,同時(shí)候選生成時(shí)間顯著增長,這里不展開討論;?

? 支持率閾值 γ 調(diào)參范圍為{ 5%,10%,15%,20% };?

? 平滑參數(shù) α 調(diào)參范圍為{ 1e-6,1e-5,1e-4 };?

? 學(xué)習(xí)率 η 調(diào)參范圍為{ 0.02,0.05,0.1 }。

用于比較的系統(tǒng)中,具有開源代碼的方法包括 AMIE+ ,SFE 以及 HOLE 。KALE 的代碼由作者提供,TransE 基于 HOLE 的代碼運(yùn)行,并且我們?cè)?TransE 的基礎(chǔ)上自行實(shí)現(xiàn)了 TEKE 模型。以上基于知識(shí)庫向量表示的模型均使用最大間隔損失進(jìn)行訓(xùn)練,對(duì)于 KALE 模型,學(xué)習(xí)率調(diào)參范圍為 { 0.02, 0.05, 0.1 },最大間隔參數(shù)范圍為{ 0.1, 0.12, 0.15, 0.2 };對(duì)于TransE,TEKE 以及 HOLE ,學(xué)習(xí)率調(diào)參范圍為{ 0.05,0.1,0.2 },最大間隔參數(shù)范圍為{ 0.5,1.0,1.5,2.0,2.5 }。


4.2.5.2 模式圖質(zhì)量測評(píng)


這一部分的實(shí)驗(yàn)中,我們主要關(guān)注具有明確結(jié)構(gòu)的模式圖是否可以彌補(bǔ) Freebase 和 之間的語義差距。我們首先通過具體的例子觀察不同的規(guī)則推導(dǎo)方法,即 Ours-SC,Ours-SK,AMIE+ 以及 SFE 所生成的代表性結(jié)構(gòu)。我們從 數(shù)據(jù)集中挑選出四個(gè)具有一定復(fù)雜性的關(guān)系,并在較大結(jié)構(gòu)的 FB3m 上學(xué)習(xí)各自的規(guī)則。對(duì)于 Ours-SC 和 Ours-SK,我們使用選擇概率最高的模式圖作為代表性結(jié)構(gòu)。SFE 模型中,每個(gè)規(guī)則(謂詞路徑)都對(duì)應(yīng)一個(gè)特征,我們選擇特征權(quán)重最高的規(guī)則作為代表性結(jié)構(gòu)。 AMIE+ 依靠準(zhǔn)確率對(duì)規(guī)則進(jìn)行排序,因此我們挑選準(zhǔn)確率最高的規(guī)則,若多個(gè)規(guī)則準(zhǔn)確率相同,我們則從中手動(dòng)選擇最合適的規(guī)則。


圖4–5 不同的規(guī)則推導(dǎo)系統(tǒng)對(duì)四個(gè)復(fù)雜關(guān)系生成的代表性結(jié)構(gòu)。?


圖4–5列出了四個(gè)自然語言關(guān)系,以及不同系統(tǒng)生成的最佳結(jié)構(gòu)。其中,圓點(diǎn)表示實(shí)體或變量,左右兩個(gè)黑色圓點(diǎn)分別代表??和??。方塊代表知識(shí)庫中的類型,菱形則代表用于維護(hù)多元關(guān)系的輔助節(jié)點(diǎn)。從這些例子中可以發(fā)現(xiàn),Ours-SC 的模式圖所具有的分支結(jié)構(gòu),可以帶來更加精確的語義。對(duì)比僅生成骨架的 Ours-SK ,帶有限制的查詢圖在每個(gè)例子上都表達(dá)了幾乎完全正確的語義。另一方面,AMIE+ 和 SFE 輸出的最佳結(jié)構(gòu)不盡如人意。AMIE+ 按照準(zhǔn)確率對(duì)規(guī)則排序,因此總是傾向于更具體的規(guī)則,但犧牲了召回率。同時(shí)隨著規(guī)則長度提升至 4 甚至更高,AMIE+ 系統(tǒng)消耗了大量內(nèi)存,無法返回任何結(jié)果。SFE 生成的規(guī)則中包含 [ Any-Rel ] 代表任意謂詞,因此可以生成更多靈活的路徑作為特征,但顯然其中的大部分都不具有清晰的語義,人類難以直接理解。?

作為補(bǔ)充實(shí)驗(yàn),我們對(duì) Ours-SC 和 Ours-SK 生成的模式圖進(jìn)行了人工測評(píng)。對(duì)每一個(gè)自然語言關(guān)系,我們從中抽取出至多前 5 個(gè)概率值至少為 0.05 的模式圖,并由三位標(biāo)注者進(jìn)行人工打分,分值選擇范圍為{ 0,0.5,1 },分別代表“不相關(guān)模式圖”(骨架層次已出現(xiàn)語義偏離),“部分匹配”(骨架語義正確,但其余限制需要改善)以及“完全匹 配”(骨架和限制的語義均無明顯偏差)。我們將三位標(biāo)注者的打分進(jìn)行平均,得到每一 個(gè)模式圖的標(biāo)注分值,并計(jì)算排名前 n 的所有模式圖的平均分值,記做AvgSc@n 。三位標(biāo)注者之間的 Kappa 系數(shù)為 0.541,具有穩(wěn)定的相關(guān)性。表4–4列出了不同的 AvgSc@n 分值,Ours-SC 在骨架的基礎(chǔ)上挖掘額外的語義限制,將結(jié)果提高了約13%。


表4–4 模式圖列表的 AvgSc@n 測評(píng)結(jié)果。


4.2.5.3 主賓語預(yù)測任務(wù)測評(píng)?


主賓語預(yù)測任務(wù)的目標(biāo)是預(yù)測三元組??或??所缺失的賓語或主語。測試集中的每一個(gè)三元組都對(duì)應(yīng)兩個(gè)這樣的預(yù)測任務(wù)。公式4–12代表著給定一端實(shí)體,生成另一端未知實(shí)體的概率,因此對(duì)每一個(gè)帶有未知實(shí)體的待預(yù)測三元組,我們根據(jù)該公式計(jì)算生成不同實(shí)體的概率,并衡量答案實(shí)體的概率排名高低。我們?cè)趯?shí)驗(yàn)中使用了兩個(gè)評(píng)價(jià)指標(biāo),分別為 MRR 和 Hits@n ,前者衡量答案實(shí)體在所有預(yù)測任務(wù)中的平均排名,后者關(guān)注在多少比例的預(yù)測任務(wù)中,答案實(shí)體的概率排在前 n 位。不同的實(shí)驗(yàn)方法通過驗(yàn)證集的 MRR 分值進(jìn)行獨(dú)立調(diào)參。

以上對(duì)排名高低的衡量暗含著一個(gè)假設(shè):除了答案實(shí)體之外,其余實(shí)體均為錯(cuò)誤實(shí)體。然而考慮到關(guān)系可能具有的一對(duì)多性質(zhì),對(duì)于一個(gè)待預(yù)測的三元組,除了答案實(shí)體之外,還可能存在其它實(shí)體與給定的已知實(shí)體匹配,嚴(yán)格來講,這些實(shí)體雖然不同于唯一的答案,但也不應(yīng)該算作錯(cuò)誤。因此,我們使用和 TransE [29]相同的設(shè)定,在測評(píng)中引入兩種不同的模式,分別為原始模式和過濾模式:在過濾模式中,計(jì)算每個(gè)預(yù)測的答案實(shí)體排名時(shí),均忽略不同于答案的其余正確實(shí)體,因此過濾模式下,排名值可能會(huì)提高;而原始模式則不做任何的過濾。

我們使用 FB15k 作為知識(shí)庫進(jìn)行實(shí)驗(yàn),并與其余模型進(jìn)行比較。在接下來的實(shí)驗(yàn)中, 為了方便比較,我們的模型同一參數(shù) γ = 10%,α = 1e?4,以及 η = 0.1,對(duì)應(yīng)著 PATTY100 驗(yàn)證集上,在過濾模式下的最高 MRR 結(jié)果。表4–5和表4–6分別展示了在 PATTY-100 和 FB15k-37 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。在兩個(gè)數(shù)據(jù)集上,SFE 模型的代碼均碰到了內(nèi)存問題,因此表格中沒有列出對(duì)應(yīng)的結(jié)果。對(duì)于 PATTY-100 中的關(guān)系,我們基于模式圖的語義表示方法,其效果優(yōu)于其它用于比較的規(guī)則推導(dǎo)與知識(shí)庫向量表示模型,以及僅生成簡單模式圖的變種。在 FB15k-37 數(shù)據(jù)集上,Ours-SC與 Ours-SK 的結(jié)果十分接近,這主要是因?yàn)橹R(shí)庫上的一部分謂詞具有等價(jià)形式,例如??和??互為相反關(guān)系,對(duì)于這些關(guān)系,只需要依靠骨架結(jié)構(gòu)就可以精確描述語義。對(duì)比兩張表格可以發(fā)現(xiàn),對(duì)于所有不同的模型和實(shí)驗(yàn)?zāi)J?#xff0c;自然語言關(guān)系上的主賓語預(yù)測結(jié)果都低于對(duì)應(yīng)的知識(shí)庫謂詞上的結(jié)果。主要原因有兩點(diǎn):1) FB15k-37 上的每一個(gè)謂詞平均包含接近千級(jí)別的訓(xùn)練三元組,而 PATTY-100 中的每個(gè)關(guān)系平均只有115個(gè)訓(xùn)練數(shù)據(jù);2)自然語言關(guān)系具有更多歧義,開放式信息抽取的結(jié)果會(huì)包含多種語義,而且還要考慮抽取錯(cuò)誤的情況,相比之下,知識(shí)庫上的謂詞及三元組的制定經(jīng)過了部分人工干預(yù),因此歧義更少。


?表4–5 在 PATTY-100 上進(jìn)行主賓語預(yù)測的測評(píng)結(jié)果。?


表4–6 在 FB15k-37 上進(jìn)行主賓語預(yù)測任務(wù)的測評(píng)結(jié)果。?


4.2.5.4 三元組分類任務(wù)測評(píng)


三元組分類任務(wù)的目標(biāo)是預(yù)測一個(gè)未知三元組 (?, , ?) 是否描述了一個(gè)正確的客觀事實(shí)。考慮到這是個(gè)二分類任務(wù),測試數(shù)據(jù)中需要包含負(fù)樣本三元組,因此我們使用和 KALE [133] 相同的生成策略,對(duì)測試集和驗(yàn)證集中的每個(gè)三元組生成10個(gè)不同的負(fù)樣本,其中5個(gè)三元組替換了主語,另外5個(gè)替換了賓語。為了保證負(fù)樣本不至于顯得 過于錯(cuò)誤,我們保證用于替換的主語(或賓語)都曾出現(xiàn)在目標(biāo)關(guān)系的某個(gè)已知三元組的同樣位置上。

對(duì)于每一個(gè)目標(biāo)關(guān)系,我們通過公式4–11計(jì)算各個(gè)未知三元組的似然值,以此作為置信度對(duì)所有測試集的所有正負(fù)樣本進(jìn)行排序。我們使用 FB15k 作為知識(shí)庫進(jìn)行了實(shí)驗(yàn),并使用 MAP( Mean Average Precision )作為測評(píng)指標(biāo),衡量不同的模型在三元組分類任務(wù)上的效果。表4–7列出了 PATTY-100 和 FB15k-37 數(shù)據(jù)集上的效果,我們的模型在兩個(gè)數(shù)據(jù)集上均大幅度優(yōu)于其它方法。此外我們發(fā)現(xiàn),僅生成簡單模式圖的方法效果要優(yōu)于生成完整模式圖的做法。我們對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行了分析,造成這個(gè)現(xiàn)象的原因源于負(fù)樣本生成方式的天然缺陷。例如對(duì)于“ father of ”關(guān)系,我們期望負(fù)樣本中能包含表示母子關(guān)系的實(shí)例,識(shí)別這種負(fù)樣本需要較高難度,必須依靠額外限制才能和正樣本進(jìn)行區(qū)分。然而,負(fù)樣本的生成方式?jīng)Q定了主語只能替換為某個(gè)隨機(jī)小孩的父親,判斷三元組正確與否主要依靠骨架的正確性,因而很難體現(xiàn)模式圖的額外限制為給語義理解帶來的優(yōu)勢,減少候選模式圖的數(shù)量和復(fù)雜度反而能得到更好的效果。


表4–7 三元組分類任務(wù)的 MAP 測評(píng)結(jié)果。


4.2.5.5 錯(cuò)誤分析


對(duì)于一些自然語言關(guān)系,我們的模型可能難以尋找出較為正確的模式圖。我們對(duì)結(jié)果進(jìn)行了分析,并總結(jié)出以下幾類主要錯(cuò)誤。?

1. 開放式信息抽取提供的關(guān)系三元組存在錯(cuò)誤。考慮到 PATTY 主要利用依存語法分析對(duì)句子進(jìn)行關(guān)系識(shí)別,語法分析本身的偏差將導(dǎo)致生成錯(cuò)誤的三元組。例如對(duì)于關(guān)系 “ served as ”,給定句子 “ Dennison served as the 24th Governor of Ohio and as U.S. PostmasterGeneral... ”,PATTY 提取的實(shí)體對(duì)( William Dennison Jr.,Ohio )有誤,正確的賓語應(yīng)為“Governor of Ohio”。?

2. PATTY 數(shù)據(jù)集中,每個(gè)關(guān)系實(shí)際代表著一個(gè)關(guān)系同義集,即由多個(gè)具有相似結(jié)構(gòu)的關(guān)系組成的組合,這導(dǎo)致部分關(guān)系同義集混入了語法相似但語義不同的關(guān)系,產(chǎn)生本不存在的歧義。以 PATTY 中的關(guān)系同義集“ ’s wife ”為例,其中混入了少部分可能由 “ the wife of ” 產(chǎn)生的三元組,其中主語為妻子,賓語反而為丈夫。在混入的三元組干擾下,模型會(huì)誤以為該關(guān)系的準(zhǔn)確語義為不帶有性別限制的配偶關(guān)系,因此正確的模式圖很難獲得較高的概率。?

3. 對(duì)于部分關(guān)系,知識(shí)庫本身缺乏用于描述其語義的謂詞。對(duì)于一些瑣碎的自然語言關(guān)系例如“ talk to ”,知識(shí)庫顯然不包含這類事實(shí)。但即便對(duì)于一些不那么瑣碎的關(guān)系, 知識(shí)庫依然可能缺乏必要的謂詞。例如關(guān)系“ ( singer ) performed in ( LOC ) ”描述的是歌手和演唱會(huì)舉辦地的聯(lián)系,但Freebase 中并不包含類似于 place_visited 或 hold_concerts_in 的謂詞,因此難以通過已有知識(shí)表示目標(biāo)關(guān)系的語義。?

4. 由于搜索空間的限制,部分有意義的模式圖無法在候選生成步驟被過濾。例如關(guān)系“ ( actor ) starring with ( actor ) ”,由于 Freebase 通過輔助節(jié)點(diǎn)( Mediator )維護(hù)多元關(guān)系,這使得最合適的骨架長度為4,并不滿足候選生成的骨架長度限制,因此模型無法得到這樣的模式圖。


4.3 本章小結(jié)?


本章的研究著眼于自然語言中的二元關(guān)系,根據(jù)關(guān)系已有的三元組實(shí)例,推理出其所具有的語義。第一部分的工作將關(guān)系模式定義為知識(shí)庫中的主賓語類型搭配,并利用知識(shí)庫的類型層次結(jié)構(gòu)實(shí)現(xiàn)模式推理。我們提出的方法基于一個(gè)直觀的思路,即盡可能使用具體的模式匹配更多的已知實(shí)例。在 ReVerb 上進(jìn)行的人工測評(píng)實(shí)驗(yàn)表明,此方法推理出的最具有代表性的模式具有較高的準(zhǔn)確度,效果優(yōu)于傳統(tǒng)的選擇偏好模型。?

第二部分的工作直接挖掘關(guān)系語義和結(jié)構(gòu)化知識(shí)之間的匹配。為了使語義理解具有良好的可解釋性,我們提出了基于模式圖的規(guī)則推導(dǎo)模型,模式圖是對(duì)傳統(tǒng)路徑規(guī)則的泛化,以 “路徑 + 分支” 的結(jié)構(gòu)描述具有更多限制的復(fù)雜語義。該模型將關(guān)系語義表示為多個(gè)模式圖的概率分布,以適應(yīng)關(guān)系的多義性。我們對(duì) PATTY 中的熱門關(guān)系進(jìn)行模式圖推理,多個(gè)具體例子表明,基于模式圖的結(jié)構(gòu)表示有能力描述更加細(xì)化的關(guān)系語義,而且質(zhì)量優(yōu)于其它已有的規(guī)則推導(dǎo)模型。此外,基于模式圖的語義表示還可用于知識(shí)庫補(bǔ)全任務(wù)中,在主賓語預(yù)測和三元組分類兩個(gè)子任務(wù)上,效果優(yōu)于其它規(guī)則推導(dǎo)及知識(shí)庫向量模型。?

后續(xù)的研究主要包括兩部分:數(shù)據(jù)預(yù)處理方面,關(guān)系三元組的實(shí)體鏈接需要優(yōu)化, 主語和賓語都可能存在不可鏈接實(shí)體,需要進(jìn)行識(shí)別從而過濾雜亂三元組;語義理解模型方面,本章的兩個(gè)工作均基于數(shù)據(jù)驅(qū)動(dòng),對(duì)于已知三元組較少的長尾關(guān)系,模型效果會(huì)明顯降低,如何利用關(guān)系本身的短語信息作為額外特征進(jìn)行推理,是值得研究的方向。?





參考文獻(xiàn):

(文中提及的部分參考文獻(xiàn)在01#02#)






了解更多信息請(qǐng)點(diǎn)擊知識(shí)工場網(wǎng)站主頁:http://kw.fudan.edu.cn/


合作意向、反饋建議請(qǐng)聯(lián)系:

info.knowledgeworks@gmail.com



OpenKG


開放知識(shí)圖譜(簡稱 OpenKG)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識(shí)圖譜和語義技術(shù)的普及和廣泛應(yīng)用。

點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 | 基于知识库的自然语言理解 03#的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

欧美国产日韩一区二区三区 | 精品成人网 | 久久免费av电影 | 97精品国产一二三产区 | av国产在线观看 | www毛片com| 在线国产黄色 | 99精品视频在线观看视频 | 黄色一级免费电影 | 九色视频网址 | 九九综合九九综合 | 亚洲国产精品500在线观看 | 亚洲天堂视频在线 | 亚洲区另类春色综合小说校园片 | 欧美另类交人妖 | 久久久国产精品网站 | 亚洲精品国产视频 | 亚洲黄色一级大片 | 中文字幕一区二区三区在线观看 | 日日摸日日添日日躁av | 国产在线美女 | 成人午夜网 | 免费日韩 精品中文字幕视频在线 | 亚洲国产精品免费 | 欧美色婷 | 久久国产网站 | 亚洲国产综合在线 | 国产亚洲成人网 | 91爱爱中文字幕 | 国产香蕉97碰碰碰视频在线观看 | www色| 久久经典国产视频 | 久久精品99久久久久久 | 亚洲欧美日韩精品久久奇米一区 | 夜夜操狠狠干 | 91精品欧美一区二区三区 | 国产不卡在线观看视频 | 欧美久草网 | 最新午夜电影 | 天天综合人人 | 国产天天综合 | 91精品国产高清 | 国产精品免费在线播放 | 丝袜一区在线 | 国产精品色视频 | 久久尤物电影视频在线观看 | 天天躁日日躁狠狠躁av麻豆 | 骄小bbw搡bbbb揉bbbb | 四虎影视精品成人 | 国产老太婆免费交性大片 | 一区二区三区精品在线 | 毛片3| 9999精品免费视频 | 国产在线观看h | 91免费高清视频 | 欧美日韩中文国产一区发布 | 97在线观看免费高清 | 中文字幕制服丝袜av久久 | 一级特黄aaa大片在线观看 | 六月天色婷婷 | 日韩av在线资源 | 黄色免费视频在线观看 | 日韩有码中文字幕在线 | 草久在线观看视频 | 成年人在线免费看视频 | 在线观看免费中文字幕 | 久久精品首页 | 久久久久久视频 | 狠狠色丁香婷婷综合橹88 | 久久久久久久综合色一本 | 9999激情| 婷婷色六月天 | 97在线观视频免费观看 | 一级片色播影院 | 在线观看免费av片 | 五月天亚洲综合 | 久久精品牌麻豆国产大山 | 精品在线小视频 | 久草在线观看视频免费 | 国产精品 美女 | 亚洲日本精品视频 | 探花视频免费观看高清视频 | 九九免费在线观看视频 | 波多野结衣一区三区 | 在线播放你懂 | 97人人模人人爽人人喊中文字 | 五月婷婷.com | 欧美色图亚洲图片 | 97视频久久久 | 国产精品乱码一区二区视频 | 久久99精品一区二区三区三区 | 久久视屏网 | 最新国产一区二区三区 | 久久五月激情 | 久久97超碰 | 久日视频 | 97国产人人 | 91精品色 | 一级片在线 | 亚洲少妇xxxx | 国产黄色一级大片 | 亚洲涩涩涩 | 日韩高清在线观看 | 欧美日韩在线免费观看 | 成人免费观看视频大全 | 91传媒免费在线观看 | 国产亚洲成人精品 | bbbb操bbbb | 91中文字幕在线观看 | 色综合久久久 | 国产日韩精品在线 | 国产精品成人免费一区久久羞羞 | 久99精品| 偷拍久久久 | 国产高清在线视频 | 久草在线免费在线观看 | 伊人亚洲综合 | 成人在线观看日韩 | 国产成人精品综合久久久久99 | 日韩专区一区二区 | 人人爽人人爽人人爽人人爽 | 视频在线一区 | 日韩精品免费在线 | 国产精品欧美久久久久三级 | 中文视频在线看 | 福利视频网址 | 中文字幕视频一区二区 | 国产麻豆精品免费视频 | 国产一级在线看 | 久久综合99| 天天搞天天干 | 日韩av福利在线 | 综合伊人av | 日韩免费高清在线 | 亚洲精品一区二区精华 | 永久免费精品视频 | 国产一区免费在线 | 91在线看免费 | 久久久久久久久久久久久久av | 免费观看www小视频的软件 | 在线天堂v | 欧美另类视频 | 中文永久字幕 | 五月婷综合 | 久久一区二区三区四区 | 黄色片软件网站 | 亚洲国产播放 | 就操操久久 | 27xxoo无遮挡动态视频 | 91精品婷婷国产综合久久蝌蚪 | 中文字幕在线观看网 | 亚洲五月激情 | 免费看一级黄色 | 日韩午夜高清 | 蜜臀久久99精品久久久无需会员 | 免费精品视频在线 | 亚洲一区美女视频在线观看免费 | 麻豆视频国产在线观看 | 亚洲涩涩涩| 免费欧美高清视频 | 激情五月婷婷 | 天天操夜操| 亚洲人成人在线 | 国产黄色精品在线 | 久久精品国产第一区二区三区 | 日本黄色免费看 | 欧美成人h版在线观看 | v片在线播放 | 日韩亚洲国产精品 | 中文字幕一区二区三区在线播放 | 亚洲成年人在线播放 | 又黄又爽又刺激的视频 | 视频成人永久免费视频 | 天天操网站 | 午夜视频色 | 在线视频一区观看 | 久久一区国产 | 亚洲精品免费在线观看视频 | 久久九精品 | 日韩欧美视频在线免费观看 | 狠狠色丁香婷婷综合视频 | 91视频在线看 | 一级黄色片网站 | 干狠狠 | 91插插插网站 | 国产手机在线播放 | 亚洲国产精品激情在线观看 | 久久黄色免费 | 涩涩色亚洲一区 | 日韩欧美在线第一页 | 日本一区二区不卡高清 | www.888.av | 91网页版免费观看 | 狠狠操狠狠插 | 免费在线色电影 | 成人av电影免费在线播放 | 久久精品美女 | 少妇精品久久久一区二区免费 | 欧美专区国产专区 | www.久久久.com | 最新中文字幕在线观看视频 | 黄色特级一级片 | 亚洲黄色成人 | 一区二区三区四区五区在线 | a在线一区 | 黄色h在线观看 | 成人aaa毛片 | 婷婷激情网站 | 亚洲综合在线观看视频 | 欧美另类巨大 | 欧美日韩亚洲第一页 | 高清av在线 | 久久最新| 亚洲手机天堂 | 在线a视频免费观看 | 日韩精品三区四区 | 国产一区二区三区高清播放 | 久久成人精品电影 | 999久久久久久久久 69av视频在线观看 | 久久久www | 日本成人黄色片 | 日韩丝袜 | 天堂av高清 | 欧美激情精品久久久久久变态 | 色欧美综合 | 国产精品综合久久久久久 | 亚洲人在线视频 | 免费在线国产视频 | 一区二区三区精品在线视频 | 免费又黄又爽的视频 | 不卡视频一区二区三区 | 天天干天天干天天 | 亚洲精品av中文字幕在线在线 | 欧美福利精品 | 人人涩 | 狠狠操电影网 | 国产精品四虎 | 欧美大码xxxx | 人人爽人人香蕉 | 日韩在线视 | 91超级碰碰 | 久久精品中文字幕一区二区三区 | 欧美日韩国内在线 | 日韩电影在线视频 | 国产精品一区二区美女视频免费看 | www99精品| 日本丶国产丶欧美色综合 | 色欧美视频 | 日韩理论影院 | 日韩中午字幕 | 精品国产一区二区三区久久久蜜臀 | 91片在线观看| 亚洲精品综合一二三区在线观看 | 日韩网站在线播放 | 久久久久国产一区二区三区 | 国产色视频网站 | 免费人做人爱www的视 | 午夜精品中文字幕 | 免费一级日韩欧美性大片 | 日本三级在线观看中文字 | www.久久久精品 | 97在线观看免费观看 | 国产视频18 | 狠狠色狠狠色综合日日小说 | 91久久爱热色涩涩 | 国产精品免费av | 免费视频a| 五月丁香| 色国产精品 | 一区二区三区四区在线免费观看 | 国产97视频 | 99久久国产免费看 | 99久久精品费精品 | 亚洲精选视频在线 | 亚洲涩涩色 | 99精品小视频 | 永久中文字幕 | 免费观看黄色av | 成人午夜电影在线观看 | 免费精品国产 | 亚洲人成人天堂h久久 | 国产精品一区二区av麻豆 | 在线观看中文字幕dvd播放 | 人人插人人射 | 精品视频在线看 | 午夜私人影院 | 日韩女同一区二区三区在线观看 | 婷婷亚洲激情 | 日韩在线观看视频在线 | 日韩电影中文字幕在线观看 | 18女毛片 | 日韩高清激情 | 婷婷久月| 中文字幕av有码 | 色综合久久精品 | 99视频精品视频高清免费 | 亚洲综合成人婷婷小说 | 久久久免费精品国产一区二区 | 麻豆免费视频观看 | 人人爽人人做 | 国产色视频一区 | 天天干天天色2020 | av成人动漫 | 精品欧美小视频在线观看 | 欧美另类v | 2022中文字幕在线观看 | 欧美日韩国产在线 | 日韩成人精品一区二区三区 | 国产精品女主播一区二区三区 | 二区三区在线视频 | 色噜噜在线观看视频 | 久久一久久| 五月天久久综合 | 国产在线999| 日本99精品 | 国产精品久久久久久麻豆一区 | 欧美综合国产 | 色在线免费观看 | 亚洲成av人片在线观看香蕉 | 中文字幕色在线 | 91在线免费播放视频 | 精品欧美一区二区精品久久 | 99久久精品国产观看 | 国产精品一区二区久久国产 | 日韩电影精品 | 麻豆国产露脸在线观看 | 国产玖玖在线 | 国模视频一区二区三区 | 五月综合激情婷婷 | 伊人av综合| 国产精品永久久久久久久久久 | 992tv在线观看网站 | 中午字幕在线观看 | 久久精品亚洲国产 | 成人免费看片98欧美 | 国产精品久久久久久久午夜 | 夜夜骑首页 | 久久tv视频 | 精品xxx| 天天插天天狠天天透 | 久久亚洲私人国产精品va | 91精品高清| 开心激情久久 | 国产成人av一区二区三区在线观看 | 国产高清在线免费观看 | 国产成人精品女人久久久 | 日韩av一卡二卡三卡 | 天天爽天天摸 | 欧美黑人xxxx猛性大交 | 欧美国产不卡 | 亚洲精品资源在线 | 中文字幕婷婷 | 99精品国产福利在线观看免费 | 国产探花视频在线播放 | 五月天久久激情 | 亚洲少妇天堂 | 999国产精品视频 | 久久免费毛片 | 93久久精品日日躁夜夜躁欧美 | 久久久国际精品 | 91精品麻豆| 色香蕉视频| 国产成人黄色在线 | 欧美福利视频一区 | av三级在线免费观看 | 中文字幕中文 | 日韩区视频 | 成人精品久久 | 亚洲精品videossex少妇 | 99久久精| 中文字幕高清在线 | 中文字幕丝袜制服 | 婷婷五天天在线视频 | 久久国产欧美日韩精品 | 久久国产一二区 | 天天草综合网 | 99热九九这里只有精品10 | 色视频在线免费观看 | 久久精品欧美一区二区三区麻豆 | 91九色视频在线 | 五月婷婷开心中文字幕 | 欧美性色综合网 | 天天搞天天干天天色 | 亚洲影院一区 | 18pao国产成视频永久免费 | 日韩在线色视频 | 丝袜美女在线观看 | 久久国产经典视频 | 少妇bbb| 成人a免费看 | 成人黄色在线观看视频 | 亚洲成熟女人毛片在线 | 日韩国产高清在线 | av在线播放一区二区三区 | 四虎伊人 | 久久久伦理| 2021av在线 | 久久er99热精品一区二区 | 久久99这里只有精品 | 一级特黄aaa大片在线观看 | 7777精品伊人久久久大香线蕉 | 91精品久久久久久久91蜜桃 | 天天色综合天天 | 精品久久久久久久久亚洲 | 精品久久久久一区二区国产 | 欧美一二三区播放 | 中文字幕观看视频 | 欧美一区二区在线 | 国产精品淫片 | 国产黄色网 | 婷婷激情欧美 | 久久这里只有精品9 | 亚洲色视频 | 国产一级高清 | 久久久久久久影视 | 黄色大片日本 | 久久免费的视频 | 91日韩国产| 欧美激情精品久久久久久免费印度 | 国产大陆亚洲精品国产 | 亚洲婷婷综合色高清在线 | 日韩高清二区 | 国产亚洲一级高清 | www.xxx.性狂虐 | 日韩欧美xxxx| 亚洲一区欧美激情 | 激情电影在线观看 | 色播六月天 | 综合激情婷婷 | 欧美在线一级片 | 69精品在线| 一本之道乱码区 | 九九综合在线 | 成 人 黄 色 视频免费播放 | 一区二区三区污 | 国产精品美女久久久久久久 | 99热最新精品 | 国产黄在线观看 | 亚洲欧美日韩国产 | 久久综合婷婷 | 91香蕉视频在线下载 | 亚洲精品一区二区久 | 麻豆国产网站 | 久久精品精品 | 成人国产电影在线观看 | 成人夜晚看av| 国产亚洲成av片在线观看 | 91麻豆精品国产91久久久久久 | 在线播放一区 | 人人干人人干人人干 | 国产亚洲精品久久久久久 | 蜜臀久久99精品久久久无需会员 | 色av色av色av| 亚洲乱码国产乱码精品天美传媒 | 亚洲精品乱码久久久久久蜜桃欧美 | 免费看的黄色片 | 亚洲japanese制服美女 | 欧美一级黄色视屏 | 午夜精品福利在线 | 婷婷午夜天 | 亚洲精品国产成人av在线 | 国产视频一区精品 | 久久国产电影院 | 在线日韩亚洲 | 婷婷国产v亚洲v欧美久久 | 中文字幕久久精品亚洲乱码 | 国产精品手机在线播放 | 91精品在线免费观看视频 | 亚洲色图av | 免费成视频 | 九九九九九国产 | 免费a级大片 | 国产99久久 | 五月婷丁香 | 成人黄色电影在线观看 | 99精品国产一区二区三区麻豆 | 在线视频日韩精品 | 国模一区二区三区四区 | 最新的av网站 | 色播激情五月 | 中文字幕亚洲精品日韩 | 国产一区在线看 | 狠狠色伊人亚洲综合网站色 | 在线欧美国产 | 成人小视频在线播放 | 美女网站免费福利视频 | 国产999精品视频 | 三级黄色在线观看 | 就要干b| 久久综合综合久久综合 | 色婷婷激情电影 | 日韩一区二区三区在线看 | 久久久久久久久久久精 | 欧美淫视频 | 日本在线观看一区二区 | 国产精品久久久久久久久久久久午夜 | 一区二区精品国产 | 亚洲人成人天堂h久久 | 91免费的视频在线播放 | 久久久久久久国产精品 | 午夜精品久久久久久久久久 | 五月婷婷综合在线观看 | 国产精品免费观看国产网曝瓜 | 久久在线免费视频 | 日韩中文字幕电影 | 国产一区二区观看 | 国产视频精品免费播放 | 久久综合中文字幕 | 国产精品久久久久永久免费观看 | 亚洲精品免费在线视频 | 日韩aⅴ视频 | 免费观看特级毛片 | 国产二区免费视频 | 欧美性高跟鞋xxxxhd | 奇米影视四色8888 | av免费网站观看 | 国产99久久久精品 | 国产黄视频在线观看 | 就要色综合 | 人人爽人人爽人人片av | 国产99久久99热这里精品5 | 国产成人av一区二区三区在线观看 | 欧美一级免费在线 | 国产精品99久久久久人中文网介绍 | 国产精品久久久久久久久久久久午夜 | 中文字幕在线观看一区 | 欧美在线不卡一区 | 欧美精品久久久久久久久老牛影院 | 国产黄色资源 | 精品一区二区免费 | 在线中文字幕电影 | 最新日本中文字幕 | 毛片一二区 | 在线精品视频免费播放 | 免费久久久久久 | 久久久午夜电影 | 精品1区2区3区 | 日韩a免费 | 亚洲精品一区二区18漫画 | 久久久99精品免费观看 | 国产99久久 | 国产亚洲成av人片在线观看桃 | 日韩欧美v | 免费黄色在线网站 | 国产 一区二区三区 在线 | 中文在线免费观看 | 国产精华国产精品 | 亚洲高清在线 | 国产破处视频在线播放 | 久久午夜剧场 | 99久久精品国产一区二区成人 | 国产中文视频 | 国产蜜臀av| 久产久精国产品 | 黄色免费观看视频 | 91av在| 五月天综合激情网 | av电影久久| 国产一二区免费视频 | 99久久综合国产精品二区 | 日韩精品你懂的 | 亚洲国产精品va在线 | 综合激情av | 亚洲精品高清一区二区三区四区 | 成片视频免费观看 | 99久热在线精品视频成人一区 | 97超碰国产精品女人人人爽 | 国产尤物在线观看 | www狠狠| 国产美女免费视频 | 99热精品国产一区二区在线观看 | 久草免费福利在线观看 | a在线一区| 欧美日韩首页 | 国产精品久久久久久久av大片 | 免费看黄色大全 | 成人aaa毛片 | 免费在线观看a v | 又黄又爽又刺激的视频 | 久久天天躁狠狠躁亚洲综合公司 | 五月婷婷久草 | 欧美性春潮 | 日韩欧美xx | 色天天综合久久久久综合片 | 天堂视频中文在线 | 久久视频 | 成人中文字幕在线 | 国产精品黑丝在线观看 | 免费色黄 | 免费a级大片 | 好看的国产精品视频 | 亚洲成人午夜在线 | 久久久久久久av麻豆果冻 | 在线观看视频你懂 | 日韩久久精品一区 | 中文字幕免费国产精品 | 成人久久18免费网站图片 | 色综合久久久久网 | 国产+日韩欧美 | 国产亚洲成av片在线观看 | 国产看片 色 | 精品亚洲免费视频 | 黄色性av | 天天草视频| 日韩v欧美v日本v亚洲v国产v | 国产精华国产精品 | 成人av高清 | 91免费观看国产 | 精品中文字幕在线 | 黄色在线小网站 | 日韩一区二区三区观看 | 在线观看一区 | 激情久久五月天 | 天天色天天爱天天射综合 | 91免费看片黄 | 日韩电影一区二区三区在线观看 | 97精品久久人人爽人人爽 | 日韩精品影视 | 黄色网www| 中文字幕日本特黄aa毛片 | 天天草网站 | 免费三及片 | 国产一区在线视频播放 | 天堂成人在线 | 不卡的av在线播放 | 超碰在线观看99 | av电影一区二区三区 | 中文字幕在线人 | 国产亚洲欧美在线视频 | 999久久| 伊人国产在线播放 | 91中文字幕视频 | 日三级在线 | 人人爱人人做人人爽 | 99精品免费在线观看 | 人人添人人澡人人澡人人人爽 | 日韩在线视频免费观看 | 久久xx视频 | 欧美极品少妇xxxxⅹ欧美极品少妇xxxx亚洲精品 | 99久久精品久久久久久清纯 | 97精品国自产拍在线观看 | 99精品在线播放 | 超碰人人av | 91亚洲激情 | 91亚洲精品久久久蜜桃借种 | 国产美女精品 | 中文字幕av全部资源www中文字幕在线观看 | 亚洲精品久久激情国产片 | 免费看特级毛片 | 亚洲精品美女在线观看 | 少妇性bbb搡bbb爽爽爽欧美 | 欧美亚洲成人免费 | 最近日韩中文字幕中文 | 国产成人av一区二区三区在线观看 | 一级片视频免费观看 | 国产一级二级在线播放 | 精品久久久久免费极品大片 | 在线视频观看亚洲 | 国产精品 欧美 日韩 | 国产精品国产三级在线专区 | 蜜桃视频精品 | 精品国产1区2区 | 婷婷久久丁香 | 国产九九热视频 | 久久久影院一区二区三区 | 国产一区二区三区免费在线 | 天堂黄色片| 成人免费视频a | 国产欧美精品一区aⅴ影院 99视频国产精品免费观看 | 久久国产网 | 婷婷丁香激情综合 | 热久精品 | 国产成人精品一区二区三区福利 | 99久e精品热线免费 99国产精品久久久久久久久久 | 日韩免费在线视频观看 | 午夜久久精品 | 日韩免费成人 | 91国内产香蕉 | 久久精品伊人 | 一区在线电影 | 日韩视频在线观看免费 | 最近最新最好看中文视频 | 国产精品短视频 | 在线不卡中文字幕播放 | 国产91九色蝌蚪 | 中文字幕中文字幕 | 丁香视频在线观看 | 四虎国产免费 | 超碰伊人网 | 91精品成人 | 国产精品九色 | 黄色毛片视频 | 免费亚洲黄色 | 久草免费在线视频 | 国产精品99久久久久久人免费 | 免费日韩一级片 | 五月天国产精品 | 天天色综合1 | 天天干天天射天天插 | 国产成人精品久久二区二区 | 日韩美女久久 | 狠狠干成人综合网 | 国产一区二区三区高清播放 | 中文字幕亚洲综合久久五月天色无吗'' | 欧美另类亚洲 | 日韩久久精品 | 成人久久久久 | 国产色爽 | 久久久久亚洲国产精品 | 天天操天天添天天吹 | 999国内精品永久免费视频 | 亚洲视频久久久久 | 人人澡超碰碰 | 国产国产人免费人成免费视频 | 91亚洲狠狠婷婷综合久久久 | av动图| 日韩欧美国产精品 | 日韩网站在线播放 | 超碰在线资源 | 免费高清男女打扑克视频 | 丁香六月婷婷开心 | 亚洲午夜精品一区 | www.99av| 五月天精品视频 | 国产99自拍 | 人人舔人人插 | 国产资源在线观看 | 国产亚洲精品久久久网站好莱 | 天天综合久久综合 | 天天草天天干天天射 | 在线观看日韩精品 | 五月婷在线观看 | 久久福利精品 | 国产一级二级av | 一区二区av | 欧美一区二区在线看 | 亚洲精品国产精品国自产观看浪潮 | 成人av资源站 | 黄色av成人在线 | 久久久久综合视频 | 亚洲欧洲精品一区二区 | 91精品第一页 | 国产高清第一页 | 中文字幕免费一区二区 | 国产原创在线 | 91理论片午午伦夜理片久久 | 欧美午夜久久久 | 九色精品免费永久在线 | 中文字幕亚洲综合久久五月天色无吗'' | 国产91aaa | 韩国av电影网 | 国内久久精品 | 日韩专区av | 欧美另类69| 中文字幕av全部资源www中文字幕在线观看 | 91麻豆精品国产自产在线 | 国产黄色片免费 | 天天操天天爱天天干 | 国产特级毛片aaaaaa | 91免费看黄 | 成人av在线看 | 亚洲精品毛片一级91精品 | 午夜在线观看一区 | 97精品国自产拍在线观看 | 黄色影院在线免费观看 | 美女在线观看av | 国产精品18久久久久久不卡孕妇 | 精品国产电影一区二区 | 狠狠撸电影 | 日韩精品免费在线视频 | 在线导航福利 | 久久久麻豆视频 | 在线中文视频 | 成人国产精品久久久久久亚洲 | 美女亚洲精品 | 久久综合久色欧美综合狠狠 | 久久影院午夜论 | 亚洲成人黄色 | 婷婷综合网 | 国产aaa免费视频 | 国产成人精品一二三区 | 最新av在线免费观看 | 一区在线电影 | 国产录像在线观看 | 亚洲特级毛片 | 91av在线不卡 | av一区二区三区在线 | 国产精品久久久久久一二三四五 | 中文字幕在线看 | 免费a级黄色毛片 | 日韩免费视频网站 | 精品一区二三区 | 婷婷精品在线 | 国产精品18久久久久vr手机版特色 | 超碰激情在线 | 日韩有码在线播放 | 4438全国亚洲精品观看视频 | 成人蜜桃视频 | 亚洲视频 中文字幕 | 在线观看视频你懂的 | 免费看wwwwwwwwwww的视频 久久久久久99精品 91中文字幕视频 | 日韩免费在线观看视频 | 亚洲日本色 | 99精品在线免费观看 | 亚洲精品自拍 | 91精品国产91p65 | 欧美精品三级在线观看 | 日韩精品第一区 | 成人黄色在线观看视频 | 在线97 | 在线成人欧美 | 97视频在线观看视频免费视频 | 骄小bbw搡bbbb揉bbbb | 日韩av成人 | 四虎影视成人永久免费观看亚洲欧美 | 欧美午夜寂寞影院 | 国产91精品一区二区绿帽 | 国内精品在线一区 | 五月天综合激情 | 激情网站免费观看 | 日韩高清在线观看 | 亚洲成人午夜av | 91精品国产自产在线观看永久 | 伊人国产在线播放 | 天海翼一区二区三区免费 | 99视频精品全部免费 在线 | 久久午夜网 | 亚洲三级在线 | 天天躁天天狠天天透 | 久草精品视频 | 亚洲va综合va国产va中文 | 久久久国产一区二区三区 | www.福利视频 | 美女在线免费观看视频 | 波多野结衣日韩 | 欧美日韩国产精品久久 | 久久精品国产99 | 国内精品久久久精品电影院 | 1区2区视频| 久草a在线| 久久免费视频在线观看 | 亚洲综合导航 | 精品你懂的 | 久久国产免费看 | 国产精品欧美久久久久无广告 | 久草综合在线观看 | 91色影院| 亚洲一区二区黄色 | 国产精品 9999 | 欧美精品在线观看一区 | 中文字幕在线观 | 亚洲免费视频在线观看 | 在线国产一区二区 | 欧美激情第一页xxx 午夜性福利 | 日韩精品视频久久 | 国产精品成人免费一区久久羞羞 | 亚洲激精日韩激精欧美精品 | 99久久久久成人国产免费 | 一区二区三区在线免费观看视频 | 正在播放亚洲精品 | 亚洲va欧美 | 日韩精品欧美视频 | 国产三级午夜理伦三级 | 国产精品九九久久99视频 | 亚洲黄色免费电影 | 四虎成人精品永久免费av | 色偷偷网站视频 | 亚州视频在线 | 成年人视频在线免费播放 | 久久91久久久久麻豆精品 | 超碰97中文 | 99免在线观看免费视频高清 | 色综合激情久久 | 日韩在线免费视频观看 | 国产免费视频在线 | 免费看片成人 | 国产无套一区二区三区久久 | 麻豆视频免费入口 | 国产.精品.日韩.另类.中文.在线.播放 | 亚洲精品字幕 | 亚洲综合精品视频 | 四虎成人免费观看 | 国产成人av一区二区三区在线观看 | 国产二级视频 | 国产精品久久久影视 | 久久天天躁狠狠躁夜夜不卡公司 | av官网 | 伊人干综合 | 国产在线更新 | 久久视频精品在线观看 | 精产嫩模国品一二三区 | 国产亚洲精品成人 | 亚洲最新视频在线播放 | 成人黄色片免费 | 日韩电影在线视频 | 丁香五婷| 免费h视频 | 在线免费观看不卡av | 国产精品免费麻豆入口 | 操久久免费视频 | 91精品久久久久久 | 丁香色婷 | 久久久国产在线视频 | 天天色天天综合网 | 久久久精品国产免费观看一区二区 | 欧洲视频一区 | 中文字幕在线网址 | 在线观看中文字幕2021 | 美女视频黄是免费的 | 成 人 a v天堂 | 在线免费黄网站 | 操久| 国产一区二区午夜 | 午夜精品av | 国产 一区二区三区 在线 | 在线视频观看国产 | 黄污视频网站大全 | 欧美另类巨大 | 日韩91精品 | 国产偷在线 | 操操综合网 | 婷婷久操| 一级黄色片在线 | a级国产片 | 99久久精品视频免费 | 黄色特级一级片 | 色婷婷激情四射 | 久久久久亚洲国产精品 | 在线播放 日韩专区 | www.人人干 | 香蕉视频网站在线观看 | 外国av网| 日韩视频在线不卡 | 国产高清99 | 欧美日本在线视频 | avav片| 午夜精品久久久99热福利 | 69国产精品成人在线播放 | 日本h在线播放 | 日韩av有码在线 | 狠狠狠色丁香婷婷综合久久五月 | 国产精品视频免费观看 | 九九热在线免费观看 | 天天干,天天操 | 亚洲涩涩涩涩涩涩 | 亚洲国产精品免费 | 九九九九九国产 | 日韩视频一 | 五月天天色 | 免费黄色一区 | 天天操天天射天天爱 | 免费在线观看黄网站 | 97国产精品亚洲精品 | 在线免费av网 | 性色av一区二区三区在线观看 | 亚洲精品久久久蜜桃 | 91av视频免费在线观看 | 日日干网| 91视频a | 国产a高清 | 黄色小网站免费看 | 亚洲 欧美 变态 国产 另类 | 久久久免费看视频 | 久久刺激视频 | 在线看一区二区 | 一区二区视频网站 | 亚洲韩国一区二区三区 | 中文字幕在线观看资源 | 高清不卡毛片 | 亚洲精品综合欧美二区变态 | 亚洲午夜在线视频 | 国产精品毛片久久久久久 | 亚洲欧美视频在线观看 | 九色91在线 | av电影免费看 | 91片黄在线观看 | 国产精品久久久久四虎 | 久久a免费视频 | 97国产精品 | 国产 色 | 91一区啪爱嗯打偷拍欧美 | 国产精品不卡在线观看 | 伊人国产视频 | 中文字幕免费一区二区 | 国产91国语对白在线 | 日韩精品一区二区三区电影 | 亚洲精品久久久蜜桃 | 国产精品18久久久久久首页狼 | 国产精品久久久免费 | 亚洲国产精品女人久久久 | 日韩一区二区三区高清在线观看 | 黄色a视频免费 | 欧美精品国产综合久久 | 国产精品久久在线观看 | 深夜免费福利 | 亚洲成a人片在线观看中文 中文字幕在线视频第一页 狠狠色丁香婷婷综合 | 免费三级网 | 国产中年夫妇高潮精品视频 |