日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

达摩院文档级关系抽取新SOTA和零样本关系抽取新任务

發(fā)布時(shí)間:2024/10/8 编程问答 81 豆豆
生活随笔 收集整理的這篇文章主要介紹了 达摩院文档级关系抽取新SOTA和零样本关系抽取新任务 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?作者 |?邴立東、譚清宇、謝耀賡

單位 | Alibaba DAMO, NUS, SUTD

引言

關(guān)系抽取(RE)是 NLP 的核心任務(wù)之一,是構(gòu)建知識(shí)庫(kù)、事件抽取等下游應(yīng)用的關(guān)鍵技術(shù)。多年來(lái)受到研究者的持續(xù)關(guān)注。本文將介紹達(dá)摩院語(yǔ)言實(shí)驗(yàn)室多語(yǔ)言算法團(tuán)隊(duì)的兩篇 ACL Findings 2022 論文。

第一篇論文聚焦于文檔級(jí)關(guān)系抽取,我們的模型在 DocRED 排行榜上將 SOTA F1 值提高了 1.36,Ign_F1 值提高了 1.46。第二篇論文提出了零樣本句子級(jí)關(guān)系抽取的新任務(wù),旨在解決現(xiàn)有的任務(wù)設(shè)定不能泛化到陌生關(guān)系上的問(wèn)題。具體地,我們提出了 RelationPrompt 方法來(lái)為陌生關(guān)系生成訓(xùn)練樣本,進(jìn)而訓(xùn)練抽取器。RelationPrompt 還可以作用于零樣本關(guān)系分類(lèi)任務(wù),取得了平均優(yōu)于基線算法 10 個(gè)點(diǎn)的 F1。

基于自適應(yīng)Focal Loss和知識(shí)蒸餾的文檔級(jí)關(guān)系抽取


本小節(jié)工作來(lái)自論文:Document-Level Relation Extraction with Adaptive Focal Loss and Knowledge Distillation, in ACL Findings 2022.

論文鏈接:

https://arxiv.org/abs/2203.10900

數(shù)據(jù)代碼:

https://github.com/tonytan48/KD-DocRE

1.1 背景介紹

關(guān)系抽取,Relation Extraction from Text,簡(jiǎn)稱(chēng) IE,是從自然語(yǔ)言文本中,抽取出實(shí)體之間的關(guān)系。傳統(tǒng)的關(guān)系抽取方法主要是抽取單個(gè)句子間兩個(gè)實(shí)體的關(guān)系,這一任務(wù)被稱(chēng)為句子級(jí)別關(guān)系抽取。然而,在真實(shí)的應(yīng)用場(chǎng)景中,大量的實(shí)體關(guān)系是由多個(gè)句子聯(lián)合表達(dá)的,因此,文檔級(jí)別的關(guān)系抽取相對(duì)于句子級(jí)別更加具有應(yīng)用價(jià)值 [1]。

具體的任務(wù)定義為:給定一個(gè)文檔 D,其中的實(shí)體數(shù)目為 N,模型需要預(yù)測(cè)所有實(shí)體對(duì)之間的關(guān)系,總共需要做 N(N-1)個(gè)實(shí)體對(duì)的關(guān)系分類(lèi)。

目前,文檔級(jí)別的關(guān)系抽取依然面臨四個(gè)方面的挑戰(zhàn):

第一,大部分文檔級(jí)別的實(shí)體關(guān)系橫跨多個(gè)句子,關(guān)系抽取模型需要捕捉更長(zhǎng)的上下文信息。

第二,同一文檔中包含大量實(shí)體,文檔級(jí)別關(guān)系抽取需要同時(shí)抽取所有實(shí)體間的關(guān)系,其復(fù)雜度與文檔中的實(shí)體數(shù)成平方關(guān)系,分類(lèi)過(guò)程中存在大量的負(fù)樣本。

第三,文檔級(jí)別關(guān)系抽取的樣本類(lèi)別屬于長(zhǎng)尾分布,以清華大學(xué)發(fā)布的 DocRED 數(shù)據(jù)集為例,頻率前十的關(guān)系占到了所有關(guān)系的 60%,而剩下的 86 種關(guān)系只占全部關(guān)系三元組的 40%。

第四,由于文檔級(jí)別的數(shù)據(jù)標(biāo)注任務(wù)較難,現(xiàn)有的數(shù)據(jù)集中人工標(biāo)注的訓(xùn)練數(shù)據(jù)十分有限。大量的訓(xùn)練數(shù)據(jù)為遠(yuǎn)程監(jiān)督 [2] 的訓(xùn)練數(shù)據(jù),而遠(yuǎn)程監(jiān)督的數(shù)據(jù)中存在大量的噪音,限制模型的訓(xùn)練。

1.2 模型介紹

鑒于以上的挑戰(zhàn),我們提出了一個(gè)基于知識(shí)蒸餾的半監(jiān)督學(xué)習(xí)框架,和一個(gè)新的關(guān)系抽取的模型。

▲ 圖1.1 模型概況

如上圖所示,在前人工作 ATLOP 模型 [3] 的基礎(chǔ)上,我們提出的模型主要提供了三個(gè)新的模塊,第一,我們利用軸向注意力機(jī)制 [4] 來(lái)提取實(shí)體對(duì)表示之間的相互關(guān)系,如上圖所示,圖中的紅色部分代表實(shí)體對(duì)(e3,e6)的相關(guān)區(qū)域,例如假設(shè) e3 為杭州,e6 為亞洲,而中間實(shí)體 e8 為中國(guó),那么(e3 杭州, e6 亞洲, 大洲)這一關(guān)系可以通過(guò)(e3 杭州, e8 中國(guó),國(guó)家)這一三元組和(e8 中國(guó),e6 亞洲,大洲)這一三元組聯(lián)合推理得到。

第二,為了緩解關(guān)系抽取數(shù)據(jù)中的樣本不平衡的問(wèn)題,受 Focal Loss [5] 啟發(fā),我們提出使用 Adaptive Focal Loss 來(lái)提高模型在長(zhǎng)尾關(guān)系上的表現(xiàn),具體形式為縮放高頻關(guān)系的概率輸出以及放大一些低頻關(guān)系的概率輸出,詳細(xì)的方法在文章的章節(jié) 2.2.2 中。

第三,我們?cè)谟?xùn)練過(guò)程中利用知識(shí)蒸餾的機(jī)制來(lái)過(guò)濾遠(yuǎn)程監(jiān)督數(shù)據(jù)中的噪音。DocRED 數(shù)據(jù)集中包含大量的遠(yuǎn)程監(jiān)督的數(shù)據(jù),傳統(tǒng)的方法僅采用遠(yuǎn)程監(jiān)督數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,而忽略了遠(yuǎn)程監(jiān)督數(shù)據(jù)中的噪音,我們將這一基準(zhǔn)方法記為 Na?ve Adaptation(NA),作為對(duì)比我們將知識(shí)蒸餾 [6] 的方法記為 KD,我們首先利用 DocRED 的少量人工標(biāo)注訓(xùn)練數(shù)據(jù)訓(xùn)練一個(gè)老師模型,再利用這個(gè)老師模型,對(duì)于所有的遠(yuǎn)程監(jiān)督數(shù)據(jù)進(jìn)行預(yù)測(cè),其輸出的概率分布會(huì)被作為軟標(biāo)簽。

接下來(lái)我們會(huì)基于這些軟標(biāo)簽,和遠(yuǎn)程監(jiān)督數(shù)據(jù)中帶有噪音的標(biāo)簽訓(xùn)練一個(gè)結(jié)構(gòu)相同學(xué)生模型,學(xué)生模型的訓(xùn)練過(guò)程中有兩個(gè)損失函數(shù),第一個(gè)就是之前提到的 Adaptive Focal Loss,用來(lái)學(xué)習(xí)遠(yuǎn)程監(jiān)督數(shù)據(jù)中的標(biāo)簽。第二個(gè)就是基于老師模型輸出的軟標(biāo)簽計(jì)算的均方誤差(MSE),這一損失函數(shù)可以盡可能讓學(xué)生模型的輸出更接近于老師模型,這兩個(gè)損失函數(shù)將會(huì)被相加并共同訓(xùn)練。最后,所訓(xùn)練得到的學(xué)生模型會(huì)進(jìn)一步在人工標(biāo)注的數(shù)據(jù)中進(jìn)行微調(diào),得到我們的最終模型。

1.3 實(shí)驗(yàn)分析

▲ 表1.1 DocRED以及HacRED數(shù)據(jù)統(tǒng)計(jì)

為了驗(yàn)證我們模型的有效性,我們?cè)?DocRED [1] 數(shù)據(jù)集以及 HacRED [7] 數(shù)據(jù)集(表1.1)上進(jìn)行了實(shí)驗(yàn)。

▲?表1.2 DocRED實(shí)驗(yàn)結(jié)果

我們的實(shí)驗(yàn)結(jié)果如上表所示,其中我們的模型記為 Ours-B-b 和 Rb-l 分別指的是 Bert-base 和 Roberta-large 語(yǔ)言模型。我們的模型相對(duì)于之前的基線模型均取得了顯著的提升,并且在 DocRED 排行榜上,我們的 KD-Roberta 模型相對(duì)于之前的 SOTA-SSAN-NA [8] 提高了 1.36 F1 以及 1.46 Ign_F1。?

▲?表1.3 DocRED開(kāi)發(fā)集消融實(shí)驗(yàn)

在 DocRED 數(shù)據(jù)集上,我們針對(duì)高頻關(guān)系(前十種關(guān)系)以及長(zhǎng)尾關(guān)系(剩余 86 種關(guān)系)進(jìn)行了消融實(shí)驗(yàn),從上表(表1.3)可以看到,我們的 AFL 和軸向注意力模塊都能有效提高模型在長(zhǎng)尾關(guān)系上的表現(xiàn)。

▲ 表1.4 HacRED實(shí)驗(yàn)

我們同樣在 HacRED 數(shù)據(jù)集上做了對(duì)比實(shí)驗(yàn)(表1.4),但由于 HacRED 尚未公布測(cè)試集,我們只匯報(bào)了相同場(chǎng)景下開(kāi)發(fā)集的結(jié)果。

1.4 錯(cuò)誤分析

▲?表1.5 錯(cuò)誤分析?

▲ 圖1.2 例子分析

我們對(duì)目前最好的模型進(jìn)行了詳實(shí)的錯(cuò)誤分析,我們首先根據(jù)實(shí)體對(duì)將預(yù)測(cè)出來(lái)的三元組與標(biāo)注中的三元組進(jìn)行了比對(duì),其中實(shí)體對(duì)與關(guān)系同時(shí)預(yù)測(cè)正確,記為Correct(C),如果實(shí)體對(duì)預(yù)測(cè)正確,而預(yù)測(cè)出來(lái)的關(guān)系是錯(cuò)誤的,記為 Wrong (W)。如果測(cè)試集中標(biāo)注的關(guān)系預(yù)測(cè)為‘No Relation’,我們將其視作未預(yù)測(cè)出的三元組,記為 Missed(MS)。最后我們將模型預(yù)測(cè)出有關(guān)系,但測(cè)試集中未標(biāo)注的三元組記為 More(MR)。

這一些錯(cuò)誤的統(tǒng)計(jì)結(jié)果在表 1.5 中有所體現(xiàn),我們可以看到預(yù)測(cè)錯(cuò)誤(W)的占比相對(duì)于 MS 和 MR 較小。而 MS 和 MR 的比例相當(dāng),根據(jù)我們進(jìn)一步的分析,我們發(fā)現(xiàn) MR 的三元組中,存在一定數(shù)量的正確三元組,如圖 1.2 所示,該文章描述了一名挪威的政客,在標(biāo)注數(shù)據(jù)中,Hol 是挪威的一個(gè)城市,而文中出現(xiàn)的 Vestv?g?y 同樣也是挪威的一個(gè)城市,在同一標(biāo)準(zhǔn)下,Vestv?g?y 理應(yīng)同樣被標(biāo)注。這一發(fā)現(xiàn)反映了 DocRED 數(shù)據(jù)中可能存在漏標(biāo)的現(xiàn)象,這一發(fā)現(xiàn)可以為未來(lái)文檔級(jí)別的關(guān)系抽取提供一定的思路和啟發(fā)。

1.5 總結(jié)

綜上所述, 我們提出了一個(gè)基于知識(shí)蒸餾的半監(jiān)督學(xué)習(xí)框架,并且基于軸向注意力和自適應(yīng)聚焦函數(shù)提出了一個(gè)新的文檔級(jí)別關(guān)系抽取的模型,并且在 DocRED 排行榜顯著超過(guò)了 SOTA 的表現(xiàn)。

RelationPrompt:通過(guò)提示語(yǔ)言模型的數(shù)據(jù)生成來(lái)解決零樣本關(guān)系三元組抽取任務(wù)

本小節(jié)工作來(lái)自論文:RelationPrompt: Leveraging Prompts to Generate Synthetic Data for Zero-Shot Relation Triplet Extraction, in ACL Findings 2022.

論文鏈接:

https://arxiv.org/abs/2203.09101

數(shù)據(jù)代碼:

http://github.com/declare-lab/RelationPrompt

2.1 問(wèn)題提出

關(guān)系三元組是知識(shí)庫(kù) [9] 的基本組成部分,能應(yīng)用于搜索、社交網(wǎng)絡(luò)、事實(shí)核查等等。然而,具體地說(shuō),現(xiàn)有的模型只能針對(duì)訓(xùn)練時(shí)候見(jiàn)過(guò)的關(guān)系類(lèi)別執(zhí)行三元組抽取(Relation Triplet Extraction)。因此,我們首次提出零樣本關(guān)系三元組抽取任務(wù)(Zero-Shot Relation Triplet Extraction)(ZeroRTE)。

比如這個(gè)句子“Their grandson was Group Captain Nicolas Tindal.” 包含了 “Military Rank”的關(guān)系,但是訓(xùn)練數(shù)據(jù)沒(méi)有見(jiàn)過(guò)這類(lèi)關(guān)系類(lèi)別的樣本。ZeroRTE 的目標(biāo)就是在這個(gè)零樣本的情況下仍然能夠抽取三元組(Nicolas Tindal,Military Rank, Group Captain)。

為了執(zhí)行 ZeroRTE,我們提出了RelationPrompt 方式,為沒(méi)有見(jiàn)過(guò)的關(guān)系類(lèi)別生成偽訓(xùn)練數(shù)據(jù)(Pseudo-training data)。RelationPrompt 能夠利用初次見(jiàn)到的關(guān)系名作為語(yǔ)言模型的提示(Prompt),生成該關(guān)系的結(jié)構(gòu)化句子樣本。這類(lèi)樣本的結(jié)構(gòu)信息標(biāo)明了句子中三元組的頭部實(shí)體(Head Entity)和尾部實(shí)體(Tail Entity),進(jìn)而可以作為抽取模型的訓(xùn)練數(shù)據(jù)。

▲ 表2.1 任務(wù)對(duì)比

2.2 相關(guān)方法的局限

表 2.1 可以顯示 ZeroRTE 在兩個(gè)主要方面比現(xiàn)存的任務(wù)更有挑戰(zhàn)性。與傳統(tǒng)監(jiān)督的關(guān)系三元組抽取(Relation Triplet Extraction)任務(wù)相比,ZeroRTE 需要模型泛化到訓(xùn)練中從沒(méi)遇過(guò)的關(guān)系類(lèi)別。與零樣本關(guān)系分類(lèi)的任務(wù)(Zero-Shot Relation Classification)(ZeroRC)[10] 相比,ZeroRTE 需要模型在不假設(shè)給出實(shí)體對(duì)的情況下抽取完整的關(guān)系三元組。因此,ZeroRTE 比 ZeroRC 在實(shí)際應(yīng)用中更現(xiàn)實(shí)。目前的幾種方法可以解決低資源學(xué)習(xí)問(wèn)題。

遠(yuǎn)程監(jiān)督(Distant Supervision)[11] 可用知識(shí)庫(kù)構(gòu)建大規(guī)模的關(guān)系數(shù)據(jù)集,但比人類(lèi)的標(biāo)注質(zhì)量低,并且僅限于固定關(guān)系類(lèi)別。另一種方法是設(shè)計(jì)不受約束的預(yù)測(cè)類(lèi)別空間來(lái)制定任務(wù)目標(biāo)?[12],例如句子相似度匹配。然而,現(xiàn)存的方式只對(duì)句子分類(lèi)任務(wù)有效,不能直接執(zhí)行三元組抽取任務(wù)。第三方向是利用帶有提示(Prompt)的語(yǔ)言模型 [13],能讓模型在低資源情況下泛化到新任務(wù)。然而,提示的方法目前僅限于比較簡(jiǎn)單的預(yù)測(cè)目標(biāo),比如句子分類(lèi)或詞組抽取。

2.3 任務(wù)定義

ZeroRTE 任務(wù)的目標(biāo)是從訓(xùn)練數(shù)據(jù)集 中學(xué)習(xí),并泛化到測(cè)試數(shù)據(jù)集 。 和 是從定義為 的原本數(shù)據(jù)集中劃分的,其中 表示輸入句子, 表示輸出三元組, 表示數(shù)據(jù)中存在的一組關(guān)系類(lèi)別。 和 數(shù)據(jù)集的關(guān)系類(lèi)別組是預(yù)定義的,分別表示為 和 ,而且是不相交的 。每一個(gè)數(shù)據(jù)樣本包含了輸入句子 ,同時(shí)也包含一個(gè)或以上的三元組。每個(gè)三元組定義為(,,y),其中 表示頭部實(shí)體, 表示尾部實(shí)體,y 表示關(guān)系類(lèi)別。

以上的算法描述了 RelationPrompt 執(zhí)行 ZeroRTE 任務(wù)的整體訓(xùn)練和預(yù)測(cè)過(guò)程。由于現(xiàn)存的抽取模型不能泛化到新的關(guān)系類(lèi)別,我們先需要訓(xùn)練一個(gè)關(guān)系生成模型 ,針對(duì)測(cè)試集的關(guān)系類(lèi)別生成偽訓(xùn)練數(shù)據(jù) ,接著用偽訓(xùn)練數(shù)據(jù) 訓(xùn)練一個(gè)關(guān)系抽取模型 來(lái)執(zhí)行 ZeroRTE。

具體地說(shuō),我們先用訓(xùn)練數(shù)據(jù) 來(lái)訓(xùn)練關(guān)系生成模型 和關(guān)系抽取模型 (1,2),接著以測(cè)試集的關(guān)系類(lèi)別當(dāng)作語(yǔ)言模型的提示來(lái)生成偽訓(xùn)練數(shù)據(jù) (3)。接著,我們使用之前生成的偽訓(xùn)練數(shù)據(jù) 再次訓(xùn)練關(guān)系抽取模型 (4)。最后,我們讓關(guān)系抽取模型 對(duì)測(cè)試數(shù)據(jù)的句子預(yù)測(cè)出關(guān)系三元組(5,6)。

▲ 圖2.1 結(jié)構(gòu)化文本格式

2.4 我們的模型

語(yǔ)言模型能夠通過(guò)大規(guī)模的預(yù)訓(xùn)練,泛化到地資源的情況。因此,我們使用語(yǔ)言模型生成偽訓(xùn)練數(shù)據(jù),以關(guān)系名稱(chēng)的提示作為生成的條件。不過(guò),現(xiàn)存的提示方式不能支持生成三元組的信息。另一方面,結(jié)構(gòu)化文本方式(Structured Text)[14] 可以使用自然文本中的特殊標(biāo)記,對(duì)實(shí)體和關(guān)系的結(jié)構(gòu)信息進(jìn)行編碼。因此,我們的工作統(tǒng)一了提示語(yǔ)言模型和結(jié)構(gòu)化文本的方法,能通過(guò)語(yǔ)言模型提來(lái)生成帶有關(guān)系三元組信息的結(jié)構(gòu)化文。

如圖 2.1 所示,RelationPrompt 分別有兩個(gè)模型: 關(guān)系生成模型(a)和關(guān)系抽取模型(b)。如圖 2.1a 所示,關(guān)系生成模型的輸入是包含關(guān)系名稱(chēng)的提示,輸出是包含句子、頭部實(shí)體和尾部實(shí)體的結(jié)構(gòu)化文本。我們使用 GPT-2 模型和普通的訓(xùn)練目標(biāo) [15] 進(jìn)行訓(xùn)練,進(jìn)而生成的樣本可用于訓(xùn)練關(guān)系抽模型。具體來(lái)說(shuō),我們對(duì)關(guān)系抽取模型采用 BART 模型的序列到序列方法。圖 2.1b 顯示了輸入數(shù)據(jù)如何包含上下文句子,輸出格式包含頭部實(shí)體、尾部實(shí)體和關(guān)系名稱(chēng)來(lái)形成關(guān)系三元組。我們使用普通的序列到序列學(xué)習(xí)目標(biāo) [16] 來(lái)訓(xùn)練模型。

▲ 圖2.2 模型應(yīng)用方式

我們所設(shè)計(jì)的結(jié)構(gòu)化文本格式能讓關(guān)系抽取模型同時(shí)支持關(guān)系三元組抽取和關(guān)系分類(lèi)。如圖 2.2 顯示,我們可以無(wú)條件地生成帶有頭部實(shí)體,尾部實(shí)體和關(guān)系類(lèi)別的結(jié)構(gòu)化文本,對(duì) ZeroRTE 任務(wù)做預(yù)測(cè)(a)。另外,我們能以實(shí)體對(duì)信息為條件來(lái)生成關(guān)系類(lèi)別,對(duì) ZeroRC 任務(wù)做預(yù)測(cè)(b) 。因此,我們的關(guān)系抽取模型在預(yù)測(cè)時(shí)可以支持 ZeroRTE 和 ZeroRC 任務(wù),不需要分別的訓(xùn)練。

由于結(jié)構(gòu)化文本格式的復(fù)雜度會(huì)影響到關(guān)系生成模型的生成質(zhì)量, 我們保持生成的結(jié)構(gòu)化文本最多包含一個(gè)三元組。因此,關(guān)系抽取模型在偽數(shù)據(jù)訓(xùn)練之后,對(duì)每一個(gè)輸入句子最多預(yù)測(cè)一個(gè)三元組。為了克服這個(gè)挑戰(zhàn)并預(yù)測(cè)多個(gè)三元組,我們進(jìn)一步提出了一種生成解碼方法(c)。

該方法可以在序列到序列的預(yù)測(cè)階段枚舉三元組候選并進(jìn)行排名。對(duì)于頭部實(shí)體、尾部實(shí)體和關(guān)系名稱(chēng),我們可以在各個(gè)部分考慮多個(gè)可能的候選實(shí)體。如圖 2.2c 表示,每個(gè)可能路徑代表了一個(gè)三元組候選。為了篩選最合適的三元組候選,我們使用分?jǐn)?shù)閾值。只有總體可能性高于得分?jǐn)?shù)閾值的路徑才能被預(yù)測(cè)為最終的關(guān)系三元組。

2.5 實(shí)驗(yàn)設(shè)置

由于 ZeroRTE 是一個(gè)新的任務(wù),我們提供了兩種基線方法。首先,利用生成方式的關(guān)系抽取模型可以在不使用生成數(shù)據(jù)的情況下抽取陌生關(guān)系類(lèi)別的三元組。但是,由于訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)之間的領(lǐng)域不相關(guān),它無(wú)法實(shí)現(xiàn)最佳性能。這個(gè)基線方式被稱(chēng)為 NoGen。

第二個(gè)基線方式是現(xiàn)有的 TableSequence [17] 三元組抽取模型,它用生成的數(shù)據(jù)進(jìn)行訓(xùn)練。TableSequence 是一種傳統(tǒng)的關(guān)系三元組抽取模型,它需要假設(shè)在訓(xùn)練數(shù)據(jù)中存在具有多個(gè)關(guān)系三元組的句子,才能在測(cè)試句子上抽取多個(gè)關(guān)系三元組。然而,我們生成的數(shù)據(jù)僅限于每一個(gè)句子只包含一個(gè)關(guān)系三元組。

因此,TableSequence 對(duì)于多三元組 ZeroRTE 不能很好地執(zhí)行。對(duì)于 ZeroRC 任務(wù),目前最先進(jìn)的方法是 ZS-BERT 。它將句子和實(shí)體信息轉(zhuǎn)換為表示,并對(duì)要預(yù)測(cè)的候選關(guān)系類(lèi)別的描述文本進(jìn)行匹配。然而,這種句子表示方法不能保留句子和關(guān)系的完整語(yǔ)義。

▲ 表2.2 ZeroRTE 任務(wù)結(jié)果

2.6 主要結(jié)果

對(duì)于 ZeroRTE 任務(wù),如表 2.2 所示,RelationPrompt 方法在 FewRel [18] 和 Wiki-ZSL 數(shù)據(jù)集的總體結(jié)果始終高于基線模型。沒(méi)有用生成的樣本進(jìn)行訓(xùn)練的抽取模型(NoGen)性能比較低,表明數(shù)據(jù)生成對(duì)于零樣本泛化至關(guān)重要。

▲?表2.3 ZeroRTE 任務(wù)結(jié)果

對(duì)于 ZeroRC 任務(wù),表 2.3 顯示了 RelationPrompt 對(duì)于現(xiàn)有方法具有一貫的優(yōu)勢(shì)。當(dāng)看陌生關(guān)系類(lèi)別集數(shù)量增加的時(shí)候,我們的方式能夠保持較高的分類(lèi)性能,而 ZS-BERT 方法不能很好地泛化到比較大的關(guān)系類(lèi)別集。

▲ 圖2.3 模型輸出分析

為了進(jìn)一步分析 RelationPrompt 的有效性,我們也檢關(guān)系生成模型如何適應(yīng)野外關(guān)系,并在圖 2.3 中給出了幾個(gè)例子。對(duì)于大多數(shù)關(guān)系,比如 “Investor”、“Defeated By” 和 “Currency Of”關(guān)系生成模型能夠正確地推斷關(guān)系的語(yǔ)義并生成合理的句子。然而,對(duì)于關(guān)系 “Political Partner” 的關(guān)系,生成的句子能正確地建立在政治背景,但是實(shí)體對(duì)不適合關(guān)系的語(yǔ)義。因此,這是一個(gè)未來(lái)的進(jìn)步空間。

2.7 總結(jié)

我們介紹了零樣本關(guān)系三元組抽取任務(wù)(ZeroRTE),要求模型在測(cè)試情況下抽取未見(jiàn)過(guò)的關(guān)系類(lèi)別的三元組。與之前零樣本關(guān)系分類(lèi)任務(wù)(ZeroRC)相比,ZeroRTE 不需要假設(shè)實(shí)體對(duì)已經(jīng)被提供。因此,ZeroRTE 在實(shí)際應(yīng)用中更現(xiàn)實(shí)。為了執(zhí)行 ZeroRTE,我們提出了關(guān)系提示的方式(RelationPrompt),利用關(guān)系名稱(chēng)當(dāng)作語(yǔ)言模型的提示,來(lái)生成未見(jiàn)過(guò)的關(guān)系類(lèi)別的新的句子樣本。

為了克服句子中多個(gè)關(guān)系三元組的挑戰(zhàn),我們也設(shè)計(jì)了新的三元組搜索解碼方法(Triplet Search Decoding)。實(shí)驗(yàn)結(jié)果表明,RelationPrompt 比基線模型更有效,在 ZeroRTE 任務(wù)能達(dá)到 16.5 F1 提升,在 ZeroRC 任務(wù)能達(dá)到 28.2 F1 提升。

關(guān)于作者:本文由阿里巴巴達(dá)摩院自然語(yǔ)言智能實(shí)驗(yàn)室邴立東、聯(lián)培博士生譚清宇、謝耀賡共同整理。由 PaperWeekly 編輯同學(xué)做了校對(duì)和格式調(diào)整。

參考文獻(xiàn)

[1]?Yao, Yuan, et al. "DocRED: A Large-Scale Document-Level Relation Extraction Dataset."?Proceedings of ACL. 2019.

[2] Mintz, Mike, et al. "Distant supervision for relation extraction without labeled data."?Proceedings of ACL. 2009.

[3] Zhou, Wenxuan, et al. "Document-level relation extraction with adaptive?thresholding and localized context pooling."?Proceedings of AAAI. 2021.

[4]?Wang, Huiyu, et al. "Axial-deeplab: Stand-alone axial-attention for panoptic segmentation."?Proceedings of ECCV. Springer, 2020.

[5]?Lin, Tsung-Yi, et al. "Focal loss for dense object detection."?Proceedings of ICCV. 2017.

[6] Hinton, Geoffrey, Oriol Vinyals, and Jeff Dean. "Distilling the knowledge in a neural network."?arXiv preprint arXiv:1503.02531?2.7 (2015).

[7]?Cheng, Qiao, et al. "HacRED: A Large-Scale Relation Extraction Dataset Toward Hard Cases in Practical Applications."?Findings of ACL. 2021.

[8]?Xu, Benfeng, et al. "Entity Structure Within and Throughout: Modeling Mention Dependencies?for Document-Level Relation Extraction."?Proceedings of the AAAI. 2021.

[9] Yankai Lin, Zhiyuan Liu, Maosong Sun, Yang Liu, and Xuan Zhu. 2015. Learning entity and relation embeddings for knowledge graph completion. In Proc. of AAAI.

[10] Chih-Yao Chen and Cheng-Te Li. 2021. Zs-bert: To- wards zero-shot relation extraction with attribute representation learning. In Proc. of NAACL.

[11] Guoliang Ji, Kang Liu, Shizhu He, and Jun Zhao. 2017. Distant supervision for relation extraction with sentence-level attention and entity descriptions. In Proc. of AAAI.

[12] Pushpankar Kumar Pushp and Muktabh Mayank Srivastava. 2017. Train once, test anywhere: Zero-shot learning for text classification. CoRR, arXiv:1712.05972.

[13] Pengfei Liu, Weizhe Yuan, Jinlan Fu, Zhengbao Jiang, Hiroaki Hayashi, and Graham Neubig. 2021. Pre- train, prompt, and predict: A systematic survey of prompting methods in natural language processing. CoRR, arXiv:2107.13586.

[14] Giovanni Paolini, Ben Athiwaratkun, Jason Krone, Jie Ma, Alessandro Achille, Rishita Anubhai, Ci- cero Nogueira dos Santos, Bing Xiang, and Stefano Soatto. 2020. Structured prediction as translation between augmented natural languages. In Proc. of ICLR.

[15] Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever, et al. 2019. Lan- guage models are unsupervised multitask learners. OpenAI.

[16] Mike Lewis, Yinhan Liu, Naman Goyal, Mar- jan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Veselin Stoyanov, and Luke Zettlemoyer. 2020. Bart: Denoising sequence-to-sequence pre- training for natural language generation, translation, and comprehension. In Proc. of ACL.

[17] Jue Wang and Wei Lu. 2020. Two are better than one: Joint entity and relation extraction with table- sequence encoders. In Proc. of EMNLP.

[18] Xu Han, Hao Zhu, Pengfei Yu, Ziyun Wang, Yuan Yao, Zhiyuan Liu, and Maosong Sun. 2018. Fewrel: A large-scale supervised few-shot relation classifica- tion dataset with state-of-the-art evaluation. In Proc. of EMNLP.

特別鳴謝

感謝 TCCI 天橋腦科學(xué)研究院對(duì)于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。

更多閱讀

#投 稿?通 道#

?讓你的文字被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類(lèi)優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析科研心得競(jìng)賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。

📝?稿件基本要求:

? 文章確系個(gè)人原創(chuàng)作品,未曾在公開(kāi)渠道發(fā)表,如為其他平臺(tái)已發(fā)表或待發(fā)表的文章,請(qǐng)明確標(biāo)注?

? 稿件建議以?markdown?格式撰寫(xiě),文中配圖以附件形式發(fā)送,要求圖片清晰,無(wú)版權(quán)問(wèn)題

? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競(jìng)爭(zhēng)力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算

📬?投稿通道:

? 投稿郵箱:hr@paperweekly.site?

? 來(lái)稿請(qǐng)備注即時(shí)聯(lián)系方式(微信),以便我們?cè)诟寮x用的第一時(shí)間聯(lián)系作者

? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿

△長(zhǎng)按添加PaperWeekly小編

🔍

現(xiàn)在,在「知乎」也能找到我們了

進(jìn)入知乎首頁(yè)搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專(zhuān)欄吧

·

總結(jié)

以上是生活随笔為你收集整理的达摩院文档级关系抽取新SOTA和零样本关系抽取新任务的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。