當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

达摩院文档级关系抽取新SOTA和零样本关系抽取新任务

發(fā)布時(shí)間：2024/10/8 编程问答 81 豆豆

生活随笔收集整理的這篇文章主要介紹了达摩院文档级关系抽取新SOTA和零样本关系抽取新任务小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?作者 |?邴立東、譚清宇、謝耀賡

單位 | Alibaba DAMO, NUS, SUTD

引言

關(guān)系抽取（RE）是 NLP 的核心任務(wù)之一，是構(gòu)建知識(shí)庫(kù)、事件抽取等下游應(yīng)用的關(guān)鍵技術(shù)。多年來(lái)受到研究者的持續(xù)關(guān)注。本文將介紹達(dá)摩院語(yǔ)言實(shí)驗(yàn)室多語(yǔ)言算法團(tuán)隊(duì)的兩篇 ACL Findings 2022 論文。

第一篇論文聚焦于文檔級(jí)關(guān)系抽取，我們的模型在 DocRED 排行榜上將 SOTA F1 值提高了 1.36，Ign_F1 值提高了 1.46。第二篇論文提出了零樣本句子級(jí)關(guān)系抽取的新任務(wù)，旨在解決現(xiàn)有的任務(wù)設(shè)定不能泛化到陌生關(guān)系上的問(wèn)題。具體地，我們提出了 RelationPrompt 方法來(lái)為陌生關(guān)系生成訓(xùn)練樣本，進(jìn)而訓(xùn)練抽取器。RelationPrompt 還可以作用于零樣本關(guān)系分類(lèi)任務(wù)，取得了平均優(yōu)于基線算法 10 個(gè)點(diǎn)的 F1。

基于自適應(yīng)Focal Loss和知識(shí)蒸餾的文檔級(jí)關(guān)系抽取

本小節(jié)工作來(lái)自論文：Document-Level Relation Extraction with Adaptive Focal Loss and Knowledge Distillation, in ACL Findings 2022.

論文鏈接：

https://arxiv.org/abs/2203.10900

數(shù)據(jù)代碼：

https://github.com/tonytan48/KD-DocRE

1.1 背景介紹

關(guān)系抽取，Relation Extraction from Text，簡(jiǎn)稱(chēng) IE，是從自然語(yǔ)言文本中，抽取出實(shí)體之間的關(guān)系。傳統(tǒng)的關(guān)系抽取方法主要是抽取單個(gè)句子間兩個(gè)實(shí)體的關(guān)系，這一任務(wù)被稱(chēng)為句子級(jí)別關(guān)系抽取。然而，在真實(shí)的應(yīng)用場(chǎng)景中，大量的實(shí)體關(guān)系是由多個(gè)句子聯(lián)合表達(dá)的，因此，文檔級(jí)別的關(guān)系抽取相對(duì)于句子級(jí)別更加具有應(yīng)用價(jià)值 [1]。

具體的任務(wù)定義為：給定一個(gè)文檔 D，其中的實(shí)體數(shù)目為 N，模型需要預(yù)測(cè)所有實(shí)體對(duì)之間的關(guān)系，總共需要做 N（N-1）個(gè)實(shí)體對(duì)的關(guān)系分類(lèi)。

目前，文檔級(jí)別的關(guān)系抽取依然面臨四個(gè)方面的挑戰(zhàn)：

第一，大部分文檔級(jí)別的實(shí)體關(guān)系橫跨多個(gè)句子，關(guān)系抽取模型需要捕捉更長(zhǎng)的上下文信息。

第二，同一文檔中包含大量實(shí)體，文檔級(jí)別關(guān)系抽取需要同時(shí)抽取所有實(shí)體間的關(guān)系，其復(fù)雜度與文檔中的實(shí)體數(shù)成平方關(guān)系，分類(lèi)過(guò)程中存在大量的負(fù)樣本。

第三，文檔級(jí)別關(guān)系抽取的樣本類(lèi)別屬于長(zhǎng)尾分布，以清華大學(xué)發(fā)布的 DocRED 數(shù)據(jù)集為例，頻率前十的關(guān)系占到了所有關(guān)系的 60%，而剩下的 86 種關(guān)系只占全部關(guān)系三元組的 40%。

第四，由于文檔級(jí)別的數(shù)據(jù)標(biāo)注任務(wù)較難，現(xiàn)有的數(shù)據(jù)集中人工標(biāo)注的訓(xùn)練數(shù)據(jù)十分有限。大量的訓(xùn)練數(shù)據(jù)為遠(yuǎn)程監(jiān)督 [2] 的訓(xùn)練數(shù)據(jù)，而遠(yuǎn)程監(jiān)督的數(shù)據(jù)中存在大量的噪音，限制模型的訓(xùn)練。

1.2 模型介紹

鑒于以上的挑戰(zhàn)，我們提出了一個(gè)基于知識(shí)蒸餾的半監(jiān)督學(xué)習(xí)框架，和一個(gè)新的關(guān)系抽取的模型。

▲ 圖1.1 模型概況

如上圖所示，在前人工作 ATLOP 模型 [3] 的基礎(chǔ)上，我們提出的模型主要提供了三個(gè)新的模塊，第一，我們利用軸向注意力機(jī)制 [4] 來(lái)提取實(shí)體對(duì)表示之間的相互關(guān)系，如上圖所示，圖中的紅色部分代表實(shí)體對(duì)（e3,e6）的相關(guān)區(qū)域，例如假設(shè) e3 為杭州，e6 為亞洲，而中間實(shí)體 e8 為中國(guó)，那么（e3 杭州, e6 亞洲, 大洲）這一關(guān)系可以通過(guò)（e3 杭州, e8 中國(guó)，國(guó)家）這一三元組和（e8 中國(guó)，e6 亞洲，大洲）這一三元組聯(lián)合推理得到。

第二，為了緩解關(guān)系抽取數(shù)據(jù)中的樣本不平衡的問(wèn)題，受 Focal Loss [5] 啟發(fā)，我們提出使用 Adaptive Focal Loss 來(lái)提高模型在長(zhǎng)尾關(guān)系上的表現(xiàn)，具體形式為縮放高頻關(guān)系的概率輸出以及放大一些低頻關(guān)系的概率輸出，詳細(xì)的方法在文章的章節(jié) 2.2.2 中。

第三，我們?cè)谟?xùn)練過(guò)程中利用知識(shí)蒸餾的機(jī)制來(lái)過(guò)濾遠(yuǎn)程監(jiān)督數(shù)據(jù)中的噪音。DocRED 數(shù)據(jù)集中包含大量的遠(yuǎn)程監(jiān)督的數(shù)據(jù)，傳統(tǒng)的方法僅采用遠(yuǎn)程監(jiān)督數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，而忽略了遠(yuǎn)程監(jiān)督數(shù)據(jù)中的噪音，我們將這一基準(zhǔn)方法記為 Na?ve Adaptation（NA），作為對(duì)比我們將知識(shí)蒸餾 [6] 的方法記為 KD，我們首先利用 DocRED 的少量人工標(biāo)注訓(xùn)練數(shù)據(jù)訓(xùn)練一個(gè)老師模型，再利用這個(gè)老師模型，對(duì)于所有的遠(yuǎn)程監(jiān)督數(shù)據(jù)進(jìn)行預(yù)測(cè)，其輸出的概率分布會(huì)被作為軟標(biāo)簽。

接下來(lái)我們會(huì)基于這些軟標(biāo)簽，和遠(yuǎn)程監(jiān)督數(shù)據(jù)中帶有噪音的標(biāo)簽訓(xùn)練一個(gè)結(jié)構(gòu)相同學(xué)生模型，學(xué)生模型的訓(xùn)練過(guò)程中有兩個(gè)損失函數(shù)，第一個(gè)就是之前提到的 Adaptive Focal Loss，用來(lái)學(xué)習(xí)遠(yuǎn)程監(jiān)督數(shù)據(jù)中的標(biāo)簽。第二個(gè)就是基于老師模型輸出的軟標(biāo)簽計(jì)算的均方誤差（MSE），這一損失函數(shù)可以盡可能讓學(xué)生模型的輸出更接近于老師模型，這兩個(gè)損失函數(shù)將會(huì)被相加并共同訓(xùn)練。最后，所訓(xùn)練得到的學(xué)生模型會(huì)進(jìn)一步在人工標(biāo)注的數(shù)據(jù)中進(jìn)行微調(diào)，得到我們的最終模型。

1.3 實(shí)驗(yàn)分析

▲ 表1.1 DocRED以及HacRED數(shù)據(jù)統(tǒng)計(jì)

為了驗(yàn)證我們模型的有效性，我們?cè)?DocRED [1] 數(shù)據(jù)集以及 HacRED [7] 數(shù)據(jù)集（表1.1）上進(jìn)行了實(shí)驗(yàn)。

▲?表1.2 DocRED實(shí)驗(yàn)結(jié)果

我們的實(shí)驗(yàn)結(jié)果如上表所示，其中我們的模型記為 Ours-B-b 和 Rb-l 分別指的是 Bert-base 和 Roberta-large 語(yǔ)言模型。我們的模型相對(duì)于之前的基線模型均取得了顯著的提升，并且在 DocRED 排行榜上，我們的 KD-Roberta 模型相對(duì)于之前的 SOTA-SSAN-NA [8] 提高了 1.36 F1 以及 1.46 Ign_F1。?

▲?表1.3 DocRED開(kāi)發(fā)集消融實(shí)驗(yàn)

在 DocRED 數(shù)據(jù)集上，我們針對(duì)高頻關(guān)系（前十種關(guān)系）以及長(zhǎng)尾關(guān)系（剩余 86 種關(guān)系）進(jìn)行了消融實(shí)驗(yàn)，從上表（表1.3）可以看到，我們的 AFL 和軸向注意力模塊都能有效提高模型在長(zhǎng)尾關(guān)系上的表現(xiàn)。

▲ 表1.4 HacRED實(shí)驗(yàn)

我們同樣在 HacRED 數(shù)據(jù)集上做了對(duì)比實(shí)驗(yàn)（表1.4），但由于 HacRED 尚未公布測(cè)試集，我們只匯報(bào)了相同場(chǎng)景下開(kāi)發(fā)集的結(jié)果。

1.4 錯(cuò)誤分析

▲?表1.5 錯(cuò)誤分析?

▲ 圖1.2 例子分析

我們對(duì)目前最好的模型進(jìn)行了詳實(shí)的錯(cuò)誤分析，我們首先根據(jù)實(shí)體對(duì)將預(yù)測(cè)出來(lái)的三元組與標(biāo)注中的三元組進(jìn)行了比對(duì)，其中實(shí)體對(duì)與關(guān)系同時(shí)預(yù)測(cè)正確，記為Correct（C），如果實(shí)體對(duì)預(yù)測(cè)正確，而預(yù)測(cè)出來(lái)的關(guān)系是錯(cuò)誤的，記為 Wrong （W）。如果測(cè)試集中標(biāo)注的關(guān)系預(yù)測(cè)為‘No Relation’，我們將其視作未預(yù)測(cè)出的三元組，記為 Missed（MS）。最后我們將模型預(yù)測(cè)出有關(guān)系，但測(cè)試集中未標(biāo)注的三元組記為 More（MR）。

這一些錯(cuò)誤的統(tǒng)計(jì)結(jié)果在表 1.5 中有所體現(xiàn)，我們可以看到預(yù)測(cè)錯(cuò)誤（W）的占比相對(duì)于 MS 和 MR 較小。而 MS 和 MR 的比例相當(dāng)，根據(jù)我們進(jìn)一步的分析，我們發(fā)現(xiàn) MR 的三元組中，存在一定數(shù)量的正確三元組，如圖 1.2 所示，該文章描述了一名挪威的政客，在標(biāo)注數(shù)據(jù)中，Hol 是挪威的一個(gè)城市，而文中出現(xiàn)的 Vestv?g?y 同樣也是挪威的一個(gè)城市，在同一標(biāo)準(zhǔn)下，Vestv?g?y 理應(yīng)同樣被標(biāo)注。這一發(fā)現(xiàn)反映了 DocRED 數(shù)據(jù)中可能存在漏標(biāo)的現(xiàn)象，這一發(fā)現(xiàn)可以為未來(lái)文檔級(jí)別的關(guān)系抽取提供一定的思路和啟發(fā)。

1.5 總結(jié)

綜上所述, 我們提出了一個(gè)基于知識(shí)蒸餾的半監(jiān)督學(xué)習(xí)框架，并且基于軸向注意力和自適應(yīng)聚焦函數(shù)提出了一個(gè)新的文檔級(jí)別關(guān)系抽取的模型，并且在 DocRED 排行榜顯著超過(guò)了 SOTA 的表現(xiàn)。

RelationPrompt：通過(guò)提示語(yǔ)言模型的數(shù)據(jù)生成來(lái)解決零樣本關(guān)系三元組抽取任務(wù)

本小節(jié)工作來(lái)自論文：RelationPrompt: Leveraging Prompts to Generate Synthetic Data for Zero-Shot Relation Triplet Extraction, in ACL Findings 2022.

論文鏈接：

https://arxiv.org/abs/2203.09101

數(shù)據(jù)代碼：

http://github.com/declare-lab/RelationPrompt

2.1 問(wèn)題提出

關(guān)系三元組是知識(shí)庫(kù) [9] 的基本組成部分，能應(yīng)用于搜索、社交網(wǎng)絡(luò)、事實(shí)核查等等。然而，具體地說(shuō)，現(xiàn)有的模型只能針對(duì)訓(xùn)練時(shí)候見(jiàn)過(guò)的關(guān)系類(lèi)別執(zhí)行三元組抽取（Relation Triplet Extraction）。因此，我們首次提出零樣本關(guān)系三元組抽取任務(wù)（Zero-Shot Relation Triplet Extraction）（ZeroRTE）。

比如這個(gè)句子“Their grandson was Group Captain Nicolas Tindal.” 包含了 “Military Rank”的關(guān)系，但是訓(xùn)練數(shù)據(jù)沒(méi)有見(jiàn)過(guò)這類(lèi)關(guān)系類(lèi)別的樣本。ZeroRTE 的目標(biāo)就是在這個(gè)零樣本的情況下仍然能夠抽取三元組（Nicolas Tindal，Military Rank, Group Captain）。

為了執(zhí)行 ZeroRTE，我們提出了RelationPrompt 方式，為沒(méi)有見(jiàn)過(guò)的關(guān)系類(lèi)別生成偽訓(xùn)練數(shù)據(jù)（Pseudo-training data）。RelationPrompt 能夠利用初次見(jiàn)到的關(guān)系名作為語(yǔ)言模型的提示（Prompt），生成該關(guān)系的結(jié)構(gòu)化句子樣本。這類(lèi)樣本的結(jié)構(gòu)信息標(biāo)明了句子中三元組的頭部實(shí)體（Head Entity）和尾部實(shí)體（Tail Entity），進(jìn)而可以作為抽取模型的訓(xùn)練數(shù)據(jù)。

▲ 表2.1 任務(wù)對(duì)比

2.2 相關(guān)方法的局限

表 2.1 可以顯示 ZeroRTE 在兩個(gè)主要方面比現(xiàn)存的任務(wù)更有挑戰(zhàn)性。與傳統(tǒng)監(jiān)督的關(guān)系三元組抽取（Relation Triplet Extraction）任務(wù)相比，ZeroRTE 需要模型泛化到訓(xùn)練中從沒(méi)遇過(guò)的關(guān)系類(lèi)別。與零樣本關(guān)系分類(lèi)的任務(wù)（Zero-Shot Relation Classification）（ZeroRC）[10] 相比，ZeroRTE 需要模型在不假設(shè)給出實(shí)體對(duì)的情況下抽取完整的關(guān)系三元組。因此，ZeroRTE 比 ZeroRC 在實(shí)際應(yīng)用中更現(xiàn)實(shí)。目前的幾種方法可以解決低資源學(xué)習(xí)問(wèn)題。

遠(yuǎn)程監(jiān)督（Distant Supervision）[11] 可用知識(shí)庫(kù)構(gòu)建大規(guī)模的關(guān)系數(shù)據(jù)集，但比人類(lèi)的標(biāo)注質(zhì)量低，并且僅限于固定關(guān)系類(lèi)別。另一種方法是設(shè)計(jì)不受約束的預(yù)測(cè)類(lèi)別空間來(lái)制定任務(wù)目標(biāo)?[12]，例如句子相似度匹配。然而，現(xiàn)存的方式只對(duì)句子分類(lèi)任務(wù)有效，不能直接執(zhí)行三元組抽取任務(wù)。第三方向是利用帶有提示（Prompt）的語(yǔ)言模型 [13]，能讓模型在低資源情況下泛化到新任務(wù)。然而，提示的方法目前僅限于比較簡(jiǎn)單的預(yù)測(cè)目標(biāo)，比如句子分類(lèi)或詞組抽取。

2.3 任務(wù)定義

ZeroRTE 任務(wù)的目標(biāo)是從訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)，并泛化到測(cè)試數(shù)據(jù)集。和是從定義為的原本數(shù)據(jù)集中劃分的，其中表示輸入句子，表示輸出三元組，表示數(shù)據(jù)中存在的一組關(guān)系類(lèi)別。和數(shù)據(jù)集的關(guān)系類(lèi)別組是預(yù)定義的，分別表示為和，而且是不相交的。每一個(gè)數(shù)據(jù)樣本包含了輸入句子，同時(shí)也包含一個(gè)或以上的三元組。每個(gè)三元組定義為（，，y），其中表示頭部實(shí)體，表示尾部實(shí)體，y 表示關(guān)系類(lèi)別。

以上的算法描述了 RelationPrompt 執(zhí)行 ZeroRTE 任務(wù)的整體訓(xùn)練和預(yù)測(cè)過(guò)程。由于現(xiàn)存的抽取模型不能泛化到新的關(guān)系類(lèi)別，我們先需要訓(xùn)練一個(gè)關(guān)系生成模型，針對(duì)測(cè)試集的關(guān)系類(lèi)別生成偽訓(xùn)練數(shù)據(jù) ，接著用偽訓(xùn)練數(shù)據(jù) 訓(xùn)練一個(gè)關(guān)系抽取模型來(lái)執(zhí)行 ZeroRTE。

具體地說(shuō)，我們先用訓(xùn)練數(shù)據(jù) 來(lái)訓(xùn)練關(guān)系生成模型和關(guān)系抽取模型（1,2），接著以測(cè)試集的關(guān)系類(lèi)別當(dāng)作語(yǔ)言模型的提示來(lái)生成偽訓(xùn)練數(shù)據(jù) （3）。接著，我們使用之前生成的偽訓(xùn)練數(shù)據(jù) 再次訓(xùn)練關(guān)系抽取模型（4）。最后，我們讓關(guān)系抽取模型對(duì)測(cè)試數(shù)據(jù)的句子預(yù)測(cè)出關(guān)系三元組（5,6）。

▲ 圖2.1 結(jié)構(gòu)化文本格式

2.4 我們的模型

語(yǔ)言模型能夠通過(guò)大規(guī)模的預(yù)訓(xùn)練，泛化到地資源的情況。因此，我們使用語(yǔ)言模型生成偽訓(xùn)練數(shù)據(jù)，以關(guān)系名稱(chēng)的提示作為生成的條件。不過(guò)，現(xiàn)存的提示方式不能支持生成三元組的信息。另一方面，結(jié)構(gòu)化文本方式（Structured Text）[14] 可以使用自然文本中的特殊標(biāo)記，對(duì)實(shí)體和關(guān)系的結(jié)構(gòu)信息進(jìn)行編碼。因此，我們的工作統(tǒng)一了提示語(yǔ)言模型和結(jié)構(gòu)化文本的方法，能通過(guò)語(yǔ)言模型提來(lái)生成帶有關(guān)系三元組信息的結(jié)構(gòu)化文。

如圖 2.1 所示，RelationPrompt 分別有兩個(gè)模型: 關(guān)系生成模型（a）和關(guān)系抽取模型（b）。如圖 2.1a 所示，關(guān)系生成模型的輸入是包含關(guān)系名稱(chēng)的提示，輸出是包含句子、頭部實(shí)體和尾部實(shí)體的結(jié)構(gòu)化文本。我們使用 GPT-2 模型和普通的訓(xùn)練目標(biāo) [15] 進(jìn)行訓(xùn)練，進(jìn)而生成的樣本可用于訓(xùn)練關(guān)系抽模型。具體來(lái)說(shuō)，我們對(duì)關(guān)系抽取模型采用 BART 模型的序列到序列方法。圖 2.1b 顯示了輸入數(shù)據(jù)如何包含上下文句子，輸出格式包含頭部實(shí)體、尾部實(shí)體和關(guān)系名稱(chēng)來(lái)形成關(guān)系三元組。我們使用普通的序列到序列學(xué)習(xí)目標(biāo) [16] 來(lái)訓(xùn)練模型。

▲ 圖2.2 模型應(yīng)用方式

我們所設(shè)計(jì)的結(jié)構(gòu)化文本格式能讓關(guān)系抽取模型同時(shí)支持關(guān)系三元組抽取和關(guān)系分類(lèi)。如圖 2.2 顯示，我們可以無(wú)條件地生成帶有頭部實(shí)體，尾部實(shí)體和關(guān)系類(lèi)別的結(jié)構(gòu)化文本，對(duì) ZeroRTE 任務(wù)做預(yù)測(cè)（a）。另外，我們能以實(shí)體對(duì)信息為條件來(lái)生成關(guān)系類(lèi)別，對(duì) ZeroRC 任務(wù)做預(yù)測(cè)（b）。因此，我們的關(guān)系抽取模型在預(yù)測(cè)時(shí)可以支持 ZeroRTE 和 ZeroRC 任務(wù)，不需要分別的訓(xùn)練。

由于結(jié)構(gòu)化文本格式的復(fù)雜度會(huì)影響到關(guān)系生成模型的生成質(zhì)量，我們保持生成的結(jié)構(gòu)化文本最多包含一個(gè)三元組。因此，關(guān)系抽取模型在偽數(shù)據(jù)訓(xùn)練之后，對(duì)每一個(gè)輸入句子最多預(yù)測(cè)一個(gè)三元組。為了克服這個(gè)挑戰(zhàn)并預(yù)測(cè)多個(gè)三元組，我們進(jìn)一步提出了一種生成解碼方法（c）。

該方法可以在序列到序列的預(yù)測(cè)階段枚舉三元組候選并進(jìn)行排名。對(duì)于頭部實(shí)體、尾部實(shí)體和關(guān)系名稱(chēng)，我們可以在各個(gè)部分考慮多個(gè)可能的候選實(shí)體。如圖 2.2c 表示，每個(gè)可能路徑代表了一個(gè)三元組候選。為了篩選最合適的三元組候選，我們使用分?jǐn)?shù)閾值。只有總體可能性高于得分?jǐn)?shù)閾值的路徑才能被預(yù)測(cè)為最終的關(guān)系三元組。

2.5 實(shí)驗(yàn)設(shè)置

由于 ZeroRTE 是一個(gè)新的任務(wù)，我們提供了兩種基線方法。首先，利用生成方式的關(guān)系抽取模型可以在不使用生成數(shù)據(jù)的情況下抽取陌生關(guān)系類(lèi)別的三元組。但是，由于訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)之間的領(lǐng)域不相關(guān)，它無(wú)法實(shí)現(xiàn)最佳性能。這個(gè)基線方式被稱(chēng)為 NoGen。

第二個(gè)基線方式是現(xiàn)有的 TableSequence [17] 三元組抽取模型，它用生成的數(shù)據(jù)進(jìn)行訓(xùn)練。TableSequence 是一種傳統(tǒng)的關(guān)系三元組抽取模型，它需要假設(shè)在訓(xùn)練數(shù)據(jù)中存在具有多個(gè)關(guān)系三元組的句子，才能在測(cè)試句子上抽取多個(gè)關(guān)系三元組。然而，我們生成的數(shù)據(jù)僅限于每一個(gè)句子只包含一個(gè)關(guān)系三元組。

因此，TableSequence 對(duì)于多三元組 ZeroRTE 不能很好地執(zhí)行。對(duì)于 ZeroRC 任務(wù)，目前最先進(jìn)的方法是 ZS-BERT 。它將句子和實(shí)體信息轉(zhuǎn)換為表示，并對(duì)要預(yù)測(cè)的候選關(guān)系類(lèi)別的描述文本進(jìn)行匹配。然而，這種句子表示方法不能保留句子和關(guān)系的完整語(yǔ)義。

▲ 表2.2 ZeroRTE 任務(wù)結(jié)果

2.6 主要結(jié)果

對(duì)于 ZeroRTE 任務(wù)，如表 2.2 所示，RelationPrompt 方法在 FewRel [18] 和 Wiki-ZSL 數(shù)據(jù)集的總體結(jié)果始終高于基線模型。沒(méi)有用生成的樣本進(jìn)行訓(xùn)練的抽取模型（NoGen）性能比較低，表明數(shù)據(jù)生成對(duì)于零樣本泛化至關(guān)重要。

▲?表2.3 ZeroRTE 任務(wù)結(jié)果

對(duì)于 ZeroRC 任務(wù)，表 2.3 顯示了 RelationPrompt 對(duì)于現(xiàn)有方法具有一貫的優(yōu)勢(shì)。當(dāng)看陌生關(guān)系類(lèi)別集數(shù)量增加的時(shí)候，我們的方式能夠保持較高的分類(lèi)性能，而 ZS-BERT 方法不能很好地泛化到比較大的關(guān)系類(lèi)別集。

▲ 圖2.3 模型輸出分析

為了進(jìn)一步分析 RelationPrompt 的有效性，我們也檢關(guān)系生成模型如何適應(yīng)野外關(guān)系，并在圖 2.3 中給出了幾個(gè)例子。對(duì)于大多數(shù)關(guān)系，比如 “Investor”、“Defeated By” 和 “Currency Of”關(guān)系生成模型能夠正確地推斷關(guān)系的語(yǔ)義并生成合理的句子。然而，對(duì)于關(guān)系 “Political Partner” 的關(guān)系，生成的句子能正確地建立在政治背景，但是實(shí)體對(duì)不適合關(guān)系的語(yǔ)義。因此，這是一個(gè)未來(lái)的進(jìn)步空間。

2.7 總結(jié)

我們介紹了零樣本關(guān)系三元組抽取任務(wù)（ZeroRTE），要求模型在測(cè)試情況下抽取未見(jiàn)過(guò)的關(guān)系類(lèi)別的三元組。與之前零樣本關(guān)系分類(lèi)任務(wù)（ZeroRC）相比，ZeroRTE 不需要假設(shè)實(shí)體對(duì)已經(jīng)被提供。因此，ZeroRTE 在實(shí)際應(yīng)用中更現(xiàn)實(shí)。為了執(zhí)行 ZeroRTE，我們提出了關(guān)系提示的方式（RelationPrompt），利用關(guān)系名稱(chēng)當(dāng)作語(yǔ)言模型的提示，來(lái)生成未見(jiàn)過(guò)的關(guān)系類(lèi)別的新的句子樣本。

為了克服句子中多個(gè)關(guān)系三元組的挑戰(zhàn)，我們也設(shè)計(jì)了新的三元組搜索解碼方法（Triplet Search Decoding）。實(shí)驗(yàn)結(jié)果表明，RelationPrompt 比基線模型更有效，在 ZeroRTE 任務(wù)能達(dá)到 16.5 F1 提升，在 ZeroRC 任務(wù)能達(dá)到 28.2 F1 提升。

關(guān)于作者：本文由阿里巴巴達(dá)摩院自然語(yǔ)言智能實(shí)驗(yàn)室邴立東、聯(lián)培博士生譚清宇、謝耀賡共同整理。由 PaperWeekly 編輯同學(xué)做了校對(duì)和格式調(diào)整。

參考文獻(xiàn)

[1]?Yao, Yuan, et al. "DocRED: A Large-Scale Document-Level Relation Extraction Dataset."?Proceedings of ACL. 2019.

[2] Mintz, Mike, et al. "Distant supervision for relation extraction without labeled data."?Proceedings of ACL. 2009.

[3] Zhou, Wenxuan, et al. "Document-level relation extraction with adaptive?thresholding and localized context pooling."?Proceedings of AAAI. 2021.

[4]?Wang, Huiyu, et al. "Axial-deeplab: Stand-alone axial-attention for panoptic segmentation."?Proceedings of ECCV. Springer, 2020.

[5]?Lin, Tsung-Yi, et al. "Focal loss for dense object detection."?Proceedings of ICCV. 2017.

[6] Hinton, Geoffrey, Oriol Vinyals, and Jeff Dean. "Distilling the knowledge in a neural network."?arXiv preprint arXiv:1503.02531?2.7 (2015).

[7]?Cheng, Qiao, et al. "HacRED: A Large-Scale Relation Extraction Dataset Toward Hard Cases in Practical Applications."?Findings of ACL. 2021.

[8]?Xu, Benfeng, et al. "Entity Structure Within and Throughout: Modeling Mention Dependencies?for Document-Level Relation Extraction."?Proceedings of the AAAI. 2021.

[9] Yankai Lin, Zhiyuan Liu, Maosong Sun, Yang Liu, and Xuan Zhu. 2015. Learning entity and relation embeddings for knowledge graph completion. In Proc. of AAAI.

[10] Chih-Yao Chen and Cheng-Te Li. 2021. Zs-bert: To- wards zero-shot relation extraction with attribute representation learning. In Proc. of NAACL.

[11] Guoliang Ji, Kang Liu, Shizhu He, and Jun Zhao. 2017. Distant supervision for relation extraction with sentence-level attention and entity descriptions. In Proc. of AAAI.

[12] Pushpankar Kumar Pushp and Muktabh Mayank Srivastava. 2017. Train once, test anywhere: Zero-shot learning for text classification. CoRR, arXiv:1712.05972.

[13] Pengfei Liu, Weizhe Yuan, Jinlan Fu, Zhengbao Jiang, Hiroaki Hayashi, and Graham Neubig. 2021. Pre- train, prompt, and predict: A systematic survey of prompting methods in natural language processing. CoRR, arXiv:2107.13586.

[14] Giovanni Paolini, Ben Athiwaratkun, Jason Krone, Jie Ma, Alessandro Achille, Rishita Anubhai, Ci- cero Nogueira dos Santos, Bing Xiang, and Stefano Soatto. 2020. Structured prediction as translation between augmented natural languages. In Proc. of ICLR.

[15] Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever, et al. 2019. Lan- guage models are unsupervised multitask learners. OpenAI.

[16] Mike Lewis, Yinhan Liu, Naman Goyal, Mar- jan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Veselin Stoyanov, and Luke Zettlemoyer. 2020. Bart: Denoising sequence-to-sequence pre- training for natural language generation, translation, and comprehension. In Proc. of ACL.

[17] Jue Wang and Wei Lu. 2020. Two are better than one: Joint entity and relation extraction with table- sequence encoders. In Proc. of EMNLP.

[18] Xu Han, Hao Zhu, Pengfei Yu, Ziyun Wang, Yuan Yao, Zhiyuan Liu, and Maosong Sun. 2018. Fewrel: A large-scale supervised few-shot relation classifica- tion dataset with state-of-the-art evaluation. In Proc. of EMNLP.

特別鳴謝

感謝 TCCI 天橋腦科學(xué)研究院對(duì)于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。

更多閱讀

#投稿?通道#

?讓你的文字被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體，縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢？答案就是：你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞，迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人，在我們的平臺(tái)上分享各類(lèi)優(yōu)質(zhì)內(nèi)容，可以是最新論文解讀，也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得或競(jìng)賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè)，讓知識(shí)真正流動(dòng)起來(lái)。

📝?稿件基本要求：

? 文章確系個(gè)人原創(chuàng)作品，未曾在公開(kāi)渠道發(fā)表，如為其他平臺(tái)已發(fā)表或待發(fā)表的文章，請(qǐng)明確標(biāo)注?

? 稿件建議以?markdown?格式撰寫(xiě)，文中配圖以附件形式發(fā)送，要求圖片清晰，無(wú)版權(quán)問(wèn)題

? PaperWeekly 尊重原作者署名權(quán)，并將為每篇被采納的原創(chuàng)首發(fā)稿件，提供業(yè)內(nèi)具有競(jìng)爭(zhēng)力稿酬，具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算

📬?投稿通道：

? 投稿郵箱：hr@paperweekly.site?

? 來(lái)稿請(qǐng)備注即時(shí)聯(lián)系方式（微信），以便我們?cè)诟寮x用的第一時(shí)間聯(lián)系作者

? 您也可以直接添加小編微信（pwbot02）快速投稿，備注：姓名-投稿

△長(zhǎng)按添加PaperWeekly小編

🔍

現(xiàn)在，在「知乎」也能找到我們了

進(jìn)入知乎首頁(yè)搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專(zhuān)欄吧

總結(jié)

以上是生活随笔為你收集整理的达摩院文档级关系抽取新SOTA和零样本关系抽取新任务的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：福布斯2021全球亿万富豪榜疫情一年富
下一篇：预训练模型真的越大越好吗？听听他们怎么说