當(dāng)前位置：首頁(yè) > 人文社科 > 生活经验 >内容正文

生活经验

docred数据集情况笔记

發(fā)布時(shí)間：2023/11/28 生活经验 47 豆豆

生活随笔收集整理的這篇文章主要介紹了 docred数据集情况笔记小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

20210621

什么是關(guān)系事實(shí),核心參考信息

實(shí)體提及:某個(gè)實(shí)體在不同句子中出現(xiàn)都叫提及
關(guān)系事實(shí):就是具有真實(shí)關(guān)系的實(shí)體對(duì)?

作者辛苦用人工標(biāo)注的方式整理了目前最大的基于維基百科的文檔級(jí)關(guān)系抽取數(shù)據(jù)集，實(shí)體和關(guān)系眾多，跨多個(gè)域，并進(jìn)行了當(dāng)前有監(jiān)督模型和無(wú)監(jiān)督模型的測(cè)試。
數(shù)據(jù)的主要部分包含，實(shí)體，實(shí)體之間的關(guān)系和佐證這個(gè)實(shí)體之間關(guān)系的證據(jù)的句子。見(jiàn)圖1示例。
作者講述了數(shù)據(jù)集是如何制作出來(lái)的，通過(guò)知識(shí)庫(kù)KB，命名實(shí)體識(shí)別，關(guān)系模型的提取的關(guān)系的參考，和人工的三輪標(biāo)注制作而來(lái)。
DocRED數(shù)據(jù)集的實(shí)體類型，關(guān)系類型，推理類型和句間關(guān)系都是比較復(fù)雜的。對(duì)于RE模型來(lái)說(shuō)是相當(dāng)大的考驗(yàn)。
作者分別對(duì)有監(jiān)督和弱監(jiān)督設(shè)置了Baseline，使用的模型包括2類CNN/LSTM/BiLSTM模型和Context-Aware模型，主要考慮的特征有GloVe詞嵌入、實(shí)體類型嵌入和核心參考嵌入和dij和dji為文檔中兩個(gè)實(shí)體首次提及的相對(duì)距離特征。實(shí)體的表示是通過(guò)實(shí)體的單詞范圍和實(shí)體出現(xiàn)的次數(shù)的平均向量表示。實(shí)體之間的關(guān)系是是實(shí)體和實(shí)體間距離之后加個(gè)線性層分類后得到的，參見(jiàn)公式1。
作者考慮的特征包括整個(gè)文檔的單詞向量，每個(gè)單詞的字符向量，但是代碼中只考慮512個(gè)長(zhǎng)度，2個(gè)實(shí)體的類型，2個(gè)實(shí)體的位置，2個(gè)實(shí)體的相對(duì)位置。
實(shí)驗(yàn)結(jié)果和人工表現(xiàn)對(duì)比，現(xiàn)有模型很難達(dá)到人工表現(xiàn)，差距很大，模型有很大提高潛力，主要在于現(xiàn)有模型不能很好的考慮多個(gè)句子間的全局上下文的信息。
一、簡(jiǎn)介
DocRED是不僅對(duì)實(shí)體句內(nèi)關(guān)系進(jìn)行構(gòu)建，還對(duì)句間關(guān)系進(jìn)行考慮。是基于Wikipedia和Wikidata構(gòu)建的新數(shù)據(jù)集。具有以下三個(gè)特點(diǎn)。(1)DocRED同時(shí)對(duì)命名實(shí)體和關(guān)系進(jìn)行標(biāo)注，是最大的從純文本中提取文檔級(jí)RE的人工標(biāo)注數(shù)據(jù)集；(2)DocRED需要閱讀文檔中的多個(gè)句子，通過(guò)綜合文檔的所有信息來(lái)提取實(shí)體并推斷其關(guān)系；(3)除了人工標(biāo)注的數(shù)據(jù)，還提供了大規(guī)模的遠(yuǎn)距離監(jiān)督數(shù)據(jù)，這使得DocRED可以同時(shí)適用于監(jiān)督和弱監(jiān)督的場(chǎng)景。

關(guān)系抽取（relation extraction，RE）的任務(wù)是從純文本中識(shí)別實(shí)體之間的關(guān)系事實(shí)，這在大規(guī)模知識(shí)圖譜構(gòu)建中起著重要作用。句子級(jí)RE關(guān)系和文檔級(jí)關(guān)系，即多個(gè)句子間的關(guān)系相比，是有限制的。從維基百科文檔中抽取的人類標(biāo)注語(yǔ)料庫(kù)的統(tǒng)計(jì)，至少有40.7%的關(guān)系事實(shí)只能從多個(gè)句子中抽取。例如圖1，DocRED中的每個(gè)文檔都被標(biāo)注了命名實(shí)體提及、核心參考信息、句內(nèi)和句間關(guān)系以及支持證據(jù)。在本例文檔標(biāo)注的19個(gè)關(guān)系實(shí)例中，有2個(gè)被呈現(xiàn)出來(lái)，這些實(shí)例中涉及的命名實(shí)體提及用藍(lán)色標(biāo)示，其他命名實(shí)體提及用下劃線表示以示清晰。請(qǐng)注意，同一主題的提及（例如，Kungliga Hovkapellet和Royal Court Orchestra）在第一個(gè)關(guān)系實(shí)例中被識(shí)別。

圖1：DocRED中的一個(gè)樣本
DocRED是一個(gè)從Wikipedia和Wikidata構(gòu)建的大規(guī)模人工標(biāo)注的文檔級(jí)RE數(shù)據(jù)集,具有以下三個(gè)特征。(1)DocRED包含132375個(gè)實(shí)體和56354個(gè)關(guān)系事實(shí)，標(biāo)注在5，053個(gè)維基百科文檔上，使其成為最大的人工標(biāo)注文檔級(jí)RE數(shù)據(jù)集。(2)由于DocRED中至少有40.7%的關(guān)系事實(shí)只能從多個(gè)句子中抽取，因此DocRED需要閱讀文檔中的多個(gè)句子來(lái)識(shí)別實(shí)體，并通過(guò)綜合文檔的所有信息來(lái)推理其關(guān)系。這使得DocRED區(qū)別于那些句子級(jí)的RE數(shù)據(jù)集，(3)還提供了大規(guī)模的遠(yuǎn)距離有監(jiān)督數(shù)據(jù)來(lái)支持弱監(jiān)督的RE研究。

二、數(shù)據(jù)收集
人工標(biāo)注數(shù)據(jù)分四個(gè)階段收集。(1) 為維基百科文檔生成遠(yuǎn)端有監(jiān)督標(biāo)注。

(2)對(duì)文檔中的所有命名實(shí)體提及和核心參考信息進(jìn)行標(biāo)注。(3)將命名實(shí)體提及與Wikidata項(xiàng)目進(jìn)行鏈接。(4)標(biāo)注關(guān)系和相應(yīng)的支持證據(jù)。

階段1。遠(yuǎn)距離有監(jiān)督注解生成,選擇需要人工標(biāo)注的文檔。使用spaCy2進(jìn)行命名實(shí)體識(shí)別。然后，將這些命名實(shí)體提及鏈接到Wikidata項(xiàng)目，將具有相同KB ID的命名實(shí)體提及進(jìn)行合并。最后，通過(guò)查詢Wikidata，對(duì)文檔中每個(gè)合并的命名實(shí)體對(duì)之間的關(guān)系進(jìn)行標(biāo)注。包含少于128個(gè)單詞的文檔將被丟棄。丟棄包含少于4個(gè)實(shí)體或少于4個(gè)關(guān)系實(shí)例的文檔，從而得到107，050個(gè)具有遠(yuǎn)端有監(jiān)督標(biāo)簽的文檔，隨機(jī)選擇5，053個(gè)文檔和最頻繁的96個(gè)關(guān)系進(jìn)行人工標(biāo)注。

階段2：命名實(shí)體和引用標(biāo)注。從文檔中抽取關(guān)系需要首先識(shí)別命名實(shí)體的提及，并識(shí)別提及文檔中相同實(shí)體的引用。為了提供高質(zhì)量的命名實(shí)體提及和核心參考信息，我們要求人工標(biāo)注者首先對(duì)第一階段生成的命名實(shí)體提及提議進(jìn)行審查、修正和補(bǔ)充，然后合并那些指向相同實(shí)體的不同提及，從而提供額外的核心參考信息。生成的中間語(yǔ)料包含各種命名實(shí)體類型，包括人、地點(diǎn)、組織、時(shí)間、數(shù)量和不屬于上述類型的雜項(xiàng)實(shí)體名稱。

階段3：實(shí)體鏈接。在這一階段，我們將每個(gè)命名的實(shí)體提及鏈接到多個(gè)Wikidata項(xiàng)目，為下一階段提供遠(yuǎn)端監(jiān)督的關(guān)系推薦。使用RE模型篩選出每篇文檔推薦關(guān)系實(shí)例,要求標(biāo)注者審查這些關(guān)系實(shí)例，刪除不正確的關(guān)系實(shí)例，補(bǔ)充遺漏的關(guān)系實(shí)例。還要求標(biāo)注者進(jìn)一步選擇所有支持保留關(guān)系實(shí)例的句子作為支持證據(jù)。最后57.2%來(lái)自實(shí)體鏈接的關(guān)系實(shí)例和48.2%來(lái)自RE模型的關(guān)系實(shí)例被保留。

三、數(shù)據(jù)分析
在本節(jié)中，我們將對(duì)DocRED的各個(gè)方面進(jìn)行分析，以便對(duì)數(shù)據(jù)集和文檔級(jí)RE的任務(wù)有更深入的了解。

數(shù)據(jù)規(guī)模大，參見(jiàn)表1

表1：RE數(shù)據(jù)集的統(tǒng)計(jì)（Doc.：文檔，Sent.：句子，Ent.：實(shí)體，Rel.：關(guān)系類型，Inst.：關(guān)系實(shí)例，Fact：關(guān)系事實(shí)）。前四個(gè)是句子級(jí)RE數(shù)據(jù)集。
命名實(shí)體類型。DocRED涵蓋各種實(shí)體類型，包括人(18.5%)、地點(diǎn)(30.9%)、組織(14.4%)、時(shí)間(15.8%)和數(shù)字(5.1%)。它還涵蓋了不屬于上述類型的各種雜項(xiàng)實(shí)體名稱（15.2%），如事件、藝術(shù)工作和法律。每個(gè)實(shí)體平均被提及1.34次。

關(guān)系類型。我們的數(shù)據(jù)集包括96種來(lái)自Wikidata的頻繁關(guān)系類型。我們數(shù)據(jù)集的一個(gè)顯著特點(diǎn)是，關(guān)系類型涵蓋了廣泛的類別，包括與科學(xué)(33.3%)、藝術(shù)(11.5%)、時(shí)間(8.3%)、個(gè)人生活(4.2%)等相關(guān)的關(guān)系，這意味著關(guān)系事實(shí)不受任何特定領(lǐng)域的限制。此外，這些關(guān)系類型的組織結(jié)構(gòu)層次分明、分類明確，可以為文檔級(jí)RE系統(tǒng)提供豐富的信息。

推理類型。表2顯示了我們數(shù)據(jù)集中主要推理類型的統(tǒng)計(jì)。從推理類型的統(tǒng)計(jì)中，我們有以下觀察：(1)大部分關(guān)系實(shí)例(61.1%)需要通過(guò)推理來(lái)識(shí)別，只有38.9%的關(guān)系實(shí)例可以通過(guò)簡(jiǎn)單的模型識(shí)別來(lái)抽取，這說(shuō)明推理對(duì)于文檔級(jí)的RE是必不可少的。(2)在具有推理特征的關(guān)系實(shí)例中，大多數(shù)(26.6%)需要進(jìn)行邏輯推理，即有關(guān)的兩個(gè)實(shí)體之間的關(guān)系是由橋梁實(shí)體間接建立的。邏輯推理要求RE系統(tǒng)能夠?qū)Χ鄠€(gè)實(shí)體之間的相互作用進(jìn)行建模。(3)相當(dāng)數(shù)量的關(guān)系實(shí)例(17.6%)需要進(jìn)行核心參照推理，在這種情況下，必須先進(jìn)行核心參照解析，以便在豐富的上下文中確定目標(biāo)實(shí)體。(4)相似比例的關(guān)系實(shí)例(16.6%)需要基于常識(shí)推理進(jìn)行識(shí)別，讀者需要結(jié)合文檔中的關(guān)系事實(shí)和常識(shí)來(lái)完成關(guān)系識(shí)別。綜上所述，DocRED需要豐富的推理能力來(lái)綜合文檔的所有信息。

表2：DocRED上文檔級(jí)RE所需的推理類型。剩余的0.3%需要其他類型的推理，如時(shí)間推理。
句間關(guān)系實(shí)例。我們發(fā)現(xiàn)，每個(gè)關(guān)系實(shí)例平均與1.6個(gè)支持句相關(guān)聯(lián)，其中46.4%的關(guān)系實(shí)例與多個(gè)支持句相關(guān)聯(lián)。此外，詳細(xì)分析發(fā)現(xiàn)，40.7%的關(guān)系事實(shí)只能從多個(gè)句子中抽取，這說(shuō)明DocRED是文檔級(jí)RE的良好基準(zhǔn)。我們也可以得出結(jié)論，閱讀、綜合和推理多個(gè)句子的能力是文檔級(jí)RE所必需的。

四、基準(zhǔn)設(shè)置
我們分別針對(duì)有監(jiān)督和弱監(jiān)督的場(chǎng)景設(shè)計(jì)了兩個(gè)基準(zhǔn)設(shè)置。兩種設(shè)置使用的數(shù)據(jù)統(tǒng)計(jì)如表3所示。

表3：兩個(gè)基準(zhǔn)設(shè)置（第4節(jié)）使用的數(shù)據(jù)統(tǒng)計(jì)：有監(jiān)督設(shè)置（S）和弱監(jiān)督設(shè)置（W）。
有監(jiān)督設(shè)置。在這種設(shè)置中，只使用人工標(biāo)注的數(shù)據(jù)，這些數(shù)據(jù)被隨機(jī)分成訓(xùn)練集、開(kāi)發(fā)集和測(cè)試集。有監(jiān)督式設(shè)置給文檔級(jí)RE系統(tǒng)帶來(lái)了以下兩個(gè)挑戰(zhàn)。

第一個(gè)挑戰(zhàn)來(lái)自于執(zhí)行文檔級(jí)RE所需要的豐富推理技能。如第3節(jié)所示，約61.1%的關(guān)系實(shí)例依賴于模型識(shí)別以外的復(fù)雜推理技能來(lái)提取，這就要求RE系統(tǒng)超越識(shí)別單句中的簡(jiǎn)單模式，對(duì)文檔中的全局和復(fù)雜信息進(jìn)行推理。

第二個(gè)挑戰(zhàn)在于對(duì)長(zhǎng)文檔進(jìn)行建模的高計(jì)算開(kāi)銷和文檔中大量的潛在實(shí)體對(duì)，而文檔中的實(shí)體數(shù)量是平方的（平均一個(gè)文檔中19.5個(gè)實(shí)體）。

弱監(jiān)督環(huán)境。這種設(shè)置與有監(jiān)督的設(shè)置相同，只是將訓(xùn)練集換成了遠(yuǎn)距離有監(jiān)督的數(shù)據(jù)(2.2節(jié))。除了上述兩個(gè)挑戰(zhàn)之外，伴隨著遠(yuǎn)距離監(jiān)督數(shù)據(jù)不可避免的錯(cuò)誤標(biāo)簽問(wèn)題，也是弱監(jiān)督環(huán)境下RE模型的一大挑戰(zhàn)。

五、實(shí)驗(yàn)
在DocRED數(shù)據(jù)集上評(píng)估RE模型，還評(píng)估了人類的表現(xiàn)。并分析了不同支持證據(jù)類型的性能。此外，我們還進(jìn)行了消融研究，以研究不同特征的貢獻(xiàn)。

模型。分為2類模型，使用CNN/LSTM/BiLSTM模型和Context-Aware模型。

基于CNN/LSTM/BiLSTM的模型首先以CNN/LSTM/BiLSTM為編碼器，將由n個(gè)詞組成的文檔 [公式] 編碼成一個(gè)隱藏的狀態(tài)向量序列 [公式] ，然后計(jì)算實(shí)體的表示，最后預(yù)測(cè)每個(gè)實(shí)體對(duì)的關(guān)系。

對(duì)于每個(gè)單詞來(lái)說(shuō)，輸入編碼器的特征是其GloVe詞嵌入（Pennington等，2014）、實(shí)體類型嵌入和核心參考嵌入的拼接。實(shí)體類型是如PER、LOC、ORG,實(shí)體類型映射成向量，實(shí)體id被映也射成向量作為核心參考嵌入。

對(duì)于每個(gè)命名的實(shí)體提及mk，從第s個(gè)詞到第t個(gè)詞，我們將其定義為

而具有K個(gè)提及的實(shí)體ei的表示是以這些提及的平均數(shù)來(lái)計(jì)算的：

我們將關(guān)系預(yù)測(cè)作為一個(gè)多標(biāo)簽分類問(wèn)題來(lái)處理。具體來(lái)說(shuō)，對(duì)于每一個(gè)實(shí)體對(duì)（ei，ej），我們首先將實(shí)體表示與相對(duì)距離嵌入拼接起來(lái)，然后使用雙線性函數(shù)計(jì)算每一種關(guān)系類型的概率:

其中[;]表示拼接，dij和dji為文檔中兩個(gè)實(shí)體首次提及的相對(duì)距離，E為嵌入矩陣，r為關(guān)系類型，Wr、br為關(guān)系類型依賴的可訓(xùn)練參數(shù)。

評(píng)價(jià)指標(biāo)。在我們的實(shí)驗(yàn)中使用了兩個(gè)廣泛使用的指標(biāo)F1和AUC。然而，有些關(guān)系事實(shí)同時(shí)存在于訓(xùn)練集和開(kāi)發(fā)/測(cè)試集中，因此模型在訓(xùn)練過(guò)程中可能會(huì)記住它們的關(guān)系，并以一種不可取的方式在開(kāi)發(fā)/測(cè)試集上獲得更好的性能，從而引入評(píng)價(jià)偏差。然而，訓(xùn)練集和開(kāi)發(fā)集/測(cè)試集之間的關(guān)系事實(shí)的重疊是不可避免的，因?yàn)樵S多共同的關(guān)系事實(shí)可能在不同的文檔中共享。因此，我們還報(bào)告了排除訓(xùn)練集和開(kāi)發(fā)集/測(cè)試集共享的關(guān)系事實(shí)的F1和AUC得分，分別表示為IgnF1和IgnAUC。

模型性能。表4顯示了監(jiān)督和弱監(jiān)督環(huán)境下的實(shí)驗(yàn)結(jié)果，從中我們有以下觀察。(1)用人工標(biāo)注數(shù)據(jù)訓(xùn)練的模型，其性能普遍優(yōu)于用遠(yuǎn)端有監(jiān)督數(shù)據(jù)訓(xùn)練的同類模型。這是因?yàn)殡m然大規(guī)模的遠(yuǎn)端有監(jiān)督數(shù)據(jù)可以很容易地通過(guò)遠(yuǎn)端有監(jiān)督獲得，但錯(cuò)誤標(biāo)注問(wèn)題可能會(huì)損害RE系統(tǒng)的性能，這使得弱監(jiān)督設(shè)置成為更困難的場(chǎng)景。(2)一個(gè)有趣的例外是，在遠(yuǎn)端有監(jiān)督數(shù)據(jù)上訓(xùn)練的LSTM、BiLSTM和Context-Aware的F1 Score與在人工標(biāo)注數(shù)據(jù)上訓(xùn)練的F1 Score相當(dāng)，但在其他指標(biāo)上的得分明顯較低，這說(shuō)明訓(xùn)練集和dev/test集之間的重疊實(shí)體對(duì)確實(shí)會(huì)造成評(píng)價(jià)偏差。因此，報(bào)告Ign F1和Ign AUC是必要的。(3)利用豐富的上下文信息的模型一般能獲得更好的性能。LSTM和BiLSTM的表現(xiàn)優(yōu)于CNN，表明在文檔級(jí)RE中對(duì)長(zhǎng)依賴語(yǔ)義建模的有效性。Context-Aware實(shí)現(xiàn)了具有競(jìng)爭(zhēng)力的性能，然而，它不能顯著優(yōu)于其他神經(jīng)模型。這說(shuō)明在文檔級(jí)RE中考慮多種關(guān)系的關(guān)聯(lián)是有益的，而目前的模型不能很好地利用相互關(guān)系信息。

表4：不同RE模型在DocRED上的表現(xiàn)（%）。
人類的表現(xiàn)。表5顯示了DocRED數(shù)據(jù)集上RE模型和人類的的表現(xiàn)在。人類在文檔級(jí)RE任務(wù)（RE）和聯(lián)合識(shí)別關(guān)系和支持證據(jù)任務(wù)（RE+Sup）上都取得了具有競(jìng)爭(zhēng)力的結(jié)果，說(shuō)明DocRED的上限性能和標(biāo)注者之間的一致性都比較高。此外，RE模型的整體表現(xiàn)明顯低于人類的表現(xiàn)，這說(shuō)明文檔級(jí)RE是一項(xiàng)具有挑戰(zhàn)性的任務(wù)，也說(shuō)明有充分的改進(jìn)機(jī)會(huì)。

表5：人類表現(xiàn)（％）。
特征消融。我們對(duì)BiLSTM模型進(jìn)行特征消融研究，研究不同特征在文檔級(jí)RE中的貢獻(xiàn)，包括實(shí)體類型、核心參考信息和實(shí)體之間的相對(duì)距離（Eq.1）。表6顯示，上述特征都對(duì)性能有貢獻(xiàn)。具體來(lái)說(shuō)，實(shí)體類型由于其對(duì)可行關(guān)系類型的約束，貢獻(xiàn)最大。核心參考信息和實(shí)體之間的相對(duì)距離對(duì)于從多個(gè)命名實(shí)體提及中綜合信息也很重要。(重點(diǎn))這表明，對(duì)于RE系統(tǒng)來(lái)說(shuō)，利用文檔層面的豐富信息是很重要的。

表6: 開(kāi)發(fā)集上的特征消融(%)。
支持性證據(jù)預(yù)測(cè)。我們提出了一個(gè)新的任務(wù)來(lái)預(yù)測(cè)關(guān)系實(shí)例的支持證據(jù)。一方面，聯(lián)合預(yù)測(cè)證據(jù)提供了更好的可解釋性。另一方面，從文本中識(shí)別支持證據(jù)和推理關(guān)系事實(shí)是天然的雙重任務(wù)，具有潛在的相互增強(qiáng)作用。我們?cè)O(shè)計(jì)了兩種支持性證據(jù)預(yù)測(cè)方法。(1)啟發(fā)式預(yù)測(cè)器。我們實(shí)現(xiàn)了一個(gè)簡(jiǎn)單的基于啟發(fā)式的模型，將所有包含頭部或尾部實(shí)體的句子視為支持證據(jù)。(2)神經(jīng)預(yù)測(cè)器。給定一個(gè)實(shí)體對(duì)和一個(gè)預(yù)測(cè)關(guān)系，首先將句子通過(guò)詞嵌入和位置嵌入的拼接轉(zhuǎn)化為輸入表示，然后輸入BiLSTM編碼器進(jìn)行上下文表示。受Yang等人(2018)的啟發(fā)，我們將BiLSTM在首尾位置的輸出與可訓(xùn)練的關(guān)系嵌入進(jìn)行并聯(lián)，得到句子的表示，用于預(yù)測(cè)該句子是否被采納為給定關(guān)系實(shí)例的支持證據(jù)。如表7所示，神經(jīng)預(yù)測(cè)器在預(yù)測(cè)支持證據(jù)方面明顯優(yōu)于基于啟發(fā)式的基線，這說(shuō)明RE模型在聯(lián)合關(guān)系和支持證據(jù)預(yù)測(cè)方面的潛力。

表7：F1 Score，聯(lián)合關(guān)系和支持證據(jù)預(yù)測(cè)的表現(xiàn)（%）。
討論。通過(guò)以上實(shí)驗(yàn)結(jié)果和分析，我們可以得出這樣的結(jié)論：文檔級(jí)RE比句子級(jí)RE更具挑戰(zhàn)性

七、結(jié)論
為了促進(jìn)RE系統(tǒng)從句子級(jí)到文檔級(jí)的發(fā)展，我們提出了DocRED，這是一個(gè)大規(guī)模的文檔級(jí)RE數(shù)據(jù)集，它的特點(diǎn)是數(shù)據(jù)量大，對(duì)多個(gè)句子的閱讀和推理的要求，以及提供的遠(yuǎn)端有監(jiān)督數(shù)據(jù)，以促進(jìn)弱監(jiān)督文檔級(jí)RE的發(fā)展。實(shí)驗(yàn)表明，人類的表現(xiàn)明顯高于RE基線模型，這表明未來(lái)有充足的改進(jìn)機(jī)會(huì)。

八、一條數(shù)據(jù)樣本的格式

Data Format:
{'title',  文章的標(biāo)題'sents':     [[句子0中的所有單詞],[word in sent 1]]'vertexSet': [[{ 'name': 實(shí)體提及的名字，即一個(gè)實(shí)體, 'sent_id': 實(shí)體在某個(gè)句子中出現(xiàn)，這個(gè)句子的id, 'pos': 實(shí)體在這個(gè)句子中的起始和結(jié)束位置, 'type': 實(shí)體的NER類型NER_type}{其它提及}], [其它實(shí)體]'labels':   [{'h': 第一個(gè)實(shí)體在vertexSet中的的索引位置't': 第二個(gè)實(shí)體在vertexSet中的的索引位置,'r': relation, 訓(xùn)練集中使用使用的是P6，代表的是rel_info.json中的"head of government"， 'evidence': 支持證據(jù)的句子，支持這個(gè)關(guān)系的句子的id，支持2個(gè)實(shí)體的關(guān)系的佐證的句子}]
}

一條train_annotated.json的內(nèi)容
{"vertexSet": [[{"pos": [0,4],"type": "ORG","sent_id": 0,"name": "Zest Airways, Inc."},{"sent_id": 0,"type": "ORG","pos": [10,15],"name": "Asian Spirit and Zest Air"},{"name": "AirAsia Zest","pos": [6,8],"sent_id": 0,"type": "ORG"},{"name": "AirAsia Zest","pos": [19,21],"sent_id": 6,"type": "ORG"}],[{"name": "Ninoy Aquino International Airport","pos": [4,8],"sent_id": 3,"type": "LOC"},{"name": "Ninoy Aquino International Airport","pos": [26,30],"sent_id": 0,"type": "LOC"}],[{"name": "Pasay City","pos": [31,33],"sent_id": 0,"type": "LOC"}],[{"name": "Metro Manila","pos": [34,36],"sent_id": 0,"type": "LOC"}],[{"name": "Philippines","pos": [38,39],"sent_id": 0,"type": "LOC"},{"name": "Philippines","pos": [13,14],"sent_id": 4,"type": "LOC"},{"sent_id": 5,"type": "LOC","pos": [25,29],"name": "Republic of the Philippines"}],[{"name": "Manila","pos": [13,14],"sent_id": 1,"type": "LOC"},{"name": "Manila","pos": [9,10],"sent_id": 3,"type": "LOC"}],[{"name": "Cebu","pos": [15,16],"sent_id": 1,"type": "LOC"}],[{"pos": [17,18],"type": "NUM","sent_id": 1,"name": "24"}],[{"pos": [1,2],"type": "TIME","sent_id": 2,"name": "2013"},{"pos": [1,5],"type": "TIME","sent_id": 5,"name": "August 16, 2013"}],[{"pos": [9,11],"type": "ORG","name": "Philippines AirAsia","sent_id": 2}],[{"pos": [5,7],"type": "ORG","sent_id": 4,"name": "Asian Spirit"}],[{"pos": [7,13],"type": "ORG","sent_id": 5,"name": "Civil Aviation Authority of the Philippines"},{"name": "CAAP","pos": [14,15],"sent_id": 5,"type": "ORG"}],[{"name": "Zest Air","pos": [34,36],"sent_id": 5,"type": "ORG"},{"pos": [7,9],"type": "ORG","sent_id": 6,"name": "Zest Air"}],[{"sent_id": 6,"type": "NUM","pos": [2,4],"name": "a year"}],[{"name": "AirAsia","pos": [5,6],"sent_id": 6,"type": "ORG"}],[{"pos": [5,7],"type": "ORG","name": "AirAsia Philippines","sent_id": 7}],[{"pos": [8,10],"type": "TIME","sent_id": 7,"name": "January 2016"}]],"labels": [{"r": "P159","h": 0,"t": 2,"evidence": [0]},{"r": "P17","h": 0,"t": 4,"evidence": [2,4,7]},{"r": "P17","h": 12,"t": 4,"evidence": [6,7]},{"r": "P17","h": 2,"t": 4,"evidence": [0]},{"r": "P131","h": 2,"t": 3,"evidence": [0]},{"r": "P150","h": 4,"t": 3,"evidence": [0]},{"r": "P17","h": 5,"t": 4,"evidence": [0,3]},{"r": "P150","h": 3,"t": 2,"evidence": [0]},{"r": "P131","h": 3,"t": 4,"evidence": [0,3]},{"r": "P17","h": 3,"t": 4,"evidence": [0,3]},{"r": "P131","h": 1,"t": 2,"evidence": [0,3]},{"r": "P17","h": 1,"t": 4,"evidence": [0,3]},{"r": "P17","h": 10,"t": 4,"evidence": [4]}],"title": "AirAsia Zest","sents": [["Zest","Airways",",","Inc.","operated","as","AirAsia","Zest","(","formerly","Asian","Spirit","and","Zest","Air",")",",","was","a","low","-","cost","airline","based","at","the","Ninoy","Aquino","International","Airport","in","Pasay","City",",","Metro","Manila","in","the","Philippines","."],["It","operated","scheduled","domestic","and","international","tourist","services",",","mainly","feeder","services","linking","Manila","and","Cebu","with","24","domestic","destinations","in","support","of","the","trunk","route","operations","of","other","airlines","."],["In","2013",",","the","airline","became","an","affiliate","of","Philippines","AirAsia","operating","their","brand","separately","."],["Its","main","base","was","Ninoy","Aquino","International","Airport",",","Manila","."],["The","airline","was","founded","as","Asian","Spirit",",","the","first","airline","in","the","Philippines","to","be","run","as","a","cooperative","."],["On","August","16",",","2013",",","the","Civil","Aviation","Authority","of","the","Philippines","(","CAAP",")",",","the","regulating","body","of","the","Government","of","the","Republic","of","the","Philippines","for","civil","aviation",",","suspended","Zest","Air","flights","until","further","notice","because","of","safety","issues","."],["Less","than","a","year","after","AirAsia","and","Zest","Air","\u0027s","strategic","alliance",",","the","airline","has","been","rebranded","as","AirAsia","Zest","."],["The","airline","was","merged","into","AirAsia","Philippines","in","January","2016","."]]
}


原文： DocRED: A Large-Scale Document-Level Relation Extraction Dataset
作者： Yuan Yao1? , Deming Ye1?
發(fā)布時(shí)間： 2019年8月\
代碼: thunlp/DocRED

總結(jié)

以上是生活随笔為你收集整理的docred数据集情况笔记的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

生活经验

docred数据集情况笔记

總結(jié)