docred数据集情况笔记
20210621
什么是關(guān)系事實(shí),核心參考信息
實(shí)體提及:某個(gè)實(shí)體在不同句子中出現(xiàn)都叫提及
關(guān)系事實(shí):就是具有真實(shí)關(guān)系的 實(shí)體對(duì)?
- 作者辛苦用人工標(biāo)注的方式整理了目前最大的基于維基百科的文檔級(jí)關(guān)系抽取數(shù)據(jù)集,實(shí)體和關(guān)系眾多,跨多個(gè)域,并進(jìn)行了當(dāng)前有監(jiān)督模型和無(wú)監(jiān)督模型的測(cè)試。
- 數(shù)據(jù)的主要部分包含,實(shí)體,實(shí)體之間的關(guān)系和佐證這個(gè)實(shí)體之間關(guān)系的證據(jù)的句子。見(jiàn)圖1示例。
- 作者講述了數(shù)據(jù)集是如何制作出來(lái)的,通過(guò)知識(shí)庫(kù)KB,命名實(shí)體識(shí)別,關(guān)系模型的提取的關(guān)系的參考,和人工的三輪標(biāo)注制作而來(lái)。
- DocRED數(shù)據(jù)集的實(shí)體類型,關(guān)系類型,推理類型和句間關(guān)系都是比較復(fù)雜的。對(duì)于RE模型來(lái)說(shuō)是相當(dāng)大的考驗(yàn)。
- 作者分別對(duì)有監(jiān)督和弱監(jiān)督設(shè)置了Baseline,使用的模型包括2類CNN/LSTM/BiLSTM模型和Context-Aware模型,主要考慮的特征有GloVe詞嵌入、實(shí)體類型嵌入和核心參考嵌入和dij和dji為文檔中兩個(gè)實(shí)體首次提及的相對(duì)距離特征。實(shí)體的表示是通過(guò)實(shí)體的單詞范圍和實(shí)體出現(xiàn)的次數(shù)的平均向量表示。實(shí)體之間的關(guān)系是是實(shí)體和實(shí)體間距離之后加個(gè)線性層分類后得到的,參見(jiàn)公式1。
- 作者考慮的特征包括整個(gè)文檔的單詞向量,每個(gè)單詞的字符向量,但是代碼中只考慮512個(gè)長(zhǎng)度,2個(gè)實(shí)體的類型,2個(gè)實(shí)體的位置,2個(gè)實(shí)體的相對(duì)位置。
- 實(shí)驗(yàn)結(jié)果和人工表現(xiàn)對(duì)比,現(xiàn)有模型很難達(dá)到人工表現(xiàn),差距很大,模型有很大提高潛力,主要在于現(xiàn)有模型不能很好的考慮多個(gè)句子間的全局上下文的信息。
一、簡(jiǎn)介
DocRED是不僅對(duì)實(shí)體句內(nèi)關(guān)系進(jìn)行構(gòu)建,還對(duì)句間關(guān)系進(jìn)行考慮。是基于Wikipedia和Wikidata構(gòu)建的新數(shù)據(jù)集。具有以下三個(gè)特點(diǎn)。(1)DocRED同時(shí)對(duì)命名實(shí)體和關(guān)系進(jìn)行標(biāo)注,是最大的從純文本中提取文檔級(jí)RE的人工標(biāo)注數(shù)據(jù)集;(2)DocRED需要閱讀文檔中的多個(gè)句子,通過(guò)綜合文檔的所有信息來(lái)提取實(shí)體并推斷其關(guān)系;(3)除了人工標(biāo)注的數(shù)據(jù),還提供了大規(guī)模的遠(yuǎn)距離監(jiān)督數(shù)據(jù),這使得DocRED可以同時(shí)適用于監(jiān)督和弱監(jiān)督的場(chǎng)景。
關(guān)系抽取(relation extraction,RE)的任務(wù)是從純文本中識(shí)別實(shí)體之間的關(guān)系事實(shí),這在大規(guī)模知識(shí)圖譜構(gòu)建中起著重要作用。句子級(jí)RE關(guān)系和文檔級(jí)關(guān)系,即多個(gè)句子間的關(guān)系相比,是有限制的。從維基百科文檔中抽取的人類標(biāo)注語(yǔ)料庫(kù)的統(tǒng)計(jì),至少有40.7%的關(guān)系事實(shí)只能從多個(gè)句子中抽取。例如圖1,DocRED中的每個(gè)文檔都被標(biāo)注了命名實(shí)體提及、核心參考信息、句內(nèi)和句間關(guān)系以及支持證據(jù)。在本例文檔標(biāo)注的19個(gè)關(guān)系實(shí)例中,有2個(gè)被呈現(xiàn)出來(lái),這些實(shí)例中涉及的命名實(shí)體提及用藍(lán)色標(biāo)示,其他命名實(shí)體提及用下劃線表示以示清晰。請(qǐng)注意,同一主題的提及(例如,Kungliga Hovkapellet和Royal Court Orchestra)在第一個(gè)關(guān)系實(shí)例中被識(shí)別。
圖1:DocRED中的一個(gè)樣本
DocRED是一個(gè)從Wikipedia和Wikidata構(gòu)建的大規(guī)模人工標(biāo)注的文檔級(jí)RE數(shù)據(jù)集,具有以下三個(gè)特征。(1)DocRED包含132375個(gè)實(shí)體和56354個(gè)關(guān)系事實(shí),標(biāo)注在5,053個(gè)維基百科文檔上,使其成為最大的人工標(biāo)注文檔級(jí)RE數(shù)據(jù)集。(2)由于DocRED中至少有40.7%的關(guān)系事實(shí)只能從多個(gè)句子中抽取,因此DocRED需要閱讀文檔中的多個(gè)句子來(lái)識(shí)別實(shí)體,并通過(guò)綜合文檔的所有信息來(lái)推理其關(guān)系。這使得DocRED區(qū)別于那些句子級(jí)的RE數(shù)據(jù)集,(3)還提供了大規(guī)模的遠(yuǎn)距離有監(jiān)督數(shù)據(jù)來(lái)支持弱監(jiān)督的RE研究。
二、 數(shù)據(jù)收集
人工標(biāo)注數(shù)據(jù)分四個(gè)階段收集。(1) 為維基百科文檔生成遠(yuǎn)端有監(jiān)督標(biāo)注。
(2)對(duì)文檔中的所有命名實(shí)體提及和核心參考信息進(jìn)行標(biāo)注。(3)將命名實(shí)體提及與Wikidata項(xiàng)目進(jìn)行鏈接。(4)標(biāo)注關(guān)系和相應(yīng)的支持證據(jù)。
階段1。遠(yuǎn)距離有監(jiān)督注解生成,選擇需要人工標(biāo)注的文檔。使用spaCy2進(jìn)行命名實(shí)體識(shí)別。然后,將這些命名實(shí)體提及鏈接到Wikidata項(xiàng)目,將具有相同KB ID的命名實(shí)體提及進(jìn)行合并。最后,通過(guò)查詢Wikidata,對(duì)文檔中每個(gè)合并的命名實(shí)體對(duì)之間的關(guān)系進(jìn)行標(biāo)注。包含少于128個(gè)單詞的文檔將被丟棄。丟棄包含少于4個(gè)實(shí)體或少于4個(gè)關(guān)系實(shí)例的文檔,從而得到107,050個(gè)具有遠(yuǎn)端有監(jiān)督標(biāo)簽的文檔,隨機(jī)選擇5,053個(gè)文檔和最頻繁的96個(gè)關(guān)系進(jìn)行人工標(biāo)注。
階段2:命名實(shí)體和引用標(biāo)注。從文檔中抽取關(guān)系需要首先識(shí)別命名實(shí)體的提及,并識(shí)別提及文檔中相同實(shí)體的引用。為了提供高質(zhì)量的命名實(shí)體提及和核心參考信息,我們要求人工標(biāo)注者首先對(duì)第一階段生成的命名實(shí)體提及提議進(jìn)行審查、修正和補(bǔ)充,然后合并那些指向相同實(shí)體的不同提及,從而提供額外的核心參考信息。生成的中間語(yǔ)料包含各種命名實(shí)體類型,包括人、地點(diǎn)、組織、時(shí)間、數(shù)量和不屬于上述類型的雜項(xiàng)實(shí)體名稱。
階段3:實(shí)體鏈接。在這一階段,我們將每個(gè)命名的實(shí)體提及鏈接到多個(gè)Wikidata項(xiàng)目,為下一階段提供遠(yuǎn)端監(jiān)督的關(guān)系推薦。使用RE模型篩選出每篇文檔推薦關(guān)系實(shí)例,要求標(biāo)注者審查這些關(guān)系實(shí)例,刪除不正確的關(guān)系實(shí)例,補(bǔ)充遺漏的關(guān)系實(shí)例。還要求標(biāo)注者進(jìn)一步選擇所有支持保留關(guān)系實(shí)例的句子作為支持證據(jù)。最后57.2%來(lái)自實(shí)體鏈接的關(guān)系實(shí)例和48.2%來(lái)自RE模型的關(guān)系實(shí)例被保留。
三、 數(shù)據(jù)分析
在本節(jié)中,我們將對(duì)DocRED的各個(gè)方面進(jìn)行分析,以便對(duì)數(shù)據(jù)集和文檔級(jí)RE的任務(wù)有更深入的了解。
數(shù)據(jù)規(guī)模大,參見(jiàn)表1
表1:RE數(shù)據(jù)集的統(tǒng)計(jì)(Doc.:文檔,Sent.:句子,Ent.:實(shí)體,Rel.:關(guān)系類型,Inst.:關(guān)系實(shí)例,Fact:關(guān)系事實(shí))。前四個(gè)是句子級(jí)RE數(shù)據(jù)集。
命名實(shí)體類型。DocRED涵蓋各種實(shí)體類型,包括人(18.5%)、地點(diǎn)(30.9%)、組織(14.4%)、時(shí)間(15.8%)和數(shù)字(5.1%)。它還涵蓋了不屬于上述類型的各種雜項(xiàng)實(shí)體名稱(15.2%),如事件、藝術(shù)工作和法律。每個(gè)實(shí)體平均被提及1.34次。
關(guān)系類型。我們的數(shù)據(jù)集包括96種來(lái)自Wikidata的頻繁關(guān)系類型。我們數(shù)據(jù)集的一個(gè)顯著特點(diǎn)是,關(guān)系類型涵蓋了廣泛的類別,包括與科學(xué)(33.3%)、藝術(shù)(11.5%)、時(shí)間(8.3%)、個(gè)人生活(4.2%)等相關(guān)的關(guān)系,這意味著關(guān)系事實(shí)不受任何特定領(lǐng)域的限制。此外,這些關(guān)系類型的組織結(jié)構(gòu)層次分明、分類明確,可以為文檔級(jí)RE系統(tǒng)提供豐富的信息。
推理類型。表2顯示了我們數(shù)據(jù)集中主要推理類型的統(tǒng)計(jì)。從推理類型的統(tǒng)計(jì)中,我們有以下觀察:(1)大部分關(guān)系實(shí)例(61.1%)需要通過(guò)推理來(lái)識(shí)別,只有38.9%的關(guān)系實(shí)例可以通過(guò)簡(jiǎn)單的模型識(shí)別來(lái)抽取,這說(shuō)明推理對(duì)于文檔級(jí)的RE是必不可少的。(2)在具有推理特征的關(guān)系實(shí)例中,大多數(shù)(26.6%)需要進(jìn)行邏輯推理,即有關(guān)的兩個(gè)實(shí)體之間的關(guān)系是由橋梁實(shí)體間接建立的。邏輯推理要求RE系統(tǒng)能夠?qū)Χ鄠€(gè)實(shí)體之間的相互作用進(jìn)行建模。(3)相當(dāng)數(shù)量的關(guān)系實(shí)例(17.6%)需要進(jìn)行核心參照推理,在這種情況下,必須先進(jìn)行核心參照解析,以便在豐富的上下文中確定目標(biāo)實(shí)體。(4)相似比例的關(guān)系實(shí)例(16.6%)需要基于常識(shí)推理進(jìn)行識(shí)別,讀者需要結(jié)合文檔中的關(guān)系事實(shí)和常識(shí)來(lái)完成關(guān)系識(shí)別。綜上所述,DocRED需要豐富的推理能力來(lái)綜合文檔的所有信息。
表2:DocRED上文檔級(jí)RE所需的推理類型。剩余的0.3%需要其他類型的推理,如時(shí)間推理。
句間關(guān)系實(shí)例。我們發(fā)現(xiàn),每個(gè)關(guān)系實(shí)例平均與1.6個(gè)支持句相關(guān)聯(lián),其中46.4%的關(guān)系實(shí)例與多個(gè)支持句相關(guān)聯(lián)。此外,詳細(xì)分析發(fā)現(xiàn),40.7%的關(guān)系事實(shí)只能從多個(gè)句子中抽取,這說(shuō)明DocRED是文檔級(jí)RE的良好基準(zhǔn)。我們也可以得出結(jié)論,閱讀、綜合和推理多個(gè)句子的能力是文檔級(jí)RE所必需的。
四、基準(zhǔn)設(shè)置
我們分別針對(duì)有監(jiān)督和弱監(jiān)督的場(chǎng)景設(shè)計(jì)了兩個(gè)基準(zhǔn)設(shè)置。兩種設(shè)置使用的數(shù)據(jù)統(tǒng)計(jì)如表3所示。
表3:兩個(gè)基準(zhǔn)設(shè)置(第4節(jié))使用的數(shù)據(jù)統(tǒng)計(jì):有監(jiān)督設(shè)置(S)和弱監(jiān)督設(shè)置(W)。
有監(jiān)督設(shè)置。在這種設(shè)置中,只使用人工標(biāo)注的數(shù)據(jù),這些數(shù)據(jù)被隨機(jī)分成訓(xùn)練集、開(kāi)發(fā)集和測(cè)試集。有監(jiān)督式設(shè)置給文檔級(jí)RE系統(tǒng)帶來(lái)了以下兩個(gè)挑戰(zhàn)。
第一個(gè)挑戰(zhàn)來(lái)自于執(zhí)行文檔級(jí)RE所需要的豐富推理技能。如第3節(jié)所示,約61.1%的關(guān)系實(shí)例依賴于模型識(shí)別以外的復(fù)雜推理技能來(lái)提取,這就要求RE系統(tǒng)超越識(shí)別單句中的簡(jiǎn)單模式,對(duì)文檔中的全局和復(fù)雜信息進(jìn)行推理。
第二個(gè)挑戰(zhàn)在于對(duì)長(zhǎng)文檔進(jìn)行建模的高計(jì)算開(kāi)銷和文檔中大量的潛在實(shí)體對(duì),而文檔中的實(shí)體數(shù)量是平方的(平均一個(gè)文檔中19.5個(gè)實(shí)體)。
弱監(jiān)督環(huán)境。這種設(shè)置與有監(jiān)督的設(shè)置相同,只是將訓(xùn)練集換成了遠(yuǎn)距離有監(jiān)督的數(shù)據(jù)(2.2節(jié))。除了上述兩個(gè)挑戰(zhàn)之外,伴隨著遠(yuǎn)距離監(jiān)督數(shù)據(jù)不可避免的錯(cuò)誤標(biāo)簽問(wèn)題,也是弱監(jiān)督環(huán)境下RE模型的一大挑戰(zhàn)。
五、實(shí)驗(yàn)
在DocRED數(shù)據(jù)集上評(píng)估RE模型,還評(píng)估了人類的表現(xiàn)。并分析了不同支持證據(jù)類型的性能。此外,我們還進(jìn)行了消融研究,以研究不同特征的貢獻(xiàn)。
模型。分為2類模型,使用CNN/LSTM/BiLSTM模型和Context-Aware模型。
基于CNN/LSTM/BiLSTM的模型首先以CNN/LSTM/BiLSTM為編碼器,將由n個(gè)詞組成的文檔 [公式] 編碼成一個(gè)隱藏的狀態(tài)向量序列 [公式] ,然后計(jì)算實(shí)體的表示,最后預(yù)測(cè)每個(gè)實(shí)體對(duì)的關(guān)系。
對(duì)于每個(gè)單詞來(lái)說(shuō),輸入編碼器的特征是其GloVe詞嵌入(Pennington等,2014)、實(shí)體類型嵌入和核心參考嵌入的拼接。實(shí)體類型是如PER、LOC、ORG,實(shí)體類型映射成向量,實(shí)體id被映也射成向量作為核心參考嵌入。
對(duì)于每個(gè)命名的實(shí)體提及mk,從第s個(gè)詞到第t個(gè)詞,我們將其定義為
而具有K個(gè)提及的實(shí)體ei的表示是以這些提及的平均數(shù)來(lái)計(jì)算的:
我們將關(guān)系預(yù)測(cè)作為一個(gè)多標(biāo)簽分類問(wèn)題來(lái)處理。具體來(lái)說(shuō),對(duì)于每一個(gè)實(shí)體對(duì)(ei,ej),我們首先將實(shí)體表示與相對(duì)距離嵌入拼接起來(lái),然后使用雙線性函數(shù)計(jì)算每一種關(guān)系類型的概率:
其中[;]表示拼接,dij和dji為文檔中兩個(gè)實(shí)體首次提及的相對(duì)距離,E為嵌入矩陣,r為關(guān)系類型,Wr、br為關(guān)系類型依賴的可訓(xùn)練參數(shù)。
評(píng)價(jià)指標(biāo)。在我們的實(shí)驗(yàn)中使用了兩個(gè)廣泛使用的指標(biāo)F1和AUC。然而,有些關(guān)系事實(shí)同時(shí)存在于訓(xùn)練集和開(kāi)發(fā)/測(cè)試集中,因此模型在訓(xùn)練過(guò)程中可能會(huì)記住它們的關(guān)系,并以一種不可取的方式在開(kāi)發(fā)/測(cè)試集上獲得更好的性能,從而引入評(píng)價(jià)偏差。然而,訓(xùn)練集和開(kāi)發(fā)集/測(cè)試集之間的關(guān)系事實(shí)的重疊是不可避免的,因?yàn)樵S多共同的關(guān)系事實(shí)可能在不同的文檔中共享。因此,我們還報(bào)告了排除訓(xùn)練集和開(kāi)發(fā)集/測(cè)試集共享的關(guān)系事實(shí)的F1和AUC得分,分別表示為IgnF1和IgnAUC。
模型性能。表4顯示了監(jiān)督和弱監(jiān)督環(huán)境下的實(shí)驗(yàn)結(jié)果,從中我們有以下觀察。(1)用人工標(biāo)注數(shù)據(jù)訓(xùn)練的模型,其性能普遍優(yōu)于用遠(yuǎn)端有監(jiān)督數(shù)據(jù)訓(xùn)練的同類模型。這是因?yàn)殡m然大規(guī)模的遠(yuǎn)端有監(jiān)督數(shù)據(jù)可以很容易地通過(guò)遠(yuǎn)端有監(jiān)督獲得,但錯(cuò)誤標(biāo)注問(wèn)題可能會(huì)損害RE系統(tǒng)的性能,這使得弱監(jiān)督設(shè)置成為更困難的場(chǎng)景。(2)一個(gè)有趣的例外是,在遠(yuǎn)端有監(jiān)督數(shù)據(jù)上訓(xùn)練的LSTM、BiLSTM和Context-Aware的F1 Score與在人工標(biāo)注數(shù)據(jù)上訓(xùn)練的F1 Score相當(dāng),但在其他指標(biāo)上的得分明顯較低,這說(shuō)明訓(xùn)練集和dev/test集之間的重疊實(shí)體對(duì)確實(shí)會(huì)造成評(píng)價(jià)偏差。因此,報(bào)告Ign F1和Ign AUC是必要的。(3)利用豐富的上下文信息的模型一般能獲得更好的性能。LSTM和BiLSTM的表現(xiàn)優(yōu)于CNN,表明在文檔級(jí)RE中對(duì)長(zhǎng)依賴語(yǔ)義建模的有效性。Context-Aware實(shí)現(xiàn)了具有競(jìng)爭(zhēng)力的性能,然而,它不能顯著優(yōu)于其他神經(jīng)模型。這說(shuō)明在文檔級(jí)RE中考慮多種關(guān)系的關(guān)聯(lián)是有益的,而目前的模型不能很好地利用相互關(guān)系信息。
表4:不同RE模型在DocRED上的表現(xiàn)(%)。
人類的表現(xiàn)。表5顯示了DocRED數(shù)據(jù)集上RE模型和人類的的表現(xiàn)在。人類在文檔級(jí)RE任務(wù)(RE)和聯(lián)合識(shí)別關(guān)系和支持證據(jù)任務(wù)(RE+Sup)上都取得了具有競(jìng)爭(zhēng)力的結(jié)果,說(shuō)明DocRED的上限性能和標(biāo)注者之間的一致性都比較高。此外,RE模型的整體表現(xiàn)明顯低于人類的表現(xiàn),這說(shuō)明文檔級(jí)RE是一項(xiàng)具有挑戰(zhàn)性的任務(wù),也說(shuō)明有充分的改進(jìn)機(jī)會(huì)。
表5:人類表現(xiàn)(%)。
特征消融。我們對(duì)BiLSTM模型進(jìn)行特征消融研究,研究不同特征在文檔級(jí)RE中的貢獻(xiàn),包括實(shí)體類型、核心參考信息和實(shí)體之間的相對(duì)距離(Eq.1)。表6顯示,上述特征都對(duì)性能有貢獻(xiàn)。具體來(lái)說(shuō),實(shí)體類型由于其對(duì)可行關(guān)系類型的約束,貢獻(xiàn)最大。核心參考信息和實(shí)體之間的相對(duì)距離對(duì)于從多個(gè)命名實(shí)體提及中綜合信息也很重要。(重點(diǎn))這表明,對(duì)于RE系統(tǒng)來(lái)說(shuō),利用文檔層面的豐富信息是很重要的。
表6: 開(kāi)發(fā)集上的特征消融(%)。
支持性證據(jù)預(yù)測(cè)。我們提出了一個(gè)新的任務(wù)來(lái)預(yù)測(cè)關(guān)系實(shí)例的支持證據(jù)。一方面,聯(lián)合預(yù)測(cè)證據(jù)提供了更好的可解釋性。另一方面,從文本中識(shí)別支持證據(jù)和推理關(guān)系事實(shí)是天然的雙重任務(wù),具有潛在的相互增強(qiáng)作用。我們?cè)O(shè)計(jì)了兩種支持性證據(jù)預(yù)測(cè)方法。(1)啟發(fā)式預(yù)測(cè)器。我們實(shí)現(xiàn)了一個(gè)簡(jiǎn)單的基于啟發(fā)式的模型,將所有包含頭部或尾部實(shí)體的句子視為支持證據(jù)。(2)神經(jīng)預(yù)測(cè)器。給定一個(gè)實(shí)體對(duì)和一個(gè)預(yù)測(cè)關(guān)系,首先將句子通過(guò)詞嵌入和位置嵌入的拼接轉(zhuǎn)化為輸入表示,然后輸入BiLSTM編碼器進(jìn)行上下文表示。受Yang等人(2018)的啟發(fā),我們將BiLSTM在首尾位置的輸出與可訓(xùn)練的關(guān)系嵌入進(jìn)行并聯(lián),得到句子的表示,用于預(yù)測(cè)該句子是否被采納為給定關(guān)系實(shí)例的支持證據(jù)。如表7所示,神經(jīng)預(yù)測(cè)器在預(yù)測(cè)支持證據(jù)方面明顯優(yōu)于基于啟發(fā)式的基線,這說(shuō)明RE模型在聯(lián)合關(guān)系和支持證據(jù)預(yù)測(cè)方面的潛力。
表7:F1 Score, 聯(lián)合關(guān)系和支持證據(jù)預(yù)測(cè)的表現(xiàn)(%)。
討論。通過(guò)以上實(shí)驗(yàn)結(jié)果和分析,我們可以得出這樣的結(jié)論:文檔級(jí)RE比句子級(jí)RE更具挑戰(zhàn)性
七、結(jié)論
為了促進(jìn)RE系統(tǒng)從句子級(jí)到文檔級(jí)的發(fā)展,我們提出了DocRED,這是一個(gè)大規(guī)模的文檔級(jí)RE數(shù)據(jù)集,它的特點(diǎn)是數(shù)據(jù)量大,對(duì)多個(gè)句子的閱讀和推理的要求,以及提供的遠(yuǎn)端有監(jiān)督數(shù)據(jù),以促進(jìn)弱監(jiān)督文檔級(jí)RE的發(fā)展。實(shí)驗(yàn)表明,人類的表現(xiàn)明顯高于RE基線模型,這表明未來(lái)有充足的改進(jìn)機(jī)會(huì)。
八、一條數(shù)據(jù)樣本的格式
Data Format:
{'title', 文章的標(biāo)題'sents': [[句子0中的所有單詞],[word in sent 1]]'vertexSet': [[{ 'name': 實(shí)體提及的名字,即一個(gè)實(shí)體, 'sent_id': 實(shí)體在某個(gè)句子中出現(xiàn),這個(gè)句子的id, 'pos': 實(shí)體在這個(gè)句子中的起始和結(jié)束位置, 'type': 實(shí)體的NER類型NER_type}{其它提及}], [其它實(shí)體]'labels': [{'h': 第一個(gè)實(shí)體在vertexSet中的的索引位置't': 第二個(gè)實(shí)體在vertexSet中的的索引位置,'r': relation, 訓(xùn)練集中使用使用的是P6,代表的是rel_info.json中的"head of government", 'evidence': 支持證據(jù)的句子,支持這個(gè)關(guān)系的句子的id,支持2個(gè)實(shí)體的關(guān)系的佐證的句子}]
}
一條train_annotated.json的內(nèi)容
{"vertexSet": [[{"pos": [0,4],"type": "ORG","sent_id": 0,"name": "Zest Airways, Inc."},{"sent_id": 0,"type": "ORG","pos": [10,15],"name": "Asian Spirit and Zest Air"},{"name": "AirAsia Zest","pos": [6,8],"sent_id": 0,"type": "ORG"},{"name": "AirAsia Zest","pos": [19,21],"sent_id": 6,"type": "ORG"}],[{"name": "Ninoy Aquino International Airport","pos": [4,8],"sent_id": 3,"type": "LOC"},{"name": "Ninoy Aquino International Airport","pos": [26,30],"sent_id": 0,"type": "LOC"}],[{"name": "Pasay City","pos": [31,33],"sent_id": 0,"type": "LOC"}],[{"name": "Metro Manila","pos": [34,36],"sent_id": 0,"type": "LOC"}],[{"name": "Philippines","pos": [38,39],"sent_id": 0,"type": "LOC"},{"name": "Philippines","pos": [13,14],"sent_id": 4,"type": "LOC"},{"sent_id": 5,"type": "LOC","pos": [25,29],"name": "Republic of the Philippines"}],[{"name": "Manila","pos": [13,14],"sent_id": 1,"type": "LOC"},{"name": "Manila","pos": [9,10],"sent_id": 3,"type": "LOC"}],[{"name": "Cebu","pos": [15,16],"sent_id": 1,"type": "LOC"}],[{"pos": [17,18],"type": "NUM","sent_id": 1,"name": "24"}],[{"pos": [1,2],"type": "TIME","sent_id": 2,"name": "2013"},{"pos": [1,5],"type": "TIME","sent_id": 5,"name": "August 16, 2013"}],[{"pos": [9,11],"type": "ORG","name": "Philippines AirAsia","sent_id": 2}],[{"pos": [5,7],"type": "ORG","sent_id": 4,"name": "Asian Spirit"}],[{"pos": [7,13],"type": "ORG","sent_id": 5,"name": "Civil Aviation Authority of the Philippines"},{"name": "CAAP","pos": [14,15],"sent_id": 5,"type": "ORG"}],[{"name": "Zest Air","pos": [34,36],"sent_id": 5,"type": "ORG"},{"pos": [7,9],"type": "ORG","sent_id": 6,"name": "Zest Air"}],[{"sent_id": 6,"type": "NUM","pos": [2,4],"name": "a year"}],[{"name": "AirAsia","pos": [5,6],"sent_id": 6,"type": "ORG"}],[{"pos": [5,7],"type": "ORG","name": "AirAsia Philippines","sent_id": 7}],[{"pos": [8,10],"type": "TIME","sent_id": 7,"name": "January 2016"}]],"labels": [{"r": "P159","h": 0,"t": 2,"evidence": [0]},{"r": "P17","h": 0,"t": 4,"evidence": [2,4,7]},{"r": "P17","h": 12,"t": 4,"evidence": [6,7]},{"r": "P17","h": 2,"t": 4,"evidence": [0]},{"r": "P131","h": 2,"t": 3,"evidence": [0]},{"r": "P150","h": 4,"t": 3,"evidence": [0]},{"r": "P17","h": 5,"t": 4,"evidence": [0,3]},{"r": "P150","h": 3,"t": 2,"evidence": [0]},{"r": "P131","h": 3,"t": 4,"evidence": [0,3]},{"r": "P17","h": 3,"t": 4,"evidence": [0,3]},{"r": "P131","h": 1,"t": 2,"evidence": [0,3]},{"r": "P17","h": 1,"t": 4,"evidence": [0,3]},{"r": "P17","h": 10,"t": 4,"evidence": [4]}],"title": "AirAsia Zest","sents": [["Zest","Airways",",","Inc.","operated","as","AirAsia","Zest","(","formerly","Asian","Spirit","and","Zest","Air",")",",","was","a","low","-","cost","airline","based","at","the","Ninoy","Aquino","International","Airport","in","Pasay","City",",","Metro","Manila","in","the","Philippines","."],["It","operated","scheduled","domestic","and","international","tourist","services",",","mainly","feeder","services","linking","Manila","and","Cebu","with","24","domestic","destinations","in","support","of","the","trunk","route","operations","of","other","airlines","."],["In","2013",",","the","airline","became","an","affiliate","of","Philippines","AirAsia","operating","their","brand","separately","."],["Its","main","base","was","Ninoy","Aquino","International","Airport",",","Manila","."],["The","airline","was","founded","as","Asian","Spirit",",","the","first","airline","in","the","Philippines","to","be","run","as","a","cooperative","."],["On","August","16",",","2013",",","the","Civil","Aviation","Authority","of","the","Philippines","(","CAAP",")",",","the","regulating","body","of","the","Government","of","the","Republic","of","the","Philippines","for","civil","aviation",",","suspended","Zest","Air","flights","until","further","notice","because","of","safety","issues","."],["Less","than","a","year","after","AirAsia","and","Zest","Air","\u0027s","strategic","alliance",",","the","airline","has","been","rebranded","as","AirAsia","Zest","."],["The","airline","was","merged","into","AirAsia","Philippines","in","January","2016","."]]
}
原文: DocRED: A Large-Scale Document-Level Relation Extraction Dataset
作者: Yuan Yao1? , Deming Ye1?
發(fā)布時(shí)間: 2019年8月\
代碼: thunlp/DocRED
總結(jié)
以上是生活随笔為你收集整理的docred数据集情况笔记的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 快速下载谷歌网盘
- 下一篇: SSAN 关系抽取 论文笔记