日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人文社科 > 生活经验 >内容正文

生活经验

docred数据集情况笔记

發布時間:2023/11/28 生活经验 41 豆豆
生活随笔 收集整理的這篇文章主要介紹了 docred数据集情况笔记 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

20210621

什么是關系事實,核心參考信息

實體提及:某個實體在不同句子中出現都叫提及
關系事實:就是具有真實關系的 實體對?

  1. 作者辛苦用人工標注的方式整理了目前最大的基于維基百科的文檔級關系抽取數據集,實體和關系眾多,跨多個域,并進行了當前有監督模型和無監督模型的測試。
  2. 數據的主要部分包含,實體,實體之間的關系和佐證這個實體之間關系的證據的句子。見圖1示例。
  3. 作者講述了數據集是如何制作出來的,通過知識庫KB,命名實體識別,關系模型的提取的關系的參考,和人工的三輪標注制作而來。
  4. DocRED數據集的實體類型,關系類型,推理類型和句間關系都是比較復雜的。對于RE模型來說是相當大的考驗。
  5. 作者分別對有監督和弱監督設置了Baseline,使用的模型包括2類CNN/LSTM/BiLSTM模型和Context-Aware模型,主要考慮的特征有GloVe詞嵌入、實體類型嵌入和核心參考嵌入和dij和dji為文檔中兩個實體首次提及的相對距離特征。實體的表示是通過實體的單詞范圍和實體出現的次數的平均向量表示。實體之間的關系是是實體和實體間距離之后加個線性層分類后得到的,參見公式1。
  6. 作者考慮的特征包括整個文檔的單詞向量,每個單詞的字符向量,但是代碼中只考慮512個長度,2個實體的類型,2個實體的位置,2個實體的相對位置。
  7. 實驗結果和人工表現對比,現有模型很難達到人工表現,差距很大,模型有很大提高潛力,主要在于現有模型不能很好的考慮多個句子間的全局上下文的信息。
    一、簡介
    DocRED是不僅對實體句內關系進行構建,還對句間關系進行考慮。是基于Wikipedia和Wikidata構建的新數據集。具有以下三個特點。(1)DocRED同時對命名實體和關系進行標注,是最大的從純文本中提取文檔級RE的人工標注數據集;(2)DocRED需要閱讀文檔中的多個句子,通過綜合文檔的所有信息來提取實體并推斷其關系;(3)除了人工標注的數據,還提供了大規模的遠距離監督數據,這使得DocRED可以同時適用于監督和弱監督的場景。

關系抽取(relation extraction,RE)的任務是從純文本中識別實體之間的關系事實,這在大規模知識圖譜構建中起著重要作用。句子級RE關系和文檔級關系,即多個句子間的關系相比,是有限制的。從維基百科文檔中抽取的人類標注語料庫的統計,至少有40.7%的關系事實只能從多個句子中抽取。例如圖1,DocRED中的每個文檔都被標注了命名實體提及、核心參考信息、句內和句間關系以及支持證據。在本例文檔標注的19個關系實例中,有2個被呈現出來,這些實例中涉及的命名實體提及用藍色標示,其他命名實體提及用下劃線表示以示清晰。請注意,同一主題的提及(例如,Kungliga Hovkapellet和Royal Court Orchestra)在第一個關系實例中被識別。


圖1:DocRED中的一個樣本
DocRED是一個從Wikipedia和Wikidata構建的大規模人工標注的文檔級RE數據集,具有以下三個特征。(1)DocRED包含132375個實體和56354個關系事實,標注在5,053個維基百科文檔上,使其成為最大的人工標注文檔級RE數據集。(2)由于DocRED中至少有40.7%的關系事實只能從多個句子中抽取,因此DocRED需要閱讀文檔中的多個句子來識別實體,并通過綜合文檔的所有信息來推理其關系。這使得DocRED區別于那些句子級的RE數據集,(3)還提供了大規模的遠距離有監督數據來支持弱監督的RE研究。

二、 數據收集
人工標注數據分四個階段收集。(1) 為維基百科文檔生成遠端有監督標注。

(2)對文檔中的所有命名實體提及和核心參考信息進行標注。(3)將命名實體提及與Wikidata項目進行鏈接。(4)標注關系和相應的支持證據。

階段1。遠距離有監督注解生成,選擇需要人工標注的文檔。使用spaCy2進行命名實體識別。然后,將這些命名實體提及鏈接到Wikidata項目,將具有相同KB ID的命名實體提及進行合并。最后,通過查詢Wikidata,對文檔中每個合并的命名實體對之間的關系進行標注。包含少于128個單詞的文檔將被丟棄。丟棄包含少于4個實體或少于4個關系實例的文檔,從而得到107,050個具有遠端有監督標簽的文檔,隨機選擇5,053個文檔和最頻繁的96個關系進行人工標注。

階段2:命名實體和引用標注。從文檔中抽取關系需要首先識別命名實體的提及,并識別提及文檔中相同實體的引用。為了提供高質量的命名實體提及和核心參考信息,我們要求人工標注者首先對第一階段生成的命名實體提及提議進行審查、修正和補充,然后合并那些指向相同實體的不同提及,從而提供額外的核心參考信息。生成的中間語料包含各種命名實體類型,包括人、地點、組織、時間、數量和不屬于上述類型的雜項實體名稱。

階段3:實體鏈接。在這一階段,我們將每個命名的實體提及鏈接到多個Wikidata項目,為下一階段提供遠端監督的關系推薦。使用RE模型篩選出每篇文檔推薦關系實例,要求標注者審查這些關系實例,刪除不正確的關系實例,補充遺漏的關系實例。還要求標注者進一步選擇所有支持保留關系實例的句子作為支持證據。最后57.2%來自實體鏈接的關系實例和48.2%來自RE模型的關系實例被保留。

三、 數據分析
在本節中,我們將對DocRED的各個方面進行分析,以便對數據集和文檔級RE的任務有更深入的了解。

數據規模大,參見表1

表1:RE數據集的統計(Doc.:文檔,Sent.:句子,Ent.:實體,Rel.:關系類型,Inst.:關系實例,Fact:關系事實)。前四個是句子級RE數據集。
命名實體類型。DocRED涵蓋各種實體類型,包括人(18.5%)、地點(30.9%)、組織(14.4%)、時間(15.8%)和數字(5.1%)。它還涵蓋了不屬于上述類型的各種雜項實體名稱(15.2%),如事件、藝術工作和法律。每個實體平均被提及1.34次。

關系類型。我們的數據集包括96種來自Wikidata的頻繁關系類型。我們數據集的一個顯著特點是,關系類型涵蓋了廣泛的類別,包括與科學(33.3%)、藝術(11.5%)、時間(8.3%)、個人生活(4.2%)等相關的關系,這意味著關系事實不受任何特定領域的限制。此外,這些關系類型的組織結構層次分明、分類明確,可以為文檔級RE系統提供豐富的信息。

推理類型。表2顯示了我們數據集中主要推理類型的統計。從推理類型的統計中,我們有以下觀察:(1)大部分關系實例(61.1%)需要通過推理來識別,只有38.9%的關系實例可以通過簡單的模型識別來抽取,這說明推理對于文檔級的RE是必不可少的。(2)在具有推理特征的關系實例中,大多數(26.6%)需要進行邏輯推理,即有關的兩個實體之間的關系是由橋梁實體間接建立的。邏輯推理要求RE系統能夠對多個實體之間的相互作用進行建模。(3)相當數量的關系實例(17.6%)需要進行核心參照推理,在這種情況下,必須先進行核心參照解析,以便在豐富的上下文中確定目標實體。(4)相似比例的關系實例(16.6%)需要基于常識推理進行識別,讀者需要結合文檔中的關系事實和常識來完成關系識別。綜上所述,DocRED需要豐富的推理能力來綜合文檔的所有信息。


表2:DocRED上文檔級RE所需的推理類型。剩余的0.3%需要其他類型的推理,如時間推理。
句間關系實例。我們發現,每個關系實例平均與1.6個支持句相關聯,其中46.4%的關系實例與多個支持句相關聯。此外,詳細分析發現,40.7%的關系事實只能從多個句子中抽取,這說明DocRED是文檔級RE的良好基準。我們也可以得出結論,閱讀、綜合和推理多個句子的能力是文檔級RE所必需的。

四、基準設置
我們分別針對有監督和弱監督的場景設計了兩個基準設置。兩種設置使用的數據統計如表3所示。


表3:兩個基準設置(第4節)使用的數據統計:有監督設置(S)和弱監督設置(W)。
有監督設置。在這種設置中,只使用人工標注的數據,這些數據被隨機分成訓練集、開發集和測試集。有監督式設置給文檔級RE系統帶來了以下兩個挑戰。

第一個挑戰來自于執行文檔級RE所需要的豐富推理技能。如第3節所示,約61.1%的關系實例依賴于模型識別以外的復雜推理技能來提取,這就要求RE系統超越識別單句中的簡單模式,對文檔中的全局和復雜信息進行推理。

第二個挑戰在于對長文檔進行建模的高計算開銷和文檔中大量的潛在實體對,而文檔中的實體數量是平方的(平均一個文檔中19.5個實體)。

弱監督環境。這種設置與有監督的設置相同,只是將訓練集換成了遠距離有監督的數據(2.2節)。除了上述兩個挑戰之外,伴隨著遠距離監督數據不可避免的錯誤標簽問題,也是弱監督環境下RE模型的一大挑戰。

五、實驗
在DocRED數據集上評估RE模型,還評估了人類的表現。并分析了不同支持證據類型的性能。此外,我們還進行了消融研究,以研究不同特征的貢獻。

模型。分為2類模型,使用CNN/LSTM/BiLSTM模型和Context-Aware模型。

基于CNN/LSTM/BiLSTM的模型首先以CNN/LSTM/BiLSTM為編碼器,將由n個詞組成的文檔 [公式] 編碼成一個隱藏的狀態向量序列 [公式] ,然后計算實體的表示,最后預測每個實體對的關系。

對于每個單詞來說,輸入編碼器的特征是其GloVe詞嵌入(Pennington等,2014)、實體類型嵌入和核心參考嵌入的拼接。實體類型是如PER、LOC、ORG,實體類型映射成向量,實體id被映也射成向量作為核心參考嵌入。

對于每個命名的實體提及mk,從第s個詞到第t個詞,我們將其定義為


而具有K個提及的實體ei的表示是以這些提及的平均數來計算的:


我們將關系預測作為一個多標簽分類問題來處理。具體來說,對于每一個實體對(ei,ej),我們首先將實體表示與相對距離嵌入拼接起來,然后使用雙線性函數計算每一種關系類型的概率:


其中[;]表示拼接,dij和dji為文檔中兩個實體首次提及的相對距離,E為嵌入矩陣,r為關系類型,Wr、br為關系類型依賴的可訓練參數。

評價指標。在我們的實驗中使用了兩個廣泛使用的指標F1和AUC。然而,有些關系事實同時存在于訓練集和開發/測試集中,因此模型在訓練過程中可能會記住它們的關系,并以一種不可取的方式在開發/測試集上獲得更好的性能,從而引入評價偏差。然而,訓練集和開發集/測試集之間的關系事實的重疊是不可避免的,因為許多共同的關系事實可能在不同的文檔中共享。因此,我們還報告了排除訓練集和開發集/測試集共享的關系事實的F1和AUC得分,分別表示為IgnF1和IgnAUC。

模型性能。表4顯示了監督和弱監督環境下的實驗結果,從中我們有以下觀察。(1)用人工標注數據訓練的模型,其性能普遍優于用遠端有監督數據訓練的同類模型。這是因為雖然大規模的遠端有監督數據可以很容易地通過遠端有監督獲得,但錯誤標注問題可能會損害RE系統的性能,這使得弱監督設置成為更困難的場景。(2)一個有趣的例外是,在遠端有監督數據上訓練的LSTM、BiLSTM和Context-Aware的F1 Score與在人工標注數據上訓練的F1 Score相當,但在其他指標上的得分明顯較低,這說明訓練集和dev/test集之間的重疊實體對確實會造成評價偏差。因此,報告Ign F1和Ign AUC是必要的。(3)利用豐富的上下文信息的模型一般能獲得更好的性能。LSTM和BiLSTM的表現優于CNN,表明在文檔級RE中對長依賴語義建模的有效性。Context-Aware實現了具有競爭力的性能,然而,它不能顯著優于其他神經模型。這說明在文檔級RE中考慮多種關系的關聯是有益的,而目前的模型不能很好地利用相互關系信息。


表4:不同RE模型在DocRED上的表現(%)。
人類的表現。表5顯示了DocRED數據集上RE模型和人類的的表現在。人類在文檔級RE任務(RE)和聯合識別關系和支持證據任務(RE+Sup)上都取得了具有競爭力的結果,說明DocRED的上限性能和標注者之間的一致性都比較高。此外,RE模型的整體表現明顯低于人類的表現,這說明文檔級RE是一項具有挑戰性的任務,也說明有充分的改進機會。


表5:人類表現(%)。
特征消融。我們對BiLSTM模型進行特征消融研究,研究不同特征在文檔級RE中的貢獻,包括實體類型、核心參考信息和實體之間的相對距離(Eq.1)。表6顯示,上述特征都對性能有貢獻。具體來說,實體類型由于其對可行關系類型的約束,貢獻最大。核心參考信息和實體之間的相對距離對于從多個命名實體提及中綜合信息也很重要。(重點)這表明,對于RE系統來說,利用文檔層面的豐富信息是很重要的。


表6: 開發集上的特征消融(%)。
支持性證據預測。我們提出了一個新的任務來預測關系實例的支持證據。一方面,聯合預測證據提供了更好的可解釋性。另一方面,從文本中識別支持證據和推理關系事實是天然的雙重任務,具有潛在的相互增強作用。我們設計了兩種支持性證據預測方法。(1)啟發式預測器。我們實現了一個簡單的基于啟發式的模型,將所有包含頭部或尾部實體的句子視為支持證據。(2)神經預測器。給定一個實體對和一個預測關系,首先將句子通過詞嵌入和位置嵌入的拼接轉化為輸入表示,然后輸入BiLSTM編碼器進行上下文表示。受Yang等人(2018)的啟發,我們將BiLSTM在首尾位置的輸出與可訓練的關系嵌入進行并聯,得到句子的表示,用于預測該句子是否被采納為給定關系實例的支持證據。如表7所示,神經預測器在預測支持證據方面明顯優于基于啟發式的基線,這說明RE模型在聯合關系和支持證據預測方面的潛力。


表7:F1 Score, 聯合關系和支持證據預測的表現(%)。
討論。通過以上實驗結果和分析,我們可以得出這樣的結論:文檔級RE比句子級RE更具挑戰性

七、結論
為了促進RE系統從句子級到文檔級的發展,我們提出了DocRED,這是一個大規模的文檔級RE數據集,它的特點是數據量大,對多個句子的閱讀和推理的要求,以及提供的遠端有監督數據,以促進弱監督文檔級RE的發展。實驗表明,人類的表現明顯高于RE基線模型,這表明未來有充足的改進機會。

八、一條數據樣本的格式

Data Format:
{'title',  文章的標題'sents':     [[句子0中的所有單詞],[word in sent 1]]'vertexSet': [[{ 'name': 實體提及的名字,即一個實體, 'sent_id': 實體在某個句子中出現,這個句子的id, 'pos': 實體在這個句子中的起始和結束位置, 'type': 實體的NER類型NER_type}{其它提及}], [其它實體]'labels':   [{'h': 第一個實體在vertexSet中的的索引位置't': 第二個實體在vertexSet中的的索引位置,'r': relation, 訓練集中使用使用的是P6,代表的是rel_info.json中的"head of government"'evidence': 支持證據的句子,支持這個關系的句子的id,支持2個實體的關系的佐證的句子}]
}
一條train_annotated.json的內容
{"vertexSet": [[{"pos": [0,4],"type": "ORG","sent_id": 0,"name": "Zest Airways, Inc."},{"sent_id": 0,"type": "ORG","pos": [10,15],"name": "Asian Spirit and Zest Air"},{"name": "AirAsia Zest","pos": [6,8],"sent_id": 0,"type": "ORG"},{"name": "AirAsia Zest","pos": [19,21],"sent_id": 6,"type": "ORG"}],[{"name": "Ninoy Aquino International Airport","pos": [4,8],"sent_id": 3,"type": "LOC"},{"name": "Ninoy Aquino International Airport","pos": [26,30],"sent_id": 0,"type": "LOC"}],[{"name": "Pasay City","pos": [31,33],"sent_id": 0,"type": "LOC"}],[{"name": "Metro Manila","pos": [34,36],"sent_id": 0,"type": "LOC"}],[{"name": "Philippines","pos": [38,39],"sent_id": 0,"type": "LOC"},{"name": "Philippines","pos": [13,14],"sent_id": 4,"type": "LOC"},{"sent_id": 5,"type": "LOC","pos": [25,29],"name": "Republic of the Philippines"}],[{"name": "Manila","pos": [13,14],"sent_id": 1,"type": "LOC"},{"name": "Manila","pos": [9,10],"sent_id": 3,"type": "LOC"}],[{"name": "Cebu","pos": [15,16],"sent_id": 1,"type": "LOC"}],[{"pos": [17,18],"type": "NUM","sent_id": 1,"name": "24"}],[{"pos": [1,2],"type": "TIME","sent_id": 2,"name": "2013"},{"pos": [1,5],"type": "TIME","sent_id": 5,"name": "August 16, 2013"}],[{"pos": [9,11],"type": "ORG","name": "Philippines AirAsia","sent_id": 2}],[{"pos": [5,7],"type": "ORG","sent_id": 4,"name": "Asian Spirit"}],[{"pos": [7,13],"type": "ORG","sent_id": 5,"name": "Civil Aviation Authority of the Philippines"},{"name": "CAAP","pos": [14,15],"sent_id": 5,"type": "ORG"}],[{"name": "Zest Air","pos": [34,36],"sent_id": 5,"type": "ORG"},{"pos": [7,9],"type": "ORG","sent_id": 6,"name": "Zest Air"}],[{"sent_id": 6,"type": "NUM","pos": [2,4],"name": "a year"}],[{"name": "AirAsia","pos": [5,6],"sent_id": 6,"type": "ORG"}],[{"pos": [5,7],"type": "ORG","name": "AirAsia Philippines","sent_id": 7}],[{"pos": [8,10],"type": "TIME","sent_id": 7,"name": "January 2016"}]],"labels": [{"r": "P159","h": 0,"t": 2,"evidence": [0]},{"r": "P17","h": 0,"t": 4,"evidence": [2,4,7]},{"r": "P17","h": 12,"t": 4,"evidence": [6,7]},{"r": "P17","h": 2,"t": 4,"evidence": [0]},{"r": "P131","h": 2,"t": 3,"evidence": [0]},{"r": "P150","h": 4,"t": 3,"evidence": [0]},{"r": "P17","h": 5,"t": 4,"evidence": [0,3]},{"r": "P150","h": 3,"t": 2,"evidence": [0]},{"r": "P131","h": 3,"t": 4,"evidence": [0,3]},{"r": "P17","h": 3,"t": 4,"evidence": [0,3]},{"r": "P131","h": 1,"t": 2,"evidence": [0,3]},{"r": "P17","h": 1,"t": 4,"evidence": [0,3]},{"r": "P17","h": 10,"t": 4,"evidence": [4]}],"title": "AirAsia Zest","sents": [["Zest","Airways",",","Inc.","operated","as","AirAsia","Zest","(","formerly","Asian","Spirit","and","Zest","Air",")",",","was","a","low","-","cost","airline","based","at","the","Ninoy","Aquino","International","Airport","in","Pasay","City",",","Metro","Manila","in","the","Philippines","."],["It","operated","scheduled","domestic","and","international","tourist","services",",","mainly","feeder","services","linking","Manila","and","Cebu","with","24","domestic","destinations","in","support","of","the","trunk","route","operations","of","other","airlines","."],["In","2013",",","the","airline","became","an","affiliate","of","Philippines","AirAsia","operating","their","brand","separately","."],["Its","main","base","was","Ninoy","Aquino","International","Airport",",","Manila","."],["The","airline","was","founded","as","Asian","Spirit",",","the","first","airline","in","the","Philippines","to","be","run","as","a","cooperative","."],["On","August","16",",","2013",",","the","Civil","Aviation","Authority","of","the","Philippines","(","CAAP",")",",","the","regulating","body","of","the","Government","of","the","Republic","of","the","Philippines","for","civil","aviation",",","suspended","Zest","Air","flights","until","further","notice","because","of","safety","issues","."],["Less","than","a","year","after","AirAsia","and","Zest","Air","\u0027s","strategic","alliance",",","the","airline","has","been","rebranded","as","AirAsia","Zest","."],["The","airline","was","merged","into","AirAsia","Philippines","in","January","2016","."]]
}

原文: DocRED: A Large-Scale Document-Level Relation Extraction Dataset
作者: Yuan Yao1? , Deming Ye1?
發布時間: 2019年8月\
代碼: thunlp/DocRED

總結

以上是生活随笔為你收集整理的docred数据集情况笔记的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。