论文阅读课5-DocRED: A Large-Scale Document-Level Relation Extraction Dataset(大规模文档集关系提取数据集
文章目錄
- abstract
- 1.Introduction
- 2.數據收集
- 3.數據分析
- 4.基線設置
- 5.實驗
Yao, Y., et al. (2019). DocRED A Large-Scale Document-Level Relation Extraction Dataset. Proceedings of the 57th Annual Meeting ofthe Association for Computational Linguistics.
基線+docRED數據集
abstract
文檔中的多個實體通常表現出復雜的句子間關系,并且不能通過現有的關系提取(RE)方法很好地處理,這些方法通常集中于提取單個實體對的句子內關系。為了加速文檔級RE的研究,我們引入了DocRED,這是一個由維基百科和維基數據構建的新數據集,具有三個特征:(1)DocRED注釋命名實體和關系,是文檔級RE的最大人類注釋數據集從純文本; (2)DocRED要求閱讀文檔中的多個句子,通過綜合文檔的所有信息來提取實體并推斷它們之間的關系; (3)與人工注釋數據一起,我們還提供大規模遠程監督數據,使DocRED可用于監督和弱監督情景。為了驗證文檔級RE的挑戰,我們實施了最新的RE最新方法,并對DocRED上的這些方法進行了全面評估。實證結果表明DocRED對現有RE方法具有挑戰性,這表明文檔級RE仍然是一個開放的問題,需要進一步努力。基于對實驗的詳細分析,我們討論了未來研究的多個有希望的方向。
- DocRED
- 用于:大規模文檔集句間關系提取
- 來源:wikipedia和wikidata
- 特征:
- 標記實體和關系,文檔集最大的人類標注純文本數據集
- DocRED包含132,375個實體和56,554個關聯事實,這些事實在5,053維基百科文檔中注釋,使其成為最大的人工注釋文檔級RE數據集。
- 要求從多個句子中提取實體并推斷關系
- 由于DocRED中至少40.7%的關系事實只能從多個句子中提取,DocRED要求閱讀文檔中的多個句子以識別實體并通過合成文檔的所有信息來推斷它們之間的關系。這將DocRED與那些句子級RE數據集區分開來。
- 提供大規模遠程監督數據,使之可用于監督和弱監督情景
- 標記實體和關系,文檔集最大的人類標注純文本數據集
- 仍是一個開放問題
1.Introduction
- 句子級關系提取
- (Socher et al., 2012;
- Zeng et al., 2014, 2015; .
- dos Santos et al., 2015;
- Xiao and Liu, 2016;
- Cai et al., 2016;
- Lin et al., 2016;
- Wu et al., 2017;
- Qin et al., 2018;
- Han et al., 2018a).
- 有必要從句子級提升到文檔級
- 因為許多關系只能從多個句子中提取推理得到
- 需要文檔級數據集
- 文檔級數據集少
- 非人工標注,噪聲大:Quirk and Poon (2017) and Peng et al. (2017)—有個遠程監督生成的數據集,沒有人類標注,噪聲大。
- 特定領域:BC5CDR(Li et al。,2016)是一個人類注釋的文檔級RE數據集,由1500個PubMed文檔組成,這些文檔在生物醫學的特定領域僅考慮“化學誘導的疾病”關系,使其不適合開發一般 - 文檔級RE的目的方法。
- 特定方法:Levy等人。 (2017)通過使用閱讀理解方法回答問題從文檔中提取關系事實,其中問題從實體關聯對轉換。由于這個工作中提出的數據集是針對特定方法量身定制的,因此它也不適用于文檔級RE的其他潛在方法
- 存在各種問題,所以提出了DocRED
- 實驗結果表明,現有方法的性能在DocRED上顯著下降,表明任務文檔級RE比句級RE更具挑戰性,并且仍然是一個開放性問題。
- 文檔級數據集少
2.數據收集
(1)為維基百科文檔生成遠程監督注釋。
(2)在文檔和指代消解中注釋所有命名實體。
(3)將命名實體提及鏈接到維基數據項。
(4)標簽關系及相應的證據。
第二階段和第四階段還要:
(1)使用命名實體識別(NER)模型生成命名實體,或者使用遠程監督和RE建立關系建議楷模。 (2)手動糾正和補充建議。
(3)審查并進一步修改第二遍的注釋結果,以獲得更好的準確性和一致性。
3.數據分析
- 推理類型
- (1)大多數關系實例(61.1%)需要進行推理識別,只能通過簡單的模式識別提取38.9%的關系實例,這表明推理是文檔級RE必不可少的。
- (2)在與推理相關的情況下,多數(26.6%)需要邏輯推理,其中兩個實體之間的關系由橋實體間接建立。邏輯推理要求RE系統能夠建模多個實體之間的交互。
- (3)顯著數量的關系實例(17.6%)需要共參照推理,其中必須首先執行共參考解析以識別富文本中的目標實體。
- (4)相似比例的關系實例(16.6%)必須基于常識推理來識別,其中讀者需要將文檔中的關系事實與常識結合起來以完成關系識別。
- 總之,DocRED需要豐富的推理技巧來綜合文檔的所有信息。
4.基線設置
- 實驗時設置
5.實驗
- 基線
- CNN (Zeng et al., 2014) based model,
- an LSTM (Hochreiter and Schmidhuber, 1997) based model,
- a bidirectional LSTM (BiLSTM) (Cai et al., 2016) based model and
- the Context-Aware model (Sorokin and Gurevych, 2017) originally designed for leveraging contextual relations to improve intra-sentence RE.
- 過程
- 輸入:concate(glove embedding, coference embedding,type embedding)
- 編碼器(CNN/LSTM…)編碼得到h(隱層表示)
- 一個提及的編碼為:mk=1t?s+1Σj=sthj???這個提及所有詞的表示的平均m_k=\frac{1}{t-s+1}\Sigma_{j=s}^th_j---這個提及所有詞的表示的平均mk?=t?s+11?Σj=st?hj????這個提及所有詞的表示的平均
- 實體的編碼:ei=1KΣkmk??所有提及的平均e_i=\frac{1}{K}\Sigma_k m_k--所有提及的平均ei?=K1?Σk?mk???所有提及的平均
- 分類器:
- 輸入:實體和位置編碼的ei′=concate(ei,E(dij)),ei′=concate(ej,E(dji))e_i'=concate(e_i,E(d_ij)),e_i'=concate(e_j,E(d_ji))ei′?=concate(ei?,E(di?j)),ei′?=concate(ej?,E(dj?i))
- 輸出:P(r∣ei,e2)=sigmoid(ei′TWrej′+br)P(r|e_i,e_2)=sigmoid(e_i'^TW_re_j'+b_r)P(r∣ei?,e2?)=sigmoid(ei′T?Wr?ej′?+br?)
總結
以上是生活随笔為你收集整理的论文阅读课5-DocRED: A Large-Scale Document-Level Relation Extraction Dataset(大规模文档集关系提取数据集的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 运算符 优先级 结合性
- 下一篇: Java栈内存、堆内存、方法区对对象和引