{ACL2020}In Layman’s Terms: Semi-Open Relation Extraction from Scientific Texts(关系抽取,半开放关系抽取)
生活随笔
收集整理的這篇文章主要介紹了
{ACL2020}In Layman’s Terms: Semi-Open Relation Extraction from Scientific Texts(关系抽取,半开放关系抽取)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
- 半開放關系抽取
- 用FOBIE訓練一個narrow IE
- 訓練一個OpenIE
- 用narrowIE矯正OpenIE
1.Introduction
-
標注困難、
- 跨領域標注更難
-
TRADE-OFF relations
- 隨著干燥度的增加,木質部的安全性增加和效率降低的廣泛模式是明顯的,有一些證據表明在針葉樹種或個體之間存在安全-效率的權衡
- trade-off是中心思想/核心關系,幫助過濾無關的OpenIE的提取
- 由核心關系的arg作為錨點,進一步探索到相關的概念和關系
- 無關的概念,就不會被提取
-
信息抽取尤其是關系抽取可以幫助下游任務獲得中心思想
-
需求
- narrow IE:關系太少,而科技文獻需要更多的關系(有很多領域獨有的);但準確度高
- OpenIE用于新聞、網絡,科技文獻上表現不佳
- 真正的需要:兩者兼備
- 獲取中心思想
- cover中心思想的關系
-
本文模型(SORE)
- 假設:可以減少無關關系的提取,則有益于科技文獻
-
本文數據集(FOBIE)
- FOBIE包含了手工注釋的句子,這些句子表達了明確的權衡,或語法上相似的關系,它們捕獲了全文生物學論文中的中心概念。
-
narrow IE:(Luan et al., 2018a)
- 用于過濾OpenIE提取的結果
2. 相關工作
-
以前:
- 手工或規則
- 跨領域:需要微調(因為依賴語法特征)
- 對科學文本有用:額外的知識的引入有益于減輕非專家對文本的理解
- 手工或規則
-
困難
- the boundaries of an argument,
- handling latent n-ary relations,
- dif?culty handling negations,
- generating uninformative extractions
-
本文
- 通過narrow IE,減少錯誤,和uninformative的提取
- 使用central concept(narrow IE提取的)
2.2 narrow RE from scientific text
- pipeline:
- 預先計算的:依賴樹、word position embedding、最短依賴路徑
- 降低pipeline傳遞誤差/聯合模型
- 數據集
- ScienceIE:SemEval 2017 task10:3個key-phrases,而不是實體,下義詞,同義詞
- SemEval 2018 task 7:6 narrow relations between 7 entity types
- SciERC:7relation(含共指消解),6 entities
- SemEval任務的系統
- 基于LSTM
- 半監督與ensembling結合
- 預訓練concept embedding
2.3 dataset
- 大多數是生物領域
- 預先定義的關系
- BB corpus:
- 4 entity,2 relation
- abstract,title,paragraph,sentece(20個全文 doc)
- SeeDev corpus:
- 86 paragraph(20個全文doc)
- 上面兩個:
- 實體關系多,數據集小—不平衡
- dev/train/test:overlap
- FOBIE
- arg:無entity type,有key-phrase
- 1548個長難句(來自1215 doc)
- 在生物領域更general
- BB/SeeDev:只專注于生物領域的一小部分
3 dataset description
3.1 數據收集
- trade-off:
- 中心詞的關系
- compromise,optimization,balance,interplay,conflict
- –trigger words
- 提取工具:rule-based system(RBS)–僅提取trande-off的關系
- 文本來源:the Journal of Experimental Biology (JEB) and BioMed Central (BMC) journals on ‘Biology’, ‘Evolutionary Biology, and ‘Systems Biology’.
- 專注于生物領域
- 保留:abstract,introduction,results,discusss,conclusion
- spaCy:分句、依賴、POS
3.2 標注
- 第一次人類標注(專家)
- 修正和擴展
- BRAT
- 標記
- trade-off
- argument-modifier
- not-trade-off
- 有關,但不表示trade-off
- 作為負例:幫助識別
- trigger words可能連續
- 不相關:trade-off
- 相關:no-trade-off
- trigger words可能連續
- 注意
- 多數關系是嵌套的或者非投影的
- 注意介詞:prep
- 增加介詞的規則:
- 可以從arg中分離的
- 有多個arg
- 增加介詞的規則:
- 注意介詞:prep
- 多數關系是嵌套的或者非投影的
- 第二次人類標注(專家)
- 重標注和質量控制
- inter-annotator agreement cohen k:0.93
- no overlap
- key-phrases:平均3.44 tokens,12% 1token–較長
- ScienceIE :34% 1token
- sciERC: avg entity length:2.36
- sentece:longer
- FOBIE:79.26% >25tokens
- SciERC: avg 24.31
4. Narrow IE baseline
4.1 task definition
- 提取
- trigger
- trigger和他的arg們之間的二元關系
- 有方向
4.2 baseline system
- span-based approach
- span-based :span representation作為分類特征:保證端到端的學習中在多個任務之間傳遞信息時,推理的復雜度并不增加
- 方法:
- Lee,2017
- SRL(He ,2017)
- SciIE(Luan,2018a)–本文用這個
- span:trigger words,key-phrases
- relation
- embedding:glove and elmo
- beam pruning:剪掉不需要的span
- mention scores ?mr\phi_{mr}?mr?:beam size λn=8\lambda_n=8λn?=8
- max length:W=10(span的最大長度)
- 標簽預測:
- span標簽:?\epsilon?-non-span class
- relation標簽:?\epsilon?:non-relation class
4.3 narrow IE results
-
SciIE:
- argument recognition
- a valid span or not
- trigger word or a key-phrase
- relation extraction
- argument recognition
-
RBS
- 可以很好地識別trigger word:95.86F1
- 但難以識別key-phrase:22.36F1
4.4 supporting trade-off annotation
- 定性分析
- central trade-off relation and arg:41.68%
- trade-off:243
- tradeoff per doc:77.37%與專家相同
- 89.71% of 243 doc:討論后認為對
- 發現
- 2種uninformative trade-offs:
- trade-offs from a cited source
- trade-offs between generic
- eg:
- a trade-off between cost and bene?t without de?ning what the cost and bene?t are.
- 2種uninformative trade-offs:
5 Semi-Open Relation Extraction
5.1 Task description
- SORE
- 提取關系、concept–central information
- scientific
- filter out uninformative and incorrect extractions
- semi-Open
- 依靠narrow IE和OpenIE的輸出
- 平衡:精確但narrow的IE和無邊界不可靠的openIE之間
- 用于
- 人類閱讀
- 標注數據
5.2實驗設置
- 數據1279 doc
- narrow IE:2216 trade-offs
- Elmo: 附加修飾詞,移除停頓詞,embedding the remaining sequences
- K-means:聚類–IDF-weighted
- 簇的個數不影響
- ±50正好:通用主題和細粒度主題的一個平衡
- 專家評估效果
- sentencePiece
- OpenIE 5:也在這1279 doc上
- filter:
- 保留OPenIE提取:
- 他的arg中一個或多個屬于trade-off arg的簇
- 省略了OpenIE提取的屬于噪音簇的
- 包含過多數學符號
- 長的嵌套短語
- 簇的確定
- IDF-weighted
- 保留OPenIE提取:
5.3 SORE質量分析
- 可以減少無關和噪聲的OIE arg
- 假設成立:SORE減少uninformative extraction,而沒有限制RE
- 人工評估信息是否豐富(提取的)
- 許多OPENIE的結果結構不良,但如果信息豐富,這是好的
- 有用的或者正確的信息,不一定與主題有關
- 包含無信息arg
- 包含不完全arg
- non-sensible:無法感知
- 不能幫助理解的
- 隨機采樣:
- 存在長句子導致的錯誤(提取錯誤/邊界錯誤)
- 問題很復雜
- 存在:the arity of relations can be high
- 許多短語是嵌套的并且表達非動詞的關系
- 結果
- 信息性增加
- cohen:0.84
- 人工評估信息是否豐富(提取的)
5.4 results
- 手工檢查:相關的提取被保留了
總結
以上是生活随笔為你收集整理的{ACL2020}In Layman’s Terms: Semi-Open Relation Extraction from Scientific Texts(关系抽取,半开放关系抽取)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2021-10-28嵌入式人工智能
- 下一篇: nlp5-n-gram/语言模型(数据平