日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

{ACL2020}In Layman’s Terms: Semi-Open Relation Extraction from Scientific Texts(关系抽取,半开放关系抽取)

發布時間:2024/7/5 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 {ACL2020}In Layman’s Terms: Semi-Open Relation Extraction from Scientific Texts(关系抽取,半开放关系抽取) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
  • 半開放關系抽取
    • 用FOBIE訓練一個narrow IE
    • 訓練一個OpenIE
    • 用narrowIE矯正OpenIE

1.Introduction

  • 標注困難、

    • 跨領域標注更難
  • TRADE-OFF relations

    • 隨著干燥度的增加,木質部的安全性增加和效率降低的廣泛模式是明顯的,有一些證據表明在針葉樹種或個體之間存在安全-效率的權衡
    • trade-off是中心思想/核心關系,幫助過濾無關的OpenIE的提取
    • 由核心關系的arg作為錨點,進一步探索到相關的概念和關系
    • 無關的概念,就不會被提取
  • 信息抽取尤其是關系抽取可以幫助下游任務獲得中心思想

  • 需求

    • narrow IE:關系太少,而科技文獻需要更多的關系(有很多領域獨有的);但準確度高
    • OpenIE用于新聞、網絡,科技文獻上表現不佳
    • 真正的需要:兩者兼備
      • 獲取中心思想
      • cover中心思想的關系
  • 本文模型(SORE)

    • 假設:可以減少無關關系的提取,則有益于科技文獻
  • 本文數據集(FOBIE)

    • FOBIE包含了手工注釋的句子,這些句子表達了明確的權衡,或語法上相似的關系,它們捕獲了全文生物學論文中的中心概念。
  • narrow IE:(Luan et al., 2018a)

    • 用于過濾OpenIE提取的結果

2. 相關工作

  • 以前:

    • 手工或規則
      • 跨領域:需要微調(因為依賴語法特征)
      • 對科學文本有用:額外的知識的引入有益于減輕非專家對文本的理解
  • 困難

    • the boundaries of an argument,
    • handling latent n-ary relations,
    • dif?culty handling negations,
    • generating uninformative extractions
  • 本文

    • 通過narrow IE,減少錯誤,和uninformative的提取
    • 使用central concept(narrow IE提取的)

2.2 narrow RE from scientific text

  • pipeline:
    • 預先計算的:依賴樹、word position embedding、最短依賴路徑
  • 降低pipeline傳遞誤差/聯合模型
  • 數據集
    • ScienceIE:SemEval 2017 task10:3個key-phrases,而不是實體,下義詞,同義詞
    • SemEval 2018 task 7:6 narrow relations between 7 entity types
    • SciERC:7relation(含共指消解),6 entities
  • SemEval任務的系統
    • 基于LSTM
    • 半監督與ensembling結合
    • 預訓練concept embedding

2.3 dataset

  • 大多數是生物領域
    • 預先定義的關系
  • BB corpus:
    • 4 entity,2 relation
    • abstract,title,paragraph,sentece(20個全文 doc)
  • SeeDev corpus:
    • 86 paragraph(20個全文doc)
  • 上面兩個:
    • 實體關系多,數據集小—不平衡
    • dev/train/test:overlap
  • FOBIE
    • arg:無entity type,有key-phrase
    • 1548個長難句(來自1215 doc)
    • 在生物領域更general
    • BB/SeeDev:只專注于生物領域的一小部分

3 dataset description

3.1 數據收集

  • trade-off:
    • 中心詞的關系
    • compromise,optimization,balance,interplay,conflict
    • –trigger words
    • 提取工具:rule-based system(RBS)–僅提取trande-off的關系
    • 文本來源:the Journal of Experimental Biology (JEB) and BioMed Central (BMC) journals on ‘Biology’, ‘Evolutionary Biology, and ‘Systems Biology’.
      • 專注于生物領域
      • 保留:abstract,introduction,results,discusss,conclusion
      • spaCy:分句、依賴、POS

3.2 標注

  • 第一次人類標注(專家)
    • 修正和擴展
    • BRAT
    • 標記
      • trade-off
      • argument-modifier
      • not-trade-off
        • 有關,但不表示trade-off
        • 作為負例:幫助識別
          • trigger words可能連續
            • 不相關:trade-off
            • 相關:no-trade-off
    • 注意
      • 多數關系是嵌套的或者非投影的
        • 注意介詞:prep
          • 增加介詞的規則:
            • 可以從arg中分離的
            • 有多個arg
  • 第二次人類標注(專家)
    • 重標注和質量控制
    • inter-annotator agreement cohen k:0.93
    • no overlap
    • key-phrases:平均3.44 tokens,12% 1token–較長
      • ScienceIE :34% 1token
      • sciERC: avg entity length:2.36
    • sentece:longer
      • FOBIE:79.26% >25tokens
      • SciERC: avg 24.31

4. Narrow IE baseline

4.1 task definition

  • 提取
    • trigger
    • trigger和他的arg們之間的二元關系
      • 有方向

4.2 baseline system

  • span-based approach
    • span-based :span representation作為分類特征:保證端到端的學習中在多個任務之間傳遞信息時,推理的復雜度并不增加
    • 方法:
      • Lee,2017
      • SRL(He ,2017)
      • SciIE(Luan,2018a)–本文用這個
        • span:trigger words,key-phrases
        • relation
        • embedding:glove and elmo
        • beam pruning:剪掉不需要的span
          • mention scores ?mr\phi_{mr}?mr?:beam size λn=8\lambda_n=8λn?=8
          • max length:W=10(span的最大長度)
        • 標簽預測:
          • span標簽:?\epsilon?-non-span class
          • relation標簽:?\epsilon?:non-relation class

4.3 narrow IE results

  • SciIE:

    • argument recognition
      • a valid span or not
      • trigger word or a key-phrase
    • relation extraction
  • RBS

    • 可以很好地識別trigger word:95.86F1
    • 但難以識別key-phrase:22.36F1

4.4 supporting trade-off annotation

  • 定性分析
    • central trade-off relation and arg:41.68%
    • trade-off:243
    • tradeoff per doc:77.37%與專家相同
    • 89.71% of 243 doc:討論后認為對
  • 發現
    • 2種uninformative trade-offs:
      • trade-offs from a cited source
      • trade-offs between generic
      • eg:
        • a trade-off between cost and bene?t without de?ning what the cost and bene?t are.

5 Semi-Open Relation Extraction

5.1 Task description

  • SORE
    • 提取關系、concept–central information
    • scientific
    • filter out uninformative and incorrect extractions
      • semi-Open
    • 依靠narrow IE和OpenIE的輸出
      • 平衡:精確但narrow的IE和無邊界不可靠的openIE之間
    • 用于
      • 人類閱讀
      • 標注數據

5.2實驗設置

  • 數據1279 doc
  • narrow IE:2216 trade-offs
  • Elmo: 附加修飾詞,移除停頓詞,embedding the remaining sequences
  • K-means:聚類–IDF-weighted
    • 簇的個數不影響
    • ±50正好:通用主題和細粒度主題的一個平衡
  • 專家評估效果
  • sentencePiece
  • OpenIE 5:也在這1279 doc上
  • filter:
    • 保留OPenIE提取:
      • 他的arg中一個或多個屬于trade-off arg的簇
    • 省略了OpenIE提取的屬于噪音簇的
      • 包含過多數學符號
      • 長的嵌套短語
    • 簇的確定
      • IDF-weighted

5.3 SORE質量分析

  • 可以減少無關和噪聲的OIE arg
  • 假設成立:SORE減少uninformative extraction,而沒有限制RE
    • 人工評估信息是否豐富(提取的)
      • 許多OPENIE的結果結構不良,但如果信息豐富,這是好的
      • 有用的或者正確的信息,不一定與主題有關
        • 包含無信息arg
        • 包含不完全arg
        • non-sensible:無法感知
        • 不能幫助理解的
      • 隨機采樣:
        • 存在長句子導致的錯誤(提取錯誤/邊界錯誤)
        • 問題很復雜
          • 存在:the arity of relations can be high
          • 許多短語是嵌套的并且表達非動詞的關系
      • 結果
        • 信息性增加
        • cohen:0.84

5.4 results

  • 手工檢查:相關的提取被保留了

總結

以上是生活随笔為你收集整理的{ACL2020}In Layman’s Terms: Semi-Open Relation Extraction from Scientific Texts(关系抽取,半开放关系抽取)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。