日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人工智能 > pytorch >内容正文

pytorch

基于深度学习的信息抽取技术

發布時間:2024/7/5 pytorch 45 豆豆
生活随笔 收集整理的這篇文章主要介紹了 基于深度学习的信息抽取技术 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

DeepIE: Deep Learning for Information Extraction

DeepIE: 基于深度學習的信息抽取技術(預計2020年8月31日前全部更新完畢)

TOP

  • 知乎專欄文章:nlp中的實體關系抽取方法總結
  • 知乎專欄文章:如何有效提升中文NER性能?詞匯增強方法總結
  • 知乎專欄文章:如何解決Transformer在NER任務中效果不佳的問題?

Papers

  • ACL2020信息抽取相關論文匯總
  • IJCAI2020信息抽取相關論文匯總
  • 2019各頂會中的關系抽取論文匯總
  • 事件抽取論文匯總
  • 歷年來NER論文匯總

Codes

1. 實體抽取

  • 各主流方法在主要中文NER數據集上的表現情況 具體說明
lexiconOntonotesMSRAResumeWeibo
biLSTM----71.8191.8794.4156.75
Lattice LSTM詞表173.8893.1894.4658.79
WC-LSTM詞表174.4393.3694.9649.86
LR-CNN詞表174.4593.7195.1159.92
CGN詞表274.7993.4794.1263.09
LGN詞表174.8593.6395.4160.15
Simple-Lexicon詞表175.5493.5095.5961.24
FLAT詞表176.4594.1295.4560.32
FLAT詞表275.7094.3594.9363.42
BERT----80.1494.9595.5368.20
BERT+FLAT詞表181.8296.0995.8668.55
  • MSRA-NER
方法fpr
char+ lstm-crf86.18%88.43%83.10%
char-bigram + lstm-crf91.80%92.60%90.34%
char-bigram + adTransformer-crf92.98%93.25%92.72%
char-bigram + lexion-augment + lstm-crf93.33%94.26%92.43%
char-bigram-BERT + lstm-crf94.71%95.14%94.27%
char-bigram-BERT + lexion-augment + lstm-crf95.26%95.90%94.63%
  • CCKS2019-醫療實體抽取
方法fpr
char-bigram + lstm-crf81.76%82.91%80.6
+ domain transfer(from ccks2018 to 2019)82.54%83.43%81.81%
char-bigram + adTransformer-crf82.83%82.19%83.49%
char-bigram + lexion-augment + lstm-crf82.76%82.79%82.72%
BERT-finetune+crf83.49%84.11%82.89%
roBERTa-finetune+crf83.66%83.67%83.66%
char-bigram-BERT + lstm-crf83.37%83.51%83.22%
char-bigram-BERT + lexion-augment + lstm-crf84.15%84.29%84.01%
  • CCKS2020-醫療實體抽取

(注:測試集與ccks2019一致,去除ccks2020訓練集中已經在2019測試集中的樣本,下列指標未做規則處理和模型融合)

方法fpr
char-bigram + lstm-crf82.68%83.14%82.22%
char-bigram + lexion-augment + lstm-crf83.12%83.10%83.14%
char-bigram-BERT + lstm-crf83.12%83.04%83.21%
char-bigram-BERT-RoBerta_wwm + lstm-crf83.66%83.76%83.56%
char-bigram-BERT-XLNet + lstm-crf84.12%83.88%84.36%
char-bigram-BERT + lexion-augment + lstm-crf84.50%84.32%84.67%
  • CCKS2020-面向試驗鑒定的命名實體識別任務:TODO

2. 實體關系聯合抽取

具體使用說明

  • 2019語言與智能技術競賽:關系抽取任務
方法f(dev)p(dev)r(dev)
multi head selection76.3679.2473.69
ETL-BIES77.07%77.13%77.06%
ETL-Span78.94%80.11%77.8%
ETL-Span + word2vec79.99%80.62%79.38%
ETL-Span + word2vec + adversarial training80.38%79.95%80.82%
ETL-Span + BERT81.88%82.35%81.42%
  • 2020語言與智能技術競賽:關系抽取任務
方法f(dev)p(dev)r(dev)
ETL-Span + BERT74.5874.4474.71

3. 屬性抽取

  • 領域數據集:瑞金醫院糖尿病信息抽取數據
# 藥物-屬性 ['藥品-用藥頻率','藥品-持續時間','藥品-用藥劑量','藥品-用藥方法','藥品-不良反應'] # 疾病-屬性 ['疾病-檢查方法','疾病-臨床表現','疾病-非藥治療','疾病-藥品名稱','疾病-部位'] 主體方法fpr
疾病lstm+ multi-label pointer network76.5574.3678.86
疾病bert + multi-label pointer network77.5977.4577.74
藥物lstm+ multi-label pointer network81.1279.1583.19

4. 實體鏈接/標準化

5.事件抽取

  • CCKS2020-醫療事件抽取

  • CCKS2020:面向金融領域的篇章級事件主體抽取

  • CCKS2020:面向金融領域的篇章級事件要素抽取

6.信息抽取中的低資源解決方案

TODO-list

  • 信息抽取領域的數據資源匯總:

    • 醫療
    • 金融
    • 電商
    • 法律
  • 信息抽取相關競賽匯總:

    • 百度-2020語言與智能技術競賽:關系抽取任務
    • 百度-2020語言與智能技術競賽:事件抽取任務
    • 百度-2019語言與智能技術競賽:信息抽取
    • CCKS 2019 醫療命名實體識別
    • CHIP 2019 臨床術語標準化任務
    • CCKS 2019 人物關系抽取
    • CCKS 2019 公眾公司公告信息抽取
    • CCKS 2019 面向金融領域的事件主體抽取
  • 摘要抽取

  • 前沿技術在信息抽取中的應用

Reference

總結

以上是生活随笔為你收集整理的基于深度学习的信息抽取技术的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。