日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

bert中文预训练模型_[中文医疗预训练模型] MC-BERT

發布時間:2025/3/21 55 豆豆
生活随笔 收集整理的這篇文章主要介紹了 bert中文预训练模型_[中文医疗预训练模型] MC-BERT 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Conceptualized Representation Learning for Chinese Biomedical Text Mining

作者:Ningyu Zhang, Qianghuai Jia, Kangping Yin, Liang Dong, Feng Gao, Nengwei Hua

作者單位:Alibaba Group

項目地址:https://github.com/alibaba-research/ChineseBLUE

預訓練模型:mc_bert_base.tar.gz

  • 背景
  • 總結:生物醫學領域的中文預訓練以及評測基準數據集。

    擬解決的問題:如何檢索生物醫學領域知識;如何在模型預訓練中利用生物醫學領域的知識。

    2. 方法

    (1)Whole Entity Masking

    解決的問題:遮蓋類似于”腹痛“的醫療實體,將這種醫療知識顯式地注入模型中。

    步驟:

    1)使用實體命名識別預測醫療實體;

    2)使用中文醫療知識圖譜后處理實體。

    (2)Whole Span Masking

    解決的問題:醫療實體還不足夠,醫療文本中存在類似”肚子有一點痛“,”腹部一陣一陣痛“,它們也與”腹痛“具有類似的含義。

    步驟:

    1)使用Autophrase提取短語;

    2)從Alibaba Cognitive Concept Graph檢索通用的醫療短語;

    3)訓練了一個二分類器,用于分類出Autophrase提取出的醫學短語。

    (3)整體流程總結

    1)生成醫療實體,使用醫療知識圖譜提純醫療實體;

    2)使用Autophrase生成短語;

    3)使用規則以及fastText增強和提純短語;

    4)以15%的幾率進行Whole Entity/Span Masking;

    5)用BERT-base的模型參數進行初始化,然后進行預訓練。

    3. 實驗

    (1)預訓練數據

    預訓練數據來自于中文醫療問答、中文醫療百科和中文電子病歷。

    (2)下游任務

    下游任務數據來自于新發布的Chinese Biomedical Language Understanding Evaluation benchmark (ChineseBLUE)。

    (3)實驗結果

    與Baseline相比,在所有任務上都有著不同程度的提升:

    消融實驗,移除whole entity/span masking都會影響模型的效果:

    《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀

    總結

    以上是生活随笔為你收集整理的bert中文预训练模型_[中文医疗预训练模型] MC-BERT的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。