日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

bert中文预训练模型_[中文医疗预训练模型] MC-BERT

發布時間:2025/3/21 编程问答 48 豆豆
生活随笔 收集整理的這篇文章主要介紹了 bert中文预训练模型_[中文医疗预训练模型] MC-BERT 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Conceptualized Representation Learning for Chinese Biomedical Text Mining

作者:Ningyu Zhang, Qianghuai Jia, Kangping Yin, Liang Dong, Feng Gao, Nengwei Hua

作者單位:Alibaba Group

項目地址:https://github.com/alibaba-research/ChineseBLUE

預訓練模型:mc_bert_base.tar.gz

  • 背景
  • 總結:生物醫學領域的中文預訓練以及評測基準數據集。

    擬解決的問題:如何檢索生物醫學領域知識;如何在模型預訓練中利用生物醫學領域的知識。

    2. 方法

    (1)Whole Entity Masking

    解決的問題:遮蓋類似于”腹痛“的醫療實體,將這種醫療知識顯式地注入模型中。

    步驟:

    1)使用實體命名識別預測醫療實體;

    2)使用中文醫療知識圖譜后處理實體。

    (2)Whole Span Masking

    解決的問題:醫療實體還不足夠,醫療文本中存在類似”肚子有一點痛“,”腹部一陣一陣痛“,它們也與”腹痛“具有類似的含義。

    步驟:

    1)使用Autophrase提取短語;

    2)從Alibaba Cognitive Concept Graph檢索通用的醫療短語;

    3)訓練了一個二分類器,用于分類出Autophrase提取出的醫學短語。

    (3)整體流程總結

    1)生成醫療實體,使用醫療知識圖譜提純醫療實體;

    2)使用Autophrase生成短語;

    3)使用規則以及fastText增強和提純短語;

    4)以15%的幾率進行Whole Entity/Span Masking;

    5)用BERT-base的模型參數進行初始化,然后進行預訓練。

    3. 實驗

    (1)預訓練數據

    預訓練數據來自于中文醫療問答、中文醫療百科和中文電子病歷。

    (2)下游任務

    下游任務數據來自于新發布的Chinese Biomedical Language Understanding Evaluation benchmark (ChineseBLUE)。

    (3)實驗結果

    與Baseline相比,在所有任務上都有著不同程度的提升:

    消融實驗,移除whole entity/span masking都會影響模型的效果:

    《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀

    總結

    以上是生活随笔為你收集整理的bert中文预训练模型_[中文医疗预训练模型] MC-BERT的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。