當前位置：首頁 >

bert中文预训练模型_[中文医疗预训练模型] MC-BERT

發布時間：2025/3/21 55 豆豆

生活随笔收集整理的這篇文章主要介紹了 bert中文预训练模型_[中文医疗预训练模型] MC-BERT 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

作者：Ningyu Zhang, Qianghuai Jia, Kangping Yin, Liang Dong, Feng Gao, Nengwei Hua

作者單位：Alibaba Group

項目地址：https://github.com/alibaba-research/ChineseBLUE

預訓練模型：mc_bert_base.tar.gz

背景

總結：生物醫學領域的中文預訓練以及評測基準數據集。

擬解決的問題：如何檢索生物醫學領域知識；如何在模型預訓練中利用生物醫學領域的知識。

2. 方法

（1）Whole Entity Masking

解決的問題：遮蓋類似于”腹痛“的醫療實體，將這種醫療知識顯式地注入模型中。

步驟：

1）使用實體命名識別預測醫療實體；

2）使用中文醫療知識圖譜后處理實體。

（2）Whole Span Masking

解決的問題：醫療實體還不足夠，醫療文本中存在類似”肚子有一點痛“，”腹部一陣一陣痛“，它們也與”腹痛“具有類似的含義。

步驟：

1）使用Autophrase提取短語；

2）從Alibaba Cognitive Concept Graph檢索通用的醫療短語；

3）訓練了一個二分類器，用于分類出Autophrase提取出的醫學短語。

（3）整體流程總結

1）生成醫療實體，使用醫療知識圖譜提純醫療實體；

2）使用Autophrase生成短語；

3）使用規則以及fastText增強和提純短語；

4）以15%的幾率進行Whole Entity/Span Masking；

5）用BERT-base的模型參數進行初始化，然后進行預訓練。

3. 實驗

（1）預訓練數據

預訓練數據來自于中文醫療問答、中文醫療百科和中文電子病歷。

（2）下游任務

下游任務數據來自于新發布的Chinese Biomedical Language Understanding Evaluation benchmark (ChineseBLUE)。

（3）實驗結果

與Baseline相比，在所有任務上都有著不同程度的提升：

消融實驗，移除whole entity/span masking都會影響模型的效果：

《新程序員》：云原生和全面數字化實踐50位技術專家共同創作，文字、視頻、音頻交互閱讀

總結

以上是生活随笔為你收集整理的bert中文预训练模型_[中文医疗预训练模型] MC-BERT的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。