日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

计算机组成原理sop,MacBERT:MLM as correction BERT

發布時間:2025/3/20 编程问答 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 计算机组成原理sop,MacBERT:MLM as correction BERT 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本次分享的論文MacBERT,來自哈工大SCIR實驗室,收錄于Findings of EMNLP 子刊,全名為Revisiting Pre-Trained Models for Chinese Natural Language Processing,即中文自然語言處理的預訓練模型再訪。

論文地址:Paper

該篇論文主要做了以下三方面的工作:

(1)大量的實證研究,以重新審視中文預訓練模型在各種任務上的表現,并進行了細致的分析。

(2)提出了一個新的預訓練模型MacBERT,通過用其相似的單詞來掩蓋單詞,從而縮小訓練前和微調階段之間的差距。

(3)為了進一步加快對中文NLP的研究,創建了中文預訓練模型系列并發布到社區。

本文章僅針對該論文的第二個工作進行介紹,即介紹預訓練模型MacBERT。MacBERT模型保持了與BERT相同的訓練前任務,但做了一些修改,具體如下:

1、使用全詞掩蔽和N-Gram掩蔽策略來選擇候選tokens進行掩蔽,從單字符到4字符的掩蔽百分比為40%、30%、20%、10%。

2、原始BERT模型使用[MASK] token進行掩蔽,但是[MASK] token在微調階段從未出現,這會造成預訓練任務與下游微調任務不一致;因此該論文建議使用類似的單詞來掩蔽需要被掩蔽的單詞。

類似的單詞可以通過同義詞工具包(Synonyms)獲得,該工具包是基于word2vec相似度計算來獲取同義詞的。

選擇一個N-gram進行掩碼時,該論文將分別找到相似的單詞。在極少數情況下,當沒有相似的詞時,會降級使用隨機詞替換。

3、使用15%的百分比輸入單詞進行掩蔽,其中80%將替換為相似的單詞,10%將替換為隨機單詞,剩下的10%將保留原始單詞。

4、該論文使用ALBERT提出的句子順序預測(SOP)任務替換BERT原始的NSP任務,通過切換兩個連續句子的原順序創建負樣本。

注意:該論文對MacBERT模型進行預訓練時使用了擴展數據。并且為了識別漢語詞語的邊界,使用LTP進行中文分詞。

這里有一個問題,就是模型對單字符的概率是40%,對于英文來說,比較容易找到單個字符的同義詞

,但是單個字符對于中文來說,大概率是無法找到同義詞的,因此筆者并不理解要如何去操作。

難道要把這么多找不到同義詞的使用隨機替換嗎?顯然應該沒有這么簡單,可能需要源碼放出來的時候,才能知道。

或者有理解的小伙伴,可以再評論中解答一下,也可以加我微信或私聊我。

訓練參數

Base模型參數如下:

Large模型參數如下:

各個任務上MacBERT模型微調效果

閱讀理解任務

CMRC2018數據集效果如下:

DRCD數據集效果如下:

CJRC數據集效果如下:

句子對匹配任務

XNLI、LCQMC、BQ Corpus數據集效果如下:

分類任務

情感分類任務ChnSentiCorp數據集效果如下:

文檔分類任務THUCNews數據集效果如下:

消融實驗

為了對比,上述提出改進點的效果,進行消融實驗,結果如下圖所示:

可以看出,上述提出的改進點,對于預訓練語言模型來說,都有一定的提升。

總結

等論文code開源。看一下在中文數據下,單個字符是如何找到同義詞的。

推薦幾篇筆者文章:

總結

以上是生活随笔為你收集整理的计算机组成原理sop,MacBERT:MLM as correction BERT的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。