當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

计算机组成原理sop,MacBERT：MLM as correction BERT

發(fā)布時(shí)間：2025/3/20 编程问答 43 豆豆

生活随笔收集整理的這篇文章主要介紹了计算机组成原理sop,MacBERT：MLM as correction BERT 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

本次分享的論文MacBERT，來(lái)自哈工大SCIR實(shí)驗(yàn)室，收錄于Findings of EMNLP 子刊，全名為Revisiting Pre-Trained Models for Chinese Natural Language Processing，即中文自然語(yǔ)言處理的預(yù)訓(xùn)練模型再訪。

論文地址：Paper

該篇論文主要做了以下三方面的工作：

(1)大量的實(shí)證研究，以重新審視中文預(yù)訓(xùn)練模型在各種任務(wù)上的表現(xiàn)，并進(jìn)行了細(xì)致的分析。

(2)提出了一個(gè)新的預(yù)訓(xùn)練模型MacBERT，通過(guò)用其相似的單詞來(lái)掩蓋單詞，從而縮小訓(xùn)練前和微調(diào)階段之間的差距。

(3)為了進(jìn)一步加快對(duì)中文NLP的研究，創(chuàng)建了中文預(yù)訓(xùn)練模型系列并發(fā)布到社區(qū)。

本文章僅針對(duì)該論文的第二個(gè)工作進(jìn)行介紹，即介紹預(yù)訓(xùn)練模型MacBERT。MacBERT模型保持了與BERT相同的訓(xùn)練前任務(wù)，但做了一些修改，具體如下：

1、使用全詞掩蔽和N-Gram掩蔽策略來(lái)選擇候選tokens進(jìn)行掩蔽，從單字符到4字符的掩蔽百分比為40%、30%、20%、10%。

2、原始BERT模型使用[MASK] token進(jìn)行掩蔽，但是[MASK] token在微調(diào)階段從未出現(xiàn)，這會(huì)造成預(yù)訓(xùn)練任務(wù)與下游微調(diào)任務(wù)不一致；因此該論文建議使用類似的單詞來(lái)掩蔽需要被掩蔽的單詞。

類似的單詞可以通過(guò)同義詞工具包(Synonyms)獲得，該工具包是基于word2vec相似度計(jì)算來(lái)獲取同義詞的。

選擇一個(gè)N-gram進(jìn)行掩碼時(shí)，該論文將分別找到相似的單詞。在極少數(shù)情況下，當(dāng)沒(méi)有相似的詞時(shí)，會(huì)降級(jí)使用隨機(jī)詞替換。

3、使用15%的百分比輸入單詞進(jìn)行掩蔽，其中80%將替換為相似的單詞，10%將替換為隨機(jī)單詞，剩下的10%將保留原始單詞。

4、該論文使用ALBERT提出的句子順序預(yù)測(cè)(SOP)任務(wù)替換BERT原始的NSP任務(wù)，通過(guò)切換兩個(gè)連續(xù)句子的原順序創(chuàng)建負(fù)樣本。

注意：該論文對(duì)MacBERT模型進(jìn)行預(yù)訓(xùn)練時(shí)使用了擴(kuò)展數(shù)據(jù)。并且為了識(shí)別漢語(yǔ)詞語(yǔ)的邊界，使用LTP進(jìn)行中文分詞。

這里有一個(gè)問(wèn)題，就是模型對(duì)單字符的概率是40%，對(duì)于英文來(lái)說(shuō)，比較容易找到單個(gè)字符的同義詞

，但是單個(gè)字符對(duì)于中文來(lái)說(shuō)，大概率是無(wú)法找到同義詞的，因此筆者并不理解要如何去操作。

難道要把這么多找不到同義詞的使用隨機(jī)替換嗎？顯然應(yīng)該沒(méi)有這么簡(jiǎn)單，可能需要源碼放出來(lái)的時(shí)候，才能知道。

或者有理解的小伙伴，可以再評(píng)論中解答一下，也可以加我微信或私聊我。

訓(xùn)練參數(shù)

Base模型參數(shù)如下：

Large模型參數(shù)如下：

各個(gè)任務(wù)上MacBERT模型微調(diào)效果

閱讀理解任務(wù)

CMRC2018數(shù)據(jù)集效果如下：

DRCD數(shù)據(jù)集效果如下：

CJRC數(shù)據(jù)集效果如下：

句子對(duì)匹配任務(wù)

XNLI、LCQMC、BQ Corpus數(shù)據(jù)集效果如下：

分類任務(wù)

情感分類任務(wù)ChnSentiCorp數(shù)據(jù)集效果如下：

文檔分類任務(wù)THUCNews數(shù)據(jù)集效果如下：

消融實(shí)驗(yàn)

為了對(duì)比，上述提出改進(jìn)點(diǎn)的效果，進(jìn)行消融實(shí)驗(yàn)，結(jié)果如下圖所示：

可以看出，上述提出的改進(jìn)點(diǎn)，對(duì)于預(yù)訓(xùn)練語(yǔ)言模型來(lái)說(shuō)，都有一定的提升。

總結(jié)

等論文code開(kāi)源。看一下在中文數(shù)據(jù)下，單個(gè)字符是如何找到同義詞的。

推薦幾篇筆者文章：

總結(jié)

以上是生活随笔為你收集整理的计算机组成原理sop,MacBERT：MLM as correction BERT的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：中级计算机培训班心得,计算机中级培训学习
下一篇：终端服务器有多种运行模式,云终端的三种工

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

计算机组成原理sop,MacBERT：MLM as correction BERT

總結(jié)