计算机组成原理sop,MacBERT:MLM as correction BERT
本次分享的論文MacBERT,來(lái)自哈工大SCIR實(shí)驗(yàn)室,收錄于Findings of EMNLP 子刊,全名為Revisiting Pre-Trained Models for Chinese Natural Language Processing,即中文自然語(yǔ)言處理的預(yù)訓(xùn)練模型再訪。
論文地址:Paper
該篇論文主要做了以下三方面的工作:
(1)大量的實(shí)證研究,以重新審視中文預(yù)訓(xùn)練模型在各種任務(wù)上的表現(xiàn),并進(jìn)行了細(xì)致的分析。
(2)提出了一個(gè)新的預(yù)訓(xùn)練模型MacBERT,通過(guò)用其相似的單詞來(lái)掩蓋單詞,從而縮小訓(xùn)練前和微調(diào)階段之間的差距。
(3)為了進(jìn)一步加快對(duì)中文NLP的研究,創(chuàng)建了中文預(yù)訓(xùn)練模型系列并發(fā)布到社區(qū)。
本文章僅針對(duì)該論文的第二個(gè)工作進(jìn)行介紹,即介紹預(yù)訓(xùn)練模型MacBERT。MacBERT模型保持了與BERT相同的訓(xùn)練前任務(wù),但做了一些修改,具體如下:
1、使用全詞掩蔽和N-Gram掩蔽策略來(lái)選擇候選tokens進(jìn)行掩蔽,從單字符到4字符的掩蔽百分比為40%、30%、20%、10%。
2、原始BERT模型使用[MASK] token進(jìn)行掩蔽,但是[MASK] token在微調(diào)階段從未出現(xiàn),這會(huì)造成預(yù)訓(xùn)練任務(wù)與下游微調(diào)任務(wù)不一致;因此該論文建議使用類似的單詞來(lái)掩蔽需要被掩蔽的單詞。
類似的單詞可以通過(guò)同義詞工具包(Synonyms)獲得,該工具包是基于word2vec相似度計(jì)算來(lái)獲取同義詞的。
選擇一個(gè)N-gram進(jìn)行掩碼時(shí),該論文將分別找到相似的單詞。在極少數(shù)情況下,當(dāng)沒(méi)有相似的詞時(shí),會(huì)降級(jí)使用隨機(jī)詞替換。
3、使用15%的百分比輸入單詞進(jìn)行掩蔽,其中80%將替換為相似的單詞,10%將替換為隨機(jī)單詞,剩下的10%將保留原始單詞。
4、該論文使用ALBERT提出的句子順序預(yù)測(cè)(SOP)任務(wù)替換BERT原始的NSP任務(wù),通過(guò)切換兩個(gè)連續(xù)句子的原順序創(chuàng)建負(fù)樣本。
注意:該論文對(duì)MacBERT模型進(jìn)行預(yù)訓(xùn)練時(shí)使用了擴(kuò)展數(shù)據(jù)。并且為了識(shí)別漢語(yǔ)詞語(yǔ)的邊界,使用LTP進(jìn)行中文分詞。
這里有一個(gè)問(wèn)題,就是模型對(duì)單字符的概率是40%,對(duì)于英文來(lái)說(shuō),比較容易找到單個(gè)字符的同義詞
,但是單個(gè)字符對(duì)于中文來(lái)說(shuō),大概率是無(wú)法找到同義詞的,因此筆者并不理解要如何去操作。
難道要把這么多找不到同義詞的使用隨機(jī)替換嗎?顯然應(yīng)該沒(méi)有這么簡(jiǎn)單,可能需要源碼放出來(lái)的時(shí)候,才能知道。
或者有理解的小伙伴,可以再評(píng)論中解答一下,也可以加我微信或私聊我。
訓(xùn)練參數(shù)
Base模型參數(shù)如下:
Large模型參數(shù)如下:
各個(gè)任務(wù)上MacBERT模型微調(diào)效果
閱讀理解任務(wù)
CMRC2018數(shù)據(jù)集效果如下:
DRCD數(shù)據(jù)集效果如下:
CJRC數(shù)據(jù)集效果如下:
句子對(duì)匹配任務(wù)
XNLI、LCQMC、BQ Corpus數(shù)據(jù)集效果如下:
分類任務(wù)
情感分類任務(wù)ChnSentiCorp數(shù)據(jù)集效果如下:
文檔分類任務(wù)THUCNews數(shù)據(jù)集效果如下:
消融實(shí)驗(yàn)
為了對(duì)比,上述提出改進(jìn)點(diǎn)的效果,進(jìn)行消融實(shí)驗(yàn),結(jié)果如下圖所示:
可以看出,上述提出的改進(jìn)點(diǎn),對(duì)于預(yù)訓(xùn)練語(yǔ)言模型來(lái)說(shuō),都有一定的提升。
總結(jié)
等論文code開(kāi)源。看一下在中文數(shù)據(jù)下,單個(gè)字符是如何找到同義詞的。
推薦幾篇筆者文章:
總結(jié)
以上是生活随笔為你收集整理的计算机组成原理sop,MacBERT:MLM as correction BERT的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 中级计算机培训班心得,计算机中级培训学习
- 下一篇: 终端服务器有多种运行模式,云终端的三种工