BERT、MT-DNN、GPT2.0、ERNIE
目前效果較好的大部分的nlp任務(wù)都會(huì)應(yīng)用預(yù)訓(xùn)練語言模型的遷移知識(shí),主要是采用兩階段的模型。第一階段進(jìn)行預(yù)訓(xùn)練,一般是訓(xùn)練一個(gè)語言模型。最出名的是BERT,BERT的預(yù)訓(xùn)練階段包括兩個(gè)任務(wù),一個(gè)是Masked Language Model,還有一個(gè)是Next Sentence Prediction。通過預(yù)訓(xùn)練能夠利用海量的無標(biāo)注的語料,以從中抽取出語言學(xué)特征,并在第二階段結(jié)合具體任務(wù),把這些從海量無標(biāo)注語料中抽取出的語言學(xué)特征作為特征補(bǔ)充,遷移到下游任務(wù)中進(jìn)行應(yīng)用。第一階段預(yù)訓(xùn)練出的模型具有很強(qiáng)的泛化能力,一方面是因?yàn)檎Z料非常豐富能夠得到很好的表征,另一方面是因?yàn)槭褂枚鄬拥腡ransformer作為特征提取器能夠抽取出泛化能夠更強(qiáng)的特征。從GPT2.0可以看出加大用于進(jìn)行預(yù)訓(xùn)練模型的語料,同時(shí)提高這些語料的質(zhì)量能夠使訓(xùn)練出的模型更具泛化性能。從微軟提出的多任務(wù)深度神經(jīng)網(wǎng)絡(luò)以及清華和華為ERNIE: Enhanced Language Representation with Informative Entities以及百度的ERNIE: Enhanced Representation through Knowledge Integration來看補(bǔ)充更多的先驗(yàn)知識(shí)供預(yù)訓(xùn)練語言模型學(xué)習(xí)能夠使模型泛化能力更高。ERNIE相當(dāng)于融入了知識(shí)圖譜,清華的ERNIE在BERT的MLM以及Next Sentence Prediction任務(wù)的基礎(chǔ)上增加了denoising entity auto-encoder (dEA)任務(wù),這是自然而然應(yīng)該想到了,MLM相當(dāng)于在字上的降噪,增加了實(shí)體信息,自然應(yīng)該在實(shí)體層次進(jìn)行降噪。
在具體的第二階段的任務(wù)中我們只需結(jié)合第一階段的預(yù)訓(xùn)練(pre-train)模型簡(jiǎn)單的修改一些輸出層,再用我們自己的數(shù)據(jù)進(jìn)行一個(gè)增量訓(xùn)練,對(duì)權(quán)重進(jìn)行一個(gè)輕微的調(diào)整(fine-tune)。例如BERT訓(xùn)練好的模型會(huì)保存在checkpoint中,在我們進(jìn)行具體的第二階段的任務(wù)時(shí),例如分類任務(wù),只需傳入當(dāng)前的訓(xùn)練語料會(huì)加載預(yù)訓(xùn)練模型的圖以及訓(xùn)練好的具備豐富特征的參數(shù),因?yàn)轭A(yù)訓(xùn)練好的模型泛化能力很強(qiáng),所以具體任務(wù)中只需要對(duì)可訓(xùn)練的這些參數(shù)進(jìn)行fine-tuning(微調(diào))便能滿足當(dāng)前任務(wù),因?yàn)榭捎玫臉?biāo)注語料很少,只用這些語料通過特征抽取器可能并無法抽取出泛化能力強(qiáng)的表征,通過預(yù)訓(xùn)練的模型能夠進(jìn)行很好的特征補(bǔ)充,使得抽取出的特征更加適用于我們具體的任務(wù)。結(jié)合具體任務(wù)的訓(xùn)練語料對(duì)可訓(xùn)練的參數(shù)進(jìn)行微調(diào),然后把這些微調(diào)后的參數(shù)以及圖保存起來,以便于我們進(jìn)一步進(jìn)行預(yù)測(cè)時(shí)使用。
論文的詳細(xì)介紹參考另一篇博客:https://www.cnblogs.com/dyl222/p/10960842.html
轉(zhuǎn)載于:https://www.cnblogs.com/dyl222/p/10779742.html
總結(jié)
以上是生活随笔為你收集整理的BERT、MT-DNN、GPT2.0、ERNIE的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: nRFgo Studio 和 Nrfjp
- 下一篇: 用脚本js把结果转化为固定小数位的形式