BERT微调误区
??與CV不同的是,NLP的微調是建立在大量無標記的數據當中的,比如維基百科。因此NLP上的預訓練語言模型大多采用的是自監督的方式完成訓練,具體方式有LM(language mode,即預測下一個單詞)和MLM(Masked language model)隨機遮蓋一個詞,通過周圍的單詞完成對中性詞的預測,其中,GPT采用的是LM,因此更適用于預測下一句的任務,而BERT則采用后者,11個NLP任務的SOTA。
??原始的文章中對于BERT的微調的描述是有一些誤區的。
參考連接:11.2NLP中的微調【斯坦福21秋季:實用機器學習中文版】
https://www.bilibili.com/video/BV1bq4y1y7tg?spm_id_from=333.999.0.0
文章How to Fine-Tune BERT for Text Classification?
總結
- 上一篇: kaminari
- 下一篇: 看看别人家的神仙公司