當前位置：首頁 >

继BERT之后，这个新模型再一次在11项NLP基准上打破纪录

發(fā)布時間：2025/6/17 60 豆豆

生活随笔收集整理的這篇文章主要介紹了继BERT之后，这个新模型再一次在11项NLP基准上打破纪录小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

機器之心報道

作者：思源

自 BERT 打破 11 項 NLP 的記錄后，可應(yīng)用于廣泛任務(wù)的 NLP 預(yù)訓(xùn)練模型就已經(jīng)得到大量關(guān)注。最近微軟推出了一個綜合性模型，它在這 11 項 NLP 任務(wù)中超過了 BERT。目前名為「Microsoft D365 AI & MSR AI」的模型還沒有提供對應(yīng)的論文與項目地址，因此它到底是不是一種新的預(yù)訓(xùn)練方法也不得而知。

BERT 和微軟新模型都采用了通用語言理解評估（GLUE）基準中的 11 項任務(wù)，并希望借助 GLUE 展示模型在廣泛自然語言理解任務(wù)中的魯棒性。其中 GLUE 基準并不需要知道具體的模型，因此原則上任何能處理句子和句子對，并能產(chǎn)生相應(yīng)預(yù)測的系統(tǒng)都能參加評估。這 11 項基準任務(wù)重點衡量了模型在跨任務(wù)上的能力，尤其是參數(shù)共享或遷移學(xué)習(xí)的性能。

從微軟新模型在 GLUE 基準的表現(xiàn)上來看，至少它在 11 項 NLP 任務(wù)中比 BERT-Large 更高效。這種高效不僅體現(xiàn)在 81.9 的總體任務(wù)評分，同時還體現(xiàn)在參數(shù)效率上。微軟的新模型只有 1.1 億的參數(shù)量，遠比 BERT-Large 模型的 3.35 億參數(shù)量少，和 BERT-Base 的參數(shù)量一樣多。下圖展示了 GLUE 基準排名前 5 的模型：

在「Microsoft D365 AI & MSR AI」模型的描述頁中，新模型采用的是一種多任務(wù)聯(lián)合學(xué)習(xí)。因此所有任務(wù)都共享相同的結(jié)構(gòu)，并通過多任務(wù)訓(xùn)練方法聯(lián)合學(xué)習(xí)。此外，這 11 項任務(wù)可以分為 4 類，即句子對分類 MNLI、QQP、QNLI、STS-B、MRPC、RTE 和 SWAG；單句子分類任務(wù) SST-2、CoLA；問答任務(wù) SQuAD v1.1；單句子標注任務(wù)（命名實體識別）CoNLL-2003 NER。

其中在句子對分類任務(wù)中，有判斷問答對是不是包含正確回答的 QNLI、判斷兩句話有多少相似性的 STS-B 等，它們都用于處理句子之間的關(guān)系。而單句子分類任務(wù)中有判斷語句中情感趨向的 SST-2 和判斷語法正確性的 CoLA 任務(wù)，它們都在處理句子內(nèi)部的關(guān)系。

在 SQuAD v1.1 問答數(shù)據(jù)集中，模型將通過問題檢索段落中正確回答的位置與長度。最后在命名實體識別數(shù)據(jù)集 CoNLL 中，每一個時間步都會預(yù)測它的標注是什么，例如人物或地點等。

如下所示為微軟新模型在不同任務(wù)中的得分：

目前微軟新模型的性能還非常少，如果經(jīng)過多任務(wù)預(yù)訓(xùn)練，它也能像 BERT 那樣用于更廣泛的 NLP 任務(wù)，那么這樣的高效模型無疑會有很大的優(yōu)勢。

總結(jié)

以上是生活随笔為你收集整理的继BERT之后，这个新模型再一次在11项NLP基准上打破纪录的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：腾讯AI×王者荣耀「绝悟」项目首亮相：K
下一篇：硬核NeruIPS 2018最佳论文，一

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

继BERT之后，这个新模型再一次在11项NLP基准上打破纪录

總結(jié)