日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

继BERT之后,这个新模型再一次在11项NLP基准上打破纪录

發(fā)布時間:2025/6/17 60 豆豆
生活随笔 收集整理的這篇文章主要介紹了 继BERT之后,这个新模型再一次在11项NLP基准上打破纪录 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

機器之心報道

作者:思源


自 BERT 打破 11 項 NLP 的記錄后,可應(yīng)用于廣泛任務(wù)的 NLP 預(yù)訓(xùn)練模型就已經(jīng)得到大量關(guān)注。最近微軟推出了一個綜合性模型,它在這 11 項 NLP 任務(wù)中超過了 BERT。目前名為「Microsoft D365 AI & MSR AI」的模型還沒有提供對應(yīng)的論文與項目地址,因此它到底是不是一種新的預(yù)訓(xùn)練方法也不得而知。


BERT 和微軟新模型都采用了通用語言理解評估(GLUE)基準中的 11 項任務(wù),并希望借助 GLUE 展示模型在廣泛自然語言理解任務(wù)中的魯棒性。其中 GLUE 基準并不需要知道具體的模型,因此原則上任何能處理句子和句子對,并能產(chǎn)生相應(yīng)預(yù)測的系統(tǒng)都能參加評估。這 11 項基準任務(wù)重點衡量了模型在跨任務(wù)上的能力,尤其是參數(shù)共享或遷移學(xué)習(xí)的性能。


從微軟新模型在 GLUE 基準的表現(xiàn)上來看,至少它在 11 項 NLP 任務(wù)中比 BERT-Large 更高效。這種高效不僅體現(xiàn)在 81.9 的總體任務(wù)評分,同時還體現(xiàn)在參數(shù)效率上。微軟的新模型只有 1.1 億的參數(shù)量,遠比 BERT-Large 模型的 3.35 億參數(shù)量少,和 BERT-Base 的參數(shù)量一樣多。下圖展示了 GLUE 基準排名前 5 的模型:



在「Microsoft D365 AI & MSR AI」模型的描述頁中,新模型采用的是一種多任務(wù)聯(lián)合學(xué)習(xí)。因此所有任務(wù)都共享相同的結(jié)構(gòu),并通過多任務(wù)訓(xùn)練方法聯(lián)合學(xué)習(xí)。此外,這 11 項任務(wù)可以分為 4 類,即句子對分類 MNLI、QQP、QNLI、STS-B、MRPC、RTE 和 SWAG;單句子分類任務(wù) SST-2、CoLA;問答任務(wù) SQuAD v1.1;單句子標注任務(wù)(命名實體識別)CoNLL-2003 NER。


其中在句子對分類任務(wù)中,有判斷問答對是不是包含正確回答的 QNLI、判斷兩句話有多少相似性的 STS-B 等,它們都用于處理句子之間的關(guān)系。而單句子分類任務(wù)中有判斷語句中情感趨向的 SST-2 和判斷語法正確性的 CoLA 任務(wù),它們都在處理句子內(nèi)部的關(guān)系。


在 SQuAD v1.1 問答數(shù)據(jù)集中,模型將通過問題檢索段落中正確回答的位置與長度。最后在命名實體識別數(shù)據(jù)集 CoNLL 中,每一個時間步都會預(yù)測它的標注是什么,例如人物或地點等。


如下所示為微軟新模型在不同任務(wù)中的得分:



目前微軟新模型的性能還非常少,如果經(jīng)過多任務(wù)預(yù)訓(xùn)練,它也能像 BERT 那樣用于更廣泛的 NLP 任務(wù),那么這樣的高效模型無疑會有很大的優(yōu)勢。


總結(jié)

以上是生活随笔為你收集整理的继BERT之后,这个新模型再一次在11项NLP基准上打破纪录的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。